KR102432204B1

KR102432204B1 - 이미지 처리 방법, 장치, 저장 매체 및 전자 기기

Info

Publication number: KR102432204B1
Application number: KR1020217034504A
Authority: KR
Inventors: 유에 리아오; 페이 왕; 얀지에 첸; 첸 퀴안; 시 리우
Original assignee: 상하이 센스타임 린강 인텔리전트 테크놀로지 컴퍼니 리미티드
Priority date: 2019-12-30
Filing date: 2020-09-22
Publication date: 2022-08-12
Also published as: CN111104925A; WO2021135424A1; JP7105383B2; JP2022520498A; CN111104925B; KR20210136138A

Abstract

본 발명의 실시예는 이미지 처리 방법, 장치, 저장 매체 및 전자 기기를 제공한다. 상기 방법은, 제1 이미지의 특징 데이터를 추출하는 단계; 상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 인터랙션 키 포인트 및 각 타깃의 중심 포인트를 결정하는 단계 - 하나의 인터랙션 키 포인트는 연결 라인에서 상기 연결 라인의 중점과의 거리가 기설정된 범위 내의 하나의 포인트이고, 상기 연결 라인은 하나의 인터랙션 동작에서의 두 개 타깃의 중심 포인트 간의 연결 라인임 - ; 상기 특징 데이터에 기반하여 적어도 두 개의 오프셋양을 결정하는 단계 - 하나의 오프셋양은 하나의 인터랙션 동작에서의 인터랙션 키 포인트와 상기 인터랙션 동작에서의 하나의 타깃의 중심 포인트의 오프셋양을 나타냄 - ; 및 상기 각 타깃의 중심 포인트, 상기 인터랙션 키 포인트 및 상기 적어도 두 개의 오프셋양에 기반하여 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 단계를 포함한다.

Description

이미지 처리 방법, 장치, 저장 매체 및 전자 기기

관련 출원의 상호 참조

본 발명은 출원 번호가 201911404450.6이고, 출원일이 2019년 12월 30일인 중국 특허 출원에 기반하여 제출하였고, 상기 중국 특허 출원의 우선권을 주장하며, 상기 중국 특허 출원의 모든 내용은 참조로서 본 출원에 인용된다.

본 발명은 이미지 처리 기술에 관한 것이며, 구체적으로 이미지 처리 방법, 장치, 저장 매체 및 전자 기기에 관한 것이다.

이미지에서의 사람과 물체 사이의 인터랙션 동작 관계 검출의 경우, 통상적으로 우선 탐지기를 통해 이미지 속의 사람과 물체를 검출하고, 신뢰도가 소정의 임계값보다 높은 사람과 물체를 선출하고, 선출한 사람과 물체를 페어링하여, 사람-물체 쌍을 이루고; 다음 관계 분류 네트워크를 통해 각 사람-물체 쌍에 대해 분류를 수행하고, 동작 관계 카테고리를 출력한다.

상기 처리 과정에서, 제1 측면에서는, 검출의 신뢰도만 고려하였고, 사람과 물체가 인터랙션 동작을 생성하는 가능성은 고려하지 못하므로, 진정한 인터랙션 동작 관계를 구비한 사람 또는 물체를 손실할 수 있고, 즉 진정한 인터랙션 관계를 구비한 사람-물체 쌍을 손실할 수 있으며, 대량의 진정한 인터랙션 동작 관계를 구비하지 않은 사람-물체 쌍을 생성할 수 있고; 제2 측면에서는, 통상적인 상황에서, 한장의 이미지에는 아주 적은 사람과 물체가 인터랙션 동작 관계를 구비하고 있으며, 만약 이미지에서 M 개의 사람, N 개의 물체를 검출할 경우, 상기 처리 방식을 사용하면, M×N 개의 사람-물체 쌍을 생성하고, 관계 분류 네트워크는 각 사람-물체 쌍에 대해 그에 대응되는 동작 관계 카테고리를 결정하여야 하기에, 불 필요한 처리 및 소모를 많이 생성한다.

본 발명의 실시예는 이미지 처리 방법, 장치, 저장 매체 및 전자 기기를 제공한다.

본 발명의 실시예는 이미지 처리 방법을 제공하였고, 상기 방법은, 제1 이미지의 특징 데이터를 추출하는 단계; 상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 인터랙션 키 포인트 및 각 타깃의 중심 포인트를 결정하는 단계 - 하나의 인터랙션 키 포인트는 연결 라인에서 상기 연결 라인의 중점과의 거리가 기설정된 범위 내인 하나의 포인트이고, 상기 연결 라인은 하나의 인터랙션 동작에서의 두 개 타깃의 중심 포인트 간의 연결 라인임 - ; 상기 특징 데이터에 기반하여 적어도 두 개의 오프셋양을 결정하는 단계 - 하나의 오프셋양은 하나의 인터랙션 동작에서의 인터랙션 키 포인트와 상기 인터랙션 동작에서의 하나의 타깃 중심 포인트의 오프셋양을 나타냄 - ; 및 각 타깃의 중심 포인트, 상기 인터랙션 키 포인트 및 상기 적어도 두 개의 오프셋양에 기반하여 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 단계를 포함한다.

본 발명의 일부 선택 가능한 실시예에 있어서, 상기 특징 테이터에 기반하여 상기 제1 이미지에서의 각 인터랙션 키 포인트 및 각 타깃의 중심 포인트를 결정하는 단계는, 상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 타깃의 중심 포인트, 및 각 타깃의 신뢰도를 결정하는 단계; 및 상기 특징 데이터에 기반하여 상기 제1 이미지에서의 인터랙션 키 포인트, 및 각 인터랙션 키 포인트가 각 인터랙션 동작 카테고리에 대응되는 신뢰도를 결정하는 단계를 포함하고; 상기 각 타깃의 중심 포인트, 상기 인터랙션 키포인트 및 상기 적어도 두 개의 오프셋양에 기반하여 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 단계는, 각 타깃의 중심 포인트, 상기 인터랙션 키 포인트, 상기 적어도 두 개의 오프셋양, 각 타깃의 신뢰도 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도에 기반하여, 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 단계를 포함한다.

본 발명의 일부 선택 가능한 실시예에 있어서, 상기 특징 테이터에 기반하여 상기 제1 이미지에서의 각 타깃 중심 포인트 및 각 타깃의 신뢰도를 결정하는 단계는, 상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 타깃의 중심 포인트 및 이의 카테고리, 및 각 타깃이 각 카테고리의 신뢰도에 속하는 것을 결정하는 단계를 포함하고; 각 타깃의 중심 포인트, 상기 인터랙션 키 포인트, 상기 적어도 두 개의 오프셋양, 각 타깃의 신뢰도 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도에 기반하여, 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 단계는, 상기 각 타깃의 중심 포인트 및 이의 카테고리, 상기 인터랙션 키 포인트, 상기 적어도 두 개의 오프셋양, 각 타깃이 각 카테고리의 신뢰도에 속하는 것 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도에 기반하여, 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 단계를 포함한다.

본 발명의 일부 선택 가능한 실시예에서, 상기 각 타깃의 중심 포인트, 상기 인터랙션 키 포인트, 상기 적어도 두 개의 오프셋양, 각 타깃의 신뢰도 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도에 기반하여, 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 단계는, 하나의 인터랙션 키 포인트에 대해, 상기 인터랙션 키 포인트와 서로 대응되는 두 개의 오프셋양을 결정하는 단계; 상기 인터랙션 키 포인트 및 상기 인터랙션 키 포인트와 서로 대응되는 두 개의 오프셋양에 따라, 상기 인터랙션 키 포인트와 대응되는 두 개의 예측 중심 포인트를 결정하는 단계; 각 타깃의 중심 포인트 및 각 인터랙션 키 포인트와 대응되는 두 개의 예측 중심 포인트에 따라, 각 인터랙션 키 포인트에 대응되는 두 개의 타깃을 결정하는 단계; 및 각 인터랙션 키 포인트에 대응되는 두 개의 타깃, 각 타깃의 신뢰도 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도에 기반하여, 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 단계를 포함한다.

본 발명의 일부 선택 가능한 실시예에 있어서, 상기 각 인터랙션 키 포인트에 대응되는 두 개의 타깃, 각 타깃의 신뢰도 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도에 따라, 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 단계는, 하나의 인터랙션 키 포인트에 대해, 상기 인터랙션 키 포인트에 대응되는 하나의 기설정된 인터랙션 동작 카테고리의 신뢰도와 상기 인터랙션 키 포인트에 대응되는 두 개의 타깃의 신뢰도를 서로 곱하여, 제1 신뢰도를 얻는 단계 - 상기 제1 신뢰도는 상기 인터랙션 키 포인트에 대응되는 두 개 타깃 간의 인터랙션 관계가 상기 기설정된 인터랙션 동작 카테고리에 속하는 신뢰도임 - ; 상기 제1 신뢰도가 신뢰도 임계값보다 큰것에 응답하여, 상기 인터랙션 키 포인트에 대응되는 두 개 타깃 간의 인터랙션 관계가 상기 기설정된 인터랙션 동작 카테고리에 속하는 것을 결정하는 단계; 및 상기 제1 신뢰도가 신뢰도 임계값보다 크지 않는 것에 응답하여, 상기 인터랙션 키 포인트에 대응되는 두 개 타깃 간의 인터랙션 관계가 상기 기설정된 인터랙션 동작 카테고리에 속하지 않는 것을 결정하는 단계를 포함한다,

본 발명의 일부 선택 가능한 실시예에서, 상기 방법은 또한, 하나의 인터랙션 키 포인트에 대응되는 두 개 타깃 간의 인터랙션 관계가 각 기설정된 인터랙션 동작 카테고리에 속하지 않는 것을 결정한 후, 상기 인터랙션 키 포인트에 대응되는 두 개 타깃 사이에 인터랙션 관계가 존재하지 않는 것을 결정하는 단계를 더 포함한다.

본 발명의 일부 선택 가능한 실시예에 있어서, 상기 각 타깃의 중심 포인트 및 각 인터랙션 키 포인트에 대응되는 두 개의 예측 중심 포인트에 따라, 각 인터랙션 키 포인트에 대응되는 두 개의 타깃을 결정하는 단계는, 하나의 예측 중심 포인트에 대해, 각 타깃의 중심 포인트와 상기 예측 중심 포인트 간의 거리를 결정하는 단계; 및 중심 포인트와 상기 예측 중심 포인트 간의 거리가 기설정된 거리의 임계값보다 작은 타깃을 상기 예측 중심 포인트가 대응되는 인터랙션의 키 포인트가 대응되는 타깃으로 사용되는 단계를 포함한다.

본 발명의 일부 선택 가능한 실시예에 있어서, 상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 타깃의 중심 포인트를 결정하는 단계는, 상기 특징 데이터를 다운 샘플링하여 상기 제1 이미지의 히트 맵을 얻는 단계; 상기 히트 맵에 따라 상게 제1 이미지에서의 각 포인트의 위치 오프셋, 상기 제1 이미지에서의 각 타깃의 중심 포인트 및 각 타깃의 검출 프레임의 높이와 너비를 결정하는 단계; 및 상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 타깃의 중심 포인트를 결정하는 단계를 포함하며 그 후, 상기 방법은 또한, 상기 제1 이미지에서의 인터랙션 관계를 구비한 타깃의 중심 포인트의 위치 오프셋에 따라 상기 제1 이미지에서의 인터랙션 관계를 구비한 타깃의 중심 포인트의 위치에 수정을 수행하여, 상기 제1 이미지에서의 인터랙션 관계를 구비한 타깃의 중심 포인트의 수정 후의 위치를 얻는 단계; 및 상기 제1 이미지에서의 인터랙션 관계를 구비한 타깃의 중심 포인트의 수정 후의 위치 및 검출 프레임의 높이와 너비에 따라, 상기 제1 이미지에서의 인터랙션 관계를 구비한 타깃의 검출 프레임을 결정하는 단계를 더 포함한다.

본 발명의 일부 선택 가능한 실시예에 있어서, 상기 이미지 처리 방법은 뉴럴 네트워크에 의해 실행되고, 상기 뉴럴 네트워크는 샘플 이미지를 사용하여 훈련시켜 얻고, 상기 샘플 이미지에서 인터랙션 관계가 존재하는 타깃의 검출 프레임은 라벨링되었고, 상기 샘플 이미지에서 인터랙션 관계가 존재하는 타깃의 라벨링된 중심 포인트 및 라벨링된 인터랙션 키 포인트는 라벨링된 검출 프레임에 따라 결정하고, 라벨링된 오프셋양은 인터랙션 관계가 존재하는 타깃의 라벨리된 중심 포인트 및 라벨링된 인터랙션 키 포인트에 따라 결정된다.

본 발명의 일부 선택 가능한 실시예에 있어서, 샘플 이미지를 사용하여 상기 뉴럴 네트워크를 훈련시켜 얻는 단계는, 상기 뉴럴 네트워크를 이용하여 상기 샘플 이미지의 특징 데이터를 추출하는 단계; 상기 뉴럴 네트워크를 이용하여 상기 샘플 이미지의 특징 데이터에 대해 다운 샘플링하여 상기 샘플 이미지의 히트 맵을 얻는 단계; 상기 뉴럴 네트워크를 이용하고 상기 샘플 이미지의 히트 맵에 기반하여 상기 샘플 이미지에서의 각 포인트의 위치 오프셋, 상기 샘플 이미지에서의 각 인터랙션 키 포인트, 상기 샘플 이미지에서의 각 타깃의 중심 포인트, 상기 샘플 이미지에서의 각 타깃의 검출 프레임의 높이와 너비를 예측하는 단계; 상기 뉴럴 네트워크를 이용하고 상기 샘플 이미지의 특징 데이터에 기반하여 적어도 두 개의 오프셋양을 예측하는 단계; 상기 샘플 이미지에서의 각 타깃의 중심 포인트, 상기 샘플 이미지에서의 상기 인터랙션 키 포인트 및 상기 샘플 이미지에서의 적어도 두 개의 오프셋양에 기반하여 상기 샘플 이미지에서의 타깃 간의 인터랙션 관계를 예측하는 단계; 및 예측된 위치 오프셋, 상기 샘플 이미지에서 인터랙션 관계가 존재하는 타깃의 예측된 중심 포인트 및 검출 프레임의 높이와 너비, 상기 샘플 이미지에서 인터랙션 관계가 존재하는 타깃에 대응되는 예측된 인터랙션 키 포인트 및 그에 대응되는 예측된 오프셋양, 및 라벨링된 위치 오프셋 및 상기 샘플 이미지에서 라벨링된 인터랙션 관계가 존재하는 타깃의 검출 프레임에 따라, 상기 뉴럴 네트워크의 네트워크 파라미터를 조정하는 단계를 포함한다.

본 발명의 실시예는 이미지 처리 장치로서, 추출 유닛, 제1 결정 유닛, 제2 결정 유닛 및 제3 결정유닛을 포함하고; 여기서,

상기 추출 유닛은, 제1 이미지의 특징 데이터 추출하도록 구성되고;

상기 제1 결정 유닛은, 상기 추출 유닛이 추출한 상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 인터랙션 키 포인트 및 각 타깃의 중심 포인트를 결정하도록 구성되고 - 하나의 인터랙션 키 포인트는 연결 라인에서 상기 연결 라인의 중점과의 거리가 기설정된 범위 내인 하나의 포인트이고, 상기 연결 라인은 하나의 인터랙션 동작에서의 두 개 타깃의 중심 포인트 간의 연결 라인임 - ;

상기 제2 결정 유닛은, 상기 추출 유닛에서 추출한 상기 특징 데이터에 기반하여 적어도 두 개의 오프셋양을 결정하도록 구성되고 - 하나의 오프셋양은 하나의 인터랙션 동작에서의 인터랙션 키 포인트와 상기 인터랙션 동작에서의 하나의 타깃의 중심 포인트의 오프셋양임 - ;

상기 제3 결정 유닛은, 각 타깃의 중심 포인트, 상기 인터랙션 키 포인트 및 상기 적어도 두 개의 오프셋양에 기반하여 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하도록 구성된다.

본 발명에서의 일부 선택 가능한 실시예에 있어서, 상기 제1 결정 유닛은, 상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 타깃의 중심 포인트, 및 각 타깃의 신뢰도를 결정하고; 상기 특징 데이터에 기반하여 상기 제1 이미지에서의 인터랙션 키 포인트, 및 각 인터랙션 키 포인트가 각 인터랙션 동작 카테고리에 대응되는 신뢰도를 결정하도록 구성되며;

상기 제3 결정 유닛은, 각 타깃의 중심 포인트, 상기 인터랙션 키 포인트, 상기 적어도 두 개의 오프셋양, 각 타깃의 신뢰도 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도에 기반하여 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하도록 구성된다.

본 발명에서의 일부 선택 가능한 실시예에 있어서, 상기 제1 결정 유닛은, 상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 타깃의 중심 포인트 및 이의 카테고리, 및 각 타깃이 각 기설정된 카테고리에 속하는 신뢰도을 결정하도록 구성되고;

상기 제3 결정 유닛은, 각 타깃의 중심 포인트 및 이의 카테고리, 상기 인터랙션 키 포인트, 상기 적어도 두 개의 오프셋양, 각 타깃이 각 기설정된 카테고리에 속하는 신뢰도 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도에 기반하여, 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하도록 구성된다.

본 발명의 일부 선택 가능한 실시예에서, 상기 제3 결정 유닛은, 하나의 인터랙션 키 포인트에 대해, 상기 인터랙션 키 포인트와 서로 대응되는 두 개의 오프셋양을 결정하고; 상기 인터랙션 키 포인트 및 상기 인터랙션 키 포인트와 서로 대응되는 두 개의 오프셋양에 따라, 상기 인터랙션 키 포인트와 대응되는 두 개의 예측 중심 포인트를 결정하며; 각 타깃의 중심 포인트 및 각 인터랙션 키 포인트에 대응되는 두 개의 예측 중심 포인트에 따라, 각 인터랙션 키 포인트에 대응되는 두 개의 타깃을 결정하고; 각 인터랙션 키 포인트에 대응되는 두 개의 타깃, 각 타깃의 신뢰도 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도에 따라, 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하도록 구성된다.

본 발명의 일부 선택 가능한 실시예에 있어서, 상기 제3 결정 유닛은, 하나의 인터랙션 키 포인트에 대해, 상기 인터랙션 키 포인트에 대응되는 하나의 기설정된 인터랙션 동작 카테고리의 신뢰도와 상기 인터랙션 키 포인트에 대응되는 두 개의 타깃의 신뢰도를 서로 곱하여, 제1 신뢰도를 얻는 것 - 상기 제1 신뢰도는 상기 인터랙션 키 포인트에 대응되는 두 개의 타깃 간의 인터랙션 관계가 상기 인터랙션 동작 카테고리의 신뢰도에 속함 - ; 상기 제1 신뢰도가 신뢰도 임계값보다 큰 것에 응답하여, 상기 인터랙션 키 포인트에 대응되는 두 개의 타깃 간의 인터랙션 관계가 상기 기설정된 인터랙션 동작 카테고리에 속하지 않는 것을 결정하며; 상기 제1 신뢰도가 신뢰도 임계값보다 크지 않는 것에 응답하여, 상기 인터랙션 키 포인트에 대응되는 두 개의 타깃 간의 인터랙션 관계가 상기 기설정된 인터랙션 동작 카테고리에 속하지 않는 것을 결정하도록 구성된다.

본 발명의 일부 선택 가능한 실시예에 있어서, 상기 제3 결정 유닛은, 또한 하나의 인터랙션 키 포인트에 대응되는 두 개의 타깃 간의 인터랙션 관계가 각 기설정된 인터랙션 동작 카테고리에 속하지 않는 것을 결정한 후, 상기 인터랙션 키 포인트에 대응되는 두 개의 타깃 간에 인터랙션 관계가 존재하지 않는 것을 결정하도록 구성된다.

본 발명의 일부 선택 가능한 실시예에 있어서, 상기 제3 결정 유닛은, 하나의 예측 중심 포인트에 대해, 각 타깃의 중심 포인트와 상기 예측 중심 포인트 간의 거리를 결정하고; 중심 포인트와 상기 예측 중심 포인트 간의 거리가 기설정된 거리 임계값보다 작은 타깃을 상기 예측 중심 포인트가 대응되는 인터랙션의 키 포인트가 대응되는 타깃으로 하도록 구성된다.

본 발명의 일부 선택 가능한 실시예에 있어서, 상기 제1 결정 유닛은, 상기 특징 데이터를 다운 샘플링하여 상기 제1 이미지의 히트 맵을 얻는 것; 상기 히트 맵에 따라 상기 제1 이미지에서의 각 포인트의 위치 오프셋, 상기 제1 이미지에서의 각 타깃의 중심 포인트 및 각 타깃의 검출 프레임의 높이와 너비를 결정하는 것; 또한 상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 타깃의 중점 포인트를 결정하고, 상기 제1 이미지에서의 인터랙션 관계를 구비한 타깃의 중심 포인트의 위치 오프셋에 따라 상기 제1 이미지에서의 인터랙션 관계를 구비한 타깃의 중심 포인트의 위치 오프셋에 대해 수정을 수행하여, 상기 제1 이미지에서의 인터랙션 관계를 구비한 타깃의 중심 포인트의 수정 후의 위치를 얻는 것; 및 상기 제1 이미지에서의 인터랙션 관계를 구비한 타깃의 중심 포인트의 수정 후의 위치 및 검출 프레임의 높이와 너비에 따라, 상기 제1 이미지에서의 인터랙션 관계를 구비한 타깃의 검출 프레임을 결정하도록 구성된다.

본 발명의 일부 선택 가능한 실시예에 있어서, 상기 이미지 처리 장치에서의 각 기능 유닛은 뉴럴 네트워크에 의해 구현되고, 상기 뉴럴 네트워크는 샘플 이미지를 사용하여 훈련시켜 얻고, 상기 샘플 이미지에서 인터랙션 관계가 존재하는 타깃의 검출 프레임은 라벨링되었고, 상기 샘플 이미지에서의 인터랙션 관계가 존재하는 타깃의 라벨링된 중심 포인트 및 라벨링된 인터랙션 키 포인트는 라벨링된 검출 프레임에 따라 결정되고, 라벨링된 오프셋양은 인터랙션 관계가 존재하는 타깃의 라벨링된 중심 포인트 및 라벨링된 인터랙션 키 포인트에 따라 결정된다.

본 발명의 일부 선택 가능한 실시예에 있어서, 상기 장치는 또한, 샘플 이미지를 사용하여 상기 뉴럴 네트워크를 훈련시켜 얻도록 구성되는 훈련 유닛을 포함하고, 구체적으로, 상기 뉴럴 네트워크를 이용하여 상기 샘플 이미지의 특징 데이터를 추출하고; 상기 뉴럴 네트워크를 이용하여 상기 샘플 이미지의 특징 데이터에 대해 다운 샘플링하여 상기 샘플 이미지의 히트 맵을 얻고; 상기 뉴럴 네트워크를 이용하고 상기 샘플 이미지의 히트 맵에 기반하여 상기 샘플 이미지에서의 각 포인트의 위치 오프셋, 상기 샘플 이미지에서의 각 인터랙션 키 포인트, 상기 샘플 이미지에서의 각 타깃의 중심 포인트, 상기 샘플 이미지에서의 각 타깃의 검출 프레임의 높이와 너비를 예측하고; 상기 뉴럴 네트워크를 이용하고 상기 샘플 이미지의 특징 데이터에 기반하여 적어도 두 개의 오프셋양을 예측하며; 상기 샘플 이미지에서의 각 타깃의 중심 포인트, 상기 샘플 이미지에서의 상기 인터랙션 키 포인트 및 상기 샘플 이미지에서의 적어도 두 개의 오프셋양에 기반하여 상기 샘플 이미지에서의 타깃 간의 인터랙션 관계를 결정하며; 예측된 위치 오프셋, 상기 샘플 이미지에서의 인터랙션 관계가 존재하는 타깃의 예측된 중심 포인트 및 예측된 검출 프레임의 높이와 너비, 상기 샘플 이미지에서의 인터랙션 관계가 존재하는 타깃에 대응되는 예측된 인터랙션 키 포인트 및 그에 대응되는 예측된 오프셋양, 및 라벨링된 위치 오프셋과 상기 샘플 이미지에서의 라벨링된 인터랙션 관계가 존재하는 타깃의 검출 프레임에 따라, 상기 뉴럴 네트워크의 네트워크 파라미터를 조정하도록 구성된다.

본 발명의 실시예는 컴퓨터 프로그램이 저장되어 있는 컴퓨터 판독 가능한 저장 매체를 더 제공하고, 상기 프로그램은 프로세서에 의해 실행될 경우 본 발명의 실시예에 따른 방법의 단계를 구현한다.

본 발명의 실시예는 메모리, 프로세서 및 메모리에 저장되고 또한 프로세서에서 작동하는 컴퓨터 프로그램을 포함한 전자 기기를 더 제공하고, 상기 프로세서는 상기 프로그램을 실행하여 본 발명의 실시예에 따른 방법의 단계를 구현한다.

본 발명의 실시예는 컴퓨터 판독 가능한 코드를 포함하는 컴퓨터 프로그램을 더 제공하며, 상기 컴퓨터 판독 가능한 코드가 전자 기기에서 작동될 때, 상기 전자 기기에서의 프로세서는 본 발명의 실시예에 따른 이미지 처리 방법의 단계를 구현하기 위해 실행된다.

본 발명의 실시예가 제공하는 이미지 처리 방법, 장치, 저장 매체 및 전자 기기를 제공하며, 상기 방법은, 제1 이미지의 특징 데이터를 추출하는 단계; 상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 인터랙션 키 포인트 및 각 타깃의 중심 포인트를 결정하는 단계 - 하나의 인터랙션 키 포인트는 연결 라인에서 상기 연결 라인의 중점과의 거리가 기설정된 범위 내인 하나의 포인트이며, 상기 연결 라인은 하나의 인터랙션 동작에서의 두 개 타깃의 중심 포인트 간의 연결 라인임 - ; 상기 특징 데이터에 기반하여 적어도 두 개의 오프셋양을 결정하는 단계 - 하나의 오프셋양은 하나의 인터랙션 동작에서의 인터랙션 키 포인트와 인터랙션 동작에서의 하나의 타깃의 중심 포인트의 오프셋양을 나타냄 - ; 및 상기 각 타깃의 중심 포인트, 상기 인터랙션 키 포인트 및 상기 적어도 두 개의 오프셋양에 기반하여 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 단계를 포함한다. 본 발명의 실시예의 기술 방안을 사용하여, 인터랙션 동작과 상관되는 인터랙션 키 포인트를 정의하고, 인터랙션 키 포인트와 상관되는 적어도 두 개의 오프셋양을 결정함으로써, 각 타깃의 중심 포인트, 상기 인터랙션 키 포인트 및 상기 적어도 두 개의 오프셋양을 통해 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하여, 사람-물체 쌍을 생성할 필요가 없고, 또한 사람-물체 쌍을 사용해 인터랙션 동작 검출에서 진정한 인터랙션 관계를 구비한 사람-물체 쌍을 손실하는 문제가 생기는 것을 피면하였으며; 전통방식에서 우선 사람과 물체를 검출하고, 다음 사람과 물체를 그룹화 하여, 분류 네트워크에 기반하여 각 사람-물체 쌍에 대해 분류 검출을 수행하는 것에 비해, 본 실시예는 걸출 속도를 크게 향상할 뿐만 아니라, 검출 효율도 향상한다.

도 1은 본 발명의 실시예에 따른 이미지 처리 방법의 흐름 예시도이다.
도 2은 본 발명의 실시예에 따른 이미지 처리 방법의 응용 예시도이다.
도 3은 본 발명의 실시예에 따른 이미지 처리 방법의 또 다른 하나의 응용 예시도이다.
도 4은 본 발명의 실시예에 따른 이미지 처리 방법의 뉴럴 네트워크의 훈련 방법의 흐름 예시도이다.
도 5는 본 발명의 실시예에 따른 이미지 처리 장치의 구성의 구조 예시도 1이다.
도 6는 본 발명의 실시예에 따른 이미지 처리 장치의 구성의 구조 예시도 2이다.
도 7은 본 발명의 실시예의 전자 기기의 하드웨어 구성의 구조 예시도이다.

이하 도면 및 구체적인 실시예와 결합하여 본 발명에 대해 추가로 상세하게 설명한다.

본 발명의 실시예는 이미지 처리 방법을 제공한다. 도 1은 본 발명의 실시예에 따른 이미지 처리 방법의 흐름 예시도이고, 도 1에 도시된 바와 같이, 상기 방법은,

제1 이미지의 특징 데이터를 추출하는 단계 101;

상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 인터랙션 키 포인트 및 각 타깃의 중심 포인트를 결정하는 단계 102 - 하나의 인터랙션 키 포인트는 연결 라인에서 상기 연결 라인의 중점과의 거리가 기설정된 범위 내인 하나의 포인트이며, 상기 연결 라인은 하나의 인터랙션 동작에서의 두 개 타깃의 중심 포인트 간의 연결 라인임 - ;

상기 특징 데이터에 기반하여 적어도 두 개의 오프셋양을 결정하는 단계 103 - 하나의 오프셋양은 하나의 인터랙션 동작에서의 인터랙션 키 포인트와 상기 인터랙션 동작에서의 하나의 타깃의 중심 포인트의 오프셋양을 나타냄 - ; 및

상기 각 타깃의 중심 포인트, 상기 인터랙션 키 포인트 및 상기 적어도 두 개의 오프셋양에 기반하여 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 단계 104를 포함한다.

본 실시예에서, 제1 이미지에서는 복수의 타깃을 포함할 수 있으며, 여기서, 상기 복수 타깃에서의 각 타깃 간에는 인터랙션 관계가 없을 수도 있고, 또는, 상기 복수 타깃에는 적어도 한 그룹의 인터랙션 관계를 구비한 타깃을 포함할 수도 있으며; 여기서, 상기 인터랙션 관계를 구비한 타깃은 구체적으로 적어도 두 개의 타깃이고, 예시적으로, 상기 적어도 두 개의 타깃에는 적어도 하나의 타깃 인물을 구비하고, 예를 들어, 인터랙션 관계를 구비한 두 개의 타깃이 인터랙션 관계를 구비한 두 개의 타깃 인물, 또는, 인터랙션 관계를 구비한 두 개의 타깃은 인터랙션 관계를 구비한 하나의 타깃 인물과 하나의 타깃 물체이다. 이해할 수 있는 것은, 상기 인터랙션 관계를 구비한 적어도 두 개의 타깃은 구체적으로 인터랙션 동작을 구비한 두 개의 타깃일 수 있으며; 여기서, 상기 인터랙션 동작을 구비한 두 개 타깃은 직접적인 인터랙션 동작 또는 암시적인 인터랙션 동작을 구비한 두 개 타깃일 수 있다. 하나의 예시로서, 만약 제1 이미지에 포함하는 타깃 인물의 손에 한 개비의 담배가 있다면, 상기 타깃 인물과 타깃 물체인 담배는 직접적인 인터랙션 동작 관계가 존재한다고 인식할 수 있고, 본 실시예에서 타깃 인물과 타깃 대상은 직접적인 동작 관계를 구비한다. 또 다른 실시예로서, 만약 제1 이미지에 포함된 타깃 인물이 공을 튕기고 있다면, 타깃 인물의 공을 튕기는 동작, 공이 타깃 인물의 손 아래 부분의 공중에 있을 때, 상기 타깃 이물과 타깃 물체인 공은 암시적인 동작 관계를 구비한고 인식할 수 있다.

본 발명의 실시예에서 제공하는 이미지 처리 방법은 이미지에서의 타깃의 인터랙션 관계 존재의 여부를 확인할 때, 타깃의 중심 포인트와 인터랙션 키 포인트를 결정하는 단계(포인트 검출 단계)와 오프셋양을 결정하는 단계(포인트 매칭 단계)를 병행할 수 있고, 다음 결정된 오프셋양 및 검출된 중심 포인트와 인터랙션 키 포인트에 따라 인터랙션 관계가 존재하는 타깃 및 이의 인터랙션 동작 카테고리를 최종 결정함으로써, 인터랙션 관계 검출의 효률을 향상한다.

본 발명의 일부 선택 가능한 실시예에서, 상기 제1 이미지의 특징 데이터를 추출하는 단계 101은, 딥 뉴럴 네트워크 모듈을 통해 상기 제1 이미지의 특징 데이터를 추출하는 것을 포함한다. 예시적으로, 제1 이미지를 입력 데이터로 딥 뉴럴 네트워크 모듈에 입력하여, 상기 제1 이미지의 특징 데이터를 획득한다. 여기서, 이해할 수 있는 것은, 딥 뉴럴 네트워크 모듈에는 복수의 컨볼루션 계층을 포함할 수 있으며, 각 컨볼루션 계층을 통해 순서에 따라 제1 이미지에 대해 컨볼루션 처리를 수행함으로써, 제1 이미지의 특징 데이터를 획득한다.

본 실시예에서, 사전 훈련으로 획득된 제1 브랜치 네트워크를 통해 단계 102를 실행할 수 있고, 즉 제1 브랜치 네트워크를 통하고 상기 특징 데이터에 기반하여 각 타깃의 중심 포인트 및 각 인터랙션 키 포인트를 결정한다. 이해할 수 있는 것은, 상기 제1 이미지의 특징 데이터를 입력 데이터로서 상기 제1 브랜치 네트워크에 입력하여, 상기 제1 이미지에서의 각 타깃의 중심 포인트 및 각 인터랙션 키 포인트를 얻는다. 예를 들어, 만약 제1 이미지에 포함된 타깃이 모두 타깃 인물이라면, 상기 제1 브랜치 네트워크를 통해 상기 특징 데이터에 대해 처리를 수행하여, 각 타깃 인물의 중심 포인트 및 인터랙션 키 포인트를 얻는다. 또 예를 들어, 만약 제1 이미지에 포함한 타깃이 타깃 인물과 타깃 물체를 포함했다면, 상기 제1 브랜치 네트워크를 통해 상기 특징 데이터에 대해 처리를 수행하여, 타깃 인물의 중심 포인트, 타깃 물체의 중심 포인트 및 인터랙션 키 포인트를 얻는다.

여기서, 일부 실시예에서, 제1 브랜치 네트워크는 타깃의 중심 포인트 후에 있고, 또한 타깃의 검출 프레임의 길이와 너비를 회귀하고, 타깃의 검출 프레임은 타깃의 중심 포인트와 타깃의 검출 프레임의 길이와 너비에 따라 결정된다. 도 2에 도시된 바와 같이, 제1 이미지에 포함하는 두 개의 타깃 인물과 두 개의 타깃 물체(두 개 타깃 물체는 두 개의 공)를 구별하기 위해, 타깃 인물의 중심 포인트를 제1 중심 포인트라고 기재할 수 있고, 타깃 물체의 중심 포인트를 제2 중심 포인트라고 기재할 수 있다.

여기서, 일부 실시예에서, 인터랙션 키 포인트는 하나의 인터랙션 동작에서의 두 개의 타깃의 중심 포인트 간의 연결 라인에서의 상기 연결 라인의 중점과의 거리가 기설정된 범위 내의 포인트이다. 실시예로서, 상기 인터랙션 키 포인트는 하나의 인터랙션 동작에서의 두 개 타깃의 중심 포인트 간의 연결 라인의 중점으로 될 수 있다. 도 2에 도시된 바와 같이, 하나의 인터랙션 키 포인트는 하나의 인터랙션 동작에서의 타깃 인물의 제1 중심 포인트와 타깃 물체의 제2 중심 포인트 간의 연결 라인의 중점으로 될 수 있다.

본 실시예에서, 사전 훈련으로 얻은 제2 브랜치 네트워크를 통해 단계 103을 실시할 수 있으며, 즉 제2 브랜치 네트워크를 통하고 상기 특징 데이터에 기반하여 적어도 두 개의 오프셋양을 결정하며; 여기서, 하나의 오프셋양은 하나의 인터랙션 동작에서의 인터랙션 키 포인트와 상기 인터랙션 동작에서의 하나의 타깃의 중심 포인트의 오프셋양을 나타낸다. 이해할 수 있는 것은, 상기 제1 이미지의 특징 데이터를 입력 데이터로 사용하여 상기 제2 브랜치 네트워크에 입력하면, 상기 제1 이미지에서의 각 포인트의 적어도 두 개 오프셋양을 얻는다.

실제 응용에서, 각 포인트가 대응되는 적어도 두 개의 오프셋양은 오프셋양 매트릭스를 통해 표시할 수 있다. 단계 102에서 결정한 각 인터랙션 키 포인트에 기반하여, 각 인터랙션 키 포인트에 대응되는 적어도 두 개의 오프셋양을 결정할 수 있다. 일부 실시예에서, 각 인터랙션 키 포인트의 좌표, 및 각 포인트가 대응되는 오프셋양 매트릭스에 따라, 각 인터랙션 키 포인트에 대응되는 적어도 두 개의 오프셋양을 결정할 수 있다.

도 2에 도시된 것을 참조하면, 예시적으로, 하나의 오프셋양은 인터랙션 동작에서의 인터랙션 키 포인트와 제1 중심 포인트의 오프셋양을 나타내며, 다른 또 하나의 오프셋양은 상기 인터랙션 동작에서의 인터랙션 키 포인트와 제2 중심 포인트의 오프셋양을 나타내며, 구별해주기 위해, 인터랙션 동작에서의 인터랙션 키 포인트와 제1 중심 포인트의 오프셋양을 제1 오프셋양이라고 기재하고, 상기 인터랙션 동작에서의 인터랙션 키 포인트와 제2 중심 포인트의 오프셋양을 제2 오프셋양이라고 기재하면, 본 실시예에서, 제1 오프셋양은 인터랙션 동작에서의 인터랙션 키 포인트와 제1 중심 포인트의 오프셋양을 나타내고, 제2 오프셋양은 인터랙션 동작에서의 인터랙션 키 포인트와 제2 중심 포인트의 오프셋양을 나타낸다. 물론, 기타 실시예에서, 두 개 타깃을 각각 제1 타깃과 제2 타깃이라고 기재할 수 있고, 제1 오프셋양은 인터랙션 동작에서의 인터랙션 키 포인트와 제1 타깃의 중심 포인트의 오프셋양을 나타내고, 제2 오프셋양은 인터랙션 동작에서의 인터랙션 키 포인트와 제2 타깃의 중심 포인트의 오프셋양을 나타낸다.

본 실시예에서, 단계 104에 대해, 상기 각 타깃의 중심 포인트, 상기 인터랙션 키 포인트 및 상기 적어도 두 개의 오프셋양에 기반하여 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 단계는, 하나의 인터랙션 키 포인트에 대해, 상기 인터랙션 키 포인트와 서로 대응되는 두 개의 오프셋양을 결정하는 단계; 상기 인터랙션 키 포인트 및 상기 인터랙션 키 포인트와 서로 대응되는 두 개의 오프셋양에 따라, 상기 인터랙션 키 포인트와 대응되는 두 개의 예측 중심 포인트를 결정하는 단계; 각 타깃의 중심 포인트 및 각 인터랙션 키 포인트에 대응되는 두 개의 예측 중심 포인트에 따라, 각 인터랙션 키 포인트에 대응되는 두 개 타깃을 결정하는 단계; 및 각 인터랙션 키 포인트에 대응되는 두 개 타깃에 따라 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 단계를 포함한다.

본 실시예에서, 단계 103을 통해 결정한 적어도 두 개의 오프셋양의 작용은 인터랙션 동작(즉 인터랙션 관계)을 구비한 적어도 두 개의 타깃을 결정하기 위한 것 이다. 단계 102를 통해 각 타깃의 중심 포인트 및 각 인터랙션 키 포인트를 결정할 수 있지만, 인터랙션 동작을 구비한 타깃을 알 수는 없다. 이에 기반하여, 본 실시예에서 각 인터랙션 키 포인트와 서로 대응되는 두 개의 오프셋양을 결정하는 것은, 상기 인터랙션 키 포인트 및 상기 인터랙션 키 포인트와 서로 대응되는 두 개의 오프셋양에 따라, 상기 인턱랙션 키 포인트와 대응되는 두 개의 예측 중심 포인트를 결정한다.

예시적으로, 임의의 인터랙션 키 포인트(여기에서 제1 인터랙션 키 포인트로 기재된다)를 예로 들면, 제1 인터랙션 키 포인트의 위치와 상기 제1 인터랙션 키 포인트에 대응되는 하나의 오프셋양(예를 들어 제1 오프셋양)에 기반하여 제1 위치를 결정할 수 있고, 상기 제1 위치는 이론상에서 제1 인터랙션 키 포인트와 매칭되는 하나의 타깃의 중심 포인트(예를 들어 제1 중심 포인트)의 위치로 할 수 있으며, 여기서 상기 제1 위치를 제1 예측 중심 포인트라고 기재하며; 동일하게, 제1 인터랙션 키 포인트의 위치와 상기 제1 인터랙션 키 포인트와 대응되는 다른 하나의 오프셋양(예를 들어 제2 오프셋양)에 기반하여 제2 위치를 결정할 수 있고, 여기서 상기 제2 위치를 제2 예측 중심 포인트라고 기재한다.

중심 포인트와 획득된 예측 중심 포인트 간의 거리가 기설정된 거리 임계값보다 작은 타깃을 상기 예측 중심 포인트에 대응되는 인터랙션 키 포인트에 대응되는 타깃으로 사용한다. 예시적으로, 제1 타깃의 중심 포인트와 상기 제1 예측 중심 포인트 간의 거리가 기설정된 거리 임계값보다 작고, 제2 타깃의 중심 포인트와 상기 제2 예측 중심 포인트 간의 거리가 상기 기설정된 거리 임계값보다 작은 것은, 상기 제1 타깃과 제2 타깃은 상기 제1 인터랙션 키 포인트에 대응되는 두 개 타깃이라는 것을 의미할 수 있다. 이해할 수 있는 것은, 특정된 예측 중심 포인트 사이와의 거리가 기설정된 거리 임계값보다 작은 타깃의 중심 포인트는 하나가 아닐 수도 있고, 즉 하나의 인터랙션 키 포인트와 대응되는 타깃은 두 개 또는 두 개 이상일 수 있다.

본 실시예에서, 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도에 기반하여 상기 인터랙션 키 포인트에 대응되는 적어도 두 개의 타깃 간의 인터랙션 관계를 결정할 수 있다. 이해할 수 있는 것은, 제1 브랜치 네트워크를 통해 특징 데이터에 대해 처리를 수행하여 제1 이미지에서의 각 인터랙션 키 포인트를 얻을 때, 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도도 얻을수 있고, 상기 기설정된 인터랙션 동작 카테고리의 신뢰도에 기반하여 적어도 두 개의 타깃 간의 인터랙션 관계를 결정할 수 있다.

본 발명의 실시예의 기술 방안을 사용하여, 인터랙션 동작과 상관되는 인터랙션 키 포인트를 정의하고, 인터랙션 키 포인트와 상관되는 적어도 두 개의 오프셋양을 결정함으로써, 각 타깃의 중심 포인트, 상기 인터랙션 키 포인트 및 상기 적어도 두 개의 오프셋양을 통해 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하여, 사람-물체 쌍을 생성할 필요가 없고, 또한 사람-물체 쌍을 사용해 인터랙션 동작 검출에서 진정한 인터랙션 관계를 구비한 사람-물체 쌍을 손실하는 문제가 생기는 것을 피면하였으며; 전통방식에서 우선 사람과 물체를 검출하고, 다음 사람과 물체를 그룹화 하여, 분류 네트워크에 기반하여 각 사람-물체 쌍에 대해 분류 검출을 수행하는 것에 비해, 본 실시예는 걸출 속도를 크게 향상할 뿐만 아니라, 검출 효율도 향상한다.

아래에 도 1에 도시한 이미지 처리 방법과 각 단계에 대해 구체적으로 설명한다.

본 발명의 일부 선택 가능한 실시예에서, 상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 타깃의 중심 포인트를 결정하는 단계 102에 있어서, 상기 특징 데이터를 다운 샘플링하여 상기 제1 이미지의 히트 맵을 얻는 단계; 상기 히트 맵에 따라 상기 제1 이미지에서의 각 포인트의 위치 오프셋, 상기 제1 이미지에서의 각 타깃의 중심 포인트 및 각 타깃의 검출 프레임의 높이와 너비를 결정하는 단계; 및 상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 타깃의 중심 포인트를 결정하는 단계를 포함하고, 상기 방법은 또한, 제1 이미지에서의 인터랙션 관계를 구비한 타깃의 중심 포인트의 위치 오프셋에 따라 상기 제1 이미지에서의 인터랙션 관계를 구비한 타깃의 중심 포인트의 위치에 대해 수정을 수행하여, 상기 제1 이미지에서의 인터랙션 관계를 구비한 타깃의 중심 포인트의 수정 후의 위치를 얻는 단계; 및 상기 제1 이미지에서의 인터랙션 관계를 구비한 타깃의 중심 포인트의 수정 후의 위치 및 이의 검출 프레임의 높이와 너비에 따라, 상기 제1 이미지에서 인터랙션 관계를 구비한 타깃의 검출 프레임을 결정하는 단계를 포함한다.

본 실시예에서, 상기 제1 이미지의 특징 데이터에 대해 다운 샘플링 처리를 수행하고, 상기 다운 샘플링 처리는 예를 들어 특징 데이터를 포함한 특징 이미지에 대해 이미지 축소 처리를 수행할 수 있고, 즉 특정 이미지의 사이즈를 축소하는 것으로 인해, 다운 샘플링 후 얻은 히트 맵에서의 각 포인트와 제1 이미지에서의 각 포인트가 일일이 대응되는 관계가 아닌 것을 초래한다. 예를 들어, 제1 이미지의 크기는 128x128이고, 제1 이미지에서의 타깃 인물의 중심 포인트는 (10, 10)이지만, 히트 맵이 다운 샘플링으로 얻은 것이므로, 4배의 다운 샘플링이 32x32라고 가정하면, 타깃 인물의 중심 포인트가 맵핑되면 (10/4, 10/4)=(2.5, 2.5) 일 수 있다. 그러나 히트 맵의 중점이 정수이므로, 따라서, 히트 맵에서 예측된 타깃 인물의 중심 포인트는 좌표의 아래 정수의 포인트, 즉 좌표가 (2, 2)이며, 다시 말해, 다운 샘플링은 타깃 인물의 중심 포인트의 위치가 하나의 위치 오프셋을 생성하도록 초래한다.

따라서, 제1 브랜치 네트워크를 통해 상기 특징 데이터에 대해 처리를 수행하고, 구체적으로 먼저 특징 데이터를 포함하는 특징 이미지에 대한 다운 샘플링 처리를 통해 히트 맵을 얻고, 다음 히트 맵에 따라 상기 제1 이미지에서의 각 포인트의 위치 오프셋, 상기 제1 이미지에서의 각 타깃의 중심 포인트 및 각 타깃의 검측 프레임의 높이와 너비를 결정한다. 이해할 수 있는 것은, 특징 데이터를 제1 브랜치 네트워크의 입력 데이터로 한다면, 특징 데이터의 다운 샘플링에 따라 히트 맵을 얻은 후, 제1 브랜치 네트워크는 히트 맵에 기반하여 제1 이미지에서의 각 포인트의 위치 오프셋, 제1 이미지에서의 각 타깃의 중심 포인트, 각 타깃의 검출 프레임의 높이와 너비[height, width], 및 각 타깃이 각 카테고리에 속하는 신뢰도, 제1 이미지에서의 각 인터랙션 키 포인트 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 속하는 신뢰도를 결정한다.

본 실시예에서, 일부 실시예에서, 상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 포인트의 위치 오프셋를 결정한 이후, 인터랙션 관계를 구비한 타깃의 키 포인트의 위치 오프셋에 기반하여 상기 중심 포인트의 위치에 대해 수정을 수행할 수 있다. 예시적으로, 얻은 타깃의 중심 포인트와 상응하는 위치 오프셋에 합산 처리를 하여, 수정 후의 타깃의 중심 포인트의 위치를 얻는다. 상응하게, 타깃의 중심 포인트의 수정 후의 위치 및 검출 프레임의 높이와 너비에 따라, 상기 타깃의 검출 프레임을 얻을 수 있음으로써, 인터랙션 관계를 구비한 타깃의 검출 프레임을 출력한다.

예시적으로, 도 2에 도시된 바를 참조할 수 있으며, 도 2에서의 제1 중심 포인트를 수정 후의 위치라고 가설할 때, 상기 제1 중심 포인트를 관통하는 종방향 점선이 검출 프레임의 높이를 의미하고, 상기 제1 중심 포인트를 관통하는 횡방향 점선이 검출 프레임의 너비를 의미한다.

본 발명에서의 일부 선택 가능한 실시예에 있어서, 단계 102에 대해, 상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 인터랙션 키 포인트 및 각 타깃의 중심 포인트를 결정하는 단계는, 상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 타깃의 중심 포인트, 및 각 타깃의 신뢰도를 결정하는 단계; 및 상기 특징 데이터에 기반하여 상기 제1 이미지에서의 인터랙션 키 포인트, 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도를 결정하는 단계를 포함하고;

상기 각 타깃의 중심 포인트, 상기 인터랙션 키 포인트 및 상기 적어도 두 개의 오프셋양에 기반하여 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 단계는, 각 타깃의 중심 포인트, 상기 인터랙션 키 포인트, 상기 적어도 두 개의 오프셋양, 각 타깃의 신뢰도 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도에 기반하여, 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 단계를 포함한다.

본 실시예에서, 제1 브랜치 네트워크에 기반하여 특징 데이터에 대해 처리를 수행할 수 있고, 예시적으로, 제1 브랜치 네트워크에서의 복수의 컨볼루션 계층을 통해 특징 데이터에 대해 컨볼루션 처리를 수행할 수 있고, 제1 이미지에서의 각 타깃의 중심 포인트 및 각 타깃의 신뢰도를 얻고, 여기서, 상기 타깃의 신뢰도는 상기 제1 이미지에서 상기 타깃이 존재하는 신뢰도일 수 있다. 상응하게, 또한 제1 브랜치 네트워크에서의 복수의 컨볼루션 계층을 통해 특징 데이터에 대해 컨볼루션 처리를 수행할 수 있고, 제1 이미지에서의 각 인터랙션 키 포인트 및 각 인터랙션 키 포인트가 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도를 얻고; 여기서, 상기 기설정된 인터랙션 동작 카테고리는 사전 설정된 임의의 인터랙션 동작 카테고리로 될 수 있고, 예를 들어 흡연 인터랙션 동작, 배구 인터랙션 동작 등으로 될 수 있다. 각 타깃의 중심 포인트, 상기 인터랙션 키 포인트, 상기 적어도 두 개의 오프셋양, 각 타깃의 신뢰도 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도에 기반하여, 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정한다.

이에 기반하여, 본 발명의 일부 선택 가능한 실시예에서, 상기 특징 데이터에 기반하여 제1 이미지에서의 각 타깃의 중심 포인트 및 각 타깃의 신뢰도를 결정하는 것은, 상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 타깃의 중심 포인트 및 이의 카테고리, 및 각 타깃이 각 카테고리에 속하는 신뢰도를 결정하는 것을 포함하고; 상기 각 타깃의 중심 포인트, 상기 인터랙션 키포인트, 상기 적어도 두 개의 오프셋양, 각 타깃의 신뢰도 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도에 기반하여, 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 것은, 각 타깃의 중심 포인트 및 이의 카테고리, 상기 인터랙션 키 포인트, 상기 적어도 두 개의 오프셋양, 각 타깃이 각 카테고리에 속하는 신뢰도 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도에 기반하여, 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 것을 포함한다.

본 실시예에서, 제1 브랜치 네트워크에 기반하여 특징 데이터에 대해 처리를 수행할 수 있고, 예시적으로, 제1 브랜치 네트워크에서의 복수의 컨볼루션 계층을 통해 특징 데이터에 대해 컨볼루션 처리를 수행할 수 있고, 제1 이미지에서의 타깃의 중심 포인트 및 이의 카테고리, 및 각 타깃이 각 카테고리에 속하는 신뢰도를 얻을 수 있고; 여기서, 제1 이미지에서의 타깃이 속하는 카테고리에는 사람, 자동차, 구기류 등 임의의 카테고리가 포함될 수 있고, 상기 타깃은 각 카테고리의 신뢰도에 속하고 상기 제1 이미지에서 상기 타깃은 상기 카테고리의 신뢰도에 속하며, 다시 말해 제1 이미지에서의 특정된 곳에 특정된 하나의 카테고리에 속하는 타깃의 신뢰도가 존재한다. 본 실시예에서, 각 타깃의 중심 포인트 및 이의 카테고리, 상기 인터랙션 키 포인트, 상기 적어도 두 개의 오프셋양, 각 타깃이 각 카테고리에 속하는 신뢰도 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도에 기반하여, 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정한다.

본 발명의 일부 선택 가능한 실시예에서, 상기 각 타깃의 중심 포인트, 상기 인터랙션 키 포인트, 상기 적어도 두 개의 오프셋양, 각 타깃의 신뢰도 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도에 기반하여, 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 단계는, 하나의 인터랙션 키 포인트에 대해, 상기 인터랙션 키 포인트와 서로 대응되는 두 개의 오프셋양을 결정하는 단계; 상기 인터랙션 키 포인트 및 상기 인터랙션 키 포인트와 서로 대응되는 두 개의 오프셋양에 따라, 상기 인터랙션 키 포인트와 대응되는 두 개의 예측 중심 포인트를 결정하는 단계; 각 타깃의 중심 포인트 및 각 인터랙션 키 포인트와 대응되는 두 개의 예측 중심 포인트에 따라, 각 인터랙션 키 포인트에 대응되는 두 개의 타깃을 결정하는 단계; 및 각 인터랙션 키 포인트에 대응되는 두 개의 타깃, 각 타깃이 각 카테고리에 속하는 신뢰도 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도에 따라, 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 단계를 포함한다.

예시적으로, 임의의 인터랙션 키 포인트(여기에서 제1 인터랙션 키 포인트로 기재됨)를 예로 들면, 제1 인터랙션 키 포인트의 위치와 상기 제1 인터랙션 키 포인트에 대응되는 하나의 오프셋양(예를 들어 제1 오프셋양)에 기반하여 제1 위치를 결정할 수 있고, 여기서 상기 제1 위치를 제1 예측 중심 포인트라고 기재하며; 동일하게, 제1 인터랙션 키 포인트의 위치와 상기 제1 인터랙션 키 포인트와 대응되는 다른 하나의 오프셋양(예를 들어 제2 오프셋양)에 기반하여 제2 위치를 결정할 수 있고, 여기서 상기 제2 위치를 제2 예측 중심 포인트라고 기재한다.

각 타깃의 중심 포인트 및 각 인터랙션 키 포인트에 대응되는 두 개의 예측 중심 포인트에 기반하여, 각 인터랙션 키 포인트에 대응되는 두 개의 타깃을 결정하고, 각 인터랙션 키 포인트에 대응되는 두 개의 타깃, 각 타깃이 각 카테고리에 속하는 신뢰도 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도에 따라, 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정한다.

본 발명의 일부 선택 가능한 실시예에서, 상기 각 타깃의 중심 포인트 및 각 인터랙션 키 포인트에 대응되는 두 개의 예측 중심 포인트에 따라, 각 인터랙션 키 포인트에 대응되는 두 개의 타깃을 결정하는 것은, 하나의 예측 중심 포인트에 대해, 각 타깃의 중심 포인트와 상기 예측 중심 포인트 간의 거리를 결정하고; 중심 포인트와 상기 예측 중심 포인트 간의 거리가 기설정된 임계값보다 작은 타깃을 상기 예측 중심 포인트에 대응되는 인터랙션 키 포인트에 대응되는 타깃으로 사용하는 하나의 예측 중심 포인트를 포함한다.

본 실시예에서, 타깃의 중심 포인트와 획득된 예측 중심 포인트 간의 거리가 기설정된 거리 임계값보다 작은 타깃을 상기 예측 중심 포인트에 대응되는 인터랙션 키 포인트에 대응되는 타깃으로 사용한다. 예시적으로, 제1 타깃의 중심 포인트와 상기 제1 예측 중심 포인트 간의 거리가 기설정된 거리 임계값보다 작고, 제2 타깃의 중심 포인트와 상기 제2 기설정된 중심 포인트 간의 거리가 상기 기설정된 거리 임계값보다 작은 것은, 상기 제1 타깃과 제2 타깃은 상기 제1 인터랙션 키 포인트에 대응되는 두 개 타깃이라는 것을 의미할 수 있다. 이해할 수 있는 것은, 특정된 예측 중심 포인트 사이와의 거리가 기설정된 거리 임계값보다 작은 타깃의 중심 포인트는 하나만이 아닐 수도 있고, 즉 하나의 인터랙션 키 포인트와 대응되는 타깃은 두 개 또는 두 개 이상일 수 있다. 각 인터랙션 키 포인트에 대응되는 적어도 두 개의 타깃, 각 타깃이 각 카테고리에 속하는 신뢰도 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도에 기반하여, 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정한다.

본 발명의 일부 선택 가능한 실시예에 있어서, 상기 각 인터랙션 키 포인트에 대응되는 두 개의 타깃, 각 타깃의 신뢰도 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도에 따라, 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 단계는, 하나의 인터랙션 키 포인트에 대해, 상기 인터랙션 키 포인트가 하나의 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도와 상기 인터랙션 키 포인트에 대응되는 두 개의 목표가 상응하는 카테고리에 속하는 신뢰도를 곱하여, 제1 신뢰도를 얻는 단계 - 상기 제1 신뢰도는 상기 인터랙션 키 포인트에 대응되는 두 개 타깃 간의 인터랙션 관계가 상기 기설정된 인터랙션 동작 카테고리에 속하는 신뢰도임 - ; 여기서, 상응되는 카테고리는 두 개 타깃이 상기 카테고리에 속할 때를 가리키며, 두 개의 타깃 간의 인터랙션은 기설정된 인터랙션 동작 카테고리에 속하고; 예를 들어, 기설정된 동작 카테고리가 배구이면, 대응되는 카테고리는 하나의 타깃의 카테고리는 사람이고, 또 다른 하나의 타깃의 카테고리는 공이며; 기설정된 카테고리가 전화를 거는 것이면, 대응되는 카테고리의 하나의 타깃의 카테고리는 사람이고, 다른 하나의 타깃의 카테고리는 전화인 것을 포함한다. 상기 제1 신뢰도가 신뢰도 임계값보다 큰 것에 응답하여, 상기 인터랙션 키 포인트에 대응되는 두 개의 타깃 간의 인터랙션 관계가 상기 기설정된 인터랙션 동작 카테고리에 속하는 것을 결정하고; 상기 제1 신뢰도가 신뢰도 임계값보다 크지 않는 것에 응답하여, 상기 인터랙션 키 포인트에 대응되는 두 개 타깃 간의 인터랙션 관계가 상기 기설정된 인터랙션 동작 카테고리에 속하지 않는 것을 결정한다.

본 발명의 일부 선택 가능한 실시예에서, 상기 방법은 또한, 하나의 인터랙션 키 포인트에 대응되는 두 개 타깃 간의 인터랙션 관계가 각 기설정된 인터랙션 동작 카테고리에 속하지 않는 것을 결정한 후, 상기 인터랙션 키 포인트에 대응되는 두 개 타깃 간의 인터랙션 관계가 존재하지 않는 것을 결정한다.

본 실시예에서, 만약 하나의 인터랙션 키 포인트가 적어도 두 개의 타깃에 대응된다면, 즉 복수 개의 타깃 간의 인터랙션 관계를 결정하는 과정에서, 먼저 상기 방안을 사용하여 복수 개의 타깃에서 두 개의 타깃을 단위로 서로 간의 인터랙션 관계를 각각 결정하고, 상기 각 두 개 타깃 간의 인터랙션 관계가 대응되는 인터랙션 키 포인트에 대응되는 기설정된 인터랙션 동작 카테고리에 속하는 지를 결정하며, 이와 같은 방식으로 반복하여 수행한다. 예를 들어 하나의 인터랙션 키 포인트에는 세 개의 타깃이 대응되게 존재하고, 타깃 1, 타깃 2, 타깃 3으로 기재하고, 상기 방안을 사용하여 각각 타깃 1과 타깃 2, 타깃 2와 타깃 3 및 타깃 3과 타깃 1 간의 인터랙션 관계를 결정할 수 있다.

도 3은 본 발명의 실시예에서의 이미지 처리 방법의 다른 하나의 응용 예시도이며; 도 3에 도시된 바와 같이, 뉴럴 네트워크는 특징 추출 네트워크, 제1 브랜치 네트워크와 제2 브랜치 네트워크를 포함할 수 있으며; 여기서, 특징 추출 네트워크는 입력 이미지에 대해 특징 추출을 수행하는 데에 사용되어, 특징 데이터를 얻는다. 제1 브랜치 네트워크는 특징 데이터에 대해 다운 샘플링을 수행하여 히트 맵을 얻는 데에 사용되고, 다음 히트 맵에 따라 입력 이미지에서의 각 타깃의 중심 포인트 및 각 인터랙션 키 포인트, 및 각 포인트의 위치 오프셋을 얻는 것과 각 타깃의 검출 프레임의 높이와 너비[높이, 너비], 각 타깃이 속하는 카테고리의 신뢰도 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도를 결정한다. 제2 브랜치 네트워크는 특징 데이터데 대해 처리를 수행하고 입력 이미지에서의 각 포인트의 적어도 두 개의 오프셋양을 얻는 것에 사용되고, 하나의 오프셋양은 하나의 인터랙션 동작에서의 인터랙션 키 포인트와 상기 인터랙션 동작에서의 하나의 타깃의 중심 포인트의 오프셋양을 나타낸다.

하나의 실시 방식에서, 제1 브랜치 네트워크를 통해 특징 데이터를 포함한 특징 이미지에 대해 다운 샘플링 처리를 수행하여, 히트 맵을 얻는다. 본 실시예에서 입력 이미지에서의 타깃이 타깃 인물과 타깃 물체를 포함한 것을 예로 하고, 구별해주기 위해, 타깃 인물의 중심 포인트를 제1 중심 포인트로 기재하고, 타깃 물체의 중심 포인트를 제2 중심 포인트로 기재하여, 각각 제1 중심 포인트가 포함된 제1 히트맵, 제2 중심 포인트가 포함된 제2 히트 맵과 각 인터랙션 키 포인트를 포함한 제3 히트 맵을 얻을 수 있다. 다시 말해, 제1 브랜치의 출력 데이터는 상기 제1 히트 맵, 제2 히트 맵, 제3 히트 맵 및 입력 이미지에서의 각 포인트의 위치 오프셋 및 타깃 인물과 타깃 물체의 검출 프레임의 높이와 너비를 포함할 수 있다.

구체적으로, 상기 제1 브랜치 네트워크에 기반하여 각 타깃의 중심 포인트 및 이의 카테고리 및 각 타깃이 각 카테고리에 속하는 신뢰도, 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도를 획득할 수 있다.

하나의 실시 방법에서, 제2 브랜치 네트워크를 통해 특징 데이터를 포함한 특징 이미지에 대해 처리를 수행하여, 각 인터랙션 키 포인트에 대응되는 두 개의 오프셋양을 얻으며, 구별해주기 위해, 인터랙션 키 포인트와 인터랙션 동작에서의 타깃 인물의 제1 중심 포인트 간의 오프셋양을 제1 오프셋양이라고 기재하고, 인터랙션 키 포인트와 인터랙션 동작에서의 타깃 물체의 제2 중심 포인트 간의 오프셋양을 제2 오프셋양으로 기재한다.

하나의 인터랙션 키 포인트 및 상기 인터랙션 키 포인트와 서로 대응되는 제1 오프셋양과 제2 오프셋양에 따라, 상기 인터랙션 키 포인트와 대응되는 두 개의 예측 중심 포인트를 결정하여, 각각 제1 예측 중심 포인트와 제2 예측 중심 포인트로 기재하고; 제1 예측 중심 포인트에 대해, 각각 각 제1 중심 포인트와 제1 예측 중심 포인트 간의 거리를 결정하고, 상기 제1 예측 중심 포인트 간의 거리가 기설정된 거리의 임계값보다 작은 제1 중심 포인트를 결정하고; 상응하게, 제2 예측 중심 포인트에 대해, 각각 각 제2 중심 포인트와 제2 예측 중심 포인트 간의 거리를 결정하고, 상기 제2 예측 중심 포인트 사이와의 거리가 기설정된 거리 임계값보다 작은 제2 중심 포인트를 결정한다.

도 3에서의 두 개의 인터랙션 키 포인트에 대해, 각각 각 인터랙션 키 포인트가 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도와 상기 인터랙션 키 포인트에 대응되는 타깃 인물의 신뢰도와 타깃 물체의 신뢰도를 서로 곱하여, 제1 신뢰도를 얻고; 제1 신뢰도가 신뢰도 임계값보다 큰 상황에서, 상기 인터랙션 키 포인트에 대응되는 타깃 인물과 타깃 물체 간의 인터랙션 관계가 상기 인터랙션 키 포인트에 대응되는 기설정된 인터랙션 동작 카테고리에 속하는 것을 결정하고; 제1 신뢰도가 신뢰도 임계값보다 크지 않는 정황에서, 상기 인터랙션 키 포인트에 대응되는 타깃 인물과 타깃 물체 간의 인터랙션 관계가 상기 인터랙션 키 포인트에 대응되는 기설정된 인터랙션 동작 카테고리에 속하지 않는 것을 결정한다.

본 실시예에서, 제1 브랜치 네트워크를 통해 출력한 입력 이미지에서의 각 포인트의 위치 오프셋이 타깃 인물의 제1 중심 포인트와 타깃 물체의 제2 중심 포인트의 위치에 대해 수정을 수행하여, 인터랙션 관계를 구비한 타깃 인물의 제1 중심 포인트의 수정 후의 위치 및 타깃 물체의 제2 중심 포인트의 수정 후의 위치를 얻고, 입력 이미지에서의 인터랙션 관계를 구비한 타깃 인물의 제1 중심 포인트의 수정 후의 위치 및 이의 검출 프레임의 높이와 너비, 타깃 물체의 제2 중심 포인트의 수정 후의 위치 및 이의 검출 프레임의 높이와 너비에 따라, 상기 제1 이미지에서의 인터랙션 관계를 구비한 타깃의 검출 프레임을 결정한다. 뉴럴 네트워크의 출력 결과는 타깃 인물의 제1 중심 포인트의 수정 후의 위치와 대응되는 검출 프레임, 타깃 물체의 제2 중심 포인트의 수정 후의 위치와 대응되는 검출 프레임, 및 타깃 인물과 타깃 물체의 인터랙션 관계(즉 인터랙션 동작 카테고리)이다. 입력 이미지에서의 인터랙션 관계가 존재하지 않는 타깃에 대해 검출 프레임을 출력하지 않는다.

본 발명의 일부 선택 가능한 실시예에 있어서, 본 실시예의 상기 이미지 처리 방법은 뉴럴 네트워크에 의해 실행되고, 상기 뉴럴 네트워크는 샘플 이미지를 사용하여 훈련시켜 얻고, 상기 샘플 이미지에서는 인터랙션 관계가 존재하는 타깃의 검출 프레임은 라벨링되었고, 상기 샘플 이미지에서의 인터랙션 관계가 존재하는 타깃의 라벨링된 중심 포인트(즉 타깃 검출 프레임의 중심) 및 라벨링된 인터랙션 키 포인트(인터랙션 관계가 존재하는 타깃의 검출 프레임의 중심의 연결선의 중점)는 라벨링된 검출 프레임에 따라 결정되고, 라벨링된 오프셋양은 샘플 이미지의 크기 및 샘플 이미지에 따라 결정된 히트 맵의 크기에 따라 결정된다. 이에 기반하여, 본 발명의 실시예는 하나의 뉴럴 네트워크의 훈련 방법을 더 제공한다. 도 4는 본 발명의 실시예에 따른 이미지 처리 방법의 뉴럴 네트워크의 훈련 방법 흐름 예시도이고; 도 4에 도시된 바와 같이, 상기 방법은,

상기 뉴럴 네트워크를 이용하여 상기 샘플 이미지의 특징 데이터를 추출하는 단계201;

상기 뉴럴 네트워크를 이용하여 상기 샘플 이미지의 특징 데이터에 대해 다운 샘플링하여 상기 샘플 이미지의 히트 맵을 얻는 단계202;

상기 뉴럴 네트워클 이용하고 상기 샘플 이미지의 히트 맵에 기반하여 상기 샘플 이미지에서의 위치 오프셋, 상기 샘플 이미지에서의 각 인터랙션 키 포인트, 상기 샘플 이미지에서의 각 타깃의 중심 포인트, 상기 샘플 이미지에서의 각 타깃의 검출 프레임의 높이와 너비를 예측하는 단계203;

상기 뉴럴 네트워크를 이용하고 상기 샘플 이미지의 특징 데이터에 기반하여 적어도 두 개의 오프셋양을 예측하는 단계204;

상기 샘플 이미지에서의 각 타깃의 중심 포인트, 상기 샘플 이미지에서의 상기 인터랙션 키 포인트 및 상기 샘플 이미지에서의 적어도 두 개의 오프셋양에 기반하여 상기 샘플 이미지에서의 타깃 간의 인터랙션 관계를 예측하는 단계 205; 및

예측된 위치 오프셋, 상기 샘플 이미지에서의 인터랙션 관계가 존재하는 타깃의 예측된 중심 포인트 및 예측된 검출 프레임의 높이와 너비, 상기 샘플 이미지에서의 인터랙션 관계가 존재하는 타깃에 대응되는 예측된 인터랙션 키 포인트 및 이의 대응되는 예측된 오프셋양, 및 라벨링된 위치 오프셋 및 상기 샘플 이미지에서의 라벨링된 인터랙션 관계가 존재하는 타깃의 검출 프레임에 따라, 상기 뉴럴 네트워크의 네트워크 파라미터를 조정하는 단계206을 포함한다.

본 실시예에서의 단계 201 내지 단계 205의 설명은 구체적으로 전술한 실시예에서의 설명을 참조할 수 있으며, 여기서 더이상 반복하지 않는다.

본 실시예의 단계 206에서의, 일부 실시예에서, 뉴럴 네트워크에서의 제1 브랜치 네트워크에 대해, 예측된 샘플 이미지에서의 인터랙션 관계가 존재하는 타깃의 예측된 중심 포인트 및 예측된 검출 프레임의 높이와 너비 및 예측된 인터랙션 키 포인트, 라벨링된 인터랙션 관계가 존재하는 타깃의 검출 프레임 및 라벨링된 위치 오프셋을 결부하는 것에 따라 하나의 손실 함수를 결정하고, 상기 손실 함수에 기반하여 제1 브랜치 네트워크의 네트워크 파리미터에 대해 조정을 수행한다.

일부 실시예에서, 뉴럴 네트워크에서의 제2 브랜치 네트워크에 대해, 인터랙션 키 포인트에 대응되는 예측한 오프셋양 및 라벨링된 오프셋양에 따라 하나의 손실 함수를 결정할 수 있고, 상기 손실 함수에 기반하여 제2 브랜치 네트워크의 네트워크 파라미터에 대해 조정을 수행할 수 있다.

일부 실시예에서, 예측된 위치 오프셋과 라벨링된 위치 오프셋에 기반하여 하나의 손실 함수를 결정할 수 있고, 상기 손실 함수 회귀를 통해 특징 데이터를 포함한 특징 이미지에 대해 다운 샘플링을 수행하여 위치 편차를 초래하는 것을 처리하여, 다운 샘플링이 가져오는 손실을 감소 하려고 노력하며, 획득된 각 포인트의 위치 오프셋이 더욱 정확하게 할 수 있다. 이에 기반하여, 상기 손실 함수를 통해 제1 브랜치 네트워크의 네트워크 파라미터에 대해 조정을 수행한다.

본 실시예에서 상기 각 실시예에서의 파라미터 조정 방식을 사용하여 뉴럴 네트워크의 네트워크 파라미터에 대해 조정을 수행할 수 있다.

본 발명의 실시예는 이미지 처리 장치를 더 제공한다. 도 5는 본 발명의 실시예의 이미지 처리 장치 구성의 구조 예시도 1이고; 도 5에 도시된 바와 같이, 상기 장치는, 추출 유닛(41), 제1 결정 유닛(42), 제2 결정 유닛(43)과 제3 결정 유닛(44)를 포함하고; 여기서,

상기 추출 유닛(41)은, 제1 이미지의 특징 데이터를 추출하도록 구성되고;

상기 제1 결정 유닛(42)는, 상기 추출 유닛(41)이 추출한 상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 인터랙션 키 포인트 및 각 타깃의 중심 포인트를 결정하도록 구성되었으며 - 하나의 인터랙션 키 포인트는 연결 라인에서 상기 연결 라인의 중점과의 거리가 기설정된 범위 내인 하나의 포인트이며, 상기 연결 라인은 하나의 인터랙션 동작에서의 두 개 타깃의 중심 포인트 간의 연결 라인임 - ;

상기 제2 결정 유닛(43)은, 상기 추출 유닛(41)에서 추출한 상기 특징 데이터에 기반하여 적어도 두 개의 오프셋양을 결정하도록 구성되고 - 하나의 오프셋양은 하나의 인터랙션 동작에서의 인터랙션 키 포인트와 상기 인터랙션 동작에서의 하나의 타깃의 중심 포인트의 오프셋양을 나타냄 - ;

상기 제3 결정 유닛(44)은, 각 타깃의 중심 포인트, 상기 인터랙션 키 포인트 및 상기 적어도 두 개의 오프셋양에 기반하여 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하도록 구성된다.

본 발명에서의 일부 선택 가능한 실시예에 있어서, 상기 제1 결정 유닛(42)은, 상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 타깃의 중심 포인트, 및 각 타깃의 신뢰도를 결정하는 것; 및 상기 특징 데이터에 기반하여 상기 제1 이미지에서의 인터랙션 키 포인트, 및 각 인터랙션 키 포인트가 각 인터랙션 동작 카테고리에 대응되는 신뢰도를 결정하도록 구성된다.

상기 제3 결정 유닛(44)은, 각 타깃의 중심 포인트, 상기 인터랙션 키 포인트, 상기 적어도 두 개의 오프셋양, 각 타깃의 신뢰도 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도에 기반하여 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하도록 구성된다.

본 발명에서의 일부 선택 가능한 실시예에 있어서, 상기 제1 결정 유닛(42)은, 상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 타깃의 중심 포인트 및 이의 카테고리, 및 각 타깃이 각 기설정된 카테고리에 속하는 신뢰도을 결정하도록 구성되며;

상기 제3 결정 유닛(44)은, 각 타깃의 중심 포인트 및 이의 카테고리, 상기 인터랙션 키 포인트, 상기 적어도 두 개의 오프셋양, 각 타깃이 각 기설정된 카테고리에 속하는 신뢰도 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도에 기반하여, 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하도록 구성된다.

본 발명의 일부 선택 가능한 실시예에서, 상기 제3 결정 유닛(44)은, 인터랙션 키 포인트에 대해, 상기 인터랙션 키 포인트와 서로 대응되는 두 개의 오프셋양을 결정하고; 상기 인터랙션 키 포인트 및 상기 인터랙션 키 포인트와 서로 대응되는 두 개의 오프셋양에 따라, 상기 인터랙션 키 포인트에 대응되는 두 개의 예측 중심 포인트를 결정하며; 각 타깃의 중심 포인트 및 각 인터랙션 키 포인트에 대응되는 두 개의 예측 중심 포인트에 따라, 각 인터랙션 키 포인트에 대응되는 두 개의 타깃을 결정하고; 및 각 인터랙션 키 포인트에 대응되는 두 개의 타깃, 각 타깃의 신뢰도 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도에 따라, 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하도록 구성된다.

본 발명의 일부 선택 가능한 실시예에 있어서, 상기 제3 결정 유닛(44)은, 인터랙션 키 포인트에 대해, 상기 인터랙션 키 포인트에 대응되는 하나의 기설정된 인터랙션 동작 카테고리의 신뢰도와 상기 인터랙션 키 포인트에 대응되는 두 개의 타깃의 신뢰도를 서로 곱하여, 제1 신뢰도를 얻고 - 상기 제1 신뢰도는 상기 인터랙션 키 포인트에 대응되는 두 개의 타깃 간의 인터랙션 관계가 상기 인터랙션 동작 카테고리에 속하는 신뢰도임 - ; 상기 제1 신뢰도가 신뢰도 임계값보다 큰 것에 응답하여, 상기 인터랙션 키 포인트에 대응되는 두 개의 타깃 간의 인터랙션 관계가 상기 기설정된 인터랙션 동작 카테고리에 속하지 않는 것을 결정하며; 및 상기 제1 신뢰도가 신뢰도 임계값보다 크지 않는 것에 응답하여, 상기 인터랙션 키 포인트에 대응되는 두 개의 타깃 간의 인터랙션 관계가 상기 기설정된 인터랙션 동작 카테고리에 속하지 않는 것을 결정하도록 구성된다.

본 발명의 일부 선택 가능한 실시예에 있어서, 상기 제3 결정 유닛(44)은, 또한 인터랙션 키 포인트에 대응되는 두 개의 타깃 간의 인터랙션 관계가 각 기설정된 인터랙션 동작 카테고리에 속하지 않는 것을 결정한 후, 상기 인터랙션 키 포인트에 대응되는 두 개의 타깃 간에 인터랙션 관계가 존재하지 않는 것을 결정하도록 구성된다.

본 발명의 일부 선택 가능한 실시예에 있어서, 상기 제3 결정 유닛(44)은, 예측 중심 포인트에 대해, 각 타깃의 중심 포인트와 상기 예측 중심 포인트 간의 거리를 결정하는 것; 및 중심 포인트와 상기 예측 중심 포인트 간의 거리가 기설정된 거리 임계값보다 작은 타깃을 상기 예측 중심 포인트가 대응되는 인터랙션의 키 포인트가 대응되는 타깃으로 하도록 구성된다

본 발명의 일부 선택 가능한 실시예에 있어서, 상기 제1 결정 유닛(42)은, 상기 특징 데이터를 다운 샘플링하여 상기 제1 이미지의 히트 맵을 얻고; 상기 히트 맵에 따라 상기 제1 이미지에서의 각 포인트의 위치 오프셋, 상기 제1 이미지에서의 각 타깃의 중심 포인트 및 각 타깃의 검출 프레임의 높이와 너비를 결정하며; 또한 상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 타깃의 중점 포인트를 결정한 후, 상기 제1 이미지에서의 인터랙션 관계를 구비한 타깃의 중심 포인트의 위치 오프셋에 따라 상기 제1 이미지에서의 인터랙션 관계를 구비한 타깃의 중심 포인트의 위치 오프셋에 대해 수정을 수행하여, 상기 제1 이미지에서의 인터랙션 관계를 구비한 타깃의 중심 포인트의 수정 후의 위치를 얻고; 및 상기 제1 이미지에서의 인터랙션 관계를 구비한 타깃의 중심 포인트의 수정 후의 위치 및 검출 프레임의 높이와 너비에 따라, 상기 제1 이미지에서의 인터랙션 관계를 구비한 타깃의 검출 프레임을 결정하도록 구성된다.

본 발명의 일부 선택 가능한 실시예에 있어서, 상기 이미지 처리 장치에서의 각 기능 유닛은 뉴럴 네트워크에 의해 구현되고, 상기 뉴럴 네트워크는 샘플 이미지를 사용하여 훈련시켜 얻고, 상기 샘플 이미지에서 인터랙션 관계가 존재하는 타깃의 검출 프레임은 라벨링되었고, 상기 샘플 이미지에서의 인터랙션 관계가 존재하는 타깃의 라벨링된 중심 포인트 및 라벨링된 인터랙션 키 포인트에 따라 라벨링된 검출 프레임을 결정하고, 라벨링된 오프셋양은 인터랙션 관계가 존재하는 타기의 라벨링된 중심 포인트 및 라벨링된 인터랙션 키 포인트에 따라 결정하도록 구성된다.

본 발명의 일부 선택 가능한 실시예에 있어서, 도 6에 도시된 바와 같이, 상기 장치는 또한, 샘플 이미지를 사용하여 상기 뉴럴 네트워크를 훈련시켜 얻도록 구성된 훈련 유닛(45)을 더 포함하며, 구체적으로, 상기 뉴럴 네트워크를 이용하여 상기 샘플 이미지의 특징 데이터를 얻는 것; 상기 뉴럴 네트워크가 상기 샘플 이미지의 특징 데이터를 다운 샘플링하여 상기 샘플 이미지의 히트 맵을 얻고; 상기 뉴럴 네트워크를 이용하고 상기 샘플 이미지의 히트 맵에 기반하여 상기 샘플 이미지에서의 각 포인트의 위치 오프셋, 상기 샘플 이미지에서의 각 인터랙션 키 포인트, 상기 샘플 이미지에서의 각 타깃의 중심 포인트, 상기 샘플 이미지에서의 각 타깃의 검출 프레임의 높이와 너비를 예측하며; 상기 뉴럴 네트워크를 이용하고 상기 샘플 이미지의 특징 데이터에 기반하여 적어도 두 개의 오프셋양을 결정하고; 상기 샘플 이미지에서의 각 타깃의 중심 포인트, 상기 샘플 이미지에서의 상기 인터랙션 키 포인트 및 샘플 이미지에서의 적어도 두 개의 오프셋양에 기반하여 상기 샘플 이미지에서의 타깃 간의 인터랙션 관계를 예측하며; 및 예측된 위치 오프셋, 상기 샘플 이미지에서의 인터랙션 관계가 존재하는 타깃의 예측된 중심 포인트 및 이의 대응되는 예측된 오프셋양, 및 라벨링된 위치 오프셋 및 상기 샘플 이미지에서 라벨된 인터랙션 관계가 존재하는 타깃의 검출 프레임에 따라, 상기 뉴럴 네트워크의 네트워크 파라미터를 조정하도록 구성된다.

본 발명의 실시예에서, 상기 장치에서의 추출 유닛(41), 제1 결정 유닛(42), 제2 결정 유닛(43) 및 제3 결정 유닛(44)와 훈련 유닛(45)를 포함하며, 실제 응용에서 모두 상기 장치에서의 중앙 처리 장치(Central Processing Unit, CPU), 디지털 신호 처리기(Digital Signal Processor, DSP), 마이크로 컨트롤러 유닛(Microcontroller Unit, MCU) 또는 현장 프로그래머블 게이트 어레이(Field－Programmable Gate Array, FPGA)에 의해 구현될 수 있다.

설명해야 할 것은, 상기 실시예에서 제공한 이미지 처리 장치는 이미지 처리를 수행할 때, 상기 각 프로그램 모듈의 분할로만 예를 들어 설명하며, 실제 응용에서, 상기 처리 분배는 필요에 따라 상이한 프로그램 모듈에 의해 완료될 수 있으며, 즉 전술한 설명의 전부 또는 부분 처리를 완료하기 위해 상기 장치의 내부 구조는 상이한 프로그램 모듈로 분할된다. 또한, 상기 실시예에서 제공한 이미지 처리 장치와 이미지 처리 방법 실시예는 동일한 구상에 속하며, 이의 구체적인 구현 과정은 방법 실시예를 참조하며, 여기서 더이상 반복하지 않는다.

본 발명의 실시예는 전자 기기도 제공한다. 도 7은 본 발명의 실시예의 전자 기기의 하드웨어 구성의 구조 예시도이며, 도 7에 도시된 바와 같이, 상기 전자 기기는 메모리(52), 프로세서(51) 및 메모리(52)에 저장되고 프로세서(51)에서 작동할 수 있는 컴퓨터 프로그램을 포함하며, 상기 프로세서(51)가 상기 프로그램을 실행할 때 본 발명의 실시예의 이미지 처리 방법의 단계를 구현한다.

선택적으로, 전자 기기에서의 각 컴포넌트는 버스 시스템(53)을 통해 하나로 연결된다. 이해해야 할 것은, 버스 시스템(53)은 이러한 컴포넌트 간의 연결 통신을 구현하기 위한 것이다. 버스 시스템(53)은 데이터 버스 외에도, 전원 버스, 제어 버스 및 상태 신호 버스를 더 포함한다. 그러나, 명확한 설명을 위해, 도 7에서 각 다양한 버스는 모두 버스 시스템(53)으로 표기된다.

이해할 수 있는 것은, 메모리(52)는 휘발성 메모리 또는 비휘발성 메모리일 수 있으며, 휘발성 메모리 및 비휘발성 메모리 모두를 포함할 수도 있다. 여기서, 비휘발성 메모리는 판독 가능한 메모리(Read Only Memory, ROM), 프로그래머블 판독 전용 메모리(Programmable Read-Only Memory, PROM), 소거 가능한 프로그래머블 판독 전용 메모리(Erasable Programmable Read-Only Memory, EPROM), 전기적 소거 가능한 프로그래머블 판독 전용 메모리(Electrically Erasable Programmable Read-Only Memory, EEPROM), 자기 랜덤 액세스 메모리(ferromagnetic random access memory, FRAM), 플래시 메모리(Flash Memory), 자기 표면 메모리, 광 디스크, 또는 판독 전용 컴팩트 디스크(Compact Disc Read-Only Memory, CD-ROM)일 수 있으며; 자기 표면 메모리는 디스크 메모리 또는 테이프 메모리일 수 있다. 휘발성 메모리는 외부 쾌속 캐시 역할을 하는 랜덤 액세스 메모리(Random Access Memory, RAM)일 수 있다. 한정이 아닌 예시적인 설명을 통해, 많은 형태의 RAM을 사용할 수 있으며, 예를 들어, 정적 랜덤 액세스 메모리(Static Random Access Memory, SRAM), 동기식 정적 랜덤 액세스 메모리(Synchronous Static Random Access Memory, SSRAM), 동기식 랜덤 액세스 메모리(Dynamic Random Access Memory, DRAM), 동기식 동적 랜덤 액세스 메모리(Synchronous Dynamic Random Access Memory, SDRAM), 더블 데이터 레이트 싱크로너스 동적 랜덤 액세스 메모리(Double Data Rate Synchronous Dynamic Random Access Memory, DDRSDRAM), 향상된 동기식 동적 랜덤 액세스 메모리(Enhanced Synchronous Dynamic Random Access Memory, ESDRAM), 동기식 연결 동적 랜덤 액세스 메모리(SyncLink Dynamic Random Access Memory, SLDRAM), 다이렉트 램버스 버스 랜덤 액세스 메모리(Direct Rambus Random Access Memory, DRRAM)이다. 본 발명의 실시예에서 설명한 메모리(52)는 이러한 메모리 및 다른 임의의 타입의 메모리를 포함하지만 이에 한정되지 않는다.

상기 본 발명 실시예에서 언급된 방법은 프로세서(51)에 응용 가능하거나, 프로세서(51)에 의해 구현된다. 프로세서(51)는 신호 처리 능력을 구비하는 집적 회로 칩일 수 있다. 구현 과정에서, 상기 방법의 각 단계는 프로세서(51) 에서의 하드웨어의 집적 논리 회로 또는 소프트웨어 형태의 명령어에 의해 완료될 수 있다. 상기 프로세서(51)는 범용 프로세서, DSP, 또는 다른 프로그래머블 논리 소자, 이산 게이트 또는 트랜지스터 논리 장치, 이산 하드웨어 부재 등일 수 있다. 프로세서(51)는 본 발명의 실시예에서 개시한 각 방법, 단계 및 논리 블록도를 구현 또는 실행할 수 있다. 범용 프로세서는 마이크로 프로세서 또는 임의의 일반적인 프로세서 등일 수 있다. 본 발명의 실시예에서 개시된 방법의 단계를 결합하여, 하드웨어 디코딩 프로세서로 직접 반영되어 실행 및 완료될 수 있거나, 디코딩 프로세서에서의 하드웨어 및 소프트웨어 모듈의 조합에 의해 실행 및 완료될 수 있다. 소프트웨어 모듈은 저장 매체에 위치할 수 있고, 상기 저장 매체는 메모리(52), 프로세서(51)에 위치하여 메모리(52)에서의 정보를 판독하며, 하드웨어와 결합하여 전술한 방법의 단계를 완료한다.

예시적 실시예에서, 전자 기기는 1 개 또는 복수 개의 특정 용도 집적 회로(Application Specific Integrated Circuit, ASIC), DSP, 프로그래머블 논리 소자(Programmable Logic Device, PLD), 복합 프로그래머블 논리 소자(Complex Programmable Logic Device, CPLD), FPGA, 범용 프로세서, 컨트롤러, MCU, 마이크로 프로세서(Microprocessor), 및 다른 전자 구성 요소에 의해 구현되며, 전술된 방법을 실행하기 위한 것이다.

예시적인 실시예에서, 본 발명의 실시예는 또한 컴퓨터 판독 가능 저장 매체를 제공하며, 예를 들어, 컴퓨터 프로그램을 포함하는 메모리(52), 상기 컴퓨터 프로그램은 전술한 방법의 상기 단계를 완료하기 위해 이미지 처리 장치의 프로세서(51)에 의해 실행된다. 컴퓨터 판독 가능 저장 매체는 FRAM, ROM, PROM, EPROM, EEPROM, Flash Memory, 자기 표면 메모리, 광 디스크 또는 CD-ROM 등 메모리일 수 있으며; 또한 상기 메모리에서 하나 또는 임의의 조합을 포함하는 다양한 기기일 수도 있다.

본 발명의 실시예는 컴퓨터 프로그램이 저장되어 있는 컴퓨터 판독 가능한 저장 매체를 제공하고, 상기 프로그램은 프로세서에 의해 실행될 경우 본 발명의 실시예에 따른 방법의 단계를 구현한다.

본 발명의 실시예는 컴퓨터 판독 가능한 코드를 포함하는 컴퓨터 프로그램을 제공하며, 상기 컴퓨터 판독 가능한 코드가 전자 기기에서 작동될 때, 상기 전자 기기에서의 프로세서는 본 발명의 실시예에 따른 이미지 처리 방법의 단계를 구현하기 위해 실행된다.

본 발명에서 제공한 몇 개의 방법 실시예에서 언급된 방법은, 충돌되지 않는 경우 임의로 조합되어, 새로운 방법 실시예를 얻을 수 있다.

본 발명에서 제공한 몇 개의 제품 실시예에서 언급된 특징은, 충돌되지 않는 경우 임의로 조합되어, 새로운 제품 실시예를 얻을 수 있다.

본 발명에서 제공한 몇 개의 방법 또는 기기 실시예에서 언급된 특징은, 충돌되지 않는 경우 임의로 조합되어, 새로운 방법 실시예 또는 기기 실시예를 얻을 수 있다.

본 발명에서 제공된 몇 개의 실시예에 있어서, 개시된 기기와 방법은 다른 방식을 통해 구현될 수 있음을 이해해야 한다. 전술한 기기 실시예는 다만 예시적일 뿐이고, 예를 들어, 상기 유닛에 대한 분할은 다만 논리적 기능 분할이고, 실제로 구현될 경우 다른 분할 방식이 있을 수 있으며, 예를 들어, 복수 개의 유닛 또는 컴포넌트는 다른 시스템에 결합될 수 있거나, 또는 일부 특징을 무시하거나 실행하지 않을 수 있다. 또한, 나타내거나 논의된 각 구성 부분의 상호간의 결합 또는 직접 결합 또는 통신 연결은, 일부 인터페이스, 기기 또는 유닛을 통한 간접 결합 또는 통신 연결일 수 있고, 전기적, 기계적 또는 다른 형태일 수 있다.

상기 분리 부재로서 설명된 유닛은, 물리적으로 분리되거나, 분리되지 않을 수도 있고, 유닛으로서 나타낸 부재는 물리적 유닛일 수도, 아닐 수도 있으며, 즉 한 곳에 위치할 수 있거나, 복수 개의 네트워크 유닛에 분포될 수도 있으며; 실제 필요에 따라 유닛의 일부 또는 전부를 선택하여 본 실시예의 방안의 목적을 구현할 수 있다.

또한, 본 발명의 각 실시예에서의 각 기능 유닛은 하나의 처리 유닛에 전부 통합될 수 있으며, 각 유닛이 각각 독립적으로 하나의 유닛으로서 존재할 수도 있거나, 두 개 또는 두 개 이상의 유닛이 하나의 유닛에 통합될 수도 있으며; 상기 통합된 유닛은 하드웨어의 형태로 구현될 수 있을 뿐만 아니라, 하드웨어와 소프트웨어 기능 유닛의 형태로 구현될 수도 있다.

본 기술분야의 통상의 기술자는 상기 방법 실시예를 구현하기 위한 모든 또는 일부 단계는 프로그램 명령어와 상관되는 하드웨어를 통해 완료되며, 전술한 프로그램은 컴퓨터 판독 가능 저장 매체에 저장될 수 있으며, 상기 프로그램이 실행될 경우, 상기 방법 실시예를 포함하는 단계를 실행하며; 전술한 저장 매체는 모바일 저장 기기, ROM, RAM, 자기 디스크 또는 광 디스크와 같은 프로그램 코드를 저장할 수 있는 다양한 매체를 포함하는 것을 이해할 수 있을 것이다.

또는, 본 발명의 상기 통합된 유닛이 소프트웨어 기능 유닛의 형태로 구현되고 독립적인 제품으로서 판매되거나 사용되는 경우, 컴퓨터 판독 가능 저장 매체에 저장될 수도 있다. 이러한 이해에 기반하여, 본 발명의 실시예의 기술 방안은 본질상에서, 또는 종래 기술에 기여하는 부분이 소프트웨어 제품의 형태로 구현될 수 있고, 상기 컴퓨터 소프트웨어 제품은 하나의 저장 매체에 저장되며, 하나의 컴퓨터 기기(개인용 컴퓨터, 서버 또는 네트워크 기기 등일 수 있음)로 하여금 본 발명의 각 실시예의 상기 방법의 전부 또는 일부를 실행하는데 사용되는 복수 개의 명령어를 포함한다. 전술한 저장 매체는 모바일 저장 기기, ROM, RAM, 자기 디스크 또는 광 디스크 등 다양한 프로그램 코드를 저장할 수 있는 다양한 매체를 포함한다.

이상의 설명은 다만 본 발명의 구체적인 실시 형태일뿐이고, 본 발명의 보호 범위는 이에 한정되지 않는다. 본 발명이 속하는 기술 분야의 통상의 기술자라면, 본 발명에서 개시된 기술적 범위 내의 변화 또는 교체가 모두 본 발명의 보호 범위 내에 속해야 함을 쉽게 알 수 있을 것이다. 따라서, 본 발명의 보호 범위는 특허청구범위의 보호 범위를 기준으로 해야 한다.

Claims

이미지 처리 방법으로서, 상기 방법은,
제1 이미지의 특징 데이터를 추출하는 단계;
상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 인터랙션 키 포인트 및 각 타깃의 중심 포인트를 결정하는 단계 - 하나의 인터랙션 키 포인트는 연결 라인에서 상기 연결 라인의 중점과의 거리가 기설정된 범위 내인 하나의 포인트이고, 상기 연결 라인은 하나의 인터랙션 동작에서의 두 개 타깃의 중심 포인트 간의 연결 라인임 - ;
상기 특징 데이터에 기반하여 적어도 두 개의 오프셋양을 결정하는 단계 - 하나의 오프셋양은 하나의 인터랙션 동작에서의 인터랙션 키 포인트와 상기 인터랙션 동작에서의 하나의 타깃의 중심 포인트의 오프셋양을 나타냄 - ; 및
상기 각 타깃의 중심 포인트, 상기 인터랙션 키 포인트 및 상기 적어도 두 개의 오프셋양에 기반하여 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 단계를 포함하고,
상기 각 타깃의 중심 포인트, 상기 인터랙션 키 포인트 및 상기 적어도 두 개의 오프셋양에 기반하여 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 단계는, 하나의 인터랙션 키 포인트에 대해, 상기 인터랙션 키 포인트와 서로 대응되는 두 개의 오프셋양을 결정하는 단계; 상기 인터랙션 키 포인트 및 상기 인터랙션 키 포인트와 서로 대응되는 두 개의 오프셋양에 따라, 상기 인터랙션 키 포인트와 대응되는 두 개의 예측 중심 포인트를 결정하는 단계; 각 타깃의 중심 포인트 및 각 인터랙션 키 포인트에 대응되는 두 개의 예측 중심 포인트에 따라, 각 인터랙션 키 포인트에 대응되는 두 개 타깃을 결정하는 단계; 및 각 인터랙션 키 포인트에 대응되는 두 개 타깃에 따라 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
제1항에 있어서,
상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 인터랙션 키 포인트 및 각 타깃의 중심 포인트를 결정하는 단계는,
상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 타깃의 중심 포인트, 및 각 타깃의 신뢰도를 결정하는 단계;
상기 특징 데이터에 기반하여 상기 제1 이미지에서의 인터랙션 키 포인트, 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도를 결정하는 단계를 포함하고;
상기 각 타깃의 중심 포인트, 상기 인터랙션 키 포인트 및 상기 적어도 두 개의 오프셋양에 기반하여 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 단계는,
각 타깃의 중심 포인트, 상기 인터랙션 키 포인트, 상기 적어도 두 개의 오프셋양, 각 타깃의 신뢰도 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도에 기반하여, 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
제2항에 있어서,
상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 타깃의 중심 포인트 및 각 타깃의 신뢰도를 결정하는 단계는,
상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 타깃의 중심 포인트 및 각 타깃의 카테고리, 및 각 타깃이 각 카테고리에 속하는 신뢰도를 결정하는 단계를 포함하고;
상기 각 타깃의 중심 포인트, 상기 인터랙션 키 포인트, 상기 적어도 두 개의 오프셋양, 각 타깃의 신뢰도 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도에 기반하여, 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 단계는,
각 타깃의 중심 포인트 및 각 타깃의 카테고리, 상기 인터랙션 키 포인트, 상기 적어도 두 개의 오프셋양, 각 타깃이 각 카테고리에 속하는 신뢰도 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도에 기반하여, 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 단계를 특징으로 하는 이미지 처리 방법.
제2항 또는 제3항에 있어서,
상기 각 타깃의 중심 포인트, 상기 인터랙션 키 포인트, 상기 적어도 두 개의 오프셋양, 각 타깃의 신뢰도 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도에 기반하여, 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 단계는,
각 인터랙션 키 포인트에 대응되는 두 개의 타깃, 각 타깃의 신뢰도 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도에 따라, 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
제4항에 있어서,
상기 각 인터랙션 키 포인트에 대응되는 두 개의 타깃, 각 타깃의 신뢰도 및 각 인터랙션 키 포인트가 각 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도에 따라, 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 단계는,
하나의 인터랙션 키 포인트에 대해, 상기 인터랙션 키 포인트가 하나의 기설정된 인터랙션 동작 카테고리에 대응되는 신뢰도와 상기 인터랙션 키 포인트에 대응되는 두 개의 타깃의 신뢰도를 서로 곱하여, 제1 신뢰도를 얻는 단계 - 상기 제1 신뢰도는 상기 인터랙션 키 포인트에 대응되는 두 개의 타깃 간의 인터랙션 관계가 상기 기설정된 인터랙션 동작 카테고리에 속하는 신뢰도임 - ;
상기 제1 신뢰도가 신뢰도 임계값보다 큰 것에 응답하여, 상기 인터랙션 키 포인트에 대응되는 두 개의 타깃 간의 인터랙션 관계가 상기 기설정된 인터랙션 동작 카테고리에 속하는 것을 결정하는 단계; 및
상기 제1 신뢰도가 신뢰도 임계값보다 크지 않는 것에 응답하여, 상기 인터랙션 키 포인트에 대응되는 두 개의 타깃 간의 인터랙션 관계가 상기 기설정된 인터랙션 동작 카테고리에 속하지 않는 것을 결정하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
제5항에 있어서,
상기 이미지 처리 방법은,
하나의 인터랙션 키 포인트에 대응되는 두 개의 타깃 간의 인터랙션 관계가 각 기설정된 인터랙션 동작 카테고리에 속하지 않는 것을 결정한 후, 상기 인터랙션 키 포인트에 대응되는 두 개의 타깃 간에 인터랙션 관계가 존재하지 않는 것을 결정하는 단계를 포함하는 것을 특징으로하는 이미지 처리 방법.
제4항에 있어서,
상기 각 타깃의 중심 포인트 및 각 인터랙션 키 포인트에 대응되는 두 개의 예측 중심 포인트에 따라, 각 인터랙션 키 포인트에 대응되는 두 개의 타깃을 결정하는 단계는,
하나의 예측 중심 포인트에 대해, 각 타깃의 중심 포인트와 상기 예측 중심 포인트 간의 거리를 결정하는 단계; 및
중심 포인트와 상기 예측 중심 포인트 간의 거리가 기설정된 거리의 임계값보다 작은 타깃을 상기 예측 중심 포인트에 대응되는 인터랙션 키 포인트에 대응되는 타깃으로 사용하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 타깃의 중심 포인트를 결정하는 단계는,
상기 특징 데이터를 다운 샘플링하여 상기 제1 이미지의 히트 맵을 얻는 단계;
상기 히트 맵에 따라 상기 제1 이미지에서의 각 포인트의 위치 오프셋, 상기 제1 이미지에서의 각 타깃의 중심 포인트 및 각 타깃의 검출 프레임의 높이와 너비를 결정하는 단계;
상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 타깃의 중심 포인트를 결정한 후, 상기 이미지 처리 방법은 또한,
상기 제1 이미지에서의 인터랙션 관계를 구비한 타깃의 중심 포인트의 위치 오프셋에 따라 상기 제1 이미지에서의 인터랙션 관계를 구비한 타깃의 중심 포인트의 위치에 대해 수정을 수행하여, 상기 제1 이미지에서의 인터랙션 관계를 구비한 타깃의 중심 포인트의 수정 후의 위치를 얻는 단계;
상기 제1 이미지에서의 인터랙션 관계를 구비한 타깃의 중심 포인트의 수정 후의 위치 및 상기 타깃의 검출 프레임의 높이와 너비에 따라, 상기 제1 이미지에서의 인터랙션 관계를 구비한 타깃의 검출 프레임을 결정하는 단계를 더 포함하는 것을 특징으로 하는 이미지 처리 방법.
제8항에 있어서,
상기 이미지 처리 방법은 뉴럴 네트워크에 의해 실행되고, 상기 뉴럴 네트워크는 샘플 이미지를 사용하여 훈련시켜 얻고, 상기 샘플 이미지에서 인터랙션 관계가 존재하는 타깃의 검출 프레임은 라벨링되었고, 상기 샘플 이미지에서 인터랙션 관계가 존재하는 타깃의 라벨링된 중심 포인트 및 라벨링된 인터랙션 키 포인트는 라벨링된 검출 프레임에 따라 결정되고, 라벨링된 오프셋양은 인터랙션 관계를 구비한 타깃의 라벨링된 중심 포인트 및 라벨링된 인터랙션 키 포인트에 따라 결정되는 단계를 특징으로 하는 이미지 처리 방법.
제9항에 있어서,
상기 샘플 이미지를 사용하여 뉴럴 네트워크를 훈련시켜 얻는 단계는,
상기 뉴럴 네트워크를 이용하여 상기 샘플 이미지의 특징 데이터를 추출하는 단계;
상기 뉴럴 네트워크를 이용하여 상기 샘플 이미지의 특징 데이터에 대해 다운 샘플링하여 상기 샘플 이미지의 히트 맵을 얻는 단계;
상기 뉴럴 네트워크를 이용하고 상기 샘플 이미지의 히트 맵에 기반하여 상기 샘플 이미지에서의 각 포인트의 위치 오프셋, 상기 샘플 이미지에서의 각 인터랙션 키 포인트, 상기 샘플 이미지에서의 각 타깃의 중심 포인트, 상기 샘플 이미지에서의 각 타깃의 검출 프레임의 높이와 너비를 예측하는 단계;
상기 뉴럴 네트워크를 이용하고 상기 샘플 이미지의 특징 데이터에 기반하여 적어도 두 개의 오프셋양을 예측하는 단계;
상기 샘플 이미지에서의 각 타깃의 중심 포인트, 상기 샘플 이미지에서의 상기 인터랙션 키 포인트 및 상기 샘플 이미지에서의 적어도 두 개의 오프셋양에 기반하여 상기 샘플 이미지에서의 타깃 간의 인터랙션 관계를 결정하는 단계; 및
예측된 위치 오프셋, 상기 샘플 이미지에서의 인터랙션 관계가 존재하는 타깃의 예측된 중심 포인트 및 예측된 검출 프레임의 높이와 너비, 상기 샘플 이미지에서 인터랙션 관계가 존재하는 타깃에 대응되는 예측된 인터랙션 키 포인트 및 상기 예측된 인터랙션 키 포인트에 대응되는 예측된 오프셋양, 및 라벨링된 위치 오프셋 및 상기 샘플 이미지에서 라벨링된 인터랙션 관계가 존재하는 타깃의 검출 프레임에 따라, 상기 뉴럴 네트워크의 네트워크 파라미터를 조정하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
이미지 처리 장치로서,
추출 유닛, 제1 결정 유닛, 제2 결정 유닛과 제3 결정 유닛을 포함하고;
상기 추출 유닛은, 제1 이미지의 특징 데이터를 추출하도록 구성되고;
상기 제1 결정 유닛은, 상기 추출 유닛이 추출한 상기 특징 데이터에 기반하여 상기 제1 이미지에서의 각 인터랙션 키 포인트 및 각 타깃의 중심 포인트를 결정하도록 구성되고 - 하나의 인터랙션 키 포인트는 연결 라인에서 상기 연결 라인의 중점과의의 거리가 기설정된 범위 내인 하나의 포인트이고, 상기 연결 라인은 하나의 인터랙션 동작에서의 두 개 타깃의 중심 포인트 간의 연결 라인임 - ;
상기 제2 결정 유닛은, 상기 추출 유닛에서 추출한 상기 특징 데이터에 기반하여 적어도 두 개의 오프셋양을 결정하도록 구성되고 - 하나의 오프셋양은 하나의 인터랙션 동작에서의 인터랙션 키 포인트와 상기 인터랙션 동작에서의 하나의 타깃의 중심 포인트의 오프셋양임 - ;
상기 제3 결정 유닛은, 각 타깃의 중심 포인트, 상기 인터랙션 키 포인트 및 상기 적어도 두 개의 오프셋양에 기반하여 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하도록 구성되며,
상기 제3 결정 유닛은 또한, 하나의 인터랙션 키 포인트에 대해, 상기 인터랙션 키 포인트와 서로 대응되는 두 개의 오프셋양을 결정하고; 상기 인터랙션 키 포인트 및 상기 인터랙션 키 포인트와 서로 대응되는 두 개의 오프셋양에 따라, 상기 인터랙션 키 포인트와 대응되는 두 개의 예측 중심 포인트를 결정하며; 각 타깃의 중심 포인트 및 각 인터랙션 키 포인트에 대응되는 두 개의 예측 중심 포인트에 따라, 각 인터랙션 키 포인트에 대응되는 두 개 타깃을 결정하며; 각 인터랙션 키 포인트에 대응되는 두 개 타깃에 따라 상기 제1 이미지에서의 타깃 간의 인터랙션 관계를 결정하도록 구성되는 것을 특징으로 하는 이미지 처리 장치.
컴퓨터 판독 가능한 저장 매체로서,
컴퓨터 프로그램을 저장하고, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때 제1항 내지 제3항 중 어느 한 항에 따른 이미지 처리 방법의 단계를 구현하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장 매체.
전자 기기로서,
메모리, 프로세서 및 메모리에 저장되고 프로세서에서 작동 가능한 컴퓨터 프로그램을 포함하며, 상기 프로세서에 의해 상기 프로그램이 실행될 때 제1항 내지 제3항 중 어느 한 항에 따른 이미지 처리 방법의 단계를 구현하는 것을 특징으로 하는 전자 기기.
저장 매체에 기록된 컴퓨터 프로그램으로서,
컴퓨터 판독 가능한 코드를 포함하고, 상기 컴퓨터 판독 가능한 코드가 전자 기기에서 작동될 경우, 상기 전자 기기에서의 프로세서는 제1 항 내지 제3항 중 어느 한 항에 따른 이미지 처리 방법을 구현하는 것을 특징으로 하는 컴퓨터 프로그램.
삭제
삭제
삭제
삭제
삭제
삭제
삭제