KR20220120446A - 이미지에 수반된 객체들 사이의 상관성을 예측하기 위한 방법들, 장치들, 디바이스들 및 저장 매체 - Google Patents

이미지에 수반된 객체들 사이의 상관성을 예측하기 위한 방법들, 장치들, 디바이스들 및 저장 매체 Download PDF

Info

Publication number
KR20220120446A
KR20220120446A KR1020217026749A KR20217026749A KR20220120446A KR 20220120446 A KR20220120446 A KR 20220120446A KR 1020217026749 A KR1020217026749 A KR 1020217026749A KR 20217026749 A KR20217026749 A KR 20217026749A KR 20220120446 A KR20220120446 A KR 20220120446A
Authority
KR
South Korea
Prior art keywords
correlation
target area
bounding box
objects
weighting
Prior art date
Application number
KR1020217026749A
Other languages
English (en)
Inventor
바이룬 왕
쉐썬 장
춘야 류
징환 천
솨이 이
Original Assignee
센스타임 인터내셔널 피티이. 리미티드.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 센스타임 인터내셔널 피티이. 리미티드. filed Critical 센스타임 인터내셔널 피티이. 리미티드.
Priority claimed from PCT/IB2021/055006 external-priority patent/WO2022175731A1/en
Publication of KR20220120446A publication Critical patent/KR20220120446A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Abstract

본 개시는 이미지에 수반된 객체들 사이의 상관성을 예측하기 위한 방법들, 장치들, 디바이스들 및 저장 매체를 제공한다. 방법에 따르면, 취득된 이미지에 수반된 제1 객체 및 제2 객체가 검출되고, 제1 객체 및 제2 객체는 상이한 신체 부분들을 나타낸다. 타겟 영역에 대한 제1 객체의 제1 가중 정보 및 타겟 영역에 대한 제2 객체의 제2 가중 정보가 결정된다. 타겟 영역은 제1 객체와 제2 객체의 조합에 대한 주변 박스에 대응한다. 제1 가중 정보 및 제2 가중 정보에 각각 기초하여 타겟 영역에 대해 가중 처리가 수행되어 타겟 영역의 제1 가중 특징 및 제2 가중 특징을 획득한다. 타겟 영역 내의 제1 객체와 제2 객체 사이의 상관성은 제1 가중 특징 및 제2 가중 특징에 기초하여 예측된다.

Description

이미지에 수반된 객체들 사이의 상관성을 예측하기 위한 방법들, 장치들, 디바이스들 및 저장 매체
관련 출원에 대한 상호 참조
본 출원은 2021년 2월 22일자로 출원된 싱가포르 특허 출원 제10202101743P호의 우선권을 주장하며, 그 전체 내용은 모든 목적들을 위해 본 명세서에 참고로 포함된다.
기술분야
본 개시는 컴퓨터 기술에 관한 것으로, 특히, 이미지에 수반된 객체들 사이의 상관성을 예측하기 위한 방법들, 장치들, 디바이스들 및 저장 매체에 관한 것이다.
지능형 비디오 분석인 기술은 우리가 물리적 공간 내의 객체들의 상태들 및 그들의 서로의 관계들을 이해하는 것을 도울 수 있다. 지능형 비디오 분석을 적용하는 시나리오에서, 비디오에 나타나는 그 사람의 신체의 하나 이상의 부분에 기초하여 사람을 식별할 것으로 예상된다.
특히, 직원 아이덴티티에 대한 신체 부분의 상관성은 일부 중간 정보를 통해 식별될 수 있다. 예를 들어, 중간 정보는 신체 부분 및 직원 아이덴티티 둘 다에 대해 비교적 명확한 상관성을 갖는 객체를 표시할 수 있다. 특정 예로서, 이미지에서 손이 검출되는 직원 아이덴티티를 결정할 것으로 예상될 때, 손과 상관되고(즉, 얼굴과 손이 서로 상관되고, 이들은 상관된 객체들로서 명명됨) 직원 아이덴티티를 표시하는 얼굴이 결정을 실현하기 위해 이용될 수 있다. 이 예에서, 상관된 객체들은 둘 다 제3 객체에 속하거나 동일한 아이덴티티 정보 속성을 갖는 2개의 객체를 표시할 수 있다. 2개의 신체 부분이 서로 상관된 객체들일 때, 2개의 신체 부분은 한 사람에 속하는 것으로 간주될 수 있다.
이미지에 수반된 신체 부분들을 상관시킴으로써, 개인들의 거동 및 상태 그리고 다수의 사람 간의 관계를 포함하는 다인(multi-person) 시나리오를 분석하는 데 추가로 도움을 줄 수 있다.
위에 비추어, 본 개시는 이미지에 수반된 객체들 사이의 상관성을 예측하는 적어도 하나의 방법을 개시하며, 이 방법은 다음을 포함한다: 취득된 이미지에 수반된 제1 객체 및 제2 객체를 검출하는 단계- 제1 객체 및 제2 객체는 상이한 신체 부분들을 나타냄 -; 타겟 영역에 대한 제1 객체의 제1 가중 정보 및 타겟 영역에 대한 제2 객체의 제2 가중 정보를 결정하는 단계; - 타겟 영역은 제1 객체와 제2 객체의 조합에 대한 주변 박스에 대응함 -; 제1 가중 정보 및 제2 가중 정보에 각각 기초하여 타겟 영역에 대해 가중 처리(weighted-processing)를 수행하여 타겟 영역의 제1 가중 특징(weighted feature) 및 제2 가중 특징을 획득하는 단계; 및 제1 가중 특징들 및 제2 가중 특징들에 기초하여 타겟 영역 내에서 제1 객체와 제2 객체 사이의 상관성을 예측하는 단계.
일부 실시예들에서, 방법은 다음을 추가로 포함한다: 제1 객체에 대한 제1 경계 박스 및 제2 객체에 대한 제2 경계 박스에 기초하여, 제1 경계 박스 및 제2 경계 박스를 커버하지만 제1 경계 박스 및 제2 경계 박스와의 교차점을 갖지 않는 박스를 주변 박스로서 결정하거나; 또는, 제1 객체에 대한 제1 경계 박스 및 제2 객체에 대한 제2 경계 박스에 기초하여, 제1 경계 박스 및 제2 경계 박스를 커버하고 제1 경계 박스 및/또는 제2 경계 박스와 외부적으로 연결되는 박스를 주변 박스로서 결정하는 단계.
일부 실시예들에서, 타겟 영역에 대한 제1 객체의 제1 가중 정보 및 타겟 영역에 대한 제2 객체의 제2 가중 정보를 결정하는 것은 다음을 포함한다: 제1 객체에 대응하는 영역에 대해 영역 특징 추출을 수행하여 제1 객체의 제1 특징 맵을 결정하는 것; 제2 객체에 대응하는 영역에 대해 영역 특징 추출을 수행하여 제2 객체의 제2 특징 맵을 결정하는 것; 제1 특징 맵을 미리 설정된 크기로 조정함으로써 제1 가중 정보를 획득하고, 제2 특징 맵을 미리 설정된 크기로 조정함으로써 제2 가중 정보를 획득하는 것.
일부 실시예들에서, 제1 가중 정보 및 제2 가중 정보에 각각 기초하여 타겟 영역에 대해 가중 처리를 수행하여 타겟 영역의 제1 가중 특징 및 제2 가중 특징을 획득하는 것은 다음을 포함한다: 타겟 영역에 대해 영역 특징 추출을 수행하여 타겟 영역의 특징 맵을 결정하는 것; 제1 가중 정보에 기초하여 구성되는 제1 컨볼루션 커널을 이용하여, 타겟 영역의 특징 맵에 대해 컨볼루션 연산을 수행하여 제1 가중 특징을 획득하는 것; 및 제2 가중 정보에 기초하여 구성되는 제2 컨볼루션 커널을 이용하여, 타겟 영역의 특징 맵에 대해 컨볼루션 연산을 수행하여 제2 가중 특징을 획득하는 것.
일부 실시예들에서, 제1 가중 특징 및 제2 가중 특징에 기초하여 타겟 영역 내의 제1 객체와 제2 객체 사이의 상관성을 예측하는 것은: 제1 가중 특징, 제2 가중 특징, 제1 객체, 제2 객체, 및 타겟 영역 중 임의의 하나 이상에 기초하여 타겟 영역 내의 제1 객체와 제2 객체 사이의 상관성을 예측하는 것을 포함한다.
일부 실시예들에서, 제1 가중 특징, 제2 가중 특징, 및 제1 객체, 제2 객체, 및 타겟 영역 중 임의의 하나 이상에 기초하여 타겟 영역 내의 제1 객체와 제2 객체 사이의 상관성을 예측하는 것은 다음을 포함한다: 제1 가중 특징, 제2 가중 특징, 및 제1 객체, 제2 객체, 및 타겟 영역 중 임의의 하나 이상의 각각의 영역 특징에 대해 특징 스플라이싱(feature splicing)을 수행함으로써 스플라이싱된 특징을 획득하는 것; 및 스플라이싱된 특징에 기초하여 타겟 영역 내의 제1 객체와 제2 객체 사이의 상관성을 예측하는 것.
일부 실시예들에서, 방법은 타겟 영역 내의 제1 객체와 제2 객체 사이의 상관성에 대한 예측 결과에 기초하여, 이미지에 수반된 상관된 객체들을 결정하는 단계를 추가로 포함한다.
일부 실시예들에서, 방법은: 이미지로부터 검출된 각각의 제1 객체들 및 각각의 제2 객체들을 조합하여 복수의 조합을 생성하는 단계- 조합들 각각은 하나의 제1 객체 및 하나의 제2 객체를 포함함 -를 추가로 포함하고; 타겟 영역 내의 제1 객체와 제2 객체 사이의 상관성에 대한 예측 결과에 기초하여, 이미지에 수반된 상관된 객체들을 결정하는 것은: 복수의 조합 각각에 대한 상관성 예측 결과를 결정하는 것- 상관성 예측 결과는 상관성 예측 스코어를 포함함 -; 각각의 조합들의 상관성 예측 스코어들의 내림차순으로 각각의 조합들로부터 현재 조합을 선택하는 것; 및 현재 조합에 대해: 결정된 상관된 객체들에 기초하여, 현재 조합 내의 제1 객체와 상관된 제2 결정된 객체들 및 현재 조합 내의 제2 객체와 상관된 제1 결정된 객체들을 카운팅하는 것; 제2 결정된 객체들의 제1 수 및 제1 결정된 객체들의 제2 수를 결정하는 것; 및 제1 수가 제1 미리 설정된 임계값에 도달하지 않고 제2 수가 제2 미리 설정된 임계값에 도달하지 않는 것에 응답하여, 현재 조합 내의 제1 객체 및 제2 객체를 이미지에 수반된 상관된 객체들로서 결정하는 것을 포함한다.
일부 실시예들에서, 각각의 조합들의 상관성 예측 스코어들의 내림차순으로 각각의 조합들로부터 현재 조합을 선택하는 것은: 상관성 예측 스코어들이 미리 설정된 스코어 임계값에 도달하는 조합들로부터, 상관성 예측 스코어들의 내림차순으로 현재 조합을 선택하는 것을 포함한다.
일부 실시예들에서, 방법은 이미지에 수반된 상관된 객체들의 검출 결과를 출력하는 단계를 추가로 포함한다.
일부 실시예들에서, 제1 객체는 얼굴 객체를 포함하고; 제2 객체는 손 객체를 포함한다.
일부 실시예들에서, 이 방법은 다음을 추가로 포함한다: 제1 트레이닝 샘플 세트에 기초하여, 타겟 검출 모델을 트레이닝하는 단계; - 제1 트레이닝 샘플 세트는 제1 주석 정보를 갖는 트레이닝 샘플들을 포함하고; 제1 주석 정보는 제1 객체에 대한 경계 박스 및 제2 객체에 대한 경계 박스를 포함함 -; 및 제2 트레이닝 샘플 세트에 기초하여, 타겟 검출 모델 및 상관성 예측 모델을 공동으로 트레이닝하는 단계; - 제2 트레이닝 샘플 세트는 제2 주석 정보를 갖는 트레이닝 샘플들을 포함하고; 제2 주석 정보는 제1 객체에 대한 경계 박스, 제2 객체에 대한 경계 박스, 및 제1 객체와 제2 객체 사이의 상관성의 주석 정보를 포함하고; 타겟 검출 모델은 이미지에 수반된 제1 객체 및 제2 객체를 검출하도록 구성되고, 상관성 예측 모델은 이미지에 수반된 제1 객체와 제2 객체 사이의 상관성을 예측하도록 구성됨 -.
본 개시는 또한 이미지에 수반된 객체들 사이의 상관성을 예측하기 위한 장치를 제공하며, 이 장치는 다음을 포함한다: 취득된 이미지에 수반된 제1 객체 및 제2 객체를 검출하도록 구성된 검출 모듈- 제1 객체 및 제2 객체는 상이한 신체 부분들을 나타냄 -; 타겟 영역에 대한 제1 객체의 제1 가중 정보 및 타겟 영역에 대한 제2 객체의 제2 가중 정보를 결정하도록 구성된 결정 모듈- 타겟 영역은 제1 객체와 제2 객체의 조합에 대한 주변 박스에 대응함 -; 제1 가중 정보 및 제2 가중 정보에 각각 기초하여 타겟 영역에 대해 가중 처리를 수행하여 타겟 영역의 제1 가중 특징 및 제2 가중 특징을 획득하도록 구성된 가중 처리 모듈; 및 제1 가중 특징 및 제2 가중 특징에 기초하여 타겟 영역 내의 제1 객체와 제2 객체 사이의 상관성을 예측하도록 구성된 상관성 예측 모듈.
일부 실시예들에서, 장치는, 제1 객체에 대한 제1 경계 박스 및 제2 객체에 대한 제2 경계 박스에 기초하여, 제1 경계 박스 및 제2 경계 박스를 커버하지만 제1 경계 박스 및 제2 경계 박스와의 교차점을 갖지 않는 박스를 주변 박스로서 결정하거나; 또는, 제1 객체에 대한 제1 경계 박스 및 제2 객체에 대한 제2 경계 박스에 기초하여, 제1 경계 박스 및 제2 경계 박스를 커버하고 제1 경계 박스 및/또는 제2 경계 박스와 외부적으로 연결되는 박스를 주변 박스로서 결정하도록 구성된 주변 박스 결정 모듈을 추가로 포함한다.
일부 실시예들에서, 결정 모듈은: 제1 객체에 대응하는 영역에 대해 영역 특징 추출을 수행하여 제1 객체의 제1 특징 맵을 결정하고; 제2 객체에 대응하는 영역에 대해 영역 특징 추출을 수행하여 제2 객체의 제2 특징 맵을 결정하고; 제1 특징 맵을 미리 설정된 크기로 조정함으로써 제1 가중 정보를 획득하고, 제2 특징 맵을 미리 설정된 크기로 조정함으로써 제2 가중 정보를 획득하도록 추가로 구성된다.
일부 실시예들에서, 가중 처리 모듈은 타겟 영역에 대해 영역 특징 추출을 수행하여 타겟 영역의 특징 맵을 결정하고; 제1 가중 정보에 기초하여 구성되는 제1 컨볼루션 커널을 이용하여, 타겟 영역의 특징 맵에 대해 컨볼루션 연산을 수행하여 제1 가중 특징을 획득하고; 제2 가중 정보에 기초하여 구성되는 제2 컨볼루션 커널을 이용하여, 타겟 영역의 특징 맵에 대해 컨볼루션 연산을 수행하여 제2 가중 특징을 획득하도록 추가로 구성된다.
일부 실시예들에서, 상관성 예측 모듈은: 제1 가중 특징, 제2 가중 특징, 및 제1 객체, 제2 객체, 및 타겟 영역 중의 임의의 하나 이상에 기초하여 타겟 영역 내의 제1 객체와 제2 객체 사이의 상관성을 예측하도록 구성된 상관성 예측 서브모듈을 포함한다.
일부 실시예들에서, 상관성 예측 서브모듈은 제1 가중 특징, 제2 가중 특징, 및 제1 객체, 제2 객체, 및 타겟 영역 중 임의의 하나 이상의 각각의 영역 특징들에 대해 특징 스플라이싱을 수행함으로써 스플라이싱된 특징을 획득하고; 스플라이싱된 특징에 기초하여 타겟 영역 내의 제1 객체와 제2 객체 사이의 상관성을 예측하도록 추가로 구성된다.
일부 실시예들에서, 장치는 타겟 영역 내의 제1 객체와 제2 객체 사이의 상관성에 대한 예측 결과에 기초하여, 이미지에 수반된 상관된 객체들을 결정하도록 구성된 상관된 객체들 결정 모듈을 추가로 포함한다.
일부 실시예들에서, 장치는: 이미지로부터 검출된 각각의 제1 객체들 및 각각의 제2 객체들을 조합하여 복수의 조합을 생성하도록 구성된 조합 모듈- 조합들 각각은 하나의 제1 객체 및 하나의 제2 객체를 포함함 -을 추가로 포함하고; 상관성 예측 모듈은: 복수의 조합 각각에 대한 상관성 예측 결과를 결정하고- 상관성 예측 결과는 상관성 예측 스코어를 포함함 -; 각각의 조합들의 상관성 예측 스코어들의 내림차순으로 각각의 조합들로부터 현재 조합을 선택하고; 현재 조합에 대해: 결정된 상관된 객체들에 기초하여, 현재 조합 내의 제1 객체와 상관된 제2 결정된 객체들 및 현재 조합 내의 제2 객체와 상관된 제1 결정된 객체들을 카운팅하고; 제2 결정된 객체들의 제1 수 및 제1 결정된 객체들의 제2 수를 결정하고; 제1 수가 제1 미리 설정된 임계값에 도달하지 않고 제2 수가 제2 미리 설정된 임계값에 도달하지 않는 것에 응답하여, 현재 조합에서의 제1 객체 및 제2 객체를 이미지에 수반된 상관된 객체들로서 결정하도록 추가로 구성된다.
일부 실시예들에서, 상관성 예측 모듈은, 상관성 예측 스코어들이 미리 설정된 스코어 임계값에 도달하는 조합들로부터, 상관성 예측 스코어들의 내림차순으로 현재 조합을 선택하도록 추가로 구성된다.
일부 실시예들에서, 장치는: 이미지에 수반된 상관된 객체들의 검출 결과를 출력하도록 구성된 출력 모듈을 추가로 포함한다.
일부 실시예들에서, 제1 객체는 얼굴 객체를 포함하고; 제2 객체는 손 객체를 포함한다.
일부 실시예들에서, 장치는 다음을 추가로 포함한다: 제1 트레이닝 샘플 세트에 기초하여, 타겟 검출 모델을 트레이닝하도록 구성된 제1 트레이닝 모듈; - 제1 트레이닝 샘플 세트는 제1 주석 정보를 갖는 트레이닝 샘플들을 포함하고; 제1 주석 정보는 제1 객체에 대한 경계 박스 및 제2 객체에 대한 경계 박스를 포함함 -; 및 제2 트레이닝 샘플 세트에 기초하여, 타겟 검출 모델 및 상관성 예측 모델을 공동으로 트레이닝하도록 구성된 공동 트레이닝 모듈; - 제2 트레이닝 샘플 세트는 제2 주석 정보를 갖는 트레이닝 샘플들을 포함하고; 제2 주석 정보는 제1 객체에 대한 경계 박스, 제2 객체에 대한 경계 박스, 및 제1 객체와 제2 객체 사이의 상관성의 주석 정보를 포함하고; 타겟 검출 모델은 이미지에 수반된 제1 객체 및 제2 객체를 검출하도록 구성되고, 상관성 예측 모델은 이미지에 수반된 제1 객체와 제2 객체 사이의 상관성을 예측하도록 구성됨 -.
본 개시는 또한 전자 디바이스를 제공하며, 이 전자 디바이스는: 프로세서; 및 프로세서에 의해 실행가능 명령어들을 저장하기 위한 메모리를 포함하고; 프로세서는 전술한 실시예들 중 어느 하나에 따라 예시된 이미지에 수반된 객체들 사이의 상관성을 예측하는 방법을 구현하기 위해 메모리에 저장되는 실행가능 명령어들을 호출하도록 구성된다.
본 개시는 또한 컴퓨터 프로그램이 저장되는 컴퓨터 판독가능 저장 매체를 제공하고, 컴퓨터 프로그램은 전술한 실시예들 중 어느 하나에 따라 예시된 이미지에 수반된 객체들 사이의 상관성을 예측하는 방법을 실행하도록 구성된다.
본 개시는 또한 컴퓨터 판독가능 코드들을 포함하는 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 판독가능 코드들은 전술한 실시예들 중 어느 하나에 따라 예시된 이미지에 수반된 객체들 사이의 상관성을 예측하는 방법을 구현하기 위해 프로세서에 의해 실행된다.
위의 해결책들에서, 타겟 영역의 제1 가중 특징 및 제2 가중 특징은 타겟 영역에 대한 제1 객체의 제1 가중 정보 및 타겟 영역에 대한 제2 객체의 제2 가중 정보에 각각 기초하여 타겟 영역에 대해 가중 처리를 수행함으로써 획득된다. 이어서, 제1 가중 특징 및 제2 가중 특징에 기초하여 타겟 영역 내의 제1 객체와 제2 객체 사이의 상관성이 예측된다.
따라서, 한편으로, 제1 객체와 제2 객체 사이의 상관성을 예측하는 동안, 상관성을 예측하는 데 유용한 타겟 영역에 포함된 특징 정보가 도입되고, 그에 의해 예측 결과의 정확도를 개선시킨다. 한편, 제1 객체와 제2 객체 사이의 상관성을 예측하는 동안, 가중 메커니즘에 의해, 상관성을 예측하는 데 유용한 타겟 영역에 포함된 특징 정보가 강화되는 한편, 쓸모없는 특징 정보가 약화되고, 그에 의해 예측 결과의 정확도를 개선시킨다.
위의 일반적인 설명 및 다음의 상세한 설명은 단지 예시적이고 설명적이고, 본 개시를 제한하려는 것이 아니라는 것을 이해하여야 한다.
실시예들 또는 관련 기술들을 설명하는 동안 이용되는 도면들은 본 개시의 하나 이상의 실시예에 의해 또는 관련 기술에 의해 제공되는 기술적 해결책들을 보다 명확하게 설명하기 위해 간략하게 소개될 것이다. 다음의 설명에서의 도면들은 본 개시의 하나 이상의 실시예에 의해 설명된 일부 예들만을 예시하고, 이러한 도면들에 기초하여, 본 기술분야의 통상의 기술자들은 창조적 작업 없이 다른 도면들을 획득할 수 있다는 것이 명백하다.
도 1은 본 개시에 따른 이미지에 수반된 객체들 사이의 상관성을 예측하는 방법을 예시하는 방법 흐름도이다.
도 2는 본 개시에 따른 이미지에 수반된 객체들 사이의 상관성을 예측하는 방법을 예시하는 개략 흐름도이다.
도 3은 본 개시에 따른 타겟 검출을 예시하는 개략 흐름도이다.
도 4a는 본 개시에 따른 주변 박스를 예시하는 예이다.
도 4b는 본 개시에 따른 주변 박스를 예시하는 예이다.
도 5는 본 개시에 따른 상관성 예측을 예시하는 개략 흐름도이다.
도 6은 본 개시에 따른 상관성을 예측하는 방법을 예시하는 개략도이다.
도 7은 본 개시의 예에 따른 타겟 검출 모델 및 상관성 예측 모델을 트레이닝하는 방식을 예시하는 개략 흐름도이다.
도 8은 본 개시에 따른 이미지에 수반된 객체들 사이의 상관성을 예측하기 위한 장치를 예시하는 개략 구조도이다.
도 9는 본 개시에 따른 전자 디바이스의 하드웨어 구조를 예시하는 개략도이다.
예시적인 실시예들이 도면들에서 표현된 예들과 함께 여기서 상세히 설명될 것이다. 이하의 설명들이 도면들을 포함하는 경우, 상이한 도면들에서의 유사한 번호들은 달리 지시되지 않는 한 같거나 유사한 요소들을 지칭한다. 다음의 예시적인 실시예들에서 설명된 구현들은 본 개시와 일치하는 모든 구현들을 나타내지는 않는다. 오히려, 이들은 첨부된 청구항들에 상술된 바와 같은 본 개시의 일부 양태들과 부합하는 장치들 및 방법들의 예들에 불과하다.
본 개시에서 사용되는 용어들은 단지 특정 실시예들을 설명하기 위한 것이며, 본 개시를 제한하려는 의도는 아니다. 본 개시 및 첨부된 청구항들에서 그 단수 형태("a", "the" 및 "said")의 용어들은, 문맥상 명확히 달리 지시되지 않는 한, 복수를 포함하도록 또한 의도된다. 또한, 본 명세서에서 사용되는 "및/또는"이라는 용어는 연관된 열거된 항목들 중 하나 이상의 항목의 임의의 및 모든 가능한 조합들이고 이들을 포함한다는 것을 이해해야 한다. 또한, 본 명세서에서 사용된 용어 "~인 경우(if)"는 문맥에 따라 "~일 때(when)", "~인 동안(while)", 또는 "결정에 응답하여(in response to determining)"로서 해석될 수 있다는 것을 이해해야 한다.
본 개시는 이미지에 수반된 객체들 사이의 상관성을 예측하는 방법들을 개시하도록 의도된다. 방법들에 따르면, 타겟 영역의 제1 가중 특징 및 제2 가중 특징은 타겟 영역에 대한 제1 객체의 제1 가중 정보 및 타겟 영역에 대한 제2 객체의 제2 가중 정보에 각각 기초하여 타겟 영역에 대해 가중 처리를 수행함으로써 획득된다. 이어서, 제1 가중 특징 및 제2 가중 특징에 기초하여 타겟 영역 내의 제1 객체와 제2 객체 사이의 상관성이 예측된다.
따라서, 한편으로, 제1 객체와 제2 객체 사이의 상관성을 예측하는 동안, 상관성을 예측하는 데 유용한 타겟 영역에 포함된 특징 정보가 도입되고, 그에 의해 예측 결과의 정확도를 개선시킨다.
한편, 제1 객체와 제2 객체 사이의 상관성을 예측하는 동안, 가중 메커니즘에 의해, 상관성을 예측하는 데 유용한 타겟 영역에 포함된 특징 정보가 강화되는 한편, 쓸모없는 특징 정보가 약화되고, 그에 의해 예측 결과의 정확도를 개선시킨다.
타겟 영역에 포함되는 유용한 특징 정보는 제1 객체 및 제2 객체 이외의 다른 신체 부분들에 관한 특징 정보를 포함할 수 있다는 점에 유의해야 한다. 예를 들어, 테이블톱 게임 시나리오에서, 유용한 특징 정보는 팔꿈치, 어깨, 상완, 팔뚝, 및 목과 같은 상기 다른 신체 부분들에 대응하는 특징 정보를 포함하지만, 이들로 제한되지 않는다.
도 1을 참조하면, 도 1은 본 개시에 따른 이미지에 수반된 객체들 사이의 상관성을 예측하는 방법을 예시하는 방법 흐름도이다. 도 1에 도시된 바와 같이, 방법은 다음의 단계들을 포함할 수 있다.
S102에서, 취득된 이미지에 수반된 제1 객체 및 제2 객체가 검출되고, 제1 객체 및 제2 객체는 상이한 신체 부분들을 나타낸다.
S104에서, 타겟 영역에 대한 제1 객체의 제1 가중 정보 및 타겟 영역에 대한 제2 객체의 제2 가중 정보가 결정되고, 타겟 영역은 제1 객체와 제2 객체의 조합에 대한 주변 박스에 대응한다.
S106에서, 제1 가중 정보 및 제2 가중 정보에 각각 기초하여 타겟 영역에 대해 가중 처리가 수행되어 타겟 영역의 제1 가중 특징 및 제2 가중 특징을 획득한다.
S108에서, 타겟 영역 내의 제1 객체와 제2 객체 사이의 상관성이 제1 가중 특징 및 제2 가중 특징에 기초하여 예측된다.
상관성을 예측하는 방법은 전자 디바이스에 적용될 수 있다. 특히, 전자 디바이스는 상관성을 예측하는 방법에 대응하는 소프트웨어 시스템을 통해 상관성을 예측하는 방법을 수행할 수 있다. 본 개시의 하나 이상의 실시예에서, 전자 디바이스는 노트북, 컴퓨터, 서버, 모바일 폰, PAD 단말 등일 수 있으며, 그 타입은 본 개시에서 특별히 제한되지 않는다.
상관성을 예측하는 방법은 단지 단말 디바이스 또는 서버 디바이스 단독으로 수행될 수 있거나, 또는 단말 디바이스 및 서버 디바이스에 의해 협력하여 수행될 수 있다는 점이 이해되어야 한다.
예를 들어, 상관성을 예측하는 방법은 클라이언트에 통합될 수 있다. 클라이언트가 구비된 단말 디바이스는 상관성 예측 요청을 수신한 후에 그 자신의 하드웨어 환경에 의해 제공되는 계산 능력을 통해 방법을 수행할 수 있다.
다른 예로서, 상관성을 예측하는 방법은 시스템 플랫폼에 통합될 수 있다. 시스템 플랫폼을 구비한 서버 디바이스는 상관성 예측 요청을 수신한 후에 그 자신의 하드웨어 환경에 의해 제공되는 계산 능력을 통해 방법을 수행할 수 있다.
다른 예로서, 상관성을 예측하는 방법은 2개의 태스크: 이미지를 취득하는 것 및 이미지를 처리하는 것으로 분할될 수 있다. 특히, 이미지를 취득하는 태스크는 클라이언트 디바이스에 의해 수행될 수 있고, 이미지를 처리하는 태스크는 서버 디바이스에 의해 수행될 수 있다. 클라이언트 디바이스는 이미지를 취득한 후에 서버 디바이스에 대한 상관성 예측 요청을 개시할 수 있다. 요청을 수신한 후에, 서버 디바이스는 요청에 응답하여 상관성을 예측하는 방법을 수행할 수 있다.
데스크톱 게임 시나리오와 관련된 하나 이상의 예에서, 전자 디바이스(이하, 디바이스라고 지칭함)를 실행자로 하여, 일부 실시예들이 다음과 같이 설명된다.
데스크톱 게임 시나리오에서, 예를 들어, 손 객체 및 얼굴 객체는 각각 상관성이 예측될 제1 객체 및 제2 객체로서 취해진다. 본 개시에 의해 제공되는 이 데스크톱 게임 시나리오에서의 예들의 설명은, 여기서 상세히 설명되지 않는 다른 시나리오들에서의 구현들에 대한 참조로서 또한 역할할 수 있다는 것을 이해해야 한다.
데스크톱 게임 시나리오에서, 일반적으로 게임 테이블이 있다. 게임 참가자들은 게임 테이블을 둘러쌀 수 있다. 이 데스크톱 게임 시나리오에서, 이미지 캡처 장비는 이 데스크톱 게임 시나리오의 하나 이상의 이미지를 캡처하도록 배치될 수 있다. 이 시나리오로부터의 이미지들은 게임 참가자들의 얼굴들 및 손들을 포함할 수 있다. 이 시나리오에서, 서로 상관된 객체들을 형성하는 이 시나리오로부터의 이미지에서 발생한 각각의 손 및 각각의 얼굴을 결정하여, 이미지에서 발생한 하나의 손이 상관된 하나의 얼굴에 기초하여, 손이 속하는 사람의 아이덴티티가 식별될 수 있는 것이 예상된다.
여기서, 손과 얼굴이 서로 상관된 객체들을 형성하거나, 손이 얼굴과 상관된다는 표현은, 손과 얼굴 그것들 둘 다가 동일한 신체에 속한다는 것, 즉, 그것들이 한 사람의 손과 얼굴이라는 것을 의미한다.
도 2를 참조하면, 도 2는 본 개시에 따른 이미지에 수반된 객체들 사이의 상관성을 예측하는 방법을 예시하는 개략 흐름도이다.
구체적으로 처리될 이미지일 수 있는 도 2에 도시된 이미지는 검출될 시나리오에 배치된 이미지 캡처 장비에 의해 취득될 수 있다. 특히, 이미지는 이미지 캡처 장비에 의해 캡처된 비디오 스트림 내의 여러 프레임들로부터 올 수 있고, 검출될 여러 객체들을 포함할 수 있다. 예를 들어, 데스크톱 게임 시나리오에서, 이미지는 이 시나리오에 배치된 이미지 캡처 장비에 의해 캡처될 수 있다. 이 시나리오로부터의 이미지는 게임 참가자들의 얼굴들 및 손들을 포함한다.
일부 실시예들에서, 디바이스는 이미지를 입력하는 것을 완료하기 위해 사용자와 상호작용할 수 있다. 예를 들어, 디바이스는 그것에 의해 운반되는 인터페이스를 이용함으로써 사용자 인터페이스를 제공할 수 있다. 사용자 인터페이스는 사용자가 처리될 이미지와 같은 이미지들을 입력하기 위해 사용된다. 따라서, 사용자는 사용자 인터페이스를 통해 이미지를 입력하는 것을 완료할 수 있다.
여전히 도 2를 참조하면, 전술한 S102는 디바이스가 이미지를 취득한 후에, 즉 취득된 이미지에 수반된 제1 객체 및 제2 객체가 검출된 후에 수행될 수 있다.
제1 객체 및 제2 객체는 상이한 신체 부분들을 나타낼 수 있다. 특히, 제1 객체 및 제2 객체는 각각 얼굴, 손, 어깨, 팔꿈치, 팔 등과 같은 신체의 임의의 2개의 상이한 부분을 나타낼 수 있다.
제1 객체 및 제2 객체는 검출될 타겟들로서 취해질 수 있고, 트레이닝된 타겟 검출 모델은 이미지를 처리하여 제1 객체 및 제2 객체를 검출한 결과를 획득하기 위해 이용될 수 있다.
데스크톱 게임 시나리오에서, 제1 객체는 예를 들어, 얼굴 객체일 수 있고, 제2 객체는 예를 들어, 손 객체일 수 있다. 이미지에 수반된 얼굴 객체 및 손 객체를 검출하기 위해, 이미지는 트레이닝된 얼굴-손 검출 모델에 입력될 수 있다.
이미지에 대한 타겟 검출의 결과는 제1 객체에 대한 경계 박스 및 제2 객체에 대한 경계 박스를 포함할 수 있다는 것을 이해해야 한다. 각각의 경계 박스의 수학적 표현들은 경계 박스의 적어도 하나의 꼭짓점 및 길이-폭 정보의 좌표들을 포함한다.
타겟 검출 모델은 구체적으로 타겟 검출 태스크들을 수행하도록 구성된 딥 컨볼루션 신경 네트워크 모델일 수 있다. 예를 들어, 타겟 검출 모델은 영역 컨볼루션 신경 네트워크(RCNN), 고속 영역 컨볼루션 신경 네트워크(FAST-RCNN) 또는 고속 영역 컨볼루션 신경 네트워크(FASTER-RCNN)에 기초하여 구성된 신경 네트워크 모델일 수 있다.
실제 응용들에서, 타겟 검출 모델을 이용하여 타겟 검출을 수행하기 전에, 모델은 모델이 수렴될 때까지 제1 객체 및 제2 객체의 경계 박스들의 위치 정보를 갖는 여러 트레이닝 샘플들에 기초하여 트레이닝될 수 있다.
도 3을 참조하면, 도 3은 본 개시에 따른 타겟 검출을 예시하는 개략 흐름도이다. 도 3은 타겟 검출의 프로세스만을 개략적으로 예시하지만, 본 개시를 구체적으로 제한하려는 의도는 아니라는 점에 유의해야 한다.
도 3에 도시된 바와 같이, 타겟 검출 모델은 FASTER-RCNN 모델일 수 있다. 모델은 적어도 백본 네트워크, RPN(Region Proposal Network), 및 영역 기반 컨볼루션 신경 네트워크(RCNN)을 포함할 수 있다.
하나 이상의 실시예에서, 백본 네트워크는 이미지에 대응하는 타겟 특징 맵을 획득하기 위해 이미지에 대해 여러 컨볼루션 연산을 수행할 수 있다. 획득된 후, 타겟 특징 맵은 RPN 네트워크에 입력되어 이미지에 포함된 다양한 타겟 객체들에 대응하는 앵커들을 획득할 수 있다. 이미지에 포함된 얼굴 객체들 및 손 객체들에 각각 대응하는 경계 박스들을 획득하기 위해, 앵커들은 획득된 후에, 타겟 특징 맵과 함께, 경계 박스들(bbox) 회귀 및 분류를 위해 대응하는 RCNN 네트워크에 입력될 수 있다.
실시예들의 해결책들은 2개의 상이한 타입의 신체 부분들을 검출하기 위해 그리고 이미지에 수반된 각각의 타겟 객체에 대해, 그리고 트레이닝 동안 개별적으로 그것의 타입 및 그것의 위치에 주석을 달기 위해 동일한 타겟 검출 모델을 이용할 수 있다는 점에 유의해야 한다. 따라서, 타겟 검출 모델은 타겟 검출 태스크를 수행할 때 상이한 타입들의 신체 부분들을 검출한 결과들을 출력할 수 있다.
제1 객체 및 제2 객체에 각각 대응하는 경계 박스들을 결정한 후에, S104-S106이 수행될 수 있다. 특히, 타겟 영역에 대한 제1 객체의 제1 가중 정보 및 타겟 영역에 대한 제2 객체의 제2 가중 정보가 결정된다. 타겟 영역은 제1 객체와 제2 객체의 조합에 대한 주변 박스에 대응한다. 타겟 영역의 제1 가중 특징 및 제2 가중 특징을 획득하기 위해 제1 가중 정보 및 제2 가중 정보에 각각 기초하여 타겟 영역에 대해 가중 처리가 수행된다.
타겟 영역은 S104를 수행하기 전에 먼저 결정될 수 있다. 다음은 타겟 영역을 결정하는 방법을 설명한다.
특히, 타겟 영역은 제1 객체와 제2 객체의 조합에 대한 주변 박스에 대응한다. 예를 들어, 데스크톱 게임 시나리오에서, 타겟 영역은 제1 객체와 제2 객체의 조합에 대한 주변 박스를 커버하고, 그것의 면적은 제1 객체와 제2 객체의 조합에 대한 주변 박스의 면적보다 작지 않다.
일부 실시예들에서, 타겟 영역은 이미지의 윤곽에 의해 둘러싸일 수 있다. 그 다음, 이미지의 윤곽에 의해 둘러싸인 영역은 타겟 영역으로서 직접 결정될 수 있다.
일부 실시예들에서, 타겟 영역은 이미지의 특정 로컬 영역일 수 있다.
예시적으로, 데스크톱 게임 시나리오에서, 얼굴 객체와 얼굴 객체의 조합에 대한 주변 박스를 결정한 다음, 주변 박스에 의해 둘러싸인 영역을 타겟 영역으로서 결정하는 것이 가능하다.
주변 박스는 구체적으로 제1 객체 및 제2 객체를 둘러싸는 폐쇄형 프레임을 지칭한다. 주변 박스의 형상은 원, 타원, 직사각형 등일 수 있고, 여기서 특별히 제한되지 않는다. 이하의 설명은 직사각형을 예로서 취한다.
일부 실시예들에서, 주변 박스는 제1 객체 및 제2 객체에 대응하는 경계 박스들과 교차하지 않는 폐쇄형 프레임일 수 있다.
도 4a를 참조하면, 도 4a는 본 개시에 따른 주변 박스를 예시하는 예이다.
도 4a에 도시된 바와 같이, 얼굴 객체에 대응하는 경계 박스는 박스 1이고; 손 객체에 대응하는 경계 박스는 박스 2이고; 얼굴 객체와 손 객체의 조합에 대한 주변 박스는 박스 3이다. 이 예에서, 박스 3은 박스 1 및 박스 2를 포함하고, 박스 1 또는 박스 2와 교차하지 않는다.
주변 박스를 결정하는 위의 방식들에서, 한편으로는, 도 4a에 도시된 주변 박스는 얼굴 객체 및 손 객체 둘 다를 포함한다. 따라서, 얼굴 객체 및 손 객체에 대응하는 이미지 특징들뿐만 아니라, 얼굴 객체와 손 객체 사이의 상관성을 예측하는 데 유용한 특징들이 제공될 수 있고, 그에 의해 얼굴 객체와 손 객체 사이의 상관성에 대한 예측 결과의 정확도를 보장한다.
한편, 도 4a에 도시된 주변 박스는 얼굴 객체 및 손 객체에 대응하는 경계 박스들을 둘러싼다. 따라서, 경계 박스들에 대응하는 특징들이 상관성을 예측하는 동안 도입될 수 있고, 그에 의해 상관성 예측 결과의 정확도를 개선시킨다.
일부 실시예들에서, 얼굴 객체에 대응하는 제1 경계 박스 및 손 객체에 대응하는 제2 경계 박스에 기초하여, 제1 경계 박스 및 제2 경계 박스 둘 다를 포함하고 제1 경계 박스 또는 제2 경계 박스와의 교차점들을 갖지 않는 주변 박스가 얼굴 객체 및 손 객체에 대한 주변 박스로서 취득될 수 있다.
예를 들어, 제1 경계 박스 및 제2 경계 박스에 대응하는 8개의 꼭짓점의 위치 정보가 취해질 수 있다. 그 후, 8개의 꼭짓점의 좌표 데이터에 기초하여, 수평 좌표 및 수직 좌표 각각의 극값들이 결정될 수 있다. x가 수평 좌표를 나타내고 y가 수직 좌표를 나타내는 경우, 극값들은 Xmin, Xmax, Ymin 및 Ymax이다. 따라서, 수평 좌표 상의 최소 값 및 최대 값을 수직 좌표 상의 최대 값 및 최소 값과 각각 조합함으로써, 제1 경계 박스 및 제2 경계 박스의 외부 연결 프레임의 4개의 꼭짓점 좌표, 즉 (Xmin, Ymin), (Xmin, Ymax), (Xmax, Ymin), 및 (Xmax, Ymax)가 획득될 수 있다. 그리고 그 후, 외부-연결 프레임과 주변 박스 사이의 미리 설정된 거리 D에 기초하여 주변 박스의 4개의 꼭짓점에 각각 대응하는 위치 정보가 결정된다. 따라서, 주변 박스의 4개의 꼭짓점에 대응하는 위치 정보를 결정하면, 4개의 꼭짓점에 의해 결정되는 직사각형 윤곽이 주변 박스로서 결정될 수 있다.
이미지는 복수의 "얼굴-손" 조합을 형성할 수 있는 복수의 얼굴 객체 및 복수의 손 객체를 포함할 수 있고, 각각의 조합에 대해, 그것의 대응하는 주변 박스가 개별적으로 결정될 수 있다는 것을 이해해야 한다.
특히, 다양한 얼굴 객체들을 이미지에 포함된 다양한 손 객체들과 임의로 조합함으로써, 신체 부분 객체들의 모든 가능한 조합들이 획득되고, 신체 부분 객체들의 각각의 조합에 대해, 그 조합 내의 얼굴 객체와 손 객체의 위치들에 기초하여 그의 대응하는 주변 박스가 결정된다.
일부 실시예들에서, 주변 박스는 제1 경계 박스 및/또는 제2 경계 박스와 외부적으로 연결되는 폐쇄형 프레임일 수 있다.
도 4b를 참조하면, 도 4b는 본 개시에 따른 주변 박스를 예시하는 예이다.
도 4b에 도시된 바와 같이, 얼굴 객체에 대응하는 경계 박스는 박스 1이고; 손 객체에 대응하는 경계 박스는 박스 2이고; 얼굴 객체와 손 객체의 조합에 대한 주변 박스는 박스 3이다. 이 예에서, 박스 3은 박스 1 및 박스 2를 포함하고, 박스 1 및 박스 2 둘 다의 일부 외측 에지들을 터치한다.
주변 박스를 결정하는 위의 방식에서, 도 4b에 도시된 주변 박스는 얼굴 객체 및 손 객체 둘 다를 포함하고, 주변 박스는 크기가 정의된다. 한편, 주변 박스의 면적 크기를 제어함으로써, 계산 부하의 양이 제어될 수 있고, 그에 의해 상관성을 예측하는 효율을 개선시킨다. 한편, 주변 박스에 도입되고 상관성을 예측하는 데 쓸모없는 일부 특징들은 약화될 수 있고, 그에 의해 상관성 예측 결과의 정확도에 대한 상관되지 않은 특징들의 영향을 감소시킨다.
타겟 영역을 결정한 후, S104-S106을 수행하는 것을 진행할 수 있다. 즉, 타겟 영역에 대한 제1 객체의 제1 가중 정보 및 타겟 영역에 대한 제2 객체의 제2 가중 정보가 결정된다. 타겟 영역은 제1 객체와 제2 객체의 조합에 대한 주변 박스에 대응한다. 타겟 영역의 제1 가중 특징 및 제2 가중 특징을 획득하기 위해 제1 가중 정보 및 제2 가중 정보에 각각 기초하여 타겟 영역에 대해 가중 처리가 수행된다.
일부 실시예들에서, 제1 가중 정보는, 제1 객체의 특징들, 제1 객체와 타겟 영역 사이의 상대적 위치 특징들, 및 이미지 내의 타겟 영역의 특징들에 기초하여 컨볼루션 신경 네트워크 또는 그 부분 네트워크 계층에 의해 계산될 수 있다. 유사한 방식으로, 제2 가중 정보가 계산될 수 있다.
제1 가중 정보 및 제2 가중 정보는 각각 이들이 위치하는 타겟 영역의 영역 특징들을 계산하는 것에 대한 그들의 영향을 나타낸다. 타겟 영역의 영역 특징들은 2개의 객체 사이의 상관성을 추정하도록 구성된다.
제1 가중 특징은 제1 객체와 상관된 타겟 영역에 대응하는 영역 특징들이 강화될 수 있는 반면 제1 객체와 상관되지 않은 것들은 약화될 수 있다는 것을 의미한다. 이러한 실시예들에서, 영역 특징들은 이미지에 수반된 대응하는 객체가 위치하는 영역, 예를 들어, 이미지에 수반된 객체들에 대한 주변 박스에 대응하는 영역의 특징들, 예컨대 객체가 위치하는 영역의 특징 맵 및 픽셀 행렬을 나타낸다.
제2 가중 특징은 제2 객체와 상관된 타겟 영역에 대응하는 영역 특징들이 강화될 수 있는 반면 제2 객체와 상관되지 않은 것들은 약화될 수 있다는 것을 의미한다.
S104-S106의 단계들을 통해 제1 가중 특징 및 제2 가중 특징을 획득하는 예시적인 방법이 이하에서 설명된다.
일부 실시예들에서, 제1 가중 정보는 제1 객체에 대응하는 제1 특징 맵에 기초하여 결정될 수 있다. 제1 가중 정보는 제1 객체와 상관된 타겟 영역에 대응하는 영역 특징들을 강화하기 위해, 타겟 영역에 대응하는 영역 특징들에 대해 가중 처리를 수행하도록 구성된다.
일부 실시예들에서, 제1 객체의 제1 특징 맵은 제1 객체에 대응하는 영역에 대해 영역 특징 추출을 수행함으로써 결정될 수 있다.
일부 실시예들에서, 제1 객체에 대응하는 제1 경계 박스 및 이미지에 대응하는 타겟 특징 맵은 신경 네트워크에 입력되어, 이미지 처리를 수행하여 제1 특징 맵을 획득할 수 있다. 특히, 신경 네트워크는 영역 특징 추출을 수행하기 위한 영역 특징 추출 유닛을 포함한다. 영역 특징 추출 유닛은 관심 영역 얼라인(ROI Align) 유닛 또는 관심 영역 풀링(ROI Pooling) 유닛일 수 있다.
그 후, 제1 특징 맵은 제1 가중 정보를 획득하기 위해 미리 설정된 크기로 조정될 수 있다. 이러한 실시예들에서, 제1 가중 정보는 미리 설정된 크기로 조정된 제1 특징 맵의 이미지 픽셀 값들을 특징으로 할 수 있다. 미리 설정된 크기는 경험에 기초하여 설정된 값일 수 있고, 이는 여기서 특별히 제한되지 않는다.
일부 실시예들에서, 제1 특징 맵에 대해 연산들, 예컨대 서브-샘플링, 수개의 컨볼루션 후의 서브-샘플링, 또는 서브-샘플링 후의 수개의 컨볼루션을 수행함으로써, 제1 컨볼루션 커널은 미리 설정된 크기로 축소된 제1 특징 맵에 대응하는 제1 가중 정보로부터 획득될 수 있다. 이러한 실시예들에서, 서브-샘플링은 최대 풀링 및 평균 풀링과 같은 연산일 수 있다.
제1 가중 정보가 결정된 후, 그것은 타겟 영역에 대해 영역 특징 추출을 수행하여 타겟 영역의 특징 맵을 획득하는 것일 수 있다. 그 다음, 제1 가중 정보에 기초하여 구성된 제1 컨볼루션 커널에 의해, 타겟 영역의 특징 맵에 대해 컨볼루션 연산이 수행되어 제1 가중 특징을 획득한다.
제1 컨볼루션 커널의 크기는 본 개시에서 특별히 제한되지 않는다는 점에 유의해야 한다. 제1 컨볼루션 커널의 크기는 (2n+1)*(2n+1)일 수 있고, n은 양의 정수이다.
컨볼루션을 수행하는 동안, 컨볼루션의 스트라이드(stride)가 먼저 결정될 수 있고, 예를 들어, 스트라이드가 1이고, 그 후, 제1 컨볼루션 커널을 이용하여 타겟 영역의 특징 맵에 대해 컨볼루션 연산이 수행되어 제1 가중 특징을 획득한다. 일부 실시예들에서, 컨볼루션 전후에 특징 맵의 크기를 변경하지 않고 유지하기 위해, 타겟 영역의 특징 맵의 주변 상의 픽셀들은 컨볼루션 연산 전에 0의 픽셀 값으로 채워질 수 있다.
제2 가중 특징을 결정하는 단계가 제1 가중 특징을 결정하는 위의 단계들을 지칭할 수 있고, 이는 여기서 상세히 설명하지 않는다는 것을 이해해야 한다.
일부 실시예들에서, 제1 가중 특징은 또한 제1 특징 맵과 타겟 영역의 특징 맵을 곱함으로써 획득될 수 있다. 제2 가중 특징은 제2 특징 맵과 타겟 영역의 특징 맵을 곱함으로써 획득될 수 있다.
컨볼루션 연산에 기초하여 또는 특징 맵들을 곱함으로써 가중 특징을 획득하는 것은, 실제로, 제1 특징 맵 및 제2 특징 맵을 각각 가중 정보로서 이용하여 가중-처리를 수행함으로써 타겟 영역의 특징 맵 내의 다양한 픽셀들의 픽셀 값들을 조정하는 것이고, 이는 제1 객체 및 제2 객체와 상관된 타겟 영역에 대응하는 영역 특징들을 강화하고 제1 객체 및 제2 객체와 상관되지 않은 것들을 약화시키며, 그에 의해 제1 객체와 제2 객체 사이의 상관성을 예측하는 데 유용한 정보를 강화하면서 쓸모없는 정보를 약화시켜, 상관성 예측 결과의 정확도를 개선시킨다는 것을 이해해야 한다.
여전히 도 2를 참조하면, S108은 제1 가중 특징 및 제2 가중 특징을 결정한 후에 수행될 수 있는데, 즉, 타겟 영역 내의 제1 객체와 제2 객체 사이의 상관성이 제1 가중 특징 및 제2 가중 특징에 기초하여 예측된다.
일부 실시예들에서, 제3 가중 특징은 제1 가중 특징 및 제2 가중 특징을 합산함으로써 획득될 수 있고, 대응하는 상관성 예측 스코어를 획득하기 위해 소프트맥스(softmax) 함수에 기초하여 정규화될 수 있다.
일부 실시예들에서, 타겟 영역 내의 제1 객체와 제2 객체 사이의 상관성을 예측하는 것은 구체적으로 제1 객체와 제2 객체가 동일한 신체 객체에 속하는지에 관한 신용도 스코어를 예측하는 것을 지칭한다.
예를 들어, 데스크톱 게임 시나리오에서, 제1 가중 특징 및 제2 가중 특징은 타겟 영역 내의 제1 객체와 제2 객체 사이의 상관성을 예측하기 위해 트레이닝된 상관성 예측 모델에 입력될 수 있다.
상관성 예측 모델은 구체적으로 컨볼루션 신경 네트워크에 기초하여 구성된 모델일 수 있다. 예측 모델은 완전 연결 계층(fully connected layer)을 포함할 수 있고, 최종적으로 상관성 예측 스코어를 출력할 수 있다는 점이 이해되어야 한다. 완전 연결 계층은 구체적으로 선형 회귀 및 최소 제곱 회귀와 같은 회귀 알고리즘에 기초하여 구성된 계산 유닛일 수 있다. 계산 유닛은 대응하는 상관성 예측 스코어를 획득하기 위해 영역 특징들에 대해 특징-매핑을 수행할 수 있다.
실제 응용들에서, 예측을 수행하기 전에, 상관성 예측 모델은 제1 객체와 제2 객체 사이의 상관성에 대한 주석 정보를 갖는 여러 트레이닝 샘플들에 기초하여 트레이닝될 수 있다.
트레이닝 샘플들을 구성하는 동안, 수개의 원본 이미지들을 먼저 취득하고, 주석 도구를 이용하여 원본 이미지들에 포함된 각각의 제1 객체들을 각각의 제2 객체들과 랜덤하게 조합하여 복수의 조합을 획득하고, 그 후 각각의 조합 내에서 제1 객체와 제2 객체 사이의 상관성에 주석을 달 수 있다. 예로서 얼굴 객체 및 손 객체를 각각 제1 객체 및 제2 객체로서 취하면, 조합 내의 얼굴 객체 및 손 객체가 상관되는 경우, 즉, 한 사람에게 속하는 경우, 그것에는 1로 주석이 달릴 수 있고, 그렇지 않으면 그것에는 0으로 주석이 달릴 수 있다. 또는, 원본 이미지들에 주석을 다는 동안, 각각의 얼굴 객체들 및 각각의 손 객체들이 속하는 사람 객체들에 관한 정보(사람 아이덴티티 등)로 주석이 달릴 수 있어서, 속한 사람 객체들의 정보가 동일한지에 기초하여 각각의 조합에서 얼굴 객체와 손 객체 사이에 상관성이 있는지를 결정한다.
도 5를 참조하면, 도 5는 본 개시에 따른 상관성 예측을 예시하는 개략도이다.
예시적으로, 도 5에 도시된 상관성 예측 모델은 특징 스플라이싱 유닛 및 완전 연결 계층을 포함할 수 있다.
특징 스플라이싱 유닛은 제1 가중 특징과 제2 가중 특징을 병합하여 병합된 가중 특징을 획득하도록 구성된다.
일부 실시예들에서, 제1 가중 특징 및 제2 가중 특징은 중첩, 정규화 후의 평균화 등과 같은 연산들을 수행함으로써 병합될 수 있다.
그 후, 병합된 가중 특징이 상관성 예측 모델의 완전 연결 계층에 입력되어 상관성 예측 결과를 획득한다.
실제 응용들에서, 복수의 타겟 영역이 이미지에 기초하여 결정될 수 있다는 것을 이해해야 한다. S108이 수행될 때, 각각의 타겟 영역은 차례로 현재 타겟 영역으로서 결정될 수 있고, 현재 타겟 영역 내의 제1 객체와 제2 객체 사이의 상관성이 예측될 수 있다.
그 결과, 타겟 영역 내의 제1 객체와 제2 객체 사이의 상관성을 예측하는 것이 실현된다.
위의 방식들에서 제1 객체와 제2 객체 사이의 상관성을 예측하는 동안, 타겟 영역에 포함되고 상관성을 예측하는 데 유용한 특징 정보가 도입되고, 그에 의해 예측 결과의 정확도를 개선시킨다. 한편, 얼굴 객체와 손 객체 사이의 상관성을 예측하는 동안, 이는 가중 메커니즘을 이용하여, 상관성을 예측하는 데 유용한 타겟 영역에 포함되는 특징 정보를 강화하고, 쓸모없는 특징 정보를 약화시킴으로써, 예측 결과의 정밀도를 개선시킨다.
일부 실시예들에서, 제1 객체와 제2 객체 사이의 상관성에 대한 예측 결과의 정확도를 더 개선시키기 위해, 제1 가중 특징 및 제2 가중 특징에 기초하여 타겟 영역 내의 제1 객체와 제2 객체 사이의 상관성을 예측하는 동안, 이는 제1 가중 특징, 제2 가중 특징, 및 제1 객체, 제2 객체, 및 타겟 영역 중 임의의 하나 이상에 기초하여 타겟 영역 내의 제1 객체와 제2 객체 사이의 상관성을 예측하는 것일 수 있다.
다수의 실현가능한 구현들이 위의 방식들에 포함되고, 다수의 실현가능한 구현 모두가 본 개시에서 보호된다는 점이 이해되어야 한다. 예로서, 타겟 영역, 제1 가중 특징, 및 제2 가중 특징에 기초하여 타겟 영역 내에서 제1 객체와 제2 객체 사이의 상관성을 예측하는 것이 아래에 설명된다. 다른 실현가능한 구현들의 단계들은 다음의 설명을 참조할 수 있고, 이는 본 개시에서 반복되지 않을 것이라는 점이 이해되어야 한다.
도 6을 참조하면, 도 6은 본 개시에 따른 상관성을 예측하는 방법을 예시하는 개략도이다.
도 6에 도시된 바와 같이, S108을 수행하는 동안, 타겟 영역에 대응하는 영역 특징들, 제1 가중 특징, 및 제2 가중 특징에 대해 특징 스플라이싱을 수행함으로써 스플라이싱된 특징이 획득될 수 있다.
스플라이싱된 특징이 획득된 후에, 이는 스플라이싱된 특징에 기초하여 타겟 영역 내의 제1 객체와 제2 객체 사이의 상관성을 예측하는 것일 수 있다.
일부 실시예들에서, 1차원 벡터를 획득하기 위해 스플라이싱된 특징에 대해 서브-샘플링 연산이 먼저 수행될 수 있다. 획득된 후에, 1차원 벡터는 회귀 또는 분류를 위해 완전 연결 계층에 입력되어, 신체 부분들, 즉 제1 객체 및 제2 객체의 조합에 대응하는 상관성 예측 스코어를 획득할 수 있다.
이러한 실시예들에서, 제1 객체, 제2 객체, 및 타겟 영역 중 임의의 하나 이상의 영역 특징들이 도입되고 제1 객체 및 제2 객체와 연관된 더 다양화된 특징들이 스플라이싱을 통해 병합되기 때문에, 제1 객체와 제2 객체 사이의 상관성을 예측하는 데 유용한 정보의 영향은 상관성 예측에서 강화되고, 그에 의해 제1 객체와 제2 객체 사이의 상관성에 대한 예측 결과의 정확도를 더 개선시킨다.
일부 실시예들에서, 본 개시는 또한 방법의 예를 제공한다. 방법에서, 이는 전술한 실시예들 중 어느 하나에 따른 이미지에 수반된 객체들 사이의 상관성을 예측하는 예시된 방법을 이용함으로써, 이미지에 기초하여 결정된 타겟 영역 내의 제1 객체와 제2 객체 사이의 상관성을 먼저 예측하는 것이다. 그 후, 이는 타겟 영역 내의 제1 객체와 제2 객체 사이의 상관성에 대한 예측 결과에 기초하여, 이미지에 수반된 상관된 객체들을 결정하는 것이다.
이러한 실시예들에서, 상관성 예측 스코어들은 제1 객체와 제2 객체 사이의 상관성에 대한 예측 결과를 나타내기 위해 이용될 수 있다.
제1 객체와 제2 객체 사이의 상관성 예측 스코어가 미리 설정된 스코어 임계값에 도달하는지가 또한 추가로 결정될 수 있다. 상관성 예측 스코어가 미리 설정된 스코어 임계값에 도달하는 경우, 제1 객체 및 제2 객체가 이미지에 수반된 상관된 객체들인 것으로 결정될 수 있다. 그렇지 않으면, 제1 객체 및 제2 객체가 상관된 객체들이 아니라고 결정될 수 있다.
미리 설정된 스코어 임계값은 구체적으로 실제 상황들에 따라 설정될 수 있는 경험적 임계값이다. 예를 들어, 미리 설정된 표준 값은 0.95일 수 있다.
이미지가 복수의 제1 객체 및 복수의 제2 객체를 포함할 때, 이미지에 수반된 상관된 객체들을 결정하는 동안, 이미지로부터 검출된 각각의 제1 객체들 및 각각의 제2 객체들은 조합되어 복수의 조합을 획득할 수 있다. 그 후, 이는 상관성 예측 스코어 등의 복수의 조합 각각에 대응하는 상관성 예측 결과를 결정하는 것이다.
실제 상황들에서, 통상적으로, 얼굴 객체는 기껏해야 단지 2개의 손 객체에 대응하고, 손 객체는 기껏해야 단지 1개의 얼굴 객체에 대응한다.
일부 실시예들에서, 현재 조합은 각각의 조합들의 상관성 예측 스코어들의 내림차순으로 각각의 조합들로부터 선택될 수 있고, 다음의 제1 단계 및 제2 단계가 수행될 수 있다.
제1 단계에서, 이는 결정된 상관된 객체들에 기초하여, 현재 조합 내의 제1 객체와 상관된 제2 결정된 객체들 및 현재 조합 내의 제2 객체와 상관된 제1 결정된 객체들을 카운팅하고, 제2 결정된 객체들의 제1 수 및 제1 결정된 객체들의 제2 수를 결정하고, 제1 수가 제1 미리 설정된 임계값에 도달하는지 및 제2 수가 제2 미리 설정된 임계값에 도달하는지를 결정하는 것이다.
제1 미리 설정된 임계값은 구체적으로 실제 상황들에 따라 설정될 수 있는 경험적 임계값이다. 예를 들어, 데스크톱 게임 시나리오에서, 제1 객체가 얼굴 객체인 경우 제1 미리 설정된 임계값은 2일 수 있다.
제2 미리 설정된 임계값은 구체적으로 실제 상황들에 따라 설정될 수 있는 경험적 임계값이다. 예를 들어, 데스크톱 게임 시나리오에서, 제2 미리 설정된 임계값은 제2 객체가 손 객체인 경우 1일 수 있다.
일부 실시예들에서, 현재 조합은 상관성 예측 스코어들이 상관성 예측 스코어들의 내림차순으로 미리 설정된 스코어 임계값에 도달하는 조합들로부터 선택될 수 있다.
이러한 실시예들에서, 상관성 예측 스코어들이 미리 설정된 스코어 임계값에 도달하는 조합들로부터 현재 조합을 결정함으로써, 더 낮은 상관성 예측 스코어들을 갖는 조합들이 제거될 수 있고, 그에 의해 더 결정될 조합들의 수를 감소시키고 상관된 객체들을 결정하는 효율을 개선시킨다.
일부 실시예들에서, 각각의 제1 객체들 및 각각의 제2 객체들 각각에 대해 카운터가 유지될 수 있다. 제2 객체가 임의의 하나의 제1 객체와 상관되는 것으로 결정될 때마다, 제1 객체에 대응하는 카운터의 값은 1만큼 가산된다. 이때, 2개의 카운터에 기초하여, 현재 조합 내의 제1 객체와 상관되는 제2 결정된 객체들의 수가 제1 미리 설정된 임계값에 도달하는지, 및 현재 조합 내의 제2 객체와 상관되는 제1 결정된 객체들의 수가 제2 미리 설정된 임계값에 도달하는지가 결정될 수 있다. 일부 실시예들에서, 제2 결정된 객체들은 m개의 제2 객체를 포함하고, 현재 조합 내의 제1 객체 및 m개의 제2 객체 각각에 대해, 이들은 서로 상관되는 것으로, 즉 상관된 객체들로서 결정되었고, 여기서 m은 0보다 크거나 같을 수 있다; 제1 결정된 객체들은 n개의 제1 객체를 포함하고, 현재 조합 내의 제2 객체 및 n개의 제1 객체 각각에 대해, 이들은 서로 상관되는 것으로, 즉 상관된 객체들로서 결정되었고, 여기서 n은 0보다 크거나 같을 수 있다.
제2 단계에서, 제1 수가 제1 미리 설정된 임계값에 도달하지 않고 제2 수가 제2 미리 설정된 임계값에 도달하지 않는 것에 응답하여, 현재 조합에서의 제1 객체 및 제2 객체는 이미지에 수반된 상관된 객체들로서 결정된다.
위의 방식들에서, 현재 조합에 포함된 제1 객체와 상관된 제2 결정된 객체들의 수가 제1 미리 설정된 임계값에 도달하지 않고 현재 조합에 포함된 제2 객체와 상관된 제1 결정된 객체들의 수가 제2 미리 설정된 임계값에 도달하지 않는 경우, 현재 조합 내의 제1 객체 및 제2 객체는 상관된 객체들로서 결정된다. 따라서, 복잡한 시나리오, 예를 들어, 얼굴들, 사지들 및 손들이 중첩된 시나리오에서 위의 방식에서 설명된 단계들을 이용함으로써, 하나의 얼굴 객체가 2개보다 많은 손 객체와 상관되는 상황, 및 하나의 손 객체가 하나보다 많은 얼굴 객체와 상관되는 상황과 같은, 일부 합리적이지 않은 상황들이 예측되는 것이 회피될 수 있다.
일부 실시예들에서, 이미지에 수반된 상관된 객체들을 검출한 결과들이 출력될 수 있다.
데스크톱 게임 시나리오에서, 상관된 객체들에 의해 표시된 하나 이상의 얼굴 객체 및 하나 이상의 손 객체를 포함하는 외부 연결 프레임은 이미지 출력 장비, 예를 들어, 디스플레이 상에 출력될 수 있다. 상관된 객체들을 검출한 결과를 이미지 출력 장비 상에 출력함으로써, 관찰자는 이미지 출력 장비 상에 디스플레이된 이미지에 수반된 상관된 객체들을 편리하게 그리고 직접 결정할 수 있고, 그에 의해 상관된 객체들을 검출한 결과의 추가의 수동 검증을 용이하게 한다.
본 개시에 예시된 이미지에 수반된 상관된 객체들을 결정하는 방식이 위의 설명에 도입되었고, 이 방식에서 사용되는 다양한 모델들의 트레이닝 방법들이 이하에서 설명된다.
일부 실시예들에서, 타겟 검출 모델 및 상관성 예측 모델은 동일한 백본 네트워크를 공유할 수 있다.
일부 실시예들에서, 타겟 검출 모델에 대한 트레이닝 샘플 세트들 및 상관성 예측 모델에 대한 트레이닝 샘플 세트들은 개별적으로 구성될 수 있고, 타겟 검출 모델 및 상관성 예측 모델은 구성된 트레이닝 샘플 세트들에 기초하여 각각 트레이닝될 수 있다.
일부 실시예들에서, 상관된 객체들을 결정한 결과의 정확도를 개선하기 위해, 모델들은 세그먼트 트레이닝 방식으로 트레이닝될 수 있다. 이러한 실시예들에서, 제1 스테이지는 타겟 검출 모델을 트레이닝하는 것이고, 제2 스테이지는 타겟 검출 모델 및 상관성 예측 모델을 공동으로 트레이닝하는 것이다.
도 7을 참조하면, 이는 본 개시의 예에 따른 타겟 검출 모델 및 상관성 예측 모델을 트레이닝하는 방식을 예시하는 개략 흐름도이다.
도 7에 도시된 바와 같이, 방식은 다음의 단계들을 포함한다.
S702에서, 타겟 검출 모델은 제1 트레이닝 샘플 세트에 기초하여 트레이닝된다; - 제1 트레이닝 샘플 세트는 제1 주석 정보를 갖는 트레이닝 샘플들을 포함하고; 제1 주석 정보는 하나 이상의 제1 객체 및 하나 이상의 제2 객체의 경계 박스들을 포함함 -.
이 단계를 수행할 때, 원본 이미지의 진리 값들에 주석을 달기 위해 수동 주석 또는 머신-지원형(machine-assisted) 주석이 이용될 수 있다. 예를 들어, 데스크톱 게임 시나리오에서, 원본 이미지를 획득한 후에, 이미지 주석 도구는 원본 이미지에 포함된 하나 이상의 얼굴 객체 및 하나 이상의 손 객체의 경계 박스들에 주석을 달기 위해 이용되어, 여러 트레이닝 샘플들을 획득할 수 있다.
그 후, 타겟 검출 모델은 모델이 수렴될 때까지 미리 설정된 손실 함수에 기초하여 트레이닝될 수 있다.
타겟 검출 모델이 수렴된 이후, S704가 수행될 수 있다, 즉, 타겟 검출 모델 및 상관성 예측 모델은 제2 트레이닝 샘플 세트에 기초하여 공동으로 트레이닝된다; - 제2 트레이닝 샘플 세트는 제2 주석 정보를 갖는 트레이닝 샘플들을 포함하고; 제2 주석 정보는 하나 이상의 제1 객체 및 하나 이상의 제2 객체의 경계 박스들, 및 제1 객체들과 제2 객체들 사이의 상관성의 주석 정보를 포함함 -.
수동 주석 또는 머신-지원형 주석은 원본 이미지의 진리 값들에 주석을 달기 위해 이용될 수 있다. 예를 들어, 데스크톱 게임 시나리오에서, 원본 이미지를 획득한 후에, 한편으로는, 이미지 주석 도구는 원본 이미지에 포함된 하나 이상의 얼굴 객체 및 하나 이상의 손 객체의 경계 박스들에 주석을 달기 위해 이용될 수 있다. 한편, 이미지 주석 도구는 원본 이미지에 수반된 각각의 제1 객체와 각각의 제2 객체를 랜덤하게 조합하여 복수의 조합 결과를 획득하기 위해 이용될 수 있다. 그 후, 각각의 조합 내의 제1 객체 및 제2 객체에 대해, 이들의 상관성이 주석부기되어 상관성 주석 정보를 획득한다. 일부 실시예들에서, 신체 부분들의 조합 내의 제1 객체 및 제2 객체가 상관된 객체들인 경우, 즉, 한 사람에 속하는 경우, 그것에는 1로 주석이 달릴 수 있고, 그렇지 않은 경우, 그것에는 0으로 주석이 달릴 수 있다.
제2 트레이닝 샘플 세트를 결정한 후에, 조인트-러닝(joint-learning) 손실 함수는 타겟 검출 모델 및 상관성 예측 모델에 각각 대응하는 손실 함수들에 기초하여 결정될 수 있다.
일부 실시예들에서, 조인트-러닝 손실 함수는 타겟 검출 모델 및 상관성 예측 모델에 각각 대응하는 손실 함수들의 합 또는 가중 합을 계산함으로써 획득될 수 있다.
정규화 항목들과 같은 하이퍼파라미터들이 또한 본 개시에서 조인트-러닝 손실 함수에 추가될 수 있다는 점에 유의해야 한다. 추가된 하이퍼파라미터들의 타입들은 여기서 특별히 제한되지 않는다.
타겟 검출 모델 및 상관성 예측 모델은 타겟 검출 모델 및 상관성 예측 모델이 수렴될 때까지 조인트-러닝 손실 함수 및 제2 트레이닝 샘플 세트에 기초하여 공동으로 트레이닝될 수 있다.
지도 조인트 트레이닝(supervised joint training) 방식이 모델들을 트레이닝하는 데 이용되기 때문에, 타겟 검출 모델 및 상관성 예측 모델이 동시에 트레이닝될 수 있다. 따라서, 타겟 검출 모델의 트레이닝 및 상관성 예측 모델의 트레이닝은 서로 제한되고 촉진될 수 있어, 한편으로는 2개의 모델의 수렴 효율을 증가시키고, 다른 한편으로는 상관성을 예측하기 위한 더 유용한 특징들을 추출하도록 2개의 모델에 의해 공유되는 백본 네트워크를 촉진할 수 있고, 그에 의해 상관된 객체들을 결정하는 정확도를 개선시킨다.
위의 실시예들 중 어느 하나에 대응하여, 본 개시는 또한 이미지에 수반된 객체들 사이의 상관성을 예측하기 위한 장치들을 제공한다. 도 8을 참조하면, 도 8은 본 개시에 따른 이미지에 수반된 객체들 사이의 상관성을 예측하기 위한 장치를 예시하는 개략 구조도이다.
도 8에 도시된 바와 같이, 장치(80)는 다음을 포함한다:
취득된 이미지에 수반된 제1 객체 및 제2 객체를 검출하도록 구성된 검출 모듈(81)- 제1 객체 및 제2 객체는 상이한 신체 부분들을 나타냄 -;
타겟 영역에 대한 제1 객체의 제1 가중 정보 및 타겟 영역에 대한 제2 객체의 제2 가중 정보를 결정하도록 구성된 결정 모듈(82)- 타겟 영역은 제1 객체와 제2 객체의 조합에 대한 주변 박스에 대응함 -;
제1 가중 정보 및 제2 가중 정보에 각각 기초하여 타겟 영역에 대해 가중 처리를 수행하여 타겟 영역의 제1 가중 특징 및 제2 가중 특징을 획득하도록 구성된 가중 처리 모듈(83); 및
제1 가중 특징 및 제2 가중 특징에 기초하여 타겟 영역 내의 제1 객체와 제2 객체 사이의 상관성을 예측하도록 구성된 상관성 예측 모듈(84).
일부 실시예들에서, 장치(80)는, 제1 객체에 대한 제1 경계 박스 및 제2 객체에 대한 제2 경계 박스에 기초하여, 제1 경계 박스 및 제2 경계 박스를 커버하지만 제1 경계 박스 및 제2 경계 박스와의 교차점을 갖지 않는 박스를 주변 박스로서 결정하거나; 또는, 제1 객체에 대한 제1 경계 박스 및 제2 객체에 대한 제2 경계 박스에 기초하여, 제1 경계 박스 및 제2 경계 박스를 커버하고 제1 경계 박스 및/또는 제2 경계 박스와 외부적으로 연결되는 박스를 주변 박스로서 결정하도록 구성된 주변 박스 결정 모듈을 추가로 포함한다.
일부 실시예들에서, 결정 모듈(82)은: 제1 객체에 대응하는 영역에 대해 영역 특징 추출을 수행하여 제1 객체의 제1 특징 맵을 결정하고; 제2 객체에 대응하는 영역에 대해 영역 특징 추출을 수행하여 제2 객체의 제2 특징 맵을 결정하고; 제1 특징 맵을 미리 설정된 크기로 조정함으로써 제1 가중 정보를 획득하고, 제2 특징 맵을 미리 설정된 크기로 조정함으로써 제2 가중 정보를 획득하도록 구성된다.
일부 실시예들에서, 가중 처리 모듈(83)은: 타겟 영역에 대해 영역 특징 추출을 수행하여 타겟 영역의 특징 맵을 결정하고; 제1 가중 정보에 기초하여 구성되는 제1 컨볼루션 커널을 이용하여, 타겟 영역의 특징 맵에 대해 컨볼루션 연산을 수행하여 제1 가중 특징을 획득하고; 제2 가중 정보에 기초하여 구성되는 제2 컨볼루션 커널을 이용하여, 타겟 영역의 특징 맵에 대해 컨볼루션 연산을 수행하여 제2 가중 특징을 획득하도록 구성된다.
일부 실시예들에서, 상관성 예측 모듈(84)은 제1 가중 특징, 제2 가중 특징, 및 제1 객체, 제2 객체, 및 타겟 영역 중의 임의의 하나 이상에 기초하여 타겟 영역 내의 제1 객체와 제2 객체 사이의 상관성을 예측하도록 구성된 상관성 예측 서브모듈을 포함한다.
일부 실시예들에서, 상관성 예측 서브모듈은 제1 가중 특징, 제2 가중 특징, 및 제1 객체, 제2 객체, 및 타겟 영역 중 임의의 하나 이상의 각각의 영역 특징들에 대해 특징 스플라이싱을 수행함으로써 스플라이싱된 특징을 획득하고; 스플라이싱된 특징에 기초하여 타겟 영역 내의 제1 객체와 제2 객체 사이의 상관성을 예측하도록 추가로 구성된다.
일부 실시예들에서, 장치(80)는 타겟 영역 내의 제1 객체와 제2 객체 사이의 상관성에 대한 예측 결과에 기초하여, 이미지에 수반된 상관된 객체들을 결정하도록 구성된 상관된 객체들 결정 모듈을 추가로 포함한다.
일부 실시예들에서, 장치(80)는: 이미지로부터 검출된 각각의 제1 객체들 및 각각의 제2 객체들을 조합하여 복수의 조합을 생성하도록 구성된 조합 모듈- 조합들 각각은 하나의 제1 객체 및 하나의 제2 객체를 포함함 -을 추가로 포함한다. 따라서, 상관성 예측 모듈(84)은 구체적으로: 복수의 조합 각각에 대한 상관성 예측 결과를 결정하고- 상관성 예측 결과는 상관성 예측 스코어를 포함함 -; 각각의 조합들의 상관성 예측 스코어들의 내림차순으로 각각의 조합들로부터 현재 조합을 선택하고; 현재 조합에 대해: 결정된 상관된 객체들에 기초하여, 현재 조합 내의 제1 객체와 상관된 제2 결정된 객체들 및 현재 조합 내의 제2 객체와 상관된 제1 결정된 객체들을 카운팅하고; 제2 결정된 객체들의 제1 수 및 제1 결정된 객체들의 제2 수를 결정하고; 제1 수가 제1 미리 설정된 임계값에 도달하지 않고 제2 수가 제2 미리 설정된 임계값에 도달하지 않는 것에 응답하여, 현재 조합에서의 제1 객체 및 제2 객체를 이미지에 수반된 상관된 객체들로서 결정하도록 구성된다.
일부 실시예들에서, 상관성 예측 모듈(84)은 구체적으로: 상관성 예측 스코어들이 미리 설정된 스코어 임계값에 도달하는 조합들로부터, 상관성 예측 스코어들의 내림차순으로 현재 조합을 선택하도록 구성된다.
일부 실시예들에서, 장치(80)는: 이미지에 수반된 상관된 객체들의 검출 결과를 출력하도록 구성된 출력 모듈을 추가로 포함한다.
일부 실시예들에서, 제1 객체는 얼굴 객체를 포함하고; 제2 객체는 손 객체를 포함한다.
일부 실시예들에서, 장치(80)는 다음을 추가로 포함한다: 제1 트레이닝 샘플 세트에 기초하여, 타겟 검출 모델을 트레이닝하도록 구성된 제1 트레이닝 모듈; - 제1 트레이닝 샘플 세트는 제1 주석 정보를 갖는 트레이닝 샘플들을 포함하고; 제1 주석 정보는 제1 객체에 대한 경계 박스 및 제2 객체에 대한 경계 박스를 포함함 -; 및 제2 트레이닝 샘플 세트에 기초하여, 타겟 검출 모델 및 상관성 예측 모델을 공동으로 트레이닝하도록 구성된 공동 트레이닝 모듈; - 제2 트레이닝 샘플 세트는 제2 주석 정보를 갖는 트레이닝 샘플들을 포함하고; 제2 주석 정보는 제1 객체에 대한 경계 박스, 제2 객체에 대한 경계 박스, 및 제1 객체와 제2 객체 사이의 상관성의 주석 정보를 포함하고; 타겟 검출 모델은 이미지에 수반된 제1 객체 및 제2 객체를 검출하도록 구성되고, 상관성 예측 모델은 이미지에 수반된 제1 객체와 제2 객체 사이의 상관성을 예측하도록 구성됨 -.
본 개시에 예시된 이미지에 수반된 객체들 사이의 상관성을 예측하기 위한 장치들의 실시예들은 전자 디바이스에 적용될 수 있다. 대응적으로, 본 개시는 프로세서, 및 프로세서에 의해 실행가능 명령어들을 저장하기 위한 메모리를 포함할 수 있는 전자 디바이스를 제공한다. 프로세서는 위의 실시예들 중 어느 하나에 예시된 바와 같이 이미지에 수반된 객체들 사이의 상관성을 예측하는 방법을 구현하기 위해 메모리에 저장된 실행가능 명령어들을 호출하도록 구성될 수 있다.
도 9를 참조하면, 도 9는 본 개시에 따른 전자 디바이스의 하드웨어 구조를 예시하는 개략도이다.
도 9에 도시된 바와 같이, 전자 디바이스는 명령어들을 실행하기 위한 프로세서, 네트워크 접속을 위한 네트워크 인터페이스, 프로세서에 대한 동작 데이터를 저장하기 위한 메모리, 및 상관성을 예측하기 위한 임의의 하나의 장치에 대응하는 명령어들을 저장하기 위한 비휘발성 저장 컴포넌트를 포함할 수 있다.
전자 디바이스에서, 이미지에 수반된 객체들 사이의 상관성을 예측하기 위한 장치의 실시예들은 소프트웨어, 하드웨어 또는 이들의 조합에 의해 구현될 수 있다. 소프트웨어에 의해 구현되는 것을 예로서 취하면, 장치가 위치하는 전자 디바이스의 프로세서에 의해 비휘발성 저장 컴포넌트로부터의 대응하는 컴퓨터 프로그램 명령어들을 메모리로 판독하고 실행하는 논리 장치를 형성하는 것이다. 하드웨어 관점에서, 하나 이상의 실시예에서, 도 9에 도시된 프로세서, 메모리, 네트워크 인터페이스, 및 비휘발성 저장 컴포넌트에 더하여, 장치가 위치하는 전자 디바이스는 일반적으로 전자 디바이스의 임의의 실제 기능에 기초한 다른 하드웨어를 포함할 수 있으며, 이는 여기서 반복되지 않을 것이다.
처리를 가속화하기 위해, 이미지에 수반된 객체들 사이의 상관성을 예측하기 위한 장치에 대응하는 명령어들이 또한 메모리에 직접 저장될 수 있으며, 이는 여기서 제한되지 않는다는 것을 이해해야 한다.
본 개시는 컴퓨터 프로그램이 저장되는 컴퓨터 판독가능 저장 매체를 제공하고, 컴퓨터 프로그램은 전술한 실시예들 중 어느 하나에 따라 예시된 이미지에 수반된 객체들 사이의 상관성을 예측하는 방법을 실행하도록 구성된다.
본 기술분야의 통상의 기술자는 본 개시의 하나 이상의 실시예가 방법들, 시스템들, 또는 컴퓨터 프로그램 제품들로서 제공될 수 있다는 것을 이해해야 한다. 따라서, 본 개시의 하나 이상의 실시예는 완전한 하드웨어 실시예들, 완전한 소프트웨어 실시예들, 또는 소프트웨어와 하드웨어를 조합한 실시예들로서 구현될 수 있다. 또한, 본 개시의 하나 이상의 실시예는, 디스크 저장 컴포넌트, CD-ROM, 광학 저장 컴포넌트 등을 포함할 수 있지만 이에 제한되지 않는 컴퓨터 사용가능 프로그램 코드들을 포함하는 컴퓨터 사용가능 저장 매체 상에서 실행되는 컴퓨터 프로그램 제품의 형태로 구현될 수 있다.
본 개시에서 용어 "및/또는"은 2개의 후보 중 적어도 하나를 갖는 것을 의미하며, 예를 들어, A 및/또는 B는 3개의 경우: A 단독, B 단독, 및 A와 B 둘 다를 포함할 수 있다.
본 설명에서의 다양한 실시예들은 점진적인 방식으로 설명되고, 각각의 실시예의 강조 설명은 다른 실시예들과 상이하고, 다양한 실시예들 사이의 동일하거나 유사한 부분들은 서로 참조될 수 있다. 특히, 방법 실시예들과 실질적으로 유사하기 때문에, 전자 디바이스 실시예들이 간단히 설명되고 관련 부분에 대한 방법 실시예들의 그 설명들의 일부가 참조될 수 있다.
전술한 내용은 본 개시의 특정 실시예들을 설명한다. 다른 실시예들은 첨부된 청구항들의 범위 내에 있다. 일부 경우들에서, 그것은 청구항들에 설명된 액션들 또는 단계들이 실시예들에서와 상이한 순서로 수행되더라도 여전히 예상된 결과를 달성할 수 있다. 또한, 도면에 설명된 프로세스가 도시된 바와 같이 그 특정 순서 또는 그 연속 순서를 따르지 않더라도 여전히 예상된 결과를 달성할 수 있다. 일부 실시예들에서, 멀티-태스크 처리 또는 병렬 처리도 실현가능하거나, 유익할 수 있다.
본 개시에 설명된 주제들 및 기능 동작들의 실시예들은: 디지털 전자 회로, 유형의 컴퓨터 소프트웨어 또는 펌웨어, 본 개시에 개시된 구조 및 그 구조적 등가물을 포함할 수 있는 컴퓨터 하드웨어, 또는 이들 중 하나 이상의 조합으로 구현될 수 있다. 본 개시에서 설명된 주제들의 실시예들은, 하나 이상의 컴퓨터 프로그램, 즉, 데이터 처리 장비에 의해 실행되거나 데이터 처리 장비의 동작들을 제어하기 위한 유형의 비일시적 프로그램 캐리어 상에 인코딩된 컴퓨터 프로그램 명령어들의 하나 이상의 모듈로서 구현될 수 있다. 대안으로서 또는 추가로, 프로그램 명령어들은, 데이터 처리 장비에 의해 실행되기 위한 적절한 수신 장비에 정보를 인코딩하고 송신하기 위해 생성되는, 머신-생성(machine-generated) 전기, 광학, 또는 전자기 신호들 등의 인공 전파 신호들에 인코딩될 수 있다. 컴퓨터 저장 매체는 머신 판독가능 저장 디바이스, 머신 판독가능 저장 기판, 랜덤 또는 직렬 액세스 저장 디바이스, 또는 이들 중 하나 이상의 조합일 수 있다.
본 개시에 설명된 처리 및 논리 절차는, 입력 데이터에 기초하여 동작하고 출력을 생성하여 대응하는 기능들을 수행하기 위해, 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그램가능 컴퓨터에 의해 실행될 수 있다. 처리 및 논리 절차는 또한 필드 프로그래머블 게이트 어레이(FPGA) 또는 애플리케이션 특정 집적 회로(ASIC)와 같은 전용 논리 회로에 의해 실행될 수 있고, 장치(80)는 또한 전용 논리 회로로서 구현될 수 있다.
컴퓨터 프로그램들을 실행하기에 적절한 컴퓨터는, 예를 들어, 범용 및/또는 특수 목적 마이크로프로세서, 또는 임의의 다른 타입의 중앙 처리 유닛을 포함할 수 있다. 일반적으로, 중앙 처리 유닛은 판독 전용 저장 컴포넌트 및/또는 랜덤 액세스 저장 컴포넌트로부터 명령어들 및 데이터를 수신한다. 컴퓨터의 기본 컴포넌트들은 명령어들을 구현하거나 실행하기 위한 중앙 처리 유닛 및 명령어들 및 데이터를 저장하기 위한 하나 이상의 저장 디바이스를 포함할 수 있다. 일반적으로, 컴퓨터는 또한 데이터를 저장하기 위한 하나 이상의 대용량 저장 디바이스를 포함할 수 있다. 대용량 저장 디바이스들은, 예를 들어, 자기, 광학 또는 자기-광학 디스크들일 수 있다. 또는, 컴퓨터는 대용량 저장 디바이스들로부터 데이터를 수신하거나 그들에게 데이터를 송신하기 위해 대용량 저장 장치들에 동작적으로 결합될 수 있다. 그렇지 않으면, 위의 2개의 경우가 공존할 수 있다. 그러나, 이러한 디바이스들은 컴퓨터에 필수적인 것은 아니다. 또한, 컴퓨터는 모바일 폰, PDA(personal digital assistant), 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, GPS(global positioning system) 수신기, 또는 휴대용 저장 디바이스, 예를 들어, USB(universal serial bus) 플래시 드라이브와 같은 다른 디바이스에 내장될 수 있으며, 이들은 단지 몇 가지 예로서 언급된다.
컴퓨터 프로그램 명령어들 및 데이터를 저장하기에 적절한 컴퓨터 판독가능 매체는 모든 형태의 비휘발성 저장 컴포넌트, 매체, 및 저장 디바이스를 포함할 수 있다. 예를 들어, EPROM, EEPROM 및 플래시 디바이스와 같은 반도체 저장 디바이스, 내부 하드 디스크 또는 이동식 디스크와 같은 자기 디스크, 자기-광학적 디스크, CD ROM 디스크 또는 DVD-ROM 디스크를 포함할 수 있다. 프로세서 및 메모리는 전용 논리 회로에 의해 보충되거나 전용 로직 회로에 통합될 수 있다.
본 개시가 많은 특정 구현 상세들을 포함하지만, 이들은 개시되거나 보호될 임의의 범위를 제한하는 것으로 해석되어서는 안 되고, 주로 개시된 특정 실시예들의 특징들을 설명하기 위해 사용된다. 본 개시의 다수의 실시예에서 설명되는 특정 특징들은 또한 단일 실시예에서 조합되고 구현될 수 있다. 한편, 단일 실시예에서 설명된 다양한 특징들은 또한 다수의 실시예에서 개별적으로 또는 임의의 적절한 하위 조합으로 구현될 수 있다. 또한, 일부 특징들이 전술한 바와 같이 특정 조합들로 작동하고 심지어 초기에 그와 같이 청구되지만, 청구된 조합으로부터의 하나 이상의 특징은 일부 경우들에서 그로부터 제거될 수 있고, 청구된 조합은 하위 조합 또는 그의 변형을 지칭할 수 있다.
유사하게, 동작들이 도면들에서 특정 순서로 설명되지만, 동작들이 예상된 결과를 달성하기 위해, 도시된 특정 순서에 기초하여 차례로, 순차적으로, 또는 완전히 수행되어야 한다는 것을 의미하는 것으로 해석되어서는 안 된다. 일부 경우들에서, 멀티-태스크 또는 병렬 처리가 유익할 수 있다. 또한, 위의 실시예들에서 다양한 시스템 모듈들 및 컴포넌트들의 분리는 그러한 분리가 모든 실시예들에서 필수적인 것을 의미하는 것으로 해석되어서는 안 된다. 또한, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나, 다수의 소프트웨어 제품들로 패키징될 수 있다는 것을 이해해야 한다.
따라서, 주제의 특정 실시예들이 설명되었다. 다른 실시예들은 첨부된 청구항들의 범위 내에 있다. 일부 경우들에서, 청구항들에 기재된 액션들은 상이한 순서로 수행될 수 있고, 여전히 예상된 결과를 달성할 수 있다. 또한, 도면들에 설명된 처리에 대해, 예상된 결과를 달성하기 위해 도시된 바와 같이 그 특정 순서 또는 순차적 순서를 따를 필요는 없다. 일부 구현들에서, 멀티-태스크 또는 병렬 처리가 유익할 수 있다.
전술한 것은 본 개시의 하나 이상의 실시예의 바람직한 예들일 뿐이고, 본 개시의 하나 이상의 실시예를 한정하기 위해 사용되지 않는다. 본 개시의 하나 이상의 실시예의 사상 및 원리 내의 임의의 수정, 등가의 대체, 개선 등은 본 개시의 하나 이상의 실시예의 보호 범위에 포함될 것이다.

Claims (27)

  1. 이미지에 수반된 객체들 사이의 상관성을 예측하는 방법으로서,
    취득된 이미지에 수반된 제1 객체 및 제2 객체를 검출하는 단계- 상기 제1 객체 및 상기 제2 객체는 상이한 신체 부분들을 나타냄 -;
    타겟 영역에 대한 상기 제1 객체의 제1 가중 정보 및 상기 타겟 영역에 대한 상기 제2 객체의 제2 가중 정보를 결정하는 단계- 상기 타겟 영역은 상기 제1 객체와 상기 제2 객체의 조합에 대한 주변 박스에 대응함 -;
    상기 제1 가중 정보 및 상기 제2 가중 정보에 각각 기초하여 상기 타겟 영역에 대해 가중 처리를 수행하여 상기 타겟 영역의 제1 가중 특징 및 제2 가중 특징을 획득하는 단계; 및
    상기 제1 가중 특징 및 상기 제2 가중 특징에 기초하여 상기 타겟 영역 내의 상기 제1 객체와 상기 제2 객체 사이의 상관성을 예측하는 단계를 포함하는 방법.
  2. 제1항에 있어서,
    상기 방법은:
    상기 제1 객체에 대한 제1 경계 박스 및 상기 제2 객체에 대한 제2 경계 박스에 기초하여, 상기 제1 경계 박스 및 상기 제2 경계 박스를 커버하지만 상기 제1 경계 박스 및 상기 제2 경계 박스와의 교차점을 갖지 않는 박스를 상기 주변 박스로서 결정하는 단계; 또는,
    상기 제1 객체에 대한 상기 제1 경계 박스 및 상기 제2 객체에 대한 상기 제2 경계 박스에 기초하여, 상기 제1 경계 박스 및 상기 제2 경계 박스를 커버하고 상기 제1 경계 박스 및/또는 상기 제2 경계 박스와 외부적으로 연결되는 박스를 상기 주변 박스로서 결정하는 단계를 추가로 포함하는 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 타겟 영역에 대한 상기 제1 객체의 상기 제1 가중 정보 및 상기 타겟 영역에 대한 상기 제2 객체의 상기 제2 가중 정보를 결정하는 것은:
    상기 제1 객체에 대응하는 영역에 대해 영역 특징 추출을 수행하여 상기 제1 객체의 제1 특징 맵을 결정하는 것;
    상기 제2 객체에 대응하는 영역에 대해 영역 특징 추출을 수행하여 상기 제2 객체의 제2 특징 맵을 결정하는 것;
    상기 제1 특징 맵을 미리 설정된 크기로 조정함으로써 상기 제1 가중 정보를 획득하는 것, 및
    상기 제2 특징 맵을 상기 미리 설정된 크기로 조정함으로써 상기 제2 가중 정보를 획득하는 것을 포함하는, 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 제1 가중 정보 및 상기 제2 가중 정보에 각각 기초하여 상기 타겟 영역에 대해 상기 가중 처리를 수행하여 상기 타겟 영역의 상기 제1 가중 특징 및 상기 제2 가중 특징을 획득하는 것은:
    상기 타겟 영역에 대해 영역 특징 추출을 수행하여 상기 타겟 영역의 특징 맵을 결정하는 것;
    상기 제1 가중 정보에 기초하여 구성되는 제1 컨볼루션 커널을 이용하여, 상기 타겟 영역의 상기 특징 맵에 대해 컨볼루션 연산을 수행하여 상기 제1 가중 특징을 획득하는 것; 및
    상기 제2 가중 정보에 기초하여 구성되는 제2 컨볼루션 커널을 이용하여, 상기 타겟 영역의 상기 특징 맵에 대해 컨볼루션 연산을 수행하여 상기 제2 가중 특징을 획득하는 것을 포함하는, 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 제1 가중 특징 및 상기 제2 가중 특징에 기초하여 상기 타겟 영역 내의 상기 제1 객체와 상기 제2 객체 사이의 상기 상관성을 예측하는 것은:
    상기 제1 가중 특징, 상기 제2 가중 특징, 및 상기 제1 객체, 상기 제2 객체, 및 상기 타겟 영역 중의 임의의 하나 이상에 기초하여 상기 타겟 영역 내의 상기 제1 객체와 상기 제2 객체 사이의 상기 상관성을 예측하는 것을 포함하는, 방법.
  6. 제5항에 있어서,
    상기 제1 가중 특징, 상기 제2 가중 특징, 및 상기 제1 객체, 상기 제2 객체, 및 상기 타겟 영역 중의 임의의 하나 이상에 기초하여 상기 타겟 영역 내의 상기 제1 객체와 상기 제2 객체 사이의 상기 상관성을 예측하는 것은:
    상기 제1 가중 특징, 상기 제2 가중 특징, 및 상기 제1 객체, 상기 제2 객체, 및 상기 타겟 영역 중 임의의 하나 이상의 각각의 영역 특징들에 대해 특징 스플라이싱을 수행함으로써 스플라이싱된 특징을 획득하는 것; 및
    상기 스플라이싱된 특징에 기초하여 상기 타겟 영역 내의 상기 제1 객체와 상기 제2 객체 사이의 상기 상관성을 예측하는 것을 포함하는, 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 타겟 영역 내의 상기 제1 객체와 상기 제2 객체 사이의 상기 상관성에 대한 예측 결과에 기초하여, 상기 이미지에 수반된 상관된 객체들을 결정하는 단계를 추가로 포함하는 방법.
  8. 제7항에 있어서,
    상기 방법은:
    상기 이미지로부터 검출된 각각의 제1 객체들 및 각각의 제2 객체들을 조합하여 복수의 조합을 생성하는 단계- 상기 조합들 각각은 하나의 제1 객체 및 하나의 제2 객체를 포함함 -를 추가로 포함하고;
    상기 타겟 영역 내의 상기 제1 객체와 상기 제2 객체 사이의 상기 상관성에 대한 상기 예측 결과에 기초하여, 상기 이미지에 수반된 상관된 객체들을 결정하는 것은:
    상기 복수의 조합 각각에 대한 상관성 예측 결과를 결정하는 것- 상기 상관성 예측 결과는 상관성 예측 스코어를 포함함 -;
    상기 각각의 조합들의 상기 상관성 예측 스코어들의 내림차순으로 각각의 조합들로부터 현재 조합을 선택하는 것; 및
    상기 현재 조합에 대해:
    상기 결정된 상관된 객체들에 기초하여, 상기 현재 조합 내의 상기 제1 객체와 상관된 제2 결정된 객체들 및 상기 현재 조합 내의 상기 제2 객체와 상관된 제1 결정된 객체들을 카운팅하는 것;
    상기 제2 결정된 객체들의 제1 수 및 상기 제1 결정된 객체들의 제2 수를 결정하는 것; 및
    상기 제1 수가 제1 미리 설정된 임계값에 도달하지 않고 상기 제2 수가 제2 미리 설정된 임계값에 도달하지 않는 것에 응답하여, 상기 현재 조합 내의 상기 제1 객체 및 상기 제2 객체를 상기 이미지에 수반된 상관된 객체들로서 결정하는 것을 포함하는, 방법.
  9. 제8항에 있어서,
    상기 각각의 조합들의 상기 상관성 예측 스코어들의 상기 내림차순으로 상기 각각의 조합들로부터 상기 현재 조합을 선택하는 것은:
    상관성 예측 스코어들이 미리 설정된 스코어 임계값에 도달하는 상기 조합들로부터, 상기 상관성 예측 스코어들의 상기 내림차순으로 상기 현재 조합을 선택하는 것을 포함하는, 방법.
  10. 제7항 내지 제9항 중 어느 한 항에 있어서,
    상기 이미지에 수반된 상기 상관된 객체들의 검출 결과를 출력하는 단계를 추가로 포함하는 방법.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서,
    상기 제1 객체는 얼굴 객체를 포함하고; 상기 제2 객체는 손 객체를 포함하는, 방법.
  12. 제1항에 있어서,
    제1 트레이닝 샘플 세트에 기초하여, 타겟 검출 모델을 트레이닝하는 단계; - 상기 제1 트레이닝 샘플 세트는 제1 주석 정보를 갖는 트레이닝 샘플들을 포함하고; 상기 제1 주석 정보는 상기 제1 객체에 대한 경계 박스 및 상기 제2 객체에 대한 경계 박스를 포함함 -; 및
    제2 트레이닝 샘플 세트에 기초하여, 상기 타겟 검출 모델 및 상관성 예측 모델을 공동으로 트레이닝하는 단계; - 상기 제2 트레이닝 샘플 세트는 제2 주석 정보를 갖는 트레이닝 샘플들을 포함하고; 상기 제2 주석 정보는 상기 제1 객체에 대한 경계 박스, 상기 제2 객체에 대한 경계 박스, 및 상기 제1 객체와 상기 제2 객체 사이의 상기 상관성의 주석 정보를 포함하고;
    상기 타겟 검출 모델은 상기 이미지에 수반된 상기 제1 객체 및 상기 제2 객체를 검출하도록 구성되고, 상기 상관성 예측 모델은 상기 이미지에 수반된 상기 제1 객체와 상기 제2 객체 사이의 상관성을 예측하도록 구성됨 -를 추가로 포함하는 방법.
  13. 이미지에 수반된 객체들 사이의 상관성을 예측하기 위한 장치로서,
    취득된 이미지에 수반된 제1 객체 및 제2 객체를 검출하도록 구성된 검출 모듈- 상기 제1 객체 및 상기 제2 객체는 상이한 신체 부분들을 나타냄 -;
    타겟 영역에 대한 상기 제1 객체의 제1 가중 정보 및 상기 타겟 영역에 대한 상기 제2 객체의 제2 가중 정보를 결정하도록 구성된 결정 모듈- 상기 타겟 영역은 상기 제1 객체와 상기 제2 객체의 조합에 대한 주변 박스에 대응함 -;
    상기 제1 가중 정보 및 상기 제2 가중 정보에 각각 기초하여 상기 타겟 영역에 대해 가중 처리를 수행하여 상기 타겟 영역의 제1 가중 특징 및 제2 가중 특징을 획득하도록 구성된 가중 처리 모듈; 및
    상기 제1 가중 특징 및 상기 제2 가중 특징에 기초하여 상기 타겟 영역 내의 상기 제1 객체와 상기 제2 객체 사이의 상관성을 예측하도록 구성된 상관성 예측 모듈을 포함하는 장치.
  14. 제13항에 있어서,
    상기 제1 객체에 대한 제1 경계 박스 및 상기 제2 객체에 대한 제2 경계 박스에 기초하여, 상기 제1 경계 박스 및 상기 제2 경계 박스를 커버하지만 상기 제1 경계 박스 및 상기 제2 경계 박스와의 교차점을 갖지 않는 박스를 상기 주변 박스로서 결정하거나; 또는, 상기 제1 객체에 대한 상기 제1 경계 박스 및 상기 제2 객체에 대한 상기 제2 경계 박스에 기초하여, 상기 제1 경계 박스 및 상기 제2 경계 박스를 커버하고 상기 제1 경계 박스 및/또는 상기 제2 경계 박스와 외부적으로 연결되는 박스를 상기 주변 박스로서 결정하도록 구성된 주변 박스 결정 모듈을 추가로 포함하는 장치.
  15. 제13항 또는 제14항에 있어서,
    상기 결정 모듈은:
    상기 제1 객체에 대응하는 영역에 대해 영역 특징 추출을 수행하여 상기 제1 객체의 제1 특징 맵을 결정하고;
    상기 제2 객체에 대응하는 영역에 대해 영역 특징 추출을 수행하여 상기 제2 객체의 제2 특징 맵을 결정하고;
    상기 제1 특징 맵을 미리 설정된 크기로 조정함으로써 상기 제1 가중 정보를 획득하고,
    상기 제2 특징 맵을 상기 미리 설정된 크기로 조정함으로써 상기 제2 가중 정보를 획득하도록 추가로 구성되는, 장치.
  16. 제13항 내지 제15항 중 어느 한 항에 있어서,
    상기 가중 처리 모듈은:
    상기 타겟 영역에 대해 영역 특징 추출을 수행하여 상기 타겟 영역의 특징 맵을 결정하고;
    상기 제1 가중 정보에 기초하여 구성되는 제1 컨볼루션 커널을 이용하여, 상기 타겟 영역의 상기 특징 맵에 대해 컨볼루션 연산을 수행하여 상기 제1 가중 특징을 획득하고;
    상기 제2 가중 정보에 기초하여 구성되는 제2 컨볼루션 커널을 이용하여, 상기 타겟 영역의 상기 특징 맵에 대해 컨볼루션 연산을 수행하여 상기 제2 가중 특징을 획득하도록 추가로 구성되는, 장치.
  17. 제13항 내지 제16항 중 어느 한 항에 있어서,
    상기 상관성 예측 모듈은:
    상기 제1 가중 특징, 상기 제2 가중 특징, 및 상기 제1 객체, 상기 제2 객체, 및 상기 타겟 영역 중의 임의의 하나 이상에 기초하여 상기 타겟 영역 내의 상기 제1 객체와 상기 제2 객체 사이의 상기 상관성을 예측하도록 구성된 상관성 예측 서브모듈을 포함하는, 장치.
  18. 제17항에 있어서,
    상기 상관성 예측 서브모듈은:
    상기 제1 가중 특징, 상기 제2 가중 특징, 및 상기 제1 객체, 상기 제2 객체, 및 상기 타겟 영역 중 임의의 하나 이상의 각각의 영역 특징들에 대해 특징 스플라이싱을 수행함으로써 스플라이싱된 특징을 획득하고;
    상기 스플라이싱된 특징에 기초하여 상기 타겟 영역 내의 상기 제1 객체와 상기 제2 객체 사이의 상기 상관성을 예측하도록 추가로 구성되는, 장치.
  19. 제13항 내지 제18항 중 어느 한 항에 있어서,
    상기 타겟 영역 내의 상기 제1 객체와 상기 제2 객체 사이의 상기 상관성에 대한 예측 결과에 기초하여, 상기 이미지에 수반된 상관된 객체들을 결정하도록 구성된 상관된 객체들 결정 모듈을 추가로 포함하는 장치.
  20. 제19항에 있어서,
    상기 장치는:
    상기 이미지로부터 검출된 각각의 제1 객체들 및 각각의 제2 객체들을 조합하여 복수의 조합을 생성하도록 구성된 조합 모듈- 상기 조합들 각각은 하나의 제1 객체 및 하나의 제2 객체를 포함함 -을 추가로 포함하고;
    상기 상관성 예측 모듈은:
    상기 복수의 조합 각각에 대한 상관성 예측 결과를 결정하고- 상기 상관성 예측 결과는 상관성 예측 스코어를 포함함 -;
    상기 각각의 조합들의 상기 상관성 예측 스코어들의 내림차순으로 각각의 조합들로부터 현재 조합을 선택하고;
    상기 현재 조합에 대해:
    상기 결정된 상관된 객체들에 기초하여, 상기 현재 조합 내의 상기 제1 객체와 상관된 제2 결정된 객체들 및 상기 현재 조합 내의 상기 제2 객체와 상관된 제1 결정된 객체들을 카운팅하고;
    상기 제2 결정된 객체들의 제1 수 및 상기 제1 결정된 객체들의 제2 수를 결정하고;
    상기 제1 수가 제1 미리 설정된 임계값에 도달하지 않고 상기 제2 수가 제2 미리 설정된 임계값에 도달하지 않는 것에 응답하여, 상기 현재 조합 내의 상기 제1 객체 및 상기 제2 객체를 상기 이미지에 수반된 상관된 객체들로서 결정하도록 추가로 구성되는, 장치.
  21. 제20항에 있어서,
    상기 상관성 예측 모듈은:
    상관성 예측 스코어들이 미리 설정된 스코어 임계값에 도달하는 상기 조합들로부터, 상기 상관성 예측 스코어들의 상기 내림차순으로 상기 현재 조합을 선택하도록 추가로 구성되는, 장치.
  22. 제19항 내지 제21항 중 어느 한 항에 있어서,
    상기 이미지에 수반된 상기 상관된 객체들의 검출 결과를 출력하도록 구성된 출력 모듈을 추가로 포함하는 장치.
  23. 제13항 내지 제22항 중 어느 한 항에 있어서,
    상기 제1 객체는 얼굴 객체를 포함하고; 상기 제2 객체는 손 객체를 포함하는, 장치.
  24. 제13항에 있어서,
    제1 트레이닝 샘플 세트에 기초하여, 타겟 검출 모델을 트레이닝하도록 구성된 제1 트레이닝 모듈; - 상기 제1 트레이닝 샘플 세트는 제1 주석 정보를 갖는 트레이닝 샘플들을 포함하고; 상기 제1 주석 정보는 상기 제1 객체에 대한 경계 박스 및 상기 제2 객체에 대한 경계 박스를 포함함 -; 및
    제2 트레이닝 샘플 세트에 기초하여, 상기 타겟 검출 모델 및 상관성 예측 모델을 공동으로 트레이닝하도록 구성된 공동 트레이닝 모듈; - 상기 제2 트레이닝 샘플 세트는 제2 주석 정보를 갖는 트레이닝 샘플들을 포함하고; 상기 제2 주석 정보는 상기 제1 객체에 대한 경계 박스, 상기 제2 객체에 대한 경계 박스, 및 상기 제1 객체와 상기 제2 객체 사이의 상기 상관성의 주석 정보를 포함하고;
    상기 타겟 검출 모델은 상기 이미지에 수반된 상기 제1 객체 및 상기 제2 객체를 검출하도록 구성되고, 상기 상관성 예측 모델은 상기 이미지에 수반된 상기 제1 객체와 상기 제2 객체 사이의 상관성을 예측하도록 구성됨 -을 추가로 포함하는 장치.
  25. 전자 디바이스로서,
    프로세서; 및
    상기 프로세서에 의해 실행가능 명령어들을 저장하기 위한 메모리를 포함하고;
    상기 프로세서는 제1항 내지 제12항 중 어느 한 항에 따른 이미지에 수반된 객체들 사이의 상관성을 예측하는 방법을 구현하기 위해 상기 메모리에 저장되는 상기 실행가능 명령어들을 호출하도록 구성되는, 전자 디바이스.
  26. 컴퓨터 프로그램이 저장되는 컴퓨터 판독가능 저장 매체로서, 상기 컴퓨터 프로그램은 제1항 내지 제12항 중 어느 한 항에 따른 이미지에 수반된 객체들 사이의 상관성을 예측하는 방법을 실행하도록 구성되는, 컴퓨터 판독가능 저장 매체.
  27. 컴퓨터 판독가능 코드들을 포함하는 컴퓨터 프로그램 제품으로서, 상기 컴퓨터 판독가능 코드들은 제1항 내지 제12항 중 어느 한 항에 따른 이미지에 수반된 객체들 사이의 상관성을 예측하는 방법을 구현하기 위해 프로세서에 의해 실행되는, 컴퓨터 프로그램 제품.
KR1020217026749A 2021-02-22 2021-06-08 이미지에 수반된 객체들 사이의 상관성을 예측하기 위한 방법들, 장치들, 디바이스들 및 저장 매체 KR20220120446A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SG10202101743P 2021-02-22
SG10202101743P 2021-02-22
PCT/IB2021/055006 WO2022175731A1 (en) 2021-02-22 2021-06-08 Methods, apparatuses, devices and storage media for predicting correlation between objects involved in image

Publications (1)

Publication Number Publication Date
KR20220120446A true KR20220120446A (ko) 2022-08-30

Family

ID=77481196

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217026749A KR20220120446A (ko) 2021-02-22 2021-06-08 이미지에 수반된 객체들 사이의 상관성을 예측하기 위한 방법들, 장치들, 디바이스들 및 저장 매체

Country Status (4)

Country Link
US (1) US20220269883A1 (ko)
KR (1) KR20220120446A (ko)
CN (1) CN113348465A (ko)
AU (1) AU2021204581A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116137914A (zh) 2021-09-16 2023-05-19 商汤国际私人有限公司 一种人脸和人手的关联度检测方法、装置、设备及存储介质
AU2021240188B1 (en) * 2021-09-16 2023-02-23 Sensetime International Pte. Ltd. Face-hand correlation degree detection method and apparatus, device and storage medium
CN114219978B (zh) * 2021-11-17 2023-04-07 浙江大华技术股份有限公司 目标多部位关联方法及装置、终端、计算机可读存储介质

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06187485A (ja) * 1992-12-17 1994-07-08 Ricoh Co Ltd 画像比較装置
JPH0795598A (ja) * 1993-09-25 1995-04-07 Sony Corp 目標追尾装置
CN1480903A (zh) * 1996-08-29 2004-03-10 ������������ʽ���� 特征信息赋予、物体抽取和立体模型生成方法及其装置
TW376492B (en) * 1997-08-06 1999-12-11 Nippon Telegraph & Telephone Methods for extraction and recognition of pattern in an image, method for image abnormality judging, and memory medium with image processing programs
TW445924U (en) * 2000-03-03 2001-07-11 Shiau Jing R Improved structure for socket wrench
JP4596202B2 (ja) * 2001-02-05 2010-12-08 ソニー株式会社 画像処理装置および方法、並びに記録媒体
CN2471484Y (zh) * 2001-04-18 2002-01-16 杨宗炎 可调整角度的手工具
CN2483150Y (zh) * 2001-05-16 2002-03-27 张珍财 工具自动复位接头及旋钮接合体
JP2008191816A (ja) * 2007-02-02 2008-08-21 Sony Corp 画像処理装置、および画像処理方法、並びにコンピュータ・プログラム
JP5848551B2 (ja) * 2011-08-26 2016-01-27 キヤノン株式会社 学習装置、学習装置の制御方法、検出装置、検出装置の制御方法、およびプログラム
KR20190046415A (ko) * 2017-10-26 2019-05-07 주식회사 다누시스 복수 개의 파트에 기초한 객체검출기 및 복수 개의 파트에 기초한 객체검출방법
US10796452B2 (en) * 2017-12-03 2020-10-06 Facebook, Inc. Optimizations for structure mapping and up-sampling
US10692243B2 (en) * 2017-12-03 2020-06-23 Facebook, Inc. Optimizations for dynamic object instance detection, segmentation, and structure mapping
US10733431B2 (en) * 2017-12-03 2020-08-04 Facebook, Inc. Systems and methods for optimizing pose estimation
CN108346159B (zh) * 2018-01-28 2021-10-15 北京工业大学 一种基于跟踪-学习-检测的视觉目标跟踪方法
CN109558810B (zh) * 2018-11-12 2023-01-20 北京工业大学 基于部位分割与融合目标人物识别方法
CN109993125B (zh) * 2019-04-03 2022-12-23 腾讯科技(深圳)有限公司 模型训练方法、人脸识别方法、装置、设备及存储介质
CN110222611B (zh) * 2019-05-27 2021-03-02 中国科学院自动化研究所 基于图卷积网络的人体骨架行为识别方法、系统、装置
EP4107692A4 (en) * 2020-02-17 2023-11-29 INTEL Corporation SUPER-RESOLUTION USING A CONVOLUTIONAL NEURAL NETWORK
CN113632097A (zh) * 2021-03-17 2021-11-09 商汤国际私人有限公司 对象间的关联性的预测方法、装置、设备和存储介质

Also Published As

Publication number Publication date
AU2021204581A1 (en) 2022-09-08
US20220269883A1 (en) 2022-08-25
CN113348465A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
KR20220120446A (ko) 이미지에 수반된 객체들 사이의 상관성을 예측하기 위한 방법들, 장치들, 디바이스들 및 저장 매체
CN108875537B (zh) 对象检测方法、装置和系统及存储介质
CN103514432A (zh) 人脸特征提取方法、设备和计算机程序产品
CN112651292A (zh) 基于视频的人体动作识别方法、装置、介质及电子设备
CN112070782B (zh) 识别场景轮廓的方法、装置、计算机可读介质及电子设备
CN114463825B (zh) 基于多模态融合的人脸预测方法及相关设备
CN111062263B (zh) 手部姿态估计的方法、设备、计算机设备和存储介质
JP2020525959A (ja) 対象物の外接枠を決定するための方法、装置、媒体及び機器
US11756205B2 (en) Methods, devices, apparatuses and storage media of detecting correlated objects involved in images
US11941838B2 (en) Methods, apparatuses, devices and storage medium for predicting correlation between objects
CN114972958B (zh) 关键点检测方法、神经网络的训练方法、装置和设备
CN112102342B (zh) 平面轮廓识别方法、装置、计算机设备和存储介质
US20220300774A1 (en) Methods, apparatuses, devices and storage media for detecting correlated objects involved in image
CN114641799A (zh) 对象检测设备、方法和系统
CN107209556A (zh) 用于对捕获对象相对于交互平面的交互的深度图像进行处理的系统及方法
CN110069125B (zh) 虚拟对象的控制方法和装置
CN113627298A (zh) 目标检测模型的训练方法及检测目标对象的方法、装置
KR102063408B1 (ko) 가상 객체와의 상호 작용을 위한 방법 및 장치
WO2022175731A1 (en) Methods, apparatuses, devices and storage media for predicting correlation between objects involved in image
CN116686006A (zh) 基于可变形模型的三维扫描配准
WO2022195336A1 (en) Methods, apparatuses, devices and storage medium for predicting correlation between objects
WO2022195338A1 (en) Methods, apparatuses, devices and storage media for detecting correlated objects involved in image
US20240029365A1 (en) Identifying devices in a mixed-reality environment
Asgarov Check for updates 3D-CNNs-Based Touchless Human-Machine Interface
WO2022144605A1 (en) Methods, devices, apparatuses and storage media of detecting correlated objects in images

Legal Events

Date Code Title Description
WITB Written withdrawal of application