KR102636866B1 - 공간 분포를 이용한 휴먼 파싱 방법 및 장치 - Google Patents

공간 분포를 이용한 휴먼 파싱 방법 및 장치 Download PDF

Info

Publication number
KR102636866B1
KR102636866B1 KR1020210076804A KR20210076804A KR102636866B1 KR 102636866 B1 KR102636866 B1 KR 102636866B1 KR 1020210076804 A KR1020210076804 A KR 1020210076804A KR 20210076804 A KR20210076804 A KR 20210076804A KR 102636866 B1 KR102636866 B1 KR 102636866B1
Authority
KR
South Korea
Prior art keywords
map
height
width
distribution
image data
Prior art date
Application number
KR1020210076804A
Other languages
English (en)
Other versions
KR20220167614A (ko
Inventor
황원준
쿤 리앙 리우
Original Assignee
아주대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아주대학교산학협력단 filed Critical 아주대학교산학협력단
Priority to KR1020210076804A priority Critical patent/KR102636866B1/ko
Priority to US17/839,443 priority patent/US20220398865A1/en
Publication of KR20220167614A publication Critical patent/KR20220167614A/ko
Application granted granted Critical
Publication of KR102636866B1 publication Critical patent/KR102636866B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 공간 분포를 이용한 휴먼 파싱 방법 및 장치에 관한 것으로, 휴먼 파싱을 위한 적어도 하나의 이미지데이터 및 실측값(ground truth)을 입력받는 단계, 이미지데이터에 대한 높이 분포맵 및 너비 분포맵을 생성하는 단계, 분포맵들을 이용하여 이미지데이터의 높이 및 너비 각각에 대한 어텐션 맵과 스케일된 특징맵을 획득하는 단계, 스케일된 특징맵을 연결(concatenate)하여 분포 손실율을 산출하는 단계, 산출된 분포 손실율을 기반으로 향상된 특징맵을 획득하는 단계 및 향상된 특징맵을 이용하여 이미지데이터에 포함된 객체의 휴먼 파싱을 수행하는 단계를 포함하며 다른 실시 예로도 적용이 가능하다.

Description

공간 분포를 이용한 휴먼 파싱 방법 및 장치{Method and Apparatus for Human Parsing Using Spatial Distribution}
본 발명은 공간 분포를 이용한 휴먼 파싱 방법 및 장치에 관한 것이다.
휴먼 파싱(human parsing)은 인체를 머리, 팔, 다리 등과 같은 신체 부위와 의류 품목과 같은 구성 부위로 분할하는 작업을 포함한다. 이러한 휴먼 파싱은 인공지능 기반 딥러닝 기술을 이용하여 수행하는데, 복잡한 질감과 옷의 스타일, 변형 가능한 인간의 포즈 및 다양한 이유로 인해 정확한 휴먼 파싱이 어려운 문제점이 있다.
이를 위해, FNCs(fully convolutional networks)의 개발되었다. 그러나, 이러한 FNCs는 왼팔과 오른팔이 항상 인체의 양면에 존재하는 것과 같은 인체의 공간 통계 특성을 간과하기 때문에 휴먼 파싱 시에 시간이 오래 걸리고, 메모리의 사용이 저하되는 문제점이 존재한다.
이러한 종래의 문제점을 해결하기 위한 본 발명의 실시 예들은 공간 통계에 따른 공간 분포 기반의 어텐션 메커니즘을 이용하여 신체 부위에 대한 공간 분포 특성을 확인할 수 있는 공간 분포를 이용한 휴먼 파싱 방법 및 장치를 제공하는 것이다.
본 발명의 실시 예에 따른 공간 분포를 이용한 휴먼 파싱 방법은, 휴먼 파싱을 위한 적어도 하나의 이미지데이터 및 실측값(ground truth)을 입력받는 단계, 상기 이미지데이터에 대한 높이 분포맵 및 너비 분포맵을 생성하는 단계, 상기 분포맵들을 이용하여 상기 이미지데이터의 높이 및 너비 각각에 대한 어텐션 맵과 스케일된 특징맵을 획득하는 단계, 상기 스케일된 특징맵을 연결(concatenate)하여 분포 손실율을 산출하는 단계, 상기 산출된 분포 손실율을 기반으로 향상된 특징맵을 획득하는 단계 및 상기 향상된 특징맵을 이용하여 상기 이미지데이터에 포함된 객체의 휴먼 파싱을 수행하는 단계를 포함하는 것을 특징으로 한다.
또한, 높이 분포맵 및 상기 너비 분포맵을 생성하는 단계는, 상기 실측값의 각 클래스 정수 레이블을 인코딩하여 매트릭스를 생성하는 단계 및 상기 이미지데이터의 높이*클래스 넘버 크기의 상기 높이 분포맵을 생성하고, 상기 이미지데이터의 너비*클래스 넘버 크기의 상기 너비 분포맵을 생성하는 단계를 포함하는 것을 특징으로 한다.
또한, 높이 분포맵 및 상기 너비 분포맵을 생성하는 단계 이후에, 상기 너비와 높이에 따라 보간된 상기 높이 분포맵과 상기 너비 분포맵을 누적하여 모든 클래스의 공간 분포를 반영하는 높이*너비 크기의 클래스 공간 분포 실측값을 획득하는 단계를 더 포함하는 것을 특징으로 한다.
또한, 어텐션 맵과 스케일된 특징맵을 획득하는 단계는, 상기 이미지데이터의 입력 특징맵을 기반으로 높이와 너비 각각에 대한 어텐션 맵을 획득하는 단계를 포함하는 것을 특징으로 한다.
또한, 어텐션 맵을 획득하는 단계 이후에, 상기 어텐션 맵들을 상기 입력 특징맵의 사이즈와 동일한 사이즈로 보간하고 상기 입력 특징맵과 곱하여 높이와 너비 각각에 대한 스케일된 특징맵을 획득하는 단계를 더 포함하는 것을 특징으로 한다.
또한, 분포 손실율을 산출하는 단계는, 상기 높이 및 상기 너비 각각에 대한 상기 분포 손실율을 산출하는 단계 및 상기 산출된 분포 손실율 각각에 서로 다른 가중치를 적용하여 최종 분포 손실율을 산출하는 단계를 포함하는 것을 특징으로 한다.
또한, 높이 및 상기 너비 각각에 대한 상기 분포 손실율을 산출하는 단계는, 상기 높이, 상기 클래스 번호, 높이 채널 우선 맵 및 실측값 높이 채널 어텐션 맵을 이용하여 상기 높이에 대한 분포 손실율을 산출하는 단계 및 상기 너비, 상기 클래스 번호, 너비 채널 우선 맵 및 실측값 너비 채널 어텐션 맵을 이용하여 상기 너비에 대한 분포 손실율을 산출하는 단계를 포함하는 것을 특징으로 한다.
또한, 향상된 특징맵을 획득하는 단계는, 상기 산출된 최종 분포 손실율을 기반으로 상기 이미지데이터에 대한 향상된 특징맵을 획득하는 단계인 것을 특징으로 한다.
또한, 상기 객체의 휴먼 파싱을 수행하는 단계 이후에, 상기 이미지데이터에 대한 학습이 완료되면 상기 이미지데이터에 대한 휴먼 파싱 결과를 표시하는 단계를 더 포함하는 것을 특징으로 한다.
아울러, 본 발명의 실시 예에 따른 공간 분포를 이용한 휴먼 파싱 장치는, 휴먼 파싱을 위한 적어도 하나의 이미지데이터 및 실측값(ground truth)를 입력받는 입력부 및 상기 이미지데이터에 대한 높이 분포맵 및 너비 분포맵을 생성하고, 상기 분포맵들을 이용하여 상기 이미지데이터의 높이 및 너비 각각에 대한 어텐션 맵과 스케일된 특징맵을 획득하고, 상기 스케일된 특징맵을 연결(concatenate)하여 산출된 분포 손실율을 기반으로 상기 향상된 특징맵을 획득하여 상기 이미지데이터에 포함된 객체의 휴먼 파싱을 수행하는 제어부를 포함하는 것을 특징으로 한다.
또한, 제어부는, 상기 실측값의 각 클래스 정수 레이블을 인코딩하여 매트릭스를 생성하고, 상기 이미지데이터의 높이*클래스 넘버 크기의 상기 높이 분포맵을 생성하고, 상기 이미지데이터의 너비*클래스 넘버 크기의 상기 너비 분포맵을 생성하는 것을 특징으로 한다.
또한, 제어부는, 상기 너비와 높이에 따라 보간된 상기 높이 분포맵과 상기 너비 분포맵을 누적하여 모든 클래스의 공간 분포를 반영하는 높이*너비 크기의 클래스 공간 분포 실측값을 획득하는 것을 특징으로 한다.
또한, 제어부는, 상기 이미지데이터의 입력 특징맵을 기반으로 높이와 너비 각각에 대한 어텐션 맵을 획득하는 것을 특징으로 한다.
또한, 제어부는, 상기 어텐션 맵들을 상기 입력 특징맵의 사이즈와 동일한 사이즈로 보간하고 상기 입력 특징맵과 곱하여 높이와 너비 각각에 대한 스케일된 특징맵을 획득하는 것을 특징으로 한다.
또한, 제어부는, 상기 높이 및 상기 너비 각각에 대하여 산출된 상기 분포 손실율에 서로 다른 가중치를 적용하여 최종 분포 손실율을 산출하는 것을 특징으로 한다.
또한, 제어부는, 상기 높이, 상기 클래스 번호, 높이 채널 우선 맵 및 실측값 높이 채널 어텐션 맵을 이용하여 상기 높이에 대한 분포 손실율을 산출하고, 상기 너비, 상기 클래스 번호, 너비 채널 우선 맵 및 실측값 너비 채널 어텐션 맵을 이용하여 상기 너비에 대한 분포 손실율을 산출하는 것을 특징으로 한다.
또한, 제어부는, 상기 산출된 최종 분포 손실율을 기반으로 상기 이미지데이터에 대한 향상된 특징맵을 획득하는 것을 특징으로 한다.
또한, 제어부는, 상기 이미지데이터에 대한 학습이 완료되면 상기 이미지데이터에 대한 휴먼 파싱 결과를 도출하는 것을 특징으로 한다.
상술한 바와 같이 본 발명에 따른 휴먼 파싱 방법 장치는, 공간 통계에 따른 공간 분포 기반의 어텐션 메커니즘을 이용하여 신체 부위에 대한 공간 분포 특성을 확인함으로써 실측값을 다운 샘플링하거나 위치 인코딩을 삽입하지 않아도 되므로 메모리의 사용을 최소화할 수 있고 시간을 최소화할 수 있는 비용 효율적인 효과가 있다.
도 1은 본 발명의 실시 예에 따른 휴먼 파싱 장치를 나타낸 도면이다.
도 2는 본 발명의 실시 예에 따른 휴먼 파싱 방법을 설명하기 위한 순서도이다.
도 3은 본 발명의 실시 예에 따른 서로 다른 신체 부위의 높이 및 너비 분포를 산출하는 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 실시 예에 따른 HWAP모듈의 구조를 설명하기 위한 도면이다.
이하, 본 발명에 따른 바람직한 실시 형태를 첨부된 도면을 참조하여 상세하게 설명한다. 첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다. 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략할 수 있고, 명세서 전체를 통하여 동일 또는 유사한 구성 요소에 대해서는 동일한 참조 부호를 사용할 수 있다.
도 1은 본 발명의 실시 예에 따른 휴먼 파싱 장치를 나타낸 도면이다.
도 1을 참조하면, 본 발명에 따른 휴먼 파싱 장치(100, 이하, 전자장치(100)라 함)는 통신부(110), 입력부(120), 표시부(130), 메모리(140) 및 제어부(150)를 포함한다.
통신부(110)는 외부 서버(미도시) 또는 외부 장치(미도시)와의 통신을 통해, 외부 서버로부터 이미지데이터를 수집하여 제어부(150)로 제공한다. 이를 위해, 통신부(110)는 5G(5th generation communication), LTE-A(long term evolution-advanced), LTE, Wi-Fi(wireless fidelity) 등의 무선 통신을 수행한다.
입력부(120)는 전자장치(100)의 사용자 입력에 대응하여 입력데이터를 발생시킨다. 이를 위해, 입력부(120)는 키보드(key board), 키패드(key pad), 돔 스위치(dome switch), 터치패널(touch panel), 터치 키(touch key), 마우스(mouse), 메뉴 버튼(menu button) 등의 입력수단을 포함할 수 있다.
표시부(130)는 전자장치(100)의 동작에 따른 표시 데이터를 표시한다. 표시부(130)는 액정 디스플레이(LCD; liquid crystal display), 발광 다이오드(LED; light emitting diode) 디스플레이, 유기 발광 다이오드(OLED; organic LED) 디스플레이, 마이크로 전자기계 시스템(MEMS; micro electro mechanical systems) 디스플레이 및 전자 종이(electronic paper) 디스플레이를 포함한다. 표시부(130)는 입력부(120)와 결합되어 터치 스크린(touch screen)으로 구현될 수 있다.
메모리(140)는 전자장치(100)의 동작 프로그램들을 저장한다. 특히, 메모리(140)는 입력된 이미지데이터에서 휴먼 파싱을 수행할 수 있는 적어도 하나의 신경망을 저장할 수 있다. 특히, 메모리(140)는 이미지데이터를 높이 분포 어텐션 파싱 및 너비 분포 어텐션 파싱하기 위한 높이와 너비 분포 어텐션 모듈(HWAP: height-and-width distribution attention parsing module)을 저장할 수 있다.
제어부(150)는 공간 분포를 이용한 휴먼 파싱을 위해 이미지데이터에 대한 높이 분포, 너비 분포, 높이 분포 어텐션 파싱, 너비 분포 어텐션 파싱, 분포 손실 설계, 객체 학습 및 공간 분포 향상 특징 개선을 수행한다. 제어부(150)에서 수행하는 각각의 동작은 하기에서 설명하기로 한다.
우선적으로, 제어부(150)는 입력된 이미지데이터(이하, 입력데이터라 함)에 대한 실측값(ground truth)을 확인하고, 확인된 실측값을 이용하여 수직 및 수평 방향에 대하여 인간의 부분 공간 분포를 산출한다. 이때, 산출된 수직 방향에 대한 부분 공간 분포를 높이 분포 맵이라 하고, 수평 방향에 대한 부분 공간 분포를 너비 분포 맵이라 한다. 또한, 분포 맵은 네트워크가 높이 및 너비 분포 컨텍스트를 사전에 학습하도록 안내하는 역할을 수행하며, 네트워크가 분포 손실의 제약 하에서 다른 범주의 공간 분포를 고려하도록 한다.
<높이 분포와 너비 분포>
트레이닝 세트의 실측값으로 높이 분포맵과 너비 분포맵을 구성한다. 이때, 입력 이미지는 I, 실측값은 G이고 원-핫 인코딩을 사용해 실측값의 각 클래스 정수 레이블을 인코딩하여 H*W*N 크기의 매트릭스 M을 생성한다. H와 W는 각각 입력 이미지의 높이와 너비, N은 클래스 넘버를 의미한다. 클래스 넘버에 대응되는 각 채널에서 1의 개수는 높이와 너비 방향을 따라 계산되고, 해당 클래스의 높이와 너비 분포를 반영한다. 이를 이용한 높이 분포맵()과 너비 분포맵()은 하기의 수학식 1 및 2를 이용하여 산출된다. 의 크기는 H*N이고, 의 크기는 W*N이다. 여기서 는 각각 클래스 높이 분포의 실측값 및 클래스 너비 분포 실측값이다.
아울러, 제어부(150)는 너비와 높이의 방향에 따라 가 보간된 를 누적하여 모든 클래스의 공간 분포를 반영하는 H*W크기의 클래스 공간 분포 실측값()을 산출한다. 클래스 공간 분포 실측값()은 하기의 수학식 3을 이용하여 산출된다.
<높이 분포 어텐션 파싱 및 너비 분포 어텐션 파싱>
제어부(150)는 HWAP모듈을 이용하여 높이 분포 어텐션 파싱 및 너비 분포 어텐션 파싱(HWAP)을 수행한다. HWAP는 높이별 컨텍스트 정보에서 모든 개별 행에 대하여 채널별 가중치 값을 생성하고, 너비별 컨텍스트 정보에서 모든 개별 열에 대하여 채널별 가중치 값을 생성한다. 제어부(150)는 입력 특징맵이 입력되면 height-channel-wise 어텐션 맵(이하, 높이 어텐션 맵이라 함)인 과 width-channel-wise 어텐션 맵(이하, 너비 어텐션 맵이라 함)인 를 생성한다. 이때, 는 각각 높이 분포 손실 및 너비 분포 손실의 감독하에 생성되며 채널별 높이 방향(height-wise)과 너비 방향(width-wise)에 대한 스케일링 계수를 포함한다.
보다 구체적으로, 제어부(150)는 채널의 크기를 감소시키기 위해 제어부(150)는 1x1컨벌루션을 적용하고, 배치 정규화(BN; batch normalization) 레이어 계층을 적용한다. 제어부(150)는 높이 와이즈 풀링과 너비 와이즈 풀링을 사용하여 높이 채널 특징맵()과 너비 채널 특징맵()을 추출한다. 제어부(150)는 평균 풀링(average pooling) 방식을 이용한다.
평균 풀링 이후에, 세 가지 1D컨볼루션 레이어가 연속적으로 활용되며 그 중 2개의 레이어는 BN레이어에 적용되고, 마지막 하나의 레이어는 시그모이드 함수(sigmoid function)에 의해 활성화되어 어텐션 맵을 생성한다. 이때, 세 가지 컨볼루션 동작은 하기의 수학식 4 및 수학식 5와 같다.
여기서, 는 시그모이드 함수, 는 ReLU함수, 는 i번째 1D컨볼루션 레이어를 의미한다. 제1 컨볼루션 레이어는 정규화 효과를 생성하기 위해 의 채널 번호 C를 로 축소 변경한다. 이때, 는 하이퍼변수이고, 제2 컨볼루션 레이어는 채널 번호를 복원하고, 제3 컨볼루션 레이어 즉, 마지막 레이어는 채널 번호를 와 동일한 값으로 증가시킨다. 는 각 개별 행에서 중요한 채널을 나타내고, 는 각 개별 열에서 중요한 채널을 나타낸다.
이어서, 제어부(150)는 를 입력 특징맵의 사이즈와 동일한 사이즈로 보간하고 입력 특징맵과 곱하여 높이 어텐션 스케일 특징맵과 너비 어텐션 스케일 특징맵을 획득한다. 제어부(150)는 획득된 두 개의 스케일 특징맵을 연결하여 최종적으로 스케일된 특징맵을 획득한다.
보다 구체적으로, 제어부(150)는 이중 선형 보간 연산을 적용한 을 대응되는 어텐션 맵에 적용하여 입력 특징맵()과 동일한 차원을 갖도록 확장한다. 어텐션 맵을 획득한 이후에 입력 특징맵()은 새롭게 표현되는 향상된 특징맵()로 변환된다. 이때, 새롭게 표현되는 향상된 특징맵()은 두 개의 스케일된 특징맵인 를 결합하여 획득할 수 있다. 또한, 의 요소별 곱셈에서 파생되고, 의 요소별 곱셈에서 파생된다. 새롭게 표현되는 향상된 특징맵()는 하기의 수학식 6에 의해 산출된다.
이때, ψ와 는 학습 가능한 가중 파라메터이다.
<분포 손실 설계>
실측값을 기반으로 다양한 인체 범주의 공간 분포를 구성할 수 있다. 제어부(150)는 네트워크가 각 카테고리 분포 규칙을 모델링하도록 강제하기 위해 분포 손실을 적용한다. 분포 손실은, 네트워크가 분포 상황 정보를 형성하는 수직 및 수평 방향의 클래스 공간 분포를 고려하도록 한다.
실측값이 입력으로 주어지면 수직 및 수평 방향의 각 클래스 분포 실측값을 산출할 수 있다. 따라서, 분포 실측값을 이용하여 네트워크를 가이드하여 클래스 분포가 우선적으로 학습할 수 있다. 높이 채널 우선 맵(height-channel prior map)의 각 열의 픽셀과 너비 채널 우선 맵(width-channel prior map)의 각 행의 픽셀은 수직 및 수평 위치에서 관련된 카테고리 분포를 나타낸다.
예측된 분포 우선 맵은 크기 H와 N의 , 크기 N과 W의 이고, H는 특징맵의 높이, N은 클래스 번호, W는 너비를 의미한다. 높이 채널 우선 맵은 { , i [1, H], j [1, N]}, 너비 채널 우선 맵은 { , i [1, N], j [1, W]}, 실측값 높이 채널 어텐션 맵은 { , i [1, H], j [1, N]}, 실측값 너비 채널 어텐션 맵은 { , i [1, N], j [1, W]}이며, 이때 높이의 손실값 및 너비의 손실값은 각각 하기의 수학식 7 및 8과 같다.
아울러, 최종 분포 손실율 는 하기의 수학식 9와 같다.
여기서,
Figure 112021068307999-pat00075
Figure 112021068307999-pat00076
는 클래스 수직 및 수평 분포 손실값에 대한 밸런스 가중치이고, 각각 1로 설정될 수 있다.
<객체 학습>
본 발명에서는 CE2P를 베이스라인으로 사용하였다. 베이스라인 네트워크는 피라미드 풀링모듈, 고해상도 임베딩 모듈 및 가장자리 인식모듈(edge-perceiving module)을 포함한다. CE2P출력에는 두 개의 파싱 결과와 하나의 가장자리 예측이 포함된다. 따라서, CE2P의 총 손실은 하기의 수학식 10과 같이 나타낼 수 있다.
이때, 는 가장자리 인식 모듈을 통해 생성된 예측된 가장자리 맵과 가장자리 레이블 맵 사이의 가중된 교차 엔트로피 손실이다. 여기서 은 고해상도 모듈의 파싱 맵과 휴먼 파싱 실측값 사이의 교차 엔트로피 손실이다. 은 가장자리 예측 모듈의 특징 맵들의 결합된 이후에 파싱 레이블과 최종 파싱 결과값 사이의 다른 교차 엔트로피 손실이다.
HWAP는 피라미드 풀링 모듈과 고해상도 모듈 위에 추가할 수 있다. 따라서, 최종 손실 함수는 하기의 수학식 11과 같다.
여기서, 는 가중치 하이퍼 파라메터이며, 가중치는 각각 1과 40으로 설정될 수 있다.
<공간 분포 향상 특징 개선>
제어부(150)는 HWAP모듈의 종단에 비로컬(non-local) 모듈을 추가하여 공간 분포 향상 특징을 개선한다. 비로컬 모듈은 각 픽셀에 대한 장거리 컨텍스트 모양 정보를 캡쳐하는데 이용된다. 다양한 특징 표현은 휴먼 파싱에 매우 중요하다. 비로컬 모듈은 공간 분포 향상 특징에 대한 풍부한 컨텍스트 관계를 모델링하기 위해 광범위한 컨텍스트 정보를 인코딩한다. 이를 위해, 비로컬 모듈은 Resnet-101로 구현되고, 비로컬 모듈은 입력데이터, Resnet-101의 2번째 및 4번째 블록 출력에서 공간 컨텍스트를 채널 차원에서 연결하여 적응적으로 집계한다.
입력데이터, 저수준 표현(low-level representation), 고수준 표현(high-level representation)을 하나의 혼합 특징 표현으로 통합하고, 혼합 특징 표현과 매트릭스 곱셈에 의해 클래스 분포 향상 특징 간의 상관 관계를 산출한다. 이를 통해, 본 발명에서는 입력데이터에 포함된 객체의 포즈 정보를 사용하지 않고서도 휴먼 파싱 분석의 정확도를 향상시킬 수 있는 효과가 있다. 아울러, 이와 같이, 본 발명은 입력데이터에 포함된 객체의 포즈 정보를 사용하지 않으므로, 하나의 입력데이터에 포함된 복수의 객체에 대한 휴먼 파싱이 가능한 효과가 있다.
도 2는 본 발명의 실시 예에 따른 휴먼 파싱 방법을 설명하기 위한 순서도이다. 도 3은 본 발명의 실시 예에 따른 서로 다른 신체 부위의 높이 및 너비 분포를 산출하는 방법을 설명하기 위한 도면이다. 도 4는 본 발명의 실시 예에 따른 HWAP모듈의 구조를 설명하기 위한 도면이다.
도 2 내지 도 4를 참조하면, 201단계에서 제어부(150)는 휴먼 파싱을 위한 적어도 하나의 이미지데이터와 각 이미지데이터에 대응되는 실측값(ground truth)를 입력받는다. 203단계에서 제어부(150)는 입력된 이미지데이터(이하, 입력데이터라 함)에 대한 매트릭스를 생성한다. 제어부(150)는 도 3과 같이 원-핫 인코딩을 이용해 실측값의 각 클래스 정수 레이블을 인코딩하여 높이*너비*클래스 넘버의 크기의 매트릭스를 생성한다. 도 3에서와 같이, 각 채널에서 1의 수는 높이와 방향을 따라 계산되며, 이는 해당 클래스의 높이와 너비의 분포를 반영한다.
이어서, 205단계에서 제어부(150)는 생성된 매트릭스를 수학식 1에 반영하여 높이 분포맵()과 너비 분포맵()을 산출한다. 이때, 높이 분포맵의 크기는 높이*클래스 넘버, 너비 분포맵의 크기는 너비*클래스 넘버일 수 있으며, 높이 분포맵 및 너비 분포맵은 각각 클래스 높이 실측값 및 클래스 너비 분포 실측값이다.
아울러, 제어부(150)는 너비와 높이의 방향에 따라 높이 분포맵과 너비 분포맵을 각각 보간하여 보간된 높이 분포맵과 보간된 너비 분포맵을 산출한다. 그리고 제어부(150)는 생성된 보간된 높이 분포맵과 보간된 너비 분포맵을 수학식 3과 같이 누적하여 모든 클래스의 공간 분포를 반영하는 높이*너비 크기의 클래스 공간 분포 실측값()을 산출한다.
207단계에서 제어부(150)는 어텐션 맵과 스케일된 특징맵을 획득한다. 이를 위해, 제어부(150)는 도 4의 HWAP모듈을 이용한다. 제어부(150)는 HWAP모듈을 이용하여 높이별 컨텍스트 정보에서 모든 개별 행에 대한 채널별 가중치 값을 생성하고, 너비별 컨텍스트 정보에서 모든 개별 열에 대한 채널별 가중치 값을 생성한다.
도 4에서 는 입력 i에 대한 특징맵(이하, 입력 특징맵이라 함)이고, 는 출력 o의 특징맵(이하, 출력 특징맵이라 함)을 의미하며, 에 수렴하고, 에 수렴한다. 여기서 C는 채널 번호, H와 W는 각각 특징맵의 높이와 너비를 의미한다. HWAP모듈은 입력특징맵()의 입력에 의해 height-channel-wise 어텐션 맵(이하, 높이 어텐션 맵이라 함)인 과 width-channel-wise 어텐션 맵(이하, 너비 어텐션 맵이라 함)인 를 생성한다. 이때, 높이 어텐션 맵()과 너비 어텐션 맵()은 각각 높이 분포 손실 및 너비 분포 손실의 감독하에 생성되며 채널별 높이 방향과 너비 방향에 대한 스케일링 계수를 포함한다. 도 4의 도면부호 401 및 402는 각각 입력이미지를 기반으로 산출된 너비 클래스 분포와 높이 클래스 분포 실측값을 적용하여 높이 분포맵()과 너비 분포맵()을 산출하는 것을 의미하고, 도면부호 403 및 404는 각각 너비 분포 손실 및 높이 분포 손실을 입력특징맵()에 적용하여 너비 어텐션 맵()과 높이 어텐션 맵()을 생성하는 것을 의미한다.
보다 구체적으로, HWAP모듈은 채널의 크기를 감소시키기 위해 1x1컨볼루션을 적용하고, 배치 정규화(BN; batch normalization) 레이어 계층을 적용한다. HWAP모듈은 높이 와이즈 풀링과 너비 와이즈 풀링을 사용하여 높이 채널 특징맵()과 너비 채널 특징맵()을 추출한다. 여기서 HWAP는 평균 풀링(average pooling) 방식을 이용한다.
평균 풀링 이후에, 3개의 1D컨볼루션 레이어가 연속적으로 활용되며 그 중 2개의 레이어는 BN레이어에 적용되고, 마지막 하나의 레이어는 시그모이드 함수(sigmoid function)에 의해 활성화되어 어텐션 맵을 생성한다. 도 4와 같이 높이 채널 특징맵의 컨볼루션 커널 사이즈는 3*1, 1*1, k*1이고, 너비 채널 특징맵의 컨볼루션 커널 사이즈는 1*3, 1*1, 1*k이다. 이때, k는 1D필터의 커널 크기이며, 일 예로 7로 설정되었다. 이때, 세 가지 컨볼루션 동작은 상기의 수학식 4 및 수학식 5를 이용하여 동작된다.
이어서 209단계에서 제어부(150)는 스케일된 특징맵을 연결(concatenate)한다. 이를 위해, 제어부(150)는 도 4의 HWAP모듈을 계속적으로 이용한다. 제어부(150)는 HWAP모듈을 이용하여 높이 어텐션 맵()과 너비 어텐션 맵()을 입력 특징맵()의 사이즈와 동일한 사이즈로 보간하고 입력 특징맵()과 곱하여 높이 어텐션 스케일 특징맵()과 너비 어텐션 스케일 특징맵()을 획득한다. 제어부(150)는 HWAP모듈을 이용하여 획득된 두 개의 스케일 특징맵을 연결한다.
이어서, 211단계에서 제어부(150)는 분포 손실율을 산출한다. 이때, 제어부(150)는 네트워크가 각 카테고리 분포 규칙을 모델링하도록 강제하기 위해 분포 손실을 적용한다. 분포 손실은, 네트워크가 분포 상황 정보를 형성하는 수직 및 수평 방향의 클래스 공간 분포를 고려하도록 한다.
제어부(150)는 입력으로 주어진 실측값을 이용하여 수직 및 수평 방향의 각 클래스 분포 실측값을 산출할 수 있다. 따라서, 분포 실측값을 이용하여 네트워크를 가이드하여 클래스 분포가 우선적으로 학습할 수 있다. 높이 채널 우선 맵(height-channel prior map)의 각 열의 픽셀과 너비 채널 우선 맵(width-channel prior map)의 각 행의 픽셀은 수직 및 수평 위치에서 관련된 카테고리 분포를 나타낸다.
예측된 분포 우선 맵은 H*N 크기의 , N*W 크기의 이고, H는 특징맵의 높이, N은 클래스 번호, W는 너비를 의미한다. 높이의 손실값 및 너비의 손실값은 각각 상기의 수학식 7 및 8을 이용하여 산출할 수 있으며, 최종 분포 손실율은 상기의 수학식 9을 이용하여 산출할 수 있다. 제어부(150)는 산출된 최종 분포 손실율을 기반으로 HWAP모듈의 가중치를 갱신할 수 있다.
이어서, 213단계에서 제어부(150)는 HWAP모듈을 이용하여 향상된 특징맵()을 획득한다. 보다 구체적으로, 제어부(150)는 이중 선형 보간 연산을 적용한 을 대응되는 어텐션 맵에 적용하여 입력 특징맵()과 동일한 차원을 갖도록 확장한다. 어텐션 맵을 획득한 이후에 입력 특징맵()은 새롭게 표현되는 향상된 특징맵()로 변환된다. 이때, 새롭게 표현되는 향상된 특징맵()은 두 개의 스케일된 특징맵인 를 결합하여 획득할 수 있다. 또한, 높이 어텐션 스케일 특징맵()은 높이 어텐션 맵()이 보간된 와 입력 특징맵()의 요소별 곱셈에서 파생되고, 너비 어텐션 스케일 특징맵()은 너비 어텐션 맵()이 보간된 와 입력 특징맵()의 요소별 곱셈에서 파생된다. 새롭게 표현되는 향상된 특징맵()는 상기의 수학식 6에 의해 산출된다.
215단계에서 제어부(150)는 201단계에서 입력된 입력데이터에 대한 학습 완료여부를 확인한다. 215단계의 확인결과, 입력데이터에 대한 학습이 완료되면 제어부(150)는 217단계를 수행한다. 217단계에서 제어부(150)는 상기의 수학식 10 및 11에 의해 최종 손실 함수를 갱신한다. 그리고 제어부(150)는 갱신된 최종 손실 함수를 기반으로 휴먼 파싱을 위한 모든 네트워크의 가중치를 갱신할 수 있다. 이어서, 제어부(150)는 219단계를 수행한다. 219단계에서 제어부(150)는 입력데이터에 대한 학습이 완료되면 입력데이터에 대한 휴먼 파싱을 수행하여 휴먼 파싱 결과를 표시부(130)에 표시할 수 있다. 반대로, 입력데이터에 대한 학습이 완료되지 않으면 제어부(150)는 203단계로 회귀하여 상기의 단계들을 재수행할 수 있다.
본 명세서와 도면에 개시된 본 발명의 실시 예들은 본 발명의 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 따라서 본 발명의 범위는 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상을 바탕으로 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (18)

  1. 휴먼 파싱을 위한 적어도 하나의 이미지데이터 및 실측값(ground truth)을 입력받는 단계;
    상기 이미지데이터에 대한 높이 분포맵 및 너비 분포맵을 생성하는 단계;
    상기 분포맵들을 이용하여 상기 이미지데이터의 높이 및 너비 각각에 대한 어텐션 맵을 획득하는 단계;
    상기 어텐션 맵을 이용하여 상기 높이 및 상기 너비 각각에 대하여 스케일된 특징맵을 획득하는 단계;
    상기 스케일된 특징맵을 연결(concatenate)하여 상기 높이 및 상기 너비 각각에 대한 분포 손실율을 산출하는 단계;
    상기 산출된 분포 손실율을 기반으로 향상된 특징맵을 획득하는 단계; 및
    상기 향상된 특징맵을 이용하여 상기 이미지데이터에 포함된 객체의 휴먼 파싱을 수행하는 단계;
    를 포함하는 것을 특징으로 하는 휴먼 파싱 방법.
  2. 제1항에 있어서,
    상기 높이 분포맵 및 상기 너비 분포맵을 생성하는 단계는,
    상기 실측값의 각 클래스 정수 레이블을 인코딩하여 매트릭스를 생성하는 단계; 및
    상기 이미지데이터의 높이*클래스 넘버 크기의 상기 높이 분포맵을 생성하고, 상기 이미지데이터의 너비*클래스 넘버 크기의 상기 너비 분포맵을 생성하는 단계;
    를 포함하는 것을 특징으로 하는 휴먼 파싱 방법.
  3. 제2항에 있어서,
    상기 높이 분포맵 및 상기 너비 분포맵을 생성하는 단계 이후에,
    상기 너비와 높이에 따라 보간된 상기 높이 분포맵과 상기 너비 분포맵을 누적하여 모든 클래스의 공간 분포를 반영하는 높이*너비 크기의 클래스 공간 분포 실측값을 획득하는 단계;
    를 더 포함하는 것을 특징으로 하는 휴먼 파싱 방법.
  4. 제3항에 있어서,
    상기 어텐션 맵을 획득하는 단계는,
    상기 이미지데이터의 입력 특징맵을 기반으로 상기 높이 및 상기 너비 각각에 대한 어텐션 맵을 획득하는 단계;
    를 포함하는 것을 특징으로 하는 휴먼 파싱 방법.
  5. 제4항에 있어서,
    상기 스케일된 특징맵을 획득하는 단계는,
    상기 어텐션 맵들을 상기 입력 특징맵의 사이즈와 동일한 사이즈로 보간하고 상기 입력 특징맵과 곱하여 상기 높이 및 상기 너비 각각에 대한 스케일된 특징맵을 획득하는 단계;
    를 더 포함하는 것을 특징으로 하는 휴먼 파싱 방법.
  6. 제5항에 있어서,
    상기 분포 손실율을 산출하는 단계는,
    상기 산출된 분포 손실율 각각에 서로 다른 가중치를 적용하여 최종 분포 손실율을 산출하는 단계;
    를 포함하는 것을 특징으로 하는 휴먼 파싱 방법.
  7. 제6항에 있어서,
    상기 높이 및 상기 너비 각각에 대한 상기 분포 손실율을 산출하는 단계는,
    상기 높이, 상기 클래스 넘버, 높이 채널 우선 맵 및 실측값 높이 채널 어텐션 맵을 이용하여 상기 높이에 대한 분포 손실율을 산출하는 단계; 및
    상기 너비, 상기 클래스 넘버, 너비 채널 우선 맵 및 실측값 너비 채널 어텐션 맵을 이용하여 상기 너비에 대한 분포 손실율을 산출하는 단계;
    를 포함하는 것을 특징으로 하는 휴먼 파싱 방법.
  8. 제7항에 있어서,
    상기 향상된 특징맵을 획득하는 단계는,
    상기 산출된 최종 분포 손실율을 기반으로 상기 이미지데이터에 대한 향상된 특징맵을 획득하는 단계인 것을 특징으로 하는 휴먼 파싱 방법.
  9. 제8항에 있어서,
    상기 객체의 휴먼 파싱을 수행하는 단계 이후에,
    상기 이미지데이터에 대한 학습이 완료되면 상기 이미지데이터에 대한 휴먼 파싱 결과를 표시하는 단계;
    를 더 포함하는 것을 특징으로 하는 휴먼 파싱 방법.
  10. 휴먼 파싱을 위한 적어도 하나의 이미지데이터 및 실측값(ground truth)을 입력받는 입력부; 및
    상기 이미지데이터에 대한 높이 분포맵 및 너비 분포맵을 생성하고, 상기 분포맵들을 이용하여 상기 이미지데이터의 높이 및 너비 각각에 대한 어텐션 맵을 획득하고, 상기 어텐션 맵을 이용하여 상기 높이 및 상기 너비 각각에 대하여 스케일된 특징맵을 획득하고, 상기 스케일된 특징맵을 연결(concatenate)하여 상기 높이 및 상기 너비 각각에 대해 산출된 분포 손실율을 기반으로 상기 향상된 특징맵을 획득하여 상기 이미지데이터에 포함된 객체의 휴먼 파싱을 수행하는 제어부;
    를 포함하는 것을 특징으로 하는 휴먼 파싱 장치.
  11. 제10항에 있어서,
    상기 제어부는,
    상기 실측값의 각 클래스 정수 레이블을 인코딩하여 매트릭스를 생성하고, 상기 이미지데이터의 높이*클래스 넘버 크기의 상기 높이 분포맵을 생성하고, 상기 이미지데이터의 너비*클래스 넘버 크기의 상기 너비 분포맵을 생성하는 것을 특징으로 하는 휴먼 파싱 장치.
  12. 제11항에 있어서,
    상기 제어부는,
    상기 너비와 높이에 따라 보간된 상기 높이 분포맵과 상기 너비 분포맵을 누적하여 모든 클래스의 공간 분포를 반영하는 높이*너비 크기의 클래스 공간 분포 실측값을 획득하는 것을 특징으로 하는 휴먼 파싱 장치.
  13. 제12항에 있어서,
    상기 제어부는,
    상기 이미지데이터의 입력 특징맵을 기반으로 상기 높이 및 상기 너비 각각에 대한 어텐션 맵을 획득하는 것을 특징으로 하는 휴먼 파싱 장치.
  14. 제13항에 있어서,
    상기 제어부는,
    상기 어텐션 맵들을 상기 입력 특징맵의 사이즈와 동일한 사이즈로 보간하고 상기 입력 특징맵과 곱하여 상기 높이 및 상기 너비 각각에 대한 스케일된 특징맵을 획득하는 것을 특징으로 하는 휴먼 파싱 장치.
  15. 제14항에 있어서,
    상기 제어부는,
    상기 높이 및 상기 너비 각각에 대하여 산출된 상기 분포 손실율에 서로 다른 가중치를 적용하여 최종 분포 손실율을 산출하는 것을 특징으로 하는 휴먼 파싱 장치.
  16. 제15항에 있어서,
    상기 제어부는,
    상기 높이, 상기 클래스 넘버, 높이 채널 우선 맵 및 실측값 높이 채널 어텐션 맵을 이용하여 상기 높이에 대한 분포 손실율을 산출하고, 상기 너비, 상기 클래스 넘버, 너비 채널 우선 맵 및 실측값 너비 채널 어텐션 맵을 이용하여 상기 너비에 대한 분포 손실율을 산출하는 것을 특징으로 하는 휴먼 파싱 장치.
  17. 제16항에 있어서,
    상기 제어부는,
    상기 산출된 최종 분포 손실율을 기반으로 상기 이미지데이터에 대한 향상된 특징맵을 획득하는 것을 특징으로 하는 휴먼 파싱 장치.
  18. 제17항에 있어서,
    상기 제어부는,
    상기 이미지데이터에 대한 학습이 완료되면 상기 이미지데이터에 대한 휴먼 파싱 결과를 도출하는 것을 특징으로 하는 휴먼 파싱 장치.
KR1020210076804A 2021-06-14 2021-06-14 공간 분포를 이용한 휴먼 파싱 방법 및 장치 KR102636866B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210076804A KR102636866B1 (ko) 2021-06-14 2021-06-14 공간 분포를 이용한 휴먼 파싱 방법 및 장치
US17/839,443 US20220398865A1 (en) 2021-06-14 2022-06-13 Method and device for human parsing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210076804A KR102636866B1 (ko) 2021-06-14 2021-06-14 공간 분포를 이용한 휴먼 파싱 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20220167614A KR20220167614A (ko) 2022-12-21
KR102636866B1 true KR102636866B1 (ko) 2024-02-14

Family

ID=84390359

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210076804A KR102636866B1 (ko) 2021-06-14 2021-06-14 공간 분포를 이용한 휴먼 파싱 방법 및 장치

Country Status (2)

Country Link
US (1) US20220398865A1 (ko)
KR (1) KR102636866B1 (ko)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110634167B (zh) * 2019-09-27 2021-07-20 北京市商汤科技开发有限公司 神经网络训练方法及装置和图像生成方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Ziwei Zhang, "Correlating Edge, Pose with Parsing", CVPR 2020 (2020.06.14-19.)*

Also Published As

Publication number Publication date
KR20220167614A (ko) 2022-12-21
US20220398865A1 (en) 2022-12-15

Similar Documents

Publication Publication Date Title
US11966839B2 (en) Auto-regressive neural network systems with a soft attention mechanism using support data patches
KR101880907B1 (ko) 비정상 세션 감지 방법
US10614337B2 (en) Information processing apparatus and information processing method
CN110062934A (zh) 使用神经网络确定图像中的结构和运动
CN110909862A (zh) 基于卷积神经网络的注意力权重计算方法和装置
CN114008663A (zh) 实时视频超分辨率
CN109643383A (zh) 域分离神经网络
CN112308322B (zh) 一种多风场时空风速预测方法、装置及电子设备
CN113034380A (zh) 一种基于改进可变形卷积校正的视频时空超分辨率方法和装置
KR102011788B1 (ko) 계층적 시각 특징을 이용한 시각 질의 응답 장치 및 방법
CN111209215B (zh) 应用程序的测试方法、装置、计算机设备及存储介质
CN110232444B (zh) 地质监测bp神经网络的优化方法、装置、设备及存储介质
CN112883227B (zh) 一种基于多尺度时序特征的视频摘要生成方法和装置
CN117597703A (zh) 用于图像分析的多尺度变换器
CN112287965A (zh) 图像质量检测模型训练方法、装置和计算机设备
CN116740422A (zh) 基于多模态注意力融合技术的遥感图像分类方法及装置
CN112242002A (zh) 基于深度学习的物体识别和全景漫游方法
CN108921801A (zh) 用于生成图像的方法和装置
KR102636866B1 (ko) 공간 분포를 이용한 휴먼 파싱 방법 및 장치
CN116519106B (zh) 一种用于测定生猪体重的方法、装置、存储介质和设备
CN110659641A (zh) 一种文字识别的方法、装置及电子设备
CN111898573A (zh) 图像预测方法、计算机设备和存储介质
KR20220018633A (ko) 이미지 검색 방법 및 장치
CN109118469B (zh) 用于视频显著性的预测方法
CN116484874A (zh) 视频生成方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant