KR20220160066A - 이미지 처리 방법 및 장치 - Google Patents

이미지 처리 방법 및 장치 Download PDF

Info

Publication number
KR20220160066A
KR20220160066A KR1020227037422A KR20227037422A KR20220160066A KR 20220160066 A KR20220160066 A KR 20220160066A KR 1020227037422 A KR1020227037422 A KR 1020227037422A KR 20227037422 A KR20227037422 A KR 20227037422A KR 20220160066 A KR20220160066 A KR 20220160066A
Authority
KR
South Korea
Prior art keywords
human body
model
image
value
result
Prior art date
Application number
KR1020227037422A
Other languages
English (en)
Inventor
하이양 젠
웨이 조우
Original Assignee
아크소프트 코포레이션 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아크소프트 코포레이션 리미티드 filed Critical 아크소프트 코포레이션 리미티드
Publication of KR20220160066A publication Critical patent/KR20220160066A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06K9/6256
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Image Generation (AREA)

Abstract

이미지 처리 방법 및 장치에 관한것으로, 이 방법은, 원본 이미지를 획득하는 단계(S102); 원본 이미지에 대해 인체 검출을 수행하여, 인체 이미지를 획득하는 단계(S104); 트레이닝된 제1 모델에 의해 인체 이미지를 처리하여, 2차원 관절점, 3차원 관절점 및 SMPL(Skinned Multi-Person Linear) 모델을 포함하는 인체 이미지의 처리 결과를 획득하는 단계(S106); 및 인체 이미지의 처리 결과에 따라 인체 모델을 생성하는 단계(S108)를 포함한다. 상기 방법은 2차원 관절점과 3차원 관절점 포지셔닝 및 인체 파라미터 재구성에 대한 인식 정확도가 낮은 과제를 해결한다.

Description

이미지 처리 방법 및 장치
본 출원은 2020년 03월 27일에 중국 특허청에 제출된 우선권 번호가 202010231605.7이고, 발명의 명칭이 “이미지 처리 방법 및 장치”인 중국 특허 출원의 우선권을 주장하는 바, 해당 출원에 개시된 모든 내용은 참조로서 본 출원에 인용된다.
본 출원은 컴퓨터 시각 기술 분야에 관한 것으로, 구체적으로, 이미지 처리 방법 및 장치에 관한 것이다.
현재, 업계 내의 인체 관련 기술에는 인체 검출, 2차원 관절점 및 3차원 관절점의 포지셔닝, 분할 등이 포함된다. 2차원 관절점 및 3차원 관절점의 포지셔닝 및 인체 파라미터 계수 재구성 등 부분에 대하여, 현재에는 다음과 같은 수단을 사용하여 구현할 수 있다. 1) 우선, 이미지에 대해 딥 러닝 수단으로 인체 검출을 수행하고, 검출이 완료된 후 인체 영역을 잘라내서, 다시 딥 러닝 네트워크에 의해 2차원 관절점을 추정한 다음, 2차원 관절점을 이용하여 3차원 관절점, 인체 포즈 및 형상 파라미터를 추정한다. 그러나, 2차원 관절점을 이용하여 3차원 관절점을 추정하면 움짐임이 모호해지게 되며, 예를 들어, 동일한 상태의 2차원 관절점은 전후의 서로 다른 3차원 관절점에 대응될 수 있고, 또한 3차원 관절점의 인식 정확도는 2차원 관절점의 인식 정확도에 의존하므로, 3차원 관절점의 인식 정확도가 낮아진다. 2) 우선, 이미지에 대해 딥 러닝 수단으로 인체 검출을 수행하고, 검출이 완료된 후 인체 영역을 잘라내서, 다시 딥 러닝 네트워크에 의해 3차원 관절점을 직접 예측하고, 3차원 관절점을 3차원 복셀 네트워크로 만들어, 각 관절의 각 복셀 네트워크의 가능성을 추측함으로써, 트레이닝 및 예측이 수행된다. 그러나, 3차원 관절점의 샘플을 획득하기 어렵고, 대부분의 트레이닝 샘플은 실험실 환경에서 수집되기 때문에, 야외 시나리오에 대한 강건성이 높지 않고, 또한 복셀 네트워크를 사용하여 예측하므로, 계산량이 크고 실시간성이 낮다. 3) 먼저 인체에 대해 검출을 수행한 후, 검출된 픽처에 대해 인물 분할 또는 해석을 수행하고, 그 다음, 분할 및 해석의 결과를 이용하여, 최적화 방법을 통해 인체 모델 추정을 수행한다. 그러나, 인체 분할 및 해석은 요구 조건이 너무 높기 때문에, 결과의 편차가 인체 재구성 효과에 영향을 미친다.
상기 수단에 존재하는 문제점에 대한 효과적인 해결 수단은 아직까지 제안되지 않은 것이 실정이다.
본 출원의 적어도 일부 실시예는, 2차원 관절점 및 3차원 관절점의 포지셔닝 및 인체 파라미터 재구성에 대한 인식 정확도가 낮은 관련 기술의 과제를 적어도 해결하기 위한 이미지 처리 방법 및 장치를 제공한다.
본 출원의 실시예의 일 측면에 따르면, 원본 이미지를 획득하는 단계; 원본 이미지에 대해 인체 검출을 수행하여, 인체 이미지를 획득하는 단계; 트레이닝된 제1 모델에 의해 인체 이미지를 처리하여, 2차원 관절점, 3차원 관절점 및 SMPL(Skinned Multi-Person Linear) 모델을 포함하는 인체 이미지의 처리 결과를 획득하는 단계; 및 인체 이미지의 처리 결과에 따라 인체 모델을 생성하는 단계를 포함하는 이미지 처리 방법을 제공한다.
선택적으로, 상기 방법은, 인체 이미지, 2차원 관절점의 제1 표기 정보, 3차원 관절점의 제2 표기 정보, 및 SMPL 모델의 파라미터 값을 각각 포함하는 복수 개 그룹의 트레이닝 샘플을 획득하는 단계; 복수 개 그룹의 트레이닝 샘플을 이용하여 사전 설정 모델을 트레이닝시키고, 사전 설정 모델의 목표 손실 값을 획득하는 단계; 목표 손실 값이 사전 설정 값보다 작을 경우, 사전 설정 모델에 대한 트레이닝을 정지하고, 사전 설정 모델을 제1 모델로 결정하는 단계; 및 목표 손실 값이 사전 설정 값보다 클 경우, 목표 손실 값이 사전 설정 값보다 작아질 때까지, 복수 개 그룹의 트레이닝 샘플을 이용하여 사전 설정 모델을 계속 트레이닝시키는 단계를 더 포함한다.
선택적으로, 복수 개 그룹의 트레이닝 샘플을 이용하여 사전 설정 모델을 트레이닝시키고, 사전 설정 모델의 목표 손실 값을 획득하는 단계는, 복수 개 그룹의 트레이닝 샘플을 사전 설정 모델에 입력하고, 2차원 관절점의 제1 결과, 3차원 관절점의 제2 결과 및 SMPL 모델의 제3 결과를 포함하는 사전 설정 모델의 출력 결과를 획득하는 단계; 제1 표기 정보 및 제1 결과를 기반으로, 2차원 관절점의 제1 손실 값을 획득하는 단계; 제2 표기 정보 및 제2 결과를 기반으로, 3차원 관절점의 제2 손실 값을 획득하는 단계; 파라미터 값 및 제3 결과를 기반으로, SMPL 모델의 제3 손실 값을 획득하는 단계; 및 제1 손실 값, 제2 손실 값 및 제3 손실 값을 기반으로, 목표 손실 값을 획득하는 단계를 포함한다.
선택적으로, SMPL 모델의 파라미터 값은 수집 장치를 통해 수집된 실제 데이터이거나, 수집 장치를 통해 수집된 파라미터 값을 조절하여 획득되는 조절 데이터이다.
선택적으로, 파라미터 값 및 제3 결과를 기반으로, SMPL 모델의 제3 손실 값을 획득하는 단계는, 파라미터 값이 수집 장치를 통해 수집된 실제 수치일 경우, 파라미터 값 및 제3 결과를 기반으로, 제3 손실 값을 획득하는 단계; 및 파라미터 값이 수집 장치를 통해 수집된 파라미터 값을 조절하여 획득되는 조절 수치일 경우, 파라미터 값을 기반으로 3차원 관절점을 획득하고, 3차원 관절점을 2차원 평면에 투영하여 2차원 관절점을 획득하며, 투영된 2차원 관절점 및 제1 표기 정보를 기반으로, 2차원 관절점의 제4 손실 값을 획득하고, 제4 손실 값을 제3 손실 값으로 결정하는 단계를 포함한다.
선택적으로, 상기 방법은, 판별기에 의해 제3 결과의 파라미터 값을 처리하여, 제3 결과의 파라미터 값이 수집 장치를 통해 수집된 실제 수치인지 여부를 나타내는 제3 결과의 파라미터 값의 분류 결과를 획득하는 단계; 및 분류 결과 및 목표 손실 값을 기반으로, 사전 설정 모델에 대한 트레이닝을 정지할지 여부를 결정하는 단계를 더 포함한다.
선택적으로, 생성적 적대 네트워크에 의해 판별기를 트레이닝시킨다.
선택적으로, 원본 이미지에 대해 인체 검출을 수행하여, 인체 이미지를 획득하는 단계는, 트레이닝된 제2 모델에 의해 원본 이미지를 처리하여, 원본 이미지에서의 인체의 위치 정보를 획득하는 단계; 및 위치 정보를 기반으로 원본 이미지에 대해 크로핑 및 정규화 처리를 수행하여, 인체 이미지를 획득하는 단계를 포함한다.
선택적으로, 제1 모델은 모래시계형 네트워크(Hourglass Network) 구조 또는 특징 피라미드 네트워크(FPN) 구조를 사용한다.
본 출원의 실시예의 다른 측면에 따르면, 원본 이미지를 획득하도록 설정되는 획득 모듈; 원본 이미지에 대해 인체 검출을 수행하여, 인체 이미지를 획득하도록 설정되는 검출 모듈; 트레이닝된 제1 모델에 의해 인체 이미지를 처리하여, 2차원 관절점, 3차원 관절점 및 SMPL(Skinned Multi-Person Linear) 모델을 포함하는 인체 이미지의 처리 결과를 획득하도록 설정되는 처리 모듈; 및 인체 이미지의 처리 결과에 따라 인체 모델을 생성하도록 설정되는 생성 모듈을 포함하는 이미지 처리 장치를 더 제공한다.
본 출원의 실시예의 다른 측면에 따르면, 저장된 프로그램을 포함하는 저장 매체로서, 프로그램이 실행될 경우, 저장 매체가 위치한 기기가 상기 이미지 처리 방법을 수행하도록 제어하는 저장 매체를 더 제공한다.
본 출원의 실시예의 다른 측면에 따르면, 프로그램을 실행하도록 설정되는 프로세서로서, 프로그램이 실행될 경우, 상기 이미지 처리 방법이 수행되는 프로세서를 더 제공한다.
본 출원의 적어도 일부 실시예에서는, 원본 이미지를 획득한 후, 먼저, 원본 이미지에 대해 인체 검출을 수행하여 인체 이미지를 획득하고, 그 다음, 트레이닝된 제1 모델에 의해 인체 이미지를 처리하여, 인체 이미지의 처리 결과를 획득함으로써, 인체 검출, 2차원 관절점 및 3차원 관절점의 포지셔닝 및 SMPL 모델 구성의 목적을 동시에 구현하여 인체 모델을 생성할 수 있다. 하나의 모델을 이용하면 2차원 관절점, 3차원 관절점 및 SMPL 모델을 동시에 획득할 수 있고, 2차원 관절점을 통해 3차원 관절점을 추정할 필요가 없어지므로, 이미지 인식 정확도를 향상시키는 기술적 효과를 달성하여, 2차원 관절점 및 3차원 관절점의 포지셔닝 및 인체 파라미터 재구성에 대한 인식 정확도가 낮은 관련 기술의 과제를 해결함을 쉽게 알 수 있다.
여기서 설명되는 도면은 본 출원을 더 잘 이해하도록 하기 위해 제공되는 것으로, 본 출원의 일부분을 구성하고, 본 출원의 예시적인 실시예 및 이에 대한 설명은 본 출원을 해석하기 위한 것으로, 본 출원을 한정하지 않는다. 도면은 다음과 같다.
도 1은 본 출원의 실시예에 따른 이미지 처리 방법의 흐름도이다.
도 2는 본 출원의 실시예에 따른 선택적인 인체 이미지의 모식도이다.
도 3은 본 출원의 실시예에 따른 선택적인 인체 모델의 모식도이다.
도 4a는 본 출원의 실시예에 따른 선택적인 평균 형상의 인체 모델의 모식도이다.
도 4b는 본 출원의 실시예에 따른 선택적인 형상 파라미터가 추가되어 생성된 인체 모델의 모식도이다.
도 4c는 본 출원의 실시예에 따른 선택적인 형상 파라미터 및 포즈 파라미터가 추가되어 생성된 인체 모델의 모식도이다.
도 4d는 본 출원의 실시예에 따른 선택적인 검출된 인체 움직임에 따라 생성된 인체 모델의 모식도이다.
도 5는 본 출원의 실시예에 따른 선택적인 이미지 처리 방법의 흐름도이다.
도 6은 본 출원의 실시예에 따른 선택적인 GAN 네트워크의 모식도이다.
도 7은 본 출원의 실시예에 따른 이미지 처리 장치의 모식도이다.
이하, 본 기술분야의 통상의 기술자가 본 출원의 수단을 더 잘 이해할 수 있도록, 본 출원의 실시예의 도면을 참조하면서 본 출원의 실시예의 기술적 해결 수단을 명확하고 완전하게 설명하기로 하며, 물론 설명되는 실시예는 본 출원의 일부 실시예일 뿐, 전부의 실시예가 아니다. 본 출원의 실시예를 기반으로, 본 기술분야의 통상의 기술자가 진보성 창출에 힘쓰지 않고 획득한 모든 다른 실시예들은 모두 본 출원의 보호 범위에 속해야 한다.
본 출원의 명세서와 특허청구범위 및 상기 도면 중의 용어 “제1”, “제2” 등은 유사한 객체를 구별하기 위한 것으로, 반드시 특정된 순서 또는 선후 순서를 설명하는데 사용되는 것은 아니다. 이렇게 사용되는 데이터는 적절한 상황에서 서로 교환되어, 여기에 설명된 본 출원의 실시예가 여기에 도시되거나 설명된 것을 제외한 순서로 구현될 수 있음을 이해해야 한다. 또한, 용어 “포함” 및 “구비” 및 이들의 임의의 변형은 비배타적 포함을 포함하도록 의도되고, 예를 들어, 일련의 단계 또는 유닛을 포함하는 과정, 방법, 시스템, 제품 또는 기기가 반드시 명확하게 나열된 단계 또는 유닛에 제한되는 것은 아니고, 명확하게 나열되지 않았거나 또는 이러한 과정, 방법, 제품 또는 기기에 고유한 다른 단계 또는 유닛을 포함할 수 있다.
실시예 1
본 출원의 실시예에 따르면, 이미지 처리 방법을 제공한다. 설명해야 할 것은, 도면의 흐름도에 도시된 단계는 한 그룹의 컴퓨터 실행 가능 명령과 같은 컴퓨터 시스템에서 수행될 수 있고, 또한, 흐름도에 논리적인 순서가 도시되었지만, 일부 경우에는 여기의 순서와 다르게, 도시 또는 설명된 단계를 수행할 수 있다.
도 1은 본 출원의 실시예에 따른 이미지 처리 방법의 흐름도이고, 도 1에 도시된 바와 같이, 상기 방법은 다음과 같은 단계 S102, S104, S106, S108을 포함한다.
단계 S102에서는, 원본 이미지를 획득한다.
상기 원본 이미지는 입력된 비디오 스트림 데이터로부터 잘라낸 이미지일 수 있고, 직접 획득한 이미지일 수도 있으며, 상기 원본 이미지에는 인체가 포함된다.
단계 S104에서는, 원본 이미지에 대해 인체 검출을 수행하여, 인체 이미지를 획득한다.
도 2에 도시된 바와 같이, 상기 인체 이미지는 원본 이미지에서 추출된 이미지로서, 완전한 인체 영역을 포함하는 최소 이미지일 수 있다.
일 선택적인 실시예에서는, 딥 러닝 모델, 예컨대 Faster RCNN(Faster Region Convolutional Neural Networks, 패스터 영역 콘볼루션 신경망), YOLO(You Only Look Once) 및 SSD(Single Shot Detector) 등 검출 프레임워크 및 이들의 변형을 사용하여 인체 검출을 수행할 수 있다. 본 기술분야의 통상의 기술자는 서로 다른 기기 및 응용 시나리오에서 서로 다른 검출 프레임워크를 선택하여, 인체 검출을 빠르고 정확하게 구현함으로써 인체 이미지를 획득할 수 있음을 이해할 수 있다.
선택적으로, 원본 이미지에 대해 인체 검출을 수행하여, 인체 이미지를 획득하는 단계는, 트레이닝된 딥 러닝 모델에 의해 원본 이미지를 처리하여, 원본 이미지에서의 인체의 위치 정보를 획득하는 단계; 및 위치 정보를 기반으로 원본 이미지에 대해 크로핑 및 정규화 처리를 수행하여, 인체 이미지를 획득하는 단계를 포함한다. 여기서, 인체 이미지 중의 인체 위치는 원본 이미지 중 완전한 인체 영역이 포함되는 최소 직사각형 바운딩 박스를 사용하여 표시될 수 있고, 2차원 좌표(left, top, bottom, right)의 형태로 표현된다.
단계 S106에서는, 트레이닝된 제1 모델에 의해 인체 이미지를 처리하여, 2차원 관절점, 3차원 관절점 및 SMPL(Skinned Multi-Person Linear) 모델을 포함하는 인체 이미지의 처리 결과를 획득한다.
선택적으로, 상기 제1 모델은 모래시계형 네트워크(Hourglass Network) 구조 또는 FPN(Feature Pyramid Networks, 특징 피라미드 네트워크) 구조를 사용할 수 있다. 예를 들어, 입력이 w*h 이미지일 때, 출력되는 특징맵은 w*h 또는 w/4*h/4인 이미지일 수 있다.
상기 관절점은 도 2에 도시된 바와 같이, 손목, 팔꿈치 등과 같은 인체의 각 관절의 위치 좌표일 수 있다.
2차원 관절점은 히트맵(Heat Map) 형태로 표시될 수 있고, 좌표 벡터 형태로 표시될 수도 있다. 여기서, 히트맵 형태의 경우, 각 관절점을 하나의 특징맵으로 표시할 수 있고, 입력되는 인체 이미지가 w*h인 이미지라고 가정하면, 출력되는 특징맵은 동일한 크기 또는 등비례로 스케일링된 이미지이며, 관절점의 위치의 특징맵의 값은 1이고, 다른 위치의 특징맵의 값은 0이다. 일 예시에서는, 인체의 2차원 관절점이 16개일 때, 16장의 w*h 또는 w/2*h/2 또는 더 작은 특징맵을 사용하여 인체의 2차원 관절점을 표시할 수 있다.
3차원 관절점도 마찬가지로 히트맵 및 좌표 벡터의 2가지 표현 방식이 있을 수 있다. 여기서, 히트맵 형태의 경우, 3차원 관절점은 2차원 관절점에 대하여, 3차원 공간에서 z축 정보가 추가되어, 히트맵을 하나의 직육면체로 확산한다.
일 선택적인 실시예에서는, 먼저, 제1 모델에 의해 인체 이미지를 처리하여, SMPL 모델의 파라미터 값을 획득하고, 그 다음, 파라미터 값을 기반으로 2차원 관절점 또는 3차원 관절점을 획득할 수 있다.
단계 S108에서는, 인체 이미지의 처리 결과에 따라 인체 모델을 생성한다.
도 3에 도시된 바와 같이, SMPL 모델은 형상(shape) 파라미터 및 포즈(pose) 파라미터를 포함할 수 있고, 형상 파라미터 및 포즈 파라미터에 따라 생성된 인체 모델은 다수의 꼭짓점 및 3차원 관절점을 포함할 수 있으며, 각 꼭짓점 및 3차원 관절점은 (x, y, z) 좌표를 포함하는 3차원 벡터이다. 도 4a 내지 도 4c는 형상 파라미터 및 포즈 파라미터에 따라 인체 모델이 생성되는 과정을 도시하고, 도 4a 는 평균 형상의 인체 모델을 표시하며, 도 4b는 평균 형상을 토대로 형상 파라미터가 추가되어 생성된 인체 모델을 표시하고, 도 4c는 평균 형상을 토대로 형상 파라미터 및 포즈 파라미터가 추가되어 생성된 인체 모델을 표시한다. 도 4d는 도 4c에서 생성된 인체 모델을 토대로, 검출된 인체 움직임에 따라 생성된 인체 모델을 표시한다. 도 4b와 도 4c의 비교를 통해, 양자의 차이가 너무 크지 않으므로 일부 응용에서는 형상 파라미터에만 따라 인체 모델을 생성하여 인체 모델링을 구현할 수 있다는 것을 보아낼 수 있다.
본 출원의 상기 실시예를 통해, 원본 이미지를 획득한 후, 먼저, 원본 이미지에 대해 인체 검출을 수행하여 인체 이미지를 획득하고, 그 다음, 트레이닝된 제1 모델에 의해 인체 이미지를 처리하여, 인체 이미지의 처리 결과를 획득함으로써, 인체 검출, 2차원 관절점 및 3차원 관절점의 포지셔닝 및 SMPL 모델 구성의 목적을 동시에 구현하여 인체 모델을 생성할 수 있다. 하나의 모델을 이용하면 2차원 관절점, 3차원 관절점 및 SMPL 모델을 동시에 획득할 수 있고, 2차원 관절점을 통해 3차원 관절점을 추정할 필요가 없어지므로, 이미지 인식 정확도를 향상시키는 기술적 효과를 달성하여, 2차원 관절점 및 3차원 관절점의 포지셔닝 및 인체 파라미터 재구성에 대한 인식 정확도가 낮은 관련 기술의 과제를 해결함을 쉽게 알 수 있다.
첫 번째 응용 시나리오에서는, 인체 움직임을 실시간으로 검출하여 인체 애니메이션(AVATAR) 모델을 구동할 수 있고, 예를 들어, 2차원 관절점 및 3차원 관절점을 기반으로 인체 움직임을 캡쳐하여, 인체 애니메이션 모델이 인체 움직임에 따라 상응한 움직임을 수행하도록 하여 인터랙션을 구현한다.
두 번째 응용 시나리오에서는, 처리 결과 중의 2차원 관절점 및 3차원 관절점에 따라 인체 슬리밍 등 편집 목적을 달성할 수 있고, 예를 들어, 인체 이미지의 팔, 다리, 신체 등 상응한 위치의 이미지 픽셀을 처리하여, 팔 슬리밍, 다리 슬리밍, 허리 슬리밍 등 이미지 처리 효과를 달성한다.
선택적으로, 본 출원의 상기 실시예에서는, 상기 이미지 처리 방법은, 인체 이미지, 2차원 관절점의 제1 표기 정보, 3차원 관절점의 제2 표기 정보, 및 SMPL 모델의 파라미터 값을 각각 포함하는 복수 개 그룹의 트레이닝 샘플을 획득하는 단계; 복수 개 그룹의 트레이닝 샘플을 이용하여 사전 설정 모델을 트레이닝시키고, 사전 설정 모델의 목표 손실 값을 획득하는 단계; 목표 손실 값이 사전 설정 값보다 작을 경우, 사전 설정 모델에 대한 트레이닝을 정지하고, 사전 설정 모델을 제1 모델로 결정하는 단계; 및 목표 손실 값이 사전 설정 값보다 클 경우, 목표 손실 값이 사전 설정 값보다 작아질 때까지, 복수 개 그룹의 트레이닝 샘플을 이용하여 사전 설정 모델을 계속 트레이닝시키는 단계를 더 포함한다. 목표 손실 값이 작을수록 인식 정확도가 더 높고, 상기 사전 설정 값은 이미지 인식 정확도 및 효율의 요구에 따라 미리 설정될 수 있으며, 상기 사전 설정 값을 통해 모델의 트레이닝 완료 여부를 결정할 수 있다.
선택적으로, 복수 개 그룹의 트레이닝 샘플을 이용하여 사전 설정 모델을 트레이닝시키고, 사전 설정 모델의 목표 손실 값을 획득하는 단계는, 복수 개 그룹의 트레이닝 샘플을 사전 설정 모델에 입력하고, 2차원 관절점의 제1 결과, 3차원 관절점의 제2 결과 및 SMPL 모델의 제3 결과를 포함하는 사전 설정 모델의 출력 결과를 획득하는 단계; 제1 표기 정보 및 제1 결과를 기반으로, 2차원 관절점의 제1 손실 값을 획득하는 단계; 제2 표기 정보 및 제2 결과를 기반으로, 3차원 관절점의 제2 손실 값을 획득하는 단계; 파라미터 값 및 제3 결과를 기반으로, SMPL 모델의 제3 손실 값을 획득하는 단계; 및 제1 손실 값, 제2 손실 값 및 제3 손실 값을 기반으로, 목표 손실 값을 획득하는 단계를 포함한다.
선택적으로, 본 출원의 상기 실시예에서는, 상기 이미지 처리 방법은, 트레이닝 샘플에 대해 2차원 관절점의 제1 표기 정보, 3차원 관절점의 제2 표기 정보를 라벨링하는 단계를 더 포함한다.
일 선택적인 실시예에서는, 2차원 관절점의 경우, 제1 손실 값은 예측된 히트맵(즉 제1 결과) 및 라벨이 표기된 히트맵(즉 제1 표기 정보)을 기반으로 획득되거나, 예측된 좌표 벡터(즉 제1 결과) 및 라벨이 표기된 좌표 벡터(즉 제1 표기 정보)를 기반으로 획득되거나, 히트맵 및 좌표 벡터의 종합 정보를 기반으로 획득될 수 있다.
3차원 관절점도 마찬가지로, 제2 손실 값은 예측된 히트맵(즉 제2 결과) 및 라벨이 표기된 히트맵(즉 제2 표기 정보)을 기반으로 획득되거나, 예측된 좌표 벡터(즉 제2 결과) 및 라벨이 표기된 좌표 벡터(즉 제2 표기 정보)를 기반으로 획득되거나, 히트맵 및 좌표 벡터의 종합 정보를 기반으로 획득될 수 있다.
여기서, 좌표 벡터 방식을 사용하면 히트맵 방식보다 계산하기 더 편리하다.
선택적으로, 상기 SMPL 모델의 파라미터 값은 수집 장치를 통해 수집된 실제 수치이거나, 수집 장치를 통해 수집된 파라미터 값을 조절하여 획득되는 조절 수치일 수 있다. 일 선택적인 실시예에서는, 실제 수치 및 조절 수치를 통해 SMPL 모델의 파라미터 값을 예측할 수 있고, 실제 데이터의 가중치가 큰 편이고, 조절 수치의 가중치가 작은 편이다.
상기 수집 장치는 실험실 환경 또는 야외 환경에서 다수의 고정 위치에 설치된 카메라 또는 센서일 수 있다.
실험실 환경에서 수집된 데이터로만 정확하고 진실된 SMPL 모델의 파라미터 값을 획득할 수 있기 때문에, 야외 환경에서 수집된 데이터는 정확한 SMPL 모델의 파라미터 값을 획득할 수 없다. 따라서, 실제 계산에서는, SMPL 모델은 파라미터 값의 유형을 기반으로, 서로 다른 방식을 사용하여 제3 손실 값을 계산할 수 있다. 선택적으로, 파라미터 값이 수집 장치를 통해 수집된 실제 수치일 경우, 직접 회귀 방식을 사용하여 제3 손실 값을 계산할 수 있고, 즉 파라미터 값 및 제3 결과를 기반으로, 제3 손실 값을 획득하며; 파라미터 값이 수집 장치를 통해 수집된 파라미터 값을 조절하여 획득되는 조절 수치일 경우, SMPL 모델의 파라미터 값에 따라 3차원 관절점을 획득하고, 3차원 관절점을 2차원 평면에 투영하여 2차원 관절점을 획득하며, 투영된 2차원 관절점 및 제1 표기 정보를 기반으로 2차원 관절점의 제4 손실 값을 계산하고, 상기 손실 값을 제3 손실 값으로 사용하며, SMPL 모델의 파라미터 공간으로 돌려보냄으로써, SMPL 모델의 파라미터 값을 업데이트할 수 있다.
트레이닝 과정에서는, 목표 손실 값은 제1 손실 값, 제2 손실 값 및 제3 손실 값의 종합이고, 가중합을 구하는 방식을 통해 계산하여 얻을 수 있다.
일 선택적인 실시예에서는, 모델 트레이닝 과정에서, 2차원 관절점, 3차원 관절점 및 SMPL 모델의 파라미터는 동시에 학습을 수행할 수 있고, 전체가 회귀되어 모델을 생성한다, 또한, 도 5에 도시된 바와 같이, SMPL 모델 판별기를 사용하여 SMPL 모델의 파라미터 값을 판별할 수 있고, 파라미터 값이 네트워크를 통해 랜덤으로 생성된 수치인지 아니면 수집된 실제 수치인지 판정함으로써, 모델 효과의 진실성을 향상시킨다. 선택적으로, SMPL 모델 판별기는 제3 결과(즉 사전 설정 모델에 의해 출력된 SMPL 모델)의 파라미터 값을 처리하여, 제3 결과의 파라미터 값이 수집 장치를 통해 수집된 실제 수치인지 여부를 나타내는 제3 결과의 파라미터 값의 분류 결과를 획득하며; 상기 분류 결과 및 목표 손실 값을 기반으로, 사전 설정 모델에 대한 트레이닝을 정지할지 여부를 결정한다. 여기서, 생성적 적대 네트워크(Generative Adversarial Network, GAN) 중의 D 판별기를 SMPL 모델 판별기로 사용할 수 있다.
일 선택적인 실시예에서는, 야외 환경에서 수집된 데이터가 정확한 SMPL 모델의 파라미터 값을 획득할 수 없으므로, 정상이 아닌 파라미터 값이 생성될 수 있고, 상기 문제점을 해결하기 위해, 본 출원의 실시예에서는 GAN 네트워크를 추가하여 SMPL 모델 판별기(즉 D 판별기)를 트레이닝시키며, 도 6에 도시된 바와 같이, GAN 네트워크는 G 생성기 및 D 판별기를 포함하고, D 판별기는 하나의 이진 분류 네트워크이며, G 생성기에 의해 랜덤으로 생성된 수치 및 수집된 실제 수치를 수신하고, 데이터 진실성을 표시하는 라벨을 출력하며, 예를 들어, 실제 수치가 수신될 경우, 출력은 포지티브 라벨(일반적으로, 포지티브 라벨은 1로 설정됨)에 가깝고, G 생성기에 의해 랜덤으로 생성된 수치가 수신될 경우, 출력은 네거티브 라벨(일반적으로, 네거티브 라벨은 0으로 설정됨)에 가까우며, D 판별기를 통해 랜덤으로 생성된 수치 및 실체 수치의 차이를 설명한 다음, 상기 차이에 따라 G 생성기에 의해 랜덤으로 생성된 수치의 가중치를 업데이트하여, G 생성기에 의해 랜덤으로 생성된 수치가 실제 수치에 더 가깝도록 하고, D 판별기가 랜덤으로 생성된 수치 및 실제 수치를 구별하는 능력을 향상시킨다.
실시예 2
본 출원의 실시예에 따르면, 이미지 처리 장치를 제공한다. 이 장치는 상기 실시예 1에 기재된 이미지 처리 방법을 수행할 수 있으며, 이 실시예 중의 바람직한 실시예 및 응용 시나리오는 상기 실시예 1과 동일하므로, 여기서 설명을 생략한다.
도 7은 본 출원의 실시예에 따른 이미치 처리 장치의 모식도이고, 도 7에 도시된 바와 같이, 이 장치는,
원본 이미지를 획득하도록 설정되는 획득 모듈(72);
원본 이미지에 대해 인체 검출을 수행하여, 인체 이미지를 획득하도록 설정되는 검출 모듈(74);
트레이닝된 제1 모델에 의해 인체 이미지를 처리하여, 2차원 관절점, 3차원 관절점 및 SMPL 모델의 파라미터 값을 포함하는 인체 이미지의 처리 결과를 획득하도록 설정되는 처리 모듈(76); 및
인체 이미지의 처리 결과에 따라 인체 모델을 생성하도록 설정되는 생성 모듈(78)을 포함한다.
여기서, 설명해야 할 것은, 상기 획득 모듈(72), 검출 모듈(74), 처리 모듈(76) 및 생성 모듈(78)은 장치의 일부분으로서 컴퓨터 단말기에서 작동될 수 있고, 컴퓨터 단말기 중의 프로세서를 통해 상기 모듈에 의해 구현되는 기능을 수행할 수 있으며, 컴퓨터 단말기는 스마트폰(예컨대, Android 휴대폰, iOS 휴대폰 등), 태블릿 PC, 개인 휴대 정보 단말기 및 모바일 인터넷 기기(Mobile Internet Devices, MID), PAD 등 단말 기기일 수도 있다.
선택적으로, 본 출원의 상기 실시예에서는, 상기 장치는, 인체 이미지, 2차원 관절점의 제1 표기 정보, 3차원 관절점의 제2 표기 정보, 및 SMPL 모델의 파라미터 값을 각각 포함하는 복수 개 그룹의 트레이닝 샘플을 획득하도록 더 설정되는 획득 모듈; 복수 개 그룹의 트레이닝 샘플을 이용하여 사전 설정 모델을 트레이닝시키고, 사전 설정 모델의 목표 손실 값을 획득하도록 설정되는 트레이닝 모듈; 목표 손실 값이 사전 설정 값보다 작을 경우, 사전 설정 모델에 대한 트레이닝을 정지하고, 사전 설정 모델을 제1 모델로 결정하도록 설정되는 트레이닝 정지 모듈을 더 포함하고; 트레이닝 모듈은 또한, 목표 손실 값이 사전 설정 값보다 클 경우, 목표 손실 값이 사전 설정 값보다 작아질 때까지, 복수 개 그룹의 트레이닝 샘플을 이용하여 사전 설정 모델을 계속 트레이닝시키도록 설정된다.
여기서, 설명해야 할 것은, 상기 획득 모듈, 트레이닝 모듈 및 트레이닝 정지 모듈은 장치의 일부분으로서 컴퓨터 단말기에서 작동될 수 있고, 컴퓨터 단말기 중의 프로세서를 통해 상기 모듈에 의해 구현되는 기능을 수행할 수 있으며, 컴퓨터 단말기는 스마트폰(예컨대, Android 휴대폰, iOS 휴대폰 등), 태블릿 PC, 개인 휴대 정보 단말기 및 모바일 인터넷 기기, PAD 등 단말 기기일 수도 있다.
선택적으로, 트레이닝 모듈은, 복수 개 그룹의 트레이닝 샘플을 사전 설정 모델에 입력하고, 2차원 관절점의 제1 결과, 3차원 관절점의 제2 결과 및 SMPL 모델의 제3 결과를 포함하는 사전 설정 모델의 출력 결과를 획득하도록 설정되는 획득 유닛; 제1 표기 정보 및 제1 결과를 기반으로, 2차원 관절점의 제1 손실 값을 획득하도록 설정되는 제1 처리 유닛; 제2 표기 정보 및 제2 결과를 기반으로, 3차원 관절점의 제2 손실 값을 획득하도록 설정되는 제2 처리 유닛; 파라미터 값 및 제3 결과를 기반으로, SMPL 모델의 제3 손실 값을 획득하도록 설정되는 제3 처리 유닛; 및 제1 손실 값, 제2 손실 값 및 제3 손실 값을 기반으로, 목표 손실 값을 획득하도록 설정되는 제4 처리 유닛을 포함한다.
여기서, 설명해야 할 것은, 상기 획득 유닛, 제1 처리 유닛, 제2 처리 유닛, 제3 처리 유닛 및 제4 처리 유닛은 장치의 일부분으로서 컴퓨터 단말기에서 작동될 수 있고, 컴퓨터 단말기 중의 프로세서를 통해 상기 모듈에 의해 구현되는 기능을 수행할 수 있으며, 컴퓨터 단말기는 스마트폰(예컨대, Android 휴대폰, iOS 휴대폰 등), 태블릿 PC, 개인 휴대 정보 단말기 및 모바일 인터넷 기기, PAD 등 단말 기기일 수도 있다.
선택적으로, 제3 처리 유닛은 또한, 파라미터 값이 수집 장치를 통해 수집될 경우, 파라미터 값 및 제3 결과를 기반으로, 제3 손실 값을 획득하고; 파라미터 값이 수집 장치를 통해 수집된 파라미터 값을 조절하여 획득될 경우, 파라미터 값을 기반으로 3차원 관절점을 획득하고, 3차원 관절점을 2차원 평면에 투영하여 2차원 관절점을 획득하며, 투영된 2차원 관절점 및 제1 표기 정보를 기반으로, 2차원 관절점의 제4 손실 값을 획득하고, 제4 손실 값을 제3 손실 값으로 결정하도록 설정된다.
선택적으로, 상기 장치는, 판별기에 의해 제3 결과의 파라미터 값을 처리하여, 제3 결과의 파라미터 값이 수집 장치를 통해 수집된 실제 수치인지 여부를 나타내는 제3 결과의 파라미터 값의 분류 결과를 획득하도록 더 설정되는 처리 모듈; 및 분류 결과 및 목표 손실 값을 기반으로, 사전 설정 모델에 대한 트레이닝을 정지할지 여부를 결정하도록 더 설정되는 트레이닝 정지 모듈을 더 포함한다.
선택적으로, 트레이닝 모듈은 또한, 생성적 적대 네트워크에 의해 판별기를 트레이닝시키도록 설정된다.
선택적으로, 검출 모듈은, 트레이닝된 제2 모델에 의해 원본 이미지를 처리하여, 원본 이미지에서의 인체의 위치 정보를 획득하도록 설정되는 검출 유닛; 및 위치 정보를 기반으로 원본 이미지에 대해 크로핑 및 정규화 처리를 수행하여, 인체 이미지를 획득하도록 설정되는 제5 처리 유닛을 포함한다.
여기서, 설명해야 할 것은, 상기 검출 유닛 및 제5 처리 유닛은 장치의 일부분으로서 컴퓨터 단말기에서 실행될 수 있고, 컴퓨터 단말기 중의 프로세서를 통해 상기 모듈에 의해 구현되는 기능을 수행할 수 있으며, 컴퓨터 단말기는 스마트폰(예컨대, Android 휴대폰, iOS 휴대폰 등), 태블릿 PC, 개인 휴대 정보 단말기 및 모바일 인터넷 기기, PAD 등 단말 기기일 수도 있다.
본 출원의 실시예에 의해 제공되는 각 기능 유닛은 이동 단말기, 컴퓨터 단말기 또는 유사한 연산 장치에서 작동될 수 있고, 저장 매체의 일부분으로서 저장될 수도 있다.
이에 따라, 본 출원의 실시예는 컴퓨터 단말기를 제공할 수 있고, 상기 컴퓨터 단말기는 컴퓨터 단말기 클러스터 중 어느 하나의 컴퓨터 단말 기기일 수 있다. 선택적으로, 본 실시예에서는, 상기 컴퓨터 단말기는 이동 단말기 등과 같은 단말 기기로 대체될 수도 있다.
선택적으로, 본 실시예에서는, 상기 컴퓨터 단말기는 컴퓨터 네트워크의 다수의 네트워크 기기 중 적어도 하나의 네트워크 기기에 위치할 수 있다.
본 실시예에서는, 상기 컴퓨터 단말기는 이미지 처리 방법 중의 원본 이미지를 획득하는 단계; 원본 이미지에 대해 인체 검출을 수행하여, 인체 이미지를 획득하는 단계; 트레이닝된 제1 모델에 의해 인체 이미지를 처리하여, 2차원 관절점, 3차원 관절점 및 SMPL(Skinned Multi-Person Linear) 모델을 포함하는 인체 이미지의 처리 결과를 획득하는 단계; 및 인체 이미지의 처리 결과에 따라 인체 모델을 생성하는 단계; 의 프로그램 코드를 실행할 수 있다.
선택적으로, 상기 컴퓨터 단말기는 하나 또는 다수의 프로세서, 메모리 및 전송 장치를 포함할 수 있다.
여기서, 메모리는 본 출원의 실시예의 이미지 처리 방법 및 장치에 대응되는 프로그램 명령/모듈과 같은 소프트웨어 프로그램 및 모듈을 저장할 수 있고, 프로세서는 메모리에 저장된 소프트웨어 프로그램 및 모듈을 실행함으로써, 다양한 기능 애플리케이션 및 데이터 처리를 수행하여 상기 이미치 처리 방법을 구현한다. 메모리는 고속 랜덤 액세스 메모리를 포함할 수 있고, 하나 또는 다수의 자기 저장 장치, 플래시 메모리, 또는 다른 비휘발성 고체 상태 메모리와 같은 비휘발성 메모리를 더 포함할 수 있다. 일부 구현예에서는, 메모리는 프로세서에 대해 원격으로 설치된 메모리를 더 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 단말기에 연결될 수 있다. 상기 네트워크의 구현예로 인터넷, 인트라넷, 근거리 통신망, 이동 통신망 및 이들의 조합을 포함하지만 이에 한정되지 않는다.
상기 전송 장치는 하나의 네트워크를 거쳐 데이터를 수신 또는 송신한다. 상기 네트워크의 구체적인 구현예는 유선 네트워크 및 무선 네트워크를 포함할 수 있다. 일 구현예에서는, 전송 장치는 인터넷 케이블을 통해 다른 네트워크와 라우터와 연결됨으로써 인터넷 또는 근거리 통신망과 통신할 수 있는 하나의 네트워크 어댑터(Network Interface Controller, NIC)를 포함한다. 일 구현예에서는, 전송 장치는 무선 방식으로 인터넷과 통신하는 무선 주파수(Radio Frequency, RF) 모듈이다.
여기서, 구체적으로, 메모리에는 제1 모델, SMPL(Skinned Multi-Person Linear) 모델, 처리 결과, 및 응용 프로그램이 저장된다.
프로세서는 전송 장치를 통해 메모리에 저장된 정보 및 응용 프로그램을 호출하여, 상기 방법 실시예의 각각의 선택적이거나 바람직한 실시예의 방법 단계의 프로그램 코드를 실행할 수 있다.
본 기술분야의 통상의 기술자라면 컴퓨터 단말기가 스마트폰(예컨대, Android 휴대폰, iOS 휴대폰 등), 태블릿 PC, 개인 휴대 정보 단말기 및 모바일 인터넷 기기, PAD 등 단말 기기일 수도 있음을 이해할 수 있다.
본 기술분야의 통상의 기술자라면, 상기 실시예의 다양한 방법 중의 전부 또는 일부 단계가 프로그램을 통해 단말 기기와 관련되는 하드웨어를 명령함으로써 완료될 수 있고, 상기 프로그램은 하나의 컴퓨터 판독 가능 메모리에 저장될 수 있으며, 저장 매체는 USB 메모리, 판독 전용 메모리(Read-Only Memory, ROM), 랜덤 액세스 메모리(Random Access Memory, RAM), 자기 디스크 또는 광 디스크 등을 포함할 수 있음을 이해할 수 있다.
실시예 3
본 출원의 실시예에 따르면, 컴퓨터 판독 가능 저장 매체를 제공한다. 컴퓨터 판독 가능 저장 매체는 저장된 프로그램을 포함하며, 프로그램이 실행될 경우, 컴퓨터 판독 가능 저장 매체가 위치한 기기가 상기 실시예 1의 이미지 처리 방법을 수행하도록 제어한다.
선택적으로, 본 실시예에서는, 상기 컴퓨터 판독 가능 저장 매체는 컴퓨터 네트워크 중 컴퓨터 단말기 클러스터 중 어느 하나의 컴퓨터 단말기에 위치하거나, 또는 이동 단말기 클러스터 중 어느 하나의 이동 단말기에 위치할 수 있다.
선택적으로, 본 실시예에서는, 컴퓨터 판독 가능 저장 매체는, 원본 이미지를 획득하는 단계; 원본 이미지에 대해 인체 검출을 수행하여, 인체 이미지를 획득하는 단계; 트레이닝된 제1 모델에 의해 인체 이미지를 처리하여, 2차원 관절점, 3차원 관절점 및 SMPL(Skinned Multi-Person Linear) 모델을 포함하는 인체 이미지의 처리 결과를 획득하는 단계; 및 인체 이미지의 처리 결과에 따라 인체 모델을 생성하는 단계; 를 수행하기 위한 프로그램 코드가 저장되도록 설정된다.
선택적으로, 본 실시예에서는, 컴퓨터 판독 가능 저장 매체는 또한, 이미지 처리 방법에 의해 제공되는 다양한 바람직하거나 선택적인 방법 단계의 프로그램 코드를 저장하도록 설정될 수 있다.
이상, 도면을 참조하면서 예시 방식으로 본 발명에 따른 이미지 처리 방법 및 장치를 설명하였다. 그러나, 본 기술분야의 통상의 기술자라면, 본 발명에 의해 제안된 상기 이미지 처리 방법 및 장치는 본 발명의 내용을 벗어나지 않는 전제 하에 다양한 개선이 이루어질 수도 있음을 이해해야 한다. 따라서, 본 발명의 보호 범위는 첨부된 특허청구범위의 내용에 의해 결정되어야 한다.
실시예 4
본 출원의 실시예에 따르면, 프로세서를 제공한다. 프로세서는 프로그램을 실행하도록 설정되며, 프로그램이 실행될 경우, 상기 실시예 1의 이미치 처리 방법이 수행된다.
상기 본 출원의 실시예의 번호는 설명을 위한 것일 뿐, 실시예의 우열을 의미하지 않는다.
본 출원의 상기 실시예에서는, 각 실시예에 대한 설명은 각각 중점을 갖고 있으며, 일부 실시예에서 상세하게 설명되지 않은 부분은 다른 실시예의 관련 설명을 참조할 수 있다.
본 출원에서 제공된 각 실시예에서는, 개시된 기술적 내용은 다른 방식으로 구현될 수 있음을 이해해야 할 것이다. 여기서, 이상에서 설명된 장치 실시예는 단지 예시적인 것이고, 예를 들면, 상기 유닛의 구획은 단지 논리적 기능 구획일 뿐이고, 실제 구현 시 다른 구획 방식이 있을 수 있으며, 예를 들면, 다수의 유닛 또는 컴포넌트는 다른 하나의 시스템에 결합 또는 집적될 수 있거나, 일부 특징은 생략되거나 실행되지 않을 수 있다. 또한, 표시 또는 논의된 서로 간의 커플링 또는 직접 커플링 또는 통신 연결은 일부 통신 인터페이스를 통한 것일 수 있고, 유닛 또는 모듈의 간접 커플링 또는 통신 연결은 전기적, 기계적 또는 다른 형식일 수 있다.
분리 부재로서 설명되는 상기 유닛은 물리적으로 분리된 것일 수 있거나 아닐 수도 있고, 유닛으로서 표시되는 부재는 물리 유닛일 수 있거나 아닐 수도 있으며, 즉 한 곳에 위치할 수 있거나 또는 다수의 유닛에 분포될 수도 있다. 실제 수요에 따라 그 중의 일부 또는 전부 유닛을 선택하여 본 실시예의 수단의 목적을 구현할 수 있다.
또한, 본 출원의 각 실시예 중의 각 기능 유닛은 하나의 처리 유닛에 집적될 수 있고, 각 유닛이 별도로 물리적으로 존재할 수도 있으며, 2개 또는 2개 이상의 유닛이 하나의 유닛에 집적될 수도 있다. 상기 집적된 유닛은 하드웨어 형태로 구현될 수 있고, 소프트웨어 기능 유닛의 형태로 구현될 수도 있다.
상기 집적된 유닛이 소프트웨어 기능 유닛의 형태로 구현되고, 독립적인 제품으로 판매되거나 사용될 때, 하나의 컴퓨터 판독 가능 저장 매체에 저장될 수 있다. 이러한 이해에 기반하면, 본 출원의 기술적 해결 수단은 본질적으로 또는 종래 기술에 대해 기여하는 부분 또는 상기 기술적 해결 수단의 전부 또는 일부는 소프트웨어 제품 형태로 구현될 수 있고, 상기 컴퓨터 소프트웨어 제품은 하나의 컴퓨터 기기(개인용 컴퓨터, 서버, 또는 네트워크 기기 등일 수 있음)가 본 출원의 각 실시예에 따른 방법의 전부 또는 일부 단계를 수행하도록 하는 다수의 명령을 포함하는 하나의 저장 매체에 저장된다. 전술한 저장 매체는 USB 메모리, 판독 전용 메모리(ROM, Read-Only Memory), 랜덤 액세스 메모리(RAM, Random Access Memory), 이동식 하드 디스크, 자기 디스크 또는 광 디스크 등 프로그램 코드를 저장할 수 있는 다양한 매체를 포함한다.
이상은 본 출원의 바람직한 실시형태일뿐, 본 기술분야의 통상의 기술자라면 본 출원의 원리를 벗어나지 않는 전제 하에 다양한 개선 또는 수정도 가능하며, 이러한 개선 및 수정도 본 출원의 보호 범위에 포함되는 것으로 간주되어야 한다.
전술한 바와 같이, 본 출원의 적어도 일부 실시예에 의해 제공되는 이미지 처리 방법 및 장치는 다음과 같은 유익한 효과를 갖는다. 하나의 모델을 이용하면 2차원 관절점, 3차원 관절점 및 SMPL 모델을 동시에 획득할 수 있고, 2차원 관절점을 통해 3차원 관절점을 추정할 필요가 없어지므로, 이미지 인식 정확도를 향상시키는 기술적 효과를 달성하여, 2차원 관절점 및 3차원 관절점의 포지셔닝 및 인체 파라미터 재구성에 대한 인식 정확도가 낮은 관련 기술의 과제를 해결함을 쉽게 알 수 있다.

Claims (17)

  1. 이미지 처리 방법으로서,
    원본 이미지를 획득하는 단계;
    상기 원본 이미지에 대해 인체 검출을 수행하여, 인체 이미지를 획득하는 단계;
    트레이닝된 제1 모델에 의해 상기 인체 이미지를 처리하여, 2차원 관절점, 3차원 관절점 및 SMPL(Skinned Multi-Person Linear) 모델을 포함하는 상기 인체 이미지의 처리 결과를 획득하는 단계; 및
    상기 인체 이미지의 처리 결과에 따라 인체 모델을 생성하는 단계; 를 포함하는 이미지 처리 방법.
  2. 제1항에 있어서,
    인체 이미지, 2차원 관절점의 제1 표기 정보, 3차원 관절점의 제2 표기 정보, 및 SMPL 모델의 파라미터 값을 각각 포함하는 복수 개 그룹의 트레이닝 샘플을 획득하는 단계;
    상기 복수 개 그룹의 트레이닝 샘플을 이용하여 사전 설정 모델을 트레이닝시키고, 상기 사전 설정 모델의 목표 손실 값을 획득하는 단계;
    상기 목표 손실 값이 사전 설정 값보다 작을 경우, 상기 사전 설정 모델에 대한 트레이닝을 정지하고, 상기 사전 설정 모델을 상기 제1 모델로 결정하는 단계; 및
    상기 목표 손실 값이 상기 사전 설정 값보다 클 경우, 상기 목표 손실 값이 상기 사전 설정 값보다 작아질 때까지, 상기 복수 개 그룹의 트레이닝 샘플을 이용하여 상기 사전 설정 모델을 계속 트레이닝시키는 단계; 를 더 포함하는 방법.
  3. 제2항에 있어서,
    상기 복수 개 그룹의 트레이닝 샘플을 이용하여 사전 설정 모델을 트레이닝시키고, 상기 사전 설정 모델의 목표 손실 값을 획득하는 단계는,
    상기 복수 개 그룹의 트레이닝 샘플을 상기 사전 설정 모델에 입력하고, 상기 2차원 관절점의 제1 결과, 상기 3차원 관절점의 제2 결과 및 SMPL 모델의 제3 결과를 포함하는 상기 사전 설정 모델의 출력 결과를 획득하는 단계;
    상기 제1 표기 정보 및 상기 제1 결과를 기반으로, 상기 2차원 관절점의 제1 손실 값을 획득하는 단계;
    상기 제2 표기 정보 및 상기 제2 결과를 기반으로, 상기 3차원 관절점의 제2 손실 값을 획득하는 단계;
    상기 파라미터 값 및 상기 제3 결과를 기반으로, 상기 SMPL 모델의 제3 손실 값을 획득하는 단계; 및
    상기 제1 손실 값, 상기 제2 손실 값 및 상기 제3 손실 값을 기반으로, 상기 목표 손실 값을 획득하는 단계; 를 포함하는 방법.
  4. 제3항에 있어서,
    상기 SMPL 모델의 파라미터 값은 수집 장치를 통해 수집된 실제 수치이거나, 상기 수집 장치를 통해 수집된 파라미터 값을 조절하여 획득되는 조절 수치인 방법.
  5. 제4항에 있어서,
    상기 파라미터 값 및 상기 제3 결과를 기반으로, 상기 SMPL 모델의 제3 손실 값을 획득하는 단계는,
    상기 파라미터 값이 상기 수집 장치를 통해 수집된 실제 수치일 경우, 상기 파라미터 값 및 상기 제3 결과를 기반으로, 상기 제3 손실 값을 획득하는 단계; 및
    상기 파라미터 값이 상기 수집 장치를 통해 수집된 파라미터 값을 조절하여 획득되는 조절 수치일 경우, 상기 파라미터 값을 기반으로 3차원 관절점을 획득하고, 상기 3차원 관절점을 2차원 평면에 투영하여 2차원 관절점을 획득하며, 투영된 2차원 관절점 및 상기 제1 표기 정보를 기반으로, 상기 2차원 관절점의 제4 손실 값을 획득하고, 상기 제4 손실 값을 상기 제3 손실 값으로 결정하는 단계를 포함하는 방법.
  6. 제3항에 있어서,
    판별기에 의해 상기 제3 결과의 파라미터 값을 처리하여, 상기 제3 결과의 파라미터 값이 수집 장치를 통해 수집된 실제 수치인지 여부를 나타내는 상기 제3 결과의 파라미터 값의 분류 결과를 획득하는 단계; 및
    상기 분류 결과 및 상기 목표 손실 값을 기반으로, 상기 사전 설정 모델에 대한 트레이닝을 정지할지 여부를 결정하는 단계를 더 포함하는 방법.
  7. 재6항에 있어서,
    생성적 적대 네트워크를 이용하여 상기 판별기를 트레이닝시키는 방법.
  8. 제1항에 있어서,
    상기 원본 이미지에 대해 인체 검출을 수행하여, 인체 이미지를 획득하는 단계는,
    트레이닝된 제2 모델에 의해 상기 원본 이미지를 처리하여, 상기 원본 이미지에서의 인체의 위치 정보를 획득하는 단계; 및
    상기 위치 정보를 기반으로 상기 원본 이미지에 대해 크로핑 및 정규화 처리를 수행하여, 상기 인체 이미지를 획득하는 단계; 를 포함하는 방법.
  9. 제1항에 있어서,
    상기 제1 모델은 모래시계형 네트워크(Hourglass Network) 구조 또는 특징 피라미드 네트워크(FPN) 구조를 사용하는 방법.
  10. 제1항에 있어서,
    트레이닝된 제1 모델에 의해 상기 인체 이미지를 처리하여, 상기 인체 이미지의 처리 결과를 획득하는 단계는,
    상기 제1 모델에 의해 상기 인체 이미지를 처리하여, 상기 SMPL 모델을 획득하는 단계; 및
    상기 SMPL 모델을 기반으로 상기 2차원 관절점 또는 상기 3차원 관절점을 획득하는 단계; 를 포함하는 방법.
  11. 제1항에 있어서,
    상기 2차원 관절점은 히트맵 형태 또는 좌표 벡터 형태로 표현되고, 상기 3차원 관절점은 히트맵 형태 또는 좌표 벡터 형태로 표현되는 방법.
  12. 제1항에 있어서,
    상기 인체 이미지의 처리 결과에 따라 인체 모델을 생성하는 단계 이후,
    상기 2차원 관절점 및 상기 3차원 관절점을 기반으로 인체 움직임을 캡쳐하는 단계; 및
    상기 인체 움직임을 기반으로 인체 애니메이션 모델을 구동하는 단계; 를 더 포함하는 방법.
  13. 제1항에 있어서,
    상기 인체 이미지의 처리 결과에 따라 인체 모델을 생성하는 단계 이후,
    상기 2차원 관절점 및 상기 3차원 관절점을 기반으로, 상기 인체 이미지의 목표 위치의 이미지 픽셀을 처리하는 단계; 를 더 포함하는 방법.
  14. 제4항에 있어서,
    상기 SMPL 모델의 파라미터 값은 가중치가 상기 조절 수치의 가중치보다 큰 상기 실제 수치 및 상기 조절 수치를 통해 예측하여 획득된 것인 방법.
  15. 이미지 처리 장치로서,
    원본 이미지를 획득하도록 설정되는 획득 모듈;
    상기 원본 이미지에 대해 인체 검출을 수행하여, 인체 이미지를 획득하도록 설정되는 검출 모듈;
    트레이닝된 제1 모델에 의해 상기 인체 이미지를 처리하여, 2차원 관절점, 3차원 관절점 및 SMPL(Skinned Multi-Person Linear) 모델을 포함하는 상기 인체 이미지의 처리 결과를 획득하도록 설정되는 처리 모듈; 및
    상기 인체 이미지의 처리 결과에 따라 인체 모델을 생성하도록 설정되는 생성 모듈; 을 포함하는 이미지 처리 장치.
  16. 저장된 프로그램을 포함하는 컴퓨터 판독 가능 저장 매체로서,
    상기 프로그램이 실행될 경우, 상기 컴퓨터 판독 가능 저장 매체가 위치한 기기가 제1항 내지 제14항 중 어느 한 항에 따른 이미지 처리 방법을 수행하도록 제어하는 컴퓨터 판독 가능 저장 매체.
  17. 프로그램을 실행하도록 설정된 프로세서로서,
    상기 프로그램이 실행될 경우, 제1항 내지 제14항 중 어느 한 항에 따른 이미지 처리 방법이 수행되는 프로세서.
KR1020227037422A 2020-03-27 2021-03-11 이미지 처리 방법 및 장치 KR20220160066A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010231605.7A CN113449570A (zh) 2020-03-27 2020-03-27 图像处理方法和装置
CN202010231605.7 2020-03-27
PCT/CN2021/080280 WO2021190321A1 (zh) 2020-03-27 2021-03-11 图像处理方法和装置

Publications (1)

Publication Number Publication Date
KR20220160066A true KR20220160066A (ko) 2022-12-05

Family

ID=77808126

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227037422A KR20220160066A (ko) 2020-03-27 2021-03-11 이미지 처리 방법 및 장치

Country Status (4)

Country Link
JP (1) JP7448679B2 (ko)
KR (1) KR20220160066A (ko)
CN (1) CN113449570A (ko)
WO (1) WO2021190321A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114299204B (zh) * 2021-12-22 2023-04-18 深圳市海清视讯科技有限公司 三维动漫人物模型生成方法及装置
CN114157526B (zh) * 2021-12-23 2022-08-12 广州新华学院 一种基于数字图像识别的家居安全远程监控方法及装置
CN115482557B (zh) * 2022-10-09 2023-11-17 中国电信股份有限公司 人体图像生成方法、系统、设备及存储介质
CN117351432B (zh) * 2023-12-04 2024-02-23 环球数科集团有限公司 一种用于景区游客的多目标识别模型的训练系统
CN117745978B (zh) * 2024-02-20 2024-04-30 四川大学华西医院 一种基于人体三维重建算法的仿真质控方法、设备和介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140204013A1 (en) * 2013-01-18 2014-07-24 Microsoft Corporation Part and state detection for gesture recognition
JP6373026B2 (ja) 2014-03-20 2018-08-15 株式会社東芝 画像処理装置、画像処理システム、画像処理方法、及びプログラム
JP6912215B2 (ja) 2017-02-09 2021-08-04 国立大学法人東海国立大学機構 対象物の姿勢等を検出する検出方法、検出プログラム
CN108053469A (zh) * 2017-12-26 2018-05-18 清华大学 多视角相机下的复杂动态场景人体三维重建方法及装置
CN108345869B (zh) * 2018-03-09 2022-04-08 南京理工大学 基于深度图像和虚拟数据的驾驶人姿态识别方法
JP2020030613A (ja) 2018-08-22 2020-02-27 富士通株式会社 情報処理装置、データ算出プログラム、及びデータ算出方法
CN109285215B (zh) * 2018-08-28 2021-01-08 腾讯科技(深圳)有限公司 一种人体三维模型重建方法、装置和存储介质
CN109615582B (zh) * 2018-11-30 2023-09-01 北京工业大学 一种基于属性描述生成对抗网络的人脸图像超分辨率重建方法
CN109702741B (zh) 2018-12-26 2020-12-18 中国科学院电子学研究所 基于自监督学习神经网络的机械臂视觉抓取系统及方法
CN109859296B (zh) * 2019-02-01 2022-11-29 腾讯科技(深圳)有限公司 Smpl参数预测模型的训练方法、服务器及存储介质
CN110020633B (zh) * 2019-04-12 2022-11-04 腾讯科技(深圳)有限公司 姿态识别模型的训练方法、图像识别方法及装置
CN110188598B (zh) 2019-04-13 2022-07-05 大连理工大学 一种基于MobileNet-v2的实时手部姿态估计方法
CN110298916B (zh) * 2019-06-21 2022-07-01 湖南大学 一种基于合成深度数据的三维人体重建方法

Also Published As

Publication number Publication date
CN113449570A (zh) 2021-09-28
JP7448679B2 (ja) 2024-03-12
JP2023519012A (ja) 2023-05-09
WO2021190321A1 (zh) 2021-09-30

Similar Documents

Publication Publication Date Title
US11431896B2 (en) Augmented reality for three-dimensional model reconstruction
CN108986161B (zh) 一种三维空间坐标估计方法、装置、终端和存储介质
KR20220160066A (ko) 이미지 처리 방법 및 장치
US20170337701A1 (en) Method and system for 3d capture based on structure from motion with simplified pose detection
CN111968235A (zh) 一种物体姿态估计方法、装置、系统和计算机设备
CN111598998A (zh) 三维虚拟模型重建方法、装置、计算机设备和存储介质
US20210350560A1 (en) Depth estimation
CN111208783B (zh) 一种动作模仿方法、装置、终端及计算机存储介质
US20110248995A1 (en) System and methods for creating interactive virtual content based on machine analysis of freeform physical markup
CN112070782B (zh) 识别场景轮廓的方法、装置、计算机可读介质及电子设备
JP2016099982A (ja) 行動認識装置、行動学習装置、方法、及びプログラム
JP2024519940A (ja) データ処理方法、装置、データ処理システム、電子機器及びコンピュータプログラム
KR20180039013A (ko) 전자 디바이스 상에서의 환경 맵핑을 위한 피쳐 데이터 관리
CN114766042A (zh) 目标检测方法、装置、终端设备及介质
JP2023532285A (ja) アモーダル中心予測のためのオブジェクト認識ニューラルネットワーク
CN115346262A (zh) 一种表情驱动参数的确定方法、装置、设备及存储介质
TW202247108A (zh) 視覺定位方法、設備及電腦可讀儲存媒體
JP2020201922A (ja) 拡張現実アプリケーションに関するシステム及び方法
CN108027647B (zh) 用于与虚拟对象交互的方法和设备
Urgo et al. AI-Based Pose Estimation of Human Operators in Manufacturing Environments
CN113168706A (zh) 视频流的帧中的对象位置确定
Alleaume et al. Introduction to AR-Bot, an AR system for robot navigation
US20240020901A1 (en) Method and application for animating computer generated images
Korovin et al. Human pose estimation applying ANN while RGB-D cameras video handling
Zhang et al. Model Self-Adaptive Display for 2D–3D Registration