KR20220160066A - 이미지 처리 방법 및 장치 - Google Patents
이미지 처리 방법 및 장치 Download PDFInfo
- Publication number
- KR20220160066A KR20220160066A KR1020227037422A KR20227037422A KR20220160066A KR 20220160066 A KR20220160066 A KR 20220160066A KR 1020227037422 A KR1020227037422 A KR 1020227037422A KR 20227037422 A KR20227037422 A KR 20227037422A KR 20220160066 A KR20220160066 A KR 20220160066A
- Authority
- KR
- South Korea
- Prior art keywords
- human body
- model
- image
- value
- result
- Prior art date
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 63
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000001514 detection method Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims description 48
- 230000008569 process Effects 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 230000033001 locomotion Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 210000000746 body region Anatomy 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G06K9/6256—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G06N3/0454—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
- Image Generation (AREA)
Abstract
이미지 처리 방법 및 장치에 관한것으로, 이 방법은, 원본 이미지를 획득하는 단계(S102); 원본 이미지에 대해 인체 검출을 수행하여, 인체 이미지를 획득하는 단계(S104); 트레이닝된 제1 모델에 의해 인체 이미지를 처리하여, 2차원 관절점, 3차원 관절점 및 SMPL(Skinned Multi-Person Linear) 모델을 포함하는 인체 이미지의 처리 결과를 획득하는 단계(S106); 및 인체 이미지의 처리 결과에 따라 인체 모델을 생성하는 단계(S108)를 포함한다. 상기 방법은 2차원 관절점과 3차원 관절점 포지셔닝 및 인체 파라미터 재구성에 대한 인식 정확도가 낮은 과제를 해결한다.
Description
본 출원은 2020년 03월 27일에 중국 특허청에 제출된 우선권 번호가 202010231605.7이고, 발명의 명칭이 “이미지 처리 방법 및 장치”인 중국 특허 출원의 우선권을 주장하는 바, 해당 출원에 개시된 모든 내용은 참조로서 본 출원에 인용된다.
본 출원은 컴퓨터 시각 기술 분야에 관한 것으로, 구체적으로, 이미지 처리 방법 및 장치에 관한 것이다.
현재, 업계 내의 인체 관련 기술에는 인체 검출, 2차원 관절점 및 3차원 관절점의 포지셔닝, 분할 등이 포함된다. 2차원 관절점 및 3차원 관절점의 포지셔닝 및 인체 파라미터 계수 재구성 등 부분에 대하여, 현재에는 다음과 같은 수단을 사용하여 구현할 수 있다. 1) 우선, 이미지에 대해 딥 러닝 수단으로 인체 검출을 수행하고, 검출이 완료된 후 인체 영역을 잘라내서, 다시 딥 러닝 네트워크에 의해 2차원 관절점을 추정한 다음, 2차원 관절점을 이용하여 3차원 관절점, 인체 포즈 및 형상 파라미터를 추정한다. 그러나, 2차원 관절점을 이용하여 3차원 관절점을 추정하면 움짐임이 모호해지게 되며, 예를 들어, 동일한 상태의 2차원 관절점은 전후의 서로 다른 3차원 관절점에 대응될 수 있고, 또한 3차원 관절점의 인식 정확도는 2차원 관절점의 인식 정확도에 의존하므로, 3차원 관절점의 인식 정확도가 낮아진다. 2) 우선, 이미지에 대해 딥 러닝 수단으로 인체 검출을 수행하고, 검출이 완료된 후 인체 영역을 잘라내서, 다시 딥 러닝 네트워크에 의해 3차원 관절점을 직접 예측하고, 3차원 관절점을 3차원 복셀 네트워크로 만들어, 각 관절의 각 복셀 네트워크의 가능성을 추측함으로써, 트레이닝 및 예측이 수행된다. 그러나, 3차원 관절점의 샘플을 획득하기 어렵고, 대부분의 트레이닝 샘플은 실험실 환경에서 수집되기 때문에, 야외 시나리오에 대한 강건성이 높지 않고, 또한 복셀 네트워크를 사용하여 예측하므로, 계산량이 크고 실시간성이 낮다. 3) 먼저 인체에 대해 검출을 수행한 후, 검출된 픽처에 대해 인물 분할 또는 해석을 수행하고, 그 다음, 분할 및 해석의 결과를 이용하여, 최적화 방법을 통해 인체 모델 추정을 수행한다. 그러나, 인체 분할 및 해석은 요구 조건이 너무 높기 때문에, 결과의 편차가 인체 재구성 효과에 영향을 미친다.
상기 수단에 존재하는 문제점에 대한 효과적인 해결 수단은 아직까지 제안되지 않은 것이 실정이다.
본 출원의 적어도 일부 실시예는, 2차원 관절점 및 3차원 관절점의 포지셔닝 및 인체 파라미터 재구성에 대한 인식 정확도가 낮은 관련 기술의 과제를 적어도 해결하기 위한 이미지 처리 방법 및 장치를 제공한다.
본 출원의 실시예의 일 측면에 따르면, 원본 이미지를 획득하는 단계; 원본 이미지에 대해 인체 검출을 수행하여, 인체 이미지를 획득하는 단계; 트레이닝된 제1 모델에 의해 인체 이미지를 처리하여, 2차원 관절점, 3차원 관절점 및 SMPL(Skinned Multi-Person Linear) 모델을 포함하는 인체 이미지의 처리 결과를 획득하는 단계; 및 인체 이미지의 처리 결과에 따라 인체 모델을 생성하는 단계를 포함하는 이미지 처리 방법을 제공한다.
선택적으로, 상기 방법은, 인체 이미지, 2차원 관절점의 제1 표기 정보, 3차원 관절점의 제2 표기 정보, 및 SMPL 모델의 파라미터 값을 각각 포함하는 복수 개 그룹의 트레이닝 샘플을 획득하는 단계; 복수 개 그룹의 트레이닝 샘플을 이용하여 사전 설정 모델을 트레이닝시키고, 사전 설정 모델의 목표 손실 값을 획득하는 단계; 목표 손실 값이 사전 설정 값보다 작을 경우, 사전 설정 모델에 대한 트레이닝을 정지하고, 사전 설정 모델을 제1 모델로 결정하는 단계; 및 목표 손실 값이 사전 설정 값보다 클 경우, 목표 손실 값이 사전 설정 값보다 작아질 때까지, 복수 개 그룹의 트레이닝 샘플을 이용하여 사전 설정 모델을 계속 트레이닝시키는 단계를 더 포함한다.
선택적으로, 복수 개 그룹의 트레이닝 샘플을 이용하여 사전 설정 모델을 트레이닝시키고, 사전 설정 모델의 목표 손실 값을 획득하는 단계는, 복수 개 그룹의 트레이닝 샘플을 사전 설정 모델에 입력하고, 2차원 관절점의 제1 결과, 3차원 관절점의 제2 결과 및 SMPL 모델의 제3 결과를 포함하는 사전 설정 모델의 출력 결과를 획득하는 단계; 제1 표기 정보 및 제1 결과를 기반으로, 2차원 관절점의 제1 손실 값을 획득하는 단계; 제2 표기 정보 및 제2 결과를 기반으로, 3차원 관절점의 제2 손실 값을 획득하는 단계; 파라미터 값 및 제3 결과를 기반으로, SMPL 모델의 제3 손실 값을 획득하는 단계; 및 제1 손실 값, 제2 손실 값 및 제3 손실 값을 기반으로, 목표 손실 값을 획득하는 단계를 포함한다.
선택적으로, SMPL 모델의 파라미터 값은 수집 장치를 통해 수집된 실제 데이터이거나, 수집 장치를 통해 수집된 파라미터 값을 조절하여 획득되는 조절 데이터이다.
선택적으로, 파라미터 값 및 제3 결과를 기반으로, SMPL 모델의 제3 손실 값을 획득하는 단계는, 파라미터 값이 수집 장치를 통해 수집된 실제 수치일 경우, 파라미터 값 및 제3 결과를 기반으로, 제3 손실 값을 획득하는 단계; 및 파라미터 값이 수집 장치를 통해 수집된 파라미터 값을 조절하여 획득되는 조절 수치일 경우, 파라미터 값을 기반으로 3차원 관절점을 획득하고, 3차원 관절점을 2차원 평면에 투영하여 2차원 관절점을 획득하며, 투영된 2차원 관절점 및 제1 표기 정보를 기반으로, 2차원 관절점의 제4 손실 값을 획득하고, 제4 손실 값을 제3 손실 값으로 결정하는 단계를 포함한다.
선택적으로, 상기 방법은, 판별기에 의해 제3 결과의 파라미터 값을 처리하여, 제3 결과의 파라미터 값이 수집 장치를 통해 수집된 실제 수치인지 여부를 나타내는 제3 결과의 파라미터 값의 분류 결과를 획득하는 단계; 및 분류 결과 및 목표 손실 값을 기반으로, 사전 설정 모델에 대한 트레이닝을 정지할지 여부를 결정하는 단계를 더 포함한다.
선택적으로, 생성적 적대 네트워크에 의해 판별기를 트레이닝시킨다.
선택적으로, 원본 이미지에 대해 인체 검출을 수행하여, 인체 이미지를 획득하는 단계는, 트레이닝된 제2 모델에 의해 원본 이미지를 처리하여, 원본 이미지에서의 인체의 위치 정보를 획득하는 단계; 및 위치 정보를 기반으로 원본 이미지에 대해 크로핑 및 정규화 처리를 수행하여, 인체 이미지를 획득하는 단계를 포함한다.
선택적으로, 제1 모델은 모래시계형 네트워크(Hourglass Network) 구조 또는 특징 피라미드 네트워크(FPN) 구조를 사용한다.
본 출원의 실시예의 다른 측면에 따르면, 원본 이미지를 획득하도록 설정되는 획득 모듈; 원본 이미지에 대해 인체 검출을 수행하여, 인체 이미지를 획득하도록 설정되는 검출 모듈; 트레이닝된 제1 모델에 의해 인체 이미지를 처리하여, 2차원 관절점, 3차원 관절점 및 SMPL(Skinned Multi-Person Linear) 모델을 포함하는 인체 이미지의 처리 결과를 획득하도록 설정되는 처리 모듈; 및 인체 이미지의 처리 결과에 따라 인체 모델을 생성하도록 설정되는 생성 모듈을 포함하는 이미지 처리 장치를 더 제공한다.
본 출원의 실시예의 다른 측면에 따르면, 저장된 프로그램을 포함하는 저장 매체로서, 프로그램이 실행될 경우, 저장 매체가 위치한 기기가 상기 이미지 처리 방법을 수행하도록 제어하는 저장 매체를 더 제공한다.
본 출원의 실시예의 다른 측면에 따르면, 프로그램을 실행하도록 설정되는 프로세서로서, 프로그램이 실행될 경우, 상기 이미지 처리 방법이 수행되는 프로세서를 더 제공한다.
본 출원의 적어도 일부 실시예에서는, 원본 이미지를 획득한 후, 먼저, 원본 이미지에 대해 인체 검출을 수행하여 인체 이미지를 획득하고, 그 다음, 트레이닝된 제1 모델에 의해 인체 이미지를 처리하여, 인체 이미지의 처리 결과를 획득함으로써, 인체 검출, 2차원 관절점 및 3차원 관절점의 포지셔닝 및 SMPL 모델 구성의 목적을 동시에 구현하여 인체 모델을 생성할 수 있다. 하나의 모델을 이용하면 2차원 관절점, 3차원 관절점 및 SMPL 모델을 동시에 획득할 수 있고, 2차원 관절점을 통해 3차원 관절점을 추정할 필요가 없어지므로, 이미지 인식 정확도를 향상시키는 기술적 효과를 달성하여, 2차원 관절점 및 3차원 관절점의 포지셔닝 및 인체 파라미터 재구성에 대한 인식 정확도가 낮은 관련 기술의 과제를 해결함을 쉽게 알 수 있다.
여기서 설명되는 도면은 본 출원을 더 잘 이해하도록 하기 위해 제공되는 것으로, 본 출원의 일부분을 구성하고, 본 출원의 예시적인 실시예 및 이에 대한 설명은 본 출원을 해석하기 위한 것으로, 본 출원을 한정하지 않는다. 도면은 다음과 같다.
도 1은 본 출원의 실시예에 따른 이미지 처리 방법의 흐름도이다.
도 2는 본 출원의 실시예에 따른 선택적인 인체 이미지의 모식도이다.
도 3은 본 출원의 실시예에 따른 선택적인 인체 모델의 모식도이다.
도 4a는 본 출원의 실시예에 따른 선택적인 평균 형상의 인체 모델의 모식도이다.
도 4b는 본 출원의 실시예에 따른 선택적인 형상 파라미터가 추가되어 생성된 인체 모델의 모식도이다.
도 4c는 본 출원의 실시예에 따른 선택적인 형상 파라미터 및 포즈 파라미터가 추가되어 생성된 인체 모델의 모식도이다.
도 4d는 본 출원의 실시예에 따른 선택적인 검출된 인체 움직임에 따라 생성된 인체 모델의 모식도이다.
도 5는 본 출원의 실시예에 따른 선택적인 이미지 처리 방법의 흐름도이다.
도 6은 본 출원의 실시예에 따른 선택적인 GAN 네트워크의 모식도이다.
도 7은 본 출원의 실시예에 따른 이미지 처리 장치의 모식도이다.
도 1은 본 출원의 실시예에 따른 이미지 처리 방법의 흐름도이다.
도 2는 본 출원의 실시예에 따른 선택적인 인체 이미지의 모식도이다.
도 3은 본 출원의 실시예에 따른 선택적인 인체 모델의 모식도이다.
도 4a는 본 출원의 실시예에 따른 선택적인 평균 형상의 인체 모델의 모식도이다.
도 4b는 본 출원의 실시예에 따른 선택적인 형상 파라미터가 추가되어 생성된 인체 모델의 모식도이다.
도 4c는 본 출원의 실시예에 따른 선택적인 형상 파라미터 및 포즈 파라미터가 추가되어 생성된 인체 모델의 모식도이다.
도 4d는 본 출원의 실시예에 따른 선택적인 검출된 인체 움직임에 따라 생성된 인체 모델의 모식도이다.
도 5는 본 출원의 실시예에 따른 선택적인 이미지 처리 방법의 흐름도이다.
도 6은 본 출원의 실시예에 따른 선택적인 GAN 네트워크의 모식도이다.
도 7은 본 출원의 실시예에 따른 이미지 처리 장치의 모식도이다.
이하, 본 기술분야의 통상의 기술자가 본 출원의 수단을 더 잘 이해할 수 있도록, 본 출원의 실시예의 도면을 참조하면서 본 출원의 실시예의 기술적 해결 수단을 명확하고 완전하게 설명하기로 하며, 물론 설명되는 실시예는 본 출원의 일부 실시예일 뿐, 전부의 실시예가 아니다. 본 출원의 실시예를 기반으로, 본 기술분야의 통상의 기술자가 진보성 창출에 힘쓰지 않고 획득한 모든 다른 실시예들은 모두 본 출원의 보호 범위에 속해야 한다.
본 출원의 명세서와 특허청구범위 및 상기 도면 중의 용어 “제1”, “제2” 등은 유사한 객체를 구별하기 위한 것으로, 반드시 특정된 순서 또는 선후 순서를 설명하는데 사용되는 것은 아니다. 이렇게 사용되는 데이터는 적절한 상황에서 서로 교환되어, 여기에 설명된 본 출원의 실시예가 여기에 도시되거나 설명된 것을 제외한 순서로 구현될 수 있음을 이해해야 한다. 또한, 용어 “포함” 및 “구비” 및 이들의 임의의 변형은 비배타적 포함을 포함하도록 의도되고, 예를 들어, 일련의 단계 또는 유닛을 포함하는 과정, 방법, 시스템, 제품 또는 기기가 반드시 명확하게 나열된 단계 또는 유닛에 제한되는 것은 아니고, 명확하게 나열되지 않았거나 또는 이러한 과정, 방법, 제품 또는 기기에 고유한 다른 단계 또는 유닛을 포함할 수 있다.
실시예 1
본 출원의 실시예에 따르면, 이미지 처리 방법을 제공한다. 설명해야 할 것은, 도면의 흐름도에 도시된 단계는 한 그룹의 컴퓨터 실행 가능 명령과 같은 컴퓨터 시스템에서 수행될 수 있고, 또한, 흐름도에 논리적인 순서가 도시되었지만, 일부 경우에는 여기의 순서와 다르게, 도시 또는 설명된 단계를 수행할 수 있다.
도 1은 본 출원의 실시예에 따른 이미지 처리 방법의 흐름도이고, 도 1에 도시된 바와 같이, 상기 방법은 다음과 같은 단계 S102, S104, S106, S108을 포함한다.
단계 S102에서는, 원본 이미지를 획득한다.
상기 원본 이미지는 입력된 비디오 스트림 데이터로부터 잘라낸 이미지일 수 있고, 직접 획득한 이미지일 수도 있으며, 상기 원본 이미지에는 인체가 포함된다.
단계 S104에서는, 원본 이미지에 대해 인체 검출을 수행하여, 인체 이미지를 획득한다.
도 2에 도시된 바와 같이, 상기 인체 이미지는 원본 이미지에서 추출된 이미지로서, 완전한 인체 영역을 포함하는 최소 이미지일 수 있다.
일 선택적인 실시예에서는, 딥 러닝 모델, 예컨대 Faster RCNN(Faster Region Convolutional Neural Networks, 패스터 영역 콘볼루션 신경망), YOLO(You Only Look Once) 및 SSD(Single Shot Detector) 등 검출 프레임워크 및 이들의 변형을 사용하여 인체 검출을 수행할 수 있다. 본 기술분야의 통상의 기술자는 서로 다른 기기 및 응용 시나리오에서 서로 다른 검출 프레임워크를 선택하여, 인체 검출을 빠르고 정확하게 구현함으로써 인체 이미지를 획득할 수 있음을 이해할 수 있다.
선택적으로, 원본 이미지에 대해 인체 검출을 수행하여, 인체 이미지를 획득하는 단계는, 트레이닝된 딥 러닝 모델에 의해 원본 이미지를 처리하여, 원본 이미지에서의 인체의 위치 정보를 획득하는 단계; 및 위치 정보를 기반으로 원본 이미지에 대해 크로핑 및 정규화 처리를 수행하여, 인체 이미지를 획득하는 단계를 포함한다. 여기서, 인체 이미지 중의 인체 위치는 원본 이미지 중 완전한 인체 영역이 포함되는 최소 직사각형 바운딩 박스를 사용하여 표시될 수 있고, 2차원 좌표(left, top, bottom, right)의 형태로 표현된다.
단계 S106에서는, 트레이닝된 제1 모델에 의해 인체 이미지를 처리하여, 2차원 관절점, 3차원 관절점 및 SMPL(Skinned Multi-Person Linear) 모델을 포함하는 인체 이미지의 처리 결과를 획득한다.
선택적으로, 상기 제1 모델은 모래시계형 네트워크(Hourglass Network) 구조 또는 FPN(Feature Pyramid Networks, 특징 피라미드 네트워크) 구조를 사용할 수 있다. 예를 들어, 입력이 w*h 이미지일 때, 출력되는 특징맵은 w*h 또는 w/4*h/4인 이미지일 수 있다.
상기 관절점은 도 2에 도시된 바와 같이, 손목, 팔꿈치 등과 같은 인체의 각 관절의 위치 좌표일 수 있다.
2차원 관절점은 히트맵(Heat Map) 형태로 표시될 수 있고, 좌표 벡터 형태로 표시될 수도 있다. 여기서, 히트맵 형태의 경우, 각 관절점을 하나의 특징맵으로 표시할 수 있고, 입력되는 인체 이미지가 w*h인 이미지라고 가정하면, 출력되는 특징맵은 동일한 크기 또는 등비례로 스케일링된 이미지이며, 관절점의 위치의 특징맵의 값은 1이고, 다른 위치의 특징맵의 값은 0이다. 일 예시에서는, 인체의 2차원 관절점이 16개일 때, 16장의 w*h 또는 w/2*h/2 또는 더 작은 특징맵을 사용하여 인체의 2차원 관절점을 표시할 수 있다.
3차원 관절점도 마찬가지로 히트맵 및 좌표 벡터의 2가지 표현 방식이 있을 수 있다. 여기서, 히트맵 형태의 경우, 3차원 관절점은 2차원 관절점에 대하여, 3차원 공간에서 z축 정보가 추가되어, 히트맵을 하나의 직육면체로 확산한다.
일 선택적인 실시예에서는, 먼저, 제1 모델에 의해 인체 이미지를 처리하여, SMPL 모델의 파라미터 값을 획득하고, 그 다음, 파라미터 값을 기반으로 2차원 관절점 또는 3차원 관절점을 획득할 수 있다.
단계 S108에서는, 인체 이미지의 처리 결과에 따라 인체 모델을 생성한다.
도 3에 도시된 바와 같이, SMPL 모델은 형상(shape) 파라미터 및 포즈(pose) 파라미터를 포함할 수 있고, 형상 파라미터 및 포즈 파라미터에 따라 생성된 인체 모델은 다수의 꼭짓점 및 3차원 관절점을 포함할 수 있으며, 각 꼭짓점 및 3차원 관절점은 (x, y, z) 좌표를 포함하는 3차원 벡터이다. 도 4a 내지 도 4c는 형상 파라미터 및 포즈 파라미터에 따라 인체 모델이 생성되는 과정을 도시하고, 도 4a 는 평균 형상의 인체 모델을 표시하며, 도 4b는 평균 형상을 토대로 형상 파라미터가 추가되어 생성된 인체 모델을 표시하고, 도 4c는 평균 형상을 토대로 형상 파라미터 및 포즈 파라미터가 추가되어 생성된 인체 모델을 표시한다. 도 4d는 도 4c에서 생성된 인체 모델을 토대로, 검출된 인체 움직임에 따라 생성된 인체 모델을 표시한다. 도 4b와 도 4c의 비교를 통해, 양자의 차이가 너무 크지 않으므로 일부 응용에서는 형상 파라미터에만 따라 인체 모델을 생성하여 인체 모델링을 구현할 수 있다는 것을 보아낼 수 있다.
본 출원의 상기 실시예를 통해, 원본 이미지를 획득한 후, 먼저, 원본 이미지에 대해 인체 검출을 수행하여 인체 이미지를 획득하고, 그 다음, 트레이닝된 제1 모델에 의해 인체 이미지를 처리하여, 인체 이미지의 처리 결과를 획득함으로써, 인체 검출, 2차원 관절점 및 3차원 관절점의 포지셔닝 및 SMPL 모델 구성의 목적을 동시에 구현하여 인체 모델을 생성할 수 있다. 하나의 모델을 이용하면 2차원 관절점, 3차원 관절점 및 SMPL 모델을 동시에 획득할 수 있고, 2차원 관절점을 통해 3차원 관절점을 추정할 필요가 없어지므로, 이미지 인식 정확도를 향상시키는 기술적 효과를 달성하여, 2차원 관절점 및 3차원 관절점의 포지셔닝 및 인체 파라미터 재구성에 대한 인식 정확도가 낮은 관련 기술의 과제를 해결함을 쉽게 알 수 있다.
첫 번째 응용 시나리오에서는, 인체 움직임을 실시간으로 검출하여 인체 애니메이션(AVATAR) 모델을 구동할 수 있고, 예를 들어, 2차원 관절점 및 3차원 관절점을 기반으로 인체 움직임을 캡쳐하여, 인체 애니메이션 모델이 인체 움직임에 따라 상응한 움직임을 수행하도록 하여 인터랙션을 구현한다.
두 번째 응용 시나리오에서는, 처리 결과 중의 2차원 관절점 및 3차원 관절점에 따라 인체 슬리밍 등 편집 목적을 달성할 수 있고, 예를 들어, 인체 이미지의 팔, 다리, 신체 등 상응한 위치의 이미지 픽셀을 처리하여, 팔 슬리밍, 다리 슬리밍, 허리 슬리밍 등 이미지 처리 효과를 달성한다.
선택적으로, 본 출원의 상기 실시예에서는, 상기 이미지 처리 방법은, 인체 이미지, 2차원 관절점의 제1 표기 정보, 3차원 관절점의 제2 표기 정보, 및 SMPL 모델의 파라미터 값을 각각 포함하는 복수 개 그룹의 트레이닝 샘플을 획득하는 단계; 복수 개 그룹의 트레이닝 샘플을 이용하여 사전 설정 모델을 트레이닝시키고, 사전 설정 모델의 목표 손실 값을 획득하는 단계; 목표 손실 값이 사전 설정 값보다 작을 경우, 사전 설정 모델에 대한 트레이닝을 정지하고, 사전 설정 모델을 제1 모델로 결정하는 단계; 및 목표 손실 값이 사전 설정 값보다 클 경우, 목표 손실 값이 사전 설정 값보다 작아질 때까지, 복수 개 그룹의 트레이닝 샘플을 이용하여 사전 설정 모델을 계속 트레이닝시키는 단계를 더 포함한다. 목표 손실 값이 작을수록 인식 정확도가 더 높고, 상기 사전 설정 값은 이미지 인식 정확도 및 효율의 요구에 따라 미리 설정될 수 있으며, 상기 사전 설정 값을 통해 모델의 트레이닝 완료 여부를 결정할 수 있다.
선택적으로, 복수 개 그룹의 트레이닝 샘플을 이용하여 사전 설정 모델을 트레이닝시키고, 사전 설정 모델의 목표 손실 값을 획득하는 단계는, 복수 개 그룹의 트레이닝 샘플을 사전 설정 모델에 입력하고, 2차원 관절점의 제1 결과, 3차원 관절점의 제2 결과 및 SMPL 모델의 제3 결과를 포함하는 사전 설정 모델의 출력 결과를 획득하는 단계; 제1 표기 정보 및 제1 결과를 기반으로, 2차원 관절점의 제1 손실 값을 획득하는 단계; 제2 표기 정보 및 제2 결과를 기반으로, 3차원 관절점의 제2 손실 값을 획득하는 단계; 파라미터 값 및 제3 결과를 기반으로, SMPL 모델의 제3 손실 값을 획득하는 단계; 및 제1 손실 값, 제2 손실 값 및 제3 손실 값을 기반으로, 목표 손실 값을 획득하는 단계를 포함한다.
선택적으로, 본 출원의 상기 실시예에서는, 상기 이미지 처리 방법은, 트레이닝 샘플에 대해 2차원 관절점의 제1 표기 정보, 3차원 관절점의 제2 표기 정보를 라벨링하는 단계를 더 포함한다.
일 선택적인 실시예에서는, 2차원 관절점의 경우, 제1 손실 값은 예측된 히트맵(즉 제1 결과) 및 라벨이 표기된 히트맵(즉 제1 표기 정보)을 기반으로 획득되거나, 예측된 좌표 벡터(즉 제1 결과) 및 라벨이 표기된 좌표 벡터(즉 제1 표기 정보)를 기반으로 획득되거나, 히트맵 및 좌표 벡터의 종합 정보를 기반으로 획득될 수 있다.
3차원 관절점도 마찬가지로, 제2 손실 값은 예측된 히트맵(즉 제2 결과) 및 라벨이 표기된 히트맵(즉 제2 표기 정보)을 기반으로 획득되거나, 예측된 좌표 벡터(즉 제2 결과) 및 라벨이 표기된 좌표 벡터(즉 제2 표기 정보)를 기반으로 획득되거나, 히트맵 및 좌표 벡터의 종합 정보를 기반으로 획득될 수 있다.
여기서, 좌표 벡터 방식을 사용하면 히트맵 방식보다 계산하기 더 편리하다.
선택적으로, 상기 SMPL 모델의 파라미터 값은 수집 장치를 통해 수집된 실제 수치이거나, 수집 장치를 통해 수집된 파라미터 값을 조절하여 획득되는 조절 수치일 수 있다. 일 선택적인 실시예에서는, 실제 수치 및 조절 수치를 통해 SMPL 모델의 파라미터 값을 예측할 수 있고, 실제 데이터의 가중치가 큰 편이고, 조절 수치의 가중치가 작은 편이다.
상기 수집 장치는 실험실 환경 또는 야외 환경에서 다수의 고정 위치에 설치된 카메라 또는 센서일 수 있다.
실험실 환경에서 수집된 데이터로만 정확하고 진실된 SMPL 모델의 파라미터 값을 획득할 수 있기 때문에, 야외 환경에서 수집된 데이터는 정확한 SMPL 모델의 파라미터 값을 획득할 수 없다. 따라서, 실제 계산에서는, SMPL 모델은 파라미터 값의 유형을 기반으로, 서로 다른 방식을 사용하여 제3 손실 값을 계산할 수 있다. 선택적으로, 파라미터 값이 수집 장치를 통해 수집된 실제 수치일 경우, 직접 회귀 방식을 사용하여 제3 손실 값을 계산할 수 있고, 즉 파라미터 값 및 제3 결과를 기반으로, 제3 손실 값을 획득하며; 파라미터 값이 수집 장치를 통해 수집된 파라미터 값을 조절하여 획득되는 조절 수치일 경우, SMPL 모델의 파라미터 값에 따라 3차원 관절점을 획득하고, 3차원 관절점을 2차원 평면에 투영하여 2차원 관절점을 획득하며, 투영된 2차원 관절점 및 제1 표기 정보를 기반으로 2차원 관절점의 제4 손실 값을 계산하고, 상기 손실 값을 제3 손실 값으로 사용하며, SMPL 모델의 파라미터 공간으로 돌려보냄으로써, SMPL 모델의 파라미터 값을 업데이트할 수 있다.
트레이닝 과정에서는, 목표 손실 값은 제1 손실 값, 제2 손실 값 및 제3 손실 값의 종합이고, 가중합을 구하는 방식을 통해 계산하여 얻을 수 있다.
일 선택적인 실시예에서는, 모델 트레이닝 과정에서, 2차원 관절점, 3차원 관절점 및 SMPL 모델의 파라미터는 동시에 학습을 수행할 수 있고, 전체가 회귀되어 모델을 생성한다, 또한, 도 5에 도시된 바와 같이, SMPL 모델 판별기를 사용하여 SMPL 모델의 파라미터 값을 판별할 수 있고, 파라미터 값이 네트워크를 통해 랜덤으로 생성된 수치인지 아니면 수집된 실제 수치인지 판정함으로써, 모델 효과의 진실성을 향상시킨다. 선택적으로, SMPL 모델 판별기는 제3 결과(즉 사전 설정 모델에 의해 출력된 SMPL 모델)의 파라미터 값을 처리하여, 제3 결과의 파라미터 값이 수집 장치를 통해 수집된 실제 수치인지 여부를 나타내는 제3 결과의 파라미터 값의 분류 결과를 획득하며; 상기 분류 결과 및 목표 손실 값을 기반으로, 사전 설정 모델에 대한 트레이닝을 정지할지 여부를 결정한다. 여기서, 생성적 적대 네트워크(Generative Adversarial Network, GAN) 중의 D 판별기를 SMPL 모델 판별기로 사용할 수 있다.
일 선택적인 실시예에서는, 야외 환경에서 수집된 데이터가 정확한 SMPL 모델의 파라미터 값을 획득할 수 없으므로, 정상이 아닌 파라미터 값이 생성될 수 있고, 상기 문제점을 해결하기 위해, 본 출원의 실시예에서는 GAN 네트워크를 추가하여 SMPL 모델 판별기(즉 D 판별기)를 트레이닝시키며, 도 6에 도시된 바와 같이, GAN 네트워크는 G 생성기 및 D 판별기를 포함하고, D 판별기는 하나의 이진 분류 네트워크이며, G 생성기에 의해 랜덤으로 생성된 수치 및 수집된 실제 수치를 수신하고, 데이터 진실성을 표시하는 라벨을 출력하며, 예를 들어, 실제 수치가 수신될 경우, 출력은 포지티브 라벨(일반적으로, 포지티브 라벨은 1로 설정됨)에 가깝고, G 생성기에 의해 랜덤으로 생성된 수치가 수신될 경우, 출력은 네거티브 라벨(일반적으로, 네거티브 라벨은 0으로 설정됨)에 가까우며, D 판별기를 통해 랜덤으로 생성된 수치 및 실체 수치의 차이를 설명한 다음, 상기 차이에 따라 G 생성기에 의해 랜덤으로 생성된 수치의 가중치를 업데이트하여, G 생성기에 의해 랜덤으로 생성된 수치가 실제 수치에 더 가깝도록 하고, D 판별기가 랜덤으로 생성된 수치 및 실제 수치를 구별하는 능력을 향상시킨다.
실시예 2
본 출원의 실시예에 따르면, 이미지 처리 장치를 제공한다. 이 장치는 상기 실시예 1에 기재된 이미지 처리 방법을 수행할 수 있으며, 이 실시예 중의 바람직한 실시예 및 응용 시나리오는 상기 실시예 1과 동일하므로, 여기서 설명을 생략한다.
도 7은 본 출원의 실시예에 따른 이미치 처리 장치의 모식도이고, 도 7에 도시된 바와 같이, 이 장치는,
원본 이미지를 획득하도록 설정되는 획득 모듈(72);
원본 이미지에 대해 인체 검출을 수행하여, 인체 이미지를 획득하도록 설정되는 검출 모듈(74);
트레이닝된 제1 모델에 의해 인체 이미지를 처리하여, 2차원 관절점, 3차원 관절점 및 SMPL 모델의 파라미터 값을 포함하는 인체 이미지의 처리 결과를 획득하도록 설정되는 처리 모듈(76); 및
인체 이미지의 처리 결과에 따라 인체 모델을 생성하도록 설정되는 생성 모듈(78)을 포함한다.
여기서, 설명해야 할 것은, 상기 획득 모듈(72), 검출 모듈(74), 처리 모듈(76) 및 생성 모듈(78)은 장치의 일부분으로서 컴퓨터 단말기에서 작동될 수 있고, 컴퓨터 단말기 중의 프로세서를 통해 상기 모듈에 의해 구현되는 기능을 수행할 수 있으며, 컴퓨터 단말기는 스마트폰(예컨대, Android 휴대폰, iOS 휴대폰 등), 태블릿 PC, 개인 휴대 정보 단말기 및 모바일 인터넷 기기(Mobile Internet Devices, MID), PAD 등 단말 기기일 수도 있다.
선택적으로, 본 출원의 상기 실시예에서는, 상기 장치는, 인체 이미지, 2차원 관절점의 제1 표기 정보, 3차원 관절점의 제2 표기 정보, 및 SMPL 모델의 파라미터 값을 각각 포함하는 복수 개 그룹의 트레이닝 샘플을 획득하도록 더 설정되는 획득 모듈; 복수 개 그룹의 트레이닝 샘플을 이용하여 사전 설정 모델을 트레이닝시키고, 사전 설정 모델의 목표 손실 값을 획득하도록 설정되는 트레이닝 모듈; 목표 손실 값이 사전 설정 값보다 작을 경우, 사전 설정 모델에 대한 트레이닝을 정지하고, 사전 설정 모델을 제1 모델로 결정하도록 설정되는 트레이닝 정지 모듈을 더 포함하고; 트레이닝 모듈은 또한, 목표 손실 값이 사전 설정 값보다 클 경우, 목표 손실 값이 사전 설정 값보다 작아질 때까지, 복수 개 그룹의 트레이닝 샘플을 이용하여 사전 설정 모델을 계속 트레이닝시키도록 설정된다.
여기서, 설명해야 할 것은, 상기 획득 모듈, 트레이닝 모듈 및 트레이닝 정지 모듈은 장치의 일부분으로서 컴퓨터 단말기에서 작동될 수 있고, 컴퓨터 단말기 중의 프로세서를 통해 상기 모듈에 의해 구현되는 기능을 수행할 수 있으며, 컴퓨터 단말기는 스마트폰(예컨대, Android 휴대폰, iOS 휴대폰 등), 태블릿 PC, 개인 휴대 정보 단말기 및 모바일 인터넷 기기, PAD 등 단말 기기일 수도 있다.
선택적으로, 트레이닝 모듈은, 복수 개 그룹의 트레이닝 샘플을 사전 설정 모델에 입력하고, 2차원 관절점의 제1 결과, 3차원 관절점의 제2 결과 및 SMPL 모델의 제3 결과를 포함하는 사전 설정 모델의 출력 결과를 획득하도록 설정되는 획득 유닛; 제1 표기 정보 및 제1 결과를 기반으로, 2차원 관절점의 제1 손실 값을 획득하도록 설정되는 제1 처리 유닛; 제2 표기 정보 및 제2 결과를 기반으로, 3차원 관절점의 제2 손실 값을 획득하도록 설정되는 제2 처리 유닛; 파라미터 값 및 제3 결과를 기반으로, SMPL 모델의 제3 손실 값을 획득하도록 설정되는 제3 처리 유닛; 및 제1 손실 값, 제2 손실 값 및 제3 손실 값을 기반으로, 목표 손실 값을 획득하도록 설정되는 제4 처리 유닛을 포함한다.
여기서, 설명해야 할 것은, 상기 획득 유닛, 제1 처리 유닛, 제2 처리 유닛, 제3 처리 유닛 및 제4 처리 유닛은 장치의 일부분으로서 컴퓨터 단말기에서 작동될 수 있고, 컴퓨터 단말기 중의 프로세서를 통해 상기 모듈에 의해 구현되는 기능을 수행할 수 있으며, 컴퓨터 단말기는 스마트폰(예컨대, Android 휴대폰, iOS 휴대폰 등), 태블릿 PC, 개인 휴대 정보 단말기 및 모바일 인터넷 기기, PAD 등 단말 기기일 수도 있다.
선택적으로, 제3 처리 유닛은 또한, 파라미터 값이 수집 장치를 통해 수집될 경우, 파라미터 값 및 제3 결과를 기반으로, 제3 손실 값을 획득하고; 파라미터 값이 수집 장치를 통해 수집된 파라미터 값을 조절하여 획득될 경우, 파라미터 값을 기반으로 3차원 관절점을 획득하고, 3차원 관절점을 2차원 평면에 투영하여 2차원 관절점을 획득하며, 투영된 2차원 관절점 및 제1 표기 정보를 기반으로, 2차원 관절점의 제4 손실 값을 획득하고, 제4 손실 값을 제3 손실 값으로 결정하도록 설정된다.
선택적으로, 상기 장치는, 판별기에 의해 제3 결과의 파라미터 값을 처리하여, 제3 결과의 파라미터 값이 수집 장치를 통해 수집된 실제 수치인지 여부를 나타내는 제3 결과의 파라미터 값의 분류 결과를 획득하도록 더 설정되는 처리 모듈; 및 분류 결과 및 목표 손실 값을 기반으로, 사전 설정 모델에 대한 트레이닝을 정지할지 여부를 결정하도록 더 설정되는 트레이닝 정지 모듈을 더 포함한다.
선택적으로, 트레이닝 모듈은 또한, 생성적 적대 네트워크에 의해 판별기를 트레이닝시키도록 설정된다.
선택적으로, 검출 모듈은, 트레이닝된 제2 모델에 의해 원본 이미지를 처리하여, 원본 이미지에서의 인체의 위치 정보를 획득하도록 설정되는 검출 유닛; 및 위치 정보를 기반으로 원본 이미지에 대해 크로핑 및 정규화 처리를 수행하여, 인체 이미지를 획득하도록 설정되는 제5 처리 유닛을 포함한다.
여기서, 설명해야 할 것은, 상기 검출 유닛 및 제5 처리 유닛은 장치의 일부분으로서 컴퓨터 단말기에서 실행될 수 있고, 컴퓨터 단말기 중의 프로세서를 통해 상기 모듈에 의해 구현되는 기능을 수행할 수 있으며, 컴퓨터 단말기는 스마트폰(예컨대, Android 휴대폰, iOS 휴대폰 등), 태블릿 PC, 개인 휴대 정보 단말기 및 모바일 인터넷 기기, PAD 등 단말 기기일 수도 있다.
본 출원의 실시예에 의해 제공되는 각 기능 유닛은 이동 단말기, 컴퓨터 단말기 또는 유사한 연산 장치에서 작동될 수 있고, 저장 매체의 일부분으로서 저장될 수도 있다.
이에 따라, 본 출원의 실시예는 컴퓨터 단말기를 제공할 수 있고, 상기 컴퓨터 단말기는 컴퓨터 단말기 클러스터 중 어느 하나의 컴퓨터 단말 기기일 수 있다. 선택적으로, 본 실시예에서는, 상기 컴퓨터 단말기는 이동 단말기 등과 같은 단말 기기로 대체될 수도 있다.
선택적으로, 본 실시예에서는, 상기 컴퓨터 단말기는 컴퓨터 네트워크의 다수의 네트워크 기기 중 적어도 하나의 네트워크 기기에 위치할 수 있다.
본 실시예에서는, 상기 컴퓨터 단말기는 이미지 처리 방법 중의 원본 이미지를 획득하는 단계; 원본 이미지에 대해 인체 검출을 수행하여, 인체 이미지를 획득하는 단계; 트레이닝된 제1 모델에 의해 인체 이미지를 처리하여, 2차원 관절점, 3차원 관절점 및 SMPL(Skinned Multi-Person Linear) 모델을 포함하는 인체 이미지의 처리 결과를 획득하는 단계; 및 인체 이미지의 처리 결과에 따라 인체 모델을 생성하는 단계; 의 프로그램 코드를 실행할 수 있다.
선택적으로, 상기 컴퓨터 단말기는 하나 또는 다수의 프로세서, 메모리 및 전송 장치를 포함할 수 있다.
여기서, 메모리는 본 출원의 실시예의 이미지 처리 방법 및 장치에 대응되는 프로그램 명령/모듈과 같은 소프트웨어 프로그램 및 모듈을 저장할 수 있고, 프로세서는 메모리에 저장된 소프트웨어 프로그램 및 모듈을 실행함으로써, 다양한 기능 애플리케이션 및 데이터 처리를 수행하여 상기 이미치 처리 방법을 구현한다. 메모리는 고속 랜덤 액세스 메모리를 포함할 수 있고, 하나 또는 다수의 자기 저장 장치, 플래시 메모리, 또는 다른 비휘발성 고체 상태 메모리와 같은 비휘발성 메모리를 더 포함할 수 있다. 일부 구현예에서는, 메모리는 프로세서에 대해 원격으로 설치된 메모리를 더 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 단말기에 연결될 수 있다. 상기 네트워크의 구현예로 인터넷, 인트라넷, 근거리 통신망, 이동 통신망 및 이들의 조합을 포함하지만 이에 한정되지 않는다.
상기 전송 장치는 하나의 네트워크를 거쳐 데이터를 수신 또는 송신한다. 상기 네트워크의 구체적인 구현예는 유선 네트워크 및 무선 네트워크를 포함할 수 있다. 일 구현예에서는, 전송 장치는 인터넷 케이블을 통해 다른 네트워크와 라우터와 연결됨으로써 인터넷 또는 근거리 통신망과 통신할 수 있는 하나의 네트워크 어댑터(Network Interface Controller, NIC)를 포함한다. 일 구현예에서는, 전송 장치는 무선 방식으로 인터넷과 통신하는 무선 주파수(Radio Frequency, RF) 모듈이다.
여기서, 구체적으로, 메모리에는 제1 모델, SMPL(Skinned Multi-Person Linear) 모델, 처리 결과, 및 응용 프로그램이 저장된다.
프로세서는 전송 장치를 통해 메모리에 저장된 정보 및 응용 프로그램을 호출하여, 상기 방법 실시예의 각각의 선택적이거나 바람직한 실시예의 방법 단계의 프로그램 코드를 실행할 수 있다.
본 기술분야의 통상의 기술자라면 컴퓨터 단말기가 스마트폰(예컨대, Android 휴대폰, iOS 휴대폰 등), 태블릿 PC, 개인 휴대 정보 단말기 및 모바일 인터넷 기기, PAD 등 단말 기기일 수도 있음을 이해할 수 있다.
본 기술분야의 통상의 기술자라면, 상기 실시예의 다양한 방법 중의 전부 또는 일부 단계가 프로그램을 통해 단말 기기와 관련되는 하드웨어를 명령함으로써 완료될 수 있고, 상기 프로그램은 하나의 컴퓨터 판독 가능 메모리에 저장될 수 있으며, 저장 매체는 USB 메모리, 판독 전용 메모리(Read-Only Memory, ROM), 랜덤 액세스 메모리(Random Access Memory, RAM), 자기 디스크 또는 광 디스크 등을 포함할 수 있음을 이해할 수 있다.
실시예 3
본 출원의 실시예에 따르면, 컴퓨터 판독 가능 저장 매체를 제공한다. 컴퓨터 판독 가능 저장 매체는 저장된 프로그램을 포함하며, 프로그램이 실행될 경우, 컴퓨터 판독 가능 저장 매체가 위치한 기기가 상기 실시예 1의 이미지 처리 방법을 수행하도록 제어한다.
선택적으로, 본 실시예에서는, 상기 컴퓨터 판독 가능 저장 매체는 컴퓨터 네트워크 중 컴퓨터 단말기 클러스터 중 어느 하나의 컴퓨터 단말기에 위치하거나, 또는 이동 단말기 클러스터 중 어느 하나의 이동 단말기에 위치할 수 있다.
선택적으로, 본 실시예에서는, 컴퓨터 판독 가능 저장 매체는, 원본 이미지를 획득하는 단계; 원본 이미지에 대해 인체 검출을 수행하여, 인체 이미지를 획득하는 단계; 트레이닝된 제1 모델에 의해 인체 이미지를 처리하여, 2차원 관절점, 3차원 관절점 및 SMPL(Skinned Multi-Person Linear) 모델을 포함하는 인체 이미지의 처리 결과를 획득하는 단계; 및 인체 이미지의 처리 결과에 따라 인체 모델을 생성하는 단계; 를 수행하기 위한 프로그램 코드가 저장되도록 설정된다.
선택적으로, 본 실시예에서는, 컴퓨터 판독 가능 저장 매체는 또한, 이미지 처리 방법에 의해 제공되는 다양한 바람직하거나 선택적인 방법 단계의 프로그램 코드를 저장하도록 설정될 수 있다.
이상, 도면을 참조하면서 예시 방식으로 본 발명에 따른 이미지 처리 방법 및 장치를 설명하였다. 그러나, 본 기술분야의 통상의 기술자라면, 본 발명에 의해 제안된 상기 이미지 처리 방법 및 장치는 본 발명의 내용을 벗어나지 않는 전제 하에 다양한 개선이 이루어질 수도 있음을 이해해야 한다. 따라서, 본 발명의 보호 범위는 첨부된 특허청구범위의 내용에 의해 결정되어야 한다.
실시예 4
본 출원의 실시예에 따르면, 프로세서를 제공한다. 프로세서는 프로그램을 실행하도록 설정되며, 프로그램이 실행될 경우, 상기 실시예 1의 이미치 처리 방법이 수행된다.
상기 본 출원의 실시예의 번호는 설명을 위한 것일 뿐, 실시예의 우열을 의미하지 않는다.
본 출원의 상기 실시예에서는, 각 실시예에 대한 설명은 각각 중점을 갖고 있으며, 일부 실시예에서 상세하게 설명되지 않은 부분은 다른 실시예의 관련 설명을 참조할 수 있다.
본 출원에서 제공된 각 실시예에서는, 개시된 기술적 내용은 다른 방식으로 구현될 수 있음을 이해해야 할 것이다. 여기서, 이상에서 설명된 장치 실시예는 단지 예시적인 것이고, 예를 들면, 상기 유닛의 구획은 단지 논리적 기능 구획일 뿐이고, 실제 구현 시 다른 구획 방식이 있을 수 있으며, 예를 들면, 다수의 유닛 또는 컴포넌트는 다른 하나의 시스템에 결합 또는 집적될 수 있거나, 일부 특징은 생략되거나 실행되지 않을 수 있다. 또한, 표시 또는 논의된 서로 간의 커플링 또는 직접 커플링 또는 통신 연결은 일부 통신 인터페이스를 통한 것일 수 있고, 유닛 또는 모듈의 간접 커플링 또는 통신 연결은 전기적, 기계적 또는 다른 형식일 수 있다.
분리 부재로서 설명되는 상기 유닛은 물리적으로 분리된 것일 수 있거나 아닐 수도 있고, 유닛으로서 표시되는 부재는 물리 유닛일 수 있거나 아닐 수도 있으며, 즉 한 곳에 위치할 수 있거나 또는 다수의 유닛에 분포될 수도 있다. 실제 수요에 따라 그 중의 일부 또는 전부 유닛을 선택하여 본 실시예의 수단의 목적을 구현할 수 있다.
또한, 본 출원의 각 실시예 중의 각 기능 유닛은 하나의 처리 유닛에 집적될 수 있고, 각 유닛이 별도로 물리적으로 존재할 수도 있으며, 2개 또는 2개 이상의 유닛이 하나의 유닛에 집적될 수도 있다. 상기 집적된 유닛은 하드웨어 형태로 구현될 수 있고, 소프트웨어 기능 유닛의 형태로 구현될 수도 있다.
상기 집적된 유닛이 소프트웨어 기능 유닛의 형태로 구현되고, 독립적인 제품으로 판매되거나 사용될 때, 하나의 컴퓨터 판독 가능 저장 매체에 저장될 수 있다. 이러한 이해에 기반하면, 본 출원의 기술적 해결 수단은 본질적으로 또는 종래 기술에 대해 기여하는 부분 또는 상기 기술적 해결 수단의 전부 또는 일부는 소프트웨어 제품 형태로 구현될 수 있고, 상기 컴퓨터 소프트웨어 제품은 하나의 컴퓨터 기기(개인용 컴퓨터, 서버, 또는 네트워크 기기 등일 수 있음)가 본 출원의 각 실시예에 따른 방법의 전부 또는 일부 단계를 수행하도록 하는 다수의 명령을 포함하는 하나의 저장 매체에 저장된다. 전술한 저장 매체는 USB 메모리, 판독 전용 메모리(ROM, Read-Only Memory), 랜덤 액세스 메모리(RAM, Random Access Memory), 이동식 하드 디스크, 자기 디스크 또는 광 디스크 등 프로그램 코드를 저장할 수 있는 다양한 매체를 포함한다.
이상은 본 출원의 바람직한 실시형태일뿐, 본 기술분야의 통상의 기술자라면 본 출원의 원리를 벗어나지 않는 전제 하에 다양한 개선 또는 수정도 가능하며, 이러한 개선 및 수정도 본 출원의 보호 범위에 포함되는 것으로 간주되어야 한다.
전술한 바와 같이, 본 출원의 적어도 일부 실시예에 의해 제공되는 이미지 처리 방법 및 장치는 다음과 같은 유익한 효과를 갖는다. 하나의 모델을 이용하면 2차원 관절점, 3차원 관절점 및 SMPL 모델을 동시에 획득할 수 있고, 2차원 관절점을 통해 3차원 관절점을 추정할 필요가 없어지므로, 이미지 인식 정확도를 향상시키는 기술적 효과를 달성하여, 2차원 관절점 및 3차원 관절점의 포지셔닝 및 인체 파라미터 재구성에 대한 인식 정확도가 낮은 관련 기술의 과제를 해결함을 쉽게 알 수 있다.
Claims (17)
- 이미지 처리 방법으로서,
원본 이미지를 획득하는 단계;
상기 원본 이미지에 대해 인체 검출을 수행하여, 인체 이미지를 획득하는 단계;
트레이닝된 제1 모델에 의해 상기 인체 이미지를 처리하여, 2차원 관절점, 3차원 관절점 및 SMPL(Skinned Multi-Person Linear) 모델을 포함하는 상기 인체 이미지의 처리 결과를 획득하는 단계; 및
상기 인체 이미지의 처리 결과에 따라 인체 모델을 생성하는 단계; 를 포함하는 이미지 처리 방법. - 제1항에 있어서,
인체 이미지, 2차원 관절점의 제1 표기 정보, 3차원 관절점의 제2 표기 정보, 및 SMPL 모델의 파라미터 값을 각각 포함하는 복수 개 그룹의 트레이닝 샘플을 획득하는 단계;
상기 복수 개 그룹의 트레이닝 샘플을 이용하여 사전 설정 모델을 트레이닝시키고, 상기 사전 설정 모델의 목표 손실 값을 획득하는 단계;
상기 목표 손실 값이 사전 설정 값보다 작을 경우, 상기 사전 설정 모델에 대한 트레이닝을 정지하고, 상기 사전 설정 모델을 상기 제1 모델로 결정하는 단계; 및
상기 목표 손실 값이 상기 사전 설정 값보다 클 경우, 상기 목표 손실 값이 상기 사전 설정 값보다 작아질 때까지, 상기 복수 개 그룹의 트레이닝 샘플을 이용하여 상기 사전 설정 모델을 계속 트레이닝시키는 단계; 를 더 포함하는 방법. - 제2항에 있어서,
상기 복수 개 그룹의 트레이닝 샘플을 이용하여 사전 설정 모델을 트레이닝시키고, 상기 사전 설정 모델의 목표 손실 값을 획득하는 단계는,
상기 복수 개 그룹의 트레이닝 샘플을 상기 사전 설정 모델에 입력하고, 상기 2차원 관절점의 제1 결과, 상기 3차원 관절점의 제2 결과 및 SMPL 모델의 제3 결과를 포함하는 상기 사전 설정 모델의 출력 결과를 획득하는 단계;
상기 제1 표기 정보 및 상기 제1 결과를 기반으로, 상기 2차원 관절점의 제1 손실 값을 획득하는 단계;
상기 제2 표기 정보 및 상기 제2 결과를 기반으로, 상기 3차원 관절점의 제2 손실 값을 획득하는 단계;
상기 파라미터 값 및 상기 제3 결과를 기반으로, 상기 SMPL 모델의 제3 손실 값을 획득하는 단계; 및
상기 제1 손실 값, 상기 제2 손실 값 및 상기 제3 손실 값을 기반으로, 상기 목표 손실 값을 획득하는 단계; 를 포함하는 방법. - 제3항에 있어서,
상기 SMPL 모델의 파라미터 값은 수집 장치를 통해 수집된 실제 수치이거나, 상기 수집 장치를 통해 수집된 파라미터 값을 조절하여 획득되는 조절 수치인 방법. - 제4항에 있어서,
상기 파라미터 값 및 상기 제3 결과를 기반으로, 상기 SMPL 모델의 제3 손실 값을 획득하는 단계는,
상기 파라미터 값이 상기 수집 장치를 통해 수집된 실제 수치일 경우, 상기 파라미터 값 및 상기 제3 결과를 기반으로, 상기 제3 손실 값을 획득하는 단계; 및
상기 파라미터 값이 상기 수집 장치를 통해 수집된 파라미터 값을 조절하여 획득되는 조절 수치일 경우, 상기 파라미터 값을 기반으로 3차원 관절점을 획득하고, 상기 3차원 관절점을 2차원 평면에 투영하여 2차원 관절점을 획득하며, 투영된 2차원 관절점 및 상기 제1 표기 정보를 기반으로, 상기 2차원 관절점의 제4 손실 값을 획득하고, 상기 제4 손실 값을 상기 제3 손실 값으로 결정하는 단계를 포함하는 방법. - 제3항에 있어서,
판별기에 의해 상기 제3 결과의 파라미터 값을 처리하여, 상기 제3 결과의 파라미터 값이 수집 장치를 통해 수집된 실제 수치인지 여부를 나타내는 상기 제3 결과의 파라미터 값의 분류 결과를 획득하는 단계; 및
상기 분류 결과 및 상기 목표 손실 값을 기반으로, 상기 사전 설정 모델에 대한 트레이닝을 정지할지 여부를 결정하는 단계를 더 포함하는 방법. - 재6항에 있어서,
생성적 적대 네트워크를 이용하여 상기 판별기를 트레이닝시키는 방법. - 제1항에 있어서,
상기 원본 이미지에 대해 인체 검출을 수행하여, 인체 이미지를 획득하는 단계는,
트레이닝된 제2 모델에 의해 상기 원본 이미지를 처리하여, 상기 원본 이미지에서의 인체의 위치 정보를 획득하는 단계; 및
상기 위치 정보를 기반으로 상기 원본 이미지에 대해 크로핑 및 정규화 처리를 수행하여, 상기 인체 이미지를 획득하는 단계; 를 포함하는 방법. - 제1항에 있어서,
상기 제1 모델은 모래시계형 네트워크(Hourglass Network) 구조 또는 특징 피라미드 네트워크(FPN) 구조를 사용하는 방법. - 제1항에 있어서,
트레이닝된 제1 모델에 의해 상기 인체 이미지를 처리하여, 상기 인체 이미지의 처리 결과를 획득하는 단계는,
상기 제1 모델에 의해 상기 인체 이미지를 처리하여, 상기 SMPL 모델을 획득하는 단계; 및
상기 SMPL 모델을 기반으로 상기 2차원 관절점 또는 상기 3차원 관절점을 획득하는 단계; 를 포함하는 방법. - 제1항에 있어서,
상기 2차원 관절점은 히트맵 형태 또는 좌표 벡터 형태로 표현되고, 상기 3차원 관절점은 히트맵 형태 또는 좌표 벡터 형태로 표현되는 방법. - 제1항에 있어서,
상기 인체 이미지의 처리 결과에 따라 인체 모델을 생성하는 단계 이후,
상기 2차원 관절점 및 상기 3차원 관절점을 기반으로 인체 움직임을 캡쳐하는 단계; 및
상기 인체 움직임을 기반으로 인체 애니메이션 모델을 구동하는 단계; 를 더 포함하는 방법. - 제1항에 있어서,
상기 인체 이미지의 처리 결과에 따라 인체 모델을 생성하는 단계 이후,
상기 2차원 관절점 및 상기 3차원 관절점을 기반으로, 상기 인체 이미지의 목표 위치의 이미지 픽셀을 처리하는 단계; 를 더 포함하는 방법. - 제4항에 있어서,
상기 SMPL 모델의 파라미터 값은 가중치가 상기 조절 수치의 가중치보다 큰 상기 실제 수치 및 상기 조절 수치를 통해 예측하여 획득된 것인 방법. - 이미지 처리 장치로서,
원본 이미지를 획득하도록 설정되는 획득 모듈;
상기 원본 이미지에 대해 인체 검출을 수행하여, 인체 이미지를 획득하도록 설정되는 검출 모듈;
트레이닝된 제1 모델에 의해 상기 인체 이미지를 처리하여, 2차원 관절점, 3차원 관절점 및 SMPL(Skinned Multi-Person Linear) 모델을 포함하는 상기 인체 이미지의 처리 결과를 획득하도록 설정되는 처리 모듈; 및
상기 인체 이미지의 처리 결과에 따라 인체 모델을 생성하도록 설정되는 생성 모듈; 을 포함하는 이미지 처리 장치. - 저장된 프로그램을 포함하는 컴퓨터 판독 가능 저장 매체로서,
상기 프로그램이 실행될 경우, 상기 컴퓨터 판독 가능 저장 매체가 위치한 기기가 제1항 내지 제14항 중 어느 한 항에 따른 이미지 처리 방법을 수행하도록 제어하는 컴퓨터 판독 가능 저장 매체. - 프로그램을 실행하도록 설정된 프로세서로서,
상기 프로그램이 실행될 경우, 제1항 내지 제14항 중 어느 한 항에 따른 이미지 처리 방법이 수행되는 프로세서.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010231605.7A CN113449570A (zh) | 2020-03-27 | 2020-03-27 | 图像处理方法和装置 |
CN202010231605.7 | 2020-03-27 | ||
PCT/CN2021/080280 WO2021190321A1 (zh) | 2020-03-27 | 2021-03-11 | 图像处理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20220160066A true KR20220160066A (ko) | 2022-12-05 |
Family
ID=77808126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020227037422A KR20220160066A (ko) | 2020-03-27 | 2021-03-11 | 이미지 처리 방법 및 장치 |
Country Status (4)
Country | Link |
---|---|
JP (1) | JP7448679B2 (ko) |
KR (1) | KR20220160066A (ko) |
CN (1) | CN113449570A (ko) |
WO (1) | WO2021190321A1 (ko) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114299204B (zh) * | 2021-12-22 | 2023-04-18 | 深圳市海清视讯科技有限公司 | 三维动漫人物模型生成方法及装置 |
CN114157526B (zh) * | 2021-12-23 | 2022-08-12 | 广州新华学院 | 一种基于数字图像识别的家居安全远程监控方法及装置 |
CN115482557B (zh) * | 2022-10-09 | 2023-11-17 | 中国电信股份有限公司 | 人体图像生成方法、系统、设备及存储介质 |
CN117351432B (zh) * | 2023-12-04 | 2024-02-23 | 环球数科集团有限公司 | 一种用于景区游客的多目标识别模型的训练系统 |
CN117745978B (zh) * | 2024-02-20 | 2024-04-30 | 四川大学华西医院 | 一种基于人体三维重建算法的仿真质控方法、设备和介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140204013A1 (en) * | 2013-01-18 | 2014-07-24 | Microsoft Corporation | Part and state detection for gesture recognition |
JP6373026B2 (ja) | 2014-03-20 | 2018-08-15 | 株式会社東芝 | 画像処理装置、画像処理システム、画像処理方法、及びプログラム |
JP6912215B2 (ja) | 2017-02-09 | 2021-08-04 | 国立大学法人東海国立大学機構 | 対象物の姿勢等を検出する検出方法、検出プログラム |
CN108053469A (zh) * | 2017-12-26 | 2018-05-18 | 清华大学 | 多视角相机下的复杂动态场景人体三维重建方法及装置 |
CN108345869B (zh) * | 2018-03-09 | 2022-04-08 | 南京理工大学 | 基于深度图像和虚拟数据的驾驶人姿态识别方法 |
JP2020030613A (ja) | 2018-08-22 | 2020-02-27 | 富士通株式会社 | 情報処理装置、データ算出プログラム、及びデータ算出方法 |
CN109285215B (zh) * | 2018-08-28 | 2021-01-08 | 腾讯科技(深圳)有限公司 | 一种人体三维模型重建方法、装置和存储介质 |
CN109615582B (zh) * | 2018-11-30 | 2023-09-01 | 北京工业大学 | 一种基于属性描述生成对抗网络的人脸图像超分辨率重建方法 |
CN109702741B (zh) | 2018-12-26 | 2020-12-18 | 中国科学院电子学研究所 | 基于自监督学习神经网络的机械臂视觉抓取系统及方法 |
CN109859296B (zh) * | 2019-02-01 | 2022-11-29 | 腾讯科技(深圳)有限公司 | Smpl参数预测模型的训练方法、服务器及存储介质 |
CN110020633B (zh) * | 2019-04-12 | 2022-11-04 | 腾讯科技(深圳)有限公司 | 姿态识别模型的训练方法、图像识别方法及装置 |
CN110188598B (zh) | 2019-04-13 | 2022-07-05 | 大连理工大学 | 一种基于MobileNet-v2的实时手部姿态估计方法 |
CN110298916B (zh) * | 2019-06-21 | 2022-07-01 | 湖南大学 | 一种基于合成深度数据的三维人体重建方法 |
-
2020
- 2020-03-27 CN CN202010231605.7A patent/CN113449570A/zh active Pending
-
2021
- 2021-03-11 WO PCT/CN2021/080280 patent/WO2021190321A1/zh active Application Filing
- 2021-03-11 KR KR1020227037422A patent/KR20220160066A/ko unknown
- 2021-03-11 JP JP2022558577A patent/JP7448679B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
CN113449570A (zh) | 2021-09-28 |
JP7448679B2 (ja) | 2024-03-12 |
JP2023519012A (ja) | 2023-05-09 |
WO2021190321A1 (zh) | 2021-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11431896B2 (en) | Augmented reality for three-dimensional model reconstruction | |
CN108986161B (zh) | 一种三维空间坐标估计方法、装置、终端和存储介质 | |
KR20220160066A (ko) | 이미지 처리 방법 및 장치 | |
US20170337701A1 (en) | Method and system for 3d capture based on structure from motion with simplified pose detection | |
CN111968235A (zh) | 一种物体姿态估计方法、装置、系统和计算机设备 | |
CN111598998A (zh) | 三维虚拟模型重建方法、装置、计算机设备和存储介质 | |
US20210350560A1 (en) | Depth estimation | |
CN111208783B (zh) | 一种动作模仿方法、装置、终端及计算机存储介质 | |
US20110248995A1 (en) | System and methods for creating interactive virtual content based on machine analysis of freeform physical markup | |
CN112070782B (zh) | 识别场景轮廓的方法、装置、计算机可读介质及电子设备 | |
JP2016099982A (ja) | 行動認識装置、行動学習装置、方法、及びプログラム | |
JP2024519940A (ja) | データ処理方法、装置、データ処理システム、電子機器及びコンピュータプログラム | |
KR20180039013A (ko) | 전자 디바이스 상에서의 환경 맵핑을 위한 피쳐 데이터 관리 | |
CN114766042A (zh) | 目标检测方法、装置、终端设备及介质 | |
JP2023532285A (ja) | アモーダル中心予測のためのオブジェクト認識ニューラルネットワーク | |
CN115346262A (zh) | 一种表情驱动参数的确定方法、装置、设备及存储介质 | |
TW202247108A (zh) | 視覺定位方法、設備及電腦可讀儲存媒體 | |
JP2020201922A (ja) | 拡張現実アプリケーションに関するシステム及び方法 | |
CN108027647B (zh) | 用于与虚拟对象交互的方法和设备 | |
Urgo et al. | AI-Based Pose Estimation of Human Operators in Manufacturing Environments | |
CN113168706A (zh) | 视频流的帧中的对象位置确定 | |
Alleaume et al. | Introduction to AR-Bot, an AR system for robot navigation | |
US20240020901A1 (en) | Method and application for animating computer generated images | |
Korovin et al. | Human pose estimation applying ANN while RGB-D cameras video handling | |
Zhang et al. | Model Self-Adaptive Display for 2D–3D Registration |