KR20240013610A - 영상 기반 ai 휴먼 모션 생성 서비스 제공 방법 및 그 장치 - Google Patents

영상 기반 ai 휴먼 모션 생성 서비스 제공 방법 및 그 장치 Download PDF

Info

Publication number
KR20240013610A
KR20240013610A KR1020220091390A KR20220091390A KR20240013610A KR 20240013610 A KR20240013610 A KR 20240013610A KR 1020220091390 A KR1020220091390 A KR 1020220091390A KR 20220091390 A KR20220091390 A KR 20220091390A KR 20240013610 A KR20240013610 A KR 20240013610A
Authority
KR
South Korea
Prior art keywords
motion
similarity
human
artificial intelligence
motion data
Prior art date
Application number
KR1020220091390A
Other languages
English (en)
Inventor
유수연
최정원
Original Assignee
주식회사 네이션에이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 네이션에이 filed Critical 주식회사 네이션에이
Priority to KR1020220091390A priority Critical patent/KR20240013610A/ko
Publication of KR20240013610A publication Critical patent/KR20240013610A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Architecture (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Geometry (AREA)
  • Molecular Biology (AREA)
  • Computer Hardware Design (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

인공지능 기반으로 3차원 모션을 생성하는 방법 및 장치가 제공된다. 본 발명의 일 실시예에 따른 방법은, 영상 내에서 움직이는 휴먼 대상을 추출하고, 대상에 대응되는 AI 휴먼 캐릭터를 생성하는 휴먼 캐릭터 생성단계; 상기 영상 내에서 움직이는 휴먼 대상의 모션을 3D 메쉬 기반 동작 인식으로 모션 데이터를 추출하는 모션 추출단계; 상기 모션 추출단계에서 추출된 동작 데이터들을 기반으로 메트릭 런닝 인공지능 학습 모델을 통해 학습시키는 인공지능 학습단계; 상기 모션 추출단계에서 추출된 모션 데이터와, 상기 인공지능 학습모델에서 학습된 모션 데이터의 동작 유사도를 비교하여 최적 유사도의 모션 데이터를 찾는 유사도 비교단계; 상기 유사도 비교단계의 최적 유사도 모션데이터를 상기 휴먼 캐릭터의 모션으로 리타겟팅하여 AI휴먼 캐릭터의 모션을 생성하는 모션 생성단계; 를 포함한다.

Description

영상 기반 AI 휴먼 모션 생성 서비스 제공 방법 및 그 장치{METHOD AND DEVICE FOR PROVIDING IMAGE-BASED AI HUMAN AND MOTION GENERATION SEVICE}
본 발명은 AI 휴먼 모션 생성 서비스 제공 방법 및 그 장치에 관한 것이다. 더욱 상세하게는 2차원 영상으로부터 3D 메쉬(Mesh) 기반 모션 데이터를 추출하고, 대상에게 맞추어 AI 캐릭터에 리타게팅 및 모션 생성 서비스를 제공하는 영상 기반 AI 휴먼 모션 생성 서비스 제공 방법 및 그 장치에 관한 것이다.
메타버스 시장의 성장과 함께 핵심 요소인 3D 이미지 생성 기술에 대한 수요가 그와 동반하여 급증하고 있다. 국내외 기업들은 차세대 성장 동력으로 현실세계를 가상세계에 재현하는 메타버스에 주목하고 있으며, 메타버스의 핵심기술인 현실세계를 3D로 전환하여 가상세계에 표현하는 3D 이미징 기술에 대한 관심 또한 크게 증가하고 있다.
과거 3D 이미징 기술은 주로 게임 분야에 활용 되었으나, 최근에는 전 산업 영역으로 확장 적용되는 추세로, AR/VR, 영화, 애니메이션, 방송 등 다양한 컨텐츠 산업으로 그 적용 범위를 넓히고 있다.
그러나, 3D 이미징 기술에 대한 관심이 높은 것에 비해, 그 기술적 완성도는 부족한 상황이다. 가령, AI 휴먼을 생성하는 업체들의 경우 CG생성 방식 혹은 Deep Fake 생성 방식으로 가상 얼굴을 생성하는 것에만 기술 개발이 집중되어 있으며, 모션을 인식하여 이를 자연스러운 동작으로 재현하는 모션 재현에 대한 기술 개발은 부족한 상황이다.
또한, 3D 이미징 기술이 전 산업 영역에 확산 적용됨에 따라 3D 저작 도구 시장 또한 지속 성장하고 있으나, 현재의 3D 이미징 저작 도구들은 정적 객체(건축, 인테리어, 설비 등) 제작에만 초점이 맞춰져 있으며 움직이는 동적 객체를 3D로 전환하여 3차원 공간에 표현하는 기술에 대한 연구 및 개발은 부족한 실정이다.
대한민국 등록특허공보 제10-1327321호 (2013.11.11 공고)
본 발명의 실시예들을 통해 해결하고자 하는 기술적 과제는, 2차원 영상으로부터 3D 메쉬(Mesh) 기반 모션 데이터를 추출하고, 대상에게 맞추어 AI 캐릭터에 리타게팅 및 모션 생성 서비스를 제공하는 영상 기반 AI 휴먼 및 모션 생성 서비스 제공 방법 및 그 장치를 제공하는 것이다.
또한 본 발명의 실시예를 통해 해결하고자 하는 기술적 과제는, 인공지능 기반으로 2차원 영상 내 대상의 동작을 3차원 모션으로 재현할 수 있는 인공지능 기반으로 3차원 모션을 생성하는 방법 및 장치를 제공하는 것이다.
본 발명의 실시예들을 통해 해결하고자 하는 다른 기술적 과제는, 신체 일부가 제외된 영상을 기초로 전체 신체를 추론하여 그로부터 3차원 모션을 생성하는 인공지능 기반으로 3차원 모션을 생성하는 방법 및 장치를 제공하는 것이다.
본 발명의 실시예들을 통해 해결하고자 하는 다른 기술적 과제는, 메트릭 러닝 기반으로 2D 메쉬 동작 간 일치도를 스코어링하여 동작 유사 여부를 판단함으로써, 개인별 신체 차이에서 오는 영향을 배제하고 더욱 자세한 동작 비교가 가능한 인공지능 기반으로 3차원 모션을 생성하는 방법 및 장치를 제공하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상기한 바와 같은 과제를 해결하기 위한 영상 기반 AI 휴먼 및 모션 생성 서비스 제공 장치는,
영상 내에서 움직이는 휴먼 대상을 추출하고, 대상에 대응되는 AI 휴먼 캐릭터를 생성하는 휴먼 캐릭터 생성부;
상기 영상 내에서 움직이는 휴먼 대상의 모션을 3D 메쉬 기반 동작 인식으로 모션 데이터를 추출하는 모션 추출부;
상기 모션 추출부에서 추출된 동작 데이터들을 기반으로 메트릭 런닝 인공지능 학습 모델을 통해 학습시키는 인공지능 학습모델;
상기 모션 추출부에서 추출된 모션 데이터와, 상기 인공지능 학습모델에서 학습된 모션 데이터의 유사도를 비교하여 최적 유사도의 모션 데이터를 찾는 유사도 비교부;
상기 유사도 비교부의 최적 유사도 모션데이터를 상기 휴먼 캐릭터의 모션으로 리타겟팅하여 AI휴먼 캐릭터의 모션을 생성하는 모션 생성부; 를 포함한다.
상기한 바와 같은 과제를 해결하기 위한 영상 기반 AI 휴먼 및 모션 생성 서비스 제공 방법은,
영상 내에서 움직이는 휴먼 대상을 추출하고, 대상에 대응되는 AI 휴먼 캐릭터를 생성하는 휴먼 캐릭터 생성단계;
상기 영상 내에서 움직이는 휴먼 대상의 모션을 3D 메쉬 기반 동작 인식으로 모션 데이터를 추출하는 모션 추출단계;
상기 모션 추출부에서 추출된 동작 데이터들을 기반으로 메트릭 런닝 인공지능 학습 모델을 통해 학습시키는 인공지능 학습단계;
상기 모션 추출부에서 추출된 모션 데이터와, 상기 인공지능 학습모델에서 학습된 모션 데이터의 동작 유사도를 비교하여 최적 유사도의 모션 데이터를 찾는 유사도 비교단계;
상기 유사도 비교부의 최적 유사도 모션데이터를 상기 휴먼 캐릭터의 모션으로 리타겟팅하여 AI휴먼 캐릭터의 모션을 생성하는 모션 생성단계; 를 포함한다.
상기 유사도 비교단계는, 각 부위 및 동작에 대한 유사도 점수를 부여하여 동작 및 부위별 유사도를 기반으로 최적 유사도의 모션데이터를 찾는 유사도 점수비교 단계를 더 포함한다.
또한, 본 발명의 실시 예에 따른 인공지능 기반으로 3차원 모션을 생성하는 장치는 영상 내에서 움직이는 대상을 추출하여 상기 대상에 대한 3차원 모션을 생성하는 제1 추론 모델을 포함하고, 상기 제1 추론 모델은 생성기 및 판별기를 포함하는 적대적 생성 신경망(Generative Adversarial Network, GAN)으로서, 상기 생성기와 상기 판별기 간 적대적 학습을 통해 구축되고, 상기 생성기는 가상의 모션 메쉬 데이터를 생성하여 상기 판별기에 제공하고, 상기 판별기는 상기 가상의 모션 메쉬 데이터를 실제 모션 메쉬 데이터와 비교하여 상기 가상의 모션 메쉬 데이터의 진위여부를 판정할 수 있다.
일 실시예로서, 상기 제1 추론 모델은 2차원 영상으로부터 3차원 메쉬 데이터 형태로 상기 대상을 인식 및 추출할 수 있다.
일 실시예로서, 상기 제1 추론 모델은 모션 캡쳐 데이터를 이용하여 객체에 대한 3차원 볼륨 정보를 학습한 인공지능 모델일 수 있다.
일 실시예로서, 상기 제1 추론 모델은 메트릭 러닝을 이용하여 2D 메쉬 동작 간 일치도를 스코어링하여 점수로 전환하고, 상기 점수를 기초로 동작 데이터베이스에서 유사한 동작 순으로 복수의 모션을 검색할 수 있다.
일 실시예로서, 상기 제1 추론 모델은 3D 메쉬 모델에서 신체 골격 구조를 구성하는 관절 포인트를 추론하여 모션 데이터를 확보한 후, 상기 영상 내 상기 대상과 각 관절 포인트를 매칭시킬 수 있다.
일 실시예로서, 상기 영상 내에서 상기 대상의 신체 일부가 아웃프레임(outframe) 되어 있을 때, 상기 영상을 기초로 상기 대상의 전체 신체를 추론하는 제2 추론 모델을 더 포함할 수 있다.
일 실시예로서, 상기 제2 추론 모델은 2차원 이미지를 3차원 모델의 표면에 입히는 UV 맵 추출기, 및 신체 일부가 가려진 영상으로부터 신체 일부를 추론하여 전체 신체를 생성하는 전체 신체 생성기를 포함할 수 있다.
일 실시예로서, 입력된 소리나 텍스트를 인식하여, 상기 소리나 텍스트에 매칭되는 동작 또는 애니메이션을 생성하는 제3 추론 모델을 더 포함할 수 있다.
일 실시예로서, 제3 추론 모델은 상기 소리나 텍스트를 형태소 단위로 구분하고, 상기 형태소 단위로 모션 사전에서 매칭되는 동작을 검색하고, 상기 매칭된 동작에 형용사 또는 부사의 특성을 적용할 수 있다.
본 발명의 실시 예에 따르면, 인공지능 기반으로 2차원 영상 내 대상의 동작을 3차원 모션으로 재현할 수 있게 된다.
또한, 신체 일부가 제외된 영상을 기초로 전체 신체를 추론하여 그로부터 3차원 모션을 생성할 수 있게 된다.
또한, 메트릭 러닝 기반으로 2D 메쉬 동작 간 일치도를 스코어링하여 동작 유사 여부를 판단함으로써, 3차원 모션을 생성함에 있어 개인별 신체 차이에서 오는 영향을 배제하고 더욱 자세한 동작 비교를 할 수 있게 된다.
도 1은 본 발명의 일 실시예에 따른, 인공지능 기반으로 3차원 모션을 생성하는 방법을 개념적으로 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른, 3차원 모션을 생성하는 추론 모델의 구축 방법을 부연설명하기 위한 도면이다.
도 3 및 도 4는 대상의 3D 모션을 생성함에 있어, 영상 내에 대상의 전체 신체(whole body)가 드러나지 않은 경우에도 전체 신체를 추론할 수 있는 방법을 부연설명하기 위한 도면이다.
도 5는 메트릭 러닝 기반의 동작 유사도 판단 방법을 부연설명하기 위한 도면이다.
도 6은 인공지능 기반으로 소리나 텍스트를 동작 및 애니메이션으로 생성하는 방법을 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른, 인공지능 기반으로 3차원 모션을 생성하는 장치의 시스템 개요를 나타내는 블록도이다.
도 8은 본 발명의 실시 예에 따른 3차원 모션을 생성하는 장치를 컴퓨팅 장치로 구현한 예를 설명하기 위한 도면이다.
이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.
또한, 본 발명의 원리, 관점 및 실시예들 뿐만 아니라 특정 실시예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한 이러한 균등물들은 현재 공지된 균등물뿐만 아니라 장래에 개발될 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 소자를 포함하는 것으로 이해되어야 한다.
따라서, 예를 들어, 본 명세서의 블럭도는 본 발명의 원리를 구체화하는 예시적인 회로의 개념적인 관점을 나타내는 것으로 이해되어야 한다. 이와 유사하게, 모든 흐름도, 상태 변환도, 의사 코드 등은 컴퓨터가 판독 가능한 매체에 실질적으로 나타낼 수 있고 컴퓨터 또는 프로세서가 명백히 도시되었는지 여부를 불문하고 컴퓨터 또는 프로세서에 의해 수행되는 다양한 프로세스를 나타내는 것으로 이해되어야 한다.
프로세서 또는 이와 유사한 개념으로 표시된 기능 블럭을 포함하는 도면에 도시된 다양한 소자의 기능은 전용 하드웨어뿐만 아니라 적절한 소프트웨어와 관련하여 소프트웨어를 실행할 능력을 가진 하드웨어의 사용으로 제공될 수 있다. 프로세서에 의해 제공될 때, 상기 기능은 단일 전용 프로세서, 단일 공유 프로세서 또는 복수의 개별적 프로세서에 의해 제공될 수 있고, 이들 중 일부는 공유될 수 있다.
또한 프로세서, 제어 또는 이와 유사한 개념으로 제시되는 용어의 명확한 사용은 소프트웨어를 실행할 능력을 가진 하드웨어를 배타적으로 인용하여 해석되어서는 아니되고, 제한 없이 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 롬(ROM), 램(RAM) 및 비 휘발성 메모리를 암시적으로 포함하는 것으로 이해되어야 한다. 주지관용의 다른 하드웨어도 포함될 수 있다.
본 명세서의 청구범위에서, 상세한 설명에 기재된 기능을 수행하기 위한 수단으로 표현된 구성요소는 예를 들어 상기 기능을 수행하는 회로 소자의 조합 또는 펌웨어/마이크로 코드 등을 포함하는 모든 형식의 소프트웨어를 포함하는 기능을 수행하는 모든 방법을 포함하는 것으로 의도되었으며, 상기 기능을 수행하도록 상기 소프트웨어를 실행하기 위한 적절한 회로와 결합된다. 이러한 청구범위에 의해 정의되는 본 발명은 다양하게 열거된 수단에 의해 제공되는 기능들이 결합되고 청구항이 요구하는 방식과 결합되기 때문에 상기 기능을 제공할 수 있는 어떠한 수단도 본 명세서로부터 파악되는 것과 균등한 것으로 이해되어야 한다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일 실시예를 상세히 설명하기로 한다.
본 발명의 실시예에 따른 영상 기반 AI 휴먼 및 모션 생성 서비스 제공 장치는, 서비스 제공 장치에 있어서, 영상 내에서 움직이는 휴먼 대상을 추출하고, 대상에 대응되는 AI 휴먼 캐릭터를 생성하는 휴먼 캐릭터 생성부; 상기 영상 내에서 움직이는 휴먼 대상의 모션을 3D 메쉬 기반 동작 인식으로 모션 데이터를 추출하는 모션 추출부; 상기 모션 추출부에서 추출된 동작 데이터들을 기반으로 메트릭 런닝 인공지능 학습 모델을 통해 학습시키는 인공지능 학습모델; 상기 모션 추출부에서 추출된 모션 데이터와, 상기 인공지능 학습모델에서 학습된 모션 데이터의 유사도를 비교하여 최적 유사도의 모션 데이터를 찾는 유사도 비교부; 상기 유사도 비교부의 최적 유사도 모션데이터를 상기 휴먼 캐릭터의 모션으로 리타겟팅하여 AI휴먼 캐릭터의 모션을 생성하는 모션 생성부; 를 포함한다.
또한 본 발명의 실시 예에 따른 영상 기반 AI 휴먼 및 모션 생성 서비스 제공 방법은, 영상 내에서 움직이는 휴먼 대상을 추출하고, 대상에 대응되는 AI 휴먼 캐릭터를 생성하는 휴먼 캐릭터 생성단계; 상기 영상 내에서 움직이는 휴먼 대상의 모션을 3D 메쉬 기반 동작 인식으로 모션 데이터를 추출하는 모션 추출단계; 상기 모션 추출단계에서 추출된 동작 데이터들을 기반으로 메트릭 런닝 인공지능 학습 모델을 통해 학습시키는 인공지능 학습단계; 상기 모션 추출단계에서 추출된 모션 데이터와, 상기 인공지능 학습모델에서 학습된 모션 데이터의 동작 유사도를 비교하여 최적 유사도의 모션 데이터를 찾는 유사도 비교단계; 상기 유사도 비교단계의 최적 유사도 모션데이터를 상기 휴먼 캐릭터의 모션으로 리타겟팅하여 AI휴먼 캐릭터의 모션을 생성하는 모션 생성단계; 를 포함한다.
상기 유사도 비교단계는, 각 부위 및 동작에 대한 유사도 점수를 부여하여 동작 및 부위별 유사도를 기반으로 최적 유사도의 모션데이터를 찾는 유사도 점수비교 단계를 더 포함한다.
도 1은 본 발명의 일 실시예에 따른, 인공지능 기반으로 3차원 모션을 생성하는 방법을 개념적으로 설명하기 위한 도면이다.
본 발명은 인공지능을 활용하여 2차원 영상에서 움직이는 대상의 동작을 3차원 메쉬 모션 데이터로 재생성한 후, 영상 내 대상의 모션을 3D 모션으로 재현하는 방법을 제안한다.
먼저, 도 1에 도시된 바와 같이 원본 동영상이 획득 및 분석된다. 그리고 원본 동영상으로부터 3D 모션 데이터가 추출된다. 이후, 3D 모션 데이터를 기반으로 가상화된 3D 모션이 생성 및 재현된다.
본 발명의 경우 모션 캡쳐나 마커가 없이 2D RGB 영상으로부터 3D 메쉬 데이터 형태로 대상 객체를 인식 및 추출하고, 3D 메쉬 모션 데이터를 확보하여 원하는 대상에 대해 3D 모션을 재현한다.
이를 위해, 사전에 대량의 모션 캡쳐 데이터를 확보하고, 이를 이용하여 사람, 동물, 및 사물 등 객체에 대한 3차원 볼륨 정보를 학습하는 제1 추론 모델을 개발한다.
상기 제1 추론 모델을 이용하면, 2D RGB 카메라 영상으로부터도 3차원 가상공간의 이미지 깊이를 추정하고 3D 메쉬 기반의 볼륨 추정이 가능해진다.
상기 3차원 모션을 생성하는 제1 추론 모델의 구축 방법에 대해 도 2를 참조하여 부연설명한다.
앞서 설명한 바와 같이, 제1 추론 모델은 사전에 확보한 대량의 모션 캡쳐 데이터를 이용하여 기계학습된다.
일 실시예로서, 제1 추론 모델은 생성기(Generator) 및 판별기(Discriminator)를 포함하고 생성기와 판별기 간 적대적 학습에 의해 구축되는 적대적 생성 신경망(Generative Adversarial Network, GAN)일 수 있다.
가령, 도 2의 (a)와 같은 사람의 전체 신체를 중심으로 한 모션 데이터가 구비된다고 가정하자. 생성기는 도 2의 (b)와 같이 구비된 모션 데이터를 기계학습 방법에 의해 사전 트레이닝하여, 가상의 모션 메쉬 데이터를 생성하도록 구성된다. 판별기는 도 3의 (c)와 같이 생성기가 생성한 가상의 모션 메쉬 데이터와 실제 모션 메쉬 데이터를 비교하여, 가상의 모션 메쉬 데이터의 진위 여부를 판별한다. 판별기가 생성기가 생성한 가상의 모션 메쉬 데이터를 가짜 데이터로 판별하면, 그 결과는 생성기로 피드백되어 오류를 수정하는 데 활용된다.
이를 통해 진짜와 가짜를 구별하기 어려울 정도로 실제와 매우 유사한 가상의 모션 메쉬 데이터가 생성될 수 있다.
한편, 추론 모델을 이용한 3D 모션의 생성은 아래와 같은 방법으로 수행될 수 있다.
먼저, 사진 및 영상의 각 프레임에서 대상(사람 및 동물 등)을 인식한 후 3D 메쉬 데이터를 활용하여 대상의 모션을 모델링한다.
이때, 3D 메쉬 데이터를 활용하여 모델링 후 신체 골격 구조를 결정하는 관절(joint) 및 키 포인트(key point)를 AI 기반으로 자동 설정된다.
일 실시예로서, 3D 포즈(pose)의 생성에 있어서는 (x, y, z) 좌표가 사용될 수 있다.
일 실시예로서, 3D 메쉬 데이터는 볼륨기반 모델로서, 다각형 면(삼각형 혹은 사각형의 면)으로 구성될 수 있다.
다음으로, 3D 메쉬 형태로 영상 내 대상을 추론 및 재생성 하여 3차원 공간에 대상을 오브젝트로서 재구현한 후 대상의 모션을 재현한다.
한편, 본 발명은 영상 내에서 대상의 신체 일부가 가려진 경우에도 대상의 전체 신체(whole body)를 추론하여 대상의 모션을 재현할 수 있다. 이에 대한 부연 설명을 위해 도 3 및 도 4를 참조한다.
일반적인 카메라 촬영 동영상의 경우 대상의 전체 신체를 영상에 다 담지 ㅁ못하고, 팔이나 다리 등 신체 일부가 아웃프레임(Outframe) 되는 경우가 다수 ㅂ많발생할 수 있다.
이 경우, 대상의 3D 모션을 추론할 때, 영상 내 대상의 자세(pose)를 틀리게 추정할 가능성이 커지게 된다. 이에, 영상 내에 들어오지 않은 신체의 부분을 별도의 제2 추론모델을 활용하여 3D 전체 신체 컨텐츠(3D whole body contents)로 재생성할 수 있다. 이 경우, 대상의 신체 일부가 가려진 경우에도 대상의 모션을 추론 및 재생할 수 있다.
일 실시예로서, 상기 제2 추론 모델은 인간의 전체 신체가 담긴 다수의 학습 데이터를 기반으로 기계학습되어, 신체 영상의 일부를 입력받아 신체 영상의 나머지를 추론하는 인공지능 기반의 기계학습 모델일 수 있다.
일 실시예로서, 상기 제2 추론 모델은 UV 맵 추출기 및 전체 신체 생성기를 포함하는 모델일 수 있다. 여기서, UV 맵 추출기는 2차원 이미지를 3차원 모델의 표면에 입히는 인공지능 기반의 모델일 수 있다. 여기서, 전체 신체 생성기는 신체 일부가 가려진 영상으로부터 제거된 신체 일부를 추론하여 전체 신체를 생성하는 인공지능 기반의 모델일 수 있다.
도 3은 UV 맵 추출기 학습 과정을 나타내는 도면이다. 도 4는 전체 신체 생성기의 학습 과정을 나타내는 도면이다.
한편, 본 발명은 메트릭 러닝(Metric Learning)을 이용하여 2D 메쉬 동작 간의 일치도를 스코어링하여 점수로 전환하고, 상기 점수를 기초로 동작 데이터베이스에서 유사한 동작 순으로 모션을 검색할 수 있다. 이에 대한 부연 설명을 위해 도 5를 참조한다.
도 5의 (a)는 종래 2D 스켈레톤 기준으로 동작의 유사도를 판단하는 코사인 유사도 방식을 나타낸다. 코사인 유사도는 각 신체 부위별로 수학적 거리를 계산하여 그 조합으로서 동작의 유사도를 판단한다. 따라서, 개인적 신체 특성 차이 및 가중치를 반영할 수 없어, 실제 적용에 있어 오차가 발생할 수 있는 가능성이 있다.
도 5의 (b)는 본 발명의 메트릭 러닝 방식에 의한 동작의 유사도 판단 방법을 나타낸다. 메트릭 러닝 방식에서는 생성된 3D 메쉬 모델에서 신체 골격 구조를 구성하는 관절 포인트를 추론하여 모션 데이터를 확보한 후, 영상 속 대상과 각 관절 포인트를 매칭시키는 방식으로 동작의 유사도를 판단한다.
즉, 키가 크거나 작은 경우, 체형이 뚱뚱하거나 마른 경우에도 특정 관절이 아닌 움직임의 전체 추이를 측정하여 스코어링하므로 신체 차이에 따른 영향도를 최소화 할 수 있다. 따라서, 사용자별 신체 특성 차이에서 오는 영향을 최소화할 수 있을 뿐 아니라, 특정 동작이나 시점에 대해 가중치를 부여할 수 있어 단순히 동작 비교를 하는 것을 뛰어넘어 예술적 특성 및 보다 상세한 비교가 가능한 장점이 있다.
또한, 본 발명은 인공지능 기반으로, 입력된 소리나 텍스트를 인식하여 그와 매칭되는 동작이나 애니메이션을 생성 및 재현할 수도 있다. 이에 대한 부연 설명을 위해 도 6을 참조한다.
본 실시예는 인공지능 기반의 제3 추론 모델에 의해 수행될 수 있다. 제3 추론 모델은 도 6에 도시된, (a) 모션 자동 인코더, (b) 학습 파이프라인, (c) 추론 파이프라인 단계를 통해 기계학습된 인공지능 모델로서, 완성하고 싶은 스토리의 애니메이션을 사용자가 말하거나 텍스트로 입력하면, 해당 음성 및 텍스트를 분석하여 문장에 맞는 모션을 자동 생성, 재현한다.
일 실시예로서, 사용자가 입력한 문장은 텍스트 인코더에서 동사, 형용사, 부사, 명사 등 형태소 단위로 구분되고, 사전에 라벨링 및 분류된 모션 사전에서 해당 동작이 매칭되어, 매칭된 동작에 형용사나 부사 등의 특성을 적용하여 모션이 생성, 재현될 수 있다.
한편, 본 발명에 따른 인공지능 기반으로 3차원 모션을 생성하는 방법은 다양한 분야에 응용될 수 있다.
그러한 일 예로서, 휴대폰 카메라 촬영 기반으로 3차원 동작 정보를 추출하여 웹과 앱을 통해 해당 동작을 수정, 보완한 후, 이를 콘텐츠로서 공유 및 거래하는 3D 콘텐츠 거래 플랫폼 시스템에 활용이 가능하다.
가령, 사용자가 휴대폰 카메라로 촬영한 영상이나 기존에 확보한(유튜브 등 다운 받은 영상) 영상을 업로드 하면 서버에서 해당 영상 내 움직이는 객체를 인식하고 3D 메쉬 데이터를 추출한 후, 3D 메쉬 데이터 기반으로 3D 모션을 추론하여 3차원 공간에 움직이는 3D 콘텐츠를 생성하고 해당 콘텐츠를 공유 및 거래하는 플랫폼 시스템의 구현이 가능하다.
또는 다른 일 예로서, 텍스트 및 음성을 분석하여 맥락을 이해하고 3차원 모션 및 애니메이션으로 생성함으로써, 사용자가 글을 쓰거나 말을 하게 되면 그 내용에 따라 3D 애니메이션 콘텐츠가 자동 생성되어 애니메이션 제작이 가능한 플랫폼 시스템에 활용이 가능하다.
가령, 웹 소설, 글 등 창작물의 스토리를 입력하면 해당 글 안에서 동사, 형용사 등을 구분하고 동사에 맞는 동작을 생성하되 형용사, 부사 등 꾸밈말에 따라 동작을 취하거나, 여러 동사가 섞여있는 문장의 경우 먼저 언급된 동사의 순서대로 모션을 순차 적용하여 동작과 동작이 자연스럽게 이어지는 3D 모션 영상의 생성이 가능하다.
또는, 여러 작업자가 참여하며 플레이어 작가가 글을 작성하면 3D 애니메이션이 실시간 제작되고, 함께 실시간으로 애니메이션 제작 과정을 공유할 수 있으며 이야기 전개 과정 중 공동 작업 등을 통해 새로운 이야기를 이어 나가도록 하는 것도 가능하다.
일 실시예로서, 완성된 애니메이션 및 모션은 사용자 옵션에 따라 화풍을 선택하여 스타일 전환이 가능할 수 있다. 예를 들어, 동양화, 수채화, 모네의 그림, 고흐의 그림, 카툰, 일본 애니메이션 등과 같이 기존에 학습해놓은 스타일의 채색이나 표현 방식을 사용자가 제작한 3D 모션에 적용함으로써, 화풍의 전환이 가능하게 될 수 있다.
일 실시시예로서, 창작자는 플랫폼 시스템에 접속하여 3D 스토리 콘텐츠 영상을 만들고 이를 플랫폼 시스템에 업로드하고, NFT 거래 및 판매를 통해 수익을 얻는 방식의 플랫폼 시스템고 가능하다.
또는 다른 일 예로서, 본 발명을 이용하여 3D 콘텐츠 제작 플랫폼 및 3D 콘텐츠 데이터 웨어하우스 구축이 가능하다. 콘텐츠 제작사와 3D 콘텐츠를 개발하는 개인 사용자가 본 발명이 구현된 플랫폼 시스템을 활용하여 3D 콘텐츠, 애니메이션 등을 제작한 후 사용자 동의를 통해 제작한 3D 콘텐츠를 공유하여 수익화가 가능하며, 해당 콘텐츠를 다운 받아 다른 스토리로 2차 제작하거나 다른 2차 가공물로 편집도 가능하고, 이를 기초로 웹 기반 협업툴을 통해 3D 콘텐츠에 대한 동시 작업을 진행하는 방식의 스토리 애니메이션 제작이 가능할 수 있다.
한편, 본 발명의 실시예들에 따른, 인공지능 기반으로 3차원 모션을 생성하는 장치의 시스템 개요가 참고적으로 도 7에 도시된다. 도 7을 참조하면, VTM(Video to 3D Motion), TTM(Text to 3D Motion), 및 MSE(Motion Search Engine) 기술 구현을 위한 각 기능 모듈 및 구성요소들이 하나의 시스템으로서 조합된 예를 확인할 수 있다.
이상에서 설명한 본 발명의 실시 예들에 따르면, 인공지능 기반으로 2차원 영상 내 대상의 동작을 3차원 모션으로 재현할 수 있게 된다. 또한, 신체 일부가 제외된 영상을 기초로 전체 신체를 추론하여 그로부터 3차원 모션을 생성할 수 있게 된다. 또한, 메트릭 러닝 기반으로 2D 메쉬 동작 간 일치도를 스코어링하여 동작 유사 여부를 판단함으로써, 3차원 모션을 생성함에 있어 개인별 신체 차이에서 오는 영향을 배제하고 더욱 자세한 동작 비교를 할 수 있게 된다.
이하에서는, 도 8을 참조하여 본 발명의 다양한 실시예에 따른 인공지능 기반으로 3차원 모션을 생성하는 방법 및 장치가 구현되는 예시적인 컴퓨팅 장치(500)에 대하여 설명하도록 한다.
도 8은 컴퓨팅 장치(500)를 나타내는 예시적인 하드웨어 구성도이다.
도 8에 도시된 바와 같이, 컴퓨팅 장치(500)는 하나 이상의 프로세서(510), 버스(550), 통신 인터페이스(570), 프로세서(510)에 의하여 수행되는 컴퓨터 프로그램(591)을 로드(load)하는 메모리(530)와, 컴퓨터 프로그램(591)를 저장하는 스토리지(590)를 포함할 수 있다. 다만, 도 8에는 본 발명의 실시예와 관련 있는 구성요소들만이 도시되어 있다. 따라서, 본 발명이 속한 기술분야의 통상의 기술자라면 도 8에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다.
프로세서(510)는 컴퓨팅 장치(500)의 각 구성의 전반적인 동작을 제어한다. 프로세서(510)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 발명의 기술 분야에 잘 알려진 임의의 형태의 프로세서 중 적어도 하나를 포함하여 구성될 수 있다. 또한, 프로세서(510)는 본 발명의 다양한 실시예들에 따른 방법/동작을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 컴퓨팅 장치(500)는 하나 이상의 프로세서를 구비할 수 있다.
메모리(530)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(530)는 본 발명의 다양한 실시예들에 따른 방법/동작들을 실행하기 위하여 스토리지(590)로부터 하나 이상의 프로그램(591)을 로드(load) 할 수 있다. 메모리(530)의 예시는 RAM이 될 수 있으나, 이에 한정되는 것은 아니다.
버스(550)는 컴퓨팅 장치(500)의 구성 요소 간 통신 기능을 제공한다. 버스(550)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.
통신 인터페이스(570)는 컴퓨팅 장치(500)의 유무선 인터넷 통신을 지원한다. 통신 인터페이스(570)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 통신 인터페이스(570)는 본 발명의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다.
스토리지(590)는 하나 이상의 컴퓨터 프로그램(591)을 비임시적으로 저장할 수 있다. 스토리지(590)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.
컴퓨터 프로그램(591)은 본 발명의 다양한 실시예들에 따른 방법/동작들이 구현된 하나 이상의 인스트럭션(Instruction)들을 포함할 수 있다. 컴퓨터 프로그램(591)이 메모리(530)에 로드 되면, 프로세서(510)는 상기 하나 이상의 인스트럭션들을 실행시킴으로써 본 발명의 다양한 실시예들에 따른 방법/동작들을 수행할 수 있다.
상술한 본 발명에 따른 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있다.
컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 상기 방법을 구현하기 위한 기능적인(function) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims (3)

  1. 서비스 제공 장치에 있어서,
    영상 내에서 움직이는 휴먼 대상을 추출하고, 대상에 대응되는 AI 휴먼 캐릭터를 생성하는 휴먼 캐릭터 생성부;
    상기 영상 내에서 움직이는 휴먼 대상의 모션을 3D 메쉬 기반 동작 인식으로 모션 데이터를 추출하는 모션 추출부;
    상기 모션 추출부에서 추출된 동작 데이터들을 기반으로 객체에 대한 3차원 볼륨 정보를 메트릭 러닝 인공지능 학습 모델을 통해 학습시키는 인공지능 학습모델;
    상기 모션 추출부에서 추출된 모션 데이터와, 상기 인공지능 학습모델에서 학습된 메트릭 러닝 모션 데이터의 유사도를 비교하여 최적 유사도의 모션 데이터를 찾는 유사도 비교부;
    상기 유사도 비교부의 최적 유사도 모션데이터를 상기 휴먼 캐릭터의 모션으로 리타겟팅하여 AI휴먼 캐릭터의 모션을 생성하는 모션 생성부; 를 포함하는
    서비스 제공 장치.
  2. 서비스 제공 방법에 있어서,
    영상 내에서 움직이는 휴먼 대상을 추출하고, 대상에 대응되는 AI 휴먼 캐릭터를 생성하는 휴먼 캐릭터 생성단계;
    상기 영상 내에서 움직이는 휴먼 대상의 모션을 3D 메쉬 기반 동작 인식으로 모션 데이터를 추출하는 모션 추출단계;
    상기 모션 추출단계에서 추출된 동작 데이터들을 기반으로 메트릭 런닝 인공지능 학습 모델을 통해 학습시키는 인공지능 학습단계;
    상기 모션 추출단계에서 추출된 모션 데이터와, 상기 인공지능 학습모델에서 학습된 모션 데이터의 동작 유사도를 비교하여 최적 유사도의 모션 데이터를 찾는 유사도 비교단계;
    상기 유사도 비교단계의 최적 유사도 모션데이터를 상기 휴먼 캐릭터의 모션으로 리타겟팅하여 AI휴먼 캐릭터의 모션을 생성하는 모션 생성단계; 를 포함하는
    서비스 제공 방법.
  3. 제2항에 있어서,
    상기 유사도 비교단계는,
    각 부위 및 동작에 대한 유사도 점수를 부여하여 동작 및 부위별 유사도를 기반으로 최적 유사도의 모션데이터를 찾는 유사도 점수비교 단계를 더 포함하는
    서비스 제공 방법.
KR1020220091390A 2022-07-22 2022-07-22 영상 기반 ai 휴먼 모션 생성 서비스 제공 방법 및 그 장치 KR20240013610A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220091390A KR20240013610A (ko) 2022-07-22 2022-07-22 영상 기반 ai 휴먼 모션 생성 서비스 제공 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220091390A KR20240013610A (ko) 2022-07-22 2022-07-22 영상 기반 ai 휴먼 모션 생성 서비스 제공 방법 및 그 장치

Publications (1)

Publication Number Publication Date
KR20240013610A true KR20240013610A (ko) 2024-01-30

Family

ID=89715108

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220091390A KR20240013610A (ko) 2022-07-22 2022-07-22 영상 기반 ai 휴먼 모션 생성 서비스 제공 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR20240013610A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101327321B1 (ko) 2009-12-11 2013-11-11 한국전자통신연구원 모션 캡쳐 데이터의 포즈 검색 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101327321B1 (ko) 2009-12-11 2013-11-11 한국전자통신연구원 모션 캡쳐 데이터의 포즈 검색 장치 및 방법

Similar Documents

Publication Publication Date Title
US10860838B1 (en) Universal facial expression translation and character rendering system
US11741668B2 (en) Template based generation of 3D object meshes from 2D images
JP2022028791A (ja) 画像正則化及びリターゲティングシステム
Deng et al. Animating blendshape faces by cross-mapping motion capture data
KR20210110620A (ko) 상호작용 방법, 장치, 전자 장치 및 저장 매체
CN110785767A (zh) 紧凑的无语言面部表情嵌入和新颖三元组的训练方案
CN111383307A (zh) 基于人像的视频生成方法及设备、存储介质
US9805493B2 (en) Social identity models for automated entity interactions
US11514638B2 (en) 3D asset generation from 2D images
KR101977893B1 (ko) 영상컨텐츠 적용 디지털액터의 운용방법
Abdul‐Massih et al. Motion style retargeting to characters with different morphologies
CN116958342A (zh) 虚拟形象的动作生成方法、动作库的构建方法及装置
KR20240013613A (ko) 영상만으로 ai 휴먼 3차원 모션을 생성하는 방법 및 그 기록매체
Costigan et al. Facial retargeting using neural networks
KR20240013610A (ko) 영상 기반 ai 휴먼 모션 생성 서비스 제공 방법 및 그 장치
KR20240013611A (ko) 영상의 생략된 신체 부분을 복원하여 전체 3차원 모션을 생성하는 장치 및 방법
KR20240013612A (ko) 소리와 텍스트에 매칭되는 인공지능 기반 3차원 모션을 생성하는 장치 및 그 동작방법
Pantuwong A tangible interface for 3D character animation using augmented reality technology
Nazarieh et al. A Survey of Cross-Modal Visual Content Generation
Zaramella et al. Why Don't You Speak?: A Smartphone Application to Engage Museum Visitors Through Deepfakes Creation
Figueroa et al. A pen and paper interface for animation creation
WO2024066549A1 (zh) 一种数据处理方法及相关设备
Jorgensen et al. From screenplay to screen: A natural language processing approach to animated film making
조시현 Interactive Storyboarding System Leveraging Large-Scale Pre-trained Model
Amoruso et al. Game engine: valutazione comparativa per una teoria d’utilizzo nel campo del Digital Heritage. Game Engine Applications Overview And Comparative Analysis For The Enhancement Of Cultural Heritage