KR102358464B1

KR102358464B1 - 인공지능 기술을 이용하여 영상 정보로부터 3d 캐릭터 애니메이션을 자동으로 생성하는 3d 이미지 변환장치 및 이를 포함하는 3d 이미지 변환시스템

Info

Publication number: KR102358464B1
Application number: KR1020210093232A
Authority: KR
Inventors: 김연표
Original assignee: (주)소프트젠
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2022-02-08

Abstract

본 발명의 인공지능 기술을 이용하여 영상 정보로부터 3D 캐릭터 애니메이션을 자동으로 생성하는 3D 이미지 변환장치는, 2D 영상을 사용자 단말기로부터 수신하는 통신부와, 상기 2D 영상을 기학습된 제1 인공신경망에 적용하여 상기 2D 영상 내 인간 형상의 제1 객체의 주요관절의 위치를 상기 2차원 좌표로 출력하는 2D 이미지 분석모듈과, 상기 제1 객체를 3D 이미지로 변환하기 위해, 상기 2차원 좌표를 기학습된 제2 인공신경망에 적용하여 상기 주요관절의 위치를 3차원 좌표로 출력하는 3D 이미지 분석모듈과, 3D 이미지의 깊이 보정을 위해, 기설정된 호모그래피 행렬을 이용하여 상기 3차원 좌표를 상기 제1 객체가 위치한 공간 상의 공간좌표로 변환하는 깊이 분석모듈과, 상기 공간좌표에 대응하는 각 골격 포인트를 연결하여 골격형상으로 구현된 3D 골격 이미지를 생성하는 3D 이미지 생성모듈을 포함한다.

Description

인공지능 기술을 이용하여 영상 정보로부터 3D 캐릭터 애니메이션을 자동으로 생성하는 3D 이미지 변환장치 및 이를 포함하는 3D 이미지 변환시스템{3D IMAGE CONVERTER THAT AUTOMAICALLY GENERATES 3D CHARACTER ANIMATION FROM IMAGE INFOMATION USING ARTIFICIAL INTELLIGENCE AND 3D IMAGE CONVERTING SYSTEM INCLUDING THE SAME}

본 발명은 인공지능 기술을 이용하여 영상 정보로부터 3D 캐릭터 애니메이션을 자동으로 생성하는 3D 이미지 변환장치 및 이를 포함하는 3D 이미지 변환시스템에 관한 것이다.

최근 동영상 공유 사이트 혹은 소셜 네트워크 서비스(SNS)가 유행하면서 참신하고 독특한 동영상들이 다량으로 만들어지고 있다. 이러한 동영상 중에는 특수효과를 부가하거나 캐릭터를 이용한 애니메이션 형태의 컨텐츠로 제작되는 경우도 존재한다.

그러나, 이러한 특수효과를 부과하거나 애니메이션을 제작하는 방식은 사용자의 많은 시간적 혹은 재정적 투자를 요구하는 방식으로 일반인이 쉽게 이용하기 어려운 방식이다. 모션캡처 데이터를 생성하기 위해서는 별도의 촬영장비가 필요한데, 이러한 장비는 고가이므로 일반인이 사용하기에는 재정적 어려움이 존재한다.

또한, 제작한 동영상을 편집하더라도 고가의 편집툴이 필요하고, 고도의 기술이 요구된다. 따라서, 전문적인 장비와 기술이 부족한 일반인들에게는 특수효과를 부가하거나 애니메이션 형태의 동영상 등을 제작하기에 많은 난관이 존재하여 적극적인 컨텐츠 제작 참여를 유도하기 어렵다.

본 발명이 이루고자 하는 기술적인 과제는, 동영상이나 사진으로 촬영된 인간의 자세를 인공지능 기법을 이용하여 포즈 데이터로 추출한 후 3D 공간에 맵핑하여 모션 캡처 데이터 포맷으로 변환하는 인공지능 기술을 이용하여 영상 정보로부터 3D 캐릭터 애니메이션을 자동으로 생성하는 3D 이미지 변환장치 및 이를 포함하는 3D 이미지 변환시스템을 제공하는 것이다.

본 발명의 실시 예에 따른 인공지능 기술을 이용하여 영상 정보로부터 3D 캐릭터 애니메이션을 자동으로 생성하는 3D 이미지 변환장치는, 2D 영상을 사용자 단말기로부터 수신하는 통신부와, 상기 2D 영상을 기학습된 제1 인공신경망에 적용하여 상기 2D 영상 내 인간 형상의 제1 객체의 주요관절의 위치를 상기 2차원 좌표로 출력하는 2D 이미지 분석모듈과, 상기 제1 객체를 3D 이미지로 변환하기 위해, 상기 2차원 좌표를 기학습된 제2 인공신경망에 적용하여 상기 주요관절의 위치를 3차원 좌표로 출력하는 3D 이미지 분석모듈과, 3D 이미지의 깊이 보정을 위해, 기설정된 호모그래피 행렬을 이용하여 상기 3차원 좌표를 상기 제1 객체가 위치한 공간 상의 공간좌표로 변환하는 깊이 분석모듈과, 상기 공간좌표에 대응하는 각 골격 포인트를 연결하여 골격형상으로 구현된 3D 골격 이미지를 생성하는 3D 이미지 생성모듈을 포함한다.

실시 예에 따라, 상기 제1 및 제2 인공신경망들 각각은 합성곱신경망(Convolutional neural network)로 이루어질 수 있다.

실시 예에 따라, 상기 3D 이미지 생성모듈은, 상기 3D 골격 이미지에 애니메이션 효과를 삽입하여 3D 캐릭터를 생성하고, 상기 3D 캐릭터가 포함된 모션캡처 데이터 파일을 생성할 수 있다.

실시 예에 따라, 상기 3D 이미지 생성모듈은, 상기 3D 골격 이미지에 설정된 골격 간 제1 비율값과, 상기 애니메이션 효과에 설정된 골격 간 제2 비율값을 비교하고, 상기 제1 비율값과 상기 제2 비율값이 상이한 경우, 상기 제1 비율값과 같도록 상기 제2 비율값을 스케일링하며, 스케일링된 제2 비율값에 따라 상기 애니메이션 효과를 보정할 수 있다.

실시 예에 따라, 상기 3D 이미지 생성모듈은, 보정된 애니메이션 효과를 상기 3D 골격 이미지에 삽입하여 상기 3D 캐릭터를 생성할 수 있다.

본 발명의 다른 실시 예에 따른 사용자 단말기로부터 전송된 2D 영상을 변환하여 3D 캐릭터를 포함하는 모션캡처 데이터 파일을 생성하는 3D 이미지 변환장치를 포함하는 웹 기반 3D 이미지 변환시스템은, 상기 2D 영상을 분석하여 상기 2D 영상 내 제1 객체를 3D 골격 이미지로 변환하고, 상기 3D 골격 이미지에 애니메이션 효과를 삽입하여 상기 3D 캐릭터가 포함된 상기 모션캡처 데이터 파일을 생성하는 3D 이미지 변환장치와, 상기 3D 이미지 변환장치로부터 상기 3D 골격 이미지 및 상기 모션캡처 데이터 파일을 중 적어도 하나를 수신하여 표시하는 사용자 단말기를 포함하고, 상기 3D 이미지 변환장치는, 상기 2D 영상을 상기 사용자 단말기로부터 수신하는 통신부와, 상기 2D 영상을 기학습된 제1 인공신경망에 적용하여 인간 형상의 제1 객체의 주요관절의 위치를 2차원 좌표로 출력하는 2D 이미지 분석모듈과, 상기 제1 객체를 3D 이미지로 변환하기 위해, 상기 2차원 좌표를 기학습된 제2 인공신경망에 적용하여 상기 주요관절의 위치를 3차원 좌표로 출력하는 3D 이미지 분석모듈과, 3D 이미지의 깊이 보정을 위해, 기설정된 호모그래피 행렬을 이용하여 상기 3차원 좌표를 상기 제1 객체가 위치한 공간 상의 공간좌표로 변환하는 깊이 분석모듈과, 상기 공간좌표에 대응하는 각 골격 포인트를 연결하여 골격형상으로 구현된 3D 골격 이미지를 생성하고, 상기 3D 골격 이미지에 애니메이션 효과를 삽입하여 상기 3D 캐릭터가 포함된 상기 모션캡처 데이터 파일을 생성하는 3D 이미지 생성모듈을 포함한다.

본 발명의 실시 예에 따른 인공지능 기술을 이용하여 영상 정보로부터 3D 캐릭터 애니메이션을 자동으로 생성하는 3D 이미지 변환장치 및 이를 포함하는 3D 이미지 변환시스템에 의하면, 별도의 모션캡처 장비를 사용하지 않고 스마트폰 카메라 등을 이용하여 촬영된 영상으로 모션캡처 데이터를 생성하여 게임이나 애니메이션 제작에 활용할 수 있다.

도 1은 본 발명의 실시 예에 따른 3D 이미지 변환시스템의 도면이다.
도 2는 본 발명의 실시 예에 따른 3D 이미지 변환장치의 개략적인 블록도이다.
도 3은 본 발명의 실시 예에 따른 3D 이미지 변환장치의 동작을 설명하기 위한 도면이다.
도 4는 본 발명의 실시 예에 따른 모션캡처 데이터 파일이 생성되는 과정을 설명하기 위한 도면이다.

본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시 예들에 대해서 특정한 구조적 또는 기능적 설명은 단지 본 발명의 개념에 따른 실시 예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시 예들은 다양한 형태들로 실시될 수 있으며 본 명세서에 설명된 실시 예들에 한정되지 않는다. 본 명세서에 기재된 실시 예에 있어서 '모듈' 혹은 '부'는 적어도 하나의 기능이나 동작을 수행하는 기능적 부분을 의미하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

명세서에서 사용되는 "부" 또는 “모듈”이라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부" 또는 “모듈”은 어떤 역할들을 수행한다. 그렇지만 "부" 또는 “모듈”은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부" 또는 “모듈”은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부" 또는 “모듈”은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부" 또는 “모듈”들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부" 또는 “모듈”들로 결합되거나 추가적인 구성요소들과 "부" 또는 “모듈”들로 더 분리될 수 있다.

도 1은 본 발명의 실시 예에 따른 3D 이미지 변환시스템의 도면이고, 도 2는 본 발명의 실시 예에 따른 3D 이미지 변환장치의 개략적인 블록도이다.

도 1과 도 2를 참조하면, 본 발명의 실시 예에 따른 인공지능 기술을 이용하여 영상 정보로부터 3D 캐릭터 애니메이션을 자동으로 생성하는 3D 이미지 변환시스템(10)은 3D 이미지 변환장치(100)와 사용자 단말기(200)를 포함한다.

3D 이미지 변환시스템(10)은 사용자가 제공한 2D 영상을 3D 영상으로 변환하는 웹 기반 플렛폼을 운영하며, 사용자는 플랫폼 상에 2D 영상을 업로드하는 것만으로 손쉽게 변환된 3D 이미지를 확보할 수 있다.

3D 이미지 변환장치(100)는 2D 영상을 3D 캐릭터가 포함된 모션 데이터 파일로 변환하는 서버로서, 온라인 네트워크를 호스팅할 수 있고, 네트워크 주소 지정이 가능하며, 사용자 단말기(200)와 네트워크를 통해 통신을 수행할 수 있다. 또한, 3D 이미지 변환장치(100)는 사용자 단말기(200)에서 실행되는 3D 이미지 변환 어플리케이션 또는 3D 이미지 변환 웹페이지의 운영환경을 제공할 수 있다.

3D 이미지 변환장치(100)는 통신모듈(110), 2D 이미지 분석모듈(120), 3D 이미지 분석모듈(130), 깊이 분석모듈(140), 및 3D 이미지 생성모듈(150)을 포함할 수 있다.

통신모듈(110)은 사용자 단말기(200)와의 데이터를 송수신할 수 있으며, 사용자 단말기(200)로부터 2D 영상을 제공받고, 변환된 3D 골격 이미지 또는 모션캡처 데이터 파일을 사용자 단말기(200)에 제공할 수 있다.

통신모듈(110)은 LAN(Local Area Network), WAN(Wide Area Network), CDMA(Code Division Multiple Access), WCDMA(Wideband Code Division Multiple Access), GSM(Global System for Mobile Communications), LTE(Long Term Evolution), EPC(Evolved Packet Core) 등의 통신 방식을 사용할 수 있어, 어느 하나의 통신 방식에 한정되지 아니한다.

2D 이미지 분석모듈(120)은 사용자 단말기(200)로부터 수신된 2D 영상을 분석하여 제1 객체의 관절 움직임, 위치 등을 판단하는데, 특히 기학습된 제1 인공신경망에 2D 영상을 적용하여 2D 영상 내 인간 형상의 제1 객체의 주요관절의 위치를 2차원 좌표로 출력할 수 있다.

여기서, 제1 인공신경망은 합성곱신경망(Convolutional neural network)으로 이루어질 수 있지만, 이에 한정되는 것은 아니며 이와 다른 다층 퍼셉트론(Multi Layered Perceptron), 순환신경망(Recurrent Neural Network, RNN) 등을 인공지능 알고리즘도 이용될 수 있다.

2D 이미지 분석모듈(120)은 사용자 단말기(200)로부터 수신된 2D 영상을 분석하기 이전에 제1 인공신경망을 미리 학습시킬 수 있다. 2D 이미지 분석모듈(120)은 외부 데이터 서버로부터 데이터셋을 제공받아 제1 인공신경망을 학습시킬 수 있는데, 예컨대 코코 데이터셋(COCO dataset)을 이용하여 2D 영상 내 객체를 인식하고, 객체의 관절 위치를 2D 좌표로 출력하는 학습을 수행할 수 있다.

제1 인공신경망에 의해 출력되는 주요관절의 위치는 애니메이션에서 가장 필수적으로 요구되는 17개의 관절 위치(엉덩이, 우측 고관절, 좌측 고관절, 우측 무릎관절, 좌측 무릎관절, 오른발 관절, 왼발 관절, 척추관절, 흉부관절, 목관절, 머리, 우측어깨 관절, 좌측어깨 관절, 우측 팔꿈치, 좌측 팔꿈치, 우측 손목, 좌측 손목)로 설정될 수 있다.

3D 이미지 분석모듈(130)은 2D 영상 내 제1 객체를 3D 이미지로 변환하기 위해, 제1 인공신경망에서 출력한 2차원 좌표를 기학습된 제2 인공신경망에 적용하여 3차원 좌표를 출력할 수 있다. 여기서, 제2 인공신경망도 합성곱신경망(Convolutional neural network)으로 이루어질 수 있지만, 이에 한정되는 것은 아니며 이와 다른 다층 퍼셉트론(Multi Layered Perceptron), 순환신경망(Recurrent Neural Network, RNN) 등을 인공지능 알고리즘도 이용될 수 있다.

예컨대, 제1 및 제2 인공신경망들 각각은 복수의 노드들로 이루어진 입력층, 은닉층, 및 출력층을 포함할 수 있으며, 각 층은 시간에 따른 변화를 반영하기 위해 확장되거나 축소될 수 있다.

3D 이미지 분석모듈(130)은 2차원 좌표를 분석하기 이전에 제2 인공신경망을 미리 학습시킬 수 있다. 3D 이미지 분석모듈(130)은 외부 데이터 서버로부터 데이터셋을 제공받아 제2 인공신경망을 학습시킬 수 있는데, 예컨대 Human 3.6M Dataset을 이용하여 2차원 좌표를 분석하여 객체의 관절 위치를 3차원 좌표로 출력하는 학습을 수행할 수 있다.

3D 이미지 분석모듈(130)에 의해 생성된 3차원 좌표는 제1 객체의 3차원 공간 상에 위치를 의미하지만, 객체를 촬영한 촬영자의 위치에 따라 3차원 좌표가 달라질 수 있기 때문에, 깊이 분석모듈(140)은 깊이 보정을 위해 기설정된 호모그래피(homography) 행렬을 이용하여 3차원 좌표를 제1 객체가 위치한 공간 상의 공간좌표로 변환할 수 있다.

한 평면을 다른 평면에 투영(projection)시켰을 때 투영된 대응점들 사이에는 일정한 변환관계가 성립되며, 이 변환관계를 호모그래피라 한다. 깊이 분석모듈(140)은 기설정된 호모그래피 행렬을 사용하여 평면에 있는 점의 3차원 좌표를 이미지 좌표와 매칭시킬 수 있다. 이를 통해, 깊이 분석모듈(140)은 객체가 포함된 3차원 공간 상의 깊이를 측정할 수 있고, 측정된 깊이를 반영하여 3차원 좌표를 공간좌표로 변환할 수 있다.

3D 이미지 생성모듈(150)은 공간좌표에 대응하는 각 골격 포인트를 연결하여 골격형상으로 구현된 3D 골격 이미지를 생성할 수 있다.

그리고, 3D 이미지 생성모듈(150)은 3D 골격 이미지에 애니메이션 효과를 삽입하여 3D 캐릭터를 생성하고, 3D 캐릭터가 포함된 모션캡처 데이터 파일을 생성할 수 있다. 여기서 모션캡처 데이터 파일은 BVH(Biovision Hierarchy Animation) 파일, HTR(Hierarchical Translation-Rotation) 파일, ASF(Advanced Systems Format) 파일, AMC(Adaptive Modulation and Coding) 파일, MEL(Maya Embedded Language) 파일 중 어느 한 형식으로 이루어질 수 있으나, 이에 한정되는 것은 아니며 이에 열거되지 않은 다른 파일 형식으로도 생성될 수 있다.

여기서, 애니메이션 효과는 골격에 부착되는 형태의 피부, 의복, 악세서리 등의 형태로 표시되는데, 3D 골격 이미지에 일률적인 비율의 애니메이션 효과를 부여하면 피부, 의복 등이 어긋난 형태로 표시될 수 있다. 즉, 서로 다른 객체마다 골격 간 비율이 다를 수 있기 때문에, 애니메이션 효과도 골격 간 비율에 맞추어 적용될 필요가 있다.

따라서, 3D 이미지 생성모듈(150)은 3D 골격 이미지에 설정된 골격 간 제1 비율값과 애니메이션 효과에 설정된 골격 간 제2 비율값을 서로 비교하고, 양 비율이 서로 상이한 경우 제2 비율값을 보정할 수 있다. 3D 이미지 생성모듈(150)은 제1 비율값과 같도록 제2 비율값을 스케일링하여 스케일링된 제2 비율값을 생성할 수 있다. 그리고, 3D 이미지 생성모듈(150)은 스케일링된 제2 비율값에 따라 애니메이션 효과를 보정하고, 보정된 애니메이션 효과를 3D 골격 이미지에 삽입하여 3D 캐릭터를 생성할 수 있다.

이와 같이, 3D 이미지 생성모듈(150)은 공간좌표를 이용하여 3차원 공간 상에서 3D 캐릭터로 구현된 제1 객체를 포함하는 모션캡처 데이터 파일을 생성할 수 있다.

사용자 단말기(200)는 3D 이미지 변환장치(100)에서 운영하는 웹 기반 3D 이미지 변환 플랫폼에 접속할 수 있는 통신 장치로서, PC(personal computer), 스마트 폰(smart phone), 태블릿 (tablet) PC, 모바일 인터넷 장치(mobile internet device(MID)), 인터넷 태블릿, IoT(internet of things) 장치, IoE(internet of everything) 장치, 데스크 탑 컴퓨터(desktop computer), 랩탑(laptop) 컴퓨터, 워크스테이션 컴퓨터, Wibro(Wireless Broadband Internet) 단말, 및 PDA (Personal Digital Assistant) 중 어느 하나일 수 있으나, 이에 한정되는 것은 아니며 모든 종류의 통신 장치가 포함될 수 있다.

사용자 단말기(200)는 2D 영상을 3D 이미지 변환장치(100)에 네트워크를 통해 전송하고, 3D 이미지 변환장치(100)에서 운영하는 웹 기반 3D 이미지 변환 플랫폼을 통해 3D 영상을 수신할 수 있다.

또한, 사용자 단말기(200)에서 제공하는 2D 영상은 직접 촬영한 영상이거나 외부로부터 제공된 영상, 예컨대 영화, 드라마, 예능 프로그램 등을 의미할 수 있다. 또한, 2D 영상은 동영상, 사진, 그림 등 사람 형상의 제1 객체가 포함된 일련의 전자 파일을 의미할 수 있다.

또한, 3D 영상은 애니메이션 효과를 적용한 3D 캐릭터가 포함된 모션캡처 데이터 파일일 수도 있지만, 사용자의 요청에 따라 애니메이션 효과를 적용하지 않은 3D 골격 이미지를 의미할 수도 있다. 즉, 사용자는 필요에 따라 3D 이미지 변환장치(100)로부터 모션캡처 데이터 파일을 수신하거나 3D 골격 이미지를 수신할 수 있다.

도 3은 본 발명의 실시 예에 따른 본 발명의 실시 예에 따른 3D 이미지 변환장치의 동작을 설명하기 위한 도면이다.

도 3을 참조하면, 사용자 단말기(200)로부터 제공된 2D 영상(IMG)이 제1 인공신경망(AIN1)에 입력될 수 있다. 여기서, 제1 및 제2 인공신경망들(AIN1 및 AIN2) 각각은 입력층, 은닉층, 및 출력층으로 구성되며, 합성곱신경망으로 이루어질 수 있다.

기학습된 제1 인공신경망(AIN1)의 알고리즘에 따라 제1 객체가 포함된 영역이 추출되고, 영역 내 제1 객체의 주요골격에 대한 2차원 좌표(2D_CS)가 출력될 수 있다. 주요골격은 17개의 대표 골격으로 이루어질 수 있으나, 사용자의 요청에 따라 주요골격의 개수가 달라질 수 있고, 2차원 좌표(2D_CS)의 개수도 달라질 수 있다.

제1 인공신경망(AIN1)에서 출력된 2차원 좌표(2D_CS)는 제2 인공신경망(AIN2)에 입력되어 제1 객체가 위치한 3차원 공간 상의 3차원 좌표(3D_CS1)로 출력될 수 있다. 그리고, 3차원 좌표(3D_CS1)는 기설정된 호모그래피(homography) 행렬을 통해 깊이보정을 수행하여 공간좌표(3D_CS2)로 변환될 수 있다.

17개의 공간좌표(3D_CS1)들 중 기설정된 기준에 따라 각 골격 포인트를 서로 연결하여 골격형상으로 구현된 3D 골격 이미지(3D_BI)가 생성될 수 있다.

그리고, 3D 골격 이미지(3D_BI)에 애니메이션 효과가 삽입되어 3차원 공간상에 위치한 3D 캐릭터가 생성되며, 3D 캐릭터를 포함하는 모션캡처 데이터 파일(3D_FI)이 생성될 수 있다.

도 4는 본 발명의 실시 예에 따른 모션캡처 데이터 파일이 생성되는 과정을 설명하기 위한 도면이다.

도 4를 참조하면, 공간 상에 제1 객체(OB)가 포함된 2D 영상(IMG)이 도시되어 있다. 2D 영상(IMG) 내 제1 객체(OB)는 공간(AR) 상에 위치하고 있지만, 3차원 이미지로 변환되기 위한 별도의 공간 정보 등이 제공되고 있지 않으며, 이는 단순히 사용자 단말기(200)로부터 제공된 사진, 동영상, 그림 등일 수 있다. 만약, 사용자 단말기(200)로부터 동영상이 제공된 경우, 3D 이미지 변환장치(100)는 동영상의 프레임마다 3D 이미지 변환을 수행할 수 있다.

2D 영상(IMG)의 제1 객체(OB)의 주요골격의 위치는 제1 인공신경망(AIN1)에 의해 판단될 수 있고, 이는 2차원 좌표(2D_CS)로 출력될 수 있다. 3D 이미지 변환장치(100)는 2차원 좌표(2D_CS)를 기초로 2D 영상(IMG)에도 골격 포인트(PO1)를 표시할 수 있다.

주요골격의 2차원 좌표(2D_CS)는 3차원 좌표(3D_CS1)로 변환된 뒤, 깊이 보정을 통해 공간 좌표(3D_CS2)로 보정되며, 3D 이미지 변환장치(100)는 공간좌표(3D_CS2)에 대응하는 골격 포인트(PO2)를 서로 연결하여 3D 골격 이미지(3D_BI)를 생성할 수 있다.

마지막으로, 3D 이미지 변환장치(100)는 애니메이션 효과를 제1 객체(OB)의 골격 간 비율에 대응하도록 보정하고, 보정된 애니메이션 효과를 3D 골격 이미지(3D_BI)에 적용하여 3D 캐릭터(CA)가 포함된 모션캡처 데이터 파일(3D_FI)을 생성할 수 있다.

이상에서 본 발명의 실시 예에 관하여 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 본 발명의 특허청구범위를 벗어남이 없이 다양하게 변형 실시할 수 있을 것으로 이해된다.

본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.

100: 3D 이미지 변환장치
110: 통신모듈
120: 2D 이미지 분석모듈
130: 3D 이미지 분석모듈
140: 깊이 분석모듈
150: 3D 이미지 생성모듈
200: 사용자 단말기

Claims

2D 영상을 사용자 단말기로부터 수신하는 통신부;
상기 2D 영상을 기학습된 제1 인공신경망에 적용하여 상기 2D 영상 내 인간 형상의 제1 객체의 주요관절의 위치를 2차원 좌표로 출력하는 2D 이미지 분석모듈;
상기 제1 객체를 3D 이미지로 변환하기 위해, 상기 2차원 좌표를 기학습된 제2 인공신경망에 적용하여 상기 주요관절의 위치를 3차원 좌표로 출력하는 3D 이미지 분석모듈;
3D 이미지의 깊이 보정을 위해, 기설정된 호모그래피 행렬을 이용하여 상기 3차원 좌표를 상기 제1 객체가 위치한 공간 상의 공간좌표로 변환하는 깊이 분석모듈; 및
상기 공간좌표에 대응하는 각 골격 포인트를 연결하여 골격형상으로 구현된 3D 골격 이미지를 생성하는 3D 이미지 생성모듈을 포함하고,
상기 제1 및 제2 인공신경망들 각각은 입력층, 은닉층, 및 출력층으로 구성된 합성곱신경망(Convolutional neural network)이며,
상기 제1 인공신경망은 상기 2D 이미지 분석모듈에 의해 입력층으로 상기 2D 영상을 입력받아, 은닉층을 통해 출력층으로 상기 2D 영상의 2차원 좌표를 출력하고,
상기 제2 인공신경망은 상기 2D 이미지 분석모듈에 의해 입력층으로 상기 2차원 좌표를 입력받아, 은닉층을 통해 출력층으로 상기 3차원 좌표를 출력하고,
상기 3D 이미지 생성모듈은 상기 3D 골격 이미지에 애니메이션 효과를 삽입하여 3D 캐릭터를 생성하고, 상기 3D 캐릭터가 포함된 모션캡처 데이터 파일을 생성하여 상기 통신부를 통해 상기 사용자 단말기에 생성된 모션캡쳐 데이터 파일을 제공하는 인공지능 기술을 이용하여 영상 정보로부터 3D 캐릭터 애니메이션을 자동으로 생성하는 3D 이미지 변환장치.
삭제
제1항에 있어서, 상기 3D 이미지 생성모듈은,
상기 3D 골격 이미지에 애니메이션 효과를 삽입하여 3D 캐릭터를 생성하고, 상기 3D 캐릭터가 포함된 모션캡처 데이터 파일을 생성하는 인공지능 기술을 이용하여 영상 정보로부터 3D 캐릭터 애니메이션을 자동으로 생성하는 3D 이미지 변환장치.
제3항에 있어서, 상기 3D 이미지 생성모듈은,
상기 3D 골격 이미지에 설정된 골격 간 제1 비율값과, 상기 애니메이션 효과에 설정된 골격 간 제2 비율값을 비교하고, 상기 제1 비율값과 상기 제2 비율값이 상이한 경우, 상기 제1 비율값과 같도록 상기 제2 비율값을 스케일링하며, 스케일링된 제2 비율값에 따라 상기 애니메이션 효과를 보정하는 인공지능 기술을 이용하여 영상 정보로부터 3D 캐릭터 애니메이션을 자동으로 생성하는 3D 이미지 변환장치.
제4항에 있어서, 상기 3D 이미지 생성모듈은,
보정된 애니메이션 효과를 상기 3D 골격 이미지에 삽입하여 상기 3D 캐릭터를 생성하는 인공지능 기술을 이용하여 영상 정보로부터 3D 캐릭터 애니메이션을 자동으로 생성하는 3D 이미지 변환장치.
삭제