KR102531789B1 - 클라우드 기반 메타버스 콘텐츠 협업 시스템 - Google Patents
클라우드 기반 메타버스 콘텐츠 협업 시스템 Download PDFInfo
- Publication number
- KR102531789B1 KR102531789B1 KR1020210026868A KR20210026868A KR102531789B1 KR 102531789 B1 KR102531789 B1 KR 102531789B1 KR 1020210026868 A KR1020210026868 A KR 1020210026868A KR 20210026868 A KR20210026868 A KR 20210026868A KR 102531789 B1 KR102531789 B1 KR 102531789B1
- Authority
- KR
- South Korea
- Prior art keywords
- user
- attention
- metaverse
- motion
- cloud
- Prior art date
Links
- 230000033001 locomotion Effects 0.000 claims abstract description 75
- 230000009471 action Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 238000006073 displacement reaction Methods 0.000 claims description 3
- 210000003484 anatomy Anatomy 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000035582 behavioral recognition Effects 0.000 abstract 1
- 238000000034 method Methods 0.000 description 17
- 238000005516 engineering process Methods 0.000 description 15
- 230000003190 augmentative effect Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 238000013135 deep learning Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 206010048909 Boredom Diseases 0.000 description 1
- 241000288673 Chiroptera Species 0.000 description 1
- 206010012586 Device interaction Diseases 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- Liquid Crystal Substances (AREA)
- Curing Cements, Concrete, And Artificial Stone (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
클라우드 기반 메타버스 콘텐츠 협업 시스템이 개시된다. 클라우드 기반 메타버스 콘텐츠 협업 시스템은 사용자의 동작을 인식할 때 사람의 구조적인 특징을 분석하고 이에 따른 동작 행위들을 인식하고 기억할 수 있는 행동 인식 알고리즘을 포함한다.
Description
본 발명은 클라우드 기반 메타버스 콘텐츠 협업 시스템에 관한 것이다.
메타버스(Metaverse)는 가상·초월(meta)과 세계·우주(universe)의 합성어로, 3차원 가상 세계를 뜻한다. 보다 구체적으로는, 정치·경제·사회·문화의 전반적 측면에서 현실과 비현실 모두 공존할 수 있는 생활형·게임형 가상 세계라는 의미로 폭넓게 사용되고 있다. 이러한 메타버스는 현실의 동작이 가상세계에 반영되고, 가상세계의 결과가 가상 세계에 적용이 되기 때문에 현실과 가상세계의 경계가 허물어 지는 환경을 의미한다. 이러한 메타버스를 구현하는 가장 핵심 기술인 가상현실 기술은 1970년대부터 사용자가 가상현실세계에서 들어가서 몰입하여 특정한 작업을 할 수 있는 기술로 적용되다가 1990년도부터 현실 세계에 가상의 기술들을 가져오는 증강현실 기술 등으로 분할이 되었다. 이후 이러한 메타버스 콘텐츠와 같은 기술들이 적용이 되면서 상황에 따라서 가상현실이 될 수도 증강현실이 될 수도 있는 혼합 현실 환경 및 여기에 AI 기술과 서비스가 들어간 확장현실 환경으로 적용이 되었다.
이러한 가상현실 및 증강현실 기술과 기존의 온라인 게임 및 SNS 형태의 결합이 된 솔루션으로 메타버스 솔루션들이 최근에는 많이 출시되고 있다. 메타 버스 솔루션은 크게 온라인 게임에서 메타버스가 된 솔루션인 포트나이트[5], 로블록스, 마인크래프트 같은 솔루션들 및 SNS 및 교류 중심에서 게이미피케이션 콘텐츠를 담은 VRChat 및 네이버의 제페토와 같은 솔루션들이 있다. 이중 포트나이트는 네트워크기반 FPS 게임의 스페셜 모드로 사용자들이 모여서 춤을 추고 대화를 할 수 있는 게임모드를 출시하고 이에 기반하여 사용자들이 가상으로 콘서트를 즐길 수 있는 모드를 출시하였고 ‘트래비스 스콧’의 콘서트에는 천 만명 넘는 사람들이 참여해서 같이 메타버스 콘서트를 즐기는 모습이 구성되었다.
메타버스를 구성하는 솔루션들은 크게 현실 세계의 사용자의 동작을 모사해서 가상 세계의 아바타로 옮기는 부분, 네트워크를 통하여 가상 세계의 사용자들끼리 협업을 할 수 있는 시스템의 제공 등으로 이루어진다. 이러한 메타버스의 가장 기술적인 근간이 되는 확장현실 환경은 실세계에 가상의 객체를 증강하여 사용자에게 새로운 경험을 제공할 수 있는 기술로써 게임 분야뿐만 아니라 산업 분야 및 시뮬레이션 교육 등에 널리 이용되어 왔다. 특히, 각각 가상현실, 증강현실 등에 게임 및 시뮬레이터 등의 콘텐츠들이 많이 출시되었다. 가상현실 콘텐츠의 경우 “Beat Saber”는 많은 사람이 가상현실을 통한 게임의 재미와 기존에는 비용적인 측면이나 기술적인 한계로 인해 쉽게 경험할 수 없는 가상현실에 대한 경험을 제공한 대표적인 사례 중 하나로 손꼽힌다. 도 1은 대중적인 가상현실 게임 중 하나인 “Beat Saber”의 플레이 예시이다. 또한 가상현실에서 운동과 게임을 접목한 2019년 최초의 가상현실 헬스장인 “Black Box VR”이 출시되었고, 반복적인 행동을 반복해야 하는 무산소 운동의 지루함을 게임을 통해 재밌게 해결하는 게이미피케이션의 장점을 선보였다. 하지만 이런 가상현실 기반의 콘텐츠들은 가상현실의 디바이스에 종속적인 경향을 가지며, 사용자의 모든 동작을 측정하는 것이 아니라 제한된 동작 (HMD를 착용한 상태에서 머리 및 컨트롤러에서 손의 3차원 정보들을 추적)을 인식할 수 있기 때문에 사용자들에게 완전한 자유도를 제공하지 못한다는 단점이 있다.
기존의 가상현실 기기에서 사용자의 동작을 인식할 수 있는 기술들에 대한 연구들은 주로 영화촬영에서 사용되는 모션 트래킹 기술을 사용하여 구현되어왔다. 모션 트래킹 기술은 다음과 같이 사용자가 적외선으로 반사되는 마커들을 사용자의 관절 부분에 부착하고, 여러 대의 적외선 카메라 공간을 돌아다니면서 동작을 하는 경우 마커들을 통해서 인식된 정보들을 사람의 주요 관절 부위와 매칭을 하여 실시간으로 가상의 캐릭터에 동작은 인식시켜주는 기술로 사용되어 왔으며, 정확하고 빠른 측정 방법으로 인해 널리 사용되어 왔다. 하지만 이 방법은 사용자가 특정한 마커를 항상 몸에 부착하여 인식을 할 수밖에 없다는 점에서 사용성이 떨어지고 장비들이 고가이기 때문에 영화 산업 등 특수한 분야를 제외하고 대중화되기 어렵다는 특징을 가지고 있다.
이러한 특정 장치를 사용자의 몸에 부착하여 사용자의 몸 동작을 추적하는 방법 중 HTC Vive 사의 Full Body Tracking은 비교적 저렴한 가격으로 일반 사용자들이 모셥 캡쳐 및 동작을 인식할 수 있다는 점에서 메타버스 시스템에서 많이 사용되어 왔다. 이 장치의 특징은 사용자가 사용자는 지정된 공간에 HMD 및 트래커들을 몸에 부착하고 부착된 트래커와 가상 세계의 아바타의 특정 관절 (Joint) 분야에 부착을 하여 현실세계의 움직임을 가상세계에 동기화를 한다. 이러한 기술은 메타버스 중 VR Chat 과 같은 솔루션과 연동이 된다. 하지만 사용자의 몸동작을 인식하는 트래커들 중 일부만을 부착하였기 때문에 정확도가 많이 떨어지며, 이 장비를 사용하는 것 역시 다소 비용이 들고 사용성이 떨어진다는 특징이 있다.
한편, 증강현실 분야에서의 게임의 대표적으로는 “포켓몬고"라는 게임이 있다. 이 게임은 사용자가 핸드폰을 사용하여 외부를 다니면 사용자의 위치를 GPS로 추적하고 몬스터가 출몰하거나 전투 등이 발생하면 핸드폰을 사용하여 증강현실로 몬스터를 시각화하고 터치를 사용하여 게임을 할 수 있도록 제공한다. 또한 ”Roboraid“라는 게임은 증강현실 환경에서 외계인과의 전투를 하는 게임을 제안하였다.
이러한 종류의 증강현실 게임은 역시 제한된 디바이스의 제약이라는 단점이 있다. 스마트폰 사용한 증강현실 게임들의 경우에는 사용자가 증강된 가상 게임 객체와의 인터랙션을 위해서는 화면을 터치하는 동작을 통해서 게임을 플레이할 수 있도록 제공하고 있다. 이 경우 사용자는 한 손으로는 스마트폰을 잡고 다른 한 손으로 터치를 해야 하기 때문에 사용자가 입력할 수 있는 입력의 제한이 존재한다. 디바이스의 상호작용 제약은 사용자들에게 더 현실세계와 더 유사하여 실감나는 게임을 제공해 주지 못한다는 단점을 가지고 있다. 이러한 문제를 해결하기 위해서 사용자가 특수한 터치 컨트롤러를 지원하고 있다. 하지만 이러한 경우에는 사용자가 계속적으로 무거운 컨트롤러를 잡기 때문에 사용자에게 피로도를 증가시킨다는 점과, 이러한 컨트롤러를 잡는 조작 방식은 주로 게임 환경이 고정된 가상현실 환경에서 게임에서 주로 통용된다는 점이 있다.
혼합 현실에서 사용자의 몸동작을 추적하기 위해서 IMU와 같은 센서들을 사용해서 동작을 추적하는 연구들도 제안되었다. 하지만 이 방법의 경우에도 역시 사용자는 여러 개의 복잡한 장비들을 부착한다는 점에서 사용성이 떨어지고 센서들에 대한 가격이 비싼 어려움을 가지고 있다.
이러한 문제를 해결하기 위해서 센서를 부착하지 않고 카메라를 사용하여 사용자의 동작을 추적하는 방법도 잇다 대표적인 방법으로는 깊이 카메라를 사용하여 사용자의 몸동작 이미지에서 동작을 추출해서 가상현실에 적용한 사례들이다. 하지만 이 방법의 경우 사용자의 동작이 조금만 복잡해지거나 물건들과 상호작용을 하는 경우에는 인식이 잘되지 않는 다는 단점이 있다. 또한 Depth 카메라의 경우 적외선 추적이 어려운 야외 등에서는 인식이 어렵다는 점과 일반 카메라를 통해서는 인식이 어렵다는 단점을 가지고 있다. 이러한 문제를 해결하기 위해서 딥러닝 기반에 사용자의 동작을 인식할 수 있는 연구들이 이루어졌다. “Open Pose”는 2D 사람의 동작을 인식할 수 있는 연구들을 만들고 다수의 사용자들에 대한 추적도 원활하게 만들었다 하지만 2D 로 인식된 사람의 동작이기 때문에 이를 3D로 다시 변환하는 과정에서는 일부 측정된 관절 정보들의 정확도가 떨어지는 부분과 사용자들이 상호작용을 하는 과정에서 겹치는 문제들이 있다는 단점이 있다. “Deeplabcut”은 움직이는 사람에 대한 인식 연구들을 수행하였으나, 역시 가려지거나 겹쳐지는 부분들에 대해서는 인식율이 다소 낮다는 문제가 있다. 또한 사용자의 동작 인식을 할 때, 실시간으로 해당 사용자의 관절만 측정을 하기 때문에 사용자가 의미를 가진 동작 즉 특정 제스처들을 할 때는 시간의 흐름에 따라서 사용자의 동작을 추적하고, 인식할 수 있는 방법들이 필요하다. 한편 이를 3D 캐릭터에 적용시키는 시도는 XNect에서 이루어졌다. 해당 시스템은 모션으로 캡쳐된 정보를 3D 캐릭터에 적용을 하여 메타버스연결에 대한 가능성을 보여주었으나 캐릭터들이 겹쳐지거나 물체 등에 동작들이 가려지는 문제점들을 보여주었다.
또한 기존의 메타버스 콘텐츠들은 Vive 트래커를 지원하는 VR Chat을 제외하고는 대부분 키보드나 마우스로 캐릭터를 조작하는 기술들을 제공하고 있기 때문에 사용자들이 자신의 몸동작들이 가상 세계에 반영되어 현실과 가상의 경계가 모호해지는 메타버스 콘텐츠들을 즐기기 어렵다는 문제들이 있다.
본 시스템에서 제안하는 딥러닝 기반 동작인식을 통한 메타버스 동기화 협업 시스템에서는 다음의 단계별로 기존의 문제들의 해결을 제안한다. 1) 사용자의 신체적인 구조의 특징에 따라 상체와 하체의 동작들로 분류하고 시간의 흐름에 따른 동작 인식을 하기 위한 Attentional GRU-RNN 방법을 적용하였다. 2) 사용자가 특정 물체를 잡거나 사용자간 복잡한 동작을 수행하는 경우 사용자의 동작과 상호작용 객체의 분류 및 간섭을 분리하기 위한 Complex Gesture-GAN 네트워크를 적용하였다. 3) 마지막으로 사용자가 클라이언트에서 동작인식을 하는 경우 이를 네트워크를 통해서 인식하여 제공을 해주는 클라우드 기반의 동작 인식 및 메타버스 적용 시스템을 제공한다.
본 발명에 따른 클라우드 기반 메타버스 콘텐츠 협업 시스템은 사용자의 동작을 인식할 때 사람의 구조적인 특징을 분석하고 이에 따른 동작 행위들을 인식하고 기억할 수 있는 행동 인식 알고리즘을 포함한다.
또한, 사람의 척추, 상체 및 하체에 대한 동작의 변위들에 대한 부분을 어텐션으로 처리하여 해당 값에 대한 출력을 예측하기 위해서 어텐션 메커니즘을 통해서 관리할 수 있다.
또한, 전단계에서 학습된 데이터들을 바탕으로 사용자의 의미 있는 제스처를 분별해내고, 물리적인 객체 추적을 한 후에 이에 대한 구분을 할 수 있는 Complex Gesture GAN알고리즘을 포함할 수 있다.
본 발명의 효과는 크게 3가지로 이루어질 수 있다. 첫 번째는 기존에 메타버스 시스템에서 사용자의 동작인식이 안되거나 비싼 비용을 통해서 인식이 이루어지는 문제를 해결할 수 있다. 본 발명에서 제안한 시스템을 사용하면 수천만원에서 수백만원 드는 모션 캡쳐 장치를 사용할 필요 없이 몇 만원 상당의 카메라를 사용하여 사용자의 동작을 인식하여 메타버스의 아바타에 대응을 할 수 있기 때문에 시스템에 드는 비용을 감소할 수 있다.
두 번째로는 기본의 동작 인식 시스템이 사용자에 몸에 모션 캡쳐 센서 및 트래커 등의 장치를 부착해야 하는 점에서 사용성이 다소 떨어지는 문제가 있었다면 본 발명에서 제안하는 시스템은 웹캠 만 가지고 있다면 동작 인식이 가능하다는 점에서 사용성을 대폭적으로 개선할 수 있다.
세 번째로는 기존의 카메라 기반의 동작 인식 기술과 비교를 하였을 때, 동작 인식을 통한 사용자 스켈레톤 추출 따로, 제스처를 따로 인식하던 것에 비해 본 발명에서는 이를 동시에 추출을 함으로써 사용자가 의미 있는 동작들을 메타버스 콘텐츠를 사용하여 다른 사용자들과 교류하는데 도움을 줄 수 있다.
마지막으로는 본 발명에서 제안한 시스템은 사용자가 몸동작뿐만 아니라 홈트레이닝 중 아령 등과 같은 물체를 잡고 동작하는 과정에서 발생할 수 있는 사람 몸의 가려지는 등의 정확도 문제를 GRU_RNN 과 Complex Gesutre GAN 알고리즘을 통해서 해결하였기 때문에 보다 복잡한 메타버스 콘텐츠를 사용자가 만드는데 더 유용하게 적용될 수 있다.
도 1은 대중적인 가상현실 게임 중 하나인 “Beat Saber”의 플레이 예시이다.
도 2는 본 발명에 따른 클라우드 기반 메타버스 콘텐츠 협업 시스템을 나타내는 도면이다.
도 3은 GRU_RNN을 적용한 사용자의 동작 추적 시스템을 설명하기 위한 도면이다.
도 4는 동작들의 Attention을 추측하여 결합하는 과정을 설명하기 위한 도면이다.
도 5는 Complex-Gesutre GAN을 적용한 인식 방법을 설명하기 위한 도면이다.
도 6 및 도 7은 본 발명에서 제안된 시스템을 통해서 추출된 동작 정보를 메타버스 콘텐츠에 적용시킨 장면을 나타내는 도면이다.
도 8은 메타버스 헬스 콘텐츠를 설명하기 위한 도면이다.
도 2는 본 발명에 따른 클라우드 기반 메타버스 콘텐츠 협업 시스템을 나타내는 도면이다.
도 3은 GRU_RNN을 적용한 사용자의 동작 추적 시스템을 설명하기 위한 도면이다.
도 4는 동작들의 Attention을 추측하여 결합하는 과정을 설명하기 위한 도면이다.
도 5는 Complex-Gesutre GAN을 적용한 인식 방법을 설명하기 위한 도면이다.
도 6 및 도 7은 본 발명에서 제안된 시스템을 통해서 추출된 동작 정보를 메타버스 콘텐츠에 적용시킨 장면을 나타내는 도면이다.
도 8은 메타버스 헬스 콘텐츠를 설명하기 위한 도면이다.
이하, 첨부된 도면들을 참조하여 본 발명의 바람직한 실시 예를 상세히 설명할 것이다. 그러나 본 발명의 기술적 사상은 여기서 설명되는 실시 예에 한정되지 않고 다른 형태로 구체화될 수도 있다. 오히려, 여기서 소개되는 실시 예는 개시된 내용이 철저하고 완전해질 수 있도록 그리고 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 제공되는 것이다.
본 명세서에서, 어떤 구성요소가 다른 구성요소 상에 있다고 언급되는 경우에 그것은 다른 구성요소 상에 직접 형성될 수 있거나 또는 그들 사이에 제 3의 구성요소가 개재될 수도 있다는 것을 의미한다. 또한, 도면들에 있어서, 막 및 영역들의 두께는 기술적 내용의 효과적인 설명을 위해 과장된 것이다.
또한, 본 명세서의 다양한 실시 예 들에서 제1, 제2, 제3 등의 용어가 다양한 구성요소들을 기술하기 위해서 사용되었지만, 이들 구성요소들이 이 같은 용어들에 의해서 한정되어서는 안 된다. 이들 용어들은 단지 어느 구성요소를 다른 구성요소와 구별시키기 위해서 사용되었을 뿐이다. 따라서, 어느 한 실시 예에 제 1 구성요소로 언급된 것이 다른 실시 예에서는 제 2 구성요소로 언급될 수도 있다. 여기에 설명되고 예시되는 각 실시 예는 그것의 상보적인 실시 예도 포함한다. 또한, 본 명세서에서 '및/또는'은 전후에 나열한 구성요소들 중 적어도 하나를 포함하는 의미로 사용되었다.
명세서에서 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함한다. 또한, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 구성요소 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 구성요소 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하는 것으로 이해되어서는 안 된다. 또한, 본 명세서에서 "연결"은 복수의 구성 요소를 간접적으로 연결하는 것, 및 직접적으로 연결하는 것을 모두 포함하는 의미로 사용된다.
또한, 하기에서 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략할 것이다.
도 2는 본 발명에 따른 클라우드 기반 메타버스 콘텐츠 협업 시스템을 나타내는 도면이다.
도 2를 참조하면, 본 발명에 따른 클라우드 기반 메타버스 콘텐츠 협업 시스템은 서버 및 클라이언트 2가지 환경으로 구성된다. 먼저 서버에서는 딥러닝 기반의 사용자 동작인식 및 메타버스 아바타 변환 시스템과 메타버스로 인식된 사용자들 간의 상호작용을 사용자의 영역 및 태스크 별로 처리해주는 부분 및 사용자의 클라이언트 요청에 따라 상호작용 콘텐츠들을 적응형 변환을 통해서 AR 혹은 VR 로 콘텐츠를 변환시켜주는 부분으로 구성되어 있다. 한편 사용자가 사용하는 클라이언트에서는 기본적으로 RGB 카메라를 사용하여 사용자의 동작을 인식하여 서버로 전송하는 부분 및 사용자가 사용하는 환경에 따라 VR이나 AR 등으로 메타버스를 제공하는 뷰어로 구성되어 있다.
먼저 딥러닝 기반의 사용자 동작인식 및 메타버스 아바타 변환 시스템은 두 단계로 딥러닝 기반의 인식을 수행한다. 여기서는 사용자의 동작을 인식할 때 사람의 구조적인 특징을 분석하고 이에 따른 동작 행위들을 인식하고 기억할 수 있는 행동 인식 알고리즘을 개발하였다. 사람의 구조적인 특징은 척추를 중심으로 머리는 위로 향하고 양팔이 상체, 척추를 중심으로 양 발이 하체에 있다는 것이다. 이런 사람의 동작을 인식하기 위해서는 일정시간 사람의 동작들의 변화 정보들을 관측하여 동작을 인식할 수 있어야함 따라서 이전 시간의 동작 정보들을 지속적으로 기억할 수 있어야 하고, 동작들의 변화가 빠르기 때문에 학습을 효과적으로 빠르게 할 수 있어야한다. 이를 위하여 GRU(Gated Recurrent Unit)-RNN(Recurrent Neural Network)을 사용한다.
도 3은 GRU_RNN을 적용한 사용자의 동작 추적 시스템을 설명하기 위한 도면이다.
도 3을 참조하면, 인식된 사람에 대한 영상정보를 바탕으로 스켈레톤 정보를 인식하면서 해부학적인 구조에 기반을 두어 소동물의 경우 척추의 움직임을 기본으로 하여 다리의 움직임들이 나오기 때문에 동물의 동작 정보들에 대한 정보를 각각 GRU-RNN으로 학습을 하여 최종적으로 동적인 움직임을 인식할 수 있다.
이때 사람의 척추, 상체 및 하체에 대한 동작의 변위들에 대한 부분을 어텐션으로 처리하여 해당 값에 대한 출력을 예측하기 위해서 어텐션 메커니즘을 통해서 관리를 한다.
도 4는 동작들의 Attention을 추측하여 결합하는 과정을 설명하기 위한 도면이다.
도 4를 참조하면, 어텐션 메커니즘에서는 시간의 흐름에 따른 동작의 결과 예측에 또 다른 값을 필요로 하는데 바로 어텐션 값(Attention Value)이라는 새로운 값이다. t번째 단어를 예측하기 위한 어텐션 값을 at이라고 정의할 수 있다. 이 at 값을 구하기 위해서 어텐션 스코어라는 값을 사용한다. 이 값은 현재 포즈 시점 t에서 다음 포즈를 예측하기 위해, 인코더의 모든 은닉 상태 각각이 디코더의 현 시점의 은닉 상태 st와 얼마나 유사한지를 판단하는 스코어이다. 닷-프로덕트 어텐션에서는 이 스코어 값을 구하기 위해 st를 전치(transpose)하고 각 은닉 상태와 내적(dot product)을 수행한다. 즉, 모든 어텐션 스코어 값은 스칼라입니다. 예를 들어 st과 인코더의 i번째 은닉 상태의 어텐션 스코어의 계산 방법은 아래와 같다. st 와 인코더의 모든 은닉 상태의 어텐션 스코어의 모음값을 et라고 정의하겠습니다. et의 수식 1은 다음과 같다.
[수식 1]
디코더의 시점 t에서의 어텐션 가중치의 모음값인 어텐션 분포를 αt이라고 할 때, αt을 식으로 정의하면 수식 2와 같다.
[수식 2]
이제 어텐션의 최종 결과값을 얻기 위해서 각 인코더의 은닉 상태와 어텐션 가중치값들을 곱하고, 최종적으로 모두 더함, 즉 요약하면 가중합(Weighted Sum)을 구하는 과정이다. 아래의 수식 3은 어텐션의 최종 결과. 즉, 어텐션 함수의 출력값인 어텐션 값(Attention Value) at에 대한 식을 보여준다.
[수식 3]
이후 인식된 사용자의 모습이 메타버스 내에서 댄스, 스포츠 등의 특정 의미를 가진 제스처로 인식이 되거나, 사용자가 메타버스 콘텐츠를 표현하는데 야구 배트나 봉이나 의자와 같은 물리적인 객체를 가지고 상호작용을 하는 경우, 해당 객체들을 인식하여 사용자 몸동작의 가려짐 등에 의한 인식률 저하를 막을 수 있어야 한다. 본 발명에서 제안한 시스템은 전단계에서 학습된 데이터들을 바탕으로 사용자의 의미 있는 제스처를 분별해내고, 물리적인 객체 추적을 한 후에 이에 대한 구분을 할 수 있는 Complex Gesture GAN알고리즘을 제안한다. 일반적으로 사용자의 제스처가 복잡하거나 물체들을 활용한 동작 인식의 경우 가려지게 되면 해당 부분에 대한 정보를 제대로 인식하지 못하는 문제가 있는데, 본 발명에서 제안하는 생성 저항 네트워크(Generative Adversary Network)를 통하여 이미지를 생성하여 시간의 흐름에 따라 인식된 사용자의 몸동작을 제스처로 인식할 수 있을 뿐 아니라 다른 장애물 등에 동작이 가려지더라도 제스처를 정밀하게 추론할 수 있는 Complex Gesture GAN 알고리즘을 제안한다. 도 5는 Complex-Gesutre GAN을 적용한 인식 방법을 설명하기 위한 도면이다.
도 6 및 도 7은 본 발명에서 제안된 시스템을 통해서 추출된 동작 정보를 메타버스 콘텐츠에 적용시킨 장면을 나타내는 도면이다.
도 6 및 도 7을 참조하면, 본 발명에서 만든 시스템은 다양한 메타버스 클라이언트에 적용될 수 있도록 알고리즘들을 통합하여 사용자들이 클라우드 환경을 통해서 스마트폰, 웹 캠 및 홀로 렌즈와 같은 증강현실 기기를 통해서 인식할 수 있는 클라우드 기반 실시간 메타버스 포즈 동작 인식 시스템을 제안한다. 제안한 시스템은 다음의 그림과 같이 사용자가 걷는 동작과 동시에 음성 정보를 입력 기기를 통해서 입력을 하면 클라우드 기반 서버에서는 센서 매니저를 통하여 해당 정보들을 받아서 입력을 받고, 사용자가 원하는 아바타와 매칭을 시킨 후에, 딥러닝 알고리즘들을 통해서 얻어진 아바타 정보를 표현해 준다.
도 8은 메타버스 헬스 콘텐츠를 설명하기 위한 도면이다.
도 8을 참조하면, 본 발명에서 제안된 시스템은 다양한 메타버스 콘텐츠에 적용이 가능 하다 다음의 그림과 같이 메타버스 헬스 콘텐츠, 즉 아령을 들고 운동을 하는 과정 등에서 응용이 가능 하다.
이상, 본 발명을 바람직한 실시 예를 사용하여 상세히 설명하였으나, 본 발명의 범위는 특정 실시 예에 한정되는 것은 아니며, 첨부된 특허청구범위에 의하여 해석되어야 할 것이다. 또한, 이 기술분야에서 통상의 지식을 습득한 자라면, 본 발명의 범위에서 벗어나지 않으면서도 많은 수정과 변형이 가능함을 이해하여야 할 것이다.
Claims (5)
- 사람의 구조적 특징을 기초로 하여, 인식된 사람에 대한 영상정보를 바탕으로 스켈레톤 정보를 인식하면서 해부학적인 구조에 기반을 두어 동작 정보들을 각각 GRU(Gated Recurrent Unit)-RNN(Recurrent Neural Network)으로 학습하여 동적인 사용자의 움직임을 인식하고 기억하는 행동 인식 알고리즘을 포함하며,
상기 행동 인식 알고리즘은 사람의 척추, 상체 및 하체에 대한 동작의 변위들에 대한 부분을 어텐션으로 처리하여 해당 값에 대한 출력을 예측하기 위한 어텐션 메커니즘을 포함하고,
상기 사용자가 물리적인 객체를 가지고 상호작용하는 경우, Complex Gesture GAN 알고리즘을 통해 상기 사용자의 의미 있는 제스처를 분별해내고, 상기 물리적인 객체를 추적하고, 생성 저항 네트워크(Generative Adversary Network)를 통해 이미지를 생성하여 시간의 흐름에 따라 인식된 상기 사용자의 몸동작을 제스처로 인식하며, 상기 사용자의 제스처 중 상기 물리적인 객체에 의해 가려지는 부분에 대한 정보를 상기 Complex Gesture GAN 알고리즘을 통해 추론하는 클라우드 기반 메타버스 콘텐츠 협업 시스템. - 삭제
- 제1항에 있어서,
상기 어텐션 메커니즘은 어텐션 값(at)을 통해 시간의 흐름에 따른 동작의 결과를 예측하되, 상기 어텐션 값은 현재 포즈 시점 t에서 다음 포즈를 예측하기 위해, 인코더의 모든 은닉 상태 각각이 디코더의 현 시점의 은닉 상태 st와의 유사한 정도를 판단하는 어텐션 스코어와 다음의 수식 1 내지 3의 관계를 갖는 클라우드 기반 메타버스 콘텐츠 협업 시스템.
[수식1]
st과 인코더의 i번째 은닉 상태의 어텐션 스코어, st를 전치(transpose)하고 각 은닉 상태와 내적
[수식2]
et: st와 인코더의 모든 은닉 상태의 어텐션 스코어의 모음값
[수식3]
디코더의 시점 t에서의 어텐션 가중치의 모음값인 어텐션 분포
[수식4]
각 인코더의 은닉 상태와 어텐션 가중치값들을 곱하고, 최종적으로 모두 더함 - 삭제
- 제1항에 있어서,
사용자가 동작과 동시에 음성 정보를 입력 기기를 통해 입력하면, 사용자가 원하는 아바타와 매칭 시킨 후, 얻어진 아바타 정보를 표현하는 클라우드 기반 메타버스 콘텐츠 협업 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210026868A KR102531789B1 (ko) | 2021-02-26 | 2021-02-26 | 클라우드 기반 메타버스 콘텐츠 협업 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210026868A KR102531789B1 (ko) | 2021-02-26 | 2021-02-26 | 클라우드 기반 메타버스 콘텐츠 협업 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220122349A KR20220122349A (ko) | 2022-09-02 |
KR102531789B1 true KR102531789B1 (ko) | 2023-05-12 |
Family
ID=83281171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210026868A KR102531789B1 (ko) | 2021-02-26 | 2021-02-26 | 클라우드 기반 메타버스 콘텐츠 협업 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102531789B1 (ko) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10953334B2 (en) * | 2019-03-27 | 2021-03-23 | Electronic Arts Inc. | Virtual character generation from image or video data |
-
2021
- 2021-02-26 KR KR1020210026868A patent/KR102531789B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR20220122349A (ko) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021143261A1 (zh) | 一种动画实现方法、装置、电子设备和存储介质 | |
US11935205B2 (en) | Mission driven virtual character for user interaction | |
CN102301311B (zh) | 标准姿势 | |
US9244533B2 (en) | Camera navigation for presentations | |
CN102470273B (zh) | 基于玩家表情的视觉表示表情 | |
CN102449576A (zh) | 姿势快捷方式 | |
CN102301315A (zh) | 姿势识别器系统架构 | |
CN102356373A (zh) | 虚拟对象操纵 | |
CN102473320A (zh) | 通过学习到的来自用户的输入使视觉表示生动化 | |
CN116909407A (zh) | 基于虚拟现实的触控显示屏全景交互方法及控制系统 | |
CN109529340A (zh) | 虚拟对象控制方法、装置、电子设备及存储介质 | |
CN118380096A (zh) | 一种基于算法追踪与虚拟现实的康复训练交互方法及装置 | |
KR102531789B1 (ko) | 클라우드 기반 메타버스 콘텐츠 협업 시스템 | |
Ren et al. | Immersive and perceptual human-computer interaction using computer vision techniques | |
Liu | Analysis of Interaction Methods in VR Virtual Reality | |
Hsu et al. | A multimedia presentation system using a 3D gesture interface in museums | |
Çimen | Animation models for interactive AR characters | |
CN116485953A (zh) | 数据处理方法、装置、设备和可读存储介质 | |
Huang et al. | Designing an exergaming system for exercise bikes using kinect sensors and Google Earth | |
CN109917907B (zh) | 一种基于卡片的动态故事板交互方法 | |
Cai et al. | Immersive interactive virtual fish swarm simulation based on infrared sensors | |
Peng et al. | Design and Implementation of Multi-mode Natural Interaction of Game Animation Characters in Mixed Reality: A Novel User Experience Method | |
Liang et al. | A motion-based user interface for the control of virtual humans performing sports | |
KR20240133914A (ko) | 아바타를 이용한 비대면 전문 심리상담이 가능한 메타버스 심리상담 시스템 | |
Bai et al. | Velocity Powered Sprint: Gesture Controlled Car Racing Game |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |