WO2020262725A1

WO2020262725A1 - 딥 러닝을 이용한 3차원 물체 인식에 기초하여 증강 현실 정보를 제공하는 방법 및 이를 이용한 시스템

Info

Publication number: WO2020262725A1
Application number: PCT/KR2019/007656
Authority: WO
Inventors: 박민지
Original assignee: 티팟스튜디오 주식회사
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2020-12-30
Also published as: KR102186821B1

Abstract

본 발명에 의하면, 3차원 물체 인식에 기초하여 증강 현실을 이용한 정보 제공 시스템에 있어서, 카메라를 포함하고, 물체를 다양한 각도로 촬영하도록 구성된, 증강 현실 저작을 위한 사용자 장치, 및 복수의 GPU를 포함하고, 물체의 이미지로부터 물체 인식을 위한 학습을 수행하도록 구성된 서버를 포함하는 증강 현실 정보 제공 시스템을 제공할 수 있다.

Description

딥 러닝을 이용한 3차원 물체 인식에 기초하여 증강 현실 정보를 제공하는 방법 및 이를 이용한 시스템

본 발명은 3차원 물체 인식에 기초하여 증강 현실을 이용한 정보 제공 방법 및 이를 이용한 시스템에 관한 것이다. 보다 구체적으로, 본 발명은 원하는 물체의 특징 영역에 관련 정보를 오버레이할 수 있도록 사용자 맞춤형 증강 현실 저작 도구를 구현하고, 서버에서 딥 러닝을 이용한 학습을 통해 사용자 장치에서 가벼운 연산을 통해 3차원 물체 인식이 가능한 시스템에 관한 것이다.

개인화 풍토 및 여가 시간 부족으로 인하여 어떤 사물 또는 물체에 대한 정보를 얻기 위해 직접 타인에게 대면 상으로 문의를 하기 보다는 인터넷 검색, 자동 주문 단말기 활용, 모바일 애플리케이션 등을 활용하여 정보를 찾아보고 물건과 음식을 주문하는 경향이 늘어나고 있다.

이러한 풍토를 반영하여 기업들은 애플리케이션을 활용하여 제품 정보와 매뉴얼을 제공하고 있으며 증강 현실(AR, Augmented Reality)을 활용하여 반응형 정보를 제공하고자 하는 수요가 늘어나고 있다.

그러나 증강 현실을 구현하기 위해서는 해당 분야에 대한 전문적인 지식이 필요하고, 전문 업체를 통해서만 구현이 가능하여 쉽게 대중화되지 못하고 있다는 문제가 있어, 사용자 편의성을 높이고 저비용으로 구현할 수 있는 사용자 맞춤형 증강 현실 저작 도구의 개발이 요구된다.

또한, 현재 산업에서 활용되고 있는 증강 현실 기술은 2D 이미지 인식 기술을 바탕으로 하고 있어, 2D 이미지 및 패턴을 인식하는 기술을 기반으로 구현되어 그 활용이 제한적이며, 특정 각도에서만 증강 현실 경험을 제공할 수 있어 물체의 측면이나 뒷면을 증강 현실에 활용할 수 없다는 단점이 있다. 따라서, 현실 세계의 물체들과의 실감나는 상호 작용을 적용하고, 현실 세계의 물체들의 움직임에 따라서 변하는 증강 현실을 구현하기 위해서는 현실 세계의 물체들의 종류, 크기, 위치, 방향 등을 인식하고 물체의 정면, 측면, 후면 등을 모두 사용 가능하며, 더욱 실제와 같은 실감나는 증강 현실을 구현할 필요가 있다.

본 발명은 사용자가 실시간으로 증강 현실의 콘텐츠를 추가, 수정, 삭제할 수 있는 증강 현실 저작 도구를 제공함으로써 보다 쉽고 저비용으로 증강현실을 구현할 수 있도록 하는 것을 목적으로 한다.

또한, 본 발명은 최신의 객체 인식 기술인 합성곱 신경망(CNN, Convolutional Neural Network)을 이용해 3차원 공간 상의 객체의 종류와 크기, 위치 등을 인식하고 현실감 넘치고 동적인 증강현실을 제공하여 산업 전반에 활용 가능하도록 하는 것을 목적으로 한다.

또한, 본 발명은 사용자 장치의 심도 인식 카메라를 통해 마커(marker) 없이 사물을 인식하고, 물체의 앞면뿐만 아니라 측면, 후면 등 모든 각도에서 증강 현실 정보를 제공가능하며, 제품 회전 시에도 증강 현실 정보를 제공가능한 장치 및 방법을 제공하는 것을 목적으로 한다.

또한, 본 발명은 서버를 통해 GPU 자원과 풍부한 데이터를 사용하여 딥러닝을 통해 학습하고, 학습의 결과만 사용자 장치로 전송하여 가벼운 연산으로 사물 인식이 가능하게 하는 시스템을 제공하는 것을 목적으로 한다.

또한, 본 발명은 딥러닝 학습을 위한 인공 신경망 구성에서 사용자별 공통 사용 부분과 개별 사용 부분을 나누어 각 사용자별 학습을 따로 하는 부담을 줄이고 딥러닝에 사용되는 자원을 효율적으로 사용할 수 있는 시스템을 제공하는 것을 목적으로 한다.

본 발명의 해결 과제들은 이상에서 언급한 내용들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 실시예에 따르면, 3차원 물체 인식에 기초하여 증강 현실을 이용한 정보 제공 시스템에 있어서, 카메라를 포함하고, 물체를 다양한 각도로 촬영하도록 구성된, 증강 현실 저작을 위한 사용자 장치; 및 상기 물체의 이미지로부터 물체 인식을 위한 학습을 수행하도록 구성된 서버를 포함하는 증강 현실 정보 제공 시스템을 제공할 수 있다.

여기서, 상기 사용자 장치의 카메라는 깊이 카메라(depth camera)일 수 있다.

상기 사용자 장치는 상기 물체의 정면, 측면 및 후면을 포함한 다양한 각도의 복수의 RGB 촬영 이미지를 수신하고, 상기 복수의 RGB 촬영 이미지에 기초하여 3차원 메쉬 재생성(3D mesh reconstruction)을 수행가능할 수 있다.

또한, 상기 사용자 장치는 상기 물체의 적어도 일부 영역과 관련된 특징 영역을 생성하고, 상기 특징 영역과 관련된 텍스트, 안내선, 이미지 및 동영상 중 적어도 하나를 연관시킬 수 있는 것일 수 있다.

또한, 상기 서버는 인공 신경망(neural network)을 통해 학습을 수행하고, 상기 인공 신경망을 통한 학습은 이미지로부터 특징점을 찾는 제1 학습과 상기 특징점으로부터 물체(object)의 종류를 찾는 제2 학습을 포함할 수 있다.

또한, 상기 인공 신경망은 저층부 및 고층부를 포함하고, 상기 인공 신경망의 저층부는 복수의 사용자 장치로부터 수행된 모든 이미지를 이용하여 상기 제1 학습을 진행하고, 상기 인공 신경망의 고층부는 각 사용자 장치의 물체만을 대상으로 상기 제2 학습을 진행할 수 있다.

또한, 물체를 촬영 가능하도록 구성된, 증강 현실 기반의 정보를 제공받도록 구성된 고객 장치를 더 포함하고, 상기 고객 장치는 촬영한 이미지와 상기 사용자 장치에서 미리 다양한 각도로 촬영된 원본 이미지를 SIFT(Scale-invariant feature transform)를 이용한 이미지 매칭을 통해 물체의 위치, 방향 및 특징 영역 중 적어도 하나를 인식할 수 있는 것인, 증강 현실 정보 제공 시스템을 제공할 수 있다.

또한, 상기 고객 장치는 상기 촬영한 이미지에 상기 특징 영역과 관련된 텍스트, 안내선, 이미지 및 동영상 중 적어도 하나를 렌더링하도록 구성되고, SLAM(simultaneous localization and mapping) 알고리즘을 통해 상기 고객 장치의 위치를 인식할 수 있다.

또한, 상기 고객 장치는 상기 고객 장치의 위치의 변화를 지속적으로 추적하는 동시에, 상기 물체의 위치 및 방향을 지속적으로 추적할 수 있다.

본 발명의 다른 실시예에 따르면, 증강 현실 저작을 위한 사용자 장치에 있어서, 물체를 다양한 각도로 촬영가능한 카메라; 사용자 입력에 기초하여 상기 물체의 적어도 일부 영역과 관련된 특징 영역을 생성하고, 상기 특징 영역과 관련된 텍스트, 안내선, 이미지, 동영상 중 적어도 하나를 연관시키도록 구성된 처리부; 및 데이터 통신을 위한 통신부를 포함하고, 상기 통신부를 통해 상기 물체의 이미지로부터 인공 신경망(neural network)을 통해 학습을 수행하도록 구성된 서버에 상기 물체의 이미지 및 상기 특징 영역과 관련된 정보를 전송하는 것인, 증강 현실 정보 제공 시스템을 제공할 수 있다.

본 발명에 의하면, 사용자가 실시간으로 증강현실의 콘텐츠를 추가, 수정, 삭제할 수 있는 증강 현실 저작 도구를 제공함으로써 보다 쉽고 저비용으로 증강현실을 구현할 수 있다.

또한, 본 발명에 의하면, 최신의 객체 인식 기술인 합성곱 신경망(Convolutional neural network)을 이용해 3차원 공간상의 객체의 종류와 크기, 위치 등을 인식하고 현실감 넘치고 동적인 증강현실을 제공하여 산업 전반에 활용 가능하다.

또한, 본 발명에 의하면, 사용자 장치의 심도 인식 카메라를 통해 마커(marker) 없이 사물을 인식하고, 물체의 앞면뿐만 아니라 측면, 후면 등 모든 각도에서 증강 현실 정보를 제공가능하며, 제품 회전 시에도 증강 현실 정보를 제공가능한 장치 및 방법을 제공할 수 있다.

또한, 본 발명에 의하면, 서버를 통해 GPU 자원과 풍부한 데이터를 사용하여 딥러닝을 통해 학습하고, 학습의 결과만 사용자 장치로 전송하여 가벼운 연산으로 사물 인식이 가능하게 하는 시스템을 제공할 수 있다.

또한, 본 발명에 의하면, 딥러닝 학습을 위한 인공 신경망 구성에서 사용자별 공통 사용 부분과 개별 사용 부분을 나누어 각 사용자별 학습을 따로 하는 부담을 줄이고 딥러닝에 사용되는 자원을 효율적으로 사용할 수 있는 시스템을 제공할 수 있다.

본 발명의 효과들은 이상에서 언급한 내용들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 증강 현실 저작을 위한 사용자 장치의 구성을 설명하기 위한 블록도이다.

도 2는 본 발명의 일 실시예에 따른 증강 현실 저작 방법을 설명하기 위한 흐름도이다.

도 3은 본 발명의 일 실시예에 따른 서버의 딥러닝 학습 방법을 설명하기 위한 예시도이다.

도 4는 본 발명의 일 실시예에 따른 증강 현실 저작, 인공 신경망 학습 및 증강 현실 체험 과정을 설명하기 위한 시스템 예시도이다.

도 5a 내지 도 5c는 본 발명의 일 실시예에 따른 증강 현실 저작 방법을 설명하기 위한 예시도이다.

도 6a 내지 도 6c는 본 발명의 일 실시예에 따른 증강 현실 체험 과정을 설명하기 위한 예시도이다.

도 7은 본 발명의 일 실시예에 따른 인공 신경망을 이용한 딥 러닝을 통한 물체 인식 알고리즘을 설명하기 위한 예시도이다.

이하, 첨부된 도면을 참조하여 본 발명에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.

본 명세서에서 사용되는 "포함한다(comprises)", "포함하는(comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

또한, 본 발명에서 사용되는 제1, 제2 등과 같이 서수를 포함하는 용어는 구성 요소들을 설명하는데 사용될 수 있지만, 구성 요소들은 용어들에 의해 한정되어서는 안 된다. 이와 같은 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

또한, 본 발명의 실시예에 나타나는 구성부들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성단위로 이루어짐을 의미하지 않는다. 즉, 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 기술되고, 각 구성부 중 적어도 두 개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수 개의 구성부로 나뉘어져 기능을 수행할 수 있다. 이러한 각 구성부의 통합된 실시예 및 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리 범위에 포함된다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 실시예를 상세하게 설명한다. 본 발명의 구성 및 그에 따른 작용 효과는 이하의 상세한 설명을 통해 명확하게 이해될 것이다.

도 1은 본 발명의 일 실시예에 따른 증강 현실 저작을 위한 사용자 장치(100)의 구성을 설명하기 위한 블록도이다.

증강 현실 저작을 위한 사용자 장치(100)는 통신부(110), 입력 수신부(120), 디스플레이부(130), 카메라부(140), 메모리부(150) 및 처리부(160) 등을 포함할 수 있으며, 이들 구성 요소로 제한되지 않는다. 또한, 이와 같은 사용자 장치(100)는 사용자의 입출력 조작에 따라 유무선 통신망 등을 경유하여 각종 데이터 등을 수신 및 처리하고, 디스플레이할 수 있는 단말기로서, 예컨대, 스마트폰(smart phone), 태블릿(tablet) 컴퓨터, 데스크탑(desktop) 컴퓨터, 랩탑(laptop) 컴퓨터, 노트북, 워크스테이션(workstation), PDA(Personal Digital Assistants), 포터블(portable) 컴퓨터, 무선 전화기(wireless phone), 모바일 폰(mobile phone), e-북(e-book), PMP(portable multimedia player), 휴대용 게임기, 디지털 카메라(digital camera), 텔레비전(television), 웨어러블 디바이스(wearable device), AI(인공지능) 스피커 중 어느 하나일 수 있으며, 이들에 제한되지 않는다.

먼저 통신부(110)는 증강 현실 저작을 위해 필요한 정보를 네트워크를 통해 서버(200, 미도시됨) 또는 외부 장치로부터 수신하거나 획득한 정보를 서버 또는 외부 장치로 송신하도록 구성된 모듈 또는 부품일 수 있으며, 여기서, 네트워크는 유선 또는 무선으로 연결되는 네트워크로서, 네트워크가 무선 통신망일 경우, 셀룰러 통신 또는 근거리 통신을 포함할 수 있다. 예컨대, 셀룰러 통신은 LTE(Long-Term Evolution), LTE-A(LTE Advanced), 5G(5th Generation), CDMA(Code Division Multiple Access), WCDMA(Wideband CDMA), UMTS(Universal Mobile Telecommunications System), WiBro(Wireless Broadband), 또는 GSM(Global System for Mobile Communications) 등 중 적어도 하나를 포함할 수 있다. 또한, 근거리 통신은 Wi-Fi(Wireless Fidelity), 블루투스(Bluetooth), 지그비(Zigbee) 또는 NFC(Near Field Communication) 등 적어도 하나를 포함할 수 있다. 그러나, 통신 방법은 이에 한정되는 것은 아니며 차후 개발되는 무선 통신의 기술도 포함될 것이다.

입력 수신부(120)는 사용자의 입력을 수신하기 위한 구성 요소로서, 사용자의 조작 및 선택을 위해 다양한 입력을 수신하기 위해, 터치 스크린(touch screen), 터치 패드(touch pad), 터치 패널(touch panel), 키 패드(Key pad), 돔 스위치(dome switch), 물리 버튼, 조그 셔틀(jog shuttle), 마이크(microphone) 및 센서(sensor) 중 적어도 하나로 구성되는 입력부를 포함할 수 있으며, 이들에 제한되지 않는다.

디스플레이부(130)는 사용자에게 증강 현실 저작을 위한 정보 및 카메라 촬영 정보 등을 시각적으로 제공하기 위한 구성 요소이다. 예컨대, 디스플레이부(130)는 액정 디스플레이(LCD, liquid crystal display), 발광 다이오드(LED, light emitting diode) 디스플레이, 유기 발광 다이오드(OLED, organic LED) 디스플레이, 마이크로 LED, 마이크로 전자기계 시스템(MEMS, micro electro mechanical systems) 디스플레이 및 전자 종이(electronic paper) 디스플레이를 포함할 수 있으며, 이들에 제한되지 않는다. 또한, 이와 같은 디스플레이부는 입력 수신부(120)와 결합되어 터치 스크린(touch screen)의 형태로 구현될 수 있다.

카메라부(140)는 사용자에 의해 증강 현실 콘텐츠의 대상이 되는 물체(object)를 다양한 각도에서 촬영할 수 있도록 구성되며, 예컨대 스테레오 카메라, 적외선(IR) 카메라, 레이저 스캐너 등을 포함할 수 있고, 예컨대 깊이 정보를 생성할 수 있는 심도 인식 카메라 또는 깊이 카메라(depth camera)일 수 있으며, 깊이 정보를 획득할 수 있는 다양한 종류의 센서 및 모듈을 포함할 수 있다. 이와 같이 카메라부(140)가 획득하는 심도(depth) 정보를 이용하여 저비용으로 신뢰성 높게 물체의 크기를 용이하게 파악하고 물체 인식의 정확도를 높일 수 있다.

메모리부(150)는 사용자 장치(100)가 수신하거나 생성하는 데이터를 저장할 수 있다. 또한, 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 저장할 수 있다. 예를 들어, 하드 디스크 드라이브(HDD), 솔리드 스테이트 드라이브(SSD), 플래시 메모리 또는, SRAM과 DRAM과 같은 동적 메모리를 포함하는 임의의 다른 적합한 저장 장치일 수 있다. 카메라 촬영 정보 및 증강 현실 저작을 위해 필요한 다양한 정보는 메모리부(150)에 저장될 수 있다. 메모리부(150)에 저장된 데이터는 필요에 따라 처리부(160)에서 접근하여 읽어올 수 있다.

처리부(160)는 촬영한 물체 이미지들로부터 3D 모델을 생성하고, 해당 물체의 특징 영역에 증강 현실(AR, Augmented Reality) 또는 혼합 현실(MR, Mixed Reality)로 제공할 정보를 연관시키고, 다양한 증강 현실 또는 혼합 현실 제공 정보를 입력 및 편집 처리를 수행하도록 구성된다. 예컨대, 처리부(160)는 중앙 처리 장치(CPU), 어플리케이션 프로세서(AP) 등을 포함할 수 있으며, 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 저장할 수 있는 메모리를 내부에 포함하거나, 장치 내의 메모리부(150) 또는 필요한 경우 외부 메모리와 통신하여 필요한 정보에 액세스할 수 있다.

처리부(160)를 구성하고 있는 3D 모델 생성부(161), 특징 영역 정보 생성부(162) 및 편집 처리부(163)는 하나 이상의 프로세서(processor)에 의해 실행될 수 있는 프로그램 또는 프로그램 모듈을 포함할 수 있다. 처리부(160)에 포함된 프로그램 또는 프로그램 모듈들은 운영 체제(OS, operating system), 어플리케이션 프로그램(application program) 또는 프로그램 등의 형태로 구성될 수 있으며, 널리 사용되는 다양한 종류의 저장 장치 상에 물리적으로 저장될 수 있다. 이와 같은 프로그램 또는 프로그램 모듈은 하나 이상의 루틴(routine), 서브루틴(subroutine), 프로그램(program), 오브젝트(object), 콤포넌트(component), 명령(instructions), 데이터 구조(data structure) 및 특정 작업(task)을 수행하거나 특정 데이터 유형을 실행하기 위한 다양한 형태를 포함할 수 있으며, 이들 형태로 제한되지 않는다.

여기서, 3D 모델 생성부(161)는 카메라부(140)에서 촬영한 물체의 다양한 측면, 즉 정면, 측면 및 후면 등에서 다양한 각도로 촬영한 복수의 RGB 촬영 이미지를 수신하고, 수신된 이미지에 기초하여 3차원(3D) 모델을 생성하도록 구성된다. 예컨대, 3D 모델 생성부(161)는 해당 물체에 대해 다양한 각도에서 연속적으로 촬영된 복수의 이미지들로부터 3차원 메쉬(mesh) 데이터를 생성해낼 수 있고, 이를 통해 3차원 메쉬 재생성(3D mesh reconstruction)을 수행가능하다. 이와 같이 생성된 3차원 메쉬 정보 및 복수의 RGB 촬영 이미지는 서버(200)로 전달되며, 서버에서 3차원 메쉬 정보 및 촬영 이미지에 기초하여 딥러닝 학습을 진행할 수 있다.

특징 영역 정보 생성부(162)는 사용자에 의해 해당 물체의 적어도 일부 영역과 관련된 특징 영역을 생성하고, 사용자에 의해 지정된 특징 영역과 관련된 정보, 예컨대 텍스트, 안내선, 이미지 및 동영상 중 적어도 하나를 연관시키도록 구성된다. 이에 따라, 사용자는 증강 현실 또는 혼합 현실로 제공할 물체의 특징 영역과 관련된 정보들을 다양한 시각 요소로 생성하여 제공할 수 있으며, 물체의 정면뿐만 아니라 측면, 후면 등 다양한 각도에서의 특징 영역을 지정하고, 해당 영역과 관련된 부가 정보를 제공할 수 있다.

편집 처리부(163)는 텍스트, 안내선, 이미지, 동영상 등 다양한 방법으로 설정된 특징 영역 관련 정보 등을 입력, 편집 및 업데이트하도록 구성된다.

이와 같은 구성 요소들의 동작에 의해 증강 현실 저작을 위한 사용자 장치(100)의 프로그램 또는 앱(application)을 통해 증강 현실 저작이 보다 쉽고 저비용으로 구현될 수 있으며, 사용자 장치(100)에 의해 제작된 증강 현실 콘텐츠는 고객 단말 또는 장치에서 관련 증강 현실 사용/체험 프로그램 또는 앱을 통해 경험 및 체험 가능하다.

먼저, 증강 현실 저작을 위한 사용자는 사용자 장치(100)의 카메라부(140)를 통해 증강 현실 콘텐츠의 대상이 되는 물체를 정면, 측면, 후면 등이 포함될 수 있는 다양한 각도의 물체 이미지를 촬영할 수 있다.(S210)

사용자 장치(100)의 3D 모델 생성부(161)는 물체의 다양한 각도의 이미지를 수신하고 이에 기초하여 3차원 메쉬를 생성하여 3차원 모델 정보를 획득할 수 있다.(S220)

사용자는 해당 물체의 안내 정보 또는 부가 정보가 필요한 영역인 특징 영역을 지정하고 관련된 정보를 입력할 수 있으며, 특징 영역 정보 생성부(162)는 사용자에 의해 지정 및 입력된 특징 영역을 생성 처리하고, 해당 특징 영역에 대응되는 텍스트, 안내선, 이미지, 동영상 등의 증강 현실로 제공할 정보를 연관시켜 생성 및 저장할 수 있다.(S230)

사용자는 필요에 따라 증강 현실로 제공할 정보인 증강 현실 정보를 편집 및 업데이트할 수 있다.(S240) 이때, 편집 및 업데이트된 정보도 서버(200)에 전달되어 함께 업데이트될 수 있다.

딥 러닝(deep learning)은 인공 신경망(artificial neural network)을 모델로 하는 기계 학습의 한 종류로서 인공 신경망을 깊은 층으로 쌓을 수 있다. 예컨대, 물체의 종류를 알아내는 인공 신경망으로서, 이미지 처리에 주로 사용되는 합성곱 신경망(CNN, Convolutional Neural Network)을 사용할 수 있으며, 합성곱 신경망은 합성곱 레이어와 풀링 레이어를 연속적으로 쌓은 깊은 인공 신경망으로서, 이미지를 인식하고 이로부터 물체를 식별하고, 중요한 정보를 찾아내는데 사용될 수 있다.

도 3을 참조하면, 서버(200)는 인공 신경망을 통해 학습을 수행함에 있어서, 이미지로부터 특징점을 찾는 제1 학습 단계(S310)와 특징점으로부터 물체의 종류를 찾는 제2 학습 단계(S320)를 포함할 수 있다.

여기서, 인공 신경망은 저층부 및 고층부를 포함하고, 인공 신경망의 저층부는 복수의 사용자 장치로부터 수행된 모든 이미지를 이용하여 이미지로부터 특징점을 찾는 제1 학습 단계(S310)를 진행하고, 인공 신경망의 고층부는 각 사용자 장치의 물체만을 대상으로 특징점으로부터 물체의 종류를 찾는 제2 학습 단계(S320)를 진행할 수 있다.

이와 같이, 인공 신경망의 저층부와 고층부를 나누어　모든 고객 데이터 이미지를 이용해　전체 신경망을 학습시키고, 새로운 사용자가 오브젝트를 학습 시킬 때는 저층부 데이터를 고정하고 고층부만 변경하는 방식으로 학습을 시킴으로써, 각 사용자들은 저층부의 데이터는 서로 공유하게 되고, 고층부 데이터는 각 사용자에 따라 서로 상이하게 된다. 인공 신경망 학습을 위해서는 충분히 많은 데이터가 필요한데, 각 사용자가 촬영한 적은 개수의 이미지들로부터 물체를 인식하기 위하여 여러 사용자가 찍은 다양한 물체의 이미지들을 동시에 사용하여 신경망을 1차적으로 학습 진행 후, 각 사용자가 원하는 물체들만을 대상으로 더 신경망을 학습시키면 각 사용자에게 알맞은 인공신경망을 구성할 수 있다.

본 실시예는 이와 같이 저층부와 고층부의 단계적 처리에 의해 일부 신경망을 공유함으로써 일반성을 확보함과 동시에 특정 사용자의 오브젝트에 좀 더 맞춤형 대응을 할 수 있도록 한다. 따라서, 사용자별로 서로 상이한 인공 신경망을 학습하는 경우 사용자의 입력 데이터 외에 다른 데이터는 잘 받아들이지 못하는 오버피팅(overfitting, 과적합) 문제 및 모든 사용자에 대해 하나의 신경망으로 분류를 하는 경우 모든 오브젝트에 대응하기 힘들어진다는 문제점을 해결할 수 있다. 또한, 본 실시예에 의하면, 사용자들에게 서버를 제공함과 동시에 데이터베이스에 지속적으로 학습 데이터를 늘림으로써 점점 스마트한 솔루션을 제공할 수 있다.

먼저 제품을 생산하거나 판매하는 고객사 측면에서, 고객사는 증강 현실 저작/편집 앱을 통해 원하는 물체와 관련된 증강 현실 콘텐츠를 저작 및 생성할 수 있다. 예컨대, 고객사 A는 제1 물체와 관련된 증강 현실 콘텐츠를 사용자 장치(100)를 이용하여 저작할 수 있으며, 고객사 B는 제1 물체와 상이한 제2 물체와 관련된 증강 현실 콘텐츠를 사용자 장치(100)를 이용하여 저작할 수 있다.

이와 같이, 고객사 A 및 고객사 B에서 각각 제1 물체 및 제2 물체에 대해 촬영한 이미지는 서버(200)로 전송되어 서버(200)에서 인공 신경망을 통해 딥 러닝 학습이 이루어지게 된다. 이때, 인공 신경망의 저층부에서는 복수의 사용자 장치, 즉 고객사 A 및 고객사 B로부터 촬영된 모든 이미지를 이용하여 이미지로부터 특징점을 찾는 제1 학습을 수행할 수 있다. 한편, 인공 신경망의 고층부에서는 각 고객사 별로 데이터베이스(DB)를 분류하여, 고객사 A의 물체만을 대상으로 하는 DB2에서의 학습과 고객사 B의 물체만을 대상으로 하는 DB1에서의 학습을 개별적으로 수행할 수 있으며, 각각 특징점으로부터 해당 물체의 종류를 찾는 제2 학습을 수행할 수 있다.

서버(200)는 딥러닝을 위한 GPU(Graphics Processing Unit) 서버로 구성될 수 있으며, 인공 신경망의 특성상 학습 시간은 매우 길지만 물체 인식 수행 시간은 그리 길지 않기 때문에 서버(200)에서의 학습이 끝나면, 물체 인식은 스마트폰 등과 같은 고객 단말에서 짧은 시간 동안에 충분히 가능하다. 서버(200)는 GPU를 사용하여 딥 러닝을 통해 이미지로부터 사물의 종류를 빠르게 알아낼 수 있으나, 모바일 기기의 성능은 직접적으로 딥 러닝을 수행하기에는 적합하지 않기 때문에 서버(200)에서 GPU 자원과 풍부한 이미지 데이터를 이용하여 딥 러닝을 통해 학습을 진행하고, 학습의 결과만 고객 단말에 전송함으로써, 고객 단말에서 빠르게 사물 인식이 가능해질 수 있다.

증강 현실 콘텐츠를 사용 및 체험하는 고객(제품 소비자)의 측면에서, 고객은 고객 단말 또는 고객 장치(300)를 통해 해당 물체를 촬영하고, 증강 현실 또는 혼합 현실로 제공되는 해당 물체에 관한 콘텐츠를 고객 장치(300)의 증강 현실 사용/체험 앱 등을 통해 실현할 수 있다.

고객 장치(300)의 카메라를 통해 촬영된 이미지로부터 물체의 종류가 결정되면, 카메라의 이미지와 다각도에서 미리 촬영된 물체의 원본 이미지를 매칭하여 물체의 위치와 방향을 판단해내고 사용자가 지정했던 특징 영역들을 찾아낼 수 있다. 고객 장치는 촬영한 이미지와 상기 사용자 장치에서 미리 다양한 각도로 촬영된 원본 이미지를 SIFT(Scale-invariant feature transform)를 이용한 이미지 매칭(image matching)을 통해 물체의 위치, 방향 및 특징 영역 중 적어도 하나를 인식할 수 있다.

또한, 고객 장치(300)는 촬영되는 현실 물체의 3차원 좌표를 찾으면 이 위에 가상 오브젝트를 렌더링함으로써 제공되는 증강 현실 정보를 제공할 수 있다. 증강 현실 기술은 현재 고객 장치(300)의 위치를 지속적으로 추적해 내는데, SLAM(Simultaneous Localization And Mapping) 기술을 이용해 사용자가 보고 있는 연속적인 이미지의 시퀀스로부터 고객 장치(300)의 위치를 얻어낼 수 있으며, 이 때의 사용자의 위치는 처음 얻어낸 사용자의 위치에 대한 상대적인 위치로 카메라를 들고 이동한 거리 및 방향 등을 파악해낼 수 있다.

이와 같이, 증강 현실을 통해 얻어낸 고객 장치(300)의 위치에 따라서 가상 오브젝트를 렌더링하면서 동시에 위의 딥러닝 인식 과정을 반복해 지속적으로 현실 물체의 위치와 방향을 추적함으로써, 카메라 상의 물체의 움직임과 사용자의 움직임을 동시에 추적할 수 있다.

도 5a를 참조하면, 고객사 사용자는 증강 현실 저작을 위한 사용자 장치(100)의 카메라부(140)를 이용하여 물체, 예컨대 세탁기의 정면, 측면, 후면 등을 촬영하여 다양한 각도에서의 이미지를 연속적으로 획득할 수 있다.

도 5b를 참조하면, 다양한 각도로 촬영된 복수의 이미지들로부터 3D 메시 데이터 및 RGB 이미지 데이터를 확보할 수 있으며, 고객사 사용자가 저작 도구를 활용하여 증강 현실로 제공할 정보를 사용자 장치(100)의 입력 수신부(120)를 이용하여 해당 물체 내에서의 특징 영역 설정 및 해당 특징 영역과 연관된 안내선, 텍스트, 이미지, 동영상 등의 부가 정보를 입력할 수 있다.

도 5c를 참고하면, 물체의 해당 특징 영역과 연관된 안내선, 텍스트, 이미지, 동영상 등의 부가 정보가 디스플레이되며, 이와 같이 다양한 방법으로 증강 현실 또는 혼합 현실로 제공된 부가 정보를 입력 및 편집할 수 있다.

도 6a를 참조하면, 증강 현실 체험 고객은 고객 단말(300)을 통해 카메라를 이용하여 해당 물체를 촬영할 수 있으며, 이때 사용자는 해당 물체의 정면뿐만 아니라 측면, 후면 등의 다양한 각도로 촬영할 수 있으며, 증강 현실 체험 앱을 통해 다양한 각도에서 물체의 인식뿐만 아니라 특징 영역과 관련된 부가 정보를 연속적으로 고객 단말을 통해 디스플레이할 수 있다.

도 6b를 참조하면, 고객 단말(300)을 통해 예컨대 스마트폰 카메라로 해당 제품인 세탁기를 촬영하면, 카메라로 촬영되고 있는 세탁기 위에 오버레이되어 증강 현실로 제품 정보가 표시될 수 있다. 이때 디스플레이되는 제품 정보는 증강 현실 저작 앱 등을 통해 고객사, 즉 제품의 생산자 또는 판매자가 미리 저작한 증강 현실 콘텐츠의 입력 내용이다.

도 6c를 참고하면, 고객 단말을 통해 물체에 대한 카메라 촬영 각도나 촬영 위치를 변경 또는 회전하여도, 해당 물체의 특징점 및 특징 영역을 지속적으로 추적하여 해당 정보를 표시할 수 있다. 고객 단말 카메라의 각도에 따라 해당 물체의 정면뿐만 아니라 측면, 후면의 특징 영역과 관련된 부가 정보가 표시될 수 있음을 알 수 있다.

본 발명에 따르면 고객 단말의 카메라를 통해 찍힌 사진을 입력 데이터로 이용하여 물체의 종류를 판별하는 인공 신경망을 이용하여 입력 데이터로부터 현재 카메라로 보고 있는 물체가 무엇인지 알아낼 수 있게 된다. 인공 신경망의 특성상 서버(200)에서의 학습 시간은 매우 길지만 물체의 촬영과 실시간으로 수행되는 물체 인식 수행 시간은 그리 길지 않기 때문에, 서버(200)에서 일단 이미지 학습이 끝난 후에 수행되는 물체 인식은 스마트폰 등과 같은 고객 단말에서도 짧은 시간 동안에 충분히 가능하다.

도 7을 참조하면, 고객 단말의 카메라를 증강 현실 체험을 원하는 물체인 기타를 촬영하면(S710), 합성곱 신경망을 통해 딥 러닝을 통해 물체의 종류가 기타임을 알아낼 수 있다.(S720)

다음으로 촬영된 물체의 종류가 결정되면, 카메라의 이미지와 다각도에서 미리 촬영된 물체의 원본 이미지를 매칭하여(S730) 물체의 위치와 방향을 판단해내고(S740) 사용자가 지정했던 특징 영역들을 찾아내고 연관 정보를 디스플레이할 수 있으며(S750), 이미지 매칭을 위해서는 SIFT (Scale-invariant feature transform)를 사용하며 이를 통해 물체의 크기와 관계없이 이미지를 매칭하고, 반대로 물체의 크기 또한 인식할 수 있다.

이상 본 발명의 실시예에 따른 방법 및 장치를 구체적인 다양한 실시 형태로서 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명은 이에 한정되지 않는 것이며, 본 명세서에 개시된 기초 사상에 따르는 최광의 범위를 갖는 것으로 해석되어야 한다. 당업자는 개시된 실시형태들을 조합, 치환하여 적시되지 않은 형상의 패턴을 실시할 수 있으나, 이 역시 본 발명의 범위를 벗어나지 않는 것이다. 이외에도 당업자는 본 명세서에 기초하여 개시된 실시형태를 용이하게 변경 또는 변형할 수 있으며, 이러한 변경 또는 변형도 본 발명의 권리범위에 속함은 명백하다.

Claims

3차원 물체 인식에 기초하여 증강 현실을 이용한 정보 제공 시스템에 있어서,

카메라를 포함하고, 물체를 다양한 각도로 촬영하도록 구성된, 증강 현실 저작을 위한 사용자 장치; 및

상기 물체의 이미지로부터 물체 인식을 위한 학습을 수행하도록 구성된 서버

를 포함하는 증강 현실 정보 제공 시스템.
제1항에 있어서, 상기 사용자 장치의 카메라는 깊이 카메라(depth camera)인 것인, 증강 현실 정보 제공 시스템.
제1항에 있어서, 상기 사용자 장치는 상기 물체의 정면, 측면 및 후면을 포함한 다양한 각도의 복수의 RGB 촬영 이미지를 수신하고, 상기 복수의 RGB 촬영 이미지에 기초하여 3차원 메쉬 재생성(3D mesh reconstruction)을 수행가능한 것인, 증강 현실 정보 제공 시스템.
제1항에 있어서, 상기 사용자 장치는 상기 물체의 적어도 일부 영역과 관련된 특징 영역을 생성하고, 상기 특징 영역과 관련된 텍스트, 안내선, 이미지 및 동영상 중 적어도 하나를 연관시킬 수 있는 것인, 증강 현실 정보 제공 시스템.
제1항에 있어서, 상기 서버는 인공 신경망(neural network)을 통해 학습을 수행하고, 상기 인공 신경망을 통한 학습은 이미지로부터 특징점을 찾는 제1 학습과 상기 특징점으로부터 물체(object)의 종류를 찾는 제2 학습을 포함하는 것인, 증강 현실 정보 제공 시스템.
제5항에 있어서, 상기 인공 신경망은 저층부 및 고층부를 포함하고, 상기 인공 신경망의 저층부는 복수의 사용자 장치로부터 수행된 모든 이미지를 이용하여 상기 제1 학습을 진행하고, 상기 인공 신경망의 고층부는 각 사용자 장치의 물체만을 대상으로 상기 제2 학습을 진행하는 것인, 증강 현실 정보 제공 시스템.
제4항에 있어서, 물체를 촬영 가능하도록 구성된, 증강 현실 기반의 정보를 제공받도록 구성된 고객 장치를 더 포함하고, 상기 고객 장치는 촬영한 이미지와 상기 사용자 장치에서 미리 다양한 각도로 촬영된 원본 이미지를 SIFT(Scale-invariant feature transform)를 이용한 이미지 매칭을 통해 물체의 위치, 방향 및 특징 영역 중 적어도 하나를 인식할 수 있는 것인, 증강 현실 정보 제공 시스템.
제7항에 있어서, 상기 고객 장치는 상기 촬영한 이미지에 상기 특징 영역과 관련된 텍스트, 안내선, 이미지 및 동영상 중 적어도 하나를 렌더링하도록 구성되고, SLAM(simultaneous localization and mapping) 알고리즘을 통해 상기 고객 장치의 위치를 인식할 수 있는 것인, 증강 현실 정보 제공 시스템.
제8항에 있어서, 상기 고객 장치는 상기 고객 장치의 위치의 변화를 지속적으로 추적하는 동시에, 상기 물체의 위치 및 방향을 지속적으로 추적하는 것인, 증강 현실 정보 제공 시스템.
증강 현실 저작을 위한 사용자 장치에 있어서,

물체를 다양한 각도로 촬영가능한 카메라;

사용자 입력에 기초하여 상기 물체의 적어도 일부 영역과 관련된 특징 영역을 생성하고, 상기 특징 영역과 관련된 텍스트, 안내선, 이미지, 동영상 중 적어도 하나를 연관시키도록 구성된 처리부; 및

데이터 통신을 위한 통신부를 포함하고,

상기 통신부를 통해 상기 물체의 이미지로부터 인공 신경망(neural network)을 통해 학습을 수행하도록 구성된 서버에 상기 물체의 이미지 및 상기 특징 영역과 관련된 정보를 전송하는 것인, 증강 현실 정보 제공 시스템.