KR20220083552A

KR20220083552A - 착용형 ar 장치를 위한 다중 객체의 6 자유도 추정과 보정 및 이를 적용한 ar 서비스 방법

Info

Publication number: KR20220083552A
Application number: KR1020210059922A
Authority: KR
Inventors: 박민규; 이민호; 김제우; 윤주홍
Original assignee: 한국전자기술연구원
Priority date: 2020-12-11
Filing date: 2021-05-10
Publication date: 2022-06-20

Abstract

착용형 AR 장치를 위한 다중 객체의 6 자유도 추정과 보정 및 이를 적용한 AR 서비스 방법이 제공된다. 본 발명의 실시예에 따른 가상 영상 서비스 방법은, 장면을 캡처하여 영상을 획득하고, 획득한 영상으로부터 객체들을 검출하여 자세 정보들을 추정하며, 추정된 자세 정보들을 보정하고, 가상 영상을 생성하여 공유한다. 이에 의해, AR 장치를 착용한 사용자에게 가상공간에서 실제 객체를 가상 객체와 합성하였을때 이질감 없이 현실감 있게 객체들이 융합될 수 있게 되어, 몰입감 높은 AR 응용 서비스가 가능해진다.

Description

착용형 AR 장치를 위한 다중 객체의 6 자유도 추정과 보정 및 이를 적용한 AR 서비스 방법{Method for estimating and correcting 6 DoF of multiple objects of wearable AR device and AR service method using the same}

본 발명은 객체의 자세 추정/보정 방법에 관한 것으로, 더욱 상세하게는 착용형 AR(Augmented Reality) 장치에서 객체를 검출하고 검출된 객체의 6 자유도 자세를 추정하고 보정하는 방법 및 이를 이용하여 사용자에게 현실감 있는 가상 서비스를 제공하는 방법에 관한 것이다.

착용형 AR 장치에서 객체의 자세 추정 기술은 피착용자에게 보이는 객체에 대한 기하학적 정보를 얻기 위한 기술이며, 이를 통해 실제 보고 있는 환경/객체에 대한 사용자의 이해도를 높여줄 수 있다.

특히 항공 정비, 공장 설비 등과 같은 곳에서 교육적 목적으로 관심이 크게 높아지고 있는 추세이며, 게임, 자율 주행 등에서도 해당 기술을 필요로 하고 있다.

하지만 기존의 객체 자세 추정 기술은 개별 객체의 자세 추정에 주안점을 두었기 때문에, 객체 간의 물리적 특성을 고려하지 않았다는 한계점이 있다. 때문에 근접한 객체가 서로 관통한다던지 바닥을 뚫고 물체가 서 있는 것과 같은 부자연스러운 현상이 발생 할 수 있다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, AR 장치를 착용한 사용자에게 가상공간에서 실제 객체를 가상 객체와 합성하였을때, 이질감 없이 현실감 있게 객체들이 융합될 수 있도록 하기 위한 방안으로, 다중 객체의 6 자유도 추정/보정 및 이를 적용한 가상 서비스 방법을 제공함에 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 가상 영상 서비스 방법은, 장면을 캡처하여 영상을 획득하는 단계; 획득한 영상으로부터 객체들을 검출하는 단계; 검출된 객체들의 자세 정보들을 추정하는 단계; 추정된 자세 정보들을 보정하는 단계; 자세가 보정된 객체들을 이용하여, 가상 영상을 생성하는 단계; 생성한 가상 영상을 공유하는 단계;를 포함한다.

획득 단계는, 사용자가 착용하고 있는 장치를 이용하여, 사용자가 보고 있는 장면을 캡쳐하고, 공유 단계는, 생성한 가상 영상을 사용자가 착용하고 있는 장치와 다른 사용자가 착용하고 있는 장치를 통해 VR 영상이나 AR 영상으로 제공할 수 있다.

생성 단계는, 자세가 보정된 객체들을 가상의 객체들과 함께 가상 공간에 합성하여, 가상 영상을 생성할 수 있다.

추정 단계는, 검출된 객체들의 주변 객체들과 환경과의 관계를 고려하지 않고, 객체 독립적으로 자세 정보들을 추정할 수 있다.

추정 단계는, 바운딩 박스의 위치와 영상 패치를 입력받아 객체의 6 자유도 정보를 추정하도록 학습된 딥 러닝 네트워크를 이용하여, 바운딩 박스의 위치와 영상 패치로부터 객체의 6 자유도 정보를 추정할 수 있다.

보정 단계는, 검출된 객체들의 주변 객체들과 환경과의 관계를 고려하여, 객체들의 자세 정보들을 보정할 수 있다.

보정 단계는, 바닥을 검출하는 단계; 검출된 바닥에 접한 객체들 중 크기가 가장 큰 제1 객체의 자세를 고정하는 단계; 제1 객체와 제1 객체에 인접한 제2 객체가 서로 관통하지 않도록, 제2 객체의 자세를 보정하는 단계;를 포함할 수 있다.

한편, 본 발명의 다른 실시예에 따른, 가상 영상 장치는, 장면을 캡처하여 영상을 획득하는 카메라; 획득한 영상으로부터 객체들을 검출하고, 검출된 객체들의 자세 정보들을 추정하며, 추정된 자세 정보들을 보정하고, 자세가 보정된 객체들을 이용하여 가상 영상을 생성하는 프로세서; 생성한 가상 영상을 표시하는 디스플레이;를 포함한다.

이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, AR 장치를 착용한 사용자에게 가상공간에서 실제 객체를 가상 객체와 합성하였을때 이질감 없이 현실감 있게 객체들이 융합될 수 있게 되어, 몰입감 높은 AR/VR 응용 서비스가 가능해진다.

또한, 본 발명의 실시예들에 따르면, 게임 또는 산업 현장에서 현실감 높은 시뮬레이션을 제공할 수 있게 된다.

도 1은 본 발명의 일 실시예에 따른 AR 서비스 제공 방법의 설명에 제공되는 흐름도,
도 2는 AR 장치의 카메라로 실제 장면을 촬영하는 과정 및 이를 통해 획득한 실제 영상을 예시한 도면,
도 3에는 자세 추정을 위한 딥 러닝 네트워크를 예시한 도면,
도 4는 객체를 검출하여 자세 정보를 추정한 결과를 예시한 도면,
도 5는, 도 1에 도시된 보정 단계의 상세 흐름도,
도 6은 가상 영상을 생성한 결과를 예시한 도면,
도 7은 가상 영상이 AR 장치에 제공되는 상황을 나타낸 도면, 그리고,
도 8은 본 발명의 다른 실시예에 따른 AR 장치의 블럭도이다.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

본 발명의 실시예에서는, 착용형 AR 장치에서 다중 객체의 자세를 정확하게 추정함으로써, 이를 기반으로 하는 가상 공간에 실제 객체들과 가상 객체들이 등장하는 가상 영상의 현실감을 높여, AR 서비스를 제공하는 방법을 제시한다.

도 1은 본 발명의 일 실시예에 따른 AR 서비스 제공 방법의 설명에 제공되는 흐름도이다.

가상 영상을 생성하여 AR 서비스를 제공하기 위해, 도시된 바와 같이, 먼저 사용자가 착용하고 있는 AR 장치로 사용자가 보고 있는 실제 장면을 캡쳐하여 실제 영상을 획득한다(S110).

S110단계를 위해, AR 장치에는 카메라가 내장되어 있거나 외부에 카메라가 설치되어 있을 것이 요구된다. 도 2에는 AR 장치의 카메라로 실제 장면을 촬영하는 과정 및 이를 통해 획득한 실제 영상을 나타내었다.

다음, S110단계에서 획득한 영상으로부터 영상에 존재하는 실제 객체들을 검출하고(S120), 검출된 실제 객체들의 자세 정보들을 추정한다(S130). S130단계에서의 자세 정보 추정은 객체들 모두에 대해 각각 수행된다.

S130단계에서는, 검출된 실제 객체들에 대해 주변 객체들과 환경과의 관계를 고려하지 않고, 객체 독립적으로 자세 정보들을 추정한다. 자세 추정은 딥 러닝 네트워크를 이용하여 수행할 수 있다.

도 3에는 자세 추정을 위한 딥 러닝 네트워크를 예시하였다. 도시된 딥 러닝 네트워크는 검출된 객체의 바운딩 박스(bounding box)의 위치와 영상 패치를 입력받아 객체의 6 자유도 정보를 추정하도록 학습된 인공지능 모델로 회귀 네트워크(regression network)로 구현가능하다.

이에 따라, 이 딥 러닝 네트워크에 S120단계에서 검출된 객체의 바운딩 박스의 위치와 영상 패치를 입력하면, 검출된 객체의 6 자유도 정보가 추정되어 출력된다.

도 4에는 S120단계에서 객체를 검출하여 자세 정보를 추정한 결과를 예시하였다.

다음, S130단계에서 추정된 객체들의 자세 정보들을 보정한다(S140). S140단계에서는, 검출된 실제 객체들에 대해 주변 객체들과 환경과의 관계를 고려하여, 객체들의 자세 정보들을 보정한다.

보정 과정에 대해, 이하에서 도 5를 참조하여 상세히 설명한다. 도 5는, 도 1에 도시된 보정 단계의 상세 흐름도이다.

도시된 바와 같이, 먼저, S110단계에서 획득된 영상에서 먼저 바닥 영역을 검출한다(S141). 다음, S141단계에서 검출된 바닥 영역에 접한 객체들 중 크기가 가장 큰 객체의 자세를 고정한다(S142). 이후, 자세가 고정된 객체와 그 객체에 인접한 다른 객체가 서로를 관통하지 않도록, 인접 객체의 자세를 보정한다(S143).

그리고, S110단계에서 획득된 영상에서 벽면 영역을 검출한다(S144). 다음, S144단계에서 검출된 벽면 영역에 접한 객체들 중 크기가 가장 큰 객체의 자세를 고정한다(S145). 이후, 자세가 고정된 객체와 그 객체에 인접한 다른 객체가 서로를 관통하지 않도록, 인접 객체의 자세를 보정한다(S146).

또한, S110단계에서 획득된 영상에서 천정 영역을 검출한다(S147). 다음, S147단계에서 검출된 천정 영역에 접한 객체들 중 크기가 가장 큰 객체의 자세를 고정한다(S148). 이후, 자세가 고정된 객체와 그 객체에 인접한 다른 객체가 서로를 관통하지 않도록, 인접 객체의 자세를 보정한다(S149).

S141단계 내지 S149단계는, 영상과 객체 검출 및 자세 추정 결과들을 입력받아, 객체들의 자세들을 위 과정에 따라 보정하도록 학습된 딥 러닝 네트워크를 이용하여 수행할 수 있다.

다시, 도 1을 참조하여 설명한다.

S140단계를 통해 객체들에 대한 자세 보정이 완료되면, 자세가 보정된 객체들을 이용하여 가상 영상을 생성한다(S150).

S150단계에서 생성하는 가상 영상은, 자세가 보정된 객체들을 가상의 객체들과 함께 가상 공간에 합성하여 생성할 수 있다. 도 6에는 실제 객체인 테이블 위에 가상 객체인 찻잔을 합성하여 가상 영상을 생성한 결과를 예시하였다.

다음, S150단계에서 생성한 가상 영상을 사용자가 착용하고 있는 AR 장치에 제공함과 동시에, 다른 사용자가 착용하고 있는 AR 장치에도 제공하여, 다중 사용자들 간에 가상 영상을 공유하도록 한다(S160).

도 7에는 S150단계에서 생성한 가상 영상이 다중 사용자들의 AR 장치에 제공되는 상황을 나타내었다.

도 8은 본 발명의 다른 실시예에 따른 AR/VR 장치의 블럭도이다. 본 발명의 실시예에 따른 AR 장치는, 도시된 바와 같이, 카메라(110), 디스플레이(120), 프로세서(130), 입력부(140) 및 통신부(150)를 포함하여 구성된다.

카메라(110)는 사용자가 보고 있는 실제 장면을 캡쳐하여 실제 영상을 획득하기 위한 구성이다.

프로세서(130)는 카메라(110)에 의해 획득한 영상으로부터 객체들을 검출하여 자세 정보들을 추정하고, 추정된 객체들의 자세 정보들을 보정한다. 그리고, 프로세서(130)는 자세가 보정된 객체들과 다른 가상 객체들을 이용하여 가상 영상을 생성한다.

디스플레이(120)는 프로세서(130)에 의해 생성된 가상 영상을 표시하여 사용자에게 제공하는 구성이다.

통신부(150)는 프로세서(130)에 의해 생성된 가상 영상을 다른 사용자의 AR 장치에 제공하기 위한 구성이다.

입력부(140)는 사용자의 명령을 입력하기 위한 입력 수단과 제스처를 인식하기 위한 센서를 포함한다.

지금까지, 객체들에 대해 추정된 자세들을 보정하여 AR 서비스를 제공하는 과정에 대해 바람직한 실시예를 들어 상세히 설명하였다.

위 실시예에서 제시한 기법은, AR 장치들을 통한 AR 서비스 외에도 VR 장치들을 통한 VR 서비스는 물론, 그 밖의 다른 가상 응용 서비스에 대해서도 적용될 수 있다.

위 실시예에서는, AR/VR 장치를 착용한 사용자에게 실제로 보이는 물체의 6 자유도 자세에 대한 정보를 제공하고, 가상공간에서 가상 객체와 물체를 혼합했을 때 이질감 없이 실제 공간에서 객체을 존재하는 것처럼 느끼고 조작할 수 있는 방법을 제시하였다.

이를 통해, 몰입감 높은 AR/VR 응용 서비스 제공이 가능해지며, 특히 게임 또는 산업 현장에서 현실감 높은 시뮬레이션을 제공할 수 있게 된다.

한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

110 : 카메라
120 : 디스플레이
130 : 프로세서
140 : 입력부
150 : 통신부

Claims

장면을 캡처하여 영상을 획득하는 단계;
획득한 영상으로부터 객체들을 검출하는 단계;
검출된 객체들의 자세 정보들을 추정하는 단계;
추정된 자세 정보들을 보정하는 단계;
자세가 보정된 객체들을 이용하여, 가상 영상을 생성하는 단계;
생성한 가상 영상을 공유하는 단계;를 포함하는 것을 특징으로 하는 가상 영상 서비스 방법.
청구항 1에 있어서,
획득 단계는,
사용자가 착용하고 있는 장치를 이용하여, 사용자가 보고 있는 장면을 캡쳐하고,
공유 단계는,
생성한 가상 영상을 사용자가 착용하고 있는 장치와 다른 사용자가 착용하고 있는 장치를 통해 VR 영상이나 AR 영상으로 제공하는 것을 특징으로 하는 가상 영상 서비스 방법.
청구항 1에 있어서,
생성 단계는,
자세가 보정된 객체들을 가상의 객체들과 함께 가상 공간에 합성하여, 가상 영상을 생성하는 것을 특징으로 하는 가상 영상 서비스 방법.
청구항 1에 있어서,
추정 단계는,
검출된 객체들의 주변 객체들과 환경과의 관계를 고려하지 않고, 객체 독립적으로 자세 정보들을 추정하는 것을 특징으로 하는 가상 영상 서비스 방법.
청구항 4에 있어서,
추정 단계는,
바운딩 박스의 위치와 영상 패치를 입력받아 객체의 6 자유도 정보를 추정하도록 학습된 딥 러닝 네트워크를 이용하여, 바운딩 박스의 위치와 영상 패치로부터 객체의 6 자유도 정보를 추정하는 것을 특징으로 하는 가상 영상 서비스 방법.
청구항 1에 있어서,
보정 단계는,
검출된 객체들의 주변 객체들과 환경과의 관계를 고려하여, 객체들의 자세 정보들을 보정하는 것을 특징으로 하는 가상 영상 서비스 방법.
청구항 6에 있어서,
보정 단계는,
바닥을 검출하는 단계;
검출된 바닥에 접한 객체들 중 크기가 가장 큰 제1 객체의 자세를 고정하는 단계;
제1 객체와 제1 객체에 인접한 제2 객체가 서로 관통하지 않도록, 제2 객체의 자세를 보정하는 단계;를 포함하는 것을 특징으로 하는 가상 영상 서비스 방법.
장면을 캡처하여 영상을 획득하는 카메라;
획득한 영상으로부터 객체들을 검출하고, 검출된 객체들의 자세 정보들을 추정하며, 추정된 자세 정보들을 보정하고, 자세가 보정된 객체들을 이용하여 가상 영상을 생성하는 프로세서;
생성한 가상 영상을 표시하는 디스플레이;를 포함하는 것을 특징으로 하는 가상 영상 장치.