KR102554282B1

KR102554282B1 - 객체 추천 장치, 방법 및 시스템

Info

Publication number: KR102554282B1
Application number: KR1020200168376A
Authority: KR
Inventors: 한지형; 정윤진
Original assignee: 서울과학기술대학교 산학협력단
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2023-07-11
Also published as: KR20220079006A

Abstract

실시예는, 영상 데이터를 수신하는 수신부; 상기 영상 데이터를 제1 머신러닝 모델에 적용하여 특징 데이터를 출력하는 제1 처리부; 상기 특징 데이터를 제2 머신러닝 모델에 적용하여 공간 정보를 출력하는 제2 처리부; 상기 공간 정보를 제3 머신러닝 모델에 적용하여 객체 정보를 출력하는 제3 처리부; 및 상기 객체 정보를 송신하는 송신부;를 포함하고, 상기 제2 머신러닝 모델은 입력을 학습 영상 데이터로부터 상기 제1 머신러닝 모델에 의해 출력된 학습 특징 데이터로, 출력을 상기 학습 영상 데이터에 설정된 학습 공간 정보로 학습하는 객체 추천 장치를 개시한다.

Description

객체 추천 장치, 방법 및 시스템{DEVICE, METHOD AND SYSTEM FOR RECOMMENDING OBJECT}

실시예는 객체 추천 장치, 방법 및 시스템에 관한 것이다. 보다 구체적으로, 실시예는 머신러닝을 활용한 VR·AR 환경에서 자율적 콘텐츠 제작을 위한 적절한 객체 추천을 위한 기술에 관한 것으로, VR·AR 콘텐츠를 자율적으로 생성할 수 있도록 VR·AR 환경을 디바이스의 카메라를 통해 영상으로 입력받아 분석한 뒤 도출된 공간 정보에 맞는 객체를 추천하는 객체 추천 장치, 방법 및 시스템에 관한 것이다

소셜 미디어의 확대와 디바이스의 발전과 보급으로 누구나 손쉽게 미디어를 제작하고 이를 통해 부가가치를 창출할 수 있게 되었다. 또한 최근의 모바일 디바이스는 VR·AR 환경을 지원하면서, VR·AR 환경을 기반으로 하는 콘텐츠에 대한 수요가 증가했다. 그러나 아직까지는 VR·AR 환경의 콘텐츠를 제작하기 위해서는 컴퓨터 그래픽에 대한 전문적인 지식을 가진 전문가만이 제작할 수 있고, 이러한 방식은 꾸준히 증가하는 수요를 충족하는데 한계가 존재한다.

VR·AR 콘텐츠에 대한 증가하는 수요를 충족하기 위해 일반 사용자들도 VR·AR 환경에서 콘텐츠를 재구성할 수 있는 서비스 플랫폼 마련이 필요하다. 그리고 이러한 서비스 플랫폼에서는 VR·AR 환경에 적절한 객체를 추천해 컴퓨터 그래픽에 대한 전문지식이 없는 일반인이 VR·AR 환경을 재구성하여 콘텐츠 제작을 할 수 있도록 돕는 기술이 필요하다

선행문헌1:공개특허공보 제10-2020-0104607호(2020.09.04.) 선행문헌2:등록특허공보 제10-2021515호(2019.09.16.) 선행문헌3:등록특허공보 제10-2013781호(2019.08.23.)

실시예는, 머신러닝 모델 기반으로 작동하는 객체 추천 장치, 방법 및 시스템으로써 빅데이터를 활용하여 주기적으로 새로운 데이터를 학습하여, 사용자 등에게 보다 정확한 객체 추천이 가능할 수 있다.

또한, 사용자 또는 단말로 영상에 적용 가능한 무한한 콘텐츠의 제공 없이 추천된 객체만을 사용자에게 제공함으로써, 장치의 계산 비용(computational cost)이 감소한 객체 추천 장치를 제공할 수 있다.

또한, 영상의 특징으로부터 추천하고자 하는 객체를 출력하므로, 정확하고 신속하게 맞춤형 객체를 출력하는 객체 추천 장치를 제공할 수 있다.

또한, 사용자 또는 단말로 추천된 객체를 제공함으로써, VR·AR 콘텐츠의 제작이 용이하게 이루어지는 객체 추천 장치를 제공할 수 있다.

또한, 콘텐츠 제작에 대한 접근성을 개선된 객체 추천 장치를 제공할 수 있다.

실시예에서 해결하고자 하는 과제는 이에 한정되는 것은 아니며, 아래에서 설명하는 과제의 해결수단이나 실시 형태로부터 파악될 수 있는 목적이나 효과도 포함된다고 할 것이다.

실시예에 따른 객체 추천 장치는 영상 데이터를 수신하는 수신부; 상기 영상 데이터를 제1 머신러닝 모델에 적용하여 특징 데이터를 출력하는 제1 처리부; 상기 특징 데이터를 제2 머신러닝 모델에 적용하여 공간 정보를 출력하는 제2 처리부; 상기 공간 정보를 제3 머신러닝 모델에 적용하여 객체 정보를 출력하는 제3 처리부; 및 상기 객체 정보를 송신하는 송신부;를 포함하고, 상기 제2 머신러닝 모델은 입력을 학습 영상 데이터로부터 상기 제1 머신러닝 모델에 의해 출력된 학습 특징 데이터로, 출력을 상기 학습 영상 데이터에 설정된 학습 공간 정보로 학습한다.

상기 제3 머신러닝 모델은 입력을 상기 학습 공간 정보로, 상기 학습 공간 정보에 기설정된 객체 정보를 출력으로 학습한다.

상기 제3 처리부는 상기 출력된 객체 정보에서 상기 영상 데이터 또는 상기 영상 데이터에 연속한 영상 데이터로부터 출력된 특징 데이터의 중첩 객체 정보를 제거할 수 있다.

상기 객체 정보는 실제 객체로 이루어진 리스트 형태를 포함할 수 있다.

상기 객체 정보는 유형의 물체로 이루어지며, 상기 공간 정보는 상기 객체 정보와 오버랩되지 않을 수 있다.

실시예에 따르면, 머신러닝 모델 기반으로 작동하고, 빅데이터를 활용하여 주기적으로 새로운 데이터를 학습하여, 사용자 등에게 보다 정확한 객체 추천이 가능한 객체 추천 장치, 방법 및 시스템을 구현할 수 있다.

또한, 사용자 또는 단말로 영상에 적용 가능한 무한한 콘텐츠의 제공 없이 추천된 객체만을 사용자에게 제공함으로써, 장치의 계산 비용(computational cost)이 감소한 객체 추천 장치를 구현할 수 있다.

또한, 영상의 특징으로부터 추천하고자 하는 객체를 출력하므로, 정확하고 신속하게 맞춤형 객체를 출력하는 객체 추천 장치를 구현할 수 있다.

또한, 사용자 또는 단말로 추천된 객체를 제공함으로써, VR·AR 콘텐츠의 제작이 용이하게 이루어지는 객체 추천 장치를 구현할 수 있다.

또한, 콘텐츠 제작에 대한 접근성을 개선된 객체 추천 장치를 구현할 수 있다.

본 발명의 다양하면서도 유익한 장점과 효과는 상술한 내용에 한정되지 않으며, 본 발명의 구체적인 실시형태를 설명하는 과정에서 보다 쉽게 이해될 수 있을 것이다.

도 1은 실시예에 따른 객체 추천 시스템의 개념도이고,
도 2는 실시예에 따른 객체 추천 장치의 블록도이고,
도 3은 실시예에 따른 객체 추천 장치의 동작을 설명하는 도면이고,
도 4는 실시예에 따른 객체 추천 장치에서 제1 처리부의 동작을 설명하는 도면이고,
도 5는 실시예에 따른 객체 추천 장치에서 제1 처리부 내지 제3 처리부에서 예시적인 동작을 나타낸 도면이고,
도 6은 실시예에 따른 객체 추천 장치에 의해 단말장치에 제공된 객체 정보를 도시한 도면이고,
도 7은 실시예에 따른 객체 추천 장치에 의해 단말장치에 제공된 실제 객체의 리스트에 대한 사용자의 선택에 의한 동작을 설명하는 도면이고,
도 8은 실시예에 따른 객체 추천 장치에서 제3 처리부의 객체 정보의 제거를 설명하는 도면이고,
도 9는 실시예에 따른 객체 추천 방법에 대한 순서도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제2, 제1 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제2 구성요소는 제1 구성요소로 명명될 수 있고, 유사하게 제1 구성요소도 제2 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부된 도면을 참조하여 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 대응하는 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

도 1은 실시예에 따른 객체 추천 시스템의 개념도이고, 도 2는 실시예에 따른 객체 추천 장치의 블록도이고, 도 3은 실시예에 따른 객체 추천 장치의 동작을 설명하는 도면이다.

도 1을 참조하면, 실시예에 따른 객체 추천 시스템은 단말(110) 및 객체 추천 장치(120)를 포함할 수 있다.

단말(110)은 복수 개일 수 있으며, 컴퓨터 장치로 구현되는 고정형 단말이거나 이동형 단말일 수 있다. 단말(110)은 예를 들면, 스마트폰(smart phone), 휴대폰, 내비게이션, 컴퓨터, 노트북, 디지털방송용 단말, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 태블릿 PC, HMD(Head mounted Display)일 수 있으며, 이에 한정되지 않는다.

또한, 실시예에서 단말(110)은 영상을 촬영하여 전송하거나 또는 수신한 영상 등을 전송할 수 있다. 예컨대, 영상은 상술한 바와 같이 AR, VR 영상을 포함할 수 있다.

그리고 단말(110)은 무선 또는 유선 통신 방식을 이용하여 네트워크(N)를 통해 객체 추천 장치(120)나 다른 단말과 통신할 수 있다. 반대로, 객체 추천 장치(120) 또는 객체 추천 장치를 포함하는 서버는 무선 또는 유선 통신 방식을 이용하여 네트워크(N)를 통해 단말(1140) 및/또는 다른 서버(또는 객체 추천 장치)와 통신할 수 있다.

네트워크(N)에서 통신 방식은 제한되지 않는다. 네트워크(N)가 포함할 수 있는 통신망(예를 들어, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식뿐만 아니라 기기들 간의 근거리 무선 통신 역시 네트워크(N)에 포함될 수 있다. 예를 들어, 네트워크(N)는 PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있으며, 상술한 바와 같이 유선 또는 무선 통신 방식을 모두 포함하는 개념일 수 있다. 즉, 네트워크(N)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수도 있다.

객체 추천 장치(120)는 상술한 바와 같이 서버에 포함되거나, 서버로 표현될 수도 있다. 객체 추천 장치(120)는 단말(110)과 네트워크(N)를 통해 통신하여 명령, 코드, 파일, 콘텐츠, 서비스 등을 제공하는 컴퓨터 장치 또는 복수의 컴퓨터 장치들로 구현될 수 있다.

객체 추천 장치(120)는 네트워크(N)를 통해 접속된 또는 연결된 단말(110)로 객체 정보 또는 실제 객체로 이루어진 리스트를 제공할 수 있다. 이 때, 객체 정보 또는 실제 객체로 이루어진 리스트는 영상 콘텐츠, 텍스트 콘텐츠 등 다양한 방식으로 단말(110)에 제공될 수 있다. 즉 단말(110)이 포함하는 운영체제(Operating System, OS) 및 적어도 하나의 프로그램(일례로 브라우저나 상기 설치된 어플리케이션)의 제어에 따라 객체 추천 장치(120)에 접속하여 객체 추천 장치(120)가 제공하는 서비스나 콘텐츠를 제공받을 수 있다. 예를 들어, 단말(110)이 어플리케이션 또는 프로그램의 제어에 따라 네트워크(N)를 통해 서비스 요청(예컨대, 객체 요청) 메시지를 객체 추천 장치(120)로 전송하면, 객체 추천 장치(120)는 서비스 요청 메시지에 대응하는 코드를 단말(110)로 전송할 수 있다 그리고 단말(110)은 어플리케이션의 제어에 따라 코드(예로, 객체 정보 또는 실제 객체로 이루어진 리스트에 대응하는 신호)에 따른 화면을 구성하여 디스플레이할 수 있다. 즉, 사용자는 객체 추천 장치(120)로부터 컨텐츠를 제공받을 수 있다.

실시예로, 단말(110)은 VR·AR 비디오 형태 등의 영상 데이터를 객체 추천 장치(120)로 전송할 수 있다. 예컨대, 단말(110)은 영상 데이터를 소정의 시간 간격을 갖는 프레임 단위의 이미지 형태로 객체 추천 장치(120)에 전송할 수 있다. 그리고 객체 추천 장치(120)는 VR·AR 영상 즉, 영상 데이터를 수신부를 통해 수신하고, 영상 데이터를 제1 처리부를 통해 분석하여 공간 정보를 출력할 수 있다. 또한, 객체 추천 장치(120)는 공간 정보에 대해 제2 처리부를 통해 객체 정보를 출력한 뒤, 출력된 객체 정보와 대응되는 데이터 베이스(DB) 상에 존재하는 실제 객체를 단말(110)로 제공 및 추천 한다.

도 2 및 도 3을 참조하면, 실시예에 따른 객체 추천 장치(120)는 수신부(121), 제1 처리부(122), 제2 처리부(123), 제3 처리부(124), 출력부(125) 및 데이터 베이스(DB)를 포함할 수 있다. 본 명세서에서, N, M, U은 정수이며, 크기는 객체 추천 장치를 관리자 등에 의해 임의로 결정될 수 있다.

실시예로, 수신부(121)는 전술한 바와 같이 단말로부터 전송된 프레임 단위의 영상 데이터를 수신할 수 있다. 예컨대, 수신부(121)는 VR·AR 비디오 형태의 영상 데이터가 일정 시간 간격을 두고 프레임 단위로 추출된 이미지 형태의 영상 데이터를 단말로부터 수신할 수 있다.

또한, 본 명세서에서는 영상 데이터를 프레임으로 설명하며, 도 3에서와 같이 1 프레임 2프레임 내지 N프레임을 수신할 수 있다. 즉, 단말로부터 N개의 프레임이 수신부(121)로 전송될 수 있다.

제1 처리부(122)는 적어도 하나의 프레임으로 이루어진 영상 데이터를 제1 머신러닝 모델에 적용하여 특징 데이터를 출력할 수 있다. 제1 처리부(122)는 제1 머신러닝 모델을 포함할 수 있으며, 제1 머신러닝 모델은 사전 훈련된 CNN기반의 기계학습 모델일 수 있다. 이에, N개의 프레임은 사전 훈련된 CNN기반의 제1 머신러닝 모델을 통해 N개의 프레임에 대한 특징 데이터를 추출할 수 있다. 특징 데이터도 프레임의 개수에 대응하여 N개일 수 있다.

제1 처리부(122)에서 제1 머신러닝 모델은 단말로부터 송신된 영상 데이터를 차례대로 제1 머신러닝 모델을 통과하여 영상 데이터 즉 프레임에 대한 특징을 나타내는 특징 데이터를 생성 또는 출력할 수 있다.

제1 머신러닝 모델은 이미지 형태의 영상 데이터를 입력으로 받으면, 영상 데이터가 어떤 특징(feature)를 가지고 있는지 학습할 수 있다.

이러한 제1 머신러닝 모델로, 사전 훈련된 CNN 기반 머신러닝 모델은 VGG, Inception, ResNet, SENet 등의 머신러닝 모델이 될 수 있다.

예를 들어, 제1 머신러닝 모델은 피라미드 구조의 합성곱 신경 회로망(convolutional neural network)으로　특징을　출력 또는 추출하고,　영상에서 k개의 앵커 박스(anchor box)를 이동시키면서 앵커 박스 안에 객체가 존재하는지 판단할 수 있다. 또는 제1 머신러닝 모델은 3×3과 1×1 콘벌루션으로 이루어져 필터링을 수행하는 복수(에로, 19개)의 콘벌루션 레이어(convolution layer)와　영상의 다운 샘플링을 수행하는 5개의 최대 풀링 레이어(max pooling layer)를 포함할 수 있으며, 각각의 콘벌루션 레이어의 입력에 배치 정규화(batch normalization)를 적용하고, 활성화 함수로 Leaky ReLU(교정 선형 유닛, rectified linear unit)를 적용할 수도 있다.

이를 통해, 제1 머신러닝 모델은 영상 데이터 즉 프레임의 특징으로 이루어진 특징 데이터를 출력할 수 있다.

제2 처리부(123)는 특징 데이터를 제2 머신러닝 모델에 적용하여 공간 정보를 출력할 수 있다. 예컨대, 객체 추천 장치(120)는 VR·AR 영상을 분석하여 공간 정보를 출력 또는 추출할 수 있다. 이 때, 제2 처리부(123)는 제2 머신러닝 모델을 포함할 수 있으며, 제2 머신러닝 모델은 사전 훈련된 RNN 기반의 기계학습 모델일 수 있다.

구체적으로, 특징 데이터는 제2 처리부의 제2 사전 훈련된 RNN 기반의 제2 머신러닝 모델을 통과하며 M개의 공간 정보를 출력한다. M은 N과 같거나 상이할 수 있다. 예컨대, M이 N보다 작다면, 적어도 상호 차이(M-N) 만큼의 공간 정보가 N개의 특징 데이터에 존재하지 않는다는 의미에서 0으로 대체될 수 있다.

또한, 제2 머신러닝 모델은 제1 머신러닝 모델로부터 생성된 영상 데이터에 대한 특징이 나타난 특징 데이터를 입력 받고, 특징 데이터를 분석하여 공간 정보를 출력할 수 있다.

예컨대, 제2 머신러닝 모델은 특징 데이터를 하나씩 시간적 흐름에 따라 연속적으로(sequential) 입력받을 수 있다. 그리고 제2 머신러닝 모델은 특징 데이터에 대응하는 공간 정보를 출력할 수 있다. 이러한 제2 머신러닝 모델은 아래와 같이 훈련될 수 있다. 제2 머신러닝 모델은 훈련을 위한 학습 데이터(이하 학습 영상 데이터)로 VR·AR 영상과 같은 비디오 형태 또는 이미지 형태 영상 데이터를 사용할 수 있다. 이 때, 학습 영상 데이터 내에는 적어도 하나의 공간 정보가 포함될 수 있다. 여기서, 공간 정보는 시간대, 조명의 밝기, 장소, 분위기, 날씨 등을 포함할 수 있다. 그리고 학습 특징 데이터는 제1 머신러닝 모델을 통해 공간 정보를 갖는 학습 영상 데이터를 입력하여 얻어질 수 있다. 그리고 학습 특징 데이터를 제2 머신러닝 모델의 입력으로 사용하여 제2 머신러닝 모델을 학습할 수 있다. 이 때, 학습 영상 데이터에 설정된 공간 정보가 학습 공간 정보로서 제2 머신러닝 모델에서 학습될 수 있다. 이에, 제2 머신러닝 모델은 학습 영상 데이터와 관련된 특징 데이터 및 공간 정보를 각각 학습 특징 데이터(학습을 위한 입력) 및 학습 공간 정보(학습을 위한 출력)로 학습될 수 있다.

제3 처리부(124)는 공간 정보를 제3 머신러닝 모델에 적용하여 객체 정보를 출력할 수 있다. 제3 처리부(124)는 수신된 영상 데이터를 기반으로 제2 처리부(123)로부터 출력된 공간 정보를 기반으로 객체를 출력할 수 있다. 그리고 제3 처리부(124)는 출력된 객체 정보와 대응되는 데이터 베이스(DB) 상에 존재하는 객체 리스트를 송신부(125)를 통해 단말(110)로 제공 및 추천할 수 있다.

여기서, M개의 공간 정보가 사전 훈련된 RNN 기반의 제3 머신러닝 모델로 입력되면, U개의 객체 데이터가 출력될 수 있다. U와 M은 동일 또는 상이할 수 있다. 그리고 U가 M 보다 작다면, 적어도 상호 차이(UM)만큼의 객체는 공간 정보(M)에 객체 정보기 존재하지 않는다는 의미에서 0으로 대체될 수 있다.

예컨대, 제3 머신러닝 모델은 아래와 같이 훈련될 수 있다. 먼저, 제3 머신러닝 모델은 학습을 위한 입력으로 제2 머신러닝 모델에서 출력된 공간 정보를 학습 공간 정보로 사용할 수 있다. 그리고 제3 머신러닝 모델은 학습을 위한 출력으로 학습 공간 정보에 기설정된 학습 객체 정보를 사용할 수 있다. 학습 객체 정보는 관리자 등에 의해 휴리스틱(heuristics)하게 설정될 수 있다. 또한, 객체 정보는 공간 정보를 기반으로 적절히 배치될 수 있다고 여겨지는 가구, 가전, 차량 사람, 동물, 건물, 표지판 등의 유형의 객체로 이루어질 수 있다. 또한, 제3 머신러닝 모델에서의 학습을 용이하게 하기 위해, 미사여구나 형용사를 포함하지 않는다.

송신부(125)는 출력된 객체 정보를 네트워크 등을 통해 최종적으로 단말로 송신할 수 있다. 송신부(125)는 제3 머신러닝 모델에서 도출된 객체 정보에 대응하는 데이터 베이스(DB) 상에 존재하는 실제 객체들을 검색하여 리스트를 만들어 객체 정보로서 단말(110)에게 제공 및 추천할 수 있다.

제3 머신러닝 모델을 통해 도출된 객체들은 데이터 베이스(DB) 상의 실제 객체보다 포괄적인 또는 상위인 개념을 가질 수 있다. 예를 들어, 제3 머신러닝 모델을 통해 출력된 객체는 '의자', '책상', '침대' 일 수 있으며, 데이터 베이스(DB)에 저장된 객체는 '녹색 의자', '사무용 의자', '갈색 책상', '사무용 책상', '싱글 침대', '수납형 침대'를 포함할 수 있다. 이에, 송신부(125)는 객체 정보의 '책상'에 대해 객체는 '녹색 의자', '사무용 의자', '갈색 책상', '사무용 책상', '싱글 침대', '수납형 침대'를 포함하는 리스트로 단말에 제공할 수 있다.

데이터 베이스(DB)는 상술한 바와 같이 실제 객체를 저장할 수 있다. 이러한 데이터 베이스(DB)는 컴퓨터에서 판독 가능한 기록 매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 또한, 메모리에는 운영체제와 적어도 하나의 프로그램 코드에 설치되어 구동되는 브라우저나 상술한 어플리케이션 등을 위한 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 드라이브 메커니즘(drive mechanism)을 이용하여 메모리와는 별도의 컴퓨터에서 판독 가능한 기록 매체로부터 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록 매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록 매체를 포함할 수 있다.

도 4는 실시예에 따른 객체 추천 장치에서 제1 처리부의 동작을 설명하는 도면이고, 도 5는 실시예에 따른 객체 추천 장치에서 제1 처리부 내지 제3 처리부에서 예시적인 동작을 나타낸 도면이고, 도 6은 실시예에 따른 객체 추천 장치에 의해 단말장치에 제공된 객체 정보를 도시한 도면이고, 도 7은 실시예에 따른 객체 추천 장치에 의해 단말장치에 제공된 실제 객체의 리스트에 대한 사용자의 선택에 의한 동작을 설명하는 도면이다.

도 4를 참조하면, 단말은 복수 개의 프레임으로 이루어진 영상 데이터를 객체 추천 장치로 송신할 수 있다. 즉, 수신부는 복수 개의 프레임으로 이루어진 영상 데이터(1 프레임 내지 4프레임)를 수신할 수 있다. 본 명세서에서는 도 4에 도시된 바와 같이 3프레임을 기준으로 객체 추천 장치의 처리를 설명한다.

도 5를 참조하면, 객체 추천 장치에서 제1 처리부(122)는 3 프레임으로부터 '침실', '방','실내', '밝은', '따뜻함', '창문', '침대' 등의 정보를 가진 영상 데이터(3 프레임)에 대한 특징(feature) 데이터를 출력할 수 있다.

그리고 제2 처리부(123)는 상기 출력된 특징 데이터로부터 '침실', '방', '실내', 등을 포함하며 공간에 대응하는 공간 정보를 출력할 수 있다. 즉, 공간을 나타내지 않는 '창문', '침대'는 공간 정보에서 제외될 수 있다. 또한, 3 프레임에서는 시간대, 날씨에 대한 정확한 정보를 얻을 수 없기 때문에 '밝은''따뜻함'이 공간 정보에서 제외될 수 있다. 이 때, 상술한 바와 같이 영상 데이터를 바탕으로 제2 머신러닝 모델이 학습을 수행하므로, 영상 데이터에서의 특징으로부터 공간에 대응하는 공간 정보만을 정확하게 추출할 수 있다.

그리고 제3 처리부(124)는 공간 정보를 입력으로 공간 정보에 대응하는 공간에 위치할 수 잇는 객체로 '책상', '의자', '탁자', '쇼파'를 객체 정보로 출력할 수 있다.

또한, 제3 처리부(124)는 출력된 객체에 대응하는 실제 객체 리스트를 포함하는 객체 정보를 출력하여 이를 송신부를 통해 단말로 제공할 수 있다. 예컨대, 제3 처리부(124)가 '책상'이라는 객체를 도출하고 데이터 베이스(DB) 상에 '책상'에 대응되는 실제 객체를 검색하여 리스트를 만들 수 있다. 즉, 이러한 리스트의 객체 정보가 송신부를 통해 단말로 제공될 수 있다. 이 때, 객체 정보는 객체로서 공간 정보와 오버랩되지 않는다. 다시 말해, 텍스트로서 객체 정보와 공간 정보는 서로 상이하며, 동일한 텍스트를 가질 수 없다.

도 6을 참조하면, 객체 추천 장치는 '책상'이라는 객체가 제3 처리부(124)로 도출된 경우, '책상'에 대응하는 실제 객체로 다양한 구조를 갖는 책상(D1 내지 D3)로 이루어진 리스트 형태의 객체 정보를 단말로 제공할 수 있다.

도 7을 참조하면, 영상 데이터(특히, 3프레임)에서 객체 추천 장치로부터 제공된 책상(D1 내지 D3) 중 사용자 등의 제어에 의해 선택된 책상(D1, D3)이 최종적으로 단말(110)에 디스플레이될 수 있다. 즉, 사용자 또는 단말(110)은 용이하게 VR·AR 환경의 콘텐츠를 제작할 수 있다.

예컨대, 사용자는 선택에 의해 각 프레임(1프레임 내지 4프레임, 도 4 참조)마다 객체 정보(예로, '책상') 중 상이한 객체를 설정할 수 있다. 이에, 영상 데이터가 각 프레임마다 상이한 객체가 나타나도록 재생성될 수도 있다.

도 8은 실시예에 따른 객체 추천 장치에서 제3 처리부의 객체 정보의 제거를 설명하는 도면이다.

도 8을 참조하면, 제3 처리부는 출력된 객체 정보에서 영상 데이터 또는 영상 데이터에 연속한 영상 데이터로부터 출력된 특징 데이터의 중첩 객체 정보를 제거할 수 있다. 보다 구체적으로 3 프레임과 4프레임은 서로 연속한 영상 데이터이며, 3 프레임을 통해 출력된 공간 정보는 '침실', '방, '실내'이고, 4 프레임을 통해 출력된 공간 정보는 '실내'일 수 있다.

이 때, 3 프레임을 통해 출력된 공간 정보로부터 '책상', '의자', '탁자', '쇼파'가 객체 정보로 출력되고, 4 프레임을 통해 출력된 공간 정보로부터 '책상', '의자', '탁자', '쇼파', '침대'가 출력될 수 있다. 이 때, 제3 처리부는 연속된 영상 데이터로부터 출력된 특징 데이터 또는 공간 정보로부터의 중첩된 객체 정보(중첩 객체 정보)인 '책상’, ‘의자’, ‘탁자’, ‘쇼파’를 삭제할 수 있다. 이에, 연속된 영상 데이터에 존재하는 객체에 대한 삭제로, 연속된 영상 데이터 내에 존재하는 객체가 객체 정보로 출력되는 것을 사전에 방지할 수 있다. 이에, 객체 추천 장치의 메모리 손실 등이 방지되어 객체 출력에 대한 정확도 및 속도가 개선될 수 있다.

도 9는 실시예에 따른 객체 추천 방법에 대한 순서도이다.

실시예에 따른 객체 추천 방법은 영상 데이터를 수신하는 단계(S310), 특징 데이터를 출력하는 단계(S320), 공간 정보를 출력하는 단계(S330), 객체 정보를 출력하는 단계(S34) 및 객체 정보를 송신하는 단계(S350)를 포함할 수 있다.

구체적으로, 수신부는 단말로부터 비디오 형태의 프레임 단위의 영상 데이터를 수신할 수 있다(S310). 그리고 제1 처리부는 수신된 영상 데이터를 제1 머신러닝 모델에 입력하여 영상 데이터에 대한 특징 데이터를 출력할 수 있다(S320).

그리고 제2 처리부(123)는 출력된 특징 데이터를 입력으로 하는 제2 머신러닝 모델을 통해 특징 데이터에 대응하는 공간 정보를 출력할 수 있다(S330). 이 때, 공간 정보는 텍스트 형태로 추출될 수 있다. 또한, 상술한 바와 같이 공간 정보는 시간대, 조명의 밝기, 장소, 분위기, 날씨 등의 공간을 나타내는 텍스트로 이루어질 수 있다.

그리고 제3 처리부는 출력된 공간 정보를 입력하는 제3 머신러닝 모델을 통해 영상 데이터에 대한 객체 또는 객체 정보를 출력할 수 있다(S340). 객체 정보는 데이터 베이스의 실제 객체의 리스트를 포함하거나 이에 대응할 수 있다. 그리고 상기와 같이 데이터 베이스의 실제 객체는 객체 정보의 하위 개념일 수 있다. 그리고 송신부는 출력된 실제 객체 리스트 또는 객체 정보를 단말로 송신할 수 있다(S350). 이에 따라, 단말에서는 객체 추천 장치를 기반으로 전송된 객체 리스트를 바탕으로 AR, VR 등의 영상에 다양한 객체를 수정, 삭제, 생성을 용이하게 수행될 수 있다. 즉, AR, VR 등의 영상에 대한 콘텐츠 제작이 보다 용이하게 정확하게 수행될 수 있다.

본 실시예에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field-programmable gate array) 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터 베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.

이상에서 실시예를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 예를 들어, 실시예에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

영상 데이터를 수신하는 수신부;
상기 영상 데이터를 제1 머신러닝 모델에 적용하여 특징 데이터를 출력하는 제1 처리부;
상기 특징 데이터를 제2 머신러닝 모델에 적용하여 공간 정보를 출력하는 제2 처리부;
상기 공간 정보를 제3 머신러닝 모델에 적용하여 객체 정보를 출력하는 제3 처리부;
실제 객체 리스트를 저장하는 데이터 베이스; 및
상기 객체 정보에 대응하는 상기 실제 객체 리스트를 송신하는 송신부;를 포함하고,
상기 제2 머신러닝 모델은 입력을 학습 영상 데이터로부터 상기 제1 머신러닝 모델에 의해 출력된 학습 특징 데이터로, 출력을 상기 학습 영상 데이터에 설정된 학습 공간 정보로 학습하고,
상기 제3 머신러닝 모델은 입력을 상기 학습 공간 정보로, 상기 학습 공간 정보에 기설정된 객체 정보를 출력으로 학습하고,
상기 제3 처리부는 상기 출력된 객체 정보에서 상기 영상 데이터 또는 상기 영상 데이터에 연속한 영상 데이터로부터 출력된 특징 데이터의 중첩 객체 정보를 제거하고,
상기 객체 정보는 상기 공간 정보에 대응하는 공간에 위치할 수 있는 객체를 포함하고,
상기 공간 정보는 시간대, 조명의 밝기, 장소, 분위기, 날씨의 공간을 나타내는 텍스트로 이루어지고,
상기 실제 객체 리스트는 상기 객체 정보의 하위 개념인 실제 객체를 포함하는 객체 추천 장치.
삭제
삭제
삭제
제1항에 있어서,
상기 객체 정보는 유형의 물체로 이루어지며,
상기 공간 정보는 상기 객체 정보와 오버랩되지 않는 객체 추천 장치.