WO2024039111A1

WO2024039111A1 - 사용자 맞춤형 메타버스 컨텐츠를 제공하는 전자 장치 및 그 제어 방법

Info

Publication number: WO2024039111A1
Application number: PCT/KR2023/011275
Authority: WO
Inventors: 김정민; 박대희; 정진기; 최새미
Original assignee: 삼성전자주식회사
Priority date: 2022-08-18
Filing date: 2023-08-01
Publication date: 2024-02-22
Also published as: KR20240025384A

Abstract

본 개시는 전자 장치 및 그 제어 방법을 제공한다. 본 개시의 일 실시 예에 따른, 전자 장치는 복수의 이미지를 저장하는 메모리 및 상기 복수의 이미지를 이용하여 메타버스의 가상 공간에 표시될 컨텐츠를 생성하는 프로세서를 포함하고, 상기 프로세서는, 상기 복수의 이미지 중 사용자 위치에 대응되는 복수의 이미지를 선별하고, 상기 선별된 복수의 이미지 각각에 포함된 객체 키워드를 획득하고, 상기 선별된 복수의 이미지 각각을 통해 획득된 객체 키워드의 빈도에 기초하여 상기 메타버스의 가상 공간에 반영할 객체를 결정하고, 상기 결정된 객체에 대응하는 객체 컨텐츠를 생성할 수 있다.

Description

사용자 맞춤형 메타버스 컨텐츠를 제공하는 전자 장치 및 그 제어 방법

본 개시는 메타버스 컨텐츠를 제공하는 전자 장치 및 그 제어 방법에 관한 것으로, 보다 상세하게는 메타버스의 가상 공간에 표시될 컨텐츠를 사용자에 맞춰 생성하는 전자 장치 및 그 제어 방법에 관한 것이다.

최근, 전자 기술의 발전으로 현실 세계에 가까운 가상 공간의 3차원 이미지의 렌더링(Rendering)이 가능하게 되었고, 전자 장치 간의 대용량 데이터의 송수신이 가능하게 되었다. 이는, 다수의 사용자가 실시간으로 가상 공간에 접속하여 소통할 수 있도록 하는 메타버스의 기술 발전으로 이어졌다.

특히, 최근 코로나로 인한 펜데믹으로 인하여 사용자의 이동이 제한되고, 간의 사용자 간의 직접적인 교류가 제한됨에 따라, 메타버스의 가상 공간은 현실 세계의 대안으로 주목되었다. 메타버스의 기술 발전으로 사용자 간의 대화, 채팅 등의 단순한 인터렉션을 넘어, 메타버스의 가상 공간 내에서 많은 사용자들은 사회, 문화적 활동을 수행할 수 있게 되었고, 더 나아가 경제적 가치를 창출하는데 까지 이르렀다.

다만, 기존의 대부분의 메타 버스 서비스의 경우, 메타 버스 서비스를 제공하는 플랫폼, 기업 등이 생성한 가상 공간에 다수의 사용자가 접속하거나 입장하여 인터렉션을 수행할 수 있었다. 즉, 다수의 사용자에게 동일한 가상 공간에서 인터렉션을 수행할 수 밖에 없었다. 이로 인하여 가상 공간 내에서 사용자가 공유할 수 있는 정보 또는 재화는 제한적이고 고정적이었다.

본 개시는 상술한 필요성에 따른 것으로, 본 개시의 목적은 사용자 맞춤형 메타버스 컨텐츠를 제공하는 전자 장치 및 그 제어 방법을 제공함에 있다.

이상과 같은 목적을 달성하기 위한 본 개시의 일 실시 예에 따른 전자 장치는, 복수의 이미지를 저장하는 메모리 및 상기 복수의 이미지를 이용하여 메타버스의 가상 공간에 표시될 컨텐츠를 생성하는 프로세서를 포함하고, 상기 프로세서는, 상기 복수의 이미지 중 사용자 위치에 대응되는 복수의 이미지를 선별하고, 상기 선별된 복수의 이미지 각각에 포함된 객체 키워드를 획득하고, 상기 선별된 복수의 이미지 각각을 통해 획득된 객체 키워드의 빈도에 기초하여 상기 메타버스의 가상 공간에 반영할 객체를 결정하고, 상기 결정된 객체에 대응하는 객체 컨텐츠를 생성한다.

여기서, 상기 프로세서는, 상기 획득된 객체 키워드 각각의 빈도를 식별하고, 상기 복수의 객체 키워드 중 상기 식별된 빈도가 기 설정된 값 이상인 복수의 제1 객체 키워드를 선별하고, 상기 선별된 복수의 제1 객체 키워드에 기초하여, 상기 메타버스의 가상 공간에 반영할 객체를 결정할 수 있다.

여기서, 상기 프로세서는, 상기 사용자 위치와 상기 복수의 제1 객체 키워드 간의 의미 유사도를 식별하고, 상기 복수의 제1 객체 키워드 중, 상기 식별된 의미 유사도가 기 설정된 값 이상인 의미 유사도를 갖는 제2 객체 키워드를 선별하고, 상기 선별된 제2 객체 키워드에 기초하여, 상기 메타버스의 가상 공간에 반영할 객체를 결정할 수 있다.

또한, 상기 프로세서는, 상기 각각의 이미지에 대응하는 객체 키워드의 개수를 식별하고, 상기 식별된 객체 키워드의 개수에 기초하여, 상기 객체 키워드의 빈도를 식별하고, 하나의 이미지에 대응하는 복수의 객체 키워드에 동일한 객체 키워드가 복수 개 포함된 경우, 상기 하나의 이미지에 대해서는 상기 동일한 객체 키워드의 개수를 한 개로 식별할 수 있다.

또한, 상기 프로세서는, 상기 사용자 위치가 기 설정된 위치인지 식별하고, 상기 사용자 위치가 기 설정된 위치가 아닌 것으로 식별되면, 상기 선별된 복수의 이미지 각각의 배경 키워드를 획득하고, 상기 선별된 복수의 이미지 각각에 대응하는 배경 키워드의 빈도에 기초하여 상기 메타버스의 가상 공간에 반영할 배경을 결정하고, 상기 결정된 배경에 대응하는 배경 컨텐츠 및 상기 결정된 객체에 대응하는 객체 컨텐츠를 생성할 수 있다.

또한, 상기 사용자 위치에 대응하는 기간 동안 획득된 복수의 텍스트를 식별하고, 상기 식별된 복수의 텍스트에 대응하는 복수의 감정 키워드를 획득하고, 상기 획득된 감정 키워드 및 상기 사용자 위치에 기초하여 상기 메타버스의 가상 공간에 반영할 배경을 결정할 수 있다.

또한, 상기 전자 장치는, 디스플레이를 더 포함하고, 상기 프로세서는, 상기 객체 컨텐츠를 서버에 전송하고, 상기 서버로부터, 상기 객체 컨텐츠를 포함하는 가상 공간 영상을 수신하고, 상기 수신한 가상 공간 영상이 표시하도록 상기 디스플레이를 제어할 수 있다.

여기서, 상기 프로세서는, 상기 가상 공간 영상 내 상기 객체 컨텐츠에 대응하는 위치에, 상기 객체 컨텐츠에 대응하는 적어도 하나의 이미지를 표시하기 위한 UI를 표시하도록, 상기 디스플레이를 제어할 수 있다.

또한, 상기 프로세서는, 상기 복수의 이미지 중 상기 사용자 위치에 대응하는 복수의 이미지의 개수가 기 설정된 개수 이상인지 식별하고, 상기 사용자 위치에 대응하는 복수의 이미지의 개수가 기 설정된 개수 이상이면, 상기 선별된 복수의 이미지 각각에 포함된 객체 키워드를 획득할 수 있다.

또한, 상기 프로세서는, 상기 사용자의 위치를 실시간으로 감지하고, 상기 사용자의 위치가 제1 위치에서 제2 위치로 변경된 것으로 감지되면, 상기 복수의 이미지 중 상기 제1 위치에 대응하는 복수의 이미지를 선별할 수 있다.

이상과 같은 목적을 달성하기 위한 본 개시의 일 실시 예에 따른 전자 장치를 제어하는 방법에 있어서, 복수의 이미지 중 사용자 위치에 대응되는 복수의 이미지를 선별하는 단계, 상기 선별된 복수의 이미지 각각에 포함된 객체 키워드를 획득하는 단계, 선별된 복수의 이미지 각각을 통해 획득된 객체 키워드의 빈도에 기초하여 메타버스의 가상 공간에 반영할 객체를 결정하는 단계 및 결정된 객체에 대응하는 객체 컨텐츠를 생성하는 단계를 포함할 수 있다.

여기서, 상기 결정하는 단계는, 상기 획득된 객체 키워드 각각의 빈도를 식별하고, 상기 복수의 객체 키워드 중 상기 식별된 빈도가 기 설정된 값 이상인 복수의 제1 객체 키워드를 선별하는 단계 및 상기 선별된 복수의 제1 객체 키워드에 기초하여, 상기 메타버스의 가상 공간에 반영할 객체를 결정하는 단계를 포함할 수 있다.

여기서, 상기 결정하는 단계는, 상기 사용자 위치와 상기 복수의 제1 객체 키워드 간의 의미 유사도를 식별하는 단계, 상기 복수의 제1 객체 키워드 중, 상기 식별된 의미 유사도가 기 설정된 값 이상인 의미 유사도를 갖는 제2 객체 키워드를 선별하는 단계 및 상기 선별된 제2 객체 키워드에 기초하여, 상기 메타버스의 가상 공간에 반영할 객체를 결정하는 단계를 포함할 수 있다.

또한, 상기 결정하는 단계는, 상기 각각의 이미지에 대응하는 객체 키워드의 개수를 식별하고, 상기 식별된 객체 키워드의 개수에 기초하여, 상기 객체 키워드의 빈도를 식별하고, 하나의 이미지에 대응하는 복수의 객체 키워드에 동일한 객체 키워드가 복수 개 포함된 경우, 상기 하나의 이미지에 대해서는 상기 동일한 객체 키워드의 개수를 한 개로 식별할 수 있다.

또한, 상기 사용자 위치가 기 설정된 위치인지 식별하는 단계, 상기 사용자 위치가 기 설정된 위치가 아닌 것으로 식별되면, 상기 선별된 복수의 이미지 각각의 배경 키워드를 획득하는 단계 및 상기 선별된 복수의 이미지 각각에 대응하는 배경 키워드의 빈도에 기초하여 상기 메타버스의 가상 공간에 반영할 배경을 결정하는 단계를 포함하고, 상기 생성하는 단계는, 상기 결정된 배경에 대응하는 배경 컨텐츠 및 상기 결정된 객체에 대응하는 객체 컨텐츠를 생성하는 단계를 포함할 수 있다.

또한, 상기 방법은, 상기 사용자 위치에 대응하는 기간 동안 획득된 적어도 하나의 텍스트를 식별하는 단계, 상기 식별된 적어도 하나의 텍스트에 대응하는 감정 키워드를 획득하는 단계, 상기 획득된 감정 키워드 및 상기 사용자 위치에 기초하여 상기 메타버스의 가상 공간에 반영할 배경을 결정하는 단계를 더 포함할 수 있다.

또한, 상기 방법은, 상기 객체 컨텐츠를 서버에 전송하는 단계 및 상기 서버로부터, 상기 객체 컨텐츠를 포함하는 가상 공간 영상을 수신하고, 상기 수신한 가상 공간 영상이 표시하는 단계를 더 포함할 수 있다.

여기서, 상기 방법은, 상기 가상 공간 영상 내 상기 객체 컨텐츠에 대응하는 위치에, 상기 객체 컨텐츠에 대응하는 적어도 하나의 이미지를 표시하기 위한 UI를 표시하는 단계를 더 포함할 수 있다.

또한, 상기 객체 키워드를 획득하는 단계는, 상기 선별된 복수의 이미지의 개수가 기 설정된 개수 이상인지 식별하는 단계 및 상기 사용자 위치에 대응하는 복수의 이미지의 개수가 기 설정된 개수 이상이면, 상기 선별된 복수의 이미지 각각에 포함된 객체 키워드를 획득하는 단계를 포함할 수 있다.

또한, 상기 선별하는 단계는, 상기 사용자의 위치를 실시간으로 감지하고, 상기 사용자의 위치가 제1 위치에서 제2 위치로 변경된 것으로 감지되면, 상기 복수의 이미지 중 상기 제1 위치에 대응하는 복수의 이미지를 선별할 수 있다.

도 1은 본 개시의 일 실시 예에 따른 전자 장치의 동작 방법을 설명하기 위한 도면이다.

도 2는 본 개시의 일 실시 예에 따른, 전자 장치의 구성을 설명하기 위한 블록도이다.

도 3은 본 개시의 일 실시 예에 따른, 사용자 위치에 대응하는 복수의 이미지를 선별하는 방법을 나타낸 도면이다.

도 4는 본 개시의 일 실시 예에 따른, 제1 신경망 모델을 이용하여 사용자 위치에 대응하는 복수의 이미지에 관하여 획득된 복수의 객체 키워드 및 획득된 복수의 객체 키워드의 빈도를 나타낸 예시도이다.

도 5는 본 개시의 일 실시 예에 따른, 복수의 객체 키워드의 빈도를 기초로 복수의 객체 키워드 중 제1 객체 키워드를 선별하는 것을 나타낸 예시도이다.

도 6은 본 개시의 일 실시 예에 따른, 객체 키워드와 사용자 위치 간의 의미 유사도를 기초로, 복수의 제1 객체 키워드 중 제2 객체 키워드를 선별하는 방법을 나타낸 예시도이다.

도 7은 본 개시의 일 실시 예에 따른, 하나의 이미지에 대응하는 복수의 객체 키워드 중 동일한 객체 키워드가 복수 개 포함된 경우 각각의 객체 키워드에 대한 빈도를 식별하는 방법을 설명하기 위한 예시도이다.

도 8은 본 개시의 일 실시 예에 따른, 사용자 위치가 기 설정된 위치가 아닌 것으로 식별되는 경우, 사용자 위치에 대응하는 복수의 이미지를 제2 신경망 모델(30)에 입력하여 배경 컨텐츠를 생성하는 방법을 나타낸 예시도이다.

도 9는 본 개시의 일 실시 예에 따른, 복수의 배경 키워드의 빈도를 기초로 배경 컨텐츠를 생성하는 것을 나타낸 예시도이다.

도 10은 본 개시의 일 실시 예에 따른, 제3 신경망 모델(40)에 기반하여, 사용자 위치에 대응하는 기간 동안 획득된 복수의 텍스트에 대응하는 복수의 감정 키워드를 획득하는 것을 나타낸 예시도이다.

도 11은 본 개시의 일 실시 예에 따른, 복수의 감정 키워드의 빈도를 기초로 배경 컨텐츠를 생성하는 것을 나타낸 예시도이다.

도 12는 본 개시의 일 실시 예에 따른, 객체 컨텐츠에 대응하는 적어도 하나의 이미지를 표시하기 위한 UI를 설명하기 위한 예시도이다.

도 13은 본 개시의 일 실시 예에 따른, 전자 장치의 세부적인 구성도이다.

도 14는 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 개략적으로 나타낸 순서도이다.

도 15는 본 개시의 일 실시 예에 따른 전자 장치가 사용자 단말 장치로 동작하는 방법을 설명하기 위한 도면이다.

도 16은 본 개시의 일 실시 예에 따른 전자 장치가 서버로 동작하는 방법을 설명하기 위한 도면이다.

본 개시의 실시 예에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 개시의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.

본 명세서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.

A 또는/및 B 중 적어도 하나라는 표현은 "A" 또는 "B" 또는 "A 및 B" 중 어느 하나를 나타내는 것으로 이해되어야 한다.

본 명세서에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 명세서에서, 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치(예: 인공 지능 전자 장치)를 지칭할 수 있다.

이하 첨부된 도면들을 참조하여 본 개시의 다양한 실시 예를 보다 상세하게 설명한다.

본 개시의 전자 장치(100)는, 메타버스의 가상 공간(200)에 표시될 컨텐츠를 생성하는 장치로서, TV, 스마트 폰, 태블릿 PC, 데스크 탑 PC 또는 노트북 PC 중 적어도 하나를 포함할 수 있으나 이에 한정되지 않는다. 다만, 이에 제한되는 것은 아니며, 전자 장치(100)는 클라우드 서버, 임베디드 서버 등의 다양한 형태의 서버를 포함할 수도 있다.

본 개시에 따른, 전자 장치(100)는 사용자 맞춤형 메타버스의 가상 공간(200) 내 반영할 컨텐츠를 제공한다. 보다 구체적으로, 전자 장치(100)에 저장된 복수의 이미지(10)를 활용하여, 메타버스의 가상 공간(200) 내 반영할 객체를 생성한다. 특히, 전자 장치(100)에 저장된 복수의 이미지(10)는, 사용자가 직접 획득하거나 또는, 다른 사용자(또는 다른 전자 장치)로부터 수신하여 저장된 것이다. 그렇기 때문에, 각각의 전자 장치(100)에 저장된 복수의 이미지(10)는, 전자 장치(100)의 사용자마다 고유하며 상이할 수 있다. 따라서, 본 개시의 일 실시 예에 따른 전자 장치(100)는 전자 장치(100)에 저장된 복수의 이미지(10)를 바탕으로 메타버스의 가상 공간(200) 내 반영할 컨텐츠를 생성하고, 이를 통해 사용자마다 서로 다른 고유의 메타버스 컨텐츠를 제공 받도록 한다.

이는, 동일한 메타버스의 가상 공간(200) 내에서 복수의 사용자가 입장하고, 인터렉션을 수행하는 종래 기술과는 차이점이 있다. 특히 동일한 메타버스의 가상 공간(200)의 경우, 가상 공간을 통해 제공되는 정보가 복수의 사용자에 대해 동일하다는 점에서, 복수의 사용자가 수행할 수 있는 인터렉션이 제한적일 수 밖에 없다. 그러나, 본 개시는, 각각의 사용자(1-1, 1-2 및 1-3)가 갖고 있는 이미지(보다 구체적으로, 각각의 사용자의 전자 장치에 저장된 이미지)를 바탕으로 생성된 고유의 메타버스 가상 공간(200)을 제공하기 때문에, 사용자가 제공 받거나 또는 획득할 수 있는 컨텐츠 또는 정보가 다양하다.

이하에서는, 이와 관련된 본 개시의 실시 예에 대하여 구체적으로 설명하도록 한다.

도 2에 따르면, 전자 장치(100)는 메모리(110) 및 프로세서(120)를 포함한다.

메모리(110)는 본 개시의 다양한 실시 예를 위해 필요한 데이터를 저장할 수 있다. 메모리(110)는 데이터 저장 용도에 따라 전자 장치(100)에 임베디드 된 메모리 형태로 구현되거나, 전자 장치(100)와 통신 가능한(또는 탈 부착 가능한) 메모리 형태로 구현될 수도 있다. 예를 들어, 전자 장치(100)의 구동을 위한 데이터의 경우 전자 장치(100)에 임베디드 된 메모리에 저장되고, 전자 장치(100)의 확장 기능을 위한 데이터의 경우, 전자 장치(100)와 통신 가능한 메모리에 저장될 수 있다.

한편, 전자 장치(100)에 임베디드 된 메모리의 경우 휘발성 메모리(예: DRAM(dynamic RAM), SRAM(static RAM), 또는 SDRAM(synchronous dynamic RAM) 등), 비휘발성 메모리(non-volatile Memory)(예: OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, 플래시 메모리(예: NAND flash 또는 NOR flash 등), 하드 드라이브, 또는 솔리드 스테이트 드라이브(solid state drive(SSD)) 중 적어도 하나로 구현될 수 있다. 또한, 전자 장치(100)와 통신 가능한 메모리(110)의 경우 메모리 카드(예를 들어, CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), xD(extreme digital), MMC(multi-media card) 등), USB 포트에 연결 가능한 외부 메모리(예를 들어, USB 메모리(110)) 등과 같은 형태로 구현될 수 있다.

본 개시의 일 실시 예에 따라, 메모리(110)에는 복수의 이미지(10)가 저장될 수 있다. 복수의 이미지(10)에는 전자 장치(100)에 포함된 카메라를 통해 획득한 이미지, 전자 장치(100)에 구비된 입력 인터페이스를 통해 입력된 사용자 명령어에 기초하여 웹 페이지를 캡쳐하여 획득한 이미지, 또는 통신 인터페이스를 통해 타 전자 장치로부터 수신하여 획득한 이미지 등을 포함할 수 있다. 이처럼, 메모리(110)에는 다양한 형태 및 다양한 경로를 통해 획득된 복수의 이미지(10)가 저장될 수 있다.

한편, 본 개시의 일 실시 예에 따라, 메모리(110)에는 복수의 신경망 모델이 저장될 수 있다. 일 예로, 메모리(110)에는 이미지 내에 포함된 객체를 검출하는 신경망 모델(20), 이미지 내 배경을 식별하는 신경망 모델(30) 및 텍스트에 대응하는 감정을 식별하는 신경망 모델(40)이 저장될 수 있다. 또한, 본 개시의 일 실시 예에 따라, 메모리(110)에는 상술한 복수의 신경망 모델을 기초로 생성된 컨텐츠 정보가 저장될 수도 있다.

프로세서(120)는 전자 장치(100)의 동작을 전반적으로 제어한다. 구체적으로, 프로세서(120)는 전자 장치(100)의 각 구성과 연결되어 전자 장치(100)의 동작을 전반적으로 제어할 수 있다. 예를 들어, 프로세서(120)는 메모리(110), 카메라, 통신 인터페이스 등과 같은 구성과 연결되어 전자 장치(100)의 동작을 제어할 수 있다.

일 실시 예에 따라 프로세서(120)는 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor), TCON(Time controller)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(120)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형태로 구현될 수도 있다.

또한, 일 실시 예에 따른 신경망 모델(또는, 인공 지능 모델)을 실행하기 위한 프로세서(120)는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서(120) 또는 NPU와 같은 인공 지능 전용 프로세서와 소프트웨어의 조합을 통해 구현될 수 있다.

프로세서(120)는, 메모리(110)에 저장된 기 정의된 동작 규칙 또는 인공 지능 모델에 따라, 입력 데이터를 처리하도록 제어할 수 있다. 또는, 프로세서(120)가 전용 프로세서(또는 인공 지능 전용 프로세서)인 경우, 특정 인공 지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다. 예를 들어, 특정 인공 지능 모델의 처리에 특화된 하드웨어는 ASIC, FPGA 등의 하드웨어 칩으로 설계될 수 있다. 프로세서(120)가 전용 프로세서로 구현되는 경우, 본 개시의 실시 예를 구현하기 위한 메모리를 포함하도록 구현되거나, 외부 메모리를 이용하기 위한 메모리 처리 기능을 포함하도록 구현될 수 있다.

먼저, 본 개시의 일 실시 예에 따라 프로세서(120)는 메모리(110)에 저장된 복수의 이미지(10) 중 사용자 위치에 대응되는 복수의 이미지(10)를 선별한다.

구체적으로, 프로세서(120)는 메모리(110)에 저장된 복수의 이미지(10)를 각각의 사용자 위치에 따라 분류할 수 있다.

여기서, 사용자 위치에 대응되는 복수의 이미지(10)란, 사용자가 특정 위치에 있는 동안 획득한 후 메모리(110)에 저장된 이미지일 수 있다. 구체적으로, 사용자가 특정 위치에서 카메라를 통해 획득한 후 메모리(110)에 저장된 이미지이거나, 또는 사용자가 특정 위치에 있는 동안, 통신 인터페이스를 통해 타 전자 장치(100)로부터 수신한 후 메모리(110)에 저장된 이미지일 수 있다.

예를 들어, 사용자 위치가 파리라고 가정하였을 때, 사용자 위치에 대응하는 복수의 이미지(10)는, 사용자가 파리에 위치하는 동안 카메라를 통해 획득하여 저장된 사진, 메신저, SNS(Social Network Service) 등을 통해 획득된 후 저장된 이미지, 웹 페이지 상에서 캡쳐된 후 저장된 이미지 등을 포함할 수 있다.

한편, 프로세서(120)는 전자 장치(100)에 포함된 GPS 센서에서 획득된 전자 장치(100)의 GPS 좌표를 기초로, 사용자 위치를 식별할 수도 있다. 이에 따라, 프로세서(120)는 전자 장치(100)의 GPS 좌표가 변경될 때마다, 사용자 위치가 변경된 것으로 식별할 수 있다. 사용자 위치가 변경된 것으로 식별되면, 프로세서(120)는 메모리(110)에 저장된 복수의 이미지(10) 중에서, 변경 전 사용자 위치에 대응하는 복수의 이미지(10)를 선별할 수 있다.

예를 들어, 프로세서(120)가 전자 장치(100)의 GPS 센서를 통해 획득된 전자 장치(100)의 GPS 좌표를 바탕으로, 사용자 위치가 파리(제1 위치)에서 런던(제2 위치)으로 변경되었음을 식별하였다고 가정한다. 이때, 프로세서(120)는 사용자 위치가 런던(제2 위치)으로 변경되기 전에 저장된 복수의 이미지(10)에 대해서는 파리(제1 위치)에 대응하는 복수의 이미지(10)로 분류하여 식별하고, 사용자 위치가 런던(제2 위치)로 변경된 이후 메모리(110)에 저장된 복수의 이미지(10)에 대해서는 런던(제2 위치)에 대응하는 복수의 이미지(10)로 분류하여 식별할 수 있다. 이처럼, 프로세서(120)는 사용자의 위치가 변경될 때마다, 메모리(110)에 저장된 복수의 이미지(10)를 사용자의 위치에 대응하여 분류할 수 있다.

한편, 프로세서(120)는 사용자 위치가 변경된 경우, 변경된 사용자 위치를 중심으로 기 설정된 반경 내에서 사용자 위치가 변경된 것으로 식별되더라도, 사용자 위치가 동일한 것으로 식별할 수 있다. 예를 들어, 사용자 위치가 제3 위치에서 제4 위치로 변경된 것으로 식별된 이후, 제4 위치에서 기 설정된 반경(예를 들어, 10km) 내에서 사용자 위치가 변경되더라도, 프로세서(120)는 사용자 위치를 제4 위치로 식별할 수 있다.

다만, 이에 제한되는 것은 아니며, 사용자 위치 변경에 대한 기준 및 범위는 다양한 방식으로 설정될 수 있다. 예를 들어, 프로세서(120)는 GPS 정보를 기반으로, 사용자 위치가 속하는 도시(또는, 시, 군 등)가 변경될 때마다 사용자의 위치가 변경된 것으로 식별할 수도 있다.

한편, 메모리(110)에는, 복수의 이미지(10)가 사용자 위치에 따른 데이터 셋(Data Set)의 형태로 저장될 수 있다. 예를 들어, 도 3을 참조하면, 사용자가 파리에 위치하는 동안, 획득한 복수의 이미지(10)가 데이터 셋의 형태로 저장될 수 있다. 또한, 사용자가 런던에 위치하는 동안, 획득한 복수의 이미지(10)가 데이터 셋의 형태로 저장될 수 있다. 또는, 사용자가 “OO군 OO면 OO로 177”에 위치하는 동안, 획득한 복수의 이미지(10)가 데이터 셋의 형태로 저장될 수 있다.

이처럼, 프로세서(120)는 메모리(110)에 저장된 복수의 이미지(10)를 사용자 위치에 따라 분류할 수 있다.

이때, 프로세서(120)는 각각의 사용자 위치에 대응되는 이미지와 함께, 각각의 사용자 위치에 대응하는 시간을 식별할 수 있다. 사용자 위치에 대응하는 시간은, 사용자가 특정 위치에 있던 기간일 수 있다. 프로세서(120)는 사용자의 위치가 변경되는 시점, 사용자가 변경된 위치에서 머물렀던 기간 그리고 다시 사용자의 위치가 변경되는 시점을 식별하여 사용자 위치에 대응하는 시간을 식별할 수 있다. 또는 사용자의 위치에 대응하는 시간은 각각의 이미지에 포함된 메타 데이터를 바탕으로 식별될 수 있다.

예를 들어, 도 3을 참조하면, 프로세서(120)는, 파리에서 획득한 후 저장된 최초 이미지에 포함된 메타 데이터와 파리에서 획득한 후 저장된 마지막 이미지에 포함된 메타 데이터를 바탕으로, 사용자가 파리에 있던 기간을 식별할 수 있다. 이때, 도 3에 따르면, 프로세서(120)는 파리에 대응하는 기간을 “2022년 6월 5일 09:00 ~ 2022년 6월 12일 17:13”으로 식별하였다.

프로세서(120)는, 사용자 위치에 대응하여 선별된 복수의 이미지(10)를 기초로, 메타버스의 가상 공간(200) 내 반영할 객체 컨텐츠(210)를 획득할 수 있다. 구체적으로, 프로세서(120)는 복수의 이미지(10)로부터 객체 키워드를 획득하고, 획득된 객체 키워드에 대응하는 객체 컨텐츠(210)를 생성할 수 있다. 그리고, 프로세서(120)는 생성된 객체 컨텐츠(210)를 메타버스의 가상 공간(200) 내 표시할 수 있다.

예를 들어, 도 3을 참조하면, 프로세서(120)는 사용자 위치인 파리에 대응하는 복수의 이미지(10)로부터 객체 키워드로 “에펠탑” 및 “개선문”을 획득할 수 있다. 그리고, 프로세서(120)는 획득된 객체 키워드인, “에펠탑”과 “개선문”에 각각 대응하는 객체 컨텐츠(210)를 생성할 수 있다.

객체 컨텐츠(210)는, 메타버스의 가상 공간(200) 내 반영되는 3차원의 객체 이미지일 수 있다. 예를 들어, 객체 컨텐츠(210)는 메타버스의 가상 공간(200) 내에서 표시되는 사람, 동물, 음식, 사물 등에 관한 3차원 이미지일 수 있다. 즉, 도 3을 참조하면, 프로세서(120)는 객체 컨텐츠(210)로 “에펠탑” 및 “개선문”에 관한 3차원의 이미지를 생성하고, 생성된 “에펠탑” 및 “개선문”의 3차원의 이미지를 메타버스의 가상 공간(200) 내 기 설정된 위치에 배치시킬 수 있다.

한편, 메타버스의 가상 공간(200)에는 기 설정된 사용자 컨텐츠(201)가 함께 반영될 수 있다. 사용자 컨텐츠(201)는 사용자를 나타내는 그래픽 객체로 사용자 설정에 의해 생성될 수 있다. 예를 들어, 프로세서(120)는 사용자는 입력 인터페이스를 통해 입력되거나 또는 설정된 사용자 컨텐츠(201)의 얼굴, 체형, 키, 몸무게, 옷, 신발 등에 기초하여 3차원 이미지의 사용자 컨텐츠를 생성할 수 있다.

한편, 본 개시의 일 실시 예에 따라, 프로세서(120)는, 사용자의 위치를 실시간으로 감지하고, 사용자의 위치가 제1 위치에서 제2 위치로 변경된 것으로 감지되면, 복수의 이미지 중 상기 제1 위치에 대응하는 복수의 이미지를 선별할 수 있다.

구체적으로, 프로세서(120)는 GPS 정보를 기초로, 사용자의 실시간 위치를 감지할 수 있다. 프로세서(120)는 사용자의 실시간 위치가 변경된 것으로 감지되면, 메모리(110)에 저장된 복수의 이미지(10) 중 변경 전 사용자의 위치에 대응하는 복수의 이미지(10)를 선별하고, 선별된 복수의 이미지(10)를 기초로 메타버스의 가상 공간(200)에 반영할 가상 컨텐츠(예를 들어, 가상 객체 컨텐츠)를 생성할 수 있다. 즉, 프로세서는 사용자의 위치가 변경될 때마다, 변경 전 사용자의 위치에 대응하는 복수의 이미지(10)를 통해 객체 키워드를 획득하고, 획득된 객체 키워드를 기초로 가상 공간(200)에 반영할 가상 컨텐츠를 생성할 수 있다.

예를 들어, 프로세서(120)는 사용자의 실시간 위치가 제1 위치에서 제2 위치로 변경된 것으로 감지되면, 메모리(110)에 저장된 복수의 이미지 중 제1 위치에 대응하는 복수의 이미지를 선별할 수 있다. 그리고, 프로세서(120)는 제1 위치에 대응하는 복수의 이미지를 통해 객체 키워드를 획득하고, 획득된 객체 키워드에 대응하는 객체 컨텐츠를 생성할 수 있다. 이때, 생성된 객체 키워드는 사용자의 실시간 위치인 제2 위치와는 관련이 없으며, 변경 전 사용자 위치에 해당하는 제1 위치와 관련된 것일 수 있다.

이하에서는, 본 개시의 일 실시 예에 따른, 객체 컨텐츠(210)를 생성하는 구체적인 방법에 대하여 설명하도록 한다.

도 4는 본 개시의 일 실시 예에 따른, 제1 신경망 모델을 이용하여 사용자 위치에 대응하는 복수의 이미지(10)에 관하여 획득된 복수의 객체 키워드 및 획득된 복수의 객체 키워드의 빈도를 나타낸 예시도이다.

먼저, 본 개시의 일 실시 예에 따라, 프로세서(120)는 선별된 복수의 이미지(10) 각각에 포함된 객체 키워드를 획득한다.

구체적으로, 프로세서(120)는 각각의 이미지에 포함된 객체에 관한 객체 키워드를 획득할 수 있다. 여기서, 객체 키워드는 객체의 유형, 객체의 색상, 객체의 위치, 객체의 성별 등을 나타내는 키워드를 포함할 수 있다. 프로세서(120)는 각각의 이미지에 객체가 포함되었는지 식별하고, 식별된 객체의 유형, 색상 등을 식별한 후 객체 키워드를 획득할 수 있다. 이때, 프로세서(120)는 메모리(110)에 저장된 객체 - 객체 키워드 매칭 테이블을 바탕으로 객체 키워드를 획득할 수 있다. 객체 - 객체 키워드 매칭 테이블은, 각각의 객체와 매칭하는 적어도 하나의 객체 키워드가 저장된 테이블을 의미한다. 이에 따라, 프로세서는 선별된 이미지 내 객체의 유형을 식별하고, 식별된 객체의 유형과 매칭되는 객체 키워드를 객체 - 객체 키워드 매칭 테이블 내에서 획득할 수 있다.

한편, 본 개시의 일 실시 예에 따라, 프로세서는 선별된 이미지 내 객체에 관한 객체 키워드를 획득하기 위하여 신경망 모델을 이용할 수 있다. 즉, 프로세서(120)는 이미지 내에 포함된 객체를 검출하는 신경망 모델(20)을 이용하여, 복수의 이미지(10) 각각에 포함된 객체 키워드를 획득한다.

이미지 내에 포함된 객체를 검출하는 신경망 모델(20)은, 입력된 이미지 내에 포함된 객체를 검출하고, 검출된 객체의 유형을 식별하고, 식별된 객체의 유형에 대한 키워드를 출력하도록 학습된 신경망 모델일 수 있다.

이를 위해, 이미지 내에 포함된 객체를 검출하는 신경망 모델(20)은, 객체를 포함하는 복수의 이미지(10)로 구성된 학습 데이터를 바탕으로, 사전에 학습된 신경망 모델일 수 있다. 이미지 내에 포함된 객체를 검출하는 신경망 모델(20)은, CNN(Convolutional Neural Network) 모델, FCN(Fully Convolutional Networks) 모델, RCNN (Regions with Convolutional Neuron Networks features) 모델, YOLO 모델 등으로 구현될 수 있다. 이하에서는, 설명의 편의를 위해, 본 개시의 실시 예에 따른 이미지 내에 포함된 객체를 검출하는 신경망 모델(20)을 제1 신경망 모델(20)로 지칭하여 설명한다.

프로세서(120)는, 제1 신경망 모델(20)에 사용자 위치에 대응하여 선별된 복수의 이미지(10)를 각각 입력하고, 각각의 이미지에서 검출된 객체에 대응하는 객체 키워드를 획득할 수 있다. 객체 키워드는, 검출된 객체의 유형, 종류 등을 나타내는 키워드일 수 있다.

구체적으로, 도 4를 참조하면 프로세서(120)는 사용자 위치를 파리로 식별하고, 메모리(110)에 저장된 복수의 이미지(10) 중, 식별된 파리에 위치에 대응하는 복수의 이미지(10)를 선별한다. 그리고, 프로세서(120)는 선별된 복수의 이미지(10)를 제1 신경망 모델(20)에 입력하여, 각각의 이미지에 포함된 객체에 대응하는 객체 키워드를 획득할 수 있다. 이때, 도 3을 참조하면, 프로세서(120)는 파리에 대응하는 복수의 이미지(10)를 통해 획득한 객체 키워드로, “에펠탑”, “사람 1”, “개선문”, “자동차”, “강아지” 등이 있다.

이때, 본 개시의 일 실시 예에 따라, 프로세서(120)는, 복수의 이미지(10) 중 사용자 위치에 대응하는 복수의 이미지(10)의 개수가 기 설정된 개수 이상인지 식별하고, 사용자 위치에 대응하는 복수의 이미지(10)의 개수가 기 설정된 개수 이상이면, 제1 신경망 모델(20)을 이용하여, 선별된 복수의 이미지(10) 각각에 포함된 객체 키워드를 획득할 수 있다.

구체적으로, 프로세서(120)는 복수의 이미지(10)와 대응되는 사용자 위치가 사용자에게 의미 있는 장소인지 식별할 수 있다. 이를 위해, 프로세서(120)는 각각의 사용자 위치에 대응하는 복수의 이미지(10)의 개수가 기 설정된 개수 이상이지 식별하고, 복수의 이미지(10)의 개수가 기 설정된 개수 이상인 사용자 위치에 대해서만 메타버스의 가상 공간(200)에 반영할 객체 컨텐츠(210)를 생성하는 것으로 결정할 수 있다. 다시 말해, 사용자가 특정 위치(또는 장소)에 있는 동안, 많은 이미지를 저장하였다면, 프로세서(120)는 특정 위치(또는 장소)가 사용자에게 의미 있는 또는 중요한 위치(또는 장소)라고 식별하고, 특정 위치를 메타버스의 가상 공간(200)에서 구현하는 것으로 결정할 수 있다.

또한, 프로세서(120)는 메타버스의 가상 공간(200)을 구성하는 가상 컨텐츠를 구현하기에 충분한 데이터가 있는지 사용자 위치에 대응하는 복수의 이미지(10)의 개수에 기초하여 식별할 수 있다. 메타버스의 가상 공간(200)에 반영되는 객체 컨텐츠(210)는, 별도의 사용자 입력 또는 데이터 수신 없이 메모리(110)에 저장된 복수의 이미지(10)를 바탕으로 생성된다. 이는, 사용자가 카메라를 통해 획득된 이미지 또는 메신저 등을 통해 수신된 이미지를 저장하는 것만으로도, 특정 위치가 메타버스의 가상 공간(200)으로 구현되는 서비스를 제공받는 것을 의미할 수 있다. 즉, 사용자의 메타버스의 가상 공간(200)을 구현하기 위한 별도의 작업 없이도, 사용자는 사용자가 머물렀던 위치 및 장소에 관한 컨텐츠를 메타버스의 가상 공간(200) 내에서 경험할 수 있다.

이를 위해서는, 메타버스의 가상 공간(200) 내 표시될 객체 컨텐츠(210)를 생성하기 위한 충분한 데이터가 필요하다. 따라서, 프로세서(120)는 각각의 사용자 위치에 대응하는 복수의 이미지(10)의 개수를 식별하고, 복수의 이미지(10)의 개수가 기 설정된 개수 이상인 사용자 위치에 대해서만, 메타버스의 가상 공간(200)에 반영할 객체 컨텐츠(210)를 생성할 수 있다.

한편, 프로세서(120)는 복수의 이미지(10)의 개수가 기 설정된 개수 이상인 것으로 식별되면, 복수의 이미지(10)를 제1 신경망 모델(20)에 각각 입력하여, 복수의 객체 키워드를 획득할 수 있다. 이에 관해서는 상술하여 설명하였으므로 자세한 설명은 생략하도록 한다.

한편, 본 개시의 일 실시 예에 따라, 프로세서(120)는 선별된 복수의 이미지(10) 각각을 통해 획득된 객체 키워드의 빈도에 기초하여 메타버스의 가상 공간(200)에 반영할 객체를 결정한다.

객체 키워드의 빈도는, 사용자 위치에 대응하여 선별된 복수의 이미지(10)를 순차적으로 제1 신경망 모델(20)에 입력하였을 때, 프로세서(120)가 사용자 위치에 대하여 획득한 객체 키워드의 누적 개수일 수 있다.

구체적으로, 프로세서(120)는 사용자 위치에 대응하여 선별된 복수의 이미지(10)를 제1 신경망 모델(20)에 각각 입력하여, 각각의 이미지에 대응하는 적어도 하나의 객체 키워드를 획득할 수 있다. 예를 들어, 프로세서(120)는 객체가 포함되지 않은 이미지에 대해서는 제1 신경망 모델(20)을 통해 객체 키워드를 획득하지 않을 수 있다. 또는, 프로세서(120)는 복수의 객체가 포함된 이미지에 대해서는 복수의 객체에 대응하는 복수의 키워드를 획득할 수 있다. 이때, 프로세서(120)는 각각의 이미지에 대하여 획득된 객체 키워드의 누적 개수를 식별할 수 있다.

구체적으로, 도 4를 참조하면, 프로세서(120)는 사용자 위치인 파리에 대응하는 복수의 이미지(10)를 제1 신경망 모델(20)에 각각 입력하여, 객체 키워드를 획득할 때마다 획득된 객체 키워드의 누적 개수를 식별할 수 있다. 도 3에 따르면, 프로세서(120)는 객체 키워드, “에펠 탑”의 누적 개수를 10개로 식별하였다. 그리고, 프로세서(120)는 객체 키워드, “사람 1”의 누적 개수를 8개로 식별하였다. 이처럼, 프로세서(120)는 각각의 객체 키워드가 획득될 때마다, 획득된 각각의 키워드의 누적 개수를 식별하여, 각각의 키워드의 빈도를 식별할 수 있다.

그리고, 프로세서(120)는 빈도가 높은 객체 키워드에 대해서는, 사용자가 객체 키워드에 대응하는 객체에 관한 이미지를 반복하여 획득하여 저장한 것으로 식별할 수 있다. 그리고, 프로세서(120)는, 사용자가 반복하여 이미지를 획득한 객체가 사용자 위치와 관련이 높은 것으로 식별할 수 있다. 즉, 프로세서(120)는 해당 객체가 사용자 위치와 의미가 있는 것으로 식별할 수 있다.

다시 도 4를 참조하면, “파리”에 대응하는 복수의 이미지(10)로부터 획득된 복수의 객체 키워드 중 “에펠 탑”이 가장 높은 빈도를 갖는 것으로 식별되었다. 이때, 프로세서(120)는 사용자에게 “파리”와 관련하여 "에펠 탑"이 의미 있는 객체로 또는 중요한 객체로 식별할 수 있다. 그리고, 프로세서(120)는 “에펠 탑에 관한 객체 컨텐츠(210)를 생성하는 것으로 결정할 수 있다. 사용자가 “파리”에 있는 동안 “에펠 탑”에 관한 이미지를 많이 저장했다는 것은, 사용자가 “파리”에서 “에펠 탑”에 대한 좋은 기억을 갖고 있다는 것을 의미할 수도 있다. 따라서, 프로세서(120)는, “파리”에 관한 메타버스의 가상 공간(200)을 구현하는데 있어, “에펠 탑”의 컨텐츠를 생성하고, 생성된 “에펠 탑”의 컨텐츠를 가상 공간 내 포함시킴으로써, 사용자에게 파리에 관한 좋은 기억을 상기시키는 효과를 발휘할 수 있다.

한편, 본 개시의 실시 예에 따라, 메타버스의 가상 공간(200)에 반영할 객체를 결정한 후 프로세서(120)는 결정된 객체에 대응하는 객체 컨텐츠(210)를 생성한다.

구체적으로, 결정된 객체에 대응하는 3차원 이미지를 렌더링(rendering) 할 수 있다. 한편, 메모리(110)에는 각각의 객체 키워드 또는 각각의 객체에 대응하는 3차원 객체 이미지(또는 3차원 객체 이미지를 생성하는 프로그램)가 저장될 수 있다. 이에 따라, 프로세서(120)는 결정된 객체에 대응하는 3차원 객체 이미지를 메모리(110)로부터 획득하고, 획득된 3차원 객체 이미지를 메타버스의 가상 공간(200)에 표시할 수 있다. 또는 프로세서(120)는 통신부를 통해 획득된 객체 키워드를 외부 장치(예를 들어, 외부 서버)로 송신하고, 통신부를 통해 외부 장치로부터 객체 키워드에 대응하는 3차원 객체 이미지를 획득할 수도 있다.

한편, 본 개시의 일 실시 예에 따라, 프로세서(120)는, 획득된 객체 키워드 각각의 빈도를 식별하고, 복수의 객체 키워드 중 식별된 빈도가 기 설정된 값 이상인 적어도 하나의 객체 키워드를 선별할 수 있다. 그리고, 프로세서(120)는 선별된 적어도 하나의 객체 키워드에 기초하여, 메타버스의 가상 공간(200)에 반영할 객체를 결정할 수 있다.

구체적으로, 프로세서(120)는, 사용자 위치에 대응하는 복수의 이미지(10)를 통해 획득된 각각의 객체 키워드의 빈도를 식별할 수 있다. 즉, 프로세서(120)는 획득된 각각의 객체 키워드의 누적 개수를 식별할 수 있다. 그리고, 프로세서(120)는 복수의 이미지(10)를 통해 획득된 전체 객체 키워드 중 획득된 누적 개수가 기 설정된 값 이상인 객체 키워드를 식별할 수 있다. 그리고, 프로세서(120)는 획득된 누적 개수가 기 설정된 값 이상인 객체 키워드에 대응하는 객체 컨텐츠(210)를 생성할 수 있다.

만약, 프로세서(120)가 복수의 이미지(10)를 통해 획득된 객체 키워드를 모두 이용하여, 각각의 객체 키워드에 대응하는 객체 컨텐츠(210)를 만드는 것은, 오랜 시간이 소요되고 전자 장치(100)의 리소스가 많이 소비할 수 있다. 따라서, 프로세서(120)는 복수의 객체 키워드 중 사용자에게 의미가 있는 객체 키워드 만을 선별하고, 선별된 객체 키워드에 대응하는 객체 컨텐츠(210)를 생성할 수 있다. 이하에서는, 전체 객체 키워드 중 빈도가 기 설정된 값 이상인 객체 키워드를 제1 객체 키워드라고 지칭한다.

예를 들어, 도 5를 참조하면, 제1 객체 키워드를 선별하는 기 설정된 값이 2라고 가정하였을 때, 기 설정된 값 이상의 빈도를 갖는 객체 키워드는 복수의 객체 키워드 중 “에펠 탑”, “사람 1”, “개선 문”, “자동차”, “강아지” 및 “바게트 빵”이다. 이에 따라, 프로세서(120)는 파리에 대응하는 복수의 객체 키워드 중 제1 객체 키워드로, “에펠 탑”, “사람 1”, “개선 문”, “자동차”, “강아지” 및 “바게트 빵”을 선별할 수 있다. 그리고, 프로세서(120)는 선별된 제1 객체 키워드에 대응하는 객체 컨텐츠(210)로, “에펠 탑”에 관한 3차원 이미지(211), “사람 1”에 관한 3차원 이미지(212), “개선 문”에 관한 3차원 이미지(213), “자동차”에 관한 3차원 이미지(214), “강아지”에 관한 3차원 이미지(215) 및 “바게트 빵”에 관한 3차원 이미지(216)를 생성할 수 있다. 그리고, 프로세서(120)는 생성된 복수의 객체 컨텐츠(210)를 메타버스의 가상 공간(200)에 표시할 수 있다.

이때, 각각의 객체 컨텐츠(210)가 표시되는 위치는, 객체 키워드의 유형에 따라 기 설정될 수 있다. 또는, 각각의 객체 키워드가 획득된 이미지 내 메타 데이터를 바탕으로 식별된 각각의 이미지가 획득된 위치에 기초하여 각각의 객체 키워드가 메타버스의 가상 공간(200)에 표시되는 위치가 결정될 수 있다. 한편, 메타버스의 가상 공간(200)에 표시되는 각각의 객체 컨텐츠(210)의 위치는 사용자에 의해 변경될 수 있음은 물론이다.

한편, 본 개시의 일 실시 예에 따라, 프로세서(120)는, 사용자 위치와 복수의 제1 객체 키워드 간의 의미 유사도를 식별하고, 복수의 제1 객체 키워드 중, 식별된 의미 유사도가 기 설정된 값 이상인 의미 유사도를 갖는 적어도 하나의 객체 키워드를 선별할 수 있다. 그리고, 프로세서(120)는 선별된 적어도 하나의 객체 키워드에 기초하여, 메타버스의 가상 공간(200)에 반영할 객체를 결정할 수 있다.

구체적으로, 프로세서(120)는, 사용자에게 사용자 위치와 의미가 있는 것으로 식별된 복수의 제1 객체 키워드 중에서 사용자 위치와 관련성이 높은 적어도 하나의 객체 키워드를 선별할 수 있다. 이하에서는, 제1 객체 키워드 중 사용자 위치와 기 설정된 값 이상인 의미 유사도를 갖는 제1 객체 키워드를 제2 객체 키워드라고 지칭한다.

구체적으로, 프로세서(120)는 객체 키워드의 빈도에 기초하여 획득된 복수의 객체 키워드 중, 사용자에게 사용자 위치와 의미 있는 제1 객체 키워드를 선별할 수 있었다. 다만, 제1 객체 키워드는 사용자 위치에 대응하는 복수의 이미지(10)를 통해 객체 키워드가 얼마나 빈번하게 획득 되었는지를 기준으로 선별된 것이므로, 복수의 제1 객체 키워드 중에서는 노이즈가 포함될 수 있다. 노이즈는, 객체 키워드의 빈도에 기초하여, 사용자 위치와 의미가 있는 것으로 잘못 식별된 객체 키워드 또는 잘못 식별된 객체 키워드에 대응하는 이미지일 수 있다.

예를 들어, 사용자가 파리에 있는 동안, 메신저를 통해 특정 상대방으로부터 특정 객체가 포함된 복수의 이미지(10)를 수신하였다고 가정한다. 이때, 사용자가 의도치 않게, 또는 무의식 중에 수신한 복수의 이미지(10)를 저장하였다면, 파리에 대응하는 복수의 이미지(10)로 메신저를 통해 수신한 특정 객체가 포함된 복수의 이미지(10)가 선별될 수 있다. 이는, 결국 특정 객체에 대응하는 객체 키워드가 제1 객체 키워드로 선별되는 결과로 이어질 수 있다. 즉, 사용자가 머물렀던 파리와는 의미가 없는 객체 키워드가 제1 객체 키워드로 선별되는 결과를 초래한다.

따라서, 본 개시의 일 실시 예에 따라, 프로세서(120)는 선별된 복수의 제1 객체 키워드와 사용자 위치 간의 의미 유사도를 식별하고, 식별된 의미 유사도를 기초로, 복수의 제1 객체 키워드 중 사용자 위치와 실질적으로 관련성이 있는 객체 키워드를 선별할 수 있다. 이를 위해, 프로세서(120)는 의미 유사도가 기 설정된 값 이상인 의미 유사도를 갖는 제1 객체 키워드를 제2 객체 키워드로 선별할 수 있다.

구체적으로, 프로세서(120)는 제1 객체 키워드와 사용자 위치에 대응하는 텍스트(50) 간의 유사도를 식별할 수 있다. 구체적으로, 프로세서(120)는 제1 객체 키워드와 사용자 위치 각각에 대응하는 벡터를 획득하고, 각각의 벡터 간의 코사인 각도를 식별하고, 식별된 코사인 각도를 기초로 제1 객체 키워드와 사용자 위치 간의 의미 유사도를 식별할 수 있다. 또는, 각각의 벡터 간의 유클리드 거리를 측정하고, 측정된 유클리드 거리를 기초로 제1 객체 키워드와 사용자 위치 간의 의미 유사도를 식별할 수 있다. 이를 위해, 프로세서(120)는 제1 객체 키워드와 사용자 위치 간의 의미 유사도를 산출하도록 학습된(또는 텍스트(50) 간의 의미 유사도를 산출하도록 학습된) 신경망 모델을 이용할 수 있다. 이때, 의미 유사도를 산출하는 신경망 모델은, Word2vec 모델, CNN 모델, 자연어 처리 모델(Natural Language Processing Model), Bert 모델(Bidirectional Encoder Representations from Transformers Model) 등을 포함할 수 있다.

한편, 프로세서(120)는 복수의 제1 객체 키워드 중, 식별된 의미 유사도가 기 설정된 값 이상인 의미 유사도를 제1 객체 키워드를 제2 객체 키워드로 선별할 수 있다. 구체적으로, 도 6을 참조하면, 프로세서(120)는 선별된 복수의 제1 객체 키워드(에펠 탑, 사람 1, 개선문, 자동차, 강아지, 바게트 빵)와 사용자 위치(파리) 간의 의미 유사도를 식별할 수 있다. 이때, 의미 유사도에 관한 기 설정된 값이 30인 경우, 프로세서(120)는 복수의 제1 객체 키워드 중 자동차를 제외한 나머지 제1 객체 키워드를 제2 객체 키워드로 선별할 수 있다. 즉, 프로세서(120)는 의미 유사도에 기초하여, 사용자 위치에 해당하는 파리와 자동차와는 관련성이 없는 것으로 식별하였다. 그리고, 프로세서(120)는 의미 유사도에 기초하여, 제2 객체 키워드로 선별된 에펠 탑, 사람 1, 개선문, 강아지 및 바게트 빵이 사용자 위치에 해당하는 파리와 관련성이 높은 것으로 식별할 수 있다.

그리고, 본 개시의 일 실시 예에 따라, 프로세서(120)는 선별된 제2 객체 키워드에 대응하는 객체를 식별하고, 식별된 객체에 대응하는 객체 컨텐츠(210)를 생성할 수 있다.

구체적으로, 프로세서(120)는 선별된 제2 객체 키워드를 메타버스의 가상 공간(200)에 반영할 객체로 결정할 수 있다. 그리고, 프로세서(120)는 제2 객체 키워드에 대응하는 객체 컨텐츠(210)를 생성할 수 있다. 즉, 프로세서(120)는 제2 객체 키워드에 대응하는 3차원의 객체 이미지를 렌더링할 수 있다.

도 6을 참조하면, 프로세서(120)는 선별된 제2 객체 키워드에 대응하는 객체 컨텐츠(210)로, “에펠 탑”에 관한 3차원 이미지(211), “사람 1”에 관한 3차원 이미지(212), “개선 문”에 관한 3차원 이미지(213), “강아지”에 관한 3차원 이미지(215) 및 “바게트 빵”에 관한 3차원 이미지(216)를 생성하고, 생성된 복수의 객체 컨텐츠(210)를 파리에 관한 메타버스의 가상 공간(200)에 표시한다. 도 5와 도 6을 비교하였을 때, 의미 유사도에 기초하여 파리와는 관련성이 적은 자동차 컨텐츠가 도 6에서는 제외 되었다.

한편, 본 개시의 일 실시 예에 따라, 프로세서(120)는, 각각의 이미지에 대응하는 객체 키워드의 개수를 식별하고, 식별된 객체 키워드의 개수에 기초하여, 객체 키워드의 빈도를 식별하고, 하나의 이미지에 대응하는 복수의 객체 키워드에 동일한 객체 키워드가 복수 개 포함된 경우, 하나의 이미지에 대해서는 동일한 객체 키워드의 개수를 한 개로 식별할 수 있다.

도 7은 본 개시의 일 실시 예에 따른, 하나의 이미지에 대응하는 복수의 객체 키워드 중 동일한 객체 키워드가 복수 개 포함된 경우, 각각의 객체 키워드에 대한 빈도를 식별하는 방법을 설명하기 위한 예시도이다.

구체적으로, 상술한 바와 같이, 프로세서(120)는 각각의 이미지를 제1 신경망 모델(20)에 입력하여 획득된 객체 키워드의 누적 개수를 각각의 객체 키워드의 빈도로 식별할 수 있다. 이때, 특정 이미지 내에서 동일한 객체 키워드가 복수 개 획득된 경우, 프로세서(120)는 특정 이미지를 통해 획득된 복수개의 객체 키워드는 한 개인 것으로 식별할 수 있다.

구체적으로, 하나의 특정 이미지 내 동일한 객체 또는 동일한 유형의 객체가 복수 개 포함된 경우, 해당 객체에 대응하는 객체 키워드 또한 복수 개 획득될 수 있다. 이로 인하여, 프로세서(120)는 해당 객체를 포함하는 이미지가 한 개임에도 불구하고, 복수 개 획득된 객체 키워드로 인하여, 해당 객체가 사용자 위치와 의미가 깊거나 또는 관련성이 높은 것으로 잘못 판단할 수 있다. 따라서, 프로세서(120)는 복수의 이미지(10) 중 특정 이미지에 대하여 제1 신경망 모델(20)을 통해 복수의 객체 키워드를 획득하고, 획득된 복수의 객체 키워드 중 동일한 객체 키워드가 복수 개 존재하는 것으로 식별된 경우, 복수의 동일한 객체 키워드의 개수를 한 개로 변경하여 식별할 수 있다.

예를 들어, 도 7을 참조하면, 파리에 대응하는 복수의 이미지(10) 중 이미지 A에는 총 11개의 객체(구체적으로, 1개의 와인, 4개의 컵, 2개의 포크, 2개의 나이프, 2개의 접시 및 1개의 피자)(11)가 포함되어 있다. 따라서, 프로세서(120)가 이미지 A를 제1 신경망 모델(20)에 입력하였을 때, 이미지 A 에 대응하는 객체 키워드로, 총 11개의 객체 키워드(구체적으로, 1개의 와인에 관한 키워드, 4개의 컵에 관한 키워드, 2개의 포크에 관한 키워드, 2개의 나이프에 관한 키워드, 2개의 접시에 관한 키워드 및 1개의 피자에 관한 키워드)를 획득할 수 있다. 그러나, 프로세서(120)는, 중복하여 획득된 컵에 관한 키워드는 이미지 A로부터 1개 획득한 것으로 식별할 수 있다. 이와 마찬가지로, 중복하여 획득된 포크, 나이프, 및 접시에 관한 키워드 또한 이미지 A로부터 각각 1개씩 획득한 것으로 식별할 수 있다.

이처럼, 프로세서(120)는 각각의 객체 키워드에 대하여 사용자가 실질적으로 획득한 이미지의 개수를 고려하여 각각의 객체 키워드의 빈도를 식별함으로써, 사용자 위치와 실질적으로 관련성이 높은 객체 키워드를 선별할 수 있다.

이하에서는, 배경 컨텐츠(220)를 생성하는 본 개시의 실시 예에 대하여 설명하도록 한다.

한편, 본 개시의 일 실시 예에 따라, 프로세서(120)는 메타버스의 가상 공간(200)에 반영할 배경(Background) 컨텐츠를 생성할 수 있다.

배경 컨텐츠(220)는, 메타버스의 가상 공간(200)에 반영되는 3차원의 배경 이미지일 수 있다. 예를 들어, 배경 컨텐츠(220)는 메타버스의 가상 공간(200) 내에서 표시되는 건물, 도로, 다리, 나무 등의 3차원 이미지를 포함할 수 있다.

배경 컨텐츠(220)는 복수의 객체 컨텐츠를 바탕으로 구현될 수 있다. 구체적으로, 배경 컨텐츠(220)에는 기 설정된 객체 컨텐츠(예를 들어, 사람, 건물, 동물, 음식 사물 등의 3차원 이미지)가 포함될 수도 있다. 다만, 배경 컨텐츠(220)에 포함된 기 설정된 객체 컨텐츠는, 사용자 위치에 대응하는 복수의 이미지(10)를 바탕으로 생성된 객체 컨텐츠(210)와는 구분될 수 있다. 즉, 객체 키워드를 기초로 생성된 객체 컨텐츠(210)와 배경 컨텐츠를 구현하는데 이용되는 객체 컨텐츠는 구분될 수 있다. 예를 들어, 배경 컨텐츠(220)를 구현하는데 이용되는 객체 컨텐츠는 가상 공간 내에서 위치 및 형태가 고정될 수 있지만, 객체 키워드를 기초로 생성된 객체 컨텐츠(210)는 가상 공간 내에서 위치가 사용자의 입력 또는 설정에 따라 변경되고 형태 또한 다양하게 변경될 수 있다.

한편, 본 개시의 실시 예에 따라, 프로세서(120)는 사용자 위치에 대응하는 복수의 이미지(10)로부터 획득된 복수의 객체 키워드 중 배경을 구현하는데 이용되는 객체 키워드를 제외한 후 나머지 객체 키워드 만으로 객체 컨텐츠를 생성할 수도 있다.

이하에서는, 프로세서(120)가 배경 컨텐츠(220)를 생성하는 구체적인 방법에 대하여 설명하도록 한다.

한편, 프로세서(120)는 사용자의 위치를 기초로 배경 컨텐츠(220)를 생성할 수 있다. 구체적으로, 프로세서(120)는 사용자의 위치를 식별하고, 식별된 사용자 위치에 대응하는 3차원의 배경 이미지를 생성할 수 있다. 이때, 프로세서(120)는 식별된 사용자 위치에 대응하는 랜드 마크를 식별하고, 식별된 랜드 마크에 대응하는 3차원 이미지를 배경 컨텐츠(220)로 생성할 수 있다. 예를 들어, 프로세서(120)가 사용자의 위치를 이집트로 식별하고, 식별된 이집트에 대응하는 복수의 이미지(10)를 선별한 경우, 프로세서(120)는 이집트에 대응하는 랜드 마크로 “피라미드” 및 “스핑크스”를 식별할 수 있다. 그리고, 프로세서(120)는, 이집트에 대응하는 배경 컨텐츠(220)로, “피라미드” 및 “스핑크스”에 대응하는 3차원 이미지를 생성할 수 있다. 이를 위해, 프로세서(120)는 메모리(110)에 저장된 “도시 - 랜드 마크 매칭 테이블”을 이용할 수 있다.

한편, 본 개시의 일 실시 예에 따라, “배경 컨텐츠(220)”는 사전에 생성되어 메모리(110)에 저장될 수 있다. 구체적으로, 메모리(110)에는 기 설정된 복수의 사용자 위치에 대응하는 복수의 배경 컨텐츠(220)가 저장될 수 있다. 예를 들어, 기 설정된 복수의 사용자 위치 중 “서울”의 경우, “서울”에 대응하는 배경 컨텐츠(220)로 남산 타워 및 경복궁에 대응하는 3차원 이미지가 메모리(110)에 저장될 수 있다.

한편, 프로세서(120)는 배경 컨텐츠(220) 상에 사용자 위치에 대응하는 복수의 이미지(10)를 바탕으로 생성된 객체 컨텐츠(210)를 표시함으로써, 사용자 위치에 대응하는 메타버스의 가상 공간(200)을 구현할 수 있다. 즉, 상술한 예를 들어 다시 설명하면 피라미드 및 스핑크스에 대응하는 3차원 이미지로 구현된 배경 컨텐츠(220) 상에, 이집트에 대응하는 복수의 이미지(10)를 통해 생성된 객체 컨텐츠(210)(예를 들어, 3차원 음식 이미지 등)를 표시할 수 있다.

한편, 배경 컨텐츠(220)를 생성하기에 앞서, 본 개시의 일 실시 예에 따라, 프로세서(120)는, 사용자 위치가 기 설정된 위치인지 식별할 수 있다.

도 8은 본 개시의 일 실시 예에 따른, 사용자 위치가 기 설정된 위치가 아닌 것으로 식별되는 경우, 사용자 위치에 대응하는 복수의 이미지(10)를 제2 신경망 모델에 입력하여 배경 컨텐츠를 생성하는 방법을 나타낸 예시도이다.

구체적으로, 프로세서(120)는 선별된 복수의 이미지(10)에 대응하는 사용자의 위치가 기 설정된 위치인지 식별할 수 있다. 구체적으로, 도 8을 참조하면 메모리(110)에는 각각의 GPS 위치에 대응하는 기 설정된 사용자의 위치가 저장될 수 있다. 따라서, 프로세서(120)는 전자 장치(100)의 GPS 센서를 통해 획득한 GPS 좌표 및 복수의 이미지(10)에 포함된 메타 데이터를 바탕으로, 복수의 이미지(10)에 대응하는 사용자 위치가 기 설정된 위치인지 식별할 수 있다. 예를 들어, 프로세서(120)는 복수의 이미지(10)에 대응하는 사용자의 GPS 위치가 서경 0° 7' 39", 북위 51° 30' 26인 것으로 식별되거나, 또는 서경 0° 7' 39", 북위 51° 30' 26를 중심으로 기 설정된 반경 내인 것으로 식별되면, 사용자의 위치가 런던인 것으로 식별할 수 있다.

그리고, 본 개시의 일 실시 예에 따라, 프로세서(120)는, 사용자 위치가 기 설정된 위치가 아닌 것으로 식별되면, 사용자 위치에 대응하여 선별된 복수의 이미지의 객체 키워드를 바탕으로 사용자 위치에 대응하는 배경 키워드를 획득할 수 있다. 여기서, 배경 키워드는 사용자 위치로 예측되는 장소를 나타내는 키워드일 수 있다. 구체적으로, 프로세서(120)는 사용자 위치에 대응하여 선별된 복수의 이미지(10)를 통해 획득된 복수의 객체 키워드를 조합하여 사용자 위치에 대응하는 배경 키워드를 획득할 수 있다. 예를 들어, 사용자의 위치에 대응하여 선별된 복수의 이미지(10)를 통해 획득된 복수의 객체 키워드가, “파라솔”, “피크닉 매트”, “수영복”, “물안경”, “갈매기”, “조개” 등인 경우, 프로세서는 획득된 복수의 객체 키워드를 조합하여, 사용자의 위치에 대응하는 배경 키워드로 “바다”를 획득할 수 있다. 또한, 본 개시의 일 실시 예에 따라 프로세서(120)는 이미지 내 배경을 식별하는 신경망 모델(30)을 이용하여, 선별된 복수의 이미지(10)에 대응하는 배경 키워드를 획득할 수 있다.

이미지 내 배경을 식별하는 신경망 모델(30)은, 입력된 이미지 내 배경을 식별하고, 식별된 배경에 대한 키워드를 출력하도록 학습된 신경망 모델일 수 있다. 이를 위해, 이미지 내에 배경을 식별하는 신경망 모델은, 복수의 이미지(10)로 구성된 학습 데이터를 바탕으로, 각각의 이미지의 배경을 식별하도록 사전에 학습된 신경망 모델일 수 있다. 이미지 내 배경을 식별하는 신경망 모델(30)은, CNN(Convolutional Neural Network) 모델, FCN(Fully Convolutional Networks) 모델, RCNN (Regions with Convolutional Neuron Networks features) 모델, YOLO 모델 등으로 구현될 수 있다. 이하에서는, 설명의 편의를 위해, 본 개시의 실시 예에 따른 이미지 내 배경을 식별하는 신경망 모델(30)을 제2 신경망 모델(30)로 지칭하여 설명한다.

한편, 일 예로, 제2 신경망 모델(30)은, 제1 신경망 모델(20)을 통해 획득한 객체 키워드를 바탕으로, 이미지의 배경을 식별하도록 학습된 모델일 수 있다. 예를 들어, 제1 신경망 모델(20)을 통해 복수의 이미지(10)에 대하여 획득된 객체 키워드가, 수영복, 갈매기, 조개 등일 경우, 제2 신경망 모델(30)은 획득된 객체 키워드(수영복, 갈매기, 조개 등)를 기초로 복수의 이미지(10)에 대응하는 사용자 위치를 “바다”로 식별할 수 있다. 다만, 이에 제한되는 것은 아니며, 복수의 이미지(10)의 배경을 식별하는 방법으로는 공지된 다양한 기술이 적용될 수 있다.

도 8을 참조하면, 프로세서(120)는 복수의 이미지(10)에 대응하는 사용자 위치, “OO군 OO면 OO로 177” 또는 “OO군 OO면 OO로 177”에 대응하는 GPS 위치가 기 설정된 위치(예를 들어, 파리, 런던 뉴욕 등)가 아닌 것으로 식별하였다. 이에 따라, 프로세서(120)는 사용자 위치에 대응하는 복수의 이미지(10)를 제2 신경망 모델(30)에 각각 입력하고, 각각의 이미지에 대응하는 배경 키워드를 획득할 수 있다. 한편, 프로세서(120)가 제2 신경망 모델(30)을 통해 획득한 배경 키워드가 “캠핑 장”인 경우, 프로세서(120)는 “캠핑 장”을 구현하는 3차원 이미지를 배경 컨텐츠(220)로 생성할 수 있다. 그리고, 프로세서(120)는 생성된 “캠핑 장”의 3차원 이미지를 메타버스의 가상 공간(200) 내 표시할 수 있다.

한편, 본 개시의 일 실시 예에 따라, 프로세서(120)는 복수의 배경 키워드를 획득할 수 있다. 예를 들어, 프로세서(120)는 각각의 이미지를 제2 신경망 모델(30)에 입력하여, 각각의 이미지에 대한 배경 키워드를 획득할 수 있다. 한편, 배경을 식별할 수 없는 이미지에 대해서는 제2 신경망 모델(30)을 통해 배경 키워드가 획득되지 않을 수 있다. 이때, 본 개시의 일 실시 예에 따라, 프로세서(120)는 선별된 복수의 이미지(10) 각각에 대응하는 배경 키워드의 빈도에 기초하여 메타버스의 가상 공간(200)에 반영할 배경을 결정할 수 있다.

이하에서는, 본 개시의 설명의 편의를 위해 제2 신경망 모델을 통해 배경 키워드가 획득되는 것으로 상정하여 설명하도록 한다.

배경 키워드의 빈도는, 사용자 위치에 대응하여 선별된 복수의 이미지(10)를 순차적으로 제2 신경망 모델(30)에 입력하였을 때, 프로세서(120)가 획득한 배경 키워드의 누적 개수일 수 있다. 배경 키워드의 빈도에는 프로세서(120)가 특정 이미지를 제2 신경망 모델(30)에 입력하였을 때, 배경 키워드가 획득되지 않은 누적 횟수를 포함할 수 있다.

구체적으로, 프로세서(120)는 사용자 위치에 대응하여 선별된 복수의 이미지(10)를 제2 신경망 모델(30)에 각각 입력하여, 각각의 이미지에 대응하는 배경 키워드를 획득할 수 있다. 이때, 프로세서(120)는 획득된 각각의 배경 키워드의 누적 개수를 식별할 수 있다. 그리고, 프로세서(120)는 각각의 배경 키워드에 대하여 식별된 누적 개수를 각각의 배경 키워드에 대한 빈도로 식별할 수 있다.

도 9에 따르면, 프로세서(120)는 복수의 배경 키워드 중, “캠핑 장”의 누적 개수를 8개로 식별하였다. 이에 따라, 프로세서(120)는 “캠핑 장”의 빈도를 8로 식별할 수 있다. 그리고, 프로세서(120)는 “잔디밭”의 누적 개수를 3개로 식별하였다. 이에 따라, 프로세서(120)는 “잔디밭”의 빈도를 3으로 식별할 수 있다. 또한, 프로세서(120)는 배경 키워드를 획득하지 않은 횟수 또한 5회로 식별하였다. 배경 키워드가 획득되지 않은 것은, 이미지를 제2 신경망 모델(30)에 입력하였을 때 이미지에 대응하는 배경 키워드가 출력되지 않는 것일 수 있다. 즉, 도 9에서 “Unknown”이 이에 해당할 수 있다.

이처럼, 프로세서(120)는 각각의 배경 키워드가 획득될 때마다 또는 배경 키워드가 획득되지 않을 때마다, 획득된 각각의 키워드의 누적 개수 및 배경 키워드가 획득되지 않은 누적 횟수를 식별하여, 각각의 배경 키워드의 빈도를 식별할 수 있다.

그리고, 프로세서(120)는 빈도가 가장 큰 배경 키워드를, 메타버스의 가상 공간(200)에 반영할 배경으로 결정할 수 있다. 즉, 도 9를 참조하면, 프로세서(120)는 빈도가 가장 큰 “캠핑 장”을 메타버스의 가상 공간(200)에 반영할 배경으로 결정할 수 있다. 그리고, 프로세서(120)는 결정된 “캠핑 장” 에 대응하는 3차원 이미지를 생성할 수 있다. 구체적으로, 프로세서(120)는 “캠핑 장”의 3차원 이미지를 렌더링할 수 있다.

한편, 본 개시의 일 실시 예에 따라, 메모리(110)에는 배경 키워드에 대응하는 3차원 배경 이미지가 저장될 수 있다. 또한, 메모리(110)에는 배경 키워드에 대응하는 배경을 구현하기 위해 필요한 복수의 3차원 객체 이미지가 저장될 수 있다.

또는 본 개시의 일 실시 예에 따라, 프로세서(120)는 전자 장치의 통신부를 통해 배경 키워드를 외부 장치(예를 들어, 외부 서버)로 송신하고, 통신부를 통해 외부 장치로부터 배경 키워드에 대응하는 3차원 배경 이미지를 획득할 수도 있다.

한편, 본 개시의 일 실시 예에 따라, 프로세서(120)는 획득된 배경 키워드를 사용자의 위치로 식별할 수 있다. 이를 통해, 프로세서(120)는 제2 키워드를 선별하는 기준인, 의미 유사도를 배경 키워드와 복수의 제1 키워드에 대하여 식별할 수 있다. 예를 들어, 도 9를 참조하면, 프로세서(120)는 사용자의 위치에 해당하는 “00군 00면 00로 177”에 대응하여 선별된 복수의 이미지(10)를 제1 신경망 모델(20)에 입력하여 복수의 객체 키워드를 획득할 수 있다. 그리고, 프로세서(120)는 획득된 객체 키워드의 빈도를 기초로, 복수의 객체 키워드 중 제1 객체 키워드를 선별할 수 있다. 이때, 프로세서(120)는 제2 신경망 모델(30)을 기초로 획득된 배경 키워드인, “캠핑장”과 복수의 제1 객체 키워드 간의 의미 유사도를 식별할 수 있다. 그리고, 프로세서(120)는 의미 유사도가 기 설정된 값이 이상인 적어도 하나의 객체 키워드를 제2 객체 키워드로 선별할 수 있다. 즉, 프로세서(120)는 의미 유사도를 식별하기 위하여, GPS 좌표를 바탕으로 식별된 사용자의 위치(“00군 00면 00로 177”)가 아닌 배경 키워드를 활용할 수 있다.

한편, 본 개시의 일 실시 예에 따라, 프로세서(120)는, 사용자 위치에 대응하는 기간 동안 획득된 복수의 텍스트(50)를 식별하고, 텍스트(50)에 대응하는 감정을 식별하는 신경망 모델을 이용하여, 복수의 텍스트(50)에 대응하는 복수의 감정 키워드를 획득하고, 획득된 감정 키워드 및 상기 사용자 위치에 기초하여 상기 메타버스의 가상 공간(200)에 반영할 배경을 결정할 수 있다.

도 10은 본 개시의 일 실시 예에 따른, 제3 신경망 모델에 기반하여, 사용자 위치에 대응하는 기간 동안 획득된 복수의 텍스트에 대응하는 복수의 감정 키워드를 획득하는 것을 나타낸 예시도이다.

구체적으로, 프로세서(120)는 사용자의 위치에 대응하는 기간 동안 획득된 복수의 텍스트(50)를 식별할 수 있다. 구체적으로, 프로세서(120)는 각각의 사용자 위치에 대응하는 기간을 식별할 수 있다. 프로세서(120)는 전자 장치(100)의 GPS 위치 또는 각각의 이미지의 메타 데이터를 기초로, 사용자 위치에 대응하는 기간을 식별할 수 있다. 이와 관련해서는 도 3에서 상술 하였으므로, 구체적인 설명은 생략하도록 한다.

한편, 프로세서(120)는, 사용자의 위치에 대응하는 기간 동안 메신저 또는 SNS를 통해 획득되거나 메모리(110)에 저장된 텍스트(50) 또는 입력 인터페이스를 통해 입력된 텍스트(50)를 식별할 수 있다. 예를 들어, 도 10을 참조하면, 프로세서(120)는 사용자 위치에 해당하는 “00군 00면 00로 177” 에 대응하는 기간(2022년 3월 5일 14:00부터 2022년 3월 7일 16:00까지) 동안 획득된 적어도 하나의 텍스트(50)를 식별할 수 있다.

그리고, 프로세서(120)는 식별된 복수의 텍스트(50)에 대응하는 적어도 하나의 감정 키워드를 획득할 수 있다. 구체적으로, 프로세서(120)는 식별된 복수의 텍스트(50)를 분석하고, 각각의 텍스트가 갖는 의미를 추론하여 각각의 텍스트에 대응하는 감정 키워드를 획득할 수 있다.

이때, 본 개시의 일 실시 예에 따라 프로세서(120)는 신경망 모델을 이용하여 텍스트에 대응하는 적어도 하나의 감정 키워드를 획득할 수 있다. 구체적으로, 텍스트에 대응하는 감정을 식별하는 신경망 모델은, 각각의 텍스트의 의미를 추론하여 각각의 텍스트(50)에 대응하는 감정을 식별하도록 학습된 신경망 모델일 수 있다. 이하에서는, 설명의 편의를 위해, 본 개시의 실시 예에 따른 텍스트에 대응하는 감정을 식별하는 신경망 모델을 제3 신경망 모델(40)로 지칭하여 설명한다.

본 개시의 일 실시 예에 따른, 제3 신경망 모델(40)은, 복수의 텍스트를 포함한 학습 데이터를 바탕으로, 각각의 텍스트(50)에 대한 감정을 분석하여, 각각의 텍스트(50)에 대응하는 감정 키워드를 출력하도록 사전에 학습된 모델일 수 있다. 구체적으로, 제3 신경망 모델(40)은, 복수의 텍스트(50)가 각각 제3 신경망 모델(40)에 입력되면, 각각의 텍스트(50)에 포함된 사용자의 의도에 관한 정보를 획득하고, 획득된 의도에 관한 정보에 대응하는 감정 키워드를 출력하도록 학습될 수 있다. 한편, 제3 신경망 모델(40)은, BERT 모델, 자연어 이해(natural language understanding)(NLU) 모델 등으로 구현될 수 있다.

한편, 본 개시의 일 실시 예에 따라, 프로세서(120)는 복수의 텍스트(50)에 대응하여 획득된 감성 키워드를 바탕으로, 메타버스의 가상 공간(200)에 반영할 배경을 결정할 수 있다.

구체적으로, 프로세서(120)는, 사용자의 위치를 식별하고, 식별된 사용자 위치에 대응하는 3차원의 배경 이미지를 생성할 수 있다. 예를 들어, 프로세서(120)는 사용자 위치가 기 설정된 위치인지 식별하고, 사용자 위치가 기 설정된 위치인 것으로 식별되면, 기 설정된 위치에 대응하는 배경 컨텐츠(220)를 메모리(110)로부터 획득할 수 있다. 즉, 기 설정된 위치에 대응하는 3차원의 배경 이미지를 메모리(110)로부터 획득할 수 있다. 한편, 프로세서(120)는 사용자 위치가 기 설정된 위치가 아닌 것으로 식별되면, 사용자 위치에 대응하는 배경 키워드를 획득하고, 획득된 배경 키워드에 대응하는 배경 컨텐츠(220)를 메모리(110)로부터 획득할 수 있다. 배경 키워드를 바탕으로, 배경 컨텐츠(220)를 생성하는 방법은 도 8 및 도 9에서 상술 하였으므로, 자세한 설명은 생략한다.

한편, 프로세서(120)는 사용자 위치 또는 배경 키워드에 기초하여 배경 컨텐츠(220)를 생성한 후, 제3 신경망 모델(40)을 통해 획득된 감성 키워드에 기초하여, 생성된 3차원의 배경 이미지의 색상을 변경하거나 또는 3차원의 배경 이미지 내 객체를 부가할 수 있다.

보다 구체적으로, 배경 컨텐츠(220)의 색상, 날씨, 시간 등은 감성 키워드에 기초하여 결정될 수 있다. 예를 들어, 동일한 사용자 위치에 대응하여 생성된 3차원의 배경 이미지라 하더라도, 프로세서(120)는 제3 신경망 모델(40)을 통해 획득된 감성 키워드가 “행복”인 경우에는 3차원의 배경 이미지의 색상을 밝은 색상으로 변경할 수 있다. 반면에, 프로세서(120)는 제3 신경망 모델(40)을 통해 획득된 감성 키워드가 “슬픔”인 경우에는 3차원의 배경 이미지의 색상을 어두운 색상으로 변경할 수 있다.

또는, 3차원의 배경 이미지를 구현하는데 있어, 프로세서(120)는 제3 신경망 모델(40)을 통해 획득된 감성 키워드가 “행복”인 경우에는 배경 이미지 내 날씨를 “맑음”으로 변경할 수도 있으며, 반면에 프로세서(120)는 제3 신경망 모델(40)을 통해 획득된 감성 키워드가 “슬픔”인 경우에는 배경 이미지 내 날씨를 “비”로 변경할 수 있다. 이를 위해, 프로세서(120)는 날씨를 구현하는데 객체 컨텐츠(210), 즉 3차원의 객체 이미지를 생성하여 배경 이미지 상에 표시할 수 있다.

또는, 3차원의 배경 이미지를 구현하는데 있어, 프로세서(120)는 제3 신경망 모델(40)을 통해 획득된 감성 키워드가 “행복”인 경우에는 배경 이미지 내 시간을 “오전”으로 변경할 수도 있으며, 반면에 프로세서(120)는 제3 신경망 모델(40)을 통해 획득된 감성 키워드가 “슬픔”인 경우에는 배경 이미지 내 시간을 “밤”으로 변경할 수 있다.

한편, 본 개시의 일 실시 예에 따라, 복수의 텍스트(50) 각각에 대응하여 획득된 감정 키워드의 빈도에 기초하여, 메타버스의 가상 공간(200)에 반영할 배경을 결정하는데 이용되는 감정 키워드를 식별할 수 있다.

이하에서는, 본 개시의 설명의 편의를 위해 제3 신경망 모델을 통해 감정 키워드가 획득되는 것으로 상정하여 설명하도록 한다.

감정 키워드의 빈도는, 사용자 위치에 대응하는 기간 동안 획득된(또는 메모리(110)에 저장된) 복수의 텍스트(50)를 순차적으로 제3 신경망 모델(40)에 입력하였을 때, 프로세서(120)가 획득한 감정 키워드의 누적 개수일 수 있다. 감정 키워드의 빈도에는 프로세서(120)가 특정 텍스트(50)를 제3 신경망 모델(40)에 입력하였을 때, 배경 키워드가 획득되지 않은 누적 횟수를 포함할 수 있다.

구체적으로, 프로세서(120)는 사용자 위치에 대응하는 기간 동안 획득된(또는 메모리(110)에 저장된) 복수의 텍스트(50)를 제3 신경망 모델(40)에 각각 입력하여, 각각의 텍스트(50)에 대응하는 감정 키워드를 획득할 수 있다. 이때, 프로세서(120)는 획득된 각각의 감정 키워드의 누적 개수를 식별할 수 있다. 그리고, 프로세서(120)는 각각의 감정 키워드에 대하여 식별된 누적 개수를 각각의 감정 키워드에 대한 빈도로 식별할 수 있다.

도 10에 따르면, 프로세서(120)는 획득된 복수의 감정 키워드 중, “행복”의 누적 개수를 25개로 식별하였다. 즉, “행복”의 빈도를 25로 식별하였다. 그리고, 프로세서(120)는 “기쁨”의 누적 개수를 10개로 식별하였다. 즉, “기쁨”의 빈도를 10으로 식별하였다. 또한, 프로세서(120)는 감정 키워드를 획득하지 않은 횟수 또한 30회로 식별하였다. 감정 키워드가 획득되지 않은 것은, 텍스트(50)를 제3 신경망 모델(40)에 입력하였을 때 텍스트(50)에 대응하는 감정 키워드가 출력되지 않는 것일 수 있다. 즉, 도 10에서 “Unknown”이 이에 해당할 수 있다.

이처럼, 프로세서(120)는 각각의 감정 키워드가 획득될 때마다 또는 감정 키워드가 획득되지 않을 때마다, 획득된 각각의 키워드의 누적 개수 및 감정 키워드가 획득되지 않은 누적 횟수를 식별하여, 각각의 배경 키워드의 빈도를 식별할 수 있다.

그리고, 프로세서(120)는 복수의 감정 키워드 중 빈도가 가장 큰 감정 키워드를 선별하고, 선별된 감정 키워드를 기초로 배경 컨텐츠(220)를 생성할 수 있다. 구체적으로, 도 11을 참조하면, 프로세서(120)는 복수의 감정 키워드 중 빈도가 가장 큰 감정 키워드인, “행복”을 기초로 배경 컨텐츠(220)를 생성할 수 있다. 상술한 예를 들어, 다시 설명하면 프로세서(120)는 감정 키워드에 기초하여 배경 컨텐츠(220)의 날씨를 결정할 수 있다. 이때, 감정 키워드인, “행복” 에 대응하는 날씨가 “맑음”으로 설정된 경우, 프로세서(120)는 메타버스의 가상 공간(200)에 반영되는 배경의 날씨를 “맑음”으로 설정할 수 있다. 한편, 복수의 감정 키워드 중 “Unknown”의 빈도가 가장 큰 경우에는, 프로세서(120)는 사용자 위치 또는 배경 키워드 만을 기초로 배경 컨텐츠(220)를 생성할 수 있다.

한편, 도 11을 참조하면, 프로세서(120)는 제2 신경망 모델(30)을 통해, 사용자 위치에 대응하는 복수의 이미지(10)에 대한 배경 키워드로 “캠핑 장”을 획득할 수 있다. 그리고, 프로세서(120)는 획득된 배경 키워드(“캠핑 장”)을 기초로, 3차원의 캠핑 장 이미지를 렌더링할 수 있다. 또는, 메모리(110)에 저장된 “캠핑 장”에 대응하는 3차원의 이미지를 획득할 수도 있다. 그리고, 프로세서(120)는 제1 신경망 모델(20)을 통해, 사용자 위치에 대응하는 복수의 이미지(10)에 대한 객체 키워드를 획득할 수 있다.

도 11에 따르면, 프로세서(120)는 객체 키워드로 “커피” 및 “강아지”를 획득하였다. 이에 따라, 프로세서(120)는 각각의 객체 키워드에 대응하는 객체 컨텐츠(210)로, 3차원의 객체 이미지(3차원의 커피 이미지와 3차원의 강아지 이미지)를 생성할 수 있다. 그리고, 프로세서(120)는 생성된 3차원의 객체 이미지를 3차원의 캠핑 장 이미지 상에 표시할 수 있다. 즉, 생성된 3차원의 객체 이미지와 3차원의 배경 이미지를 병합할 수 있다. 그리고, 프로세서(120)는 제3 신경망 모델(40)을 통해, 사용자 위치에 대응하는 기간 동안 획득된(또는 메모리(110)에 저장된)복수의 텍스트(50)에 대한 감정 키워드를 획득할 수 있다. 이때, 획득된 감정 키워드가 “행복”이며, “행복”에 대응하는 배경 컨텐츠(220)의 날씨가 “맑음”으로 설정된 경우, 프로세서(120)는 3차원의 배경 이미지 내 3차원의 태양 이미지를 표시하고, 3차원의 배경 이미지의 색상을 조정하여, 맑은 날씨의 배경 컨텐츠(220)를 표시할 수 있다. 이처럼, 프로세서(120)는, “객체 키워드”, “배경 키워드” 및 “감정 키워드”를 바탕으로 메타버스 가상 공간에 반영하는 컨텐츠를 생성할 수 있다.

한편, 상술한 본 개시의 실시 예는 사용자 위치에 대응하는 기간 동안 획득된 복수의 텍스트(50)를 기초로, 메타버스의 가상 공간(200)에 반영할 배경을 결정하는데 이용되는 감정 키워드가 획득되는 것으로 설명되었으나, 이에 제한되는 것은 아니다. 본 개시의 실시 예에 따라서는, 사용자 위치에 대응하는 기간 동안 획득된 복수의 텍스트(50) 및 복수의 오디오(예를 들어, 녹음된 통화 내용, 녹화된 동영상 내 음성 정보)를 기초로 감정 키워드가 획득될 수도 있다. 이때, 프로세서(120)는 복수의 오디오에 대응하는 복수의 텍스트(50)를 획득할 수 있다. 즉, 프로세서(120)는 각각의 오디오에 대한 음성 인식을 수행하여, 각각의 오디오에 대응하는 텍스트(50)를 획득할 수 있다. 그리고, 프로세서(120)는, 획득된 텍스트(50)를 제3 신경망 모델(40)에 입력하여 감정 키워드를 획득할 수도 있다.

한편, 본 개시의 일 실시 예에 따른 전자 장치(100)는, 디스플레이와 통신 인터페이스를 더 포함할 수 있다. 이때, 본 개시의 일 실시 예에 따라, 프로세서(120)는, 객체 컨텐츠(210)를 외부 서버에 전송하고, 서버로부터, 객체 컨텐츠(210)를 포함하는 가상 공간 영상을 수신하고, 수신한 가상 공간 영상이 표시하도록 디스플레이를 제어할 수 있다.

본 개시의 일 실시 예에 따라, 프로세서(120)는 생성된 객체 컨텐츠(210)를 외부 서버에 전송할 수 있다. 구체적으로, 프로세서(120)는 객체 키워드를 바탕으로 생성된 3차원의 객체 이미지를 통신 인터페이스를 통해 외부 서버에 전송할 수 있다. 이때, 사용자 위치 또는 배경 키워드를 바탕으로 생성된 3차원의 배경 이미지 또한 통신 인터페이스를 통해 서버에 전송할 수 있다.

그리고, 외부 서버는 3차원의 메타버스 가상 공간(200) 내 사용자 위치에 대응하는 위치에 전자 장치(100)로부터 수신한 객체 컨텐츠(210)와 배경 컨텐츠를 표시할 수 있다. 구체적으로, 외부 서버는 가상 공간(200)을 사용자의 위치에 따라 복수의 영역으로 구분할 수 있다. 그리고, 외부 서버는 각각의 사용자의 위치에 대응하는 영역에 수신한 사용자의 위치에 대응하는 객체 컨텐츠 및 배경 컨텐츠를 표시할 수 있다.

한편, 외부 서버는, 전자 장치(100)를 포함한 복수의 전자 장치(100)로부터 각각 획득한 객체 컨텐츠(210) 및 배경 컨텐츠를 수신하고, 수신한 객체 컨텐츠(210) 및 배경 컨텐츠를 바탕으로 각각의 전자 장치(100)에 대응하는 메타 버스의 가상 환경을 구현하는 장치일 수 있다.

이때, 외부 서버는 외부 서버와 통신하는 복수의 전자 장치(100)에 각각에 대응하는 3차원의 메타버스의 가상 공간(200)을 구분하여 생성할 수도 있다. 그리고, 각각의 전자 장치(100)에 대응하는 3차원의 메타버스의 가상 공간(200) 내 각각의 전자 장치(100)로부터 수신한 객체 컨텐츠(210)를 표시할 수 있다. 이때, 외부 서버는 클라우드 서버(Cloud Server) 등으로 구현될 수 있다.

구체적으로, 전자 장치(100)로부터 객체 컨텐츠(210)를 수신한 외부 서버는, 수신한 객체 컨텐츠(210)를 바탕으로 메타버스의 가상 공간(200)을 생성할 수 있다. 메타버스의 가상 공간(200)은 복수의 사용자가 각각의 전자 장치(100)를 통해 접속하거나 입장할 수 있는 3차원 가상 공간일 수 있다. 이때, 외부 서버는 전자 장치(100)에 대응하는 위치 및 공간에 수신한 객체 컨텐츠(210)를 표시할 수 있다.

즉, 외부 서버는 메타 버스의 3차원 가상 공간 내에서 전자 장치(100)에 할당된 위치 및 공간에 수신한 객체 컨텐츠(210)에 해당하는 3차원의 객체 이미지를 표시할 수 있다. 이때, 외부 서버가 배경 컨텐츠(220)를 수신한 경우, 수신한 배경 컨텐츠(220)를 3차원 가상 공간 내에서 전자 장치(100)에 할당된 위치 및 공간에 표시할 수도 있다. 즉, 외부 서버는, 3차원 가상 공간 내에서 전자 장치(100)에 할당된 위치 및 공간 3차원의 배경 이미지를 표시하고, 표시된 3차원의 배경 이미지 상에 3차원의 객체 이미지를 표시할 수 있다.

한편, 프로세서(120)는 통신 인터페이스를 통해 외부 서버로부터 객체 컨텐츠(210)를 포함하는 가상 공간 영상을 수신할 수 있다. 그리고, 프로세서(120)는 수신한 가상 공간 영상이 표시하도록 디스플레이를 제어할 수 있다.

구체적으로, 도 11을 참조하면, 프로세서(120)는 감정 키워드 및 배경 키워드를 바탕으로 생성된 3차원의 캠핑 이미지와 객체 키워드를 바탕으로 생성된 3차원의 객체 이미지(예를 들어, 3차원의 커피 이미지 및 3차원의 강아지 이미지)로 구현된 가상 공간 영상을 외부 서버로부터 수신할 수 있다. 그리고, 프로세서(120)는 수신된 가상 공간 영상을 디스플레이에 표시할 수 있다. 이때, 프로세서(120)가 수신한 가상 공간 영상은, 메타버스의 3차원 공간 내 특정 시점에서 획득되는 배경 컨텐츠(220) 및 객체 컨텐츠(210)에 대한 영상일 수 있다.

보다 구체적으로, 프로세서(120)가 수신한 가상 공간 영상은, 가상 공간 내 반영된 3차원의 객체 컨텐츠(210)에 대응하는 2차원의 객체 컨텐츠(210'), 가상 공간 내 반영된 3차원의 배경 컨텐츠(220)에 대응하는 2차원의 배경 컨텐츠(220'), 및 가상 공간 내 반영된 3차원의 사용자 컨텐츠(220)에 대응하는 2차원의 사용자 컨텐츠(201')를 포함할 수 있다. 이때, 2차원의 객체 컨텐츠(210')는 가상 공간 내 반영된 3차원의 객체 컨텐츠(210)에 대하여 특정 시점(Viewpoint)에서 획득될 수 있는 2차원의 이미지일 수 있다. 이와 마찬가지로 2차원의 배경 컨텐츠(220') 및 2차원의 사용자 컨텐츠(201') 또한 각각의 가상 공간 내 반영된 3차원의 컨텐츠를 특정 시점에서 바라봤을 때 획득될 수 있는 이미지일 수 있다.

도 11을 참조하면, 전자 장치(100)는 3차원의 가상 공간 내 반영된 사용자 컨텐츠(201), 객체 컨텐츠(210) 및 배경 컨텐츠(220)에 대하여 y축 방향에서 획득되는 2차원의 이미지(201', 210' 및 220')를 수신한 후 수신된 2차원의 이미지(201', 210' 및 220')를 디스플레이 상에 표시할 수 있다.

한편, 본 개시의 실시 예에 따라 전자 장치(100)에 포함된 디스플레이와 통신 인터페이스에 대해서는 도 13을 바탕으로 보다 상세히 설명하도록 한다.

한편, 본 개시의 실시 예에 따라서는, 전자 장치(100)가 생성된 객체 컨텐츠와 배경 컨텐츠를 바탕으로 3차원의 메타 버스의 가상 공간을 구현할 수도 있다. 즉, 전자 장치(100)는 각각의 사용자 위치에 대응하는 객체 컨텐츠(3차원의 객체 이미지) 및 배경 컨텐츠(3차원의 배경 이미지)를 바탕으로, 각각의 사용자 위치에 대응하는 가상 공간(200)을 생성할 수도 있다.

한편, 본 개시의 일 실시 예에 따라, 프로세서(120)는, 가상 공간 영상 내 객체 컨텐츠(210)에 대응하는 위치에, 객체 컨텐츠(210)에 대응하는 적어도 하나의 이미지를 표시하기 위한 UI를 표시하도록, 상기 디스플레이를 제어할 수 있다.

구체적으로, 프로세서(120)는 외부 서버로부터 수신한 가상 공간 영상 내 객체 이미지 상에 적어도 하나의 이미지를 표시하기 위한 UI를 표시하도록 디스플레이를 제어할 수 있다.

이때, UI를 통해 표시되는 적어도 하나의 이미지는, 객체 이미지에 대응하는 객체 키워드를 획득한 이미지를 포함할 수 있다. 예를 들어, 도 12를 참조하면, 프로세서(120)는 디스플레이에 표시되는 객체 컨텐츠(210)에 해당하는 “커피” 이미지 및 “강아지” 이미지 상에 UI(61, 62)를 표시할 수 있다. 이때, 사용자의 터치 입력을 통해 “강아지” 이미지 상에 표시된 UI(61, 62)가 선택된 것으로 식별되거나, UI(61, 62)를 통해 사용자의 터치 입력을 감지되면, 프로세서(120)는 “강아지” 이미지를 생성하는데 이용된 적어도 하나의 이미지를 디스플레이 상에 표시할 수 있다.

구체적으로, 프로세서(120)는 제1 신경망 모델(20)에 입력하였을 때, 객체 키워드로 “강아지”가 획득된 적어도 하나의 이미지를 표시할 수 있다. 이를 통해, 사용자는, 메타버스의 가상 공간(200) 내에서 각각의 객체와 관련된 이미지(10)를 제공받을 수 있다.

도 13에 따르면, 본 개시의 일 실시 예에 따른 전자 장치(100)는, 메모리(110), 카메라(130), 디스플레이(140), 사용자 인터페이스(150), 스피커(160), 마이크(170), 통신 인터페이스(180) 및 프로세서(120)를 포함한다. 도 13에 도시된 구성 중 도 2에 도시된 구성과 중복되는 구성에 대해서는 자세한 설명을 생략하도록 한다.

카메라(130)는 이미지를 획득할 수 있다. 구체적으로, 카메라는 특정한 시점(Point of View; PoV)에서 화각(Field of View; FoV) 내에 존재하는 객체(즉, 피사체)를 촬영함으로써 객체를 포함하는 이미지를 획득할 수 있다. 프로세서(120)는 카메라를 통해 획득된 후 메모리(110)에 저장된 복수의 이미지(10)를 사용자 위치에 따라 분류하고, 사용자 위치에 대응하는 복수의 이미지(10)를 바탕으로 객체 컨텐츠(210)를 생성할 수 있다.

디스플레이(140)는 다양한 정보를 표시할 수 있다. 상술한 예를 들어 다시 설명하면, 프로세서(120)는 디스플레이를 통해 객체 컨텐츠(210) 및 배경 컨텐츠(220)를 표시할 수 있다. 구체적으로, 프로세서(120)는, 생성된 3차원의 객체 이미지와 3차원의 배경 이미지를 표시할 수 있다. 이때, 프로세서(120)는 3차원의 배경 이미지 상에 3차원의 객체 이미지를 함께 표시할 수 있다. 이를 위해, 디스플레이(140)는 LCD, LED 또는 OLED 등과 같은 다양한 유형의 디스플레이로 구현될 수 있다.

사용자 인터페이스(160)는 전자 장치(100)가 사용자와 인터렉션(Interaction)을 수행하기 위한 구성이다. 예를 들어 사용자 인터페이스(150)는 터치 센서, 모션 센서, 버튼, 조그(Jog) 다이얼, 스위치, 마이크 또는 스피커 중 적어도 하나를 포함할 수 있으나 이에 한정되는 것은 아니다. 예를 들어, 프로세서(120)는 사용자 인터페이스(160)를 통해 입력된 사용자 입력에 따라, 3차원의 메타버스의 가상 공간(200) 내 표시되는 객체 컨텐츠(210)를 이동시키거나, 움직임을 제어할 수 있다.

마이크(160)는 음성을 획득하여 전기 신호로 변환하는 모듈을 의미할 수 있으며, 콘덴서 마이크, 리본 마이크, 무빙코일 마이크, 압전소자 마이크, 카본 마이크, MEMS(Micro Electro Mechanical System) 마이크일 수 있다. 또한, 무지향성, 양지향성, 단일지향성, 서브 카디오이드(Sub Cardioid), 슈퍼 카디오이드(Super Cardioid), 하이퍼 카디오이드(Hyper Cardioid)의 방식으로 구현될 수 있다.

프로세서(120)는 마이크(160)를 통해 획득된 음성에 기초하여 감정 키워드를 획득할 수도 있다. 구체적으로, 마이크(160)를 통해 획득된 음성을 음성에 대응하는 텍스트(50)로 변환하고, 변환된 텍스트(50)를 제3 신경망 모델(40)에 입력하여 음성에 대응하는 감정 키워드를 획득할 수 있다. 이때, 획득된 감정 키워드를 바탕으로, 프로세서(120)는 배경 컨텐츠(220)를 생성할 수 있다.

스피커(170)는, 고음역대 소리 재생을 위한 트위터, 중음역대 소리 재생을 위한 미드레인지, 저음역대 소리 재생을 위한 우퍼, 극저음역대 소리 재생을 위한 서브우퍼, 공진을 제어하기 위한 인클로저, 스피커에 입력되는 전기 신호 주파수를 대역 별로 나누는 크로스오버 네트워크 등으로 이루어질 수 있다.

스피커(170)는, 음향 신호를 전자 장치(100)의 외부로 출력할 수 있다. 스피커(170)는 멀티미디어 재생, 녹음 재생, 각종 알림음, 음성 메시지 등을 출력할 수 있다. 전자 장치(100)는 스피커(170)와 같은 오디오 출력 장치를 포함할 수 있으나, 오디오 출력 단자와 같은 출력 장치를 포함할 수 있다. 특히, 스피커(170)는 획득한 정보, 획득한 정보에 기초하여 가공·생산한 정보, 사용자 음성에 대한 응답 결과 또는 동작 결과 등을 음성 형태로 제공할 수 있다.

통신 인터페이스(180)는 통신 인터페이스는 다양한 외부 장치(예를 들어, 외부 서버)와 통신을 수행하여 각종 정보를 송, 수신할 수 있다. 특히, 프로세서(120)는 통신 인터페이스를 통해, 생성된 객체 컨텐츠(210) 및 배경 컨텐츠(220)를 외부 서버로 송신할 수 있다. 이때, 객체 컨텐츠(210) 및 가상 컨텐츠를 수신한 외부 서버는, 수신된 객체 컨텐츠(210) 및 가상 컨텐츠를 바탕으로, 메타버스의 가상 공간(200) 영상을 생성할 수 있다. 그리고, 프로세서(120)는 통신 인터페이스를 통해 외부 서버로부터 생성된 메타버스의 가상 공간(200) 영상을 수신할 수 있다.

이를 위해, 통신 인터페이스는 근거리 무선 통신 모듈(미도시) 및 무선 랜 통신 모듈(미도시) 중 적어도 하나의 통신 모듈을 포함할 수 있다. 근거리 무선통신 모듈(미도시)은 근거리에 위치한 외부 기기와 무선으로 데이터 통신을 수행하는 통신 모듈로써, 예를 들어, 블루투스(Bluetooth) 모듈, 지그비(ZigBee) 모듈, NFC(Near Field Communication) 모듈, 적외선 통신 모듈 등이 될 수 있다. 또한, 무선 랜 통신 모듈(미도시)은 와이파이(WiFi), IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 외부 서버 또는 외부 기기와 통신을 수행하는 모듈이다.

한편, 상술한 본 개시의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치(100)에 설치 가능한 어플리케이션 형태로 구현될 수 있다. 또는 상술한 본 개시의 다양한 실시 예들에 따른 방법들은 딥 러닝 기반의 인공 신경망(또는 심층 인공 신경망) 즉, 학습 네트워크 모델을 이용하여 수행될 수 있다. 또한, 상술한 본 개시의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치(100)에 대한 소프트웨어 업그레이드, 또는 하드웨어 업그레이드 만으로도 구현될 수 있다. 또한, 상술한 본 개시의 다양한 실시 예들은 전자 장치(100)에 구비된 임베디드 서버, 또는 전자 장치(100)의 외부 서버를 통해 수행되는 것도 가능하다.

도 14를 참조하면, 먼저 프로세서(120)는 복수의 이미지(10) 중 사용자 위치에 대응되는 복수의 이미지(10)를 선별할 수 있다(S1410).

구체적으로, 프로세서(120)는 메모리(110)에 저장된 복수의 이미지(10)를 각각의 사용자 위치에 따라 분류할 수 있다. 이때, 사용자 위치에 대응되는 복수의 이미지(10)란, 사용자가 특정 위치에 있는 동안 획득한 후 메모리(110)에 저장된 이미지일 수 있다. 구체적으로, 사용자가 특정 위치에서 카메라를 통해 획득한 후 메모리(110)에 저장된 이미지이거나, 또는 사용자가 특정 위치에 있는 동안, 통신 인터페이스를 통해 타 전자 장치(100)로부터 수신한 후 메모리(110)에 저장된 이미지일 수 있다.

한편, 프로세서(120)는 사용자의 위치가 변경된 것으로 감지되면, 메모리(110)에 저장된 복수의 이미지(10) 중 변경 전 사용자의 위치에 대응하는 복수의 이미지(10)를 선별할 수 있다. 이때, 프로세선(120)는 선별된 복수의 이미지(10)를 기초로 메타버스의 가상 공간(200)에 반영할 컨텐츠(예를 들어, 객체 컨텐츠)를 생성할 수 있다.

그리고, 프로세서(120)는 사용자 위치에 대응하는 복수의 이미지(10)를 선별한 후, 이미지 내에 포함된 객체를 검출하는 신경망 모델(20)(예를 들어, 제1 신경망 모델(20))을 이용하여, 선별된 복수의 이미지(10) 각각에 포함된 객체 키워드를 획득할 수 있다(S1420). 객체 키워드는, 검출된 객체의 유형, 종류 등을 나타내는 키워드일 수 있다.

그리고, 프로세서(120)는 선별된 복수의 이미지(10) 각각을 통해 획득된 객체 키워드의 빈도에 기초하여 메타버스의 가상 공간(200)에 반영할 객체를 결정할 수 있다(S1430). 이때, 객체 키워드의 빈도는, 사용자 위치에 대응하여 선별된 복수의 이미지(10)를 순차적으로 제1 신경망 모델(20)에 입력하였을 때, 프로세서(120)가 획득한 객체 키워드의 누적 개수일 수 있다.

이때, 본 개시의 일 실시 예에 따라, 프로세서(120)는 획득된 객체 키워드 각각의 빈도를 식별하고, 복수의 객체 키워드 중 식별된 빈도가 기 설정된 값 이상인 복수의 제1 객체 키워드를 선별하고, 선별된 복수의 제1 객체 키워드에 기초하여, 메타버스의 가상 공간(200)에 반영할 객체를 결정할 수 있다.

이때, 본 개시의 일 실시 예에 따라, 프로세서(120)는 사용자 위치와 상기 복수의 제1 객체 키워드 간의 의미 유사도를 식별하고, 복수의 제1 객체 키워드 중, 상기 식별된 의미 유사도가 기 설정된 값 이상인 의미 유사도를 갖는 제2 객체 키워드를 선별하고, 선별된 제2 객체 키워드에 기초하여, 메타버스의 가상 공간(200)에 반영할 객체를 결정할 수도 있다. 즉, 프로세서(120)는 복수의 제1 객체 키워드 중에서도, 사용자 위치와 관련성이 높은 제1 객체 키워드를 제2 객체 키워드로 선별하고, 선별된 제2 객체 키워드에 대응하는 객체를 메타버스의 가상 공간(200)에 반영할 객체로 결정할 수 있다.

한편, 본 개시의 일 실시 예에 따라, 프로세서(120)는 메타버스의 가상 공간(200)에 반영할 객체를 결정한 후 결정된 객체에 대응하는 객체 컨텐츠(210)를 생성할 수 있다. 객체 컨텐츠(210)는 결정된 객체의 3차원 이미지일 수 있다. 따라서, 프로세서(120)는 결정된 객체의 3차원 이미지를 렌더링할 수 있다. 다만, 이에 제한되는 것은 아니면, 메모리(110)에는 각각의 객체 키워드에 대응하는 3차원 이미지가 저장될 수 있다. 이에 따라, 프로세서(120)는 결정된 객체에 관한 객체 키워드에 대응하는 3차원 이미지를 획득하여, 객체 컨텐츠(210)를 생성할 수도 있다.

한편, 본 개시의 일 실시 예에 따라, 프로세서(120)는 메타버스의 가상 공간(200)에 반영할 배경 컨텐츠(220)를 생성할 수도 있다.

이를 위해, 본 개시의 일 실시 예에 따라, 프로세서(120)는 사용자 위치에 대응하는 복수의 이미지(10)를 선별한 후, 사용자 위치가 기 설정된 위치인지 식별할 수 잇다. 이때, 사용자 위치가 기 설정된 위치가 아닌 것으로 식별되면, 프로세서(120)는 이미지 내 배경을 식별하는 신경망 모델(즉, 제2 신경망 모델(30))을 이용하여, 선별된 복수의 이미지(10) 각각의 배경 키워드를 획득할 수 있다.

그리고, 프로세서(120)는 선별된 복수의 이미지(10) 각각에 대응하는 배경 키워드의 빈도에 기초하여 메타버스의 가상 공간(200)에 반영할 배경을 결정할 수 있다. 구체적으로, 프로세서(120)는 빈도가 가장 큰 배경 키워드로 메타버스의 가상 공간(200)에 반영할 배경을 결정할 수 있다.

그리고, 프로세서(120)는 결정된 배경에 대응하는 배경 컨텐츠(220)를 생성할 수 있다. 즉, 프로세서(120)는 결정된 배경에 대응하는 3차원의 배경 이미지를 렌더링할 수 있다. 뿐만 아니라, 상술한 객체 컨텐츠(210)와 마찬가지로, 메모리(110)에는 각각의 배경 키워드에 대응하는 3차원 배경 이미지가 저장될 수 있으며, 이때 프로세서(120)는 배경 키워드에 대응하는 3차원 배경 이미지를 메모리(110)로부터 획득할 수도 있다.

한편, 프로세서(120)는 사용자 위치기 기 설정된 위치가 아닌 것으로 식별되면, 배경 키워드와 복수의 제1 객체 키워드 간의 의미 유사도를 식별할 수 있다. 그리고, 프로세서(120)는 식별된 의미 유사도가 기 설정된 값 이상인

이때, 본 개시의 일 실시 예에 따라, 프로세서(120)는 사용자 위치에 대응하는 기간 동안 획득된 적어도 하나의 텍스트(50)를 식별하고, 텍스트(50)에 대응하는 감정을 식별하는 신경망 모델을 이용하여, 적어도 하나의 텍스트(50)에 대응하는 감정 키워드를 획득하고, 획득된 감정 키워드 및 상기 사용자 위치에 기초하여 상기 메타버스의 가상 공간(200)에 반영할 배경을 결정할 수도 있다. 구체적으로, 프로세서(120)는 획득된 감정 키워드를 기초로, 배경 컨텐츠(220)의 색상, 날씨, 시간 등을 설정할 수 있다.

한편, 상술한 설명에서, 단계 S1610 내지 S1640은 본 발명의 실시 예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.

도 15는 본 개시의 일 실시 예에 따른 전자 장치가 사용자 단말 장치로 동작하는 방법을 설명하기 위한 도면이다. 도 14와 중복되는 동작에 대해서는 자세한 설명을 생략하도록 한다.

본 개시의 일 실시 예에 따라, 전자 장치(100)는 사용자 단말 장치일 수 있다. 이때, 사용자 단말 장치는, TV, 스마트 폰, 태블릿 PC, 데스크 탑 PC 또는 노트북 PC 중 적어도 하나를 포함할 수 있다.

전자 장치(100)의 프로세서(120)는 기 설정된 위치 및 배경 키워드를 기초로 배경 컨텐츠(220)를 생성할 수 있다(S1550). 구체적으로, 메모리(110)에는 각각의 기 설정되 위치에 대응하는 3차원의 배경 이미지는 사전에 생성되어 저장될 수 있다. 또한 메모리(110)에는 각각의 배경 키워드에 대응하는 3차원의 배경 이미지가 사전에 생성되어 저장될 수 있다. 다만, 사전에 생성된 각각의 기 설정된 위치에 대응하는 3차원의 배경 이미지 또는 사전에 생성된 각각의 배경 키워드에 대응하는 3차원의 배경 이미지는 외부 서버로부터 획득되어 메모리(110)에 저장될 수 있다. 그러나 이에 제한되는 것은 아니다.

한편, 프로세서(120)는 사용자 위치가 기 설정된 위치인 것으로 식별되면, 기 설정된 위치에 대응하는 3차원의 배경 이미지를 메모리(110)로부터 획득할 수 있다. 또한, 프로세서(120)는 사용자 위치가 기 설정된 위치가 아닌 것으로 식별되면, 복수의 이미지(10)에 대하여 획득된 배경 키워드에 대응하는 3차원의 배경 이미지를 메모리(110)로부터 획득할 수 있다.

그리고, 프로세서(120)는 객체 키워드를 기초로, 3차원의 객체 이미지를 생성할 수 있다. 3차원의 배경 이미지와 마찬가지로 3차원의 객체 이미지 또한 각각의 객체 키워드에 대응하여 사전에 생성되어 메모리(110)에 저장될 수 있다. 이와 관련해서는 상술한 배경 컨텐츠(220)에 과한 설명이 동일하게 적용될 수 있으므로, 상세한 설명은 생략하도록 한다.

프로세서(120)는 생성된 배경 컨텐츠(220)와 객체 컨텐츠(210)를 외부 서버(300)로 송신할 수 있다(S1570). 그리고, 외부 서버(300)는 수신한 배경 컨텐츠(220)와 객체 컨텐츠(210)를 메타버스 가상 공간에 반영하여, 사용자에 맞춤형 메타버스 가상 공간을 구현할 수 있다. 그리고, 외부 서버(300)는 생성된 메타버스 가상 공간 이미지를 전자 장치(100)로 송신할 수 있다.

그리고, 전자 장치(100)의 프로세서(120)는 수신한 메타버스 가상 공간 이미지를 디스플레이에 표시할 수 있다.

도 16은 본 개시의 일 실시 예에 따른 전자 장치가 서버로 동작하는 방법을 설명하기 위한 도면이다. 도 14 및 15와 중복되는 동작에 대해서는 자세한 설명을 생략하도록 한다.

본 개시의 일 실시 예에 따라, 전자 장치(100)는 서버일 수 있다. 이때, 서버는 클라우드 서버 등을 포함할 수 있다.

전자 장치(100)는 사용자 단말 장치(400)로부터 복수의 이미지(10) 및 사용자 위치 정보를 수신할 수 있다(S1620). 구체적으로, 사용자 단말 장치(400)는 사용자 위치에 대응하는 복수의 이미지(10)와 함께, 사용자 위치 정보(예를 들어, GPS 좌표 등)을 전자 장치(100)로 송신할 수 있다.

그리고, 전자 장치(100)는 수신한 복수의 이미지(10) 및 사용자 위치 정보를 바탕으로, 메타버스 가상 공간에 반영할 객체 컨텐츠(210) 및 배경 컨텐츠(220)를 생성할 수 있다. 그리고, 전자 장치(100)는 생성된 객체 컨텐츠(210) 및 배경 컨텐츠(220)를 메타버스의 가상 공간(200)에 반영하여, 사용자(즉, 사용자 단말 장치(400)의 사용자) 맞춤형 메타버스의 가상 공간(200)을 구현할 수 있다.

한편, 본 개시의 일시 예에 따르면, 이상에서 설명된 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media)에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 디스플레이 장치(예: 디스플레이 장치(A))를 포함할 수 있다. 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 프로세서의 제어 하에 다른 구성요소들을 이용하여 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.

또한, 일 실시 예에 따르면, 이상에서 설명된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

또한, 상술한 다양한 실시 예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시 예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시 예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims

전자 장치에 있어서,

복수의 이미지를 저장하는 메모리; 및

상기 복수의 이미지를 이용하여 메타버스의 가상 공간에 표시될 컨텐츠를 생성하는 프로세서;를 포함하고,

상기 프로세서는,

상기 복수의 이미지 중 사용자 위치에 대응되는 복수의 이미지를 선별하고, 상기 선별된 복수의 이미지 각각에 포함된 객체 키워드를 획득하고, 상기 선별된 복수의 이미지 각각을 통해 획득된 객체 키워드의 빈도에 기초하여 상기 메타버스의 가상 공간에 반영할 객체를 결정하고, 상기 결정된 객체에 대응하는 객체 컨텐츠를 생성하는, 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 획득된 객체 키워드 각각의 빈도를 식별하고, 상기 복수의 객체 키워드 중 상기 식별된 빈도가 기 설정된 값 이상인 복수의 제1 객체 키워드를 선별하고, 상기 선별된 복수의 제1 객체 키워드에 기초하여, 상기 메타버스의 가상 공간에 반영할 객체를 결정하는, 전자 장치.
제2항에 있어서,

상기 프로세서는,

상기 사용자 위치와 상기 복수의 제1 객체 키워드 간의 의미 유사도를 식별하고,

상기 복수의 제1 객체 키워드 중, 상기 식별된 의미 유사도가 기 설정된 값 이상인 의미 유사도를 갖는 제2 객체 키워드를 선별하고, 상기 선별된 제2 객체 키워드에 기초하여, 상기 메타버스의 가상 공간에 반영할 객체를 결정하는, 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 각각의 이미지에 대응하는 객체 키워드의 개수를 식별하고, 상기 식별된 객체 키워드의 개수에 기초하여, 상기 객체 키워드의 빈도를 식별하고, 하나의 이미지에 대응하는 복수의 객체 키워드에 동일한 객체 키워드가 복수 개 포함된 경우, 상기 하나의 이미지에 대해서는 상기 동일한 객체 키워드의 개수를 한 개로 식별하는, 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 사용자 위치가 기 설정된 위치인지 식별하고, 상기 사용자 위치가 기 설정된 위치가 아닌 것으로 식별되면, 상기 선별된 복수의 이미지 각각의 배경 키워드를 획득하고, 상기 선별된 복수의 이미지 각각에 대응하는 배경 키워드의 빈도에 기초하여 상기 메타버스의 가상 공간에 반영할 배경을 결정하고, 상기 결정된 배경에 대응하는 배경 컨텐츠 및 상기 결정된 객체에 대응하는 객체 컨텐츠를 생성하는, 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 사용자 위치에 대응하는 기간 동안 획득된 복수의 텍스트를 식별하고, 상기 식별된 복수의 텍스트에 대응하는 복수의 감정 키워드를 획득하고, 상기 획득된 감정 키워드 및 상기 사용자 위치에 기초하여 상기 메타버스의 가상 공간에 반영할 배경을 결정하는, 전자 장치.
제1항에 있어서,

상기 전자 장치는,

디스플레이를 더 포함하고,

상기 프로세서는,

상기 객체 컨텐츠를 서버에 전송하고, 상기 서버로부터, 상기 객체 컨텐츠를 포함하는 가상 공간 영상을 수신하고, 상기 수신한 가상 공간 영상이 표시하도록 상기 디스플레이를 제어하는, 전자 장치.
제7항에 있어서,

상기 프로세서는,

상기 가상 공간 영상 내 상기 객체 컨텐츠에 대응하는 위치에, 상기 객체 컨텐츠에 대응하는 적어도 하나의 이미지를 표시하기 위한 UI를 표시하도록, 상기 디스플레이를 제어하는, 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 복수의 이미지 중 상기 사용자 위치에 대응하는 복수의 이미지의 개수가 기 설정된 개수 이상인지 식별하고, 상기 사용자 위치에 대응하는 복수의 이미지의 개수가 기 설정된 개수 이상이면, 상기 선별된 복수의 이미지 각각에 포함된 객체 키워드를 획득하는, 전자 장치.
제1항에 있어서,

상기 프로세서는, 상기 사용자의 위치를 실시간으로 감지하고, 상기 사용자의 위치가 제1 위치에서 제2 위치로 변경된 것으로 감지되면, 상기 복수의 이미지 중 상기 제1 위치에 대응하는 복수의 이미지를 선별하는, 전자 장치.
전자 장치를 제어하는 방법에 있어서,

복수의 이미지 중 사용자 위치에 대응되는 복수의 이미지를 선별하는 단계;

상기 선별된 복수의 이미지 각각에 포함된 객체 키워드를 획득하는 단계;

선별된 복수의 이미지 각각을 통해 획득된 객체 키워드의 빈도에 기초하여 메타버스의 가상 공간에 반영할 객체를 결정하는 단계; 및

결정된 객체에 대응하는 객체 컨텐츠를 생성하는 단계를 포함하는, 방법.
제11항에 있어서,

상기 결정하는 단계는,

상기 획득된 객체 키워드 각각의 빈도를 식별하고, 상기 복수의 객체 키워드 중 상기 식별된 빈도가 기 설정된 값 이상인 복수의 제1 객체 키워드를 선별하는 단계; 및

상기 선별된 복수의 제1 객체 키워드에 기초하여, 상기 메타버스의 가상 공간에 반영할 객체를 결정하는 단계를 포함하는, 방법.
제12항에 있어서,

상기 결정하는 단계는,

상기 사용자 위치와 상기 복수의 제1 객체 키워드 간의 의미 유사도를 식별하는 단계;

상기 복수의 제1 객체 키워드 중, 상기 식별된 의미 유사도가 기 설정된 값 이상인 의미 유사도를 갖는 제2 객체 키워드를 선별하는 단계; 및

상기 선별된 제2 객체 키워드에 기초하여, 상기 메타버스의 가상 공간에 반영할 객체를 결정하는 단계를 포함하는, 방법.
제11항에 있어서,

상기 결정하는 단계는,

상기 각각의 이미지에 대응하는 객체 키워드의 개수를 식별하고, 상기 식별된 객체 키워드의 개수에 기초하여, 상기 객체 키워드의 빈도를 식별하고, 하나의 이미지에 대응하는 복수의 객체 키워드에 동일한 객체 키워드가 복수 개 포함된 경우, 상기 하나의 이미지에 대해서는 상기 동일한 객체 키워드의 개수를 한 개로 식별하는, 방법.
전자 장치의 프로세서에 의해 실행되는 경우

상기 전자 장치가 동작을 수행하도록 하는 컴퓨터 명령을 저장하는 비일시적 컴퓨터 판독가능 기록매체에 있어서,

상기 동작은,

복수의 이미지 중 사용자 위치에 대응되는 복수의 이미지를 선별하는 단계;

상기 선별된 복수의 이미지 각각에 포함된 객체 키워드를 획득하는 단계;

선별된 복수의 이미지 각각을 통해 획득된 객체 키워드의 빈도에 기초하여 메타버스의 가상 공간에 반영할 객체를 결정하는 단계; 및

결정된 객체에 대응하는 객체 컨텐츠를 생성하는 단계;를 포함하는, 컴퓨터 판독가능 기록매체.