WO2024039111A1 - 사용자 맞춤형 메타버스 컨텐츠를 제공하는 전자 장치 및 그 제어 방법 - Google Patents

사용자 맞춤형 메타버스 컨텐츠를 제공하는 전자 장치 및 그 제어 방법 Download PDF

Info

Publication number
WO2024039111A1
WO2024039111A1 PCT/KR2023/011275 KR2023011275W WO2024039111A1 WO 2024039111 A1 WO2024039111 A1 WO 2024039111A1 KR 2023011275 W KR2023011275 W KR 2023011275W WO 2024039111 A1 WO2024039111 A1 WO 2024039111A1
Authority
WO
WIPO (PCT)
Prior art keywords
processor
images
keywords
location
keyword
Prior art date
Application number
PCT/KR2023/011275
Other languages
English (en)
French (fr)
Inventor
김정민
박대희
정진기
최새미
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of WO2024039111A1 publication Critical patent/WO2024039111A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/003Navigation within 3D models or images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information

Definitions

  • This disclosure relates to an electronic device that provides metaverse content and a method of controlling the same, and more specifically, to an electronic device that generates content to be displayed in the virtual space of the metaverse tailored to the user and a method of controlling the same.
  • the present disclosure is in response to the above-described need, and the purpose of the present disclosure is to provide an electronic device that provides user-customized metaverse content and a method of controlling the same.
  • An electronic device for achieving the above object includes a memory that stores a plurality of images and a processor that generates content to be displayed in the virtual space of the metaverse using the plurality of images. And, the processor selects a plurality of images corresponding to the user location among the plurality of images, obtains an object keyword included in each of the selected plurality of images, and obtains an object keyword included in each of the selected plurality of images. Based on the frequency of object keywords, an object to be reflected in the virtual space of the metaverse is determined, and object content corresponding to the determined object is created.
  • the processor identifies the frequency of each of the obtained object keywords, selects a plurality of first object keywords whose identified frequency is more than a preset value among the plurality of object keywords, and selects a plurality of first object keywords of the plurality of selected object keywords. Based on the object keyword, the object to be reflected in the virtual space of the metaverse can be determined.
  • the processor identifies semantic similarity between the user location and the plurality of first object keywords, and selects a second object among the plurality of first object keywords, the identified semantic similarity having a semantic similarity greater than or equal to a preset value.
  • a keyword may be selected, and an object to be reflected in the virtual space of the metaverse may be determined based on the selected second object keyword.
  • the processor identifies the number of object keywords corresponding to each image, identifies the frequency of the object keyword based on the number of identified object keywords, and selects a plurality of objects corresponding to one image.
  • the number of identical object keywords may be identified as one for the one image.
  • the processor identifies whether the user location is a preset location, and if the user location is identified as not a preset location, the processor obtains a background keyword for each of the selected plurality of images, and determines whether the user location is a preset location.
  • the background to be reflected in the virtual space of the metaverse can be determined based on the frequency of the background keywords corresponding to each, and background content corresponding to the determined background and object content corresponding to the determined object can be generated.
  • the meta You can decide on the background to be reflected in the virtual space of the bus.
  • the electronic device further includes a display, and the processor transmits the object content to a server, receives a virtual space image including the object content from the server, and the received virtual space image is
  • the display can be controlled to display.
  • the processor may control the display to display a UI for displaying at least one image corresponding to the object content at a location corresponding to the object content in the virtual space image.
  • the processor identifies whether the number of images corresponding to the user location among the plurality of images is more than a preset number, and if the number of images corresponding to the user location is more than the preset number, Object keywords included in each of a plurality of selected images can be obtained.
  • the processor detects the user's location in real time, and when it detects that the user's location has changed from the first location to the second location, the processor generates a plurality of images corresponding to the first location among the plurality of images. You can select.
  • the step of selecting a plurality of images corresponding to a user location among a plurality of images, each of the selected plurality of images Obtaining included object keywords, determining objects to be reflected in the virtual space of the metaverse based on the frequency of object keywords obtained through each of the selected plurality of images, and generating object content corresponding to the determined objects. May include steps.
  • the determining step includes identifying the frequency of each of the obtained object keywords, selecting a plurality of first object keywords whose identified frequency is more than a preset value among the plurality of object keywords, and the selected plurality of keywords. It may include determining an object to be reflected in the virtual space of the metaverse based on the first object keyword.
  • the determining step includes identifying a semantic similarity between the user location and the plurality of first object keywords, and among the plurality of first object keywords, the identified semantic similarity has a semantic similarity greater than a preset value. It may include selecting a second object keyword and determining an object to be reflected in the virtual space of the metaverse based on the selected second object keyword.
  • the determining step includes identifying the number of object keywords corresponding to each image, identifying the frequency of the object keyword based on the number of identified object keywords, and selecting a plurality of object keywords corresponding to one image. If the object keyword includes a plurality of identical object keywords, the number of identical object keywords may be identified as one for the one image.
  • identifying whether the user location is a preset location if the user location is identified as not a preset location, obtaining a background keyword for each of the plurality of selected images, and A step of determining a background to be reflected in the virtual space of the metaverse based on the frequency of a corresponding background keyword, wherein the generating step includes background content corresponding to the determined background and object content corresponding to the determined object. It may include the step of generating.
  • the method includes identifying at least one text obtained during a period corresponding to the user location, obtaining an emotion keyword corresponding to the identified at least one text, the obtained emotion keyword and the user It may further include determining a background to be reflected in the virtual space of the metaverse based on the location.
  • the method may further include transmitting the object content to a server, receiving a virtual space image including the object content from the server, and displaying the received virtual space image.
  • the method may further include displaying a UI for displaying at least one image corresponding to the object content at a location corresponding to the object content in the virtual space image.
  • the step of obtaining the object keyword includes identifying whether the number of the plurality of images selected is more than a preset number, and if the number of the plurality of images corresponding to the user location is more than the preset number, the selected number of images is more than the preset number. It may include obtaining an object keyword included in each of the plurality of images.
  • the selecting step involves detecting the user's location in real time, and when it is detected that the user's location has changed from the first location to the second location, a plurality of images corresponding to the first location among the plurality of images. Images can be selected.
  • FIG. 1 is a diagram for explaining a method of operating an electronic device according to an embodiment of the present disclosure.
  • FIG. 2 is a block diagram for explaining the configuration of an electronic device according to an embodiment of the present disclosure.
  • FIG. 3 is a diagram illustrating a method of selecting a plurality of images corresponding to a user location according to an embodiment of the present disclosure.
  • FIG. 4 is an example diagram showing a plurality of object keywords obtained with respect to a plurality of images corresponding to a user location using a first neural network model and the frequency of the plurality of object keywords obtained, according to an embodiment of the present disclosure.
  • Figure 5 is an example diagram illustrating selecting a first object keyword among a plurality of object keywords based on the frequency of the plurality of object keywords, according to an embodiment of the present disclosure.
  • FIG. 6 is an exemplary diagram illustrating a method of selecting a second object keyword from a plurality of first object keywords based on semantic similarity between an object keyword and a user location, according to an embodiment of the present disclosure.
  • FIG. 7 is an example diagram illustrating a method of identifying the frequency of each object keyword when a plurality of the same object keywords are included among a plurality of object keywords corresponding to one image, according to an embodiment of the present disclosure. .
  • FIG. 8 shows a method of generating background content by inputting a plurality of images corresponding to the user location into the second neural network model 30 when the user location is identified as not being a preset location, according to an embodiment of the present disclosure.
  • This is an example diagram showing.
  • Figure 9 is an example diagram illustrating generating background content based on the frequency of a plurality of background keywords, according to an embodiment of the present disclosure.
  • FIG. 10 is an example diagram illustrating obtaining a plurality of emotion keywords corresponding to a plurality of texts acquired during a period corresponding to the user location, based on the third neural network model 40, according to an embodiment of the present disclosure. .
  • Figure 11 is an example diagram illustrating generating background content based on the frequency of a plurality of emotional keywords, according to an embodiment of the present disclosure.
  • FIG. 12 is an example diagram illustrating a UI for displaying at least one image corresponding to object content, according to an embodiment of the present disclosure.
  • FIG. 13 is a detailed configuration diagram of an electronic device according to an embodiment of the present disclosure.
  • Figure 14 is a flowchart schematically showing a control method of an electronic device according to an embodiment of the present disclosure.
  • FIG. 15 is a diagram for explaining how an electronic device operates as a user terminal device according to an embodiment of the present disclosure.
  • FIG. 16 is a diagram illustrating a method in which an electronic device operates as a server according to an embodiment of the present disclosure.
  • expressions such as “have,” “may have,” “includes,” or “may include” refer to the presence of the corresponding feature (e.g., component such as numerical value, function, operation, or part). , and does not rule out the existence of additional features.
  • a or/and B should be understood as referring to either “A” or “B” or “A and B”.
  • expressions such as “first,” “second,” “first,” or “second,” can modify various components regardless of order and/or importance, and can refer to one component. It is only used to distinguish from other components and does not limit the components.
  • the term user may refer to a person using an electronic device or a device (eg, an artificial intelligence electronic device) using an electronic device.
  • a device eg, an artificial intelligence electronic device
  • FIG. 1 is a diagram for explaining a method of operating an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 of the present disclosure is a device that generates content to be displayed in the virtual space 200 of the metaverse and may include at least one of a TV, a smart phone, a tablet PC, a desktop PC, or a laptop PC. It is not limited to this. However, it is not limited to this, and the electronic device 100 may include various types of servers such as cloud servers and embedded servers.
  • the electronic device 100 provides content to be reflected in the virtual space 200 of the user-customized metaverse. More specifically, an object to be reflected in the virtual space 200 of the metaverse is created by utilizing a plurality of images 10 stored in the electronic device 100.
  • the plurality of images 10 stored in the electronic device 100 are acquired directly by the user or received and stored from another user (or another electronic device). Therefore, the plurality of images 10 stored in each electronic device 100 may be unique and different for each user of the electronic device 100. Therefore, the electronic device 100 according to an embodiment of the present disclosure generates content to be reflected in the virtual space 200 of the metaverse based on the plurality of images 10 stored in the electronic device 100, and through this Each user is provided with unique metaverse content.
  • the present disclosure provides a unique metaverse generated based on the images held by each user (1-1, 1-2, and 1-3) (more specifically, images stored in each user's electronic device). Because the virtual space 200 is provided, there is a variety of content or information that users can receive or obtain.
  • FIG. 2 is a block diagram for explaining the configuration of an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 includes a memory 110 and a processor 120.
  • the memory 110 may store data necessary for various embodiments of the present disclosure.
  • the memory 110 may be implemented as a memory embedded in the electronic device 100 or as a memory capable of communicating with (or detachable from) the electronic device 100, depending on the data storage purpose. For example, in the case of data for driving the electronic device 100, it is stored in a memory embedded in the electronic device 100, and in the case of data for the extended function of the electronic device 100, it is communicated with the electronic device 100. It can be stored in available memory.
  • volatile memory e.g., dynamic RAM (DRAM), static RAM (SRAM), or synchronous dynamic RAM (SDRAM), etc.
  • non-volatile memory Examples: one time programmable ROM (OTPROM), programmable ROM (PROM), erasable and programmable ROM (EPROM), electrically erasable and programmable ROM (EEPROM), mask ROM, flash ROM, flash memory (e.g. NAND flash or NOR flash, etc.) ), a hard drive, or a solid state drive (SSD).
  • OTPROM one time programmable ROM
  • PROM programmable ROM
  • EPROM erasable and programmable ROM
  • EEPROM electrically erasable and programmable ROM
  • mask ROM mask ROM
  • flash ROM e.g. NAND flash or NOR flash, etc.
  • hard drive e.g. NAND flash or NOR flash, etc.
  • SSD solid state drive
  • a memory card e.g., CF ( compact flash), SD (secure digital), Micro-SD (micro secure digital), Mini-SD (mini secure digital), xD (extreme digital), MMC (multi-media card), etc.
  • CF compact flash
  • SD secure digital
  • Micro-SD micro secure digital
  • Mini-SD mini secure digital
  • xD extreme digital
  • MMC multi-media card
  • a plurality of images 10 may be stored in the memory 110.
  • the plurality of images 10 include an image acquired through a camera included in the electronic device 100, an image acquired by capturing a web page based on a user command input through an input interface provided in the electronic device 100, Alternatively, it may include images acquired by receiving them from another electronic device through a communication interface. In this way, a plurality of images 10 acquired in various forms and through various paths may be stored in the memory 110.
  • a plurality of neural network models may be stored in the memory 110.
  • the memory 110 may store a neural network model 20 for detecting objects included in an image, a neural network model 30 for identifying the background in the image, and a neural network model 40 for identifying emotions corresponding to text. You can.
  • content information generated based on the plurality of neural network models described above may be stored in the memory 110.
  • the processor 120 generally controls the operation of the electronic device 100. Specifically, the processor 120 is connected to each component of the electronic device 100 and can generally control the operation of the electronic device 100. For example, the processor 120 may be connected to components such as the memory 110, a camera, a communication interface, etc. to control the operation of the electronic device 100.
  • the processor 120 may be implemented as a digital signal processor (DSP), a microprocessor, or a time controller (TCON).
  • DSP digital signal processor
  • MCU micro controller unit
  • MPU micro processing unit
  • AP application processor
  • CP communication processor
  • ARM processor ARM processor It may include one or more of the following, or may be defined by the corresponding term.
  • the processor 120 may be implemented as a System on Chip (SoC) with a built-in processing algorithm, a large scale integration (LSI), or an FPGA (FPGA). It can also be implemented in the form of a Field Programmable gate array.
  • SoC System on Chip
  • LSI large scale integration
  • FPGA field Programmable gate array
  • the processor 120 for executing a neural network model may be a general-purpose processor such as a CPU, an AP, a digital signal processor (DSP), a GPU, or a vision processing unit (VPU). It can be implemented through a combination of an artificial intelligence dedicated processor, such as a graphics processor 120 or NPU, and software.
  • a general-purpose processor such as a CPU, an AP, a digital signal processor (DSP), a GPU, or a vision processing unit (VPU).
  • DSP digital signal processor
  • GPU a graphics processing unit
  • VPU vision processing unit
  • the processor 120 may control input data to be processed according to predefined operation rules or artificial intelligence models stored in the memory 110.
  • the processor 120 is a dedicated processor (or an artificial intelligence dedicated processor), it may be designed with a hardware structure specialized for processing a specific artificial intelligence model.
  • hardware specialized for processing a specific artificial intelligence model can be designed as a hardware chip such as ASIC or FPGA.
  • the processor 120 is implemented as a dedicated processor, it may be implemented to include a memory for implementing an embodiment of the present disclosure, or may be implemented to include a memory processing function for using an external memory.
  • FIG. 3 is a diagram illustrating a method of selecting a plurality of images corresponding to a user location according to an embodiment of the present disclosure.
  • the processor 120 selects a plurality of images 10 corresponding to the user location among the plurality of images 10 stored in the memory 110.
  • the processor 120 may classify the plurality of images 10 stored in the memory 110 according to each user's location.
  • the plurality of images 10 corresponding to the user's location may be images acquired while the user is at a specific location and then stored in the memory 110. Specifically, it is an image acquired by a user through a camera at a specific location and stored in the memory 110, or an image received from another electronic device 100 through a communication interface while the user is at a specific location, and stored in the memory 110. It may be an image stored in .
  • the plurality of images 10 corresponding to the user's location may be photos, messengers, social network services (SNS), etc. acquired and stored through a camera while the user is located in Paris. It may include images acquired and saved through , images captured and saved on a web page, etc.
  • SNS social network services
  • the processor 120 may identify the user's location based on the GPS coordinates of the electronic device 100 obtained from the GPS sensor included in the electronic device 100. Accordingly, the processor 120 can identify that the user location has changed whenever the GPS coordinates of the electronic device 100 change. When it is identified that the user location has changed, the processor 120 may select a plurality of images 10 corresponding to the user location before the change from among the plurality of images 10 stored in the memory 110.
  • the processor 120 changes the user location from Paris (first location) to London (second location) based on the GPS coordinates of the electronic device 100 acquired through the GPS sensor of the electronic device 100. Assume that it has been identified that it has changed. At this time, the processor 120 classifies and identifies the plurality of images 10 stored before the user location is changed to London (second location) into a plurality of images 10 corresponding to Paris (first location), After the user's location is changed to London (second location), the plurality of images 10 stored in the memory 110 can be classified and identified as a plurality of images 10 corresponding to London (second location). In this way, whenever the user's location changes, the processor 120 can classify the plurality of images 10 stored in the memory 110 according to the user's location.
  • the processor 120 may identify the user location as the same even if the user location is identified as having changed within a preset radius centered on the changed user location. For example, after the user location is identified as having changed from the third location to the fourth location, even if the user location changes within a preset radius (e.g., 10 km) from the fourth location, the processor 120 determines the user location. can be identified as the fourth position.
  • a preset radius e.g. 10 km
  • the processor 120 may identify that the user's location has changed whenever the city (or city, county, etc.) to which the user's location belongs changes.
  • a plurality of images 10 may be stored in the memory 110 in the form of a data set according to the user's location. For example, referring to FIG. 3, a plurality of images 10 acquired while the user is located in Paris may be stored in the form of a data set. Additionally, a plurality of images 10 acquired while the user is located in London may be stored in the form of a data set. Alternatively, while the user is located at “177, OO, OO, OO,” the plurality of images 10 acquired may be stored in the form of a data set.
  • the processor 120 may classify the plurality of images 10 stored in the memory 110 according to the user's location.
  • the processor 120 may identify the time corresponding to each user location along with the image corresponding to each user location.
  • the time corresponding to the user location may be the period of time the user was at a specific location.
  • the processor 120 may identify the time corresponding to the user's location by identifying the time when the user's location changes, the period of time the user stayed at the changed location, and the time when the user's location changes again.
  • the time corresponding to the user's location can be identified based on metadata included in each image.
  • processor 120 based on metadata included in the first image acquired and stored in Paris and metadata included in the last image acquired and stored in Paris, the user The period in which it was in can be identified. At this time, according to FIG. 3, the processor 120 identified the period corresponding to Paris as “09:00 on June 5, 2022 to 17:13 on June 12, 2022.”
  • the processor 120 may obtain object content 210 to be reflected in the virtual space 200 of the metaverse based on a plurality of images 10 selected corresponding to the user location. Specifically, the processor 120 may obtain an object keyword from the plurality of images 10 and generate object content 210 corresponding to the obtained object keyword. Additionally, the processor 120 may display the generated object content 210 in the virtual space 200 of the metaverse.
  • the processor 120 may obtain “Eiffel Tower” and “Arch de Triomphe” as object keywords from a plurality of images 10 corresponding to Paris, which is the user location. Additionally, the processor 120 may generate object content 210 corresponding to the obtained object keywords, “Eiffel Tower” and “Arch de Triomphe,” respectively.
  • the object content 210 may be a three-dimensional object image reflected in the virtual space 200 of the metaverse.
  • the object content 210 may be a three-dimensional image of a person, animal, food, object, etc. displayed within the virtual space 200 of the metaverse. That is, referring to FIG. 3, the processor 120 generates a three-dimensional image of the “Eiffel Tower” and the “Arch de Triomphe” using the object content 210, and creates three-dimensional images of the “Eiffel Tower” and the “Arch de Triomphe”. The image can be placed at a preset location in the virtual space 200 of the metaverse.
  • preset user content 201 may be reflected in the virtual space 200 of the metaverse.
  • User content 201 is a graphic object representing a user and may be created by user settings.
  • the processor 120 may generate user content of a three-dimensional image based on the face, body type, height, weight, clothes, shoes, etc. of the user content 201 input or set through the input interface. .
  • the processor 120 detects the user's location in real time, and when it detects that the user's location has changed from the first location to the second location, the processor 120 selects the first of the plurality of images. Multiple images corresponding to a location can be selected.
  • the processor 120 may detect the user's real-time location based on GPS information. When the processor 120 detects that the user's real-time location has changed, the processor 120 selects a plurality of images 10 corresponding to the user's location before the change among the plurality of images 10 stored in the memory 110, and selects a plurality of images 10 corresponding to the user's location before the change. Based on the image 10, virtual content (eg, virtual object content) to be reflected in the virtual space 200 of the metaverse can be created. That is, whenever the user's location changes, the processor acquires an object keyword through a plurality of images 10 corresponding to the user's location before the change, and reflects it in the virtual space 200 based on the obtained object keyword. Virtual content can be created.
  • virtual content eg, virtual object content
  • the processor 120 may select a plurality of images corresponding to the first location among the plurality of images stored in the memory 110. there is. Additionally, the processor 120 may obtain an object keyword through a plurality of images corresponding to the first location and generate object content corresponding to the obtained object keyword. At this time, the generated object keyword may not be related to the second location, which is the user's real-time location, but may be related to the first location corresponding to the user's location before the change.
  • Figure 4 is an example showing a plurality of object keywords obtained and the frequency of the plurality of object keywords obtained with respect to a plurality of images 10 corresponding to the user location using a first neural network model according to an embodiment of the present disclosure. It's a degree.
  • the processor 120 obtains an object keyword included in each of the plurality of selected images 10.
  • the processor 120 may obtain object keywords related to objects included in each image.
  • the object keyword may include keywords indicating the type of the object, the color of the object, the location of the object, the gender of the object, etc.
  • the processor 120 may identify whether an object is included in each image, identify the type, color, etc. of the identified object, and then obtain an object keyword.
  • the processor 120 may obtain an object keyword based on the object-object keyword matching table stored in the memory 110.
  • the object-object keyword matching table refers to a table in which at least one object keyword matching each object is stored. Accordingly, the processor can identify the type of object in the selected image and obtain an object keyword matching the type of the identified object from the object-object keyword matching table.
  • the processor may use a neural network model to obtain object keywords related to objects in the selected image. That is, the processor 120 obtains object keywords included in each of the plurality of images 10 using the neural network model 20 that detects objects included in the image.
  • the neural network model 20 for detecting objects included in an image is a neural network model learned to detect objects included in an input image, identify the type of the detected object, and output a keyword for the type of the identified object. It can be.
  • the neural network model 20 that detects the object included in the image may be a neural network model learned in advance based on learning data consisting of a plurality of images 10 including the object.
  • the neural network model 20 for detecting objects included in an image may be implemented as a CNN (Convolutional Neural Network) model, FCN (Fully Convolutional Networks) model, RCNN (Regions with Convolutional Neuron Networks features) model, YOLO model, etc. .
  • the neural network model 20 for detecting an object included in an image according to an embodiment of the present disclosure will be described by referring to it as the first neural network model 20.
  • the processor 120 may input a plurality of images 10 selected corresponding to the user's location into the first neural network model 20 and obtain object keywords corresponding to the objects detected in each image.
  • the object keyword may be a keyword indicating the type, type, etc. of the detected object.
  • the processor 120 identifies the user location as Paris, and selects a plurality of images 10 corresponding to the identified Paris location among the plurality of images 10 stored in the memory 110. Select. Then, the processor 120 may input the plurality of selected images 10 into the first neural network model 20 to obtain object keywords corresponding to objects included in each image. At this time, referring to FIG. 3, the processor 120 uses object keywords acquired through a plurality of images 10 corresponding to Paris, such as “Eiffel Tower,” “Person 1,” “Arch de Triomphe,” “Car,” and “Eiffel Tower.” “Puppy” etc.
  • the processor 120 identifies whether the number of the plurality of images 10 corresponding to the user location among the plurality of images 10 is greater than or equal to a preset number, and corresponds to the user location. If the number of the plurality of images 10 is more than the preset number, object keywords included in each of the plurality of selected images 10 can be obtained using the first neural network model 20.
  • the processor 120 may identify whether the user location corresponding to the plurality of images 10 is a meaningful location to the user. To this end, the processor 120 identifies whether the number of the plurality of images 10 corresponding to each user location is more than a preset number, and metadata only for the user location where the number of the plurality of images 10 is more than the preset number. It may be decided to create object content 210 to be reflected in the virtual space 200 of the bus. In other words, if the user saved many images while in a specific location (or place), the processor 120 identifies the specific location (or place) as a meaningful or important location (or place) to the user, and determines the specific location (or place). It can be decided to implement in the virtual space 200 of the metaverse.
  • the processor 120 may identify whether there is sufficient data to implement virtual content constituting the virtual space 200 of the metaverse based on the number of the plurality of images 10 corresponding to the user location.
  • the object content 210 reflected in the virtual space 200 of the metaverse is created based on a plurality of images 10 stored in the memory 110 without separate user input or data reception. This may mean that a specific location is provided with a service that is implemented as the virtual space 200 of the metaverse just by the user saving an image obtained through a camera or an image received through a messenger, etc.
  • the user can experience content related to the location and place where the user stayed within the virtual space 200 of the metaverse.
  • the processor 120 identifies the number of the plurality of images 10 corresponding to each user location, and only for the user location where the number of the plurality of images 10 is more than a preset number, the virtual space of the metaverse ( Object content 210 to be reflected in 200) can be created.
  • the processor 120 when the processor 120 identifies that the number of the plurality of images 10 is greater than a preset number, the processor 120 inputs the plurality of images 10 into the first neural network model 20 to obtain a plurality of object keywords. You can. Since this has been explained above, detailed explanation will be omitted.
  • the processor 120 determines an object to be reflected in the virtual space 200 of the metaverse based on the frequency of object keywords obtained through each of the selected plurality of images 10. do.
  • the frequency of object keywords is the cumulative number of object keywords obtained by the processor 120 for the user location when a plurality of images 10 selected corresponding to the user location are sequentially input into the first neural network model 20. It can be.
  • the processor 120 may input a plurality of images 10 selected corresponding to the user location into the first neural network model 20, and obtain at least one object keyword corresponding to each image. .
  • the processor 120 may not obtain an object keyword through the first neural network model 20 for an image that does not include an object.
  • the processor 120 may obtain a plurality of keywords corresponding to the plurality of objects for an image including a plurality of objects.
  • the processor 120 may identify the cumulative number of object keywords obtained for each image.
  • the processor 120 inputs a plurality of images 10 corresponding to Paris, which is the user location, into the first neural network model 20, and each time an object keyword is acquired, the obtained object You can identify the cumulative number of keywords.
  • the processor 120 identified the cumulative number of object keywords, “Eiffel Tower” as 10.
  • the processor 120 identified the cumulative number of object keywords, “Person 1” as 8. In this way, whenever each object keyword is acquired, the processor 120 can identify the cumulative number of each obtained keyword and identify the frequency of each keyword.
  • the processor 120 may identify that the user has repeatedly acquired and stored images of objects corresponding to the object keyword. Additionally, the processor 120 may identify an object for which the user repeatedly obtained images as being highly related to the user's location. That is, the processor 120 can identify the object as having meaning and location of the user.
  • the processor 120 may identify “Eiffel Tower” as a meaningful or important object in relation to “Paris” to the user. And, the processor 120 may determine to “generate object content 210 about the Eiffel Tower.
  • the processor 120 in implementing the virtual space 200 of the metaverse about “Paris,” the processor 120 generates the content of “Eiffel Tower” and includes the generated content of “Eiffel Tower” in the virtual space. , can have the effect of reminding users of good memories about Paris.
  • the processor 120 after determining an object to be reflected in the virtual space 200 of the metaverse, the processor 120 generates object content 210 corresponding to the determined object.
  • a 3D image corresponding to the determined object can be rendered.
  • the memory 110 may store each object keyword or a 3D object image (or a program that generates a 3D object image) corresponding to each object.
  • the processor 120 may obtain a 3D object image corresponding to the determined object from the memory 110 and display the obtained 3D object image in the virtual space 200 of the metaverse.
  • the processor 120 may transmit the object keyword obtained through the communication unit to an external device (eg, an external server) and obtain a 3D object image corresponding to the object keyword from the external device through the communication unit.
  • the processor 120 may identify the frequency of each obtained object keyword and select at least one object keyword whose identified frequency is more than a preset value among a plurality of object keywords. there is. Additionally, the processor 120 may determine an object to be reflected in the virtual space 200 of the metaverse based on at least one selected object keyword.
  • Figure 5 is an example diagram illustrating selecting a first object keyword among a plurality of object keywords based on the frequency of the plurality of object keywords, according to an embodiment of the present disclosure.
  • the processor 120 may identify the frequency of each object keyword obtained through the plurality of images 10 corresponding to the user location. That is, the processor 120 can identify the cumulative number of each obtained object keyword. Additionally, the processor 120 may identify an object keyword whose cumulative number obtained is greater than or equal to a preset value among all object keywords acquired through the plurality of images 10 . Additionally, the processor 120 may generate object content 210 corresponding to an object keyword whose accumulated number of acquired values is greater than or equal to a preset value.
  • the processor 120 may select only object keywords that are meaningful to the user among a plurality of object keywords and generate object content 210 corresponding to the selected object keywords.
  • an object keyword whose frequency is greater than or equal to a preset value is referred to as a first object keyword.
  • the object keywords with a frequency greater than the preset value are “Eiffel Tower” and “Person 1” among the plurality of object keywords. ”, “Arch de Triomphe”, “Car”, “Dog” and “Baguette”. Accordingly, the processor 120 selects the first object keyword among the plurality of object keywords corresponding to Paris as “Eiffel Tower,” “Person 1,” “Arcade de Triomphe,” “car,” “dog,” and “baguette bread.” can be selected.
  • the processor 120 selects object content 210 corresponding to the selected first object keyword, such as a 3D image 211 for “Eiffel Tower,” a 3D image 212 for “Person 1,” and “ Generate a 3D image for “Arch de Triomphe” (213), a 3D image for “car” (214), a 3D image for “dog” (215), and a 3D image for “baguette bread” (216). can do. Additionally, the processor 120 may display the plurality of object contents 210 created in the virtual space 200 of the metaverse.
  • the location where each object content 210 is displayed may be preset according to the type of object keyword.
  • the position at which each object keyword is displayed in the virtual space 200 of the metaverse may be determined based on the location where each image identified based on the metadata in the image from which each object keyword was obtained was obtained. Meanwhile, of course, the location of each object content 210 displayed in the virtual space 200 of the metaverse can be changed by the user.
  • FIG. 6 is an exemplary diagram illustrating a method of selecting a second object keyword from a plurality of first object keywords based on semantic similarity between an object keyword and a user location, according to an embodiment of the present disclosure.
  • the processor 120 identifies semantic similarity between the user location and a plurality of first object keywords, and, among the plurality of first object keywords, the identified semantic similarity is greater than or equal to a preset value. At least one object keyword having semantic similarity can be selected. Additionally, the processor 120 may determine an object to be reflected in the virtual space 200 of the metaverse based on at least one selected object keyword.
  • the processor 120 may select at least one object keyword that is highly related to the user's location from among the plurality of first object keywords identified as being meaningful to the user's location.
  • a first object keyword having a semantic similarity greater than a preset value with the user location is referred to as a second object keyword.
  • the processor 120 was able to select a first object keyword that is meaningful to the user and the user location from among a plurality of object keywords obtained based on the frequency of the object keywords.
  • noise may be included among the plurality of first object keywords.
  • the noise may be misidentified object keywords or images corresponding to misidentified object keywords that are meaningful to the user's location, based on the frequency of the object keywords.
  • the processor 120 identifies the semantic similarity between the plurality of selected first object keywords and the user location, and based on the identified semantic similarity, the user among the plurality of first object keywords Object keywords that are actually related to the location can be selected. To this end, the processor 120 may select the first object keyword having a semantic similarity greater than or equal to a preset value as the second object keyword.
  • the processor 120 may identify the similarity between the first object keyword and the text 50 corresponding to the user location. Specifically, the processor 120 obtains vectors corresponding to each of the first object keyword and the user location, identifies the cosine angle between each vector, and determines the meaning between the first object keyword and the user location based on the identified cosine angle. Similarities can be identified. Alternatively, the Euclidean distance between each vector may be measured, and semantic similarity between the first object keyword and the user location may be identified based on the measured Euclidean distance. To this end, the processor 120 may use a neural network model learned to calculate the semantic similarity between the first object keyword and the user location (or learned to calculate the semantic similarity between the texts 50). At this time, the neural network model that calculates semantic similarity may include a Word2vec model, a CNN model, a Natural Language Processing Model, and a Bert model (Bidirectional Encoder Representations from Transformers Model).
  • the processor 120 may select, among a plurality of first object keywords, the first object keyword whose semantic similarity is greater than or equal to a preset value as the second object keyword. Specifically, referring to FIG. 6, the processor 120 identifies the semantic similarity between the selected plurality of first object keywords (Eiffel Tower, person 1, Arc de Triomphe, car, dog, baguette) and the user location (Paris). You can. At this time, when the preset value for semantic similarity is 30, the processor 120 may select the remaining first object keywords, excluding car, among the plurality of first object keywords as the second object keywords. That is, the processor 120 identified Paris corresponding to the user's location as unrelated to the car, based on semantic similarity. And, based on semantic similarity, the processor 120 may identify the Eiffel Tower, Person 1, Arc de Triomphe, dog, and baguette selected as the second object keywords as being highly related to Paris corresponding to the user's location.
  • the processor 120 may identify the Eiffel Tower, Person 1, Arc de Trio
  • the processor 120 may identify an object corresponding to the selected second object keyword and generate object content 210 corresponding to the identified object.
  • the processor 120 may determine the selected second object keyword as an object to be reflected in the virtual space 200 of the metaverse. Additionally, the processor 120 may generate object content 210 corresponding to the second object keyword. That is, the processor 120 may render a three-dimensional object image corresponding to the second object keyword.
  • the processor 120 selects object content 210 corresponding to the selected second object keyword, including a 3D image 211 for “Eiffel Tower” and a 3D image for “Person 1” ( 212), a 3D image of “the triumphal gate” (213), a 3D image of “puppy” (215), and a 3D image of “baguette bread” (216), and the generated plurality of object contents (210) is displayed in the virtual space (200) of the metaverse about Paris.
  • object content 210 corresponding to the selected second object keyword, including a 3D image 211 for “Eiffel Tower” and a 3D image for “Person 1” ( 212), a 3D image of “the triumphal gate” (213), a 3D image of “puppy” (215), and a 3D image of “baguette bread” (216), and the generated plurality of object contents (210) is displayed in the virtual space (200) of the metaverse about Paris.
  • car content with little relevance to Paris was excluded from Figure 6 based on semantic similar
  • the processor 120 identifies the number of object keywords corresponding to each image, identifies the frequency of the object keyword based on the number of identified object keywords, and identifies one If a plurality of object keywords corresponding to an image include a plurality of the same object keyword, the number of the same object keyword can be identified as one for one image.
  • FIG. 7 is an example diagram illustrating a method for identifying the frequency of each object keyword when a plurality of the same object keywords are included among a plurality of object keywords corresponding to one image, according to an embodiment of the present disclosure; am.
  • the processor 120 may identify the cumulative number of object keywords obtained by inputting each image into the first neural network model 20 as the frequency of each object keyword. At this time, when a plurality of the same object keywords are obtained within a specific image, the processor 120 may identify the plurality of object keywords obtained through the specific image as one.
  • a plurality of object keywords corresponding to the object may also be obtained.
  • the processor 120 may erroneously determine that the object is meaningful or highly related to the user's location due to the plurality of object keywords obtained, even though there is only one image including the object.
  • the processor 120 acquires a plurality of object keywords through the first neural network model 20 for a specific image among the plurality of images 10, and determines whether a plurality of the same object keywords exist among the obtained plurality of object keywords. If it is identified as one, it can be identified by changing the number of multiple identical object keywords to one.
  • image A contains a total of 11 objects (specifically, 1 wine, 4 cups, 2 forks, 2 knives, and 2 objects). Plate and 1 pizza) (11) included. Therefore, when the processor 120 inputs image A into the first neural network model 20, a total of 11 object keywords (specifically, 1 keyword related to wine, 4 cups) are used as object keywords corresponding to image A. You can obtain keywords about , keywords about 2 forks, keywords about 2 knives, keywords about 2 plates, and keywords about 1 pizza). However, the processor 120 may identify one keyword related to a cup that was obtained in duplicate as one obtained from image A. Similarly, keywords related to fork, knife, and plate that were obtained repeatedly can also be identified as one each obtained from image A.
  • 11 objects specifically, 1 wine, 4 cups, 2 forks, 2 knives, and 2 objects.
  • plate and 1 pizza (11) included. Therefore, when the processor 120 inputs image A into the first neural network model 20, a total of 11 object keywords (specifically, 1 keyword related to wine, 4 cups) are used as object keywords corresponding to image A
  • the processor 120 can select object keywords that are substantially related to the user's location by identifying the frequency of each object keyword in consideration of the number of images actually acquired by the user for each object keyword. .
  • the processor 120 may generate background content to be reflected in the virtual space 200 of the metaverse.
  • the background content 220 may be a three-dimensional background image reflected in the virtual space 200 of the metaverse.
  • the background content 220 may include three-dimensional images of buildings, roads, bridges, trees, etc. displayed within the virtual space 200 of the metaverse.
  • the background content 220 may be implemented based on a plurality of object contents.
  • the background content 220 may include preset object content (eg, 3D images of people, buildings, animals, food objects, etc.).
  • the preset object content included in the background content 220 may be distinguished from the object content 210 created based on the plurality of images 10 corresponding to the user location. That is, the object content 210 generated based on the object keyword and the object content used to implement the background content can be distinguished.
  • the object content used to implement the background content 220 may have a fixed location and shape within the virtual space, but the object content 210 created based on an object keyword may have a fixed location within the virtual space. It can change depending on the input or settings and the form can also change in various ways.
  • the processor 120 excludes the object keywords used to implement the background among the plurality of object keywords obtained from the plurality of images 10 corresponding to the user location, and then selects the object using only the remaining object keywords. You can also create content.
  • the processor 120 may generate background content 220 based on the user's location. Specifically, the processor 120 may identify the user's location and generate a three-dimensional background image corresponding to the identified user location. At this time, the processor 120 may identify a landmark corresponding to the identified user location and generate a 3D image corresponding to the identified landmark as the background content 220. For example, if the processor 120 identifies the user's location as Egypt and selects a plurality of images 10 corresponding to the identified Egypt, the processor 120 selects “pyramid” and “pyramid” as landmarks corresponding to Egypt. The “Sphinx” can be identified. Additionally, the processor 120 may generate three-dimensional images corresponding to “pyramids” and “sphinxes” as background content 220 corresponding to Egypt. For this purpose, the processor 120 may use the “city-landmark matching table” stored in the memory 110.
  • background content 220 may be created in advance and stored in the memory 110.
  • a plurality of background contents 220 corresponding to a plurality of preset user locations may be stored in the memory 110.
  • a 3D image corresponding to Namsan Tower and Gyeongbokgung Palace may be stored in the memory 110 as background content 220 corresponding to “Seoul”.
  • the processor 120 displays the object content 210 created based on the plurality of images 10 corresponding to the user location on the background content 220, thereby displaying the virtual space of the metaverse corresponding to the user location ( 200) can be implemented. That is, to explain the above example again, on the background content 220 implemented as a three-dimensional image corresponding to the pyramid and the Sphinx, the object content 210 generated through a plurality of images 10 corresponding to Egypt ( For example, 3D food images, etc.) can be displayed.
  • the processor 120 may identify whether the user location is a preset location.
  • FIG. 8 shows a method of generating background content by inputting a plurality of images 10 corresponding to the user location into a second neural network model when the user location is identified as not being a preset location, according to an embodiment of the present disclosure.
  • This is an example diagram showing.
  • the processor 120 may identify whether the user's location corresponding to the plurality of selected images 10 is a preset location. Specifically, referring to FIG. 8, the memory 110 may store a preset user location corresponding to each GPS location. Accordingly, the processor 120 determines the user location corresponding to the plurality of images 10 based on the GPS coordinates acquired through the GPS sensor of the electronic device 100 and the metadata included in the plurality of images 10. You can identify whether the location has been set. For example, processor 120 identifies the user's GPS location corresponding to the plurality of images 10 as being 0° 7' 39" west longitude, 51° 30' 26" north latitude, or 0° 7' 39" west longitude. , If it is identified as being within a preset radius centered on 51°30'26 north latitude, the user's location can be identified as London.
  • the processor 120 if the user location is identified as not being a preset location, the processor 120 generates a method corresponding to the user location based on the object keywords of the plurality of images selected corresponding to the user location.
  • the background keyword may be a keyword indicating a place predicted to be the user's location.
  • the processor 120 may obtain a background keyword corresponding to the user location by combining a plurality of object keywords obtained through a plurality of images 10 selected corresponding to the user location.
  • a plurality of object keywords obtained through a plurality of images (10) selected according to the user's location are “parasol”, “picnic mat”, “swimsuit”, “goggles”, “seagull”, “ In the case of “shell,” etc.
  • the processor may combine the obtained plural object keywords to obtain “sea” as the background keyword corresponding to the user's location.
  • the processor 120 may obtain background keywords corresponding to the plurality of selected images 10 using the neural network model 30 that identifies the background in the image.
  • the neural network model 30 that identifies the background in the image may be a neural network model learned to identify the background in the input image and output a keyword for the identified background.
  • the neural network model that identifies the background in the image may be a neural network model that has been previously trained to identify the background of each image based on learning data consisting of a plurality of images 10.
  • the neural network model 30 that identifies the background in the image may be implemented as a Convolutional Neural Network (CNN) model, Fully Convolutional Networks (FCN) model, Regions with Convolutional Neuron Networks features (RCNN) model, YOLO model, etc.
  • CNN Convolutional Neural Network
  • FCN Fully Convolutional Networks
  • RCNN Regions with Convolutional Neuron Networks features
  • YOLO model YOLO model
  • the second neural network model 30 may be a model learned to identify the background of an image based on object keywords obtained through the first neural network model 20.
  • object keywords obtained for the plurality of images 10 through the first neural network model 20 are swimsuit, seagull, shell, etc.
  • the second neural network model 30 uses the acquired object keywords (swimsuit, Based on seagulls, shells, etc.), the user location corresponding to the plurality of images 10 can be identified as “sea.”
  • the present invention is not limited to this, and various known techniques may be applied as a method of identifying the background of the plurality of images 10.
  • the processor 120 has a preset GPS location corresponding to the user location corresponding to the plurality of images 10, “177 to OO if OO, group OO” or “177 to OO, if OO, group OO.” It was identified as not a location (e.g. Paris, London, New York, etc.). Accordingly, the processor 120 may input a plurality of images 10 corresponding to the user location into the second neural network model 30 and obtain background keywords corresponding to each image. Meanwhile, when the background keyword acquired by the processor 120 through the second neural network model 30 is “camping site,” the processor 120 uses a three-dimensional image embodying “camping site” as background content 220. can be created. Additionally, the processor 120 can display the generated 3D image of the “camping site” in the virtual space 200 of the metaverse.
  • the processor 120 may acquire a plurality of background keywords. For example, the processor 120 may input each image into the second neural network model 30 to obtain a background keyword for each image. Meanwhile, for images in which the background cannot be identified, the background keyword may not be obtained through the second neural network model 30. At this time, according to an embodiment of the present disclosure, the processor 120 may determine the background to be reflected in the virtual space 200 of the metaverse based on the frequency of the background keyword corresponding to each of the selected plurality of images 10. there is.
  • Figure 9 is an example diagram illustrating generating background content based on the frequency of a plurality of background keywords, according to an embodiment of the present disclosure.
  • the background keyword is obtained through a second neural network model.
  • the frequency of background keywords may be the cumulative number of background keywords obtained by the processor 120 when a plurality of images 10 selected according to the user location are sequentially input into the second neural network model 30.
  • the frequency of the background keyword may include the cumulative number of times the background keyword is not obtained when the processor 120 inputs a specific image into the second neural network model 30.
  • the processor 120 may input a plurality of images 10 selected according to the user location into the second neural network model 30 to obtain background keywords corresponding to each image. At this time, the processor 120 may identify the cumulative number of each obtained background keyword. Additionally, the processor 120 may identify the cumulative number identified for each background keyword as the frequency for each background keyword.
  • the processor 120 identified the cumulative number of “camping site” as 8 among the plurality of background keywords. Accordingly, the processor 120 may identify the frequency of “camping site” as 8. And, the processor 120 identified the cumulative number of “lawn fields” as three. Accordingly, the processor 120 may identify the frequency of “lawn” as 3. Additionally, the processor 120 identified the number of times that the background keyword was not obtained as 5. The fact that the background keyword is not obtained may mean that the background keyword corresponding to the image is not output when the image is input into the second neural network model 30. That is, “Unknown” in FIG. 9 may correspond to this.
  • the processor 120 identifies the cumulative number of each obtained keyword and the cumulative number of times the background keyword was not obtained, each time each background keyword is acquired or the background keyword is not obtained, and each background keyword is obtained. You can identify the frequency of keywords.
  • the processor 120 may determine the background keyword with the highest frequency as the background to be reflected in the virtual space 200 of the metaverse. That is, referring to FIG. 9, the processor 120 may determine the “camping site” with the greatest frequency as the background to be reflected in the virtual space 200 of the metaverse. Additionally, the processor 120 may generate a 3D image corresponding to the determined “camping site.” Specifically, the processor 120 may render a three-dimensional image of a “camping site.”
  • a 3D background image corresponding to a background keyword may be stored in the memory 110. Additionally, a plurality of 3D object images necessary to implement a background corresponding to a background keyword may be stored in the memory 110.
  • the processor 120 transmits a background keyword to an external device (e.g., an external server) through the communication unit of the electronic device, and sends 3 messages corresponding to the background keyword from the external device through the communication unit.
  • an external device e.g., an external server
  • a dimensional background image can also be obtained.
  • the processor 120 may identify the obtained background keyword as the user's location. Through this, the processor 120 can identify semantic similarity, which is a standard for selecting the second keyword, with respect to the background keyword and the plurality of first keywords. For example, referring to FIG. 9, the processor 120 selects a plurality of images 10 corresponding to “00-gun, 00-myeon, 00-ro 177” corresponding to the user’s location to the first neural network model 20. You can obtain multiple object keywords by entering them. Additionally, the processor 120 may select the first object keyword among the plurality of object keywords based on the frequency of the obtained object keywords.
  • the processor 120 may identify the semantic similarity between “camping site,” which is a background keyword obtained based on the second neural network model 30, and the plurality of first object keywords. Additionally, the processor 120 may select at least one object keyword whose semantic similarity is greater than or equal to a preset value as the second object keyword. That is, the processor 120 may utilize background keywords rather than the user's location identified based on GPS coordinates (“00-gun, 00-myeon, 00-ro 177”) to identify semantic similarity.
  • the processor 120 identifies a plurality of texts 50 acquired during a period corresponding to the user location and creates a neural network model that identifies the emotion corresponding to the text 50. Using this, a plurality of emotional keywords corresponding to a plurality of texts 50 can be obtained, and a background to be reflected in the virtual space 200 of the metaverse can be determined based on the obtained emotional keywords and the user location.
  • FIG. 10 is an example diagram illustrating obtaining a plurality of emotional keywords corresponding to a plurality of texts acquired during a period corresponding to the user location, based on a third neural network model, according to an embodiment of the present disclosure.
  • Figure 11 is an example diagram illustrating generating background content based on the frequency of a plurality of emotional keywords, according to an embodiment of the present disclosure.
  • the processor 120 may identify a plurality of texts 50 acquired during a period corresponding to the user's location. Specifically, processor 120 may identify a time period corresponding to each user location. The processor 120 may identify a period corresponding to the user location based on the GPS location of the electronic device 100 or metadata of each image. Since this is described in detail in FIG. 3, detailed description will be omitted.
  • the processor 120 may identify the text 50 acquired through a messenger or SNS or stored in the memory 110 or the text 50 entered through an input interface during a period corresponding to the user's location. For example, referring to FIG. 10, the processor 120 selects a period (from 14:00 on March 5, 2022 to March 7, 2022) corresponding to “00-gun, 00-myeon, 00-ro 177” corresponding to the user location. Until 16:00), at least one text 50 acquired can be identified.
  • the processor 120 may obtain at least one emotional keyword corresponding to the identified plurality of texts 50. Specifically, the processor 120 may analyze the plurality of identified texts 50, infer the meaning of each text, and obtain emotional keywords corresponding to each text.
  • the processor 120 may obtain at least one emotion keyword corresponding to the text using a neural network model.
  • the neural network model that identifies the emotion corresponding to the text may be a neural network model learned to identify the emotion corresponding to each text 50 by inferring the meaning of each text.
  • the neural network model for identifying emotions corresponding to text according to an embodiment of the present disclosure will be referred to as the third neural network model 40.
  • the third neural network model 40 analyzes the emotion for each text 50 based on learning data including a plurality of texts and responds to each text 50. It may be a model trained in advance to output emotional keywords. Specifically, the third neural network model 40 acquires information about the user's intention included in each text 50 when a plurality of texts 50 are input to the third neural network model 40, It can be learned to output emotional keywords corresponding to information about the acquired intention. Meanwhile, the third neural network model 40 may be implemented as a BERT model, natural language understanding (NLU) model, etc.
  • NLU natural language understanding
  • the processor 120 may determine a background to be reflected in the virtual space 200 of the metaverse based on emotional keywords obtained in response to the plurality of texts 50.
  • the processor 120 may identify the user's location and generate a three-dimensional background image corresponding to the identified user location. For example, the processor 120 may identify whether the user location is a preset location, and if the user location is identified as a preset location, the processor 120 may obtain the background content 220 corresponding to the preset location from the memory 110. there is. That is, a three-dimensional background image corresponding to a preset position can be obtained from the memory 110. Meanwhile, if the user location is identified as not being a preset location, the processor 120 acquires a background keyword corresponding to the user location and obtains background content 220 corresponding to the obtained background keyword from the memory 110. You can. The method of generating the background content 220 based on the background keyword has been described in detail in FIGS. 8 and 9, so detailed description will be omitted.
  • the processor 120 generates the background content 220 based on the user location or background keyword, and then creates the generated three-dimensional background image based on the emotional keyword obtained through the third neural network model 40. You can change the color or add objects to the 3D background image.
  • the color, weather, time, etc. of the background content 220 may be determined based on emotional keywords. For example, even if it is a 3-dimensional background image generated corresponding to the same user location, the processor 120 generates a 3-dimensional background image when the emotional keyword obtained through the third neural network model 40 is “happiness.” You can change the color to a bright color. On the other hand, if the emotional keyword obtained through the third neural network model 40 is “sadness,” the processor 120 may change the color of the 3D background image to a dark color.
  • the processor 120 may change the weather in the background image to “sunny” if the emotional keyword obtained through the third neural network model 40 is “happiness.” On the other hand, if the emotional keyword obtained through the third neural network model 40 is “sadness,” the processor 120 may change the weather in the background image to “rain.” To this end, the processor 120 can generate object content 210, that is, a three-dimensional object image, to implement the weather and display it on the background image.
  • the processor 120 may change the time in the background image to “morning” if the emotional keyword obtained through the third neural network model 40 is “happiness.” On the other hand, if the emotional keyword obtained through the third neural network model 40 is “sadness,” the processor 120 may change the time in the background image to “night.”
  • an emotional keyword used to determine a background to be reflected in the virtual space 200 of the metaverse based on the frequency of the emotional keyword obtained in response to each of the plurality of texts 50 can be identified.
  • the frequency of emotional keywords is determined by the processor 120 when a plurality of texts 50 acquired (or stored in the memory 110) during a period corresponding to the user location are sequentially input into the third neural network model 40. It may be the cumulative number of acquired emotional keywords. The frequency of the emotional keyword may include the cumulative number of times that the background keyword is not obtained when the processor 120 inputs the specific text 50 into the third neural network model 40.
  • the processor 120 inputs a plurality of texts 50 acquired (or stored in the memory 110) during a period corresponding to the user location into the third neural network model 40, and each text 50 ) You can obtain the corresponding emotional keyword. At this time, the processor 120 may identify the cumulative number of each acquired emotional keyword. Additionally, the processor 120 may identify the cumulative number identified for each emotional keyword as the frequency for each emotional keyword.
  • the processor 120 identified the cumulative number of “happiness” as 25 among the plurality of emotion keywords obtained. In other words, the frequency of “happiness” was identified as 25. And, the processor 120 identified the cumulative number of “joy” as 10. In other words, the frequency of “joy” was identified as 10. Additionally, the processor 120 identified the number of times that the emotional keyword was not obtained as 30. The fact that the emotional keyword is not obtained may mean that the emotional keyword corresponding to the text 50 is not output when the text 50 is input into the third neural network model 40. That is, “Unknown” in FIG. 10 may correspond to this.
  • the processor 120 identifies the cumulative number of each emotion keyword obtained and the cumulative number of times the emotion keyword was not obtained, each time each emotion keyword is acquired or each emotion keyword is not obtained, and each background You can identify the frequency of keywords.
  • the processor 120 may select the emotion keyword with the highest frequency among the plurality of emotion keywords and generate background content 220 based on the selected emotion keyword. Specifically, referring to FIG. 11 , the processor 120 may generate background content 220 based on “happiness,” which is the most frequent emotional keyword among a plurality of emotional keywords. Referring to the above example, the processor 120 may determine the weather of the background content 220 based on the emotion keyword.
  • the processor 120 may set the background weather reflected in the virtual space 200 of the metaverse to “clear.” Meanwhile, when “Unknown” has the highest frequency among the plurality of emotional keywords, the processor 120 may generate the background content 220 based only on the user location or the background keyword.
  • the processor 120 may obtain “camping site” as a background keyword for a plurality of images 10 corresponding to the user location through the second neural network model 30. Additionally, the processor 120 may render a three-dimensional camping site image based on the obtained background keyword (“camping site”). Alternatively, a three-dimensional image corresponding to the “camping site” stored in the memory 110 may be obtained. And, the processor 120 may obtain object keywords for the plurality of images 10 corresponding to the user location through the first neural network model 20.
  • the processor 120 acquired “coffee” and “puppy” as object keywords. Accordingly, the processor 120 can generate 3D object images (3D coffee image and 3D dog image) with object content 210 corresponding to each object keyword. Additionally, the processor 120 may display the generated 3D object image on the 3D camping site image. In other words, the generated 3D object image and 3D background image can be merged. And, the processor 120 may obtain emotional keywords for a plurality of texts 50 acquired (or stored in the memory 110) during a period corresponding to the user location through the third neural network model 40. .
  • the processor 120 creates a 3-dimensional sun image within the 3-dimensional background image.
  • the background content 220 in clear weather can be displayed. In this way, the processor 120 can generate content that is reflected in the metaverse virtual space based on “object keywords,” “background keywords,” and “emotion keywords.”
  • emotional keywords used to determine the background to be reflected in the virtual space 200 of the metaverse are obtained based on a plurality of texts 50 acquired during a period corresponding to the user location.
  • emotional keywords are based on a plurality of texts 50 and a plurality of audio (e.g., recorded call content, voice information in a recorded video) acquired during a period corresponding to the user location. may be obtained.
  • the processor 120 may obtain a plurality of texts 50 corresponding to a plurality of audios. That is, the processor 120 may perform voice recognition on each audio and obtain text 50 corresponding to each audio. Additionally, the processor 120 may obtain an emotional keyword by inputting the obtained text 50 into the third neural network model 40.
  • the electronic device 100 may further include a display and a communication interface.
  • the processor 120 transmits the object content 210 to an external server, receives a virtual space image including the object content 210 from the server, and receives the virtual space image including the object content 210.
  • the display can be controlled to display spatial images.
  • the processor 120 may transmit the generated object content 210 to an external server. Specifically, the processor 120 may transmit a 3D object image generated based on an object keyword to an external server through a communication interface. At this time, a 3D background image generated based on the user's location or background keyword can also be transmitted to the server through the communication interface.
  • the external server may display the object content 210 and background content received from the electronic device 100 at a location corresponding to the user's location within the three-dimensional metaverse virtual space 200. Specifically, the external server may divide the virtual space 200 into a plurality of areas according to the user's location. Additionally, the external server may display object content and background content corresponding to the received user's location in an area corresponding to each user's location.
  • the external server receives object content 210 and background content respectively obtained from a plurality of electronic devices 100, including the electronic device 100, and each receives object content 210 and background content based on the received object content 210 and background content. It may be a device that implements a virtual environment of the metaverse corresponding to the electronic device 100.
  • the external server may create a three-dimensional metaverse virtual space 200 corresponding to each of the plurality of electronic devices 100 that communicate with the external server. Additionally, the object content 210 received from each electronic device 100 can be displayed within the virtual space 200 of the three-dimensional metaverse corresponding to each electronic device 100.
  • the external server may be implemented as a cloud server, etc.
  • the external server that receives the object content 210 from the electronic device 100 may create the virtual space 200 of the metaverse based on the received object content 210.
  • the virtual space 200 of the metaverse may be a three-dimensional virtual space that a plurality of users can access or enter through each electronic device 100.
  • the external server may display the received object content 210 in a location and space corresponding to the electronic device 100.
  • the external server may display a 3D object image corresponding to the received object content 210 in the location and space allocated to the electronic device 100 within the 3D virtual space of the metaverse.
  • the received background content 220 may be displayed in the location and space allocated to the electronic device 100 within the three-dimensional virtual space. That is, the external server may display a 3D background image of the location and space assigned to the electronic device 100 within the 3D virtual space and display a 3D object image on the displayed 3D background image. .
  • the processor 120 may receive a virtual space image including object content 210 from an external server through a communication interface. Additionally, the processor 120 may control the display to display the received virtual space image.
  • the processor 120 generates a three-dimensional camping image based on an emotion keyword and a background keyword and a three-dimensional object image generated based on an object keyword (e.g., a three-dimensional Virtual space images implemented as coffee images and 3D dog images) can be received from an external server. Additionally, the processor 120 may display the received virtual space image on the display. At this time, the virtual space image received by the processor 120 may be an image of the background content 220 and object content 210 acquired at a specific point in time within the three-dimensional space of the metaverse.
  • an object keyword e.g., a three-dimensional Virtual space images implemented as coffee images and 3D dog images
  • the virtual space image received by the processor 120 includes two-dimensional object content 210' corresponding to the three-dimensional object content 210 reflected in the virtual space, and three-dimensional background content reflected in the virtual space. It may include two-dimensional background content 220' corresponding to 220, and two-dimensional user content 201' corresponding to the three-dimensional user content 220 reflected in the virtual space.
  • the two-dimensional object content 210' may be a two-dimensional image that can be obtained at a specific viewpoint (Viewpoint) with respect to the three-dimensional object content 210 reflected in the virtual space.
  • the two-dimensional background content 220' and the two-dimensional user content 201' may also be images that can be obtained when the three-dimensional content reflected in each virtual space is viewed from a specific viewpoint.
  • the electronic device 100 displays a two-dimensional image (201) acquired in the y-axis direction with respect to the user content (201), object content (210), and background content (220) reflected in the three-dimensional virtual space. ', 210', and 220'), the received two-dimensional images (201', 210', and 220') can be displayed on the display.
  • the electronic device 100 may implement the virtual space of a three-dimensional metaverse based on the generated object content and background content. That is, the electronic device 100 creates a virtual space 200 corresponding to each user location based on the object content (3D object image) and background content (3D background image) corresponding to each user location. You can also create .
  • the processor 120 creates a UI for displaying at least one image corresponding to the object content 210 at a location corresponding to the object content 210 in the virtual space image.
  • the display can be controlled to display.
  • FIG. 12 is an example diagram illustrating a UI for displaying at least one image corresponding to object content, according to an embodiment of the present disclosure.
  • the processor 120 may control the display to display a UI for displaying at least one image on an object image in a virtual space image received from an external server.
  • At least one image displayed through the UI may include an image for which an object keyword corresponding to the object image is obtained.
  • the processor 120 may display UIs 61 and 62 on the “coffee” image and the “dog” image corresponding to the object content 210 displayed on the display.
  • the processor 120 selects the “puppy” image. ”
  • At least one image used to create the image may be displayed on the display.
  • the processor 120 may display at least one image in which “dog” is obtained as an object keyword when input to the first neural network model 20. Through this, the user can be provided with images 10 related to each object within the virtual space 200 of the metaverse.
  • FIG. 13 is a detailed configuration diagram of an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 includes a memory 110, a camera 130, a display 140, a user interface 150, a speaker 160, and a microphone 170. , includes a communication interface 180 and a processor 120.
  • a memory 110 includes a camera 130, a display 140, a user interface 150, a speaker 160, and a microphone 170.
  • a communication interface 180 includes a processor 120.
  • FIG. 13 includes a communication interface 180 and a processor 120.
  • Camera 130 may acquire images. Specifically, a camera can obtain an image including an object by photographing an object (i.e., a subject) existing within a field of view (FoV) from a specific point of view (PoV).
  • the processor 120 classifies the plurality of images 10 acquired through the camera and stored in the memory 110 according to the user location, and creates object content 210 based on the plurality of images 10 corresponding to the user location. can be created.
  • the display 140 can display various information.
  • the processor 120 may display the object content 210 and the background content 220 through the display. Specifically, the processor 120 can display the generated 3D object image and 3D background image. At this time, the processor 120 may display the 3D object image on the 3D background image.
  • the display 140 may be implemented as various types of displays such as LCD, LED, or OLED.
  • the user interface 160 is a configuration that allows the electronic device 100 to interact with a user.
  • the user interface 150 may include at least one of a touch sensor, a motion sensor, a button, a jog dial, a switch, a microphone, or a speaker, but is not limited thereto.
  • the processor 120 moves or controls the movement of object content 210 displayed within the virtual space 200 of the three-dimensional metaverse according to user input input through the user interface 160. can do.
  • the microphone 160 may refer to a module that acquires voice and converts it into an electrical signal, and may be a condenser microphone, ribbon microphone, moving coil microphone, piezoelectric element microphone, carbon microphone, or MEMS (Micro Electro Mechanical System) microphone. Additionally, it can be implemented in omni-directional, bi-directional, uni-directional, sub-cardioid, super-cardioid, and hyper-cardioid ways.
  • MEMS Micro Electro Mechanical System
  • the processor 120 may obtain emotional keywords based on the voice acquired through the microphone 160. Specifically, the voice acquired through the microphone 160 is converted into text 50 corresponding to the voice, and the converted text 50 is input into the third neural network model 40 to obtain emotional keywords corresponding to the voice. can do. At this time, the processor 120 may generate background content 220 based on the obtained emotional keyword.
  • the speaker 170 includes a tweeter for reproducing high-pitched sounds, a midrange for reproducing mid-range sounds, a woofer for reproducing low-pitched sounds, a subwoofer for reproducing extremely low-pitched sounds, an enclosure for controlling resonance, and an input to the speaker. It may be composed of a crossover network that divides the electrical signal frequencies into bands.
  • the speaker 170 may output an acoustic signal to the outside of the electronic device 100.
  • the speaker 170 can output multimedia playback, recording playback, various notification sounds, voice messages, etc.
  • the electronic device 100 may include an audio output device such as the speaker 170, or may include an output device such as an audio output terminal.
  • the speaker 170 can provide acquired information, information processed and produced based on the acquired information, response results to the user's voice, or operation results, etc. in voice form.
  • the communication interface 180 can transmit and receive various information by communicating with various external devices (eg, external servers).
  • the processor 120 may transmit the generated object content 210 and background content 220 to an external server through a communication interface.
  • the external server that received the object content 210 and virtual content may generate an image of the virtual space 200 of the metaverse based on the received object content 210 and virtual content.
  • the processor 120 may receive an image of the virtual space 200 of the metaverse generated from an external server through a communication interface.
  • the communication interface may include at least one communication module of a short-range wireless communication module (not shown) and a wireless LAN communication module (not shown).
  • the short-range wireless communication module is a communication module that performs data communication wirelessly with an external device located in a short distance.
  • a Bluetooth module a ZigBee module, a Near Field Communication (NFC) module, It can be an infrared communication module, etc.
  • the wireless LAN communication module is a module that is connected to an external network and communicates with an external server or external device according to a wireless communication protocol such as WiFi or IEEE.
  • the methods according to various embodiments of the present disclosure described above may be implemented in the form of applications that can be installed on the existing electronic device 100.
  • the methods according to various embodiments of the present disclosure described above may be performed using a deep learning-based artificial neural network (or deep artificial neural network), that is, a learning network model.
  • the methods according to various embodiments of the present disclosure described above may be implemented only by upgrading software or hardware for the existing electronic device 100.
  • the various embodiments of the present disclosure described above can also be performed through an embedded server provided in the electronic device 100 or an external server of the electronic device 100.
  • Figure 14 is a flowchart schematically showing a control method of an electronic device according to an embodiment of the present disclosure.
  • the processor 120 may select a plurality of images 10 corresponding to the user location among the plurality of images 10 (S1410).
  • the processor 120 may classify the plurality of images 10 stored in the memory 110 according to each user's location.
  • the plurality of images 10 corresponding to the user's location may be images acquired while the user is at a specific location and then stored in the memory 110. Specifically, it is an image acquired by a user through a camera at a specific location and stored in the memory 110, or an image received from another electronic device 100 through a communication interface while the user is at a specific location, and stored in the memory 110. It may be an image stored in .
  • the processor 120 may select a plurality of images 10 corresponding to the user's location before the change from among the plurality of images 10 stored in the memory 110. At this time, the processor 120 may generate content (eg, object content) to be reflected in the virtual space 200 of the metaverse based on the selected plurality of images 10.
  • content eg, object content
  • the processor 120 selects a plurality of images 10 corresponding to the user location and then creates a neural network model 20 (for example, a first neural network model 20) that detects objects included in the image.
  • a neural network model 20 for example, a first neural network model 20
  • object keywords included in each of the selected plurality of images 10 can be obtained (S1420).
  • the object keyword may be a keyword indicating the type, type, etc. of the detected object.
  • the processor 120 may determine an object to be reflected in the virtual space 200 of the metaverse based on the frequency of object keywords obtained through each of the selected plurality of images 10 (S1430).
  • the frequency of object keywords may be the cumulative number of object keywords acquired by the processor 120 when a plurality of images 10 selected according to the user location are sequentially input into the first neural network model 20. there is.
  • the processor 120 identifies the frequency of each obtained object keyword, selects a plurality of first object keywords whose identified frequency is more than a preset value among the plurality of object keywords, Based on the plurality of selected first object keywords, an object to be reflected in the virtual space 200 of the metaverse may be determined.
  • the processor 120 identifies semantic similarity between the user location and the plurality of first object keywords, and, among the plurality of first object keywords, the identified semantic similarity is set to a preset value.
  • a second object keyword having a semantic similarity greater than or equal to 100% may be selected, and an object to be reflected in the virtual space 200 of the metaverse may be determined based on the selected second object keyword. That is, the processor 120 selects the first object keyword that is highly related to the user's location as the second object keyword among the plurality of first object keywords, and selects the object corresponding to the selected second object keyword in the virtual space of the metaverse. It can be determined as the object to be reflected in (200).
  • the processor 120 may determine an object to be reflected in the virtual space 200 of the metaverse and then generate object content 210 corresponding to the determined object.
  • the object content 210 may be a three-dimensional image of the determined object. Accordingly, the processor 120 may render a 3D image of the determined object.
  • a 3D image corresponding to each object keyword may be stored in the memory 110. Accordingly, the processor 120 may acquire a 3D image corresponding to an object keyword related to the determined object and generate object content 210.
  • the processor 120 may generate background content 220 to be reflected in the virtual space 200 of the metaverse.
  • the processor 120 may select a plurality of images 10 corresponding to the user location and then identify whether the user location is a preset location. At this time, if the user location is identified as not being a preset location, the processor 120 uses a neural network model that identifies the background in the image (i.e., the second neural network model 30) to select a plurality of images 10. You can obtain each background keyword.
  • a neural network model that identifies the background in the image (i.e., the second neural network model 30) to select a plurality of images 10. You can obtain each background keyword.
  • the processor 120 may determine the background to be reflected in the virtual space 200 of the metaverse based on the frequency of background keywords corresponding to each of the selected plurality of images 10. Specifically, the processor 120 may determine the background to be reflected in the virtual space 200 of the metaverse using the background keyword with the highest frequency.
  • the processor 120 may generate background content 220 corresponding to the determined background. That is, the processor 120 may render a three-dimensional background image corresponding to the determined background.
  • a 3D background image corresponding to each background keyword may be stored in the memory 110, and in this case, the processor 120 may store a 3D background image corresponding to the background keyword. can also be obtained from the memory 110.
  • the processor 120 may identify semantic similarity between the background keyword and the plurality of first object keywords. And, the processor 120 determines whether the identified semantic similarity is greater than or equal to a preset value.
  • the processor 120 identifies at least one text 50 acquired during a period corresponding to the user location and creates a neural network model that identifies the emotion corresponding to the text 50. Using this, an emotional keyword corresponding to at least one text 50 may be obtained, and a background to be reflected in the virtual space 200 of the metaverse may be determined based on the obtained emotional keyword and the user location. Specifically, the processor 120 may set the color, weather, time, etc. of the background content 220 based on the obtained emotional keyword.
  • steps S1610 to S1640 may be further divided into additional steps or combined into fewer steps, depending on the embodiment of the present invention. Additionally, some steps may be omitted or the order between steps may be changed as needed.
  • FIG. 15 is a diagram for explaining how an electronic device operates as a user terminal device according to an embodiment of the present disclosure. Detailed description of operations that overlap with those of FIG. 14 will be omitted.
  • the electronic device 100 may be a user terminal device.
  • the user terminal device may include at least one of a TV, a smart phone, a tablet PC, a desktop PC, or a laptop PC.
  • the processor 120 of the electronic device 100 may generate background content 220 based on a preset location and background keyword (S1550). Specifically, a three-dimensional background image corresponding to each preset location may be created and stored in advance in the memory 110. Additionally, a three-dimensional background image corresponding to each background keyword may be created and stored in advance in the memory 110. However, a 3D background image corresponding to each preset position or a 3D background image corresponding to each preset background keyword may be obtained from an external server and stored in the memory 110. there is. However, it is not limited to this.
  • the processor 120 may obtain a three-dimensional background image corresponding to the preset location from the memory 110. Additionally, if the user location is identified as not being a preset location, the processor 120 may obtain a three-dimensional background image corresponding to the background keyword obtained for the plurality of images 10 from the memory 110.
  • the processor 120 may generate a three-dimensional object image based on the object keyword.
  • the 3D object image may also be created in advance in response to each object keyword and stored in the memory 110.
  • the description given for the background content 220 described above can be applied in the same way, detailed description will be omitted.
  • the processor 120 may transmit the generated background content 220 and object content 210 to the external server 300 (S1570). And, the external server 300 can implement a metaverse virtual space customized to the user by reflecting the received background content 220 and object content 210 in the metaverse virtual space. And, the external server 300 may transmit the generated metaverse virtual space image to the electronic device 100.
  • the processor 120 of the electronic device 100 may display the received metaverse virtual space image on the display.
  • FIG. 16 is a diagram illustrating a method in which an electronic device operates as a server according to an embodiment of the present disclosure. Detailed descriptions of operations that overlap with those of FIGS. 14 and 15 will be omitted.
  • the electronic device 100 may be a server.
  • the server may include a cloud server, etc.
  • the electronic device 100 may receive a plurality of images 10 and user location information from the user terminal device 400 (S1620). Specifically, the user terminal device 400 may transmit user location information (eg, GPS coordinates, etc.) along with a plurality of images 10 corresponding to the user location to the electronic device 100.
  • user location information eg, GPS coordinates, etc.
  • the electronic device 100 may generate object content 210 and background content 220 to be reflected in the metaverse virtual space based on the received plurality of images 10 and user location information. And, the electronic device 100 reflects the generated object content 210 and background content 220 in the virtual space 200 of the metaverse, thereby creating a customized metaverse for the user (i.e., the user of the user terminal device 400).
  • a virtual space 200 can be implemented.
  • the various embodiments described above may be implemented as software including instructions stored in a machine-readable storage media (e.g., a computer).
  • the device is a device capable of calling instructions stored from a storage medium and operating according to the called instructions, and may include a display device (eg, display device A) according to the disclosed embodiments.
  • the processor may perform the function corresponding to the instruction directly or using other components under the control of the processor.
  • Instructions may contain code generated or executed by a compiler or interpreter.
  • a storage medium that can be read by a device may be provided in the form of a non-transitory storage medium.
  • 'non-transitory' only means that the storage medium does not contain signals and is tangible, and does not distinguish whether the data is stored semi-permanently or temporarily in the storage medium.
  • the methods according to various embodiments described above may be provided and included in a computer program product.
  • Computer program products are commodities and can be traded between sellers and buyers.
  • the computer program product may be distributed on a machine-readable storage medium (e.g. compact disc read only memory (CD-ROM)) or online through an application store (e.g. Play StoreTM).
  • an application store e.g. Play StoreTM
  • at least a portion of the computer program product may be at least temporarily stored or created temporarily in a storage medium such as the memory of a manufacturer's server, an application store's server, or a relay server.
  • each component e.g., module or program
  • each component may be composed of a single or multiple entities, and some of the sub-components described above may be omitted, or other sub-components may be omitted. Additional components may be included in various embodiments. Alternatively or additionally, some components (e.g., modules or programs) may be integrated into a single entity and perform the same or similar functions performed by each corresponding component prior to integration. According to various embodiments, operations performed by a module, program, or other component may be executed sequentially, in parallel, iteratively, or heuristically, or at least some operations may be executed in a different order, omitted, or other operations may be added. You can.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Computer Hardware Design (AREA)
  • Computer Graphics (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Architecture (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 개시는 전자 장치 및 그 제어 방법을 제공한다. 본 개시의 일 실시 예에 따른, 전자 장치는 복수의 이미지를 저장하는 메모리 및 상기 복수의 이미지를 이용하여 메타버스의 가상 공간에 표시될 컨텐츠를 생성하는 프로세서를 포함하고, 상기 프로세서는, 상기 복수의 이미지 중 사용자 위치에 대응되는 복수의 이미지를 선별하고, 상기 선별된 복수의 이미지 각각에 포함된 객체 키워드를 획득하고, 상기 선별된 복수의 이미지 각각을 통해 획득된 객체 키워드의 빈도에 기초하여 상기 메타버스의 가상 공간에 반영할 객체를 결정하고, 상기 결정된 객체에 대응하는 객체 컨텐츠를 생성할 수 있다.

Description

사용자 맞춤형 메타버스 컨텐츠를 제공하는 전자 장치 및 그 제어 방법
본 개시는 메타버스 컨텐츠를 제공하는 전자 장치 및 그 제어 방법에 관한 것으로, 보다 상세하게는 메타버스의 가상 공간에 표시될 컨텐츠를 사용자에 맞춰 생성하는 전자 장치 및 그 제어 방법에 관한 것이다.
최근, 전자 기술의 발전으로 현실 세계에 가까운 가상 공간의 3차원 이미지의 렌더링(Rendering)이 가능하게 되었고, 전자 장치 간의 대용량 데이터의 송수신이 가능하게 되었다. 이는, 다수의 사용자가 실시간으로 가상 공간에 접속하여 소통할 수 있도록 하는 메타버스의 기술 발전으로 이어졌다.
특히, 최근 코로나로 인한 펜데믹으로 인하여 사용자의 이동이 제한되고, 간의 사용자 간의 직접적인 교류가 제한됨에 따라, 메타버스의 가상 공간은 현실 세계의 대안으로 주목되었다. 메타버스의 기술 발전으로 사용자 간의 대화, 채팅 등의 단순한 인터렉션을 넘어, 메타버스의 가상 공간 내에서 많은 사용자들은 사회, 문화적 활동을 수행할 수 있게 되었고, 더 나아가 경제적 가치를 창출하는데 까지 이르렀다.
다만, 기존의 대부분의 메타 버스 서비스의 경우, 메타 버스 서비스를 제공하는 플랫폼, 기업 등이 생성한 가상 공간에 다수의 사용자가 접속하거나 입장하여 인터렉션을 수행할 수 있었다. 즉, 다수의 사용자에게 동일한 가상 공간에서 인터렉션을 수행할 수 밖에 없었다. 이로 인하여 가상 공간 내에서 사용자가 공유할 수 있는 정보 또는 재화는 제한적이고 고정적이었다.
본 개시는 상술한 필요성에 따른 것으로, 본 개시의 목적은 사용자 맞춤형 메타버스 컨텐츠를 제공하는 전자 장치 및 그 제어 방법을 제공함에 있다.
이상과 같은 목적을 달성하기 위한 본 개시의 일 실시 예에 따른 전자 장치는, 복수의 이미지를 저장하는 메모리 및 상기 복수의 이미지를 이용하여 메타버스의 가상 공간에 표시될 컨텐츠를 생성하는 프로세서를 포함하고, 상기 프로세서는, 상기 복수의 이미지 중 사용자 위치에 대응되는 복수의 이미지를 선별하고, 상기 선별된 복수의 이미지 각각에 포함된 객체 키워드를 획득하고, 상기 선별된 복수의 이미지 각각을 통해 획득된 객체 키워드의 빈도에 기초하여 상기 메타버스의 가상 공간에 반영할 객체를 결정하고, 상기 결정된 객체에 대응하는 객체 컨텐츠를 생성한다.
여기서, 상기 프로세서는, 상기 획득된 객체 키워드 각각의 빈도를 식별하고, 상기 복수의 객체 키워드 중 상기 식별된 빈도가 기 설정된 값 이상인 복수의 제1 객체 키워드를 선별하고, 상기 선별된 복수의 제1 객체 키워드에 기초하여, 상기 메타버스의 가상 공간에 반영할 객체를 결정할 수 있다.
여기서, 상기 프로세서는, 상기 사용자 위치와 상기 복수의 제1 객체 키워드 간의 의미 유사도를 식별하고, 상기 복수의 제1 객체 키워드 중, 상기 식별된 의미 유사도가 기 설정된 값 이상인 의미 유사도를 갖는 제2 객체 키워드를 선별하고, 상기 선별된 제2 객체 키워드에 기초하여, 상기 메타버스의 가상 공간에 반영할 객체를 결정할 수 있다.
또한, 상기 프로세서는, 상기 각각의 이미지에 대응하는 객체 키워드의 개수를 식별하고, 상기 식별된 객체 키워드의 개수에 기초하여, 상기 객체 키워드의 빈도를 식별하고, 하나의 이미지에 대응하는 복수의 객체 키워드에 동일한 객체 키워드가 복수 개 포함된 경우, 상기 하나의 이미지에 대해서는 상기 동일한 객체 키워드의 개수를 한 개로 식별할 수 있다.
또한, 상기 프로세서는, 상기 사용자 위치가 기 설정된 위치인지 식별하고, 상기 사용자 위치가 기 설정된 위치가 아닌 것으로 식별되면, 상기 선별된 복수의 이미지 각각의 배경 키워드를 획득하고, 상기 선별된 복수의 이미지 각각에 대응하는 배경 키워드의 빈도에 기초하여 상기 메타버스의 가상 공간에 반영할 배경을 결정하고, 상기 결정된 배경에 대응하는 배경 컨텐츠 및 상기 결정된 객체에 대응하는 객체 컨텐츠를 생성할 수 있다.
또한, 상기 사용자 위치에 대응하는 기간 동안 획득된 복수의 텍스트를 식별하고, 상기 식별된 복수의 텍스트에 대응하는 복수의 감정 키워드를 획득하고, 상기 획득된 감정 키워드 및 상기 사용자 위치에 기초하여 상기 메타버스의 가상 공간에 반영할 배경을 결정할 수 있다.
또한, 상기 전자 장치는, 디스플레이를 더 포함하고, 상기 프로세서는, 상기 객체 컨텐츠를 서버에 전송하고, 상기 서버로부터, 상기 객체 컨텐츠를 포함하는 가상 공간 영상을 수신하고, 상기 수신한 가상 공간 영상이 표시하도록 상기 디스플레이를 제어할 수 있다.
여기서, 상기 프로세서는, 상기 가상 공간 영상 내 상기 객체 컨텐츠에 대응하는 위치에, 상기 객체 컨텐츠에 대응하는 적어도 하나의 이미지를 표시하기 위한 UI를 표시하도록, 상기 디스플레이를 제어할 수 있다.
또한, 상기 프로세서는, 상기 복수의 이미지 중 상기 사용자 위치에 대응하는 복수의 이미지의 개수가 기 설정된 개수 이상인지 식별하고, 상기 사용자 위치에 대응하는 복수의 이미지의 개수가 기 설정된 개수 이상이면, 상기 선별된 복수의 이미지 각각에 포함된 객체 키워드를 획득할 수 있다.
또한, 상기 프로세서는, 상기 사용자의 위치를 실시간으로 감지하고, 상기 사용자의 위치가 제1 위치에서 제2 위치로 변경된 것으로 감지되면, 상기 복수의 이미지 중 상기 제1 위치에 대응하는 복수의 이미지를 선별할 수 있다.
이상과 같은 목적을 달성하기 위한 본 개시의 일 실시 예에 따른 전자 장치를 제어하는 방법에 있어서, 복수의 이미지 중 사용자 위치에 대응되는 복수의 이미지를 선별하는 단계, 상기 선별된 복수의 이미지 각각에 포함된 객체 키워드를 획득하는 단계, 선별된 복수의 이미지 각각을 통해 획득된 객체 키워드의 빈도에 기초하여 메타버스의 가상 공간에 반영할 객체를 결정하는 단계 및 결정된 객체에 대응하는 객체 컨텐츠를 생성하는 단계를 포함할 수 있다.
여기서, 상기 결정하는 단계는, 상기 획득된 객체 키워드 각각의 빈도를 식별하고, 상기 복수의 객체 키워드 중 상기 식별된 빈도가 기 설정된 값 이상인 복수의 제1 객체 키워드를 선별하는 단계 및 상기 선별된 복수의 제1 객체 키워드에 기초하여, 상기 메타버스의 가상 공간에 반영할 객체를 결정하는 단계를 포함할 수 있다.
여기서, 상기 결정하는 단계는, 상기 사용자 위치와 상기 복수의 제1 객체 키워드 간의 의미 유사도를 식별하는 단계, 상기 복수의 제1 객체 키워드 중, 상기 식별된 의미 유사도가 기 설정된 값 이상인 의미 유사도를 갖는 제2 객체 키워드를 선별하는 단계 및 상기 선별된 제2 객체 키워드에 기초하여, 상기 메타버스의 가상 공간에 반영할 객체를 결정하는 단계를 포함할 수 있다.
또한, 상기 결정하는 단계는, 상기 각각의 이미지에 대응하는 객체 키워드의 개수를 식별하고, 상기 식별된 객체 키워드의 개수에 기초하여, 상기 객체 키워드의 빈도를 식별하고, 하나의 이미지에 대응하는 복수의 객체 키워드에 동일한 객체 키워드가 복수 개 포함된 경우, 상기 하나의 이미지에 대해서는 상기 동일한 객체 키워드의 개수를 한 개로 식별할 수 있다.
또한, 상기 사용자 위치가 기 설정된 위치인지 식별하는 단계, 상기 사용자 위치가 기 설정된 위치가 아닌 것으로 식별되면, 상기 선별된 복수의 이미지 각각의 배경 키워드를 획득하는 단계 및 상기 선별된 복수의 이미지 각각에 대응하는 배경 키워드의 빈도에 기초하여 상기 메타버스의 가상 공간에 반영할 배경을 결정하는 단계를 포함하고, 상기 생성하는 단계는, 상기 결정된 배경에 대응하는 배경 컨텐츠 및 상기 결정된 객체에 대응하는 객체 컨텐츠를 생성하는 단계를 포함할 수 있다.
또한, 상기 방법은, 상기 사용자 위치에 대응하는 기간 동안 획득된 적어도 하나의 텍스트를 식별하는 단계, 상기 식별된 적어도 하나의 텍스트에 대응하는 감정 키워드를 획득하는 단계, 상기 획득된 감정 키워드 및 상기 사용자 위치에 기초하여 상기 메타버스의 가상 공간에 반영할 배경을 결정하는 단계를 더 포함할 수 있다.
또한, 상기 방법은, 상기 객체 컨텐츠를 서버에 전송하는 단계 및 상기 서버로부터, 상기 객체 컨텐츠를 포함하는 가상 공간 영상을 수신하고, 상기 수신한 가상 공간 영상이 표시하는 단계를 더 포함할 수 있다.
여기서, 상기 방법은, 상기 가상 공간 영상 내 상기 객체 컨텐츠에 대응하는 위치에, 상기 객체 컨텐츠에 대응하는 적어도 하나의 이미지를 표시하기 위한 UI를 표시하는 단계를 더 포함할 수 있다.
또한, 상기 객체 키워드를 획득하는 단계는, 상기 선별된 복수의 이미지의 개수가 기 설정된 개수 이상인지 식별하는 단계 및 상기 사용자 위치에 대응하는 복수의 이미지의 개수가 기 설정된 개수 이상이면, 상기 선별된 복수의 이미지 각각에 포함된 객체 키워드를 획득하는 단계를 포함할 수 있다.
또한, 상기 선별하는 단계는, 상기 사용자의 위치를 실시간으로 감지하고, 상기 사용자의 위치가 제1 위치에서 제2 위치로 변경된 것으로 감지되면, 상기 복수의 이미지 중 상기 제1 위치에 대응하는 복수의 이미지를 선별할 수 있다.
도 1은 본 개시의 일 실시 예에 따른 전자 장치의 동작 방법을 설명하기 위한 도면이다.
도 2는 본 개시의 일 실시 예에 따른, 전자 장치의 구성을 설명하기 위한 블록도이다.
도 3은 본 개시의 일 실시 예에 따른, 사용자 위치에 대응하는 복수의 이미지를 선별하는 방법을 나타낸 도면이다.
도 4는 본 개시의 일 실시 예에 따른, 제1 신경망 모델을 이용하여 사용자 위치에 대응하는 복수의 이미지에 관하여 획득된 복수의 객체 키워드 및 획득된 복수의 객체 키워드의 빈도를 나타낸 예시도이다.
도 5는 본 개시의 일 실시 예에 따른, 복수의 객체 키워드의 빈도를 기초로 복수의 객체 키워드 중 제1 객체 키워드를 선별하는 것을 나타낸 예시도이다.
도 6은 본 개시의 일 실시 예에 따른, 객체 키워드와 사용자 위치 간의 의미 유사도를 기초로, 복수의 제1 객체 키워드 중 제2 객체 키워드를 선별하는 방법을 나타낸 예시도이다.
도 7은 본 개시의 일 실시 예에 따른, 하나의 이미지에 대응하는 복수의 객체 키워드 중 동일한 객체 키워드가 복수 개 포함된 경우 각각의 객체 키워드에 대한 빈도를 식별하는 방법을 설명하기 위한 예시도이다.
도 8은 본 개시의 일 실시 예에 따른, 사용자 위치가 기 설정된 위치가 아닌 것으로 식별되는 경우, 사용자 위치에 대응하는 복수의 이미지를 제2 신경망 모델(30)에 입력하여 배경 컨텐츠를 생성하는 방법을 나타낸 예시도이다.
도 9는 본 개시의 일 실시 예에 따른, 복수의 배경 키워드의 빈도를 기초로 배경 컨텐츠를 생성하는 것을 나타낸 예시도이다.
도 10은 본 개시의 일 실시 예에 따른, 제3 신경망 모델(40)에 기반하여, 사용자 위치에 대응하는 기간 동안 획득된 복수의 텍스트에 대응하는 복수의 감정 키워드를 획득하는 것을 나타낸 예시도이다.
도 11은 본 개시의 일 실시 예에 따른, 복수의 감정 키워드의 빈도를 기초로 배경 컨텐츠를 생성하는 것을 나타낸 예시도이다.
도 12는 본 개시의 일 실시 예에 따른, 객체 컨텐츠에 대응하는 적어도 하나의 이미지를 표시하기 위한 UI를 설명하기 위한 예시도이다.
도 13은 본 개시의 일 실시 예에 따른, 전자 장치의 세부적인 구성도이다.
도 14는 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 개략적으로 나타낸 순서도이다.
도 15는 본 개시의 일 실시 예에 따른 전자 장치가 사용자 단말 장치로 동작하는 방법을 설명하기 위한 도면이다.
도 16은 본 개시의 일 실시 예에 따른 전자 장치가 서버로 동작하는 방법을 설명하기 위한 도면이다.
본 개시의 실시 예에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 개시의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
본 명세서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
A 또는/및 B 중 적어도 하나라는 표현은 "A" 또는 "B" 또는 "A 및 B" 중 어느 하나를 나타내는 것으로 이해되어야 한다.
본 명세서에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 명세서에서, 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치(예: 인공 지능 전자 장치)를 지칭할 수 있다.
이하 첨부된 도면들을 참조하여 본 개시의 다양한 실시 예를 보다 상세하게 설명한다.
도 1은 본 개시의 일 실시 예에 따른 전자 장치의 동작 방법을 설명하기 위한 도면이다.
본 개시의 전자 장치(100)는, 메타버스의 가상 공간(200)에 표시될 컨텐츠를 생성하는 장치로서, TV, 스마트 폰, 태블릿 PC, 데스크 탑 PC 또는 노트북 PC 중 적어도 하나를 포함할 수 있으나 이에 한정되지 않는다. 다만, 이에 제한되는 것은 아니며, 전자 장치(100)는 클라우드 서버, 임베디드 서버 등의 다양한 형태의 서버를 포함할 수도 있다.
본 개시에 따른, 전자 장치(100)는 사용자 맞춤형 메타버스의 가상 공간(200) 내 반영할 컨텐츠를 제공한다. 보다 구체적으로, 전자 장치(100)에 저장된 복수의 이미지(10)를 활용하여, 메타버스의 가상 공간(200) 내 반영할 객체를 생성한다. 특히, 전자 장치(100)에 저장된 복수의 이미지(10)는, 사용자가 직접 획득하거나 또는, 다른 사용자(또는 다른 전자 장치)로부터 수신하여 저장된 것이다. 그렇기 때문에, 각각의 전자 장치(100)에 저장된 복수의 이미지(10)는, 전자 장치(100)의 사용자마다 고유하며 상이할 수 있다. 따라서, 본 개시의 일 실시 예에 따른 전자 장치(100)는 전자 장치(100)에 저장된 복수의 이미지(10)를 바탕으로 메타버스의 가상 공간(200) 내 반영할 컨텐츠를 생성하고, 이를 통해 사용자마다 서로 다른 고유의 메타버스 컨텐츠를 제공 받도록 한다.
이는, 동일한 메타버스의 가상 공간(200) 내에서 복수의 사용자가 입장하고, 인터렉션을 수행하는 종래 기술과는 차이점이 있다. 특히 동일한 메타버스의 가상 공간(200)의 경우, 가상 공간을 통해 제공되는 정보가 복수의 사용자에 대해 동일하다는 점에서, 복수의 사용자가 수행할 수 있는 인터렉션이 제한적일 수 밖에 없다. 그러나, 본 개시는, 각각의 사용자(1-1, 1-2 및 1-3)가 갖고 있는 이미지(보다 구체적으로, 각각의 사용자의 전자 장치에 저장된 이미지)를 바탕으로 생성된 고유의 메타버스 가상 공간(200)을 제공하기 때문에, 사용자가 제공 받거나 또는 획득할 수 있는 컨텐츠 또는 정보가 다양하다.
이하에서는, 이와 관련된 본 개시의 실시 예에 대하여 구체적으로 설명하도록 한다.
도 2는 본 개시의 일 실시 예에 따른, 전자 장치의 구성을 설명하기 위한 블록도이다.
도 2에 따르면, 전자 장치(100)는 메모리(110) 및 프로세서(120)를 포함한다.
메모리(110)는 본 개시의 다양한 실시 예를 위해 필요한 데이터를 저장할 수 있다. 메모리(110)는 데이터 저장 용도에 따라 전자 장치(100)에 임베디드 된 메모리 형태로 구현되거나, 전자 장치(100)와 통신 가능한(또는 탈 부착 가능한) 메모리 형태로 구현될 수도 있다. 예를 들어, 전자 장치(100)의 구동을 위한 데이터의 경우 전자 장치(100)에 임베디드 된 메모리에 저장되고, 전자 장치(100)의 확장 기능을 위한 데이터의 경우, 전자 장치(100)와 통신 가능한 메모리에 저장될 수 있다.
한편, 전자 장치(100)에 임베디드 된 메모리의 경우 휘발성 메모리(예: DRAM(dynamic RAM), SRAM(static RAM), 또는 SDRAM(synchronous dynamic RAM) 등), 비휘발성 메모리(non-volatile Memory)(예: OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, 플래시 메모리(예: NAND flash 또는 NOR flash 등), 하드 드라이브, 또는 솔리드 스테이트 드라이브(solid state drive(SSD)) 중 적어도 하나로 구현될 수 있다. 또한, 전자 장치(100)와 통신 가능한 메모리(110)의 경우 메모리 카드(예를 들어, CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), xD(extreme digital), MMC(multi-media card) 등), USB 포트에 연결 가능한 외부 메모리(예를 들어, USB 메모리(110)) 등과 같은 형태로 구현될 수 있다.
본 개시의 일 실시 예에 따라, 메모리(110)에는 복수의 이미지(10)가 저장될 수 있다. 복수의 이미지(10)에는 전자 장치(100)에 포함된 카메라를 통해 획득한 이미지, 전자 장치(100)에 구비된 입력 인터페이스를 통해 입력된 사용자 명령어에 기초하여 웹 페이지를 캡쳐하여 획득한 이미지, 또는 통신 인터페이스를 통해 타 전자 장치로부터 수신하여 획득한 이미지 등을 포함할 수 있다. 이처럼, 메모리(110)에는 다양한 형태 및 다양한 경로를 통해 획득된 복수의 이미지(10)가 저장될 수 있다.
한편, 본 개시의 일 실시 예에 따라, 메모리(110)에는 복수의 신경망 모델이 저장될 수 있다. 일 예로, 메모리(110)에는 이미지 내에 포함된 객체를 검출하는 신경망 모델(20), 이미지 내 배경을 식별하는 신경망 모델(30) 및 텍스트에 대응하는 감정을 식별하는 신경망 모델(40)이 저장될 수 있다. 또한, 본 개시의 일 실시 예에 따라, 메모리(110)에는 상술한 복수의 신경망 모델을 기초로 생성된 컨텐츠 정보가 저장될 수도 있다.
프로세서(120)는 전자 장치(100)의 동작을 전반적으로 제어한다. 구체적으로, 프로세서(120)는 전자 장치(100)의 각 구성과 연결되어 전자 장치(100)의 동작을 전반적으로 제어할 수 있다. 예를 들어, 프로세서(120)는 메모리(110), 카메라, 통신 인터페이스 등과 같은 구성과 연결되어 전자 장치(100)의 동작을 제어할 수 있다.
일 실시 예에 따라 프로세서(120)는 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor), TCON(Time controller)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(120)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형태로 구현될 수도 있다.
또한, 일 실시 예에 따른 신경망 모델(또는, 인공 지능 모델)을 실행하기 위한 프로세서(120)는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서(120) 또는 NPU와 같은 인공 지능 전용 프로세서와 소프트웨어의 조합을 통해 구현될 수 있다.
프로세서(120)는, 메모리(110)에 저장된 기 정의된 동작 규칙 또는 인공 지능 모델에 따라, 입력 데이터를 처리하도록 제어할 수 있다. 또는, 프로세서(120)가 전용 프로세서(또는 인공 지능 전용 프로세서)인 경우, 특정 인공 지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다. 예를 들어, 특정 인공 지능 모델의 처리에 특화된 하드웨어는 ASIC, FPGA 등의 하드웨어 칩으로 설계될 수 있다. 프로세서(120)가 전용 프로세서로 구현되는 경우, 본 개시의 실시 예를 구현하기 위한 메모리를 포함하도록 구현되거나, 외부 메모리를 이용하기 위한 메모리 처리 기능을 포함하도록 구현될 수 있다.
도 3은 본 개시의 일 실시 예에 따른, 사용자 위치에 대응하는 복수의 이미지를 선별하는 방법을 나타낸 도면이다.
먼저, 본 개시의 일 실시 예에 따라 프로세서(120)는 메모리(110)에 저장된 복수의 이미지(10) 중 사용자 위치에 대응되는 복수의 이미지(10)를 선별한다.
구체적으로, 프로세서(120)는 메모리(110)에 저장된 복수의 이미지(10)를 각각의 사용자 위치에 따라 분류할 수 있다.
여기서, 사용자 위치에 대응되는 복수의 이미지(10)란, 사용자가 특정 위치에 있는 동안 획득한 후 메모리(110)에 저장된 이미지일 수 있다. 구체적으로, 사용자가 특정 위치에서 카메라를 통해 획득한 후 메모리(110)에 저장된 이미지이거나, 또는 사용자가 특정 위치에 있는 동안, 통신 인터페이스를 통해 타 전자 장치(100)로부터 수신한 후 메모리(110)에 저장된 이미지일 수 있다.
예를 들어, 사용자 위치가 파리라고 가정하였을 때, 사용자 위치에 대응하는 복수의 이미지(10)는, 사용자가 파리에 위치하는 동안 카메라를 통해 획득하여 저장된 사진, 메신저, SNS(Social Network Service) 등을 통해 획득된 후 저장된 이미지, 웹 페이지 상에서 캡쳐된 후 저장된 이미지 등을 포함할 수 있다.
한편, 프로세서(120)는 전자 장치(100)에 포함된 GPS 센서에서 획득된 전자 장치(100)의 GPS 좌표를 기초로, 사용자 위치를 식별할 수도 있다. 이에 따라, 프로세서(120)는 전자 장치(100)의 GPS 좌표가 변경될 때마다, 사용자 위치가 변경된 것으로 식별할 수 있다. 사용자 위치가 변경된 것으로 식별되면, 프로세서(120)는 메모리(110)에 저장된 복수의 이미지(10) 중에서, 변경 전 사용자 위치에 대응하는 복수의 이미지(10)를 선별할 수 있다.
예를 들어, 프로세서(120)가 전자 장치(100)의 GPS 센서를 통해 획득된 전자 장치(100)의 GPS 좌표를 바탕으로, 사용자 위치가 파리(제1 위치)에서 런던(제2 위치)으로 변경되었음을 식별하였다고 가정한다. 이때, 프로세서(120)는 사용자 위치가 런던(제2 위치)으로 변경되기 전에 저장된 복수의 이미지(10)에 대해서는 파리(제1 위치)에 대응하는 복수의 이미지(10)로 분류하여 식별하고, 사용자 위치가 런던(제2 위치)로 변경된 이후 메모리(110)에 저장된 복수의 이미지(10)에 대해서는 런던(제2 위치)에 대응하는 복수의 이미지(10)로 분류하여 식별할 수 있다. 이처럼, 프로세서(120)는 사용자의 위치가 변경될 때마다, 메모리(110)에 저장된 복수의 이미지(10)를 사용자의 위치에 대응하여 분류할 수 있다.
한편, 프로세서(120)는 사용자 위치가 변경된 경우, 변경된 사용자 위치를 중심으로 기 설정된 반경 내에서 사용자 위치가 변경된 것으로 식별되더라도, 사용자 위치가 동일한 것으로 식별할 수 있다. 예를 들어, 사용자 위치가 제3 위치에서 제4 위치로 변경된 것으로 식별된 이후, 제4 위치에서 기 설정된 반경(예를 들어, 10km) 내에서 사용자 위치가 변경되더라도, 프로세서(120)는 사용자 위치를 제4 위치로 식별할 수 있다.
다만, 이에 제한되는 것은 아니며, 사용자 위치 변경에 대한 기준 및 범위는 다양한 방식으로 설정될 수 있다. 예를 들어, 프로세서(120)는 GPS 정보를 기반으로, 사용자 위치가 속하는 도시(또는, 시, 군 등)가 변경될 때마다 사용자의 위치가 변경된 것으로 식별할 수도 있다.
한편, 메모리(110)에는, 복수의 이미지(10)가 사용자 위치에 따른 데이터 셋(Data Set)의 형태로 저장될 수 있다. 예를 들어, 도 3을 참조하면, 사용자가 파리에 위치하는 동안, 획득한 복수의 이미지(10)가 데이터 셋의 형태로 저장될 수 있다. 또한, 사용자가 런던에 위치하는 동안, 획득한 복수의 이미지(10)가 데이터 셋의 형태로 저장될 수 있다. 또는, 사용자가 “OO군 OO면 OO로 177”에 위치하는 동안, 획득한 복수의 이미지(10)가 데이터 셋의 형태로 저장될 수 있다.
이처럼, 프로세서(120)는 메모리(110)에 저장된 복수의 이미지(10)를 사용자 위치에 따라 분류할 수 있다.
이때, 프로세서(120)는 각각의 사용자 위치에 대응되는 이미지와 함께, 각각의 사용자 위치에 대응하는 시간을 식별할 수 있다. 사용자 위치에 대응하는 시간은, 사용자가 특정 위치에 있던 기간일 수 있다. 프로세서(120)는 사용자의 위치가 변경되는 시점, 사용자가 변경된 위치에서 머물렀던 기간 그리고 다시 사용자의 위치가 변경되는 시점을 식별하여 사용자 위치에 대응하는 시간을 식별할 수 있다. 또는 사용자의 위치에 대응하는 시간은 각각의 이미지에 포함된 메타 데이터를 바탕으로 식별될 수 있다.
예를 들어, 도 3을 참조하면, 프로세서(120)는, 파리에서 획득한 후 저장된 최초 이미지에 포함된 메타 데이터와 파리에서 획득한 후 저장된 마지막 이미지에 포함된 메타 데이터를 바탕으로, 사용자가 파리에 있던 기간을 식별할 수 있다. 이때, 도 3에 따르면, 프로세서(120)는 파리에 대응하는 기간을 “2022년 6월 5일 09:00 ~ 2022년 6월 12일 17:13”으로 식별하였다.
프로세서(120)는, 사용자 위치에 대응하여 선별된 복수의 이미지(10)를 기초로, 메타버스의 가상 공간(200) 내 반영할 객체 컨텐츠(210)를 획득할 수 있다. 구체적으로, 프로세서(120)는 복수의 이미지(10)로부터 객체 키워드를 획득하고, 획득된 객체 키워드에 대응하는 객체 컨텐츠(210)를 생성할 수 있다. 그리고, 프로세서(120)는 생성된 객체 컨텐츠(210)를 메타버스의 가상 공간(200) 내 표시할 수 있다.
예를 들어, 도 3을 참조하면, 프로세서(120)는 사용자 위치인 파리에 대응하는 복수의 이미지(10)로부터 객체 키워드로 “에펠탑” 및 “개선문”을 획득할 수 있다. 그리고, 프로세서(120)는 획득된 객체 키워드인, “에펠탑”과 “개선문”에 각각 대응하는 객체 컨텐츠(210)를 생성할 수 있다.
객체 컨텐츠(210)는, 메타버스의 가상 공간(200) 내 반영되는 3차원의 객체 이미지일 수 있다. 예를 들어, 객체 컨텐츠(210)는 메타버스의 가상 공간(200) 내에서 표시되는 사람, 동물, 음식, 사물 등에 관한 3차원 이미지일 수 있다. 즉, 도 3을 참조하면, 프로세서(120)는 객체 컨텐츠(210)로 “에펠탑” 및 “개선문”에 관한 3차원의 이미지를 생성하고, 생성된 “에펠탑” 및 “개선문”의 3차원의 이미지를 메타버스의 가상 공간(200) 내 기 설정된 위치에 배치시킬 수 있다.
한편, 메타버스의 가상 공간(200)에는 기 설정된 사용자 컨텐츠(201)가 함께 반영될 수 있다. 사용자 컨텐츠(201)는 사용자를 나타내는 그래픽 객체로 사용자 설정에 의해 생성될 수 있다. 예를 들어, 프로세서(120)는 사용자는 입력 인터페이스를 통해 입력되거나 또는 설정된 사용자 컨텐츠(201)의 얼굴, 체형, 키, 몸무게, 옷, 신발 등에 기초하여 3차원 이미지의 사용자 컨텐츠를 생성할 수 있다.
한편, 본 개시의 일 실시 예에 따라, 프로세서(120)는, 사용자의 위치를 실시간으로 감지하고, 사용자의 위치가 제1 위치에서 제2 위치로 변경된 것으로 감지되면, 복수의 이미지 중 상기 제1 위치에 대응하는 복수의 이미지를 선별할 수 있다.
구체적으로, 프로세서(120)는 GPS 정보를 기초로, 사용자의 실시간 위치를 감지할 수 있다. 프로세서(120)는 사용자의 실시간 위치가 변경된 것으로 감지되면, 메모리(110)에 저장된 복수의 이미지(10) 중 변경 전 사용자의 위치에 대응하는 복수의 이미지(10)를 선별하고, 선별된 복수의 이미지(10)를 기초로 메타버스의 가상 공간(200)에 반영할 가상 컨텐츠(예를 들어, 가상 객체 컨텐츠)를 생성할 수 있다. 즉, 프로세서는 사용자의 위치가 변경될 때마다, 변경 전 사용자의 위치에 대응하는 복수의 이미지(10)를 통해 객체 키워드를 획득하고, 획득된 객체 키워드를 기초로 가상 공간(200)에 반영할 가상 컨텐츠를 생성할 수 있다.
예를 들어, 프로세서(120)는 사용자의 실시간 위치가 제1 위치에서 제2 위치로 변경된 것으로 감지되면, 메모리(110)에 저장된 복수의 이미지 중 제1 위치에 대응하는 복수의 이미지를 선별할 수 있다. 그리고, 프로세서(120)는 제1 위치에 대응하는 복수의 이미지를 통해 객체 키워드를 획득하고, 획득된 객체 키워드에 대응하는 객체 컨텐츠를 생성할 수 있다. 이때, 생성된 객체 키워드는 사용자의 실시간 위치인 제2 위치와는 관련이 없으며, 변경 전 사용자 위치에 해당하는 제1 위치와 관련된 것일 수 있다.
이하에서는, 본 개시의 일 실시 예에 따른, 객체 컨텐츠(210)를 생성하는 구체적인 방법에 대하여 설명하도록 한다.
도 4는 본 개시의 일 실시 예에 따른, 제1 신경망 모델을 이용하여 사용자 위치에 대응하는 복수의 이미지(10)에 관하여 획득된 복수의 객체 키워드 및 획득된 복수의 객체 키워드의 빈도를 나타낸 예시도이다.
먼저, 본 개시의 일 실시 예에 따라, 프로세서(120)는 선별된 복수의 이미지(10) 각각에 포함된 객체 키워드를 획득한다.
구체적으로, 프로세서(120)는 각각의 이미지에 포함된 객체에 관한 객체 키워드를 획득할 수 있다. 여기서, 객체 키워드는 객체의 유형, 객체의 색상, 객체의 위치, 객체의 성별 등을 나타내는 키워드를 포함할 수 있다. 프로세서(120)는 각각의 이미지에 객체가 포함되었는지 식별하고, 식별된 객체의 유형, 색상 등을 식별한 후 객체 키워드를 획득할 수 있다. 이때, 프로세서(120)는 메모리(110)에 저장된 객체 - 객체 키워드 매칭 테이블을 바탕으로 객체 키워드를 획득할 수 있다. 객체 - 객체 키워드 매칭 테이블은, 각각의 객체와 매칭하는 적어도 하나의 객체 키워드가 저장된 테이블을 의미한다. 이에 따라, 프로세서는 선별된 이미지 내 객체의 유형을 식별하고, 식별된 객체의 유형과 매칭되는 객체 키워드를 객체 - 객체 키워드 매칭 테이블 내에서 획득할 수 있다.
한편, 본 개시의 일 실시 예에 따라, 프로세서는 선별된 이미지 내 객체에 관한 객체 키워드를 획득하기 위하여 신경망 모델을 이용할 수 있다. 즉, 프로세서(120)는 이미지 내에 포함된 객체를 검출하는 신경망 모델(20)을 이용하여, 복수의 이미지(10) 각각에 포함된 객체 키워드를 획득한다.
이미지 내에 포함된 객체를 검출하는 신경망 모델(20)은, 입력된 이미지 내에 포함된 객체를 검출하고, 검출된 객체의 유형을 식별하고, 식별된 객체의 유형에 대한 키워드를 출력하도록 학습된 신경망 모델일 수 있다.
이를 위해, 이미지 내에 포함된 객체를 검출하는 신경망 모델(20)은, 객체를 포함하는 복수의 이미지(10)로 구성된 학습 데이터를 바탕으로, 사전에 학습된 신경망 모델일 수 있다. 이미지 내에 포함된 객체를 검출하는 신경망 모델(20)은, CNN(Convolutional Neural Network) 모델, FCN(Fully Convolutional Networks) 모델, RCNN (Regions with Convolutional Neuron Networks features) 모델, YOLO 모델 등으로 구현될 수 있다. 이하에서는, 설명의 편의를 위해, 본 개시의 실시 예에 따른 이미지 내에 포함된 객체를 검출하는 신경망 모델(20)을 제1 신경망 모델(20)로 지칭하여 설명한다.
프로세서(120)는, 제1 신경망 모델(20)에 사용자 위치에 대응하여 선별된 복수의 이미지(10)를 각각 입력하고, 각각의 이미지에서 검출된 객체에 대응하는 객체 키워드를 획득할 수 있다. 객체 키워드는, 검출된 객체의 유형, 종류 등을 나타내는 키워드일 수 있다.
구체적으로, 도 4를 참조하면 프로세서(120)는 사용자 위치를 파리로 식별하고, 메모리(110)에 저장된 복수의 이미지(10) 중, 식별된 파리에 위치에 대응하는 복수의 이미지(10)를 선별한다. 그리고, 프로세서(120)는 선별된 복수의 이미지(10)를 제1 신경망 모델(20)에 입력하여, 각각의 이미지에 포함된 객체에 대응하는 객체 키워드를 획득할 수 있다. 이때, 도 3을 참조하면, 프로세서(120)는 파리에 대응하는 복수의 이미지(10)를 통해 획득한 객체 키워드로, “에펠탑”, “사람 1”, “개선문”, “자동차”, “강아지” 등이 있다.
이때, 본 개시의 일 실시 예에 따라, 프로세서(120)는, 복수의 이미지(10) 중 사용자 위치에 대응하는 복수의 이미지(10)의 개수가 기 설정된 개수 이상인지 식별하고, 사용자 위치에 대응하는 복수의 이미지(10)의 개수가 기 설정된 개수 이상이면, 제1 신경망 모델(20)을 이용하여, 선별된 복수의 이미지(10) 각각에 포함된 객체 키워드를 획득할 수 있다.
구체적으로, 프로세서(120)는 복수의 이미지(10)와 대응되는 사용자 위치가 사용자에게 의미 있는 장소인지 식별할 수 있다. 이를 위해, 프로세서(120)는 각각의 사용자 위치에 대응하는 복수의 이미지(10)의 개수가 기 설정된 개수 이상이지 식별하고, 복수의 이미지(10)의 개수가 기 설정된 개수 이상인 사용자 위치에 대해서만 메타버스의 가상 공간(200)에 반영할 객체 컨텐츠(210)를 생성하는 것으로 결정할 수 있다. 다시 말해, 사용자가 특정 위치(또는 장소)에 있는 동안, 많은 이미지를 저장하였다면, 프로세서(120)는 특정 위치(또는 장소)가 사용자에게 의미 있는 또는 중요한 위치(또는 장소)라고 식별하고, 특정 위치를 메타버스의 가상 공간(200)에서 구현하는 것으로 결정할 수 있다.
또한, 프로세서(120)는 메타버스의 가상 공간(200)을 구성하는 가상 컨텐츠를 구현하기에 충분한 데이터가 있는지 사용자 위치에 대응하는 복수의 이미지(10)의 개수에 기초하여 식별할 수 있다. 메타버스의 가상 공간(200)에 반영되는 객체 컨텐츠(210)는, 별도의 사용자 입력 또는 데이터 수신 없이 메모리(110)에 저장된 복수의 이미지(10)를 바탕으로 생성된다. 이는, 사용자가 카메라를 통해 획득된 이미지 또는 메신저 등을 통해 수신된 이미지를 저장하는 것만으로도, 특정 위치가 메타버스의 가상 공간(200)으로 구현되는 서비스를 제공받는 것을 의미할 수 있다. 즉, 사용자의 메타버스의 가상 공간(200)을 구현하기 위한 별도의 작업 없이도, 사용자는 사용자가 머물렀던 위치 및 장소에 관한 컨텐츠를 메타버스의 가상 공간(200) 내에서 경험할 수 있다.
이를 위해서는, 메타버스의 가상 공간(200) 내 표시될 객체 컨텐츠(210)를 생성하기 위한 충분한 데이터가 필요하다. 따라서, 프로세서(120)는 각각의 사용자 위치에 대응하는 복수의 이미지(10)의 개수를 식별하고, 복수의 이미지(10)의 개수가 기 설정된 개수 이상인 사용자 위치에 대해서만, 메타버스의 가상 공간(200)에 반영할 객체 컨텐츠(210)를 생성할 수 있다.
한편, 프로세서(120)는 복수의 이미지(10)의 개수가 기 설정된 개수 이상인 것으로 식별되면, 복수의 이미지(10)를 제1 신경망 모델(20)에 각각 입력하여, 복수의 객체 키워드를 획득할 수 있다. 이에 관해서는 상술하여 설명하였으므로 자세한 설명은 생략하도록 한다.
한편, 본 개시의 일 실시 예에 따라, 프로세서(120)는 선별된 복수의 이미지(10) 각각을 통해 획득된 객체 키워드의 빈도에 기초하여 메타버스의 가상 공간(200)에 반영할 객체를 결정한다.
객체 키워드의 빈도는, 사용자 위치에 대응하여 선별된 복수의 이미지(10)를 순차적으로 제1 신경망 모델(20)에 입력하였을 때, 프로세서(120)가 사용자 위치에 대하여 획득한 객체 키워드의 누적 개수일 수 있다.
구체적으로, 프로세서(120)는 사용자 위치에 대응하여 선별된 복수의 이미지(10)를 제1 신경망 모델(20)에 각각 입력하여, 각각의 이미지에 대응하는 적어도 하나의 객체 키워드를 획득할 수 있다. 예를 들어, 프로세서(120)는 객체가 포함되지 않은 이미지에 대해서는 제1 신경망 모델(20)을 통해 객체 키워드를 획득하지 않을 수 있다. 또는, 프로세서(120)는 복수의 객체가 포함된 이미지에 대해서는 복수의 객체에 대응하는 복수의 키워드를 획득할 수 있다. 이때, 프로세서(120)는 각각의 이미지에 대하여 획득된 객체 키워드의 누적 개수를 식별할 수 있다.
구체적으로, 도 4를 참조하면, 프로세서(120)는 사용자 위치인 파리에 대응하는 복수의 이미지(10)를 제1 신경망 모델(20)에 각각 입력하여, 객체 키워드를 획득할 때마다 획득된 객체 키워드의 누적 개수를 식별할 수 있다. 도 3에 따르면, 프로세서(120)는 객체 키워드, “에펠 탑”의 누적 개수를 10개로 식별하였다. 그리고, 프로세서(120)는 객체 키워드, “사람 1”의 누적 개수를 8개로 식별하였다. 이처럼, 프로세서(120)는 각각의 객체 키워드가 획득될 때마다, 획득된 각각의 키워드의 누적 개수를 식별하여, 각각의 키워드의 빈도를 식별할 수 있다.
그리고, 프로세서(120)는 빈도가 높은 객체 키워드에 대해서는, 사용자가 객체 키워드에 대응하는 객체에 관한 이미지를 반복하여 획득하여 저장한 것으로 식별할 수 있다. 그리고, 프로세서(120)는, 사용자가 반복하여 이미지를 획득한 객체가 사용자 위치와 관련이 높은 것으로 식별할 수 있다. 즉, 프로세서(120)는 해당 객체가 사용자 위치와 의미가 있는 것으로 식별할 수 있다.
다시 도 4를 참조하면, “파리”에 대응하는 복수의 이미지(10)로부터 획득된 복수의 객체 키워드 중 “에펠 탑”이 가장 높은 빈도를 갖는 것으로 식별되었다. 이때, 프로세서(120)는 사용자에게 “파리”와 관련하여 "에펠 탑"이 의미 있는 객체로 또는 중요한 객체로 식별할 수 있다. 그리고, 프로세서(120)는 “에펠 탑에 관한 객체 컨텐츠(210)를 생성하는 것으로 결정할 수 있다. 사용자가 “파리”에 있는 동안 “에펠 탑”에 관한 이미지를 많이 저장했다는 것은, 사용자가 “파리”에서 “에펠 탑”에 대한 좋은 기억을 갖고 있다는 것을 의미할 수도 있다. 따라서, 프로세서(120)는, “파리”에 관한 메타버스의 가상 공간(200)을 구현하는데 있어, “에펠 탑”의 컨텐츠를 생성하고, 생성된 “에펠 탑”의 컨텐츠를 가상 공간 내 포함시킴으로써, 사용자에게 파리에 관한 좋은 기억을 상기시키는 효과를 발휘할 수 있다.
한편, 본 개시의 실시 예에 따라, 메타버스의 가상 공간(200)에 반영할 객체를 결정한 후 프로세서(120)는 결정된 객체에 대응하는 객체 컨텐츠(210)를 생성한다.
구체적으로, 결정된 객체에 대응하는 3차원 이미지를 렌더링(rendering) 할 수 있다. 한편, 메모리(110)에는 각각의 객체 키워드 또는 각각의 객체에 대응하는 3차원 객체 이미지(또는 3차원 객체 이미지를 생성하는 프로그램)가 저장될 수 있다. 이에 따라, 프로세서(120)는 결정된 객체에 대응하는 3차원 객체 이미지를 메모리(110)로부터 획득하고, 획득된 3차원 객체 이미지를 메타버스의 가상 공간(200)에 표시할 수 있다. 또는 프로세서(120)는 통신부를 통해 획득된 객체 키워드를 외부 장치(예를 들어, 외부 서버)로 송신하고, 통신부를 통해 외부 장치로부터 객체 키워드에 대응하는 3차원 객체 이미지를 획득할 수도 있다.
한편, 본 개시의 일 실시 예에 따라, 프로세서(120)는, 획득된 객체 키워드 각각의 빈도를 식별하고, 복수의 객체 키워드 중 식별된 빈도가 기 설정된 값 이상인 적어도 하나의 객체 키워드를 선별할 수 있다. 그리고, 프로세서(120)는 선별된 적어도 하나의 객체 키워드에 기초하여, 메타버스의 가상 공간(200)에 반영할 객체를 결정할 수 있다.
도 5는 본 개시의 일 실시 예에 따른, 복수의 객체 키워드의 빈도를 기초로 복수의 객체 키워드 중 제1 객체 키워드를 선별하는 것을 나타낸 예시도이다.
구체적으로, 프로세서(120)는, 사용자 위치에 대응하는 복수의 이미지(10)를 통해 획득된 각각의 객체 키워드의 빈도를 식별할 수 있다. 즉, 프로세서(120)는 획득된 각각의 객체 키워드의 누적 개수를 식별할 수 있다. 그리고, 프로세서(120)는 복수의 이미지(10)를 통해 획득된 전체 객체 키워드 중 획득된 누적 개수가 기 설정된 값 이상인 객체 키워드를 식별할 수 있다. 그리고, 프로세서(120)는 획득된 누적 개수가 기 설정된 값 이상인 객체 키워드에 대응하는 객체 컨텐츠(210)를 생성할 수 있다.
만약, 프로세서(120)가 복수의 이미지(10)를 통해 획득된 객체 키워드를 모두 이용하여, 각각의 객체 키워드에 대응하는 객체 컨텐츠(210)를 만드는 것은, 오랜 시간이 소요되고 전자 장치(100)의 리소스가 많이 소비할 수 있다. 따라서, 프로세서(120)는 복수의 객체 키워드 중 사용자에게 의미가 있는 객체 키워드 만을 선별하고, 선별된 객체 키워드에 대응하는 객체 컨텐츠(210)를 생성할 수 있다. 이하에서는, 전체 객체 키워드 중 빈도가 기 설정된 값 이상인 객체 키워드를 제1 객체 키워드라고 지칭한다.
예를 들어, 도 5를 참조하면, 제1 객체 키워드를 선별하는 기 설정된 값이 2라고 가정하였을 때, 기 설정된 값 이상의 빈도를 갖는 객체 키워드는 복수의 객체 키워드 중 “에펠 탑”, “사람 1”, “개선 문”, “자동차”, “강아지” 및 “바게트 빵”이다. 이에 따라, 프로세서(120)는 파리에 대응하는 복수의 객체 키워드 중 제1 객체 키워드로, “에펠 탑”, “사람 1”, “개선 문”, “자동차”, “강아지” 및 “바게트 빵”을 선별할 수 있다. 그리고, 프로세서(120)는 선별된 제1 객체 키워드에 대응하는 객체 컨텐츠(210)로, “에펠 탑”에 관한 3차원 이미지(211), “사람 1”에 관한 3차원 이미지(212), “개선 문”에 관한 3차원 이미지(213), “자동차”에 관한 3차원 이미지(214), “강아지”에 관한 3차원 이미지(215) 및 “바게트 빵”에 관한 3차원 이미지(216)를 생성할 수 있다. 그리고, 프로세서(120)는 생성된 복수의 객체 컨텐츠(210)를 메타버스의 가상 공간(200)에 표시할 수 있다.
이때, 각각의 객체 컨텐츠(210)가 표시되는 위치는, 객체 키워드의 유형에 따라 기 설정될 수 있다. 또는, 각각의 객체 키워드가 획득된 이미지 내 메타 데이터를 바탕으로 식별된 각각의 이미지가 획득된 위치에 기초하여 각각의 객체 키워드가 메타버스의 가상 공간(200)에 표시되는 위치가 결정될 수 있다. 한편, 메타버스의 가상 공간(200)에 표시되는 각각의 객체 컨텐츠(210)의 위치는 사용자에 의해 변경될 수 있음은 물론이다.
도 6은 본 개시의 일 실시 예에 따른, 객체 키워드와 사용자 위치 간의 의미 유사도를 기초로, 복수의 제1 객체 키워드 중 제2 객체 키워드를 선별하는 방법을 나타낸 예시도이다.
한편, 본 개시의 일 실시 예에 따라, 프로세서(120)는, 사용자 위치와 복수의 제1 객체 키워드 간의 의미 유사도를 식별하고, 복수의 제1 객체 키워드 중, 식별된 의미 유사도가 기 설정된 값 이상인 의미 유사도를 갖는 적어도 하나의 객체 키워드를 선별할 수 있다. 그리고, 프로세서(120)는 선별된 적어도 하나의 객체 키워드에 기초하여, 메타버스의 가상 공간(200)에 반영할 객체를 결정할 수 있다.
구체적으로, 프로세서(120)는, 사용자에게 사용자 위치와 의미가 있는 것으로 식별된 복수의 제1 객체 키워드 중에서 사용자 위치와 관련성이 높은 적어도 하나의 객체 키워드를 선별할 수 있다. 이하에서는, 제1 객체 키워드 중 사용자 위치와 기 설정된 값 이상인 의미 유사도를 갖는 제1 객체 키워드를 제2 객체 키워드라고 지칭한다.
구체적으로, 프로세서(120)는 객체 키워드의 빈도에 기초하여 획득된 복수의 객체 키워드 중, 사용자에게 사용자 위치와 의미 있는 제1 객체 키워드를 선별할 수 있었다. 다만, 제1 객체 키워드는 사용자 위치에 대응하는 복수의 이미지(10)를 통해 객체 키워드가 얼마나 빈번하게 획득 되었는지를 기준으로 선별된 것이므로, 복수의 제1 객체 키워드 중에서는 노이즈가 포함될 수 있다. 노이즈는, 객체 키워드의 빈도에 기초하여, 사용자 위치와 의미가 있는 것으로 잘못 식별된 객체 키워드 또는 잘못 식별된 객체 키워드에 대응하는 이미지일 수 있다.
예를 들어, 사용자가 파리에 있는 동안, 메신저를 통해 특정 상대방으로부터 특정 객체가 포함된 복수의 이미지(10)를 수신하였다고 가정한다. 이때, 사용자가 의도치 않게, 또는 무의식 중에 수신한 복수의 이미지(10)를 저장하였다면, 파리에 대응하는 복수의 이미지(10)로 메신저를 통해 수신한 특정 객체가 포함된 복수의 이미지(10)가 선별될 수 있다. 이는, 결국 특정 객체에 대응하는 객체 키워드가 제1 객체 키워드로 선별되는 결과로 이어질 수 있다. 즉, 사용자가 머물렀던 파리와는 의미가 없는 객체 키워드가 제1 객체 키워드로 선별되는 결과를 초래한다.
따라서, 본 개시의 일 실시 예에 따라, 프로세서(120)는 선별된 복수의 제1 객체 키워드와 사용자 위치 간의 의미 유사도를 식별하고, 식별된 의미 유사도를 기초로, 복수의 제1 객체 키워드 중 사용자 위치와 실질적으로 관련성이 있는 객체 키워드를 선별할 수 있다. 이를 위해, 프로세서(120)는 의미 유사도가 기 설정된 값 이상인 의미 유사도를 갖는 제1 객체 키워드를 제2 객체 키워드로 선별할 수 있다.
구체적으로, 프로세서(120)는 제1 객체 키워드와 사용자 위치에 대응하는 텍스트(50) 간의 유사도를 식별할 수 있다. 구체적으로, 프로세서(120)는 제1 객체 키워드와 사용자 위치 각각에 대응하는 벡터를 획득하고, 각각의 벡터 간의 코사인 각도를 식별하고, 식별된 코사인 각도를 기초로 제1 객체 키워드와 사용자 위치 간의 의미 유사도를 식별할 수 있다. 또는, 각각의 벡터 간의 유클리드 거리를 측정하고, 측정된 유클리드 거리를 기초로 제1 객체 키워드와 사용자 위치 간의 의미 유사도를 식별할 수 있다. 이를 위해, 프로세서(120)는 제1 객체 키워드와 사용자 위치 간의 의미 유사도를 산출하도록 학습된(또는 텍스트(50) 간의 의미 유사도를 산출하도록 학습된) 신경망 모델을 이용할 수 있다. 이때, 의미 유사도를 산출하는 신경망 모델은, Word2vec 모델, CNN 모델, 자연어 처리 모델(Natural Language Processing Model), Bert 모델(Bidirectional Encoder Representations from Transformers Model) 등을 포함할 수 있다.
한편, 프로세서(120)는 복수의 제1 객체 키워드 중, 식별된 의미 유사도가 기 설정된 값 이상인 의미 유사도를 제1 객체 키워드를 제2 객체 키워드로 선별할 수 있다. 구체적으로, 도 6을 참조하면, 프로세서(120)는 선별된 복수의 제1 객체 키워드(에펠 탑, 사람 1, 개선문, 자동차, 강아지, 바게트 빵)와 사용자 위치(파리) 간의 의미 유사도를 식별할 수 있다. 이때, 의미 유사도에 관한 기 설정된 값이 30인 경우, 프로세서(120)는 복수의 제1 객체 키워드 중 자동차를 제외한 나머지 제1 객체 키워드를 제2 객체 키워드로 선별할 수 있다. 즉, 프로세서(120)는 의미 유사도에 기초하여, 사용자 위치에 해당하는 파리와 자동차와는 관련성이 없는 것으로 식별하였다. 그리고, 프로세서(120)는 의미 유사도에 기초하여, 제2 객체 키워드로 선별된 에펠 탑, 사람 1, 개선문, 강아지 및 바게트 빵이 사용자 위치에 해당하는 파리와 관련성이 높은 것으로 식별할 수 있다.
그리고, 본 개시의 일 실시 예에 따라, 프로세서(120)는 선별된 제2 객체 키워드에 대응하는 객체를 식별하고, 식별된 객체에 대응하는 객체 컨텐츠(210)를 생성할 수 있다.
구체적으로, 프로세서(120)는 선별된 제2 객체 키워드를 메타버스의 가상 공간(200)에 반영할 객체로 결정할 수 있다. 그리고, 프로세서(120)는 제2 객체 키워드에 대응하는 객체 컨텐츠(210)를 생성할 수 있다. 즉, 프로세서(120)는 제2 객체 키워드에 대응하는 3차원의 객체 이미지를 렌더링할 수 있다.
도 6을 참조하면, 프로세서(120)는 선별된 제2 객체 키워드에 대응하는 객체 컨텐츠(210)로, “에펠 탑”에 관한 3차원 이미지(211), “사람 1”에 관한 3차원 이미지(212), “개선 문”에 관한 3차원 이미지(213), “강아지”에 관한 3차원 이미지(215) 및 “바게트 빵”에 관한 3차원 이미지(216)를 생성하고, 생성된 복수의 객체 컨텐츠(210)를 파리에 관한 메타버스의 가상 공간(200)에 표시한다. 도 5와 도 6을 비교하였을 때, 의미 유사도에 기초하여 파리와는 관련성이 적은 자동차 컨텐츠가 도 6에서는 제외 되었다.
한편, 본 개시의 일 실시 예에 따라, 프로세서(120)는, 각각의 이미지에 대응하는 객체 키워드의 개수를 식별하고, 식별된 객체 키워드의 개수에 기초하여, 객체 키워드의 빈도를 식별하고, 하나의 이미지에 대응하는 복수의 객체 키워드에 동일한 객체 키워드가 복수 개 포함된 경우, 하나의 이미지에 대해서는 동일한 객체 키워드의 개수를 한 개로 식별할 수 있다.
도 7은 본 개시의 일 실시 예에 따른, 하나의 이미지에 대응하는 복수의 객체 키워드 중 동일한 객체 키워드가 복수 개 포함된 경우, 각각의 객체 키워드에 대한 빈도를 식별하는 방법을 설명하기 위한 예시도이다.
구체적으로, 상술한 바와 같이, 프로세서(120)는 각각의 이미지를 제1 신경망 모델(20)에 입력하여 획득된 객체 키워드의 누적 개수를 각각의 객체 키워드의 빈도로 식별할 수 있다. 이때, 특정 이미지 내에서 동일한 객체 키워드가 복수 개 획득된 경우, 프로세서(120)는 특정 이미지를 통해 획득된 복수개의 객체 키워드는 한 개인 것으로 식별할 수 있다.
구체적으로, 하나의 특정 이미지 내 동일한 객체 또는 동일한 유형의 객체가 복수 개 포함된 경우, 해당 객체에 대응하는 객체 키워드 또한 복수 개 획득될 수 있다. 이로 인하여, 프로세서(120)는 해당 객체를 포함하는 이미지가 한 개임에도 불구하고, 복수 개 획득된 객체 키워드로 인하여, 해당 객체가 사용자 위치와 의미가 깊거나 또는 관련성이 높은 것으로 잘못 판단할 수 있다. 따라서, 프로세서(120)는 복수의 이미지(10) 중 특정 이미지에 대하여 제1 신경망 모델(20)을 통해 복수의 객체 키워드를 획득하고, 획득된 복수의 객체 키워드 중 동일한 객체 키워드가 복수 개 존재하는 것으로 식별된 경우, 복수의 동일한 객체 키워드의 개수를 한 개로 변경하여 식별할 수 있다.
예를 들어, 도 7을 참조하면, 파리에 대응하는 복수의 이미지(10) 중 이미지 A에는 총 11개의 객체(구체적으로, 1개의 와인, 4개의 컵, 2개의 포크, 2개의 나이프, 2개의 접시 및 1개의 피자)(11)가 포함되어 있다. 따라서, 프로세서(120)가 이미지 A를 제1 신경망 모델(20)에 입력하였을 때, 이미지 A 에 대응하는 객체 키워드로, 총 11개의 객체 키워드(구체적으로, 1개의 와인에 관한 키워드, 4개의 컵에 관한 키워드, 2개의 포크에 관한 키워드, 2개의 나이프에 관한 키워드, 2개의 접시에 관한 키워드 및 1개의 피자에 관한 키워드)를 획득할 수 있다. 그러나, 프로세서(120)는, 중복하여 획득된 컵에 관한 키워드는 이미지 A로부터 1개 획득한 것으로 식별할 수 있다. 이와 마찬가지로, 중복하여 획득된 포크, 나이프, 및 접시에 관한 키워드 또한 이미지 A로부터 각각 1개씩 획득한 것으로 식별할 수 있다.
이처럼, 프로세서(120)는 각각의 객체 키워드에 대하여 사용자가 실질적으로 획득한 이미지의 개수를 고려하여 각각의 객체 키워드의 빈도를 식별함으로써, 사용자 위치와 실질적으로 관련성이 높은 객체 키워드를 선별할 수 있다.
이하에서는, 배경 컨텐츠(220)를 생성하는 본 개시의 실시 예에 대하여 설명하도록 한다.
한편, 본 개시의 일 실시 예에 따라, 프로세서(120)는 메타버스의 가상 공간(200)에 반영할 배경(Background) 컨텐츠를 생성할 수 있다.
배경 컨텐츠(220)는, 메타버스의 가상 공간(200)에 반영되는 3차원의 배경 이미지일 수 있다. 예를 들어, 배경 컨텐츠(220)는 메타버스의 가상 공간(200) 내에서 표시되는 건물, 도로, 다리, 나무 등의 3차원 이미지를 포함할 수 있다.
배경 컨텐츠(220)는 복수의 객체 컨텐츠를 바탕으로 구현될 수 있다. 구체적으로, 배경 컨텐츠(220)에는 기 설정된 객체 컨텐츠(예를 들어, 사람, 건물, 동물, 음식 사물 등의 3차원 이미지)가 포함될 수도 있다. 다만, 배경 컨텐츠(220)에 포함된 기 설정된 객체 컨텐츠는, 사용자 위치에 대응하는 복수의 이미지(10)를 바탕으로 생성된 객체 컨텐츠(210)와는 구분될 수 있다. 즉, 객체 키워드를 기초로 생성된 객체 컨텐츠(210)와 배경 컨텐츠를 구현하는데 이용되는 객체 컨텐츠는 구분될 수 있다. 예를 들어, 배경 컨텐츠(220)를 구현하는데 이용되는 객체 컨텐츠는 가상 공간 내에서 위치 및 형태가 고정될 수 있지만, 객체 키워드를 기초로 생성된 객체 컨텐츠(210)는 가상 공간 내에서 위치가 사용자의 입력 또는 설정에 따라 변경되고 형태 또한 다양하게 변경될 수 있다.
한편, 본 개시의 실시 예에 따라, 프로세서(120)는 사용자 위치에 대응하는 복수의 이미지(10)로부터 획득된 복수의 객체 키워드 중 배경을 구현하는데 이용되는 객체 키워드를 제외한 후 나머지 객체 키워드 만으로 객체 컨텐츠를 생성할 수도 있다.
이하에서는, 프로세서(120)가 배경 컨텐츠(220)를 생성하는 구체적인 방법에 대하여 설명하도록 한다.
한편, 프로세서(120)는 사용자의 위치를 기초로 배경 컨텐츠(220)를 생성할 수 있다. 구체적으로, 프로세서(120)는 사용자의 위치를 식별하고, 식별된 사용자 위치에 대응하는 3차원의 배경 이미지를 생성할 수 있다. 이때, 프로세서(120)는 식별된 사용자 위치에 대응하는 랜드 마크를 식별하고, 식별된 랜드 마크에 대응하는 3차원 이미지를 배경 컨텐츠(220)로 생성할 수 있다. 예를 들어, 프로세서(120)가 사용자의 위치를 이집트로 식별하고, 식별된 이집트에 대응하는 복수의 이미지(10)를 선별한 경우, 프로세서(120)는 이집트에 대응하는 랜드 마크로 “피라미드” 및 “스핑크스”를 식별할 수 있다. 그리고, 프로세서(120)는, 이집트에 대응하는 배경 컨텐츠(220)로, “피라미드” 및 “스핑크스”에 대응하는 3차원 이미지를 생성할 수 있다. 이를 위해, 프로세서(120)는 메모리(110)에 저장된 “도시 - 랜드 마크 매칭 테이블”을 이용할 수 있다.
한편, 본 개시의 일 실시 예에 따라, “배경 컨텐츠(220)”는 사전에 생성되어 메모리(110)에 저장될 수 있다. 구체적으로, 메모리(110)에는 기 설정된 복수의 사용자 위치에 대응하는 복수의 배경 컨텐츠(220)가 저장될 수 있다. 예를 들어, 기 설정된 복수의 사용자 위치 중 “서울”의 경우, “서울”에 대응하는 배경 컨텐츠(220)로 남산 타워 및 경복궁에 대응하는 3차원 이미지가 메모리(110)에 저장될 수 있다.
한편, 프로세서(120)는 배경 컨텐츠(220) 상에 사용자 위치에 대응하는 복수의 이미지(10)를 바탕으로 생성된 객체 컨텐츠(210)를 표시함으로써, 사용자 위치에 대응하는 메타버스의 가상 공간(200)을 구현할 수 있다. 즉, 상술한 예를 들어 다시 설명하면 피라미드 및 스핑크스에 대응하는 3차원 이미지로 구현된 배경 컨텐츠(220) 상에, 이집트에 대응하는 복수의 이미지(10)를 통해 생성된 객체 컨텐츠(210)(예를 들어, 3차원 음식 이미지 등)를 표시할 수 있다.
한편, 배경 컨텐츠(220)를 생성하기에 앞서, 본 개시의 일 실시 예에 따라, 프로세서(120)는, 사용자 위치가 기 설정된 위치인지 식별할 수 있다.
도 8은 본 개시의 일 실시 예에 따른, 사용자 위치가 기 설정된 위치가 아닌 것으로 식별되는 경우, 사용자 위치에 대응하는 복수의 이미지(10)를 제2 신경망 모델에 입력하여 배경 컨텐츠를 생성하는 방법을 나타낸 예시도이다.
구체적으로, 프로세서(120)는 선별된 복수의 이미지(10)에 대응하는 사용자의 위치가 기 설정된 위치인지 식별할 수 있다. 구체적으로, 도 8을 참조하면 메모리(110)에는 각각의 GPS 위치에 대응하는 기 설정된 사용자의 위치가 저장될 수 있다. 따라서, 프로세서(120)는 전자 장치(100)의 GPS 센서를 통해 획득한 GPS 좌표 및 복수의 이미지(10)에 포함된 메타 데이터를 바탕으로, 복수의 이미지(10)에 대응하는 사용자 위치가 기 설정된 위치인지 식별할 수 있다. 예를 들어, 프로세서(120)는 복수의 이미지(10)에 대응하는 사용자의 GPS 위치가 서경 0° 7' 39", 북위 51° 30' 26인 것으로 식별되거나, 또는 서경 0° 7' 39", 북위 51° 30' 26를 중심으로 기 설정된 반경 내인 것으로 식별되면, 사용자의 위치가 런던인 것으로 식별할 수 있다.
그리고, 본 개시의 일 실시 예에 따라, 프로세서(120)는, 사용자 위치가 기 설정된 위치가 아닌 것으로 식별되면, 사용자 위치에 대응하여 선별된 복수의 이미지의 객체 키워드를 바탕으로 사용자 위치에 대응하는 배경 키워드를 획득할 수 있다. 여기서, 배경 키워드는 사용자 위치로 예측되는 장소를 나타내는 키워드일 수 있다. 구체적으로, 프로세서(120)는 사용자 위치에 대응하여 선별된 복수의 이미지(10)를 통해 획득된 복수의 객체 키워드를 조합하여 사용자 위치에 대응하는 배경 키워드를 획득할 수 있다. 예를 들어, 사용자의 위치에 대응하여 선별된 복수의 이미지(10)를 통해 획득된 복수의 객체 키워드가, “파라솔”, “피크닉 매트”, “수영복”, “물안경”, “갈매기”, “조개” 등인 경우, 프로세서는 획득된 복수의 객체 키워드를 조합하여, 사용자의 위치에 대응하는 배경 키워드로 “바다”를 획득할 수 있다. 또한, 본 개시의 일 실시 예에 따라 프로세서(120)는 이미지 내 배경을 식별하는 신경망 모델(30)을 이용하여, 선별된 복수의 이미지(10)에 대응하는 배경 키워드를 획득할 수 있다.
이미지 내 배경을 식별하는 신경망 모델(30)은, 입력된 이미지 내 배경을 식별하고, 식별된 배경에 대한 키워드를 출력하도록 학습된 신경망 모델일 수 있다. 이를 위해, 이미지 내에 배경을 식별하는 신경망 모델은, 복수의 이미지(10)로 구성된 학습 데이터를 바탕으로, 각각의 이미지의 배경을 식별하도록 사전에 학습된 신경망 모델일 수 있다. 이미지 내 배경을 식별하는 신경망 모델(30)은, CNN(Convolutional Neural Network) 모델, FCN(Fully Convolutional Networks) 모델, RCNN (Regions with Convolutional Neuron Networks features) 모델, YOLO 모델 등으로 구현될 수 있다. 이하에서는, 설명의 편의를 위해, 본 개시의 실시 예에 따른 이미지 내 배경을 식별하는 신경망 모델(30)을 제2 신경망 모델(30)로 지칭하여 설명한다.
한편, 일 예로, 제2 신경망 모델(30)은, 제1 신경망 모델(20)을 통해 획득한 객체 키워드를 바탕으로, 이미지의 배경을 식별하도록 학습된 모델일 수 있다. 예를 들어, 제1 신경망 모델(20)을 통해 복수의 이미지(10)에 대하여 획득된 객체 키워드가, 수영복, 갈매기, 조개 등일 경우, 제2 신경망 모델(30)은 획득된 객체 키워드(수영복, 갈매기, 조개 등)를 기초로 복수의 이미지(10)에 대응하는 사용자 위치를 “바다”로 식별할 수 있다. 다만, 이에 제한되는 것은 아니며, 복수의 이미지(10)의 배경을 식별하는 방법으로는 공지된 다양한 기술이 적용될 수 있다.
도 8을 참조하면, 프로세서(120)는 복수의 이미지(10)에 대응하는 사용자 위치, “OO군 OO면 OO로 177” 또는 “OO군 OO면 OO로 177”에 대응하는 GPS 위치가 기 설정된 위치(예를 들어, 파리, 런던 뉴욕 등)가 아닌 것으로 식별하였다. 이에 따라, 프로세서(120)는 사용자 위치에 대응하는 복수의 이미지(10)를 제2 신경망 모델(30)에 각각 입력하고, 각각의 이미지에 대응하는 배경 키워드를 획득할 수 있다. 한편, 프로세서(120)가 제2 신경망 모델(30)을 통해 획득한 배경 키워드가 “캠핑 장”인 경우, 프로세서(120)는 “캠핑 장”을 구현하는 3차원 이미지를 배경 컨텐츠(220)로 생성할 수 있다. 그리고, 프로세서(120)는 생성된 “캠핑 장”의 3차원 이미지를 메타버스의 가상 공간(200) 내 표시할 수 있다.
한편, 본 개시의 일 실시 예에 따라, 프로세서(120)는 복수의 배경 키워드를 획득할 수 있다. 예를 들어, 프로세서(120)는 각각의 이미지를 제2 신경망 모델(30)에 입력하여, 각각의 이미지에 대한 배경 키워드를 획득할 수 있다. 한편, 배경을 식별할 수 없는 이미지에 대해서는 제2 신경망 모델(30)을 통해 배경 키워드가 획득되지 않을 수 있다. 이때, 본 개시의 일 실시 예에 따라, 프로세서(120)는 선별된 복수의 이미지(10) 각각에 대응하는 배경 키워드의 빈도에 기초하여 메타버스의 가상 공간(200)에 반영할 배경을 결정할 수 있다.
도 9는 본 개시의 일 실시 예에 따른, 복수의 배경 키워드의 빈도를 기초로 배경 컨텐츠를 생성하는 것을 나타낸 예시도이다.
이하에서는, 본 개시의 설명의 편의를 위해 제2 신경망 모델을 통해 배경 키워드가 획득되는 것으로 상정하여 설명하도록 한다.
배경 키워드의 빈도는, 사용자 위치에 대응하여 선별된 복수의 이미지(10)를 순차적으로 제2 신경망 모델(30)에 입력하였을 때, 프로세서(120)가 획득한 배경 키워드의 누적 개수일 수 있다. 배경 키워드의 빈도에는 프로세서(120)가 특정 이미지를 제2 신경망 모델(30)에 입력하였을 때, 배경 키워드가 획득되지 않은 누적 횟수를 포함할 수 있다.
구체적으로, 프로세서(120)는 사용자 위치에 대응하여 선별된 복수의 이미지(10)를 제2 신경망 모델(30)에 각각 입력하여, 각각의 이미지에 대응하는 배경 키워드를 획득할 수 있다. 이때, 프로세서(120)는 획득된 각각의 배경 키워드의 누적 개수를 식별할 수 있다. 그리고, 프로세서(120)는 각각의 배경 키워드에 대하여 식별된 누적 개수를 각각의 배경 키워드에 대한 빈도로 식별할 수 있다.
도 9에 따르면, 프로세서(120)는 복수의 배경 키워드 중, “캠핑 장”의 누적 개수를 8개로 식별하였다. 이에 따라, 프로세서(120)는 “캠핑 장”의 빈도를 8로 식별할 수 있다. 그리고, 프로세서(120)는 “잔디밭”의 누적 개수를 3개로 식별하였다. 이에 따라, 프로세서(120)는 “잔디밭”의 빈도를 3으로 식별할 수 있다. 또한, 프로세서(120)는 배경 키워드를 획득하지 않은 횟수 또한 5회로 식별하였다. 배경 키워드가 획득되지 않은 것은, 이미지를 제2 신경망 모델(30)에 입력하였을 때 이미지에 대응하는 배경 키워드가 출력되지 않는 것일 수 있다. 즉, 도 9에서 “Unknown”이 이에 해당할 수 있다.
이처럼, 프로세서(120)는 각각의 배경 키워드가 획득될 때마다 또는 배경 키워드가 획득되지 않을 때마다, 획득된 각각의 키워드의 누적 개수 및 배경 키워드가 획득되지 않은 누적 횟수를 식별하여, 각각의 배경 키워드의 빈도를 식별할 수 있다.
그리고, 프로세서(120)는 빈도가 가장 큰 배경 키워드를, 메타버스의 가상 공간(200)에 반영할 배경으로 결정할 수 있다. 즉, 도 9를 참조하면, 프로세서(120)는 빈도가 가장 큰 “캠핑 장”을 메타버스의 가상 공간(200)에 반영할 배경으로 결정할 수 있다. 그리고, 프로세서(120)는 결정된 “캠핑 장” 에 대응하는 3차원 이미지를 생성할 수 있다. 구체적으로, 프로세서(120)는 “캠핑 장”의 3차원 이미지를 렌더링할 수 있다.
한편, 본 개시의 일 실시 예에 따라, 메모리(110)에는 배경 키워드에 대응하는 3차원 배경 이미지가 저장될 수 있다. 또한, 메모리(110)에는 배경 키워드에 대응하는 배경을 구현하기 위해 필요한 복수의 3차원 객체 이미지가 저장될 수 있다.
또는 본 개시의 일 실시 예에 따라, 프로세서(120)는 전자 장치의 통신부를 통해 배경 키워드를 외부 장치(예를 들어, 외부 서버)로 송신하고, 통신부를 통해 외부 장치로부터 배경 키워드에 대응하는 3차원 배경 이미지를 획득할 수도 있다.
한편, 본 개시의 일 실시 예에 따라, 프로세서(120)는 획득된 배경 키워드를 사용자의 위치로 식별할 수 있다. 이를 통해, 프로세서(120)는 제2 키워드를 선별하는 기준인, 의미 유사도를 배경 키워드와 복수의 제1 키워드에 대하여 식별할 수 있다. 예를 들어, 도 9를 참조하면, 프로세서(120)는 사용자의 위치에 해당하는 “00군 00면 00로 177”에 대응하여 선별된 복수의 이미지(10)를 제1 신경망 모델(20)에 입력하여 복수의 객체 키워드를 획득할 수 있다. 그리고, 프로세서(120)는 획득된 객체 키워드의 빈도를 기초로, 복수의 객체 키워드 중 제1 객체 키워드를 선별할 수 있다. 이때, 프로세서(120)는 제2 신경망 모델(30)을 기초로 획득된 배경 키워드인, “캠핑장”과 복수의 제1 객체 키워드 간의 의미 유사도를 식별할 수 있다. 그리고, 프로세서(120)는 의미 유사도가 기 설정된 값이 이상인 적어도 하나의 객체 키워드를 제2 객체 키워드로 선별할 수 있다. 즉, 프로세서(120)는 의미 유사도를 식별하기 위하여, GPS 좌표를 바탕으로 식별된 사용자의 위치(“00군 00면 00로 177”)가 아닌 배경 키워드를 활용할 수 있다.
한편, 본 개시의 일 실시 예에 따라, 프로세서(120)는, 사용자 위치에 대응하는 기간 동안 획득된 복수의 텍스트(50)를 식별하고, 텍스트(50)에 대응하는 감정을 식별하는 신경망 모델을 이용하여, 복수의 텍스트(50)에 대응하는 복수의 감정 키워드를 획득하고, 획득된 감정 키워드 및 상기 사용자 위치에 기초하여 상기 메타버스의 가상 공간(200)에 반영할 배경을 결정할 수 있다.
도 10은 본 개시의 일 실시 예에 따른, 제3 신경망 모델에 기반하여, 사용자 위치에 대응하는 기간 동안 획득된 복수의 텍스트에 대응하는 복수의 감정 키워드를 획득하는 것을 나타낸 예시도이다.
도 11은 본 개시의 일 실시 예에 따른, 복수의 감정 키워드의 빈도를 기초로 배경 컨텐츠를 생성하는 것을 나타낸 예시도이다.
구체적으로, 프로세서(120)는 사용자의 위치에 대응하는 기간 동안 획득된 복수의 텍스트(50)를 식별할 수 있다. 구체적으로, 프로세서(120)는 각각의 사용자 위치에 대응하는 기간을 식별할 수 있다. 프로세서(120)는 전자 장치(100)의 GPS 위치 또는 각각의 이미지의 메타 데이터를 기초로, 사용자 위치에 대응하는 기간을 식별할 수 있다. 이와 관련해서는 도 3에서 상술 하였으므로, 구체적인 설명은 생략하도록 한다.
한편, 프로세서(120)는, 사용자의 위치에 대응하는 기간 동안 메신저 또는 SNS를 통해 획득되거나 메모리(110)에 저장된 텍스트(50) 또는 입력 인터페이스를 통해 입력된 텍스트(50)를 식별할 수 있다. 예를 들어, 도 10을 참조하면, 프로세서(120)는 사용자 위치에 해당하는 “00군 00면 00로 177” 에 대응하는 기간(2022년 3월 5일 14:00부터 2022년 3월 7일 16:00까지) 동안 획득된 적어도 하나의 텍스트(50)를 식별할 수 있다.
그리고, 프로세서(120)는 식별된 복수의 텍스트(50)에 대응하는 적어도 하나의 감정 키워드를 획득할 수 있다. 구체적으로, 프로세서(120)는 식별된 복수의 텍스트(50)를 분석하고, 각각의 텍스트가 갖는 의미를 추론하여 각각의 텍스트에 대응하는 감정 키워드를 획득할 수 있다.
이때, 본 개시의 일 실시 예에 따라 프로세서(120)는 신경망 모델을 이용하여 텍스트에 대응하는 적어도 하나의 감정 키워드를 획득할 수 있다. 구체적으로, 텍스트에 대응하는 감정을 식별하는 신경망 모델은, 각각의 텍스트의 의미를 추론하여 각각의 텍스트(50)에 대응하는 감정을 식별하도록 학습된 신경망 모델일 수 있다. 이하에서는, 설명의 편의를 위해, 본 개시의 실시 예에 따른 텍스트에 대응하는 감정을 식별하는 신경망 모델을 제3 신경망 모델(40)로 지칭하여 설명한다.
본 개시의 일 실시 예에 따른, 제3 신경망 모델(40)은, 복수의 텍스트를 포함한 학습 데이터를 바탕으로, 각각의 텍스트(50)에 대한 감정을 분석하여, 각각의 텍스트(50)에 대응하는 감정 키워드를 출력하도록 사전에 학습된 모델일 수 있다. 구체적으로, 제3 신경망 모델(40)은, 복수의 텍스트(50)가 각각 제3 신경망 모델(40)에 입력되면, 각각의 텍스트(50)에 포함된 사용자의 의도에 관한 정보를 획득하고, 획득된 의도에 관한 정보에 대응하는 감정 키워드를 출력하도록 학습될 수 있다. 한편, 제3 신경망 모델(40)은, BERT 모델, 자연어 이해(natural language understanding)(NLU) 모델 등으로 구현될 수 있다.
한편, 본 개시의 일 실시 예에 따라, 프로세서(120)는 복수의 텍스트(50)에 대응하여 획득된 감성 키워드를 바탕으로, 메타버스의 가상 공간(200)에 반영할 배경을 결정할 수 있다.
구체적으로, 프로세서(120)는, 사용자의 위치를 식별하고, 식별된 사용자 위치에 대응하는 3차원의 배경 이미지를 생성할 수 있다. 예를 들어, 프로세서(120)는 사용자 위치가 기 설정된 위치인지 식별하고, 사용자 위치가 기 설정된 위치인 것으로 식별되면, 기 설정된 위치에 대응하는 배경 컨텐츠(220)를 메모리(110)로부터 획득할 수 있다. 즉, 기 설정된 위치에 대응하는 3차원의 배경 이미지를 메모리(110)로부터 획득할 수 있다. 한편, 프로세서(120)는 사용자 위치가 기 설정된 위치가 아닌 것으로 식별되면, 사용자 위치에 대응하는 배경 키워드를 획득하고, 획득된 배경 키워드에 대응하는 배경 컨텐츠(220)를 메모리(110)로부터 획득할 수 있다. 배경 키워드를 바탕으로, 배경 컨텐츠(220)를 생성하는 방법은 도 8 및 도 9에서 상술 하였으므로, 자세한 설명은 생략한다.
한편, 프로세서(120)는 사용자 위치 또는 배경 키워드에 기초하여 배경 컨텐츠(220)를 생성한 후, 제3 신경망 모델(40)을 통해 획득된 감성 키워드에 기초하여, 생성된 3차원의 배경 이미지의 색상을 변경하거나 또는 3차원의 배경 이미지 내 객체를 부가할 수 있다.
보다 구체적으로, 배경 컨텐츠(220)의 색상, 날씨, 시간 등은 감성 키워드에 기초하여 결정될 수 있다. 예를 들어, 동일한 사용자 위치에 대응하여 생성된 3차원의 배경 이미지라 하더라도, 프로세서(120)는 제3 신경망 모델(40)을 통해 획득된 감성 키워드가 “행복”인 경우에는 3차원의 배경 이미지의 색상을 밝은 색상으로 변경할 수 있다. 반면에, 프로세서(120)는 제3 신경망 모델(40)을 통해 획득된 감성 키워드가 “슬픔”인 경우에는 3차원의 배경 이미지의 색상을 어두운 색상으로 변경할 수 있다.
또는, 3차원의 배경 이미지를 구현하는데 있어, 프로세서(120)는 제3 신경망 모델(40)을 통해 획득된 감성 키워드가 “행복”인 경우에는 배경 이미지 내 날씨를 “맑음”으로 변경할 수도 있으며, 반면에 프로세서(120)는 제3 신경망 모델(40)을 통해 획득된 감성 키워드가 “슬픔”인 경우에는 배경 이미지 내 날씨를 “비”로 변경할 수 있다. 이를 위해, 프로세서(120)는 날씨를 구현하는데 객체 컨텐츠(210), 즉 3차원의 객체 이미지를 생성하여 배경 이미지 상에 표시할 수 있다.
또는, 3차원의 배경 이미지를 구현하는데 있어, 프로세서(120)는 제3 신경망 모델(40)을 통해 획득된 감성 키워드가 “행복”인 경우에는 배경 이미지 내 시간을 “오전”으로 변경할 수도 있으며, 반면에 프로세서(120)는 제3 신경망 모델(40)을 통해 획득된 감성 키워드가 “슬픔”인 경우에는 배경 이미지 내 시간을 “밤”으로 변경할 수 있다.
한편, 본 개시의 일 실시 예에 따라, 복수의 텍스트(50) 각각에 대응하여 획득된 감정 키워드의 빈도에 기초하여, 메타버스의 가상 공간(200)에 반영할 배경을 결정하는데 이용되는 감정 키워드를 식별할 수 있다.
이하에서는, 본 개시의 설명의 편의를 위해 제3 신경망 모델을 통해 감정 키워드가 획득되는 것으로 상정하여 설명하도록 한다.
감정 키워드의 빈도는, 사용자 위치에 대응하는 기간 동안 획득된(또는 메모리(110)에 저장된) 복수의 텍스트(50)를 순차적으로 제3 신경망 모델(40)에 입력하였을 때, 프로세서(120)가 획득한 감정 키워드의 누적 개수일 수 있다. 감정 키워드의 빈도에는 프로세서(120)가 특정 텍스트(50)를 제3 신경망 모델(40)에 입력하였을 때, 배경 키워드가 획득되지 않은 누적 횟수를 포함할 수 있다.
구체적으로, 프로세서(120)는 사용자 위치에 대응하는 기간 동안 획득된(또는 메모리(110)에 저장된) 복수의 텍스트(50)를 제3 신경망 모델(40)에 각각 입력하여, 각각의 텍스트(50)에 대응하는 감정 키워드를 획득할 수 있다. 이때, 프로세서(120)는 획득된 각각의 감정 키워드의 누적 개수를 식별할 수 있다. 그리고, 프로세서(120)는 각각의 감정 키워드에 대하여 식별된 누적 개수를 각각의 감정 키워드에 대한 빈도로 식별할 수 있다.
도 10에 따르면, 프로세서(120)는 획득된 복수의 감정 키워드 중, “행복”의 누적 개수를 25개로 식별하였다. 즉, “행복”의 빈도를 25로 식별하였다. 그리고, 프로세서(120)는 “기쁨”의 누적 개수를 10개로 식별하였다. 즉, “기쁨”의 빈도를 10으로 식별하였다. 또한, 프로세서(120)는 감정 키워드를 획득하지 않은 횟수 또한 30회로 식별하였다. 감정 키워드가 획득되지 않은 것은, 텍스트(50)를 제3 신경망 모델(40)에 입력하였을 때 텍스트(50)에 대응하는 감정 키워드가 출력되지 않는 것일 수 있다. 즉, 도 10에서 “Unknown”이 이에 해당할 수 있다.
이처럼, 프로세서(120)는 각각의 감정 키워드가 획득될 때마다 또는 감정 키워드가 획득되지 않을 때마다, 획득된 각각의 키워드의 누적 개수 및 감정 키워드가 획득되지 않은 누적 횟수를 식별하여, 각각의 배경 키워드의 빈도를 식별할 수 있다.
그리고, 프로세서(120)는 복수의 감정 키워드 중 빈도가 가장 큰 감정 키워드를 선별하고, 선별된 감정 키워드를 기초로 배경 컨텐츠(220)를 생성할 수 있다. 구체적으로, 도 11을 참조하면, 프로세서(120)는 복수의 감정 키워드 중 빈도가 가장 큰 감정 키워드인, “행복”을 기초로 배경 컨텐츠(220)를 생성할 수 있다. 상술한 예를 들어, 다시 설명하면 프로세서(120)는 감정 키워드에 기초하여 배경 컨텐츠(220)의 날씨를 결정할 수 있다. 이때, 감정 키워드인, “행복” 에 대응하는 날씨가 “맑음”으로 설정된 경우, 프로세서(120)는 메타버스의 가상 공간(200)에 반영되는 배경의 날씨를 “맑음”으로 설정할 수 있다. 한편, 복수의 감정 키워드 중 “Unknown”의 빈도가 가장 큰 경우에는, 프로세서(120)는 사용자 위치 또는 배경 키워드 만을 기초로 배경 컨텐츠(220)를 생성할 수 있다.
한편, 도 11을 참조하면, 프로세서(120)는 제2 신경망 모델(30)을 통해, 사용자 위치에 대응하는 복수의 이미지(10)에 대한 배경 키워드로 “캠핑 장”을 획득할 수 있다. 그리고, 프로세서(120)는 획득된 배경 키워드(“캠핑 장”)을 기초로, 3차원의 캠핑 장 이미지를 렌더링할 수 있다. 또는, 메모리(110)에 저장된 “캠핑 장”에 대응하는 3차원의 이미지를 획득할 수도 있다. 그리고, 프로세서(120)는 제1 신경망 모델(20)을 통해, 사용자 위치에 대응하는 복수의 이미지(10)에 대한 객체 키워드를 획득할 수 있다.
도 11에 따르면, 프로세서(120)는 객체 키워드로 “커피” 및 “강아지”를 획득하였다. 이에 따라, 프로세서(120)는 각각의 객체 키워드에 대응하는 객체 컨텐츠(210)로, 3차원의 객체 이미지(3차원의 커피 이미지와 3차원의 강아지 이미지)를 생성할 수 있다. 그리고, 프로세서(120)는 생성된 3차원의 객체 이미지를 3차원의 캠핑 장 이미지 상에 표시할 수 있다. 즉, 생성된 3차원의 객체 이미지와 3차원의 배경 이미지를 병합할 수 있다. 그리고, 프로세서(120)는 제3 신경망 모델(40)을 통해, 사용자 위치에 대응하는 기간 동안 획득된(또는 메모리(110)에 저장된)복수의 텍스트(50)에 대한 감정 키워드를 획득할 수 있다. 이때, 획득된 감정 키워드가 “행복”이며, “행복”에 대응하는 배경 컨텐츠(220)의 날씨가 “맑음”으로 설정된 경우, 프로세서(120)는 3차원의 배경 이미지 내 3차원의 태양 이미지를 표시하고, 3차원의 배경 이미지의 색상을 조정하여, 맑은 날씨의 배경 컨텐츠(220)를 표시할 수 있다. 이처럼, 프로세서(120)는, “객체 키워드”, “배경 키워드” 및 “감정 키워드”를 바탕으로 메타버스 가상 공간에 반영하는 컨텐츠를 생성할 수 있다.
한편, 상술한 본 개시의 실시 예는 사용자 위치에 대응하는 기간 동안 획득된 복수의 텍스트(50)를 기초로, 메타버스의 가상 공간(200)에 반영할 배경을 결정하는데 이용되는 감정 키워드가 획득되는 것으로 설명되었으나, 이에 제한되는 것은 아니다. 본 개시의 실시 예에 따라서는, 사용자 위치에 대응하는 기간 동안 획득된 복수의 텍스트(50) 및 복수의 오디오(예를 들어, 녹음된 통화 내용, 녹화된 동영상 내 음성 정보)를 기초로 감정 키워드가 획득될 수도 있다. 이때, 프로세서(120)는 복수의 오디오에 대응하는 복수의 텍스트(50)를 획득할 수 있다. 즉, 프로세서(120)는 각각의 오디오에 대한 음성 인식을 수행하여, 각각의 오디오에 대응하는 텍스트(50)를 획득할 수 있다. 그리고, 프로세서(120)는, 획득된 텍스트(50)를 제3 신경망 모델(40)에 입력하여 감정 키워드를 획득할 수도 있다.
한편, 본 개시의 일 실시 예에 따른 전자 장치(100)는, 디스플레이와 통신 인터페이스를 더 포함할 수 있다. 이때, 본 개시의 일 실시 예에 따라, 프로세서(120)는, 객체 컨텐츠(210)를 외부 서버에 전송하고, 서버로부터, 객체 컨텐츠(210)를 포함하는 가상 공간 영상을 수신하고, 수신한 가상 공간 영상이 표시하도록 디스플레이를 제어할 수 있다.
본 개시의 일 실시 예에 따라, 프로세서(120)는 생성된 객체 컨텐츠(210)를 외부 서버에 전송할 수 있다. 구체적으로, 프로세서(120)는 객체 키워드를 바탕으로 생성된 3차원의 객체 이미지를 통신 인터페이스를 통해 외부 서버에 전송할 수 있다. 이때, 사용자 위치 또는 배경 키워드를 바탕으로 생성된 3차원의 배경 이미지 또한 통신 인터페이스를 통해 서버에 전송할 수 있다.
그리고, 외부 서버는 3차원의 메타버스 가상 공간(200) 내 사용자 위치에 대응하는 위치에 전자 장치(100)로부터 수신한 객체 컨텐츠(210)와 배경 컨텐츠를 표시할 수 있다. 구체적으로, 외부 서버는 가상 공간(200)을 사용자의 위치에 따라 복수의 영역으로 구분할 수 있다. 그리고, 외부 서버는 각각의 사용자의 위치에 대응하는 영역에 수신한 사용자의 위치에 대응하는 객체 컨텐츠 및 배경 컨텐츠를 표시할 수 있다.
한편, 외부 서버는, 전자 장치(100)를 포함한 복수의 전자 장치(100)로부터 각각 획득한 객체 컨텐츠(210) 및 배경 컨텐츠를 수신하고, 수신한 객체 컨텐츠(210) 및 배경 컨텐츠를 바탕으로 각각의 전자 장치(100)에 대응하는 메타 버스의 가상 환경을 구현하는 장치일 수 있다.
이때, 외부 서버는 외부 서버와 통신하는 복수의 전자 장치(100)에 각각에 대응하는 3차원의 메타버스의 가상 공간(200)을 구분하여 생성할 수도 있다. 그리고, 각각의 전자 장치(100)에 대응하는 3차원의 메타버스의 가상 공간(200) 내 각각의 전자 장치(100)로부터 수신한 객체 컨텐츠(210)를 표시할 수 있다. 이때, 외부 서버는 클라우드 서버(Cloud Server) 등으로 구현될 수 있다.
구체적으로, 전자 장치(100)로부터 객체 컨텐츠(210)를 수신한 외부 서버는, 수신한 객체 컨텐츠(210)를 바탕으로 메타버스의 가상 공간(200)을 생성할 수 있다. 메타버스의 가상 공간(200)은 복수의 사용자가 각각의 전자 장치(100)를 통해 접속하거나 입장할 수 있는 3차원 가상 공간일 수 있다. 이때, 외부 서버는 전자 장치(100)에 대응하는 위치 및 공간에 수신한 객체 컨텐츠(210)를 표시할 수 있다.
즉, 외부 서버는 메타 버스의 3차원 가상 공간 내에서 전자 장치(100)에 할당된 위치 및 공간에 수신한 객체 컨텐츠(210)에 해당하는 3차원의 객체 이미지를 표시할 수 있다. 이때, 외부 서버가 배경 컨텐츠(220)를 수신한 경우, 수신한 배경 컨텐츠(220)를 3차원 가상 공간 내에서 전자 장치(100)에 할당된 위치 및 공간에 표시할 수도 있다. 즉, 외부 서버는, 3차원 가상 공간 내에서 전자 장치(100)에 할당된 위치 및 공간 3차원의 배경 이미지를 표시하고, 표시된 3차원의 배경 이미지 상에 3차원의 객체 이미지를 표시할 수 있다.
한편, 프로세서(120)는 통신 인터페이스를 통해 외부 서버로부터 객체 컨텐츠(210)를 포함하는 가상 공간 영상을 수신할 수 있다. 그리고, 프로세서(120)는 수신한 가상 공간 영상이 표시하도록 디스플레이를 제어할 수 있다.
구체적으로, 도 11을 참조하면, 프로세서(120)는 감정 키워드 및 배경 키워드를 바탕으로 생성된 3차원의 캠핑 이미지와 객체 키워드를 바탕으로 생성된 3차원의 객체 이미지(예를 들어, 3차원의 커피 이미지 및 3차원의 강아지 이미지)로 구현된 가상 공간 영상을 외부 서버로부터 수신할 수 있다. 그리고, 프로세서(120)는 수신된 가상 공간 영상을 디스플레이에 표시할 수 있다. 이때, 프로세서(120)가 수신한 가상 공간 영상은, 메타버스의 3차원 공간 내 특정 시점에서 획득되는 배경 컨텐츠(220) 및 객체 컨텐츠(210)에 대한 영상일 수 있다.
보다 구체적으로, 프로세서(120)가 수신한 가상 공간 영상은, 가상 공간 내 반영된 3차원의 객체 컨텐츠(210)에 대응하는 2차원의 객체 컨텐츠(210'), 가상 공간 내 반영된 3차원의 배경 컨텐츠(220)에 대응하는 2차원의 배경 컨텐츠(220'), 및 가상 공간 내 반영된 3차원의 사용자 컨텐츠(220)에 대응하는 2차원의 사용자 컨텐츠(201')를 포함할 수 있다. 이때, 2차원의 객체 컨텐츠(210')는 가상 공간 내 반영된 3차원의 객체 컨텐츠(210)에 대하여 특정 시점(Viewpoint)에서 획득될 수 있는 2차원의 이미지일 수 있다. 이와 마찬가지로 2차원의 배경 컨텐츠(220') 및 2차원의 사용자 컨텐츠(201') 또한 각각의 가상 공간 내 반영된 3차원의 컨텐츠를 특정 시점에서 바라봤을 때 획득될 수 있는 이미지일 수 있다.
도 11을 참조하면, 전자 장치(100)는 3차원의 가상 공간 내 반영된 사용자 컨텐츠(201), 객체 컨텐츠(210) 및 배경 컨텐츠(220)에 대하여 y축 방향에서 획득되는 2차원의 이미지(201', 210' 및 220')를 수신한 후 수신된 2차원의 이미지(201', 210' 및 220')를 디스플레이 상에 표시할 수 있다.
한편, 본 개시의 실시 예에 따라 전자 장치(100)에 포함된 디스플레이와 통신 인터페이스에 대해서는 도 13을 바탕으로 보다 상세히 설명하도록 한다.
한편, 본 개시의 실시 예에 따라서는, 전자 장치(100)가 생성된 객체 컨텐츠와 배경 컨텐츠를 바탕으로 3차원의 메타 버스의 가상 공간을 구현할 수도 있다. 즉, 전자 장치(100)는 각각의 사용자 위치에 대응하는 객체 컨텐츠(3차원의 객체 이미지) 및 배경 컨텐츠(3차원의 배경 이미지)를 바탕으로, 각각의 사용자 위치에 대응하는 가상 공간(200)을 생성할 수도 있다.
한편, 본 개시의 일 실시 예에 따라, 프로세서(120)는, 가상 공간 영상 내 객체 컨텐츠(210)에 대응하는 위치에, 객체 컨텐츠(210)에 대응하는 적어도 하나의 이미지를 표시하기 위한 UI를 표시하도록, 상기 디스플레이를 제어할 수 있다.
도 12는 본 개시의 일 실시 예에 따른, 객체 컨텐츠에 대응하는 적어도 하나의 이미지를 표시하기 위한 UI를 설명하기 위한 예시도이다.
구체적으로, 프로세서(120)는 외부 서버로부터 수신한 가상 공간 영상 내 객체 이미지 상에 적어도 하나의 이미지를 표시하기 위한 UI를 표시하도록 디스플레이를 제어할 수 있다.
이때, UI를 통해 표시되는 적어도 하나의 이미지는, 객체 이미지에 대응하는 객체 키워드를 획득한 이미지를 포함할 수 있다. 예를 들어, 도 12를 참조하면, 프로세서(120)는 디스플레이에 표시되는 객체 컨텐츠(210)에 해당하는 “커피” 이미지 및 “강아지” 이미지 상에 UI(61, 62)를 표시할 수 있다. 이때, 사용자의 터치 입력을 통해 “강아지” 이미지 상에 표시된 UI(61, 62)가 선택된 것으로 식별되거나, UI(61, 62)를 통해 사용자의 터치 입력을 감지되면, 프로세서(120)는 “강아지” 이미지를 생성하는데 이용된 적어도 하나의 이미지를 디스플레이 상에 표시할 수 있다.
구체적으로, 프로세서(120)는 제1 신경망 모델(20)에 입력하였을 때, 객체 키워드로 “강아지”가 획득된 적어도 하나의 이미지를 표시할 수 있다. 이를 통해, 사용자는, 메타버스의 가상 공간(200) 내에서 각각의 객체와 관련된 이미지(10)를 제공받을 수 있다.
도 13은 본 개시의 일 실시 예에 따른, 전자 장치의 세부적인 구성도이다.
도 13에 따르면, 본 개시의 일 실시 예에 따른 전자 장치(100)는, 메모리(110), 카메라(130), 디스플레이(140), 사용자 인터페이스(150), 스피커(160), 마이크(170), 통신 인터페이스(180) 및 프로세서(120)를 포함한다. 도 13에 도시된 구성 중 도 2에 도시된 구성과 중복되는 구성에 대해서는 자세한 설명을 생략하도록 한다.
카메라(130)는 이미지를 획득할 수 있다. 구체적으로, 카메라는 특정한 시점(Point of View; PoV)에서 화각(Field of View; FoV) 내에 존재하는 객체(즉, 피사체)를 촬영함으로써 객체를 포함하는 이미지를 획득할 수 있다. 프로세서(120)는 카메라를 통해 획득된 후 메모리(110)에 저장된 복수의 이미지(10)를 사용자 위치에 따라 분류하고, 사용자 위치에 대응하는 복수의 이미지(10)를 바탕으로 객체 컨텐츠(210)를 생성할 수 있다.
디스플레이(140)는 다양한 정보를 표시할 수 있다. 상술한 예를 들어 다시 설명하면, 프로세서(120)는 디스플레이를 통해 객체 컨텐츠(210) 및 배경 컨텐츠(220)를 표시할 수 있다. 구체적으로, 프로세서(120)는, 생성된 3차원의 객체 이미지와 3차원의 배경 이미지를 표시할 수 있다. 이때, 프로세서(120)는 3차원의 배경 이미지 상에 3차원의 객체 이미지를 함께 표시할 수 있다. 이를 위해, 디스플레이(140)는 LCD, LED 또는 OLED 등과 같은 다양한 유형의 디스플레이로 구현될 수 있다.
사용자 인터페이스(160)는 전자 장치(100)가 사용자와 인터렉션(Interaction)을 수행하기 위한 구성이다. 예를 들어 사용자 인터페이스(150)는 터치 센서, 모션 센서, 버튼, 조그(Jog) 다이얼, 스위치, 마이크 또는 스피커 중 적어도 하나를 포함할 수 있으나 이에 한정되는 것은 아니다. 예를 들어, 프로세서(120)는 사용자 인터페이스(160)를 통해 입력된 사용자 입력에 따라, 3차원의 메타버스의 가상 공간(200) 내 표시되는 객체 컨텐츠(210)를 이동시키거나, 움직임을 제어할 수 있다.
마이크(160)는 음성을 획득하여 전기 신호로 변환하는 모듈을 의미할 수 있으며, 콘덴서 마이크, 리본 마이크, 무빙코일 마이크, 압전소자 마이크, 카본 마이크, MEMS(Micro Electro Mechanical System) 마이크일 수 있다. 또한, 무지향성, 양지향성, 단일지향성, 서브 카디오이드(Sub Cardioid), 슈퍼 카디오이드(Super Cardioid), 하이퍼 카디오이드(Hyper Cardioid)의 방식으로 구현될 수 있다.
프로세서(120)는 마이크(160)를 통해 획득된 음성에 기초하여 감정 키워드를 획득할 수도 있다. 구체적으로, 마이크(160)를 통해 획득된 음성을 음성에 대응하는 텍스트(50)로 변환하고, 변환된 텍스트(50)를 제3 신경망 모델(40)에 입력하여 음성에 대응하는 감정 키워드를 획득할 수 있다. 이때, 획득된 감정 키워드를 바탕으로, 프로세서(120)는 배경 컨텐츠(220)를 생성할 수 있다.
스피커(170)는, 고음역대 소리 재생을 위한 트위터, 중음역대 소리 재생을 위한 미드레인지, 저음역대 소리 재생을 위한 우퍼, 극저음역대 소리 재생을 위한 서브우퍼, 공진을 제어하기 위한 인클로저, 스피커에 입력되는 전기 신호 주파수를 대역 별로 나누는 크로스오버 네트워크 등으로 이루어질 수 있다.
스피커(170)는, 음향 신호를 전자 장치(100)의 외부로 출력할 수 있다. 스피커(170)는 멀티미디어 재생, 녹음 재생, 각종 알림음, 음성 메시지 등을 출력할 수 있다. 전자 장치(100)는 스피커(170)와 같은 오디오 출력 장치를 포함할 수 있으나, 오디오 출력 단자와 같은 출력 장치를 포함할 수 있다. 특히, 스피커(170)는 획득한 정보, 획득한 정보에 기초하여 가공·생산한 정보, 사용자 음성에 대한 응답 결과 또는 동작 결과 등을 음성 형태로 제공할 수 있다.
통신 인터페이스(180)는 통신 인터페이스는 다양한 외부 장치(예를 들어, 외부 서버)와 통신을 수행하여 각종 정보를 송, 수신할 수 있다. 특히, 프로세서(120)는 통신 인터페이스를 통해, 생성된 객체 컨텐츠(210) 및 배경 컨텐츠(220)를 외부 서버로 송신할 수 있다. 이때, 객체 컨텐츠(210) 및 가상 컨텐츠를 수신한 외부 서버는, 수신된 객체 컨텐츠(210) 및 가상 컨텐츠를 바탕으로, 메타버스의 가상 공간(200) 영상을 생성할 수 있다. 그리고, 프로세서(120)는 통신 인터페이스를 통해 외부 서버로부터 생성된 메타버스의 가상 공간(200) 영상을 수신할 수 있다.
이를 위해, 통신 인터페이스는 근거리 무선 통신 모듈(미도시) 및 무선 랜 통신 모듈(미도시) 중 적어도 하나의 통신 모듈을 포함할 수 있다. 근거리 무선통신 모듈(미도시)은 근거리에 위치한 외부 기기와 무선으로 데이터 통신을 수행하는 통신 모듈로써, 예를 들어, 블루투스(Bluetooth) 모듈, 지그비(ZigBee) 모듈, NFC(Near Field Communication) 모듈, 적외선 통신 모듈 등이 될 수 있다. 또한, 무선 랜 통신 모듈(미도시)은 와이파이(WiFi), IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 외부 서버 또는 외부 기기와 통신을 수행하는 모듈이다.
한편, 상술한 본 개시의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치(100)에 설치 가능한 어플리케이션 형태로 구현될 수 있다. 또는 상술한 본 개시의 다양한 실시 예들에 따른 방법들은 딥 러닝 기반의 인공 신경망(또는 심층 인공 신경망) 즉, 학습 네트워크 모델을 이용하여 수행될 수 있다. 또한, 상술한 본 개시의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치(100)에 대한 소프트웨어 업그레이드, 또는 하드웨어 업그레이드 만으로도 구현될 수 있다. 또한, 상술한 본 개시의 다양한 실시 예들은 전자 장치(100)에 구비된 임베디드 서버, 또는 전자 장치(100)의 외부 서버를 통해 수행되는 것도 가능하다.
도 14는 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 개략적으로 나타낸 순서도이다.
도 14를 참조하면, 먼저 프로세서(120)는 복수의 이미지(10) 중 사용자 위치에 대응되는 복수의 이미지(10)를 선별할 수 있다(S1410).
구체적으로, 프로세서(120)는 메모리(110)에 저장된 복수의 이미지(10)를 각각의 사용자 위치에 따라 분류할 수 있다. 이때, 사용자 위치에 대응되는 복수의 이미지(10)란, 사용자가 특정 위치에 있는 동안 획득한 후 메모리(110)에 저장된 이미지일 수 있다. 구체적으로, 사용자가 특정 위치에서 카메라를 통해 획득한 후 메모리(110)에 저장된 이미지이거나, 또는 사용자가 특정 위치에 있는 동안, 통신 인터페이스를 통해 타 전자 장치(100)로부터 수신한 후 메모리(110)에 저장된 이미지일 수 있다.
한편, 프로세서(120)는 사용자의 위치가 변경된 것으로 감지되면, 메모리(110)에 저장된 복수의 이미지(10) 중 변경 전 사용자의 위치에 대응하는 복수의 이미지(10)를 선별할 수 있다. 이때, 프로세선(120)는 선별된 복수의 이미지(10)를 기초로 메타버스의 가상 공간(200)에 반영할 컨텐츠(예를 들어, 객체 컨텐츠)를 생성할 수 있다.
그리고, 프로세서(120)는 사용자 위치에 대응하는 복수의 이미지(10)를 선별한 후, 이미지 내에 포함된 객체를 검출하는 신경망 모델(20)(예를 들어, 제1 신경망 모델(20))을 이용하여, 선별된 복수의 이미지(10) 각각에 포함된 객체 키워드를 획득할 수 있다(S1420). 객체 키워드는, 검출된 객체의 유형, 종류 등을 나타내는 키워드일 수 있다.
그리고, 프로세서(120)는 선별된 복수의 이미지(10) 각각을 통해 획득된 객체 키워드의 빈도에 기초하여 메타버스의 가상 공간(200)에 반영할 객체를 결정할 수 있다(S1430). 이때, 객체 키워드의 빈도는, 사용자 위치에 대응하여 선별된 복수의 이미지(10)를 순차적으로 제1 신경망 모델(20)에 입력하였을 때, 프로세서(120)가 획득한 객체 키워드의 누적 개수일 수 있다.
이때, 본 개시의 일 실시 예에 따라, 프로세서(120)는 획득된 객체 키워드 각각의 빈도를 식별하고, 복수의 객체 키워드 중 식별된 빈도가 기 설정된 값 이상인 복수의 제1 객체 키워드를 선별하고, 선별된 복수의 제1 객체 키워드에 기초하여, 메타버스의 가상 공간(200)에 반영할 객체를 결정할 수 있다.
이때, 본 개시의 일 실시 예에 따라, 프로세서(120)는 사용자 위치와 상기 복수의 제1 객체 키워드 간의 의미 유사도를 식별하고, 복수의 제1 객체 키워드 중, 상기 식별된 의미 유사도가 기 설정된 값 이상인 의미 유사도를 갖는 제2 객체 키워드를 선별하고, 선별된 제2 객체 키워드에 기초하여, 메타버스의 가상 공간(200)에 반영할 객체를 결정할 수도 있다. 즉, 프로세서(120)는 복수의 제1 객체 키워드 중에서도, 사용자 위치와 관련성이 높은 제1 객체 키워드를 제2 객체 키워드로 선별하고, 선별된 제2 객체 키워드에 대응하는 객체를 메타버스의 가상 공간(200)에 반영할 객체로 결정할 수 있다.
한편, 본 개시의 일 실시 예에 따라, 프로세서(120)는 메타버스의 가상 공간(200)에 반영할 객체를 결정한 후 결정된 객체에 대응하는 객체 컨텐츠(210)를 생성할 수 있다. 객체 컨텐츠(210)는 결정된 객체의 3차원 이미지일 수 있다. 따라서, 프로세서(120)는 결정된 객체의 3차원 이미지를 렌더링할 수 있다. 다만, 이에 제한되는 것은 아니면, 메모리(110)에는 각각의 객체 키워드에 대응하는 3차원 이미지가 저장될 수 있다. 이에 따라, 프로세서(120)는 결정된 객체에 관한 객체 키워드에 대응하는 3차원 이미지를 획득하여, 객체 컨텐츠(210)를 생성할 수도 있다.
한편, 본 개시의 일 실시 예에 따라, 프로세서(120)는 메타버스의 가상 공간(200)에 반영할 배경 컨텐츠(220)를 생성할 수도 있다.
이를 위해, 본 개시의 일 실시 예에 따라, 프로세서(120)는 사용자 위치에 대응하는 복수의 이미지(10)를 선별한 후, 사용자 위치가 기 설정된 위치인지 식별할 수 잇다. 이때, 사용자 위치가 기 설정된 위치가 아닌 것으로 식별되면, 프로세서(120)는 이미지 내 배경을 식별하는 신경망 모델(즉, 제2 신경망 모델(30))을 이용하여, 선별된 복수의 이미지(10) 각각의 배경 키워드를 획득할 수 있다.
그리고, 프로세서(120)는 선별된 복수의 이미지(10) 각각에 대응하는 배경 키워드의 빈도에 기초하여 메타버스의 가상 공간(200)에 반영할 배경을 결정할 수 있다. 구체적으로, 프로세서(120)는 빈도가 가장 큰 배경 키워드로 메타버스의 가상 공간(200)에 반영할 배경을 결정할 수 있다.
그리고, 프로세서(120)는 결정된 배경에 대응하는 배경 컨텐츠(220)를 생성할 수 있다. 즉, 프로세서(120)는 결정된 배경에 대응하는 3차원의 배경 이미지를 렌더링할 수 있다. 뿐만 아니라, 상술한 객체 컨텐츠(210)와 마찬가지로, 메모리(110)에는 각각의 배경 키워드에 대응하는 3차원 배경 이미지가 저장될 수 있으며, 이때 프로세서(120)는 배경 키워드에 대응하는 3차원 배경 이미지를 메모리(110)로부터 획득할 수도 있다.
한편, 프로세서(120)는 사용자 위치기 기 설정된 위치가 아닌 것으로 식별되면, 배경 키워드와 복수의 제1 객체 키워드 간의 의미 유사도를 식별할 수 있다. 그리고, 프로세서(120)는 식별된 의미 유사도가 기 설정된 값 이상인
이때, 본 개시의 일 실시 예에 따라, 프로세서(120)는 사용자 위치에 대응하는 기간 동안 획득된 적어도 하나의 텍스트(50)를 식별하고, 텍스트(50)에 대응하는 감정을 식별하는 신경망 모델을 이용하여, 적어도 하나의 텍스트(50)에 대응하는 감정 키워드를 획득하고, 획득된 감정 키워드 및 상기 사용자 위치에 기초하여 상기 메타버스의 가상 공간(200)에 반영할 배경을 결정할 수도 있다. 구체적으로, 프로세서(120)는 획득된 감정 키워드를 기초로, 배경 컨텐츠(220)의 색상, 날씨, 시간 등을 설정할 수 있다.
한편, 상술한 설명에서, 단계 S1610 내지 S1640은 본 발명의 실시 예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
도 15는 본 개시의 일 실시 예에 따른 전자 장치가 사용자 단말 장치로 동작하는 방법을 설명하기 위한 도면이다. 도 14와 중복되는 동작에 대해서는 자세한 설명을 생략하도록 한다.
본 개시의 일 실시 예에 따라, 전자 장치(100)는 사용자 단말 장치일 수 있다. 이때, 사용자 단말 장치는, TV, 스마트 폰, 태블릿 PC, 데스크 탑 PC 또는 노트북 PC 중 적어도 하나를 포함할 수 있다.
전자 장치(100)의 프로세서(120)는 기 설정된 위치 및 배경 키워드를 기초로 배경 컨텐츠(220)를 생성할 수 있다(S1550). 구체적으로, 메모리(110)에는 각각의 기 설정되 위치에 대응하는 3차원의 배경 이미지는 사전에 생성되어 저장될 수 있다. 또한 메모리(110)에는 각각의 배경 키워드에 대응하는 3차원의 배경 이미지가 사전에 생성되어 저장될 수 있다. 다만, 사전에 생성된 각각의 기 설정된 위치에 대응하는 3차원의 배경 이미지 또는 사전에 생성된 각각의 배경 키워드에 대응하는 3차원의 배경 이미지는 외부 서버로부터 획득되어 메모리(110)에 저장될 수 있다. 그러나 이에 제한되는 것은 아니다.
한편, 프로세서(120)는 사용자 위치가 기 설정된 위치인 것으로 식별되면, 기 설정된 위치에 대응하는 3차원의 배경 이미지를 메모리(110)로부터 획득할 수 있다. 또한, 프로세서(120)는 사용자 위치가 기 설정된 위치가 아닌 것으로 식별되면, 복수의 이미지(10)에 대하여 획득된 배경 키워드에 대응하는 3차원의 배경 이미지를 메모리(110)로부터 획득할 수 있다.
그리고, 프로세서(120)는 객체 키워드를 기초로, 3차원의 객체 이미지를 생성할 수 있다. 3차원의 배경 이미지와 마찬가지로 3차원의 객체 이미지 또한 각각의 객체 키워드에 대응하여 사전에 생성되어 메모리(110)에 저장될 수 있다. 이와 관련해서는 상술한 배경 컨텐츠(220)에 과한 설명이 동일하게 적용될 수 있으므로, 상세한 설명은 생략하도록 한다.
프로세서(120)는 생성된 배경 컨텐츠(220)와 객체 컨텐츠(210)를 외부 서버(300)로 송신할 수 있다(S1570). 그리고, 외부 서버(300)는 수신한 배경 컨텐츠(220)와 객체 컨텐츠(210)를 메타버스 가상 공간에 반영하여, 사용자에 맞춤형 메타버스 가상 공간을 구현할 수 있다. 그리고, 외부 서버(300)는 생성된 메타버스 가상 공간 이미지를 전자 장치(100)로 송신할 수 있다.
그리고, 전자 장치(100)의 프로세서(120)는 수신한 메타버스 가상 공간 이미지를 디스플레이에 표시할 수 있다.
도 16은 본 개시의 일 실시 예에 따른 전자 장치가 서버로 동작하는 방법을 설명하기 위한 도면이다. 도 14 및 15와 중복되는 동작에 대해서는 자세한 설명을 생략하도록 한다.
본 개시의 일 실시 예에 따라, 전자 장치(100)는 서버일 수 있다. 이때, 서버는 클라우드 서버 등을 포함할 수 있다.
전자 장치(100)는 사용자 단말 장치(400)로부터 복수의 이미지(10) 및 사용자 위치 정보를 수신할 수 있다(S1620). 구체적으로, 사용자 단말 장치(400)는 사용자 위치에 대응하는 복수의 이미지(10)와 함께, 사용자 위치 정보(예를 들어, GPS 좌표 등)을 전자 장치(100)로 송신할 수 있다.
그리고, 전자 장치(100)는 수신한 복수의 이미지(10) 및 사용자 위치 정보를 바탕으로, 메타버스 가상 공간에 반영할 객체 컨텐츠(210) 및 배경 컨텐츠(220)를 생성할 수 있다. 그리고, 전자 장치(100)는 생성된 객체 컨텐츠(210) 및 배경 컨텐츠(220)를 메타버스의 가상 공간(200)에 반영하여, 사용자(즉, 사용자 단말 장치(400)의 사용자) 맞춤형 메타버스의 가상 공간(200)을 구현할 수 있다.
한편, 본 개시의 일시 예에 따르면, 이상에서 설명된 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media)에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 디스플레이 장치(예: 디스플레이 장치(A))를 포함할 수 있다. 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 프로세서의 제어 하에 다른 구성요소들을 이용하여 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.
또한, 일 실시 예에 따르면, 이상에서 설명된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
또한, 상술한 다양한 실시 예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시 예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시 예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.
이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims (15)

  1. 전자 장치에 있어서,
    복수의 이미지를 저장하는 메모리; 및
    상기 복수의 이미지를 이용하여 메타버스의 가상 공간에 표시될 컨텐츠를 생성하는 프로세서;를 포함하고,
    상기 프로세서는,
    상기 복수의 이미지 중 사용자 위치에 대응되는 복수의 이미지를 선별하고, 상기 선별된 복수의 이미지 각각에 포함된 객체 키워드를 획득하고, 상기 선별된 복수의 이미지 각각을 통해 획득된 객체 키워드의 빈도에 기초하여 상기 메타버스의 가상 공간에 반영할 객체를 결정하고, 상기 결정된 객체에 대응하는 객체 컨텐츠를 생성하는, 전자 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    상기 획득된 객체 키워드 각각의 빈도를 식별하고, 상기 복수의 객체 키워드 중 상기 식별된 빈도가 기 설정된 값 이상인 복수의 제1 객체 키워드를 선별하고, 상기 선별된 복수의 제1 객체 키워드에 기초하여, 상기 메타버스의 가상 공간에 반영할 객체를 결정하는, 전자 장치.
  3. 제2항에 있어서,
    상기 프로세서는,
    상기 사용자 위치와 상기 복수의 제1 객체 키워드 간의 의미 유사도를 식별하고,
    상기 복수의 제1 객체 키워드 중, 상기 식별된 의미 유사도가 기 설정된 값 이상인 의미 유사도를 갖는 제2 객체 키워드를 선별하고, 상기 선별된 제2 객체 키워드에 기초하여, 상기 메타버스의 가상 공간에 반영할 객체를 결정하는, 전자 장치.
  4. 제1항에 있어서,
    상기 프로세서는,
    상기 각각의 이미지에 대응하는 객체 키워드의 개수를 식별하고, 상기 식별된 객체 키워드의 개수에 기초하여, 상기 객체 키워드의 빈도를 식별하고, 하나의 이미지에 대응하는 복수의 객체 키워드에 동일한 객체 키워드가 복수 개 포함된 경우, 상기 하나의 이미지에 대해서는 상기 동일한 객체 키워드의 개수를 한 개로 식별하는, 전자 장치.
  5. 제1항에 있어서,
    상기 프로세서는,
    상기 사용자 위치가 기 설정된 위치인지 식별하고, 상기 사용자 위치가 기 설정된 위치가 아닌 것으로 식별되면, 상기 선별된 복수의 이미지 각각의 배경 키워드를 획득하고, 상기 선별된 복수의 이미지 각각에 대응하는 배경 키워드의 빈도에 기초하여 상기 메타버스의 가상 공간에 반영할 배경을 결정하고, 상기 결정된 배경에 대응하는 배경 컨텐츠 및 상기 결정된 객체에 대응하는 객체 컨텐츠를 생성하는, 전자 장치.
  6. 제1항에 있어서,
    상기 프로세서는,
    상기 사용자 위치에 대응하는 기간 동안 획득된 복수의 텍스트를 식별하고, 상기 식별된 복수의 텍스트에 대응하는 복수의 감정 키워드를 획득하고, 상기 획득된 감정 키워드 및 상기 사용자 위치에 기초하여 상기 메타버스의 가상 공간에 반영할 배경을 결정하는, 전자 장치.
  7. 제1항에 있어서,
    상기 전자 장치는,
    디스플레이를 더 포함하고,
    상기 프로세서는,
    상기 객체 컨텐츠를 서버에 전송하고, 상기 서버로부터, 상기 객체 컨텐츠를 포함하는 가상 공간 영상을 수신하고, 상기 수신한 가상 공간 영상이 표시하도록 상기 디스플레이를 제어하는, 전자 장치.
  8. 제7항에 있어서,
    상기 프로세서는,
    상기 가상 공간 영상 내 상기 객체 컨텐츠에 대응하는 위치에, 상기 객체 컨텐츠에 대응하는 적어도 하나의 이미지를 표시하기 위한 UI를 표시하도록, 상기 디스플레이를 제어하는, 전자 장치.
  9. 제1항에 있어서,
    상기 프로세서는,
    상기 복수의 이미지 중 상기 사용자 위치에 대응하는 복수의 이미지의 개수가 기 설정된 개수 이상인지 식별하고, 상기 사용자 위치에 대응하는 복수의 이미지의 개수가 기 설정된 개수 이상이면, 상기 선별된 복수의 이미지 각각에 포함된 객체 키워드를 획득하는, 전자 장치.
  10. 제1항에 있어서,
    상기 프로세서는, 상기 사용자의 위치를 실시간으로 감지하고, 상기 사용자의 위치가 제1 위치에서 제2 위치로 변경된 것으로 감지되면, 상기 복수의 이미지 중 상기 제1 위치에 대응하는 복수의 이미지를 선별하는, 전자 장치.
  11. 전자 장치를 제어하는 방법에 있어서,
    복수의 이미지 중 사용자 위치에 대응되는 복수의 이미지를 선별하는 단계;
    상기 선별된 복수의 이미지 각각에 포함된 객체 키워드를 획득하는 단계;
    선별된 복수의 이미지 각각을 통해 획득된 객체 키워드의 빈도에 기초하여 메타버스의 가상 공간에 반영할 객체를 결정하는 단계; 및
    결정된 객체에 대응하는 객체 컨텐츠를 생성하는 단계를 포함하는, 방법.
  12. 제11항에 있어서,
    상기 결정하는 단계는,
    상기 획득된 객체 키워드 각각의 빈도를 식별하고, 상기 복수의 객체 키워드 중 상기 식별된 빈도가 기 설정된 값 이상인 복수의 제1 객체 키워드를 선별하는 단계; 및
    상기 선별된 복수의 제1 객체 키워드에 기초하여, 상기 메타버스의 가상 공간에 반영할 객체를 결정하는 단계를 포함하는, 방법.
  13. 제12항에 있어서,
    상기 결정하는 단계는,
    상기 사용자 위치와 상기 복수의 제1 객체 키워드 간의 의미 유사도를 식별하는 단계;
    상기 복수의 제1 객체 키워드 중, 상기 식별된 의미 유사도가 기 설정된 값 이상인 의미 유사도를 갖는 제2 객체 키워드를 선별하는 단계; 및
    상기 선별된 제2 객체 키워드에 기초하여, 상기 메타버스의 가상 공간에 반영할 객체를 결정하는 단계를 포함하는, 방법.
  14. 제11항에 있어서,
    상기 결정하는 단계는,
    상기 각각의 이미지에 대응하는 객체 키워드의 개수를 식별하고, 상기 식별된 객체 키워드의 개수에 기초하여, 상기 객체 키워드의 빈도를 식별하고, 하나의 이미지에 대응하는 복수의 객체 키워드에 동일한 객체 키워드가 복수 개 포함된 경우, 상기 하나의 이미지에 대해서는 상기 동일한 객체 키워드의 개수를 한 개로 식별하는, 방법.
  15. 전자 장치의 프로세서에 의해 실행되는 경우
    상기 전자 장치가 동작을 수행하도록 하는 컴퓨터 명령을 저장하는 비일시적 컴퓨터 판독가능 기록매체에 있어서,
    상기 동작은,
    복수의 이미지 중 사용자 위치에 대응되는 복수의 이미지를 선별하는 단계;
    상기 선별된 복수의 이미지 각각에 포함된 객체 키워드를 획득하는 단계;
    선별된 복수의 이미지 각각을 통해 획득된 객체 키워드의 빈도에 기초하여 메타버스의 가상 공간에 반영할 객체를 결정하는 단계; 및
    결정된 객체에 대응하는 객체 컨텐츠를 생성하는 단계;를 포함하는, 컴퓨터 판독가능 기록매체.
PCT/KR2023/011275 2022-08-18 2023-08-01 사용자 맞춤형 메타버스 컨텐츠를 제공하는 전자 장치 및 그 제어 방법 WO2024039111A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020220103575A KR20240025384A (ko) 2022-08-18 2022-08-18 사용자 맞춤형 메타버스 컨텐츠를 제공하는 전자 장치 및 그 제어 방법
KR10-2022-0103575 2022-08-18

Publications (1)

Publication Number Publication Date
WO2024039111A1 true WO2024039111A1 (ko) 2024-02-22

Family

ID=89941851

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/011275 WO2024039111A1 (ko) 2022-08-18 2023-08-01 사용자 맞춤형 메타버스 컨텐츠를 제공하는 전자 장치 및 그 제어 방법

Country Status (2)

Country Link
KR (1) KR20240025384A (ko)
WO (1) WO2024039111A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150227806A1 (en) * 2012-09-24 2015-08-13 Nec Corporation Object information extraction apparatus, object information extraction program, and object information extraction method
KR102022902B1 (ko) * 2017-11-28 2019-09-19 김무아 가상현실 콘텐츠 생성방법 및 프로그램
WO2019246348A1 (en) * 2018-06-21 2019-12-26 Google Llc Predicting topics of potential relevance based on retrieved/created digital media files
KR102376390B1 (ko) * 2021-08-26 2022-03-21 이풍연 메타버스 서비스를 제공하는 방법 및 장치
KR20220080869A (ko) * 2020-12-08 2022-06-15 (주)토탈소프트뱅크 사용자 중심의 복합위험상황에 대한 시나리오 편집 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150227806A1 (en) * 2012-09-24 2015-08-13 Nec Corporation Object information extraction apparatus, object information extraction program, and object information extraction method
KR102022902B1 (ko) * 2017-11-28 2019-09-19 김무아 가상현실 콘텐츠 생성방법 및 프로그램
WO2019246348A1 (en) * 2018-06-21 2019-12-26 Google Llc Predicting topics of potential relevance based on retrieved/created digital media files
KR20220080869A (ko) * 2020-12-08 2022-06-15 (주)토탈소프트뱅크 사용자 중심의 복합위험상황에 대한 시나리오 편집 시스템
KR102376390B1 (ko) * 2021-08-26 2022-03-21 이풍연 메타버스 서비스를 제공하는 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
vol. 4, 16 June 2022, SPRINGER INTERNATIONAL PUBLISHING, article PARK DAEHEE; KIM JEONG MIN; JUNG JINGI; CHOI SAEMI: "Method to Create a Metaverse Using Smartphone Data", pages: 45 - 57, XP047624639, DOI: 10.1007/978-3-031-05939-1_4 *

Also Published As

Publication number Publication date
KR20240025384A (ko) 2024-02-27

Similar Documents

Publication Publication Date Title
WO2020045927A1 (en) Electronic device and method for generating short cut of quick command
WO2020032543A1 (en) Electronic device for adjusting image including multiple objects and control method thereof
WO2017043936A1 (en) Method for measuring angles between displays and electronic device using the same
WO2019164374A1 (ko) 전자 장치 및 아바타 기반의 커스텀 객체 운용 방법
WO2015167160A1 (en) Command displaying method and command displaying device
WO2017043857A1 (ko) 어플리케이션 제공 방법 및 이를 위한 전자 기기
WO2019059505A1 (ko) 객체를 인식하는 방법 및 장치
WO2020162709A1 (en) Electronic device for providing graphic data based on voice and operating method thereof
WO2017030255A1 (en) Large format display apparatus and control method thereof
WO2019125029A1 (ko) 증강 현실을 위한 객체를 표시하기 위한 전자 장치 및 그의 동작 방법
WO2020149689A1 (ko) 영상 처리 방법 및 이를 지원하는 전자 장치
WO2016126083A1 (ko) 주변 상황 정보를 통지하기 위한 방법, 전자 장치 및 저장 매체
WO2020091248A1 (ko) 음성 명령에 응답하여 컨텐츠를 표시하기 위한 방법 및 그 전자 장치
WO2021206415A1 (en) Electronic device for communicating in augmented reality and method thereof
WO2021133053A1 (ko) 전자 장치 및 그의 제어 방법
WO2016137139A1 (en) Method and device for managing item
WO2020045862A1 (ko) 가상 현실에서 정보를 제공하는 전자 장치 및 방법
WO2021025509A1 (en) Apparatus and method for displaying graphic elements according to object
WO2018182375A1 (en) Electronic device and method for providing colorable content
WO2020171429A1 (ko) 애니메이티드 이미지를 제공하기 위한 전자 장치 및 그에 관한 방법
WO2020171567A1 (en) Method for recognizing object and electronic device supporting the same
WO2016093633A1 (ko) 컨텐트를 표시하는 방법 및 디바이스
WO2019103420A1 (en) Electronic device and method for sharing image with external device using image link information
WO2022131465A1 (ko) 증강 현실 콘텐츠를 디스플레이하는 전자 장치 및 방법
WO2020171558A1 (en) Method of providing augmented reality contents and electronic device therefor

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23855078

Country of ref document: EP

Kind code of ref document: A1