WO2023214826A1 - 집단 지성을 이용한 정보 처리 시스템 및 그 방법 - Google Patents

집단 지성을 이용한 정보 처리 시스템 및 그 방법 Download PDF

Info

Publication number
WO2023214826A1
WO2023214826A1 PCT/KR2023/006127 KR2023006127W WO2023214826A1 WO 2023214826 A1 WO2023214826 A1 WO 2023214826A1 KR 2023006127 W KR2023006127 W KR 2023006127W WO 2023214826 A1 WO2023214826 A1 WO 2023214826A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
terminal
information
raw data
server
Prior art date
Application number
PCT/KR2023/006127
Other languages
English (en)
French (fr)
Inventor
김행철
김미현
김훈동
Original Assignee
유한회사 닥터다비드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 유한회사 닥터다비드 filed Critical 유한회사 닥터다비드
Priority claimed from KR1020230058299A external-priority patent/KR20230156268A/ko
Publication of WO2023214826A1 publication Critical patent/WO2023214826A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Definitions

  • the present invention relates to an information processing system and method using collective intelligence, and in particular, to perform labeling on one or more raw data related to specific content provided by a user, and to use a preset classification model and prediction model for the labeled raw data.
  • a learning function is performed through, additional labeling is performed on the first image, which is the output value of the prediction model, and an additional learning function is performed on the additionally labeled first image through a classification model and prediction model to output a second image.
  • the goal is to provide an information processing system and method using collective intelligence.
  • Collective intelligence is intelligence obtained as a result of the intellectual abilities accumulated by group members through cooperation or competition with each other. Or it represents such collective ability.
  • the purpose of the present invention is to perform labeling on one or more raw data related to specific content provided by a user, perform a learning function on the labeled raw data through a preset classification model and prediction model, and obtain the output value of the prediction model.
  • Another object of the present invention is to reconstruct motion-related images of real humans, virtual avatars or items into robot motion images, perform labeling on the reconstructed robot motion images, and set a preset classification model for the labeled robot motion images. And perform a learning function through a prediction model, perform additional labeling on the first robotics image that is the result of performing the learning function, and perform an additional learning function on the additionally labeled first robotics image through a classification model and a prediction model.
  • the aim is to provide an information processing system and method using collective intelligence that outputs a second robotics image.
  • An information processing system using collective intelligence includes one or more raw data collected in relation to a specific topic, meta information related to the raw data, an image to be compared, meta information related to the image to be compared, and a terminal.
  • a terminal transmitting identification information; And receiving one or more raw data related to a specific topic transmitted from the terminal, meta information related to the raw data, an image to be compared, meta information related to the image to be compared, and identification information of the terminal, and the terminal
  • selective labeling is performed on the one or more raw data
  • artificial intelligence-based machine learning is performed based on information about the selectively labeled raw data
  • the raw data is classified based on the machine learning results.
  • the server performs additional selective labeling on the first image in conjunction with the terminal, and performs artificial intelligence-based machine learning based on information about the additional selectively labeled first image.
  • the generated second image can be transmitted to the terminal.
  • the server performs the preceding selective labeling process, classification model inference process, prediction model inference process, and generated first data on a plurality of raw data provided from a plurality of terminals.
  • An information processing method using collective intelligence includes one or more raw data related to a specific topic transmitted from a terminal by a server, meta information related to the raw data, an image to be compared, and information related to the image to be compared.
  • Receiving meta information and terminal identification information including receiving meta information and terminal identification information; performing selective labeling on the one or more raw data by the server, in conjunction with the terminal; performing, by the server, artificial intelligence-based machine learning based on information about the selectively labeled raw data, and generating a classification value for the raw data based on the machine learning results; A classification value for the raw data generated by the server, information on the selectively labeled raw data, the raw data, meta information related to the raw data, the image to be compared, and meta information related to the image to be compared. performing machine learning using as an input value and generating a first image corresponding to the raw data based on the machine learning results; transmitting, by the server, the generated first video to the terminal; and outputting, by the terminal, the first image transmitted from the server.
  • the step of performing selective labeling on the one or more raw data includes labeling the raw data displayed on the terminal at one or more specific points in time and one or more specific sections among the raw data according to a user input. You can set the label value in at least one.
  • the step of performing selective labeling on one or more raw data includes, at a specific point in time or in a specific section, according to a user input of the terminal, for raw data displayed in the video display area of the terminal.
  • a label value can be set for good or bad behavior regarding the movement of the object included in the raw data.
  • hierarchical labeling is performed on the one or more raw data in conjunction with the terminal. Additional steps may be included.
  • the step of performing hierarchical labeling on the one or more raw data includes selecting another one of the raw data according to user input based on a plurality of label classifications preset for the raw data displayed on the terminal.
  • the step of generating a classification value for the raw data based on the machine learning results involves performing machine learning by using information about the selectively labeled raw data as an input value of a preset classification model. And, a classification value for the raw data can be generated based on the machine learning results.
  • the step of generating a first image corresponding to the raw data based on the machine learning result includes a classification value for the generated raw data, information on the selectively labeled raw data, and Machine learning is performed using raw data, meta information related to the raw data, the image to be compared, and meta information related to the image to be compared as input values of a preset prediction model, and based on the machine learning results, the raw data and A related first image can be generated.
  • An example related to the present invention includes performing additional selective labeling on the first image by the server, in conjunction with the terminal; performing, by the server, artificial intelligence-based machine learning based on information about the additionally selectively labeled first image, and generating a classification value for the first image based on the machine learning results;
  • a classification value for the generated first image information on the additionally selectively labeled first image, the first image, meta information related to the first image, the comparison target image, and the comparison target Performing machine learning using meta information related to the image as input, and generating a second image corresponding to the first image based on the machine learning results; transmitting, by the server, the generated second video to the terminal; outputting, by the terminal, a second video transmitted from the server; and additional selection of the previous selective labeling process, classification model inference process, prediction model inference process, and generated first image by the server for a plurality of raw data provided from a plurality of terminals in relation to the specific topic.
  • the method may further include generating a second image that is collectively
  • the step of performing additional selective labeling on the first image includes information on sub-row data divided into a plurality of parts according to the performance of the hierarchical labeling function for the raw data by the terminal.
  • label values for good and bad actions for the inputted plurality of sub-videos, label values for sorting the order of the plurality of sub-videos, and identification information of the terminal are transmitted to the server.
  • process and label values for good and bad actions for the plurality of sub-videos transmitted from the terminal according to the time-series division selective labeling function for the first video performed by the server, and the plurality of sub-videos. It may include a process of receiving a label value for sorting the order and identification information of the terminal.
  • the step of performing additional selective labeling on the first image includes information on sub-row data divided into a plurality of parts according to the performance of the hierarchical labeling function for the raw data by the terminal.
  • the terminal transmits to the server a label value for the action sequence of the avatar included in the input plurality of sub-images, a label value for sorting the order of the plurality of sub-images, and identification information of the terminal.
  • the server performs a selective labeling function for each body part targeting the first image, the plurality of sub-images. It may include a process of receiving a label value for sorting the order of images and identification information of the terminal.
  • An information processing system using collective intelligence collects motion-related images related to at least one of real humans, avatars, and items in relation to a specific topic, and meta-information related to the motion-related images, and collects the In order to implement the collected motion-related images into actual robot motions, the collected motion-related images are reconstructed into robot motion images, selective labeling is performed on the robot motion images in conjunction with a terminal, and the selectively labeled robot is By performing artificial intelligence-based machine learning based on information about the motion image, a classification value for the robot motion image is generated based on the machine learning results, and the classification value for the generated robot motion image and the selection label are Generating a first robotics image corresponding to the robot motion image based on information about the robot motion image, the robot motion image, meta information related to the robot motion image, the comparison target image, and meta information related to the comparison target image. and a server transmitting the generated first robotics image to the terminal; And it may include the terminal that outputs the first robotics image transmitted from the
  • the server performs additional selective labeling on the first robotics image in conjunction with the terminal, and provides artificial intelligence-based information based on information about the additional selectively labeled first robotics image.
  • a second robotics image corresponding to may be generated, and the generated second robotics image may be transmitted to the terminal.
  • the server performs the preceding selective labeling process and a classification model for motion-related images related to at least one of a plurality of real humans, avatars, and items provided from a plurality of terminals in relation to the specific topic.
  • the inference process, the prediction model inference process, the additional selective labeling process for the generated first robotics image, the additional classification model inference process, and the additional prediction model inference process are each repeatedly performed to create a collective intelligence product related to the specific topic. 2 Robotics videos can be created.
  • An information processing method using collective intelligence collects, by a server, motion-related images related to at least one of an actual human, an avatar, and an item in relation to a specific topic, and meta-information related to the motion-related images. steps; Reconstructing, by the server, the collected motion-related images into robot motion images in order to implement the collected motion-related images into actual robot motions; performing selective labeling on the robot motion image by the server, in conjunction with a terminal; performing artificial intelligence-based machine learning based on information about the selectively labeled robot motion image, by the server, and generating a classification value for the robot motion image based on the machine learning results; By the server, a classification value for the generated robot motion image, information on the selectively labeled robot motion image, the robot motion image, meta information related to the robot motion image, the comparison target image, and the comparison target image. generating a first robotics image corresponding to the robot motion image based on meta information related to the; Transmitting, by the server, the generated first robotics image to
  • performing hierarchical labeling on the robot motion image in conjunction with the terminal before or after the step of performing selective labeling on the robot motion image by the server may further include.
  • An example related to the present invention includes performing additional selective labeling on the first robotics image by the server, in conjunction with the terminal; performing, by the server, artificial intelligence-based machine learning based on information about the additionally selectively labeled first robotics image, and generating a classification value for the first robotics image based on the machine learning results;
  • a classification value for the first robotics image generated, information on the first robotics image with the additional selection label, the first robotics image, meta information related to the first robotics image, and the comparison target image
  • the inference process, the additional selective labeling process for the generated first robotics image, the additional classification model inference process, and the additional prediction model inference process are each repeatedly performed to generate a second robotics image that is collectively intelligent with respect to the specific topic. Additional steps may be included.
  • the present invention performs labeling on one or more raw data related to specific content provided by a user, performs a learning function on the labeled raw data through a preset classification model and prediction model, and produces a first output value of the prediction model.
  • a learning function on the labeled raw data through a preset classification model and prediction model
  • produces a first output value of the prediction model By performing additional labeling on the image, performing additional learning functions through a classification model and prediction model on the additionally labeled first image, and outputting a second image, avatars and/or items related to raw data are provided to the user. And, it has the effect of improving the reasoning ability of artificial intelligence through labeling of raw data.
  • the present invention reconstructs motion-related images of real humans, virtual avatars, or items into robot motion images, performs labeling on the reconstructed robot motion images, and creates a preset classification model and a preset classification model for the labeled robot motion images.
  • a learning function is performed through a prediction model, additional labeling is performed on the first robotics image that is the result of performing the learning function, and an additional learning function is performed through a classification model and a prediction model on the additionally labeled first robotics image. 2
  • the results of artificial intelligence can be repeatedly applied to the artificial intelligence classification model and prediction model, thereby improving the learning ability of artificial intelligence.
  • Figure 1 is a block diagram showing the configuration of an information processing system using collective intelligence according to an embodiment of the present invention.
  • Figure 2 is a schematic diagram of hierarchical clustering of raw data (actual reality data) according to an embodiment of the present invention.
  • Figure 3 is a conceptual diagram showing the definition of a three-dimensional figure in the segmented motion video of Figures 4 to 6 according to an embodiment of the present invention.
  • Figure 4 is a conceptual diagram showing the collection of n pieces of information about the movements of avatars (humans) and/or robotics in a three-dimensional shape according to an embodiment of the present invention.
  • Figure 5 is a conceptual diagram showing the collection of n' pieces of information about the movements of avatars (humans) and/or robotics according to an embodiment of the present invention in a three-dimensional shape.
  • Figure 6 is a conceptual diagram showing the collection of N pieces of information about the movements of avatars (humans) and/or robotics in three-dimensional form according to an embodiment of the present invention.
  • Figure 7 is a schematic diagram of hierarchical clustering processed based on data unit 3 according to an embodiment of the present invention.
  • Figure 8 is a schematic diagram of hierarchical clustering processed based on digital unit 3 according to an embodiment of the present invention.
  • Figure 9 is a schematic diagram of hierarchical clustering processed based on data unit 4 according to an embodiment of the present invention.
  • Figure 10 is a schematic diagram of hierarchical clustering processed based on digital unit 4 according to an embodiment of the present invention.
  • Figure 11 is a schematic diagram of hierarchical clustering processed based on digital unit 5 according to an embodiment of the present invention.
  • Figure 12 is a flowchart showing how information-processed data is applied to the induction and/or inference algorithm according to an embodiment of the present invention.
  • Figure 13 is a diagram showing the principle of the GNN regression model according to an embodiment of the present invention.
  • Figure 14 is a diagram showing a method for generating virtual avatars and items using GAN according to an embodiment of the present invention.
  • Figure 15 is a diagram showing the principle of being applied as a model like existing data when basic image information according to an embodiment of the present invention is continuously collected.
  • Figure 16 is a diagram showing the principle of visual rendering that is output and generated in a terminal by operating in a server according to an embodiment of the present invention.
  • Figure 17 is a diagram showing the principle of generating a digital unit by labeling according to an embodiment of the present invention.
  • Figure 18 is a diagram showing the principle of how collective intelligence robotics operates on a server according to an embodiment of the present invention.
  • Figure 19 is a diagram showing the principle of advancing collective intelligence robotics through robotics labeling according to an embodiment of the present invention.
  • Figure 20 is a diagram illustrating a circular structure as a platform where users, participants, and companies generate profits, earn money, and double the fun factor according to an embodiment of the present invention.
  • Figure 21 is a diagram showing a method of generating and/or providing an output platform for virtual avatars and items using GAN and/or GNN according to an embodiment of the present invention.
  • Figure 22 is a flowchart showing an information processing method using collective intelligence according to the first embodiment of the present invention.
  • Figures 23 to 28 show examples of screens of a terminal according to an embodiment of the present invention.
  • Figure 29 is a flowchart showing an information processing method using collective intelligence according to the second embodiment of the present invention.
  • Figures 30 to 32 are diagrams showing examples of screens of a terminal according to an embodiment of the present invention.
  • first, second, etc. used in the present invention may be used to describe constituent elements, but the constituent elements should not be limited by the terms. Terms are used only to distinguish one component from another. For example, a first component may be named a second component without departing from the scope of the present invention, and similarly, the second component may also be named a first component.
  • Figure 1 is a block diagram showing the configuration of an information processing system 10 using collective intelligence according to an embodiment of the present invention.
  • the information processing system 10 using collective intelligence is composed of a terminal 100 and a server 200. Not all of the components of the information processing system 10 using collective intelligence shown in FIG. 1 are essential components, and the information processing system 10 using collective intelligence is made up of more components than those shown in FIG. 1. This may be implemented, or the information processing system 10 using collective intelligence may be implemented with fewer components.
  • the terminal 100 is a smart phone, a portable terminal, a mobile terminal, a foldable terminal, a personal digital assistant (PDA), and a portable multimedia (PMP).
  • Player terminal telematics terminal, navigation terminal, personal computer, laptop computer, Slate PC, Tablet PC, ultrabook, wearable device Device (e.g., smartwatch, smart glass, HMD (Head Mounted Display), etc.), Wibro terminal, IPTV (Internet Protocol Television) terminal, smart TV, digital broadcasting It can be applied to various terminals such as terminals, AVN (Audio Video Navigation) terminals, A/V (Audio/Video) systems, flexible terminals, digital signage devices, VR simulators, robots, etc.
  • AVN Audio Video Navigation
  • A/V Audio/Video
  • the server 200 is used in cloud computing, grid computing, server-based computing, utility computing, network computing, and quantum cloud computing. computing), it can be implemented in the form of a web server, database server, proxy server, etc.
  • the server 200 may be equipped with a network load balancing mechanism or one or more of various software that allows the server 200 to operate on the Internet or other networks, and can be implemented as a computerized system through this. You can.
  • the network may be an http network, a private line, an intranet, or any other network.
  • the connection between the terminal 100 and the server 200 may be connected to a secure network to prevent data from being attacked by hackers or other third parties.
  • the server 200 may include a plurality of database servers, and these database servers may be implemented in such a way that they are separately connected to the server 200 through any type of network connection, including a distributed database server architecture. there is.
  • the terminal 100 and the server 200 each include a communication unit (not shown) for performing communication functions with other terminals, a storage unit (not shown) for storing various information and programs (or applications), and various A display unit (not shown) for displaying information and program execution results, an audio output unit (not shown) for outputting audio information corresponding to the various information and program execution results, and controlling various components and functions of each terminal. It may include a control unit (not shown), etc.
  • the terminal 100 communicates with the server 200, etc. At this time, the terminal 100 performs raw data collection function, hierarchical labeling function for information/image, selective labeling function for information/image, and time series division for information/image through a dedicated app provided by the corresponding server 200. It may be a terminal owned by a user (or an expert in a specific field) to perform a selective labeling function, a selective labeling function for each body part for information/images, etc.
  • the terminal 100 provides a raw data collection function, a hierarchical labeling function for information/images, and information through a dedicated app and/or website provided by the server 200.
  • the terminal 100 may register as a user on the server 200 using SNS account information, other site account information, or mobile messenger account information registered by the user of the terminal 100.
  • SNS account may be information related to Facebook, Twitter, Instagram, Kakao Story, Naver Blog, etc.
  • other site account may be information related to YouTube, Kakao, Naver, etc.
  • the mobile messenger account contains information related to KakaoTalk, Line, Viber, WeChat, Whatsapp, Telegram, Snapchat, etc. You can.
  • the terminal 100 when performing the membership registration process, the terminal 100 must complete the authentication function through an identity authentication method (including mobile phone, credit card, i-PIN, etc.) to properly proceed with the membership registration process for the server 200. It can be completed.
  • an identity authentication method including mobile phone, credit card, i-PIN, etc.
  • the terminal 100 opens a dedicated app (or application/application/specific app) provided by the server 200 in order to use the service provided by the server 200.
  • the dedicated app includes Native App, Mobile WebApp, Responsive Web App (Mobile WebApp Design: RWD), Adaptive Web Design (AWD), Hybrid App, etc. It includes a raw data collection function, a hierarchical labeling function for information/images, a selective labeling function for information/images, a time series division selective labeling function for information/images, and a selective labeling function by body part for information/images. It may be an app to perform.
  • the terminal 100 can display a discount coupon provided by the server 200 through the corresponding dedicated app.
  • the discount coupon includes a raw data collection function provided by the server 200, a hierarchical labeling function for information/images, a selective labeling function for information/images, a time series division selective labeling function for information/images, and an information/image It may be a discount coupon containing discount information of a certain percentage when using the selective labeling function for each body part for the video.
  • the terminal 100 links with the server 200 and a payment server (not shown) and performs a payment function according to the subscription function.
  • the server 200 can make card payments, automatic transfers through linkage with a bank's payment account, payments using cash points or cash remaining in the account of the terminal 100 that has registered as a member of the server 200, and Kakao Pay.
  • Payment functions can be performed through simple payments, including Naver Pay.
  • the terminal 100 receives information indicating that the payment has failed (including, for example, insufficient balance, limit exceeded, etc.) transmitted from the server 200 (or the payment server), and the terminal 100 receives the information indicating that the payment has failed. Prints (or displays) information indicating that the payment has failed.
  • the terminal 100 receives the payment function performance result transmitted from the server 200.
  • the result of performing the payment function includes the subscription period, payment amount, payment date, and time information.
  • the terminal 100 executes a dedicated app pre-installed on the terminal 100 and displays an app execution result screen according to execution of the dedicated app.
  • the app execution result screen is a collection menu (or button/item) for collecting one or more raw data related to a specific topic, meta information related to the raw data, etc., and the collected information or provided from the server 200. It includes a view menu for displaying information and a settings menu for environmental settings.
  • the terminal 100 is registered as a member of the server 200 that provides the dedicated app, and executes the dedicated app using the ID and password according to membership registration, a barcode or QR code including the ID, etc.
  • one or more functions of the dedicated app e.g., raw data collection function, hierarchical labeling function for information/image, selective labeling function for information/image, time series division selective labeling for information/image) functions, selective labeling of information/images by body part, etc.
  • functions of the dedicated app e.g., raw data collection function, hierarchical labeling function for information/image, selective labeling function for information/image, time series division selective labeling for information/image functions, selective labeling of information/images by body part, etc.
  • the terminal 100 receives information about a specific topic from one or more time setting devices (not shown) according to user settings, In order to collect one or more raw data, meta information related to the raw data, an image to be compared, meta information related to the image to be compared, etc., a collection screen corresponding to the selected collection menu is displayed.
  • the collection screen includes information collection target selection items for selecting one or more visual set devices interoperating with the terminal 100 according to user selection (or user input/touch/control), and information to be collected from the selected information collection target. Includes collection information type selection items to select the type of information, collection start items to collect information from the information collection target according to the selected items, etc.
  • the terminal 100 generates a plurality of inputs corresponding to a plurality of input items according to the user input (or user/expert selection/touch/control) of the terminal 100 on the collection screen displayed on the terminal 100.
  • the plurality of input values include information collection target (or time set device information/identification information of time set device), type of information to be collected (e.g., sequential still image (or multiple sequential still images), video, measurement value/sensor value, etc.), etc.
  • the terminal 100 links with the one or more visual set devices based on the plurality of input values received, and in relation to a specific topic, one or more raw data, meta information related to the raw data, and an image to be compared. , collects meta information related to the video to be compared.
  • the specific topic includes medical practice (including, for example, procedures, surgery, etc.), dance, sports (including, for example, soccer, basketball, table tennis, etc.), games, and e-sports. ), etc.
  • the terminal 100 may collect one raw data from one user related to the specific topic, and may collect a plurality of different raw data (or annotation stage or attribute) from one user. ) item's raw data/basic image information) can also be collected.
  • the video to be compared may be content that does not violate intellectual property rights such as copyright and portrait rights.
  • the time setting device communicates with the terminal 100, the server 200, etc.
  • the visual set device includes a camera unit, lidar, eye tracker, motion capture and motion tracker, medical equipment (eg, CT, scanner, MRI, medical ultrasound, etc.).
  • medical equipment eg, CT, scanner, MRI, medical ultrasound, etc.
  • the visual set device acquires (or collects/films/measures) real-world images (or real-world image information) related to the place (or area) where the visual set device is configured (or arranged/installed).
  • the actual image represents raw data (or original data/source data/visual data), and is a sequential still image (or a plurality of images) acquired (or collected/filmed/measured) in real reality. includes sequential still images/attributes), videos (or target attributes), measurement values, etc.
  • the measured value includes image information (or 3D data) measured through the LIDAR, the eye tracker, the motion capture and motion tracker, the medical equipment, etc. Additionally, the acquired one or more real-world images can be merged and used.
  • the terminal 100 can acquire real-world images by linking with Cinematic Reality, a medical assistance application developed by Siemens Healthineers using Microsoft HoloLens 2.
  • the cinematic reality includes a function of rendering voxel data obtained from medical CT, MRI, etc. Data rendered with cinematic reality is used as a data set to produce digital cadaver and 3D printed artificial cadaver. At this time, the voxel data is used by merging with point cloud data in the form of GNN.
  • Figure 2 is a diagram showing raw data according to an embodiment of the present invention.
  • the raw data includes actual reality images (or actual reality data), robot motion images (or robot motion image information), etc.
  • the robot operation image is a collection of the actual robot operation using a visual setting device, and is applied to FIGS. 1 to 17 and 22 in the same manner as the raw data of the avatar and/or item.
  • the raw data shown in FIG. 2 represents K1 clusters (or sequential data/still images).
  • K may be a natural number (or positive integer).
  • virtual creation data (augmentation data) generated by the server 200 is included in the corresponding raw data.
  • virtual generated data generated using the raw data of FIG. 2 is provided as an attribute item (or a plurality of data at the annotation stage).
  • the primary goal of the present invention is to maximize performance by using a small amount of actual surgical collection data (or image information/raw data from the real world) in virtual surgery simulation and virtual tooth removal simulation, and the virtual digital cadaver generated data for this purpose is is provided in the training and simulation stage, and artificial intelligence (or classification model/prediction model) can be supervised by a doctor selectively labeling the virtual digital cadaver generated data.
  • artificial intelligence or classification model/prediction model
  • the digital cadaver is the patient's avatar.
  • information collection devices or the visual set devices
  • medical information collected from including Ray, ultrasound devices, oral scanners, etc.
  • VR virtual reality
  • 3D simulator not shown
  • the terminal 100 includes one or more raw data related to the collected specific topic, meta information related to the raw data, an image to be compared, meta information related to the image to be compared, identification information of the terminal 100, etc. Transmitted to the server 200.
  • the identification information of the terminal 100 includes MDN (Mobile Directory Number), mobile IP, mobile MAC, SIM (subscriber identity module) card unique information, serial number, etc.
  • the terminal 100 collects one or more raw data related to the collected specific topic, meta information related to the raw data, and the terminal. Identification information of 100, etc. is transmitted to the server 200.
  • the terminal 100 receives the image to be compared, meta information related to the image to be compared, etc. related to the raw data transmitted from the server 200 in response to the transmission, and combines the received raw data and It is managed by matching (or mapping/linking) the related video to be compared, meta information related to the video to be compared, one or more raw data related to the specific topic collected, and meta information related to the raw data.
  • the terminal 100 displays (or outputs) one or more raw data, meta information related to the raw data, an image to be compared, meta information related to the image to be compared, etc., in relation to the collected specific topic.
  • the terminal 100 may display (or output) by applying virtual reality, augmented reality, extended reality, mixed reality, etc. to the raw data.
  • the terminal 100 displays the collected information or information provided from the server 200, Displays the view screen corresponding to the view menu.
  • the view screen includes an image display area for displaying the raw data or generated image, a comparison target image display area for displaying the comparison target image, and a variable value (or label value) for selecting variable values for hierarchical labeling. It includes a hierarchical label input menu, a selection label input menu to select settings for selective labeling, and a play bar to provide play/pause/stop functions for videos.
  • the terminal 100 displays the collected raw data. Displayed (or output) in the video display area, and a comparison target image corresponding to the collected raw data (or a comparison target image corresponding to the raw data provided from the server 200) is displayed in the comparison target image display area. Display (or output).
  • the terminal 100 performs synchronization on the raw data and the comparison target image based on meta information corresponding to each of the raw data and the comparison target image, and synchronizes the synchronized raw data and the comparison target image. It can be displayed on the video display area and the comparison target video display area, respectively.
  • the terminal 100 Controls the other one to stop using the pause or stop function as well.
  • the terminal 100 works in conjunction with the server 200 to process raw data displayed on the terminal 100 according to user input (or user selection/touch/control) of the terminal 100.
  • the terminal 100 displays raw data displayed in the video display area of the terminal 100 at a specific point in time (or a specific section) according to a user input (or user selection/touch/control) of the terminal 100. ) Set (or receive/input) a label (or label value) for good or bad behavior of the object (or object's behavior) included in the raw data.
  • the terminal 100 displays a label value for a good action (for example, a preset approval/approval/ACCEPT label) or a wrong action according to a user input at one or more specific points in the raw data displayed in the video display area.
  • a label value for example, preset REJECT/REJECT label
  • Each label value is input.
  • the terminal 100 selects one or more raw data related to the specific topic at one or more specific points in time (or specific sections) according to the input of the user of the terminal 100, who is an expert related to the specific topic.
  • Set or receive/enter) each label (or selected label value).
  • the user of the terminal 100 judges based on the user's own expert knowledge in the raw data displayed (or output) on the terminal 100, and if a part related to a wrong action is seen, the user selects the relevant part. Select the rejection label for parts, and select the approval label for parts related to good behavior.
  • the terminal 100 uses an object recognition method that automatically recognizes boundaries and boundaries by dragging a mouse (not shown) or attaching tags to the relevant raw data, using binary, ternary, multi-section, etc.
  • the raw data displayed on the corresponding terminal 100 can be labeled at a specific point in time (or a specific section) in the following manner.
  • the selective labeling is a label (or label value) for the presence or absence of an error (or abnormality) at a specific point in time (or a specific section) of the raw data.
  • a preset default label value for example, an approval label
  • a preset default label value may be set at a time point (or section) for which a label (or label value) is not set according to the selective labeling among the raw data.
  • the terminal 100 attaches a preset not ACCEPT label to a point in the raw data to which the approval label is not attached (or section/attribute/target attribute), and to a point in the raw data to which the reject label is not attached (or Section/property/target property) can also be labeled with a preset not REJECT label.
  • the artificial neural network for object recognition detects one or more incorrect motion parts and movements when the user of the terminal 100 drags or tags raw data displayed on the terminal 100. Detects and separates and analyzes images. Additionally, the terminal 100 provides inference results to the user through an artificial intelligence inference process.
  • raw data includes 2D image information, 3D image information, point cloud information of a still image, etc.
  • the terminal 100 moves the mouse arrow (or mouse point) according to user input on the timeline within the play bar in the raw data (e.g., video) displayed on the terminal 100 to select a specific point in time. It stops at and captures a still image, then automatically recognizes the boundaries and boundaries of the still image at that time and tags it using the mouse buttons and arrows. In addition, the terminal 100 controls the boundaries and boundaries of the entire video to be automatically recognized when tags are attached to a plurality of 3D still images captured from the video.
  • the mouse arrow or mouse point
  • the terminal 100 displays the approval label on the terminal 100 according to the user input. This can be done by directly pressing the button or reject button. If you want to specify a detailed part and attach a label by pressing the accept or reject button, you can use the mouse drag to create a border (including straight lines, curves, etc.) or boundaries ( For example, you can specify a closed curve (including closed curves, etc.) or specify multiple points with the mouse button and then press the accept or reject button to attach a label.
  • a border including straight lines, curves, etc.
  • boundaries For example, you can specify a closed curve (including closed curves, etc.) or specify multiple points with the mouse button and then press the accept or reject button to attach a label.
  • object detection, location measurement, object and instance segmentation, pose estimation, etc. are applied in the object recognition method, and the same is applied to instance tracking, action recognition, motion estimation, etc. for video analysis. Additionally, it is used in combination with a convolutional neural network to detect motion included in a video clip. Motion detection, scene extraction, next frame prediction, object tracking, etc. are used. Based on the automatically recognized boundaries and boundaries, the appropriate labels are attached to the good and incorrect parts of the objects and actions output from the interface by pressing the accept or reject button, respectively.
  • automatic recognition of boundaries and boundaries may be possible by tagging a plurality of point clouds of 2D image information and 3D image information by pressing the left button of the mouse and/or dragging. there is.
  • you tag multiple point clouds that exist on x, y, and z coordinates among 3D still images by pressing the left mouse button or dragging the boundary line between good information and incorrect information is automatically recognized, and the closed curve
  • the boundary surface can be automatically recognized.
  • the information processing system 10 may further include other input devices (not shown).
  • the other input device communicates with the terminal 100, the server 200, etc.
  • the above other input devices are used to tag raw data (or video information) or attach labels by dragging.
  • the other input devices include a controller, eye tracker, data glove, speech recognition interface, Brain-Computer Interface (BCI), and hand tracking technology. technology), haptic devices, etc.
  • BCI Brain-Computer Interface
  • haptic devices etc.
  • the method of using the above other input devices is to use the arrows or buttons of the mouse as a voice recognition interface and a brain computer interface to tag, drag, and label, and to use a controller that emits light to use a voice recognition interface and a brain computer interface.
  • buttons on the computer's mouse are moved directly using the voice recognition interface. You can also tag or drag by moving the controller's light beam. Additionally, an eye tracker is used to detect the user's gaze and tag the center of the viewing angle to identify the object to be classified and label the object. Additionally, data glove and hand gesture interaction (or hand gesture tracking technology) is used to tag images on the user interface or create boundaries and boundaries on objects. If a platform user (or a group of experts in each field) uses brain computer interface technology that connects the human brain and a computer, the platform user views images (including, for example, still images and videos) and moves the mouse to the boundaries and boundaries.
  • the approval button or the rejection button displayed on the screen of the terminal 100 can be activated just by thinking about it. You can press to label or perform selective labeling. Additionally, the terminal 100 can label still image information and video information using a brain machine interface, a neuromopip chip, etc., and perform hierarchical clustering with the labeled information.
  • the user interface (or screen) displayed on the corresponding terminal 100 appears in the user's head only through thoughts, and may be labeled only through the user's thoughts. Additionally, the terminal 100 or the server 200 can perform hierarchical clustering with labeled information and utilize it for classification models and prediction models.
  • the method of specifying an incorrect part in a still image is as follows.
  • the dentist determines that the position of the orthodontic mini-implant placed in the patient's mouth is somewhat higher or lower than the appropriate position based on his or her medical knowledge, he or she may use the mouse drag to draw a boundary line (including straight lines, curves, etc.). You can specify a boundary (including closed curves, etc.) or multiple points with the mouse button and press the reject button. This part will be labeled as rejected.
  • the method of specifying and labeling incorrect parts in a surgical video is as follows.
  • the video section in which incorrect medical treatment and/or incorrect medical operation was performed is defined using the arrow of the mouse in the time series (or on the timeline within the relevant play bar).
  • the video information that exists between the time selected by moving the mouse arrow is limited to the information to be labeled.
  • a plurality of tags using a mouse drag or mouse button on the still screen and/or video screen of the video to mark the border (e.g. Specify point clouds that are (for example, curves, straight lines, etc.) and/or boundaries (including, for example, closed curves, etc.).
  • the video you want to select is automatically recognized, and you can press the approval button on the next recognized video.
  • the terminal 100 may send one or more selection label values at one or more feature points (or specific sections) related to the raw data, meta information of the raw data, identification information of the terminal 100, etc. to the server ( 200).
  • the terminal 100 in conjunction with the server 200, performs hierarchical labeling on the one or more raw data before or after performing selective labeling on the one or more raw data.
  • selective labeling may be performed on one or more row data before/after performing hierarchical labeling.
  • the layer labeling (or layer labeling/first layer labeling/first layer labeling) is input feature engineering (or hierarchical clustering labeling) by the user, and is a label representing the characteristics of the raw data. Indicates a labeling method that attaches (or label value) and divides (or classifies) the corresponding row data into a plurality of sub-row data according to characteristics.
  • the terminal 100 in conjunction with the server 200, refers to (or is based on) a plurality of label classifications preset in relation to the specific topic for the raw data displayed on the terminal 100.
  • the terminal 100 According to the user input (or user selection/touch/control) of the corresponding terminal 100, setting (or receiving/input) a label (or label value) at another specific point in time (or another specific section) among the raw data. do.
  • the label classification represents the correct answer data set to be learned by artificial intelligence, and represents a classification stratified in a random manner and step by step so that the user can refer to and perform hierarchical clustering labeling.
  • [Table 1] to [Table 6] show examples of label values (or variable values) for each class in the process of a dental university professor (or doctor influencer) performing an implant surgery or laminate procedure. At this time, there are m1 ⁇ m2 ⁇ m3 ⁇ n ⁇ n’ ⁇ N (the product of each label classification) for various actions of the pseudo-influencer.
  • the user refers to the label classification and inputs variable values (or label values) related to hierarchical clustering into the input windows (s1, s2, and s3) of FIGS. 23 to 28 and 30 to 32.
  • variable value (or label value) of variable s1 of the first layer (201, 701, 801, 901, 1001, 1101) is input, and the variable s2 of the second layer (102, 702, 802, 902, 1002, 1102) is input.
  • the variable value (or label value) of is input, and the variable value (or label value) of variable s3 of the third layer (203, 703, 803, 903, 1003, 1103) is input.
  • the number of input windows increases depending on the number of layers.
  • the user referring to the label classification, moves the table (or arrow) indicating the time on the timeline in the playback bar (FIGS. 23 to 28, 29 to 32) to capture still image information at the point in time at which the video is to be divided.
  • the selection point becomes the division point of the video, and the terminal 100 (or the server 200) selects the selection point (or division point) corresponding to the selected ACCEPT button. ) Split the video accordingly.
  • Video information of the 4th layer (204, 704, 804, 904, 1004, 1104), 5th layer (905, 1005, 1105), and 6th layer (1106) is classified into label values (k, L, f) of label classification. ) are divided in the same order.
  • Variable value (label value) Specific avatars (surgical field) information form One tongue cancer surgery documents, etc. 2 Double Jaw Surgery (BSSRQ) documents, etc. 3 colon cancer surgery documents, etc. ... ... documents, etc. S1 dental implant surgery documents, etc. ... ... documents, etc. m1 liver transplant surgery documents, etc.
  • Variable value (label value) Specific movement of a specific avatar (case of dental implant surgery for patients with a specific mutation or a case of a digital cadaver with a specific mutation) information form One A case of narrow bone width in the maxillary posterior teeth video, etc. 2 A case of narrow anterior bone width and high alveolar bone loss video, etc. ... ... video, etc. S2 A case of narrow mandibular posterior bone width video, etc. ... ... video, etc. m2 ... video, etc.
  • Variable value (label value) Specific method of specific movement (surgical method for cases with narrow mandibular posterior bone width) information form One After ridge split... video, etc. 2 The drill is safely inserted using a 3D stent... video, etc. ... ... video, etc. S3 Block bone transplant surgery video, etc. ... ... video, etc. m3 ... video, etc.
  • Variable value (label value) Specific steps in a specific method (surgical steps in block bone graft surgery) information form One Make an incision and form a flap. ... video, etc. 2 Block bone is harvested from the donor site. ... video, etc. ... ... video, etc. K Fix the block bone to the transplant site. video, etc. ... ... video, etc. n Suture and disinfect. ... video, etc.
  • Variable value (label value) Detailed operation step 1 (30-second video showing removal of maxillary central incisor laminate No. 11 (dental)) information form One Before tooth removal, a pre-made tooth preparation index is placed in the mouth and teeth. video, etc. 2 The dentist visually checks the index located in the mouth and teeth and measures the amount of preparation. video, etc. ... ... video, etc. L The estimated cutting depth of one-third of the tooth cut portion is prepared with a depth gage bur. video, etc. ... ... video, etc. n' The entire maxillary central incisor tooth is trimmed and finely prepared with the trimming bur of the handpiece. video, etc.
  • [Table 7] to [Table 11] show examples of label values (or variable values) for each class in the dance movements of a dancer (or dance influencer) like Blackpink's Last.
  • Variable value (label value) Specific avatar (game character to deepfake) information form One BTS Jin video, etc. 2 BTS Sugar video, etc. ... ... video, etc. S1 blackpink jennie video, etc. ... ... video, etc. m3 Blackpink Jisoo video, etc.
  • Variable value (label value) Specific movements for specific avatars (Jenny's dance moves and song types) information form One Shut Down (4 minutes 10 seconds) video, etc. ... ... video, etc. S2 As if it were your last (3 minutes 14 seconds) video, etc. ... ... video, etc. m3 Now it's tonight (3 minutes 55 seconds) video, etc.
  • Variable value A certain way of doing a certain thing (list of broadcasts like Jenny's Last) information form One Music Bank broadcast on March 14, 2022 video, etc. ... ... video, etc. S3 Open concert broadcast on July 8, 2022 video, etc. ... ... video, etc. m3 Concert recorded on June 3, 2022 video, etc.
  • Variable value (label value) Specific steps of specific movements (Open Concert broadcast on July 8, 2022) information form One left groove video, etc. ... ... video, etc. K front and back wave video, etc. ... ... video, etc. n Upper body popping and pelvic bounce video, etc.
  • Variable value (label value) Detailed movement steps 2 (order of body parts that move the most when Jenny waves back and forth) information form One Raise your left arm. video, etc. 2 Raise your right arm. video, etc. 3 Stick your chest forward. video, etc. 4 Put your stomach forward. video, etc. 5 Bring your pelvis forward. video, etc. 6 Put your legs forward. video, etc.
  • [Table 5] and [Table 10] are label classifications that are classified into characteristic movements so that the video can be divided into short segments of about 1 to 3 seconds by the user.
  • real-life robot motion images can be produced by label classification.
  • [Table 6] and [Table 11] label body parts of avatars, humans, robots, etc., and include first and second layer labeling, selective labeling, additional selective labeling, time series division selective labeling, and body part classification. It is used for selective labeling, etc., and is a label classification arbitrarily set by a group of experts.
  • Selection by body part is done through object recognition for each detailed part of the body in a single or multiple segmented still images, label classification for each image of detailed part of the body, and label values in the order of the labels in [Table 6] and [Table 11] above. This is the method of lighting. You can divide the video into data units of 5 using the playback bar (table indicating time) or selection by body part.
  • Hierarchical labeling through selection by body part is input feature engineering performed by the user, and such selection by body part can be omitted.
  • the server 200 can automatically label (label f) and segment the video (data unit 5) by calling a library for selection of each body part (object recognition of detailed body parts, etc.).
  • Figure 11 can be used as a diagram showing hierarchical clustering based on data unit 5.
  • Selection by body part is hierarchical labeling, and selection labeling by body part is the user's interaction with the server 200 (user's judgment about the video division point (label value) by the server or judgment about the operation order of the body parts) This is labeling that creates digital unit 5 and divides the video.
  • Time series division selection (generating data units 3 and 4) is hierarchical labeling, and time series division selection labeling creates digital units 3 and 4 through user interaction (user's judgment about the time (label value) of video division by the server). Labeling is used to create and segment videos.
  • Detailed motion stages are classified into detailed motion stage 1 and detailed motion stage 2 depending on the method of dividing the video.
  • the detailed action step 1 is a detailed division of the action step by time series division selective labeling
  • the detailed action step 2 is a detailed division of the action step by selective labeling for each body part.
  • the dance movements of the open concert broadcast of the song As If It's Jenny's Last (3 minutes and 14 seconds) in the label classification [Table 9] are displayed on the user's HMD (Head-mounted display). It is output as a video through Jenny's video is in video format and can be viewed by users in segmented form. Users can watch still images in order of label values and view still images at the end of the divided video.
  • HMD Head-mounted display
  • the user refers to Jenny's image output through the HMD and executes movements similar or identical to Jenny's movements on a VR treadmill, and the user's movement image information is collected by the visual set device and converted into raw data (or basic data). video/basic video information).
  • the user can create his or her own avatar combined with Jenny's movements, or have his or her own appearance and movements displayed as is without being combined with Jenny's movements.
  • the user refers to the still image that appears in a still state and the label value of the still image, and performs hierarchical labeling, selective labeling, time series division selective labeling, and body part classification for his or her avatar and other people's avatars. Perform selective labeling, etc. Users can watch the movements of their own avatars and other people's avatars created by synthesizing Jenny's avatar with artificial intelligence from a third-person perspective through the HMD, like Jenny's last in the label classification [Table 9] (3 minutes 14 seconds) The above labeling is performed by comparing it with the dance movements of the song's open concert broadcast on July 8, 2022.
  • the user can follow Jenny's movements several times, and basic image information (or raw data) of these dance movements can be collected by the terminal 100 and transmitted to the server 200.
  • Information on several dance movements is a plurality of data (or a plurality of raw data) of attribute items (or annotation steps).
  • [Table 1] to [Table 6] are the label values (or variable values) for each layer in the process of a dental university professor (or doctor influencer) performing an implant surgery or laminate procedure.
  • dental school students or dentists watch the label classification of [Table 1] to [Table 6] above, which is the correct answer data set, on an HMD and use a tooth removal VR simulator (not shown) to create a virtual image on a digital cadaver. Surgery, virtual procedures, etc. can be performed, and labeling can be performed.
  • the terminal 100 displays the collected raw data. Displayed (or output) in the video display area, and a comparison target image corresponding to the collected raw data (or a comparison target image corresponding to the raw data provided from the server 200) is displayed in the comparison target image display area. Display (or output).
  • the terminal 100 performs synchronization on the raw data and the comparison target image based on meta information corresponding to each of the raw data and the comparison target image, and synchronizes the synchronized raw data and the comparison target image. It can be displayed on the video display area and the comparison target video display area, respectively.
  • the terminal 100 Controls the other one to stop using the pause or stop function as well.
  • the terminal 100 may display raw data displayed in the video display area of the terminal 100 at another specific point in time (or at another time) according to a user input (or user selection/touch/control) of the terminal 100.
  • the terminal 100 responds to the movement (or action of an object) of an object included in the raw data according to a user input at one or more specific points in time (or other specific sections) of the raw data displayed in the video display area.
  • a hierarchy label (or hierarchy label value) is input for a specific operation of an object, a specific method of a specific operation, a specific step of a specific method, etc.
  • the terminal 100 collects raw data related to the specific topic at one or more different specific points in time (or other specific sections) according to the input of the user of the terminal 100, who is an expert related to the specific topic.
  • Set or receive/input) each of the above layer labels (or layer label values).
  • the terminal 100 performs the previously described selective labeling process before and after performing the hierarchical labeling process.
  • the terminal 100 hierarchically classifies the actions of avatars, humans, robots, etc. by actions and/or by specific methods and/or by specific steps and/or detailed actions.
  • Hierarchical labeling which is hierarchical clustering labeling that inputs label values, is performed with reference to one label classification.
  • Movements related to procedures or surgeries on patients with similar anatomical structures (or specific mutations) to a specific patient are included in the specific movements of a specific avatar, human, robot, etc.
  • artificial intelligence that has learned the label value of hierarchical labeling in the server 200 returns the label value or image information to the user of the terminal 100, and the user approves the label or rejects it. You can attach a label.
  • users may be professionals in their respective fields (including, for example, domain experts, dentists, doctors, soccer players, dancers, etc.).
  • the rectangular parallelepiped 301 in FIG. 3 is video information of the segmented video, which is the target attribute of FIGS. 4 to 6, video information 405 of the k-th stage divided motion, video information of the segmented motion of the L-th stage ( 505), indicating video information 605 of the segmented motion of the f-th stage.
  • the start yz plane 302 or the end yz plane 303 represents still image information as an attribute.
  • variables m1, m2 and m3 represent arbitrary positive integers (or natural numbers)
  • s1, s2 and s3 represent variables, , , represents , k represents the variable,
  • the variables n, n' and N represent any positive integers (or natural numbers)
  • L and f represent variables, class represents.
  • the user first checks the output of the raw data (or video information) corresponding to the first attribute and the first target attribute on the screen displayed on the corresponding terminal 100, and then determines the hierarchical clustering-related variable values (or Enter the label value) on the screen displayed on the corresponding terminal 100.
  • the terminal 100 outputs image information (including, for example, attributes, target attributes, etc.) related to the actions of an avatar, human, robot, etc.
  • image information including, for example, attributes, target attributes, etc.
  • the attributes and target attributes in FIGS. 4 to 6 may be image information related to the motion of a virtual avatar, item, human, robot, etc. generated by the server 200.
  • the terminal 100 receives the variable value (label value) of the variable S1 of the first layer according to the user input through a plurality of input windows included in the layer label input menu in the corresponding viewing screen, and the variable value (label value) of the variable S1 of the second layer.
  • the variable value (or label value) of variable S2 is received, and the variable value (or label value) of variable S3 of the third layer is received.
  • the plurality of input windows included in the layer label input menu can be set in various ways according to the number of layers according to the designer's design.
  • the video information of the fourth, fifth, and sixth layers is divided in the same order as the label values of the label classification (for example, k, L, and f).
  • the method for the user to divide the steps is to move the table (or arrow) indicating the time on the timeline in the play bar with the mouse on the time axis, check the time of the video to be divided, and then move the mouse. Select.
  • the user sets hierarchical labeling related to specific raw data with reference to the label classification, but the present invention is not limited to this, and the terminal 100 is a user of the terminal 100.
  • layer labeling values can be directly entered step by step (or by layer/in cascade form).
  • FIG. 4 shows an example of a video (or long three-dimensional figure) divided into n pieces
  • FIG. 5 shows an example of a video divided into n' pieces
  • FIG. 6 shows a video divided into N pieces. shows an example.
  • n, n' and N are , and satisfies
  • the variables k, L, and f represent positive integers (or natural numbers).
  • FIG. 4 to 6 illustrate one movement of an avatar (or person) in three-dimensional figures.
  • the first square (marked in black) is still image information (401, 501, 601) at the beginning of the action (or video), and the last square (marked in black) is still image information (404, 504) at the end of the action (or video).
  • the x-axis is time
  • the yz-plane (square) is still image information
  • the divided cuboid represents the divided video.
  • FIGS. 4 to 6 corresponds to (or corresponds to) the rectangular parallelepiped 301 in FIG. 3 .
  • one divided three-dimensional figure in FIG. 5 is a long rectangular parallelepiped divided into n' pieces
  • one divided three-dimensional figure in FIG. 6 is a long rectangular parallelepiped divided into N pieces.
  • the long bar-shaped rectangular parallelepiped shown in FIGS. 4 to 6 represents video information related to the overall movement of the avatar in a three-dimensional shape.
  • the black square end yz plane 303 is an attribute (or still image)
  • the rectangular parallelepiped 301 is a moving image (or target attribute) of segmented motion.
  • the (k, L, f)-th starting still image information (402, 502, 602) of FIGS. 4 to 6 represents the starting still image information 302 of FIG. 3, and (k, L, f) )-th end still image information (403, 503, 603) represents the end still image information 303 of FIG. 3, and (k, L, f)-th start still image information (402, 502, 602) and (k-1, L-1, f-1)th end still image information (403, 503, 603) are the same.
  • data unit 1 is still image information (401, 501, 601) at the beginning of the entire video of one action of an avatar, human, robot, etc., and still image information (404, 504) at the end of the entire video. , 604), and data unit 2 represents the sum from the first stage still image information to the last stage still image information of segmented motion videos of avatars, humans, robots, etc.
  • data unit 3 represents the sum of video information of the kth stage and still image information at the end of the kth stage of segmented motion videos such as avatar, human, and robot movements.
  • data unit 4 represents the sum of video information of the Lth stage and still image information at the end of the Lth stage of segmented motion videos such as avatar, human, and robot movements.
  • data unit 4 represents the sum of video information of the fth stage and still image information at the end of the fth stage of segmented motion videos such as avatar, human, and robot movements.
  • Figure 7 shows hierarchical clustering based on data units 1, 2, and 3
  • Figure 9 shows hierarchical clustering based on data units 1, 2, 3, and 4.
  • the attribute is still image information 403 at the end of the kth stage of a segmented motion video of an avatar, human, or robot motion, etc., and represents the black square in FIG. 4.
  • the attribute of data unit 4 is still image information 503 at the end of the Lth stage of a segmented motion video of avatar, human, robot motion, etc., and is indicated by the black square in FIG. 5.
  • the attribute in data unit 5 is still image information 603 at the end of the fth stage of a segmented motion video of an avatar, human, or robot motion, and is indicated by a black square in FIG. 6.
  • Data unit 3 data unit 4, data unit 5, etc. used in the classification model and prediction model (or induction and/or inference model) according to an embodiment of the present invention may be the divided rectangular parallelepiped 301 of FIG. 3. .(digital units are the same)
  • FIG. 2 is a schematic diagram 900 of hierarchical clustering for real data (or raw data), showing K1 clusters.
  • Raw data actual reality data
  • Figure 22 can be used for robot training.
  • FIG. 7 or 9 above is a schematic diagram of hierarchical clustering created by label values attached when the stages of a video are divided by data units.
  • FIG. 7 shows K2 clusters based on data unit 3
  • FIG. 9 shows K4 clusters based on data unit 4.
  • the start still image information is also an attribute, becomes a data unit by summing it with the target attribute, and is used for forward video generation and output in the direction of the algorithm.
  • the labeling method related to hierarchical clustering by case, method, and stage is as follows.
  • [Table 1] is an example for entering variable values (or label values) of a surgical field
  • [Table 2] is an example for entering variable values (or label values) of a surgical case
  • [Table 3] is an example for entering variable values (or label values) of a surgical case
  • [Table 4] is an example for entering variable values (or label values) of a surgical step. This is a method in which users (including, for example, doctors, dentists, etc.) refer to clinical standards (including, for example, cases, methods, stages, etc.) and enter variable values (or label values).
  • [Table 5] above is an example of further classifying the surgical steps
  • [Table 6] is an example of classification where label values are assigned to body parts such as avatars, humans, and robots.
  • Classification criteria for surgical cases, methods, and stages are applied based on the data units in Figures 7 and 9 above by inputting hierarchical cluster label values.
  • the basis is to hierarchically cluster medical video information and other information by case, method, and stage.
  • the video is divided, and the video is segmented to perform granular hierarchical clustering, the type of hierarchy And regardless of the number (including, for example, 3 layers, 4 layers, 5 layers, etc.) and the method of video segmentation, it can be applied to a classification model and/or a prediction model.
  • image information of the patient's body or organs, other medical information, digital cadaver, etc. used in actual surgery and procedures are displayed on the mouth execution result screen (or view screen) displayed on the terminal 100. They are labeled through K2, K3, K4, and K5 clusters in FIGS. 7 to 10, respectively.
  • K represents a variable (or natural number).
  • a specific patient's body or organ information, digital cadaver, etc. belonging to the same cluster are metadata (or meta-information) corresponding to that cluster.
  • Virtual surgery, virtual procedures, etc. are performed through artificial intelligence inference or return by digital cadaver based on metadata. Doctors and/or dentists view the app execution result screen (or view screen) displayed on the terminal 100 for virtual surgery videos and virtual procedure videos using digital cadavers and artificial cadavers output through artificial intelligence inference and return. Selective labeling is performed through
  • one movement of the avatar (or person) in FIGS. 3 to 6 is one surgical operation for a specific patient.
  • the first still image information at the start of the operation is diagnostic information
  • the k, L, and fth operation steps in the video information for one operation of the avatar (or person) are each k in the video information for one surgical operation of a specific patient.
  • L, f is the stage of surgery.
  • the reactions of a digital cadaver undergoing surgery can be said to be a kind of passive avatar's movements (for example, a digital cadaver is a kind of patient avatar).
  • the terminal 100 performs hierarchical labeling functions, selective labeling functions, etc. for images of avatars, items, robots, etc.
  • the hierarchical labeling function and the selective labeling function are described separately, but they are not limited thereto, and the terminal 100 can perform the hierarchical labeling function by including it in the selective labeling function.
  • the hierarchical labeling and the selection labeling can be integrated into one labeling function.
  • the terminal 100 receives the first image transmitted from the server 200.
  • the first image is a result of learning by a classification model and prediction model targeting the raw data in the server 200, and is an avatar, item, robot, etc. generated based on the raw data. It may be a motion-related video, an image in which the raw data has been updated (for example, an image in which the motion/deed/behavior of a human/person included in the raw data has been updated), etc.
  • the terminal 100 outputs the received first video to the video display area.
  • the terminal 100 may divide the screen of the terminal 100 and output the screen simultaneously while synchronizing the raw data, the comparison target image, and the first image.
  • the terminal 100 performs additional selective labeling on the first image in conjunction with the server 200.
  • the additional selective labeling is a label for the presence or absence of an error (or abnormality) at another specific time point (or another specific section) of the first image. Indicates a labeling method of setting (or attaching) a (or label value).
  • a preset default label value for example, an approval label
  • the terminal 100 attaches a preset not ACCEPT label to a point in the first video to which the approval label is not attached (or section/attribute/target attribute), and to a point in the first video to which the reject label is not attached. (or section/property/target property) can also be labeled with a preset not REJECT label.
  • the terminal 100 links with the server 200 and displays the first image displayed on the terminal 100 according to the user input (or user selection/touch/control) of the terminal 100.
  • the terminal 100 displays the first video as the video. Displayed (or output) in the display area and a comparison target image corresponding to the raw data (or the first image) (or a comparison target image corresponding to the raw data/first image provided from the server 200) is displayed (or output) in the comparison target image display area.
  • the terminal 100 performs synchronization on the first image and the comparison target image based on meta information corresponding to the first image and the comparison target image, respectively, and synchronizes the synchronized first image and the comparison target image. Images can be displayed in the image display area and the comparison target image display area, respectively.
  • the terminal 100 controls the other one to stop using the pause or stop function as well.
  • the terminal 100 displays the first image displayed in the video display area of the terminal 100 at another specific time point ( Setting (or receiving) a label (or label value) for a good or bad action regarding the movement (or action of the object/avatar) of the object (or avatar) included in the first video in (or another specific section) /enter).
  • the terminal 100 displays a label value (for example, a preset approval/approval/ACCEPT label) for a good action according to a user input at one or more specific points in the first video displayed in the video display area.
  • a label value for each wrong action e.g., preset REJECT/REJECT label is input.
  • the terminal 100 displays the first image generated in relation to the specific topic at one or more specific viewpoints (or Set (or receive/input) one or more additional selection labels (or additional selection label values) in another specific section).
  • the terminal 100 performs a time-series division selective labeling function or a body part-specific selective labeling function according to the user input of the terminal 100.
  • the terminal 100 performs the time series division selective labeling function through the following process.
  • the terminal 100 generates a label value (for example, in advance for the plurality of sub-images into which the first image is divided) for the state (or good action) in which the division of each sub-image is well done according to the user input.
  • a set approval/acceptance/ACCEPT label) or a label value for an incorrect state (or wrong action) e.g. a preset rejection/REJECT label
  • the user input is used to sort the order of the plurality of sub-videos.
  • a label value indicating the order of the plurality of sub-videos (or a label value for adjusting the division time if the division time is incorrect or requires adjustment) is input.
  • the division of the first image into a plurality of sub-images is performed by dividing the first image into the plurality of sub-images based on information about the sub-row data divided into a plurality of parts according to the performance of the hierarchical labeling function for the raw data.
  • the first image may be divided into the plurality of sub-images according to the server 200 performing an artificial intelligence function or an image analysis function on the raw data.
  • the terminal 100 inputs label values for the well-segmented state and the incorrectly divided state of the plurality of sub-images, respectively, according to the user input of the terminal 100 for the first image.
  • the terminal 100 provides label values for good and bad division states of the input plurality of sub-images, and label values for sorting the order of the plurality of sub-images (or adjusting the division point of time).
  • label value for sorting the order of the plurality of sub-images (or adjusting the division point of time).
  • identification information of the terminal 100, etc. are transmitted to the server 200.
  • the server 200 performs a time-series division selective labeling function targeting the first image, and provides labels for good and bad division states of the plurality of sub-images transmitted from the terminal 100. value, a label value for sorting the order of the plurality of sub-images (or a label value for adjusting the division point), identification information of the terminal 100, etc. are received.
  • the server 200 provides label values for good and bad division states of the received plurality of sub-images, and label values for sorting the order of the plurality of sub-images (or adjusting the division point of time).
  • the order of the plurality of sub-images obtained by dividing the first image is rearranged based on the label value for processing, etc.
  • the time series division selection labeling is performed when the first image is divided into a plurality of sub-images, according to the user input of the terminal 100, at each division point of the first image into a plurality of sub-images ( For example, it may be a process of labeling whether the information (including label value, still image information, etc.) is correct or incorrect, and labeling the label value to adjust the division time or order if the division time is incorrect.
  • the terminal 100 performs a selective labeling function for each body part through the following process.
  • the terminal provides a label for the action sequence of the avatar (or object) included in the plurality of sub-images according to the user input for the avatar (or object) included in the plurality of sub-images obtained by dividing the first image.
  • a value (or a label value for the good or bad state of the corresponding avatar's action sequence) is input, respectively, and the body part (or each part of the robot) is selected from the actions of the avatar, human, robot, etc. included in the plurality of sub-videos.
  • a label value indicating the order of the plurality of sub-videos (or a label value for adjusting the order of sub-videos containing avatars) is input according to user input.
  • This selection for each body part can be performed or omitted by the user, or can be performed automatically by the server 200 (hierarchical labeling).
  • the division of the first image into a plurality of sub-images is performed by dividing the first image into the plurality of sub-images based on information about the sub-row data divided into a plurality of parts according to the performance of the hierarchical labeling function for the raw data.
  • the first image may be divided into the plurality of sub-images according to the server 200 performing an artificial intelligence function or an image analysis function on the raw data.
  • the terminal 100 generates a label value for the action sequence of an avatar (or object) included in a plurality of sub-images (or the corresponding avatar) according to the user input of the terminal 100 for the first image.
  • label values for the correct or incorrect state of the operation sequence of the robot, etc. are input respectively, and the order of the plurality of sub-images (or the operation sequence of the avatar, robot, etc. included in the plurality of sub-images) is sorted.
  • a label value (or a label value/avatar indicating the order of the plurality of sub-videos, a label value for adjusting the order of sub-videos containing a robot) is input for each.
  • the terminal 100 provides a label value for the operation sequence of the avatar (or object) included in the plurality of input sub-images (or a label for the good or bad state of the operation sequence of the avatar, robot, etc.). value), a label value for sorting the order of the plurality of sub-images (or the operation order of avatars, robots, etc. included in the plurality of sub-images), identification information of the terminal 100, etc. to the server 200. ) is sent to the server 200.
  • the server 200 performs a selective labeling function for each body part targeting the first image, and determines the operation sequence of the avatar (or object) included in the plurality of sub-images transmitted from the terminal 100.
  • Label value for (or label value for the good or bad state of the avatar's action sequence), for sorting the order of the plurality of sub-images (or the action sequence of the avatar included in the plurality of sub-images) Label value, identification information of the terminal 100, etc. are received.
  • the server 200 provides a label value for the action sequence of the avatar (or object) included in the received plurality of sub-images (or a label value for the correct or incorrect state of the avatar's action sequence),
  • the order of the plurality of sub-images obtained by dividing the first image is rearranged based on label values for sorting the order of the plurality of sub-images (or the operation order of the avatars included in the plurality of sub-images).
  • the selective labeling for each body part is performed according to the user input of the terminal 100, each included in the plurality of divided sub-images of the first image.
  • the sequence of the plurality of sub-images is determined. This may be a process of labeling label values for sorting.
  • the selective labeling function for each body part further includes the following functions.
  • the server 200 determines the operation order of avatars, robots, etc. included in the plurality of sub-images according to the performance of the artificial intelligence function or video analysis function of the server 200 with respect to the plurality of divided sub-images. Information about this is provided to the terminal 100.
  • the terminal 100 labels the operation sequence of the avatar (or robot) included in the plurality of sub-images as a good state or an incorrect state according to the user input, and labels the avatar (or robot) as a good state or a wrong state. ), if the operation sequence is incorrect or needs to be adjusted, label values for adjusting the operation sequence or the order of sub-videos containing avatars and robots are input, and the avatars (or robots) included in the plurality of sub-videos are input. A label value for a good or incorrect state of the action sequence, a label for adjusting the action sequence or the order of sub-videos containing the avatar (or robot) if the action sequence of the avatar (or robot) is incorrect or requires adjustment. The value, identification information of the terminal 100, etc. are transmitted to the server 200.
  • the server 200 provides a label value for a good or incorrect state for the operation sequence of the avatar (or robot) included in the plurality of sub-images transmitted from the terminal 100, and the avatar (or robot). If the operation sequence is incorrect or needs to be adjusted, a label value for adjusting the operation sequence or the order of sub-videos containing an avatar (or robot), identification information of the terminal 100, etc. are received.
  • the server 200 provides a label value for a good state or an incorrect state for the operation order of the avatar (or robot) included in the received plurality of sub-images, and whether the operation order of the avatar (or robot) is incorrect or If adjustment is necessary, the order of the plurality of sub-images obtained by dividing the first image is rearranged based on the operation order or label values for adjusting the order of sub-images containing the avatar (or robot).
  • the terminal 100 provides one or more additional selection label values at one or more specific points in time (or another specific section) related to the first image, one or more time series division selection label values, and one or more selections for each body part.
  • a label value, a label value for sorting the order of a plurality of sub-videos, identification information of the corresponding terminal 100, etc. are transmitted to the server 200.
  • the terminal 100 in conjunction with the server 200, performs additional hierarchical labeling on one or more first images before or after performing additional selective labeling on the first images. , and additional selective labeling may be performed on the first image before/after performing additional layer labeling.
  • the additional layer labeling (or additional layer labeling/second layer labeling/second layer labeling) is input feature engineering by the user, attaching a label (or label value) indicating the characteristics of the first image, and This shows a labeling method that divides (or classifies) a first image into a plurality of sub-images according to features.
  • the terminal 100 in conjunction with the server 200, classifies the first image displayed on the terminal 100 with reference to (or based on) a plurality of label classifications preset in relation to the specific topic. ), setting an additional label (or additional label value) at another specific point in time (or another specific section) of the first video according to the user input (or user selection/touch/control) of the terminal 100. (or receive/enter).
  • the terminal 100 displays the first image as the image. Display (or output) in the display area, and display the comparison target image related to the first image (or the comparison target image corresponding to the raw data/first image provided from the server 200) in the comparison target image display area. Display (or print) on .
  • the terminal 100 performs synchronization on the first image and the comparison target image based on meta information corresponding to the first image and the comparison target image, respectively, and synchronizes the synchronized first image and the comparison target image. Images can be displayed in the image display area and the comparison target image display area, respectively.
  • the terminal 100 controls the other one to stop using the pause or stop function as well.
  • the terminal 100 displays the first image displayed in the video display area of the terminal 100 at another specific time point ( Set (or receive/input) one or more step-by-step additional labels (or additional label values) for the movement (or behavior of the object) of the object included in the first image in the corresponding first image (or another specific section).
  • Set or receive/input
  • step-by-step additional labels or additional label values
  • the terminal 100 moves an object (or object) included in the first image according to a user input at one or more specific viewpoints (or another specific section) of the first image displayed in the image display area.
  • an additional layer label (or additional layer label value) is input hierarchically for a specific action of an object, a specific method of a specific action, a specific step of a specific method, etc.
  • the terminal 100 displays the first image related to the specific topic at one or more specific viewpoints (or another specific section) according to the input of the user of the terminal 100, who is an expert related to the specific topic. ), respectively, set (or receive/input) one or more additional layer labels (or additional layer label values).
  • the terminal 100 performs the additional selective labeling process described above before and after performing the additional layer labeling process.
  • the terminal 100 performs an additional hierarchical labeling function, an additional selective labeling function, etc. on the first image.
  • the additional hierarchical labeling function and the additional selective labeling function are described separately, but the scope is not limited thereto, and the terminal 100 includes the additional hierarchical labeling function in the additional selective labeling function. It can also be performed by integrating the additional hierarchical labeling and the additional selective labeling into one additional labeling function.
  • the terminal 100 receives a second video transmitted from the server 200.
  • the second image is a result of learning by a classification model and a prediction model for the corresponding first image in the server 200, and includes an avatar, an item, and an avatar generated based on the first image. It may be an image related to the movement of a robot, etc., or an image in which the first image is updated.
  • the terminal 100 outputs the received second video to the video display area.
  • the terminal 100 may divide the screen of the terminal 100 and output the screen simultaneously while synchronizing the raw data, the image to be compared, the first image, and the second image.
  • the terminal 100 may receive the latest collective intelligence second image (or updated second image) related to the specific topic (or the raw data) from the server 200.
  • the terminal 100 displays motion-related images such as avatars, items, and robots output from the terminal 100 (or motion-related images related to at least one of the avatar and the item), and motion-related images. Meta information related to the video is transmitted to the server 200.
  • the specific topic includes medical practice (including, for example, procedures, surgery, etc.), dance, sports (including, for example, soccer, basketball, table tennis, etc.), games, e-sports, etc. .
  • the video related to the movement of the avatar and/or item may be an image generated through a selective labeling process, classification model inference process, prediction model inference process, etc. based on arbitrary raw data related to the specific topic.
  • the robot image is an image (or raw data) collected from a real-life robot motion using a visual set device.
  • the terminal 100 in conjunction with the server 200, receives user input (or user input) of the terminal 100 for the robot operation image (FIG. 29, basic robotics image) displayed on the terminal 100.
  • the label (or label value) at a specific point in time (or a specific section) of the robot motion video is set (or received/input).
  • the terminal 100 displays the robot operation video as the video. Display (or output) in the display area, and display the comparison target image corresponding to the robot operation image (or the comparison target image corresponding to the robot operation image provided by the server 200) in the comparison target image display area. (or print).
  • the terminal 100 performs synchronization on the robot motion image and the comparison object image based on meta information corresponding to the robot motion image and the comparison object image, respectively, and creates the synchronized robot motion image and the comparison object image. Images can be displayed in the image display area and the comparison target image display area, respectively.
  • the terminal 100 controls the other one to stop using the pause or stop function as well.
  • the terminal 100 operates at a specific point in time (or at a specific time) according to the user input (or user selection/touch/control) of the terminal 100 with respect to the robot motion image displayed in the video display area of the terminal 100.
  • the terminal 100 displays a label value for a good action (for example, a preset approval/approval/ACCEPT label) or an incorrect action according to a user input at one or more specific points in the robot operation image displayed in the video display area.
  • a label value for example, preset REJECT/REJECT label
  • Each label value is input.
  • the terminal 100 provides one or more robot operation images related to the specific topic at one or more specific points in time (or specific sections) according to the user input of the terminal 100, which is an expert related to the specific topic.
  • the selective labeling is a label (or label) for the presence or absence of an error (or abnormality) at a specific point (or specific section) of the robot motion image. Indicates a labeling method for setting (or attaching) a value.
  • a preset default label value for example, an approval label
  • the terminal 100 attaches a preset not ACCEPT label to a time point (or section/attribute/target attribute) to which the approval label is not attached among the robot motion images, and to a point to which the rejection label is not attached among the robot motion images. (or section/property/target property) can also be labeled with a preset not REJECT label.
  • the terminal 100 may include one or more selection label values at one or more characteristic viewpoints (or specific sections) related to the robot motion image, meta information of the robot motion image, identification information of the terminal 100, etc. Transmitted to the server 200.
  • the terminal 100 in conjunction with the server 200, performs hierarchical labeling on the robot motion image before or after performing selective labeling on the robot motion image, Selective labeling can also be performed on the relevant robot motion images before and after performing hierarchical labeling.
  • the hierarchical labeling (or hierarchical labeling) is input feature engineering by the user, attaching a label indicating the characteristics of the robot motion image, and dividing the robot motion image into a plurality of sub-robot motion images according to the characteristics (or Classification) labeling method.
  • the terminal 100 in conjunction with the server 200, refers to (or based on) a plurality of label classifications preset in relation to the specific topic for the robot operation image displayed on the terminal 100. ), according to the user input (or user selection/touch/control) of the corresponding terminal 100, set (or receive/receive/ input).
  • the terminal 100 displays the robot operation video as the video. Display (or output) in the display area, and display the comparison target image corresponding to the robot operation image (or the comparison target image corresponding to the robot operation image provided by the server 200) in the comparison target image display area. (or print).
  • the terminal 100 performs synchronization on the robot motion image and the comparison object image based on meta information corresponding to the robot motion image and the comparison object image, respectively, and creates the synchronized robot motion image and the comparison object image. Images can be displayed in the image display area and the comparison target image display area, respectively.
  • the terminal 100 controls the other one to stop using the pause or stop function as well.
  • the terminal 100 operates at another specific time point (or Set (or receive/input) one or more step-by-step labels (or label values) for the movement of the object (or action of the object) included in the corresponding robot motion video in another specific section).
  • the terminal 100 detects the movement (or action of an object) of an object included in the robot motion image according to a user input at one or more specific points (or other specific sections) of the robot motion image displayed in the image display area. ), a hierarchy label (or hierarchy label value) is input for each object's specific operation, a specific method of a specific operation, a specific step of a specific method, etc.
  • the terminal 100 displays robot operation images related to the specific topic at one or more specific points in time (or other specific sections) according to the input of the user of the terminal 100, who is an expert related to the specific topic.
  • Set or receive/input) one or more layer labels (or layer label values), respectively.
  • the terminal 100 performs the previously described selective labeling process before and after performing the hierarchical labeling process.
  • the terminal 100 receives the first robotics image transmitted from the server 200.
  • the first robotics image is a result of learning by a classification model and prediction model targeting the robot motion image in the server 200, and is an avatar and an item generated based on the robot motion image.
  • an image related to the motion of a robot, etc. an image in which the raw data has been updated (for example, an image in which the motion/deed/behavior of a human/person included in the raw data has been updated), etc.
  • the terminal 100 outputs the received first robotics image to the image display area.
  • the terminal 100 may split the screen of the terminal 100 and output them simultaneously while synchronizing the robot motion image, the comparison target image, and the first robotics image.
  • the terminal 100 performs additional selective labeling on the first robotics image in conjunction with the server 200.
  • the additional selective labeling refers to the presence or absence of an error (or abnormality) at another specific point in time (or another specific section) of the first robotics image. Indicates a labeling method of setting (or attaching) a label (or label value).
  • a preset default label value for example, an approval label
  • the terminal 100 attaches a preset not ACCEPT label to a point in the first robotics image to which the approval label is not attached (or section/attribute/target attribute), and to a point in the first robotics image to which the reject label is not attached.
  • a preset not REJECT label can also be attached to a point in time (or section/attribute/target attribute) that is not present.
  • the second selective labeling may correspond to the first robotics selective labeling of FIG. 19.
  • the terminal 100 in conjunction with the server 200, responds to the user input (or user selection/touch/control) of the terminal 100 with respect to the first robotics image displayed on the terminal 100. Accordingly, a label (or label value) at another specific point in time (or another specific section) of the first robotics image is set (or received/input).
  • the terminal 100 displays the first robotics image. Displayed (or output) in the image display area, and corresponds to the comparison target image corresponding to the robot operation image (or the first robotics image) (or the corresponding robot operation image/first robotics image provided from the server 200)
  • the comparison target image is displayed (or output) in the comparison target image display area.
  • the terminal 100 performs synchronization on the first robotics image and the comparison target image based on meta information corresponding to the first robotics image and the comparison target image, respectively, and creates a synchronized first robotics image.
  • the image to be compared may be displayed in the image display area and the image display area to be compared, respectively.
  • the terminal 100 displays the first robotics image displayed in the image display area of the terminal 100 at another specific time point according to a user input (or user selection/touch/control) of the terminal 100.
  • the terminal 100 displays a label value (for example, a preset approval/acceptance/ACCEPT label) for a good action according to a user input at one or more specific points in the first robotics image displayed in the image display area.
  • a label value for example, a preset REJECT label
  • a label value for example, a preset REJECT label
  • the terminal 100 displays the first robotics image generated in relation to the specific topic at one or more specific points in time (or Set (or receive/input) one or more additional selection labels (or additional selection label values) in another specific section).
  • the terminal 100 performs a time-series division selective labeling function or a body part-specific selective labeling function according to the user input of the terminal 100.
  • the terminal 100 performs the time series division selective labeling function through the following process.
  • the terminal 100 provides a label value (e.g., a good state (or good action)) for the state (or good action) of the division of each sub-robotics image according to the user input for the plurality of sub-robotics images into which the first robotics image is divided.
  • a label value e.g., a good state (or good action)
  • the terminal 100 provides a label value for the state (or good action) of the division of each sub-robotics image according to the user input for the plurality of sub-robotics images into which the first robotics image is divided.
  • a label value e.g., a good state (or good action)
  • a label value for an incorrect state e.g. a preset rejection/REJECT label
  • the division of the first robotics image into a plurality of sub-robotics images is based on information about the sub-robot motion images divided into a plurality of sub-robotic motion images according to the performance of the hierarchical labeling function for the robot motion image.
  • the first robotics image is divided into a plurality of sub-robotics images, or the first robotics image is divided into a plurality of sub-robotics images according to the performance of an artificial intelligence function or an image analysis function on the robot operation image in the server 200. It may be a state.
  • the terminal 100 generates label values for the well-segmented state and the incorrectly divided state of the plurality of sub-robotics images according to the user input of the corresponding terminal 100 for the first robotics image.
  • Each input is received, and a label value for sorting the order of the plurality of sub-robotics images (or a label value indicating the order of the plurality of sub-robotics images/a label for adjusting the division point when the division point is wrong or needs adjustment) value) are input respectively.
  • the terminal 100 may include label values for good and bad division states of the input plurality of sub-robotics images, and label values for sorting the order of the plurality of sub-robotics images (or corresponding plurality of images).
  • the label value indicating the order of the sub-robotics images/label value for adjusting the division point), identification information of the terminal 100, etc. are transmitted to the server 200.
  • the server 200 performs a time series division selective labeling function targeting the first robotics image, and divides the plurality of sub-robotics images transmitted from the terminal 100 into a good state and an incorrect state.
  • Label value for, label value for sorting the order of the plurality of sub-robotics images (or label value indicating the order of the plurality of sub-robotics images/label value for adjusting the division time), of the terminal 100 Receive identification information, etc.
  • the server 200 provides label values for good and bad segmentation states of the received plurality of sub-robotics images, and label values for sorting the order of the plurality of sub-robotics images (or corresponding plurality of images).
  • the order of the plurality of sub-robotics images obtained by dividing the first robotics image is rearranged based on the label value indicating the order of the sub-robotics images/label value for adjusting the division point of time.
  • the time-series division selection labeling divides the first robotics image into each of the plurality of sub-robotics images according to the user input of the terminal 100.
  • This may be a process of labeling whether the division time (including, for example, label values, still image information, etc.) is correct or incorrect, and labeling the label value to adjust the division time or order if the division time is incorrect.
  • the terminal 100 performs a selective labeling function for each body part through the following process.
  • the terminal determines the operation order of the avatars (or objects) included in the plurality of sub-robotics images according to user input with respect to the avatars (or objects) included in the plurality of robotics sub-images obtained by dividing the first robotics image.
  • a label value (or a label value for a good or incorrect state of the avatar's action sequence) is input for each, and the action sequence for each body part is determined from the actions of the avatar (or object) included in the plurality of sub-robotics images.
  • a label value indicating the order of the plurality of sub-robotics images is input according to user input.
  • the division of the first robotics image into a plurality of sub-robotics images is performed by dividing the first robotics image into a plurality of sub-robotics data based on information about the sub-robotics data divided into a plurality of parts according to the performance of the hierarchical labeling function for the robot motion image.
  • the first robotics image is divided into a plurality of sub-robotics images, or the first robotics image is divided into a plurality of sub-robotics images according to the performance of an artificial intelligence function or an image analysis function on the robot operation image in the server 200. It may be a state.
  • the terminal 100 generates a label value (or To receive the label value for the good or bad state of the avatar's action sequence, respectively, and to sort the order of the plurality of sub-robotics images (or the action sequence of the avatar included in the plurality of sub-robotics images)
  • a label value (or a label value indicating the order of the plurality of sub-robotics images/label value for adjusting the order of sub-robotics images including avatars) is input, respectively.
  • the terminal 100 provides a label value for the action sequence of the avatar (or object) included in the plurality of input sub-robotics images (or a label value for the good or wrong state of the avatar's action sequence).
  • a label value for sorting the order of the plurality of sub-robotics images (or the operation order of the avatar included in the plurality of sub-robotics images) (or a label value indicating the order of the plurality of sub-robotics images) is transmitted to the server 200.
  • the server 200 performs a selective labeling function for each body part targeting the first robotics image, and selects the avatars (or objects) included in the plurality of sub-robotics images transmitted from the terminal 100.
  • Label value for the action sequence (or label value for the good or bad state of the avatar's action sequence), sequence for the plurality of sub-robotics images (or action sequence of the avatar included in the plurality of sub-robotics images)
  • a label value for sorting or a label value indicating the order of the plurality of sub-robotics images
  • identification information of the terminal 100, etc. are received.
  • the server 200 provides a label value for the action sequence of the avatar (or object) included in the received plurality of sub-robotics images (or a label value for the good or wrong state of the avatar's action sequence). , Based on a label value (or a label value indicating the order of the plurality of sub-robotics images) for sorting the order of the plurality of sub-robotics images (or the operation order of the avatar included in the plurality of sub-robotics images), etc. The order of the plurality of sub-robotics images obtained by dividing the first robotics image is rearranged.
  • the selective labeling for each body part is performed by dividing the first robotics image into a plurality of sub-robotics images according to the user input of the terminal 100.
  • the order of the plurality of sub-robotics images (or the order of the plurality of sub-robotics images included in the plurality of sub-robotics images) This may be a process of labeling label values for sorting the avatar's action sequence.
  • the selective labeling function for each body part further includes the following functions.
  • the server 200 provides information on the operation sequence of the avatar included in the plurality of sub-robotics images according to the performance of the artificial intelligence function or video analysis function in the server 200 for the plurality of divided sub-robotics images. Information is provided to the terminal 100.
  • the terminal 100 labels the operation sequence of the avatar included in the plurality of sub-robotics images as a good state or an incorrect state according to the user input, and labels the operation sequence of the avatar as being wrong or incorrect. If adjustment is necessary, label values for adjusting the action sequence or the order of sub-robotics images containing avatars (or humans) are input, and the action sequence of the avatars included in the plurality of sub-robotics images received is correct. or label values for incorrect states (including, for example, selection, rejection, etc.), for adjusting the action sequence or order of sub-robotics images containing avatars, humans, robots, etc., if the avatar's action sequence is incorrect or requires adjustment.
  • the label value, identification information of the terminal 100, etc. are transmitted to the server 200.
  • the server 200 provides a label value for a good state or an incorrect state for the action sequence of the avatar included in the plurality of sub-robotics images transmitted from the terminal 100, and the avatar's action sequence is incorrect or needs to be adjusted. If necessary, label values for adjusting the operation sequence or the order of sub-robotics images including avatars, identification information of the terminal 100, etc. are received.
  • the server 200 provides a label value for a good or incorrect state for the action sequence of the avatar included in the received plurality of sub-robotics images, an action sequence if the avatar's action sequence is incorrect or requires adjustment, or The order of the plurality of sub-robotics images obtained by dividing the first robotics image is rearranged based on label values for adjusting the order of the sub-robotics images including the avatar.
  • the terminal 100 may display one or more additional selection label values, one or more time series division selection label values, and one or more body part-specific values at one or more specific points in time (or another specific section) related to the first robotics image.
  • a selection label value, a label value for sorting the order of the plurality of sub-robotics images, identification information of the corresponding terminal 100, etc. are transmitted to the server 200.
  • the terminal 100 in conjunction with the server 200, adds one or more first robotics images before or after performing additional selective labeling on the first robotics images.
  • Hierarchical labeling may be performed, and additional selective labeling may be performed on the corresponding first robotics image before/after additional hierarchical labeling is performed.
  • the additional layer labeling (or additional layer labeling) is feature engineering input by the user, attaching a label (or label value) indicating the characteristics of the first robotics image, and dividing the first robotics image into a plurality of characters according to the characteristics. Indicates a labeling method for dividing (or classifying) sub-robotics images.
  • the terminal 100 in conjunction with the server 200, refers to (or based on) a plurality of label classifications preset in relation to the specific topic for the first robotics image displayed on the terminal 100. ), an additional label (or additional label value) at another specific point in time (or another specific section) of the first robotics video, according to the user input (or user selection/touch/control) of the terminal 100.
  • Set or receive/enter).
  • the terminal 100 displays the first robotics image. Displayed (or output) in the image display area, and the comparison target image related to the first robotics image (or the corresponding robot motion image/comparison image corresponding to the first robotics image provided from the server 200) is compared. Display (or output) in the target video display area.
  • the terminal 100 performs synchronization on the first robotics image and the comparison target image based on meta information corresponding to the first robotics image and the comparison target image, respectively, and creates a synchronized first robotics image.
  • the image to be compared may be displayed in the image display area and the image display area to be compared, respectively.
  • the terminal ( 100) controls the other one to stop using the pause or stop function.
  • the terminal 100 displays the first robotics image displayed in the image display area of the terminal 100 at another specific time point according to a user input (or user selection/touch/control) of the terminal 100.
  • the terminal 100 displays the movement of an object included in the first robotics image according to a user input at one or more specific points (or another specific section) of the first robotics image displayed in the image display area ( or an object's behavior), additional layer labels (or additional layer label values) are input hierarchically for a specific action of the object, a specific method of a specific action, a specific step of a specific method, etc.
  • the terminal 100 displays the first robotics image related to the specific topic at one or more specific points in time (or another specific time) according to the input of a user of the terminal 100 who is an expert related to the specific topic.
  • the terminal 100 performs the additional selective labeling process described above before and after performing the additional layer labeling process.
  • the terminal 100 performs an additional layer labeling function, an additional selective labeling function, etc. on the first robotics image.
  • the additional hierarchical labeling function and the additional selective labeling function are described separately, but the scope is not limited thereto, and the terminal 100 includes the additional hierarchical labeling function in the additional selective labeling function. It can also be performed by integrating the additional hierarchical labeling and the additional selective labeling into one additional labeling function.
  • the terminal 100 receives a second robotics image transmitted from the server 200.
  • the second robotics image is a result of learning by a classification model and a prediction model for the first robotics image in the server 200, and is an avatar generated based on the first robotics image. , an image related to the movement of an item, a robot, etc., an image in which the first robotics image is updated, etc.
  • the terminal 100 outputs the received second robotics image to the image display area.
  • the terminal 100 may split the screen of the terminal 100 and output them simultaneously while synchronizing the robot motion image, the comparison target image, the first robotics image, and the second robotics image.
  • the terminal 100 may receive the latest collective intelligence second robotics image (or updated second robotics image) related to the specific topic (or the raw data) from the server 200. .
  • the terminal 300 has a raw data collection function in the form of a dedicated app, a hierarchical labeling function for information / images, a selective labeling function for information / images, a time series division selective labeling function for information / images, It is explained that performing a selective labeling function for information/image by body part, etc., but is not limited to this, and in addition to the dedicated app, the raw data collection function, the raw data collection function, etc. through a website provided to the server 200, etc.
  • a hierarchical labeling function for information/images, a selective labeling function for the information/images, a time-series division selective labeling function for the information/images, a selective labeling function for each body part for the information/images, etc. may be performed.
  • the server 200 communicates with the terminal 100, etc.
  • the server 200 performs membership registration procedures for users such as the terminal 100.
  • the server 200 registers personal information related to users of the terminal 100, etc. At this time, the server 200 may register (or manage) the relevant personal information, etc. in a DB server (not shown).
  • the server 200 performs a member management function for users such as the terminal 100.
  • the server 200 has a raw data collection function, a hierarchical labeling function for information/images, a selective labeling function for information/images, a time series division selective labeling function for information/images, and a body part-specific labeling function for information/images.
  • a dedicated app and/or website that provides selective labeling functions, etc. is provided to the terminal 100, etc.
  • server 200 provides a bulletin board function for announcements, events, etc.
  • the server 200 is linked with the terminal 100 and the payment server to provide a raw data collection function, a hierarchical labeling function for information/images, and a selective labeling function for information/images provided by the server 200.
  • a payment function is performed according to the subscription function performed on the corresponding terminal 100 for functions, time series division selective labeling function for information/image, selective labeling function for each body part for information/image, etc.
  • the server 200 includes payment failure information (e.g., payment date, payment amount, failure information (e.g., insufficient balance, limit exceeded, etc.)) (or indicating that the payment has failed). information) is provided to the terminal 100.
  • payment failure information e.g., payment date, payment amount, failure information (e.g., insufficient balance, limit exceeded, etc.)
  • the server 200 transmits the payment function performance results provided from the payment server to the terminal 100, respectively.
  • the result of performing the payment function includes the subscription period, payment amount, payment date, and time information.
  • the server 200 manages (or stores/registers) the payment function performance results by mapping (or matching/linking) them with the corresponding terminal 100 (or account information related to the terminal 100).
  • the server 200 provides a raw data collection function, a hierarchical labeling function for information/image, and an information/image provided by the server 200 through the corresponding dedicated app on the terminal 100. It provides various information to perform selective labeling functions for images, time series division selective labeling functions for information/images, and selective labeling functions for information/images by body part.
  • the server 200 may further include a bus (not shown), a communication interface (not shown), etc. to provide communication functions between components of the server 200.
  • the bus is implemented in various types of buses such as an address bus, a data bus, and a control bus.
  • the communication interface supports wired/wireless Internet communication of the server 200.
  • the server 200 includes one or more instructions that cause the processor to perform methods/functions according to various embodiments of the present invention when a computer program is loaded into memory. That is, the processor performs the method/function according to various embodiments of the present invention by executing the one or more instructions.
  • the server 200 includes raw data related to a specific topic collected in advance, meta information related to the raw data, an image to be compared, meta information related to the image to be compared, a first image, and information related to the first image.
  • the input dataset for machine learning includes raw data related to the specific topic, meta information related to the raw data, an image to be compared, meta information related to the image to be compared, a first image, and information related to the first image.
  • the second robotics video, meta information related to the second robotics video, etc. are divided into a training set and a test set at a preset ratio (including, for example, 7:3, 8:2, etc.) , can perform training and testing functions.
  • the input dataset for machine learning includes raw data related to a specific topic collected later, meta information related to the raw data, an image to be compared, meta information related to the image to be compared, a first image, and the first image.
  • Meta information related to the second video meta information related to the second video, video related to the motion of the avatar and/or item, meta information related to the motion related video, first robotics video, meta related to the first robotics video It includes information, a second robotics image, meta information related to the second robotics image, etc.
  • the output dataset for machine learning is the part to be predicted, and is learned according to the collected information, etc., and later classified or predicted to determine the raw data, the first image, the second image, the motion-related image, the first image, and the like. Labels related to 1st robotics image, 2nd robotics image, etc. are classified, and the first image, 2nd image, 1st robotics image, 2nd robotics image, etc. are generated based on the classified information.
  • the server 200 corresponds to raw data related to a specific topic collected in advance for a classification model through preset learning data, a first image, an image related to the movement of an avatar and/or an item, a first robotics image, etc. Performs a learning function to classify label values related to information.
  • the server 200 stores the information in parallel and distributedly, and includes raw data related to a specific topic collected in advance included in the stored information, meta information related to the raw data, image to be compared, and target to be compared.
  • Meta information related to the video first video, meta information related to the first video, second video, meta information related to the second video, video related to the motion of the avatar and/or item, meta information related to the video related to the motion , the first robotics image, the meta information related to the first robotics image, the second robotics image, and the meta information related to the second robotics image as unstructured data, structured data, and semi-structured data. structured), perform preprocessing including classification into metadata, perform analysis including data mining on the preprocessed data, and perform learning, training, and testing based on at least one type of machine learning. You can proceed to build big data. At this time, at least one type of machine learning is Supervised Learning, Semi-Supervised Learning, Unsupervised Learning, Reinforcement Learning, and Deep Reinforcement Learning. It may be any one or a combination of at least one of them.
  • the server 200 provides classification values classified through the classification model, raw data, meta information related to the raw data, and comparison targets in relation to specific topics collected in advance for the prediction model through preset learning data.
  • Video meta information related to the video to be compared, first video, meta information related to the first video, second video, meta information related to the second video, video related to the motion of the avatar and/or item, related to the motion
  • the first robotics image, the meta information related to the first robotics image, the second robotics image, and the meta information related to the second robotics image a new image related to the corresponding information (e.g., the first robotics image) Performs a learning function to generate images (including images, second images, etc.).
  • the server 200 stores the information in parallel and distributedly, and provides classification values, raw data, and information related to the raw data classified through the classification model related to a specific topic collected in advance included in the stored information.
  • At least one type of machine learning may be comprised of any one or a combination of at least one of supervised learning, semi-supervised learning, unsupervised learning, reinforcement learning, and deep reinforcement learning.
  • the server 200 performs a learning function on the classification model, the prediction model, etc. in the form of neural networks through the learning data.
  • the server 200 uses a generative neural network algorithm, a tracking neural network, etc.
  • the tracking neural network network is a model that receives input in the form of sequential, and may be a neural network algorithm capable of measuring and structuring data in a four-dimensional vector manner on the relative values of the xyz coordinates of image information of an object.
  • GNN Graph Neural Network
  • GAN Geneative Adversarial Network
  • GNN Graph Neural Network
  • GAN Geneative Adversarial Network
  • an artificial intelligence algorithm there may be a combination of GAN and GNN, there may be application of GNN alone excluding GAN, and there may be application of GAN alone excluding GNN.
  • 'GNN regression model type 1' and 'GNN regression model type 2' are not used, but deep learning and association rules are used when obtaining predicted values of attributes and target attributes.
  • GAN enhances the expression, naturalness, and sophistication of still images and videos. To predict the next movement, inference is made using the association rules of the movement pattern.
  • the first basic image information which is raw data, becomes the first attribute 1224 and the first target attribute 1225 clustered by the first hierarchical labeling 1210.
  • the basic image information is hierarchically clustered. .
  • This is called the first hierarchical cluster, and the basic image represents an image for which basic image information is output on the viewing screen of the terminal 100.
  • the server 200 includes one or more raw data transmitted from the terminal 100, meta information related to the raw data, an image to be compared, meta information related to the image to be compared, identification information of the terminal 100, etc. receives.
  • the server 200 receives one or more raw data related to the specific topic, meta information related to the raw data, etc.
  • the comparison target image related to the raw data is confirmed (or searched) among the plurality of comparison target images managed by the server 200, and the confirmed comparison target image and meta information related to the comparison target image are collected. It is provided to the terminal 100.
  • the server 200 performs selective labeling on one or more received raw data.
  • the selective labeling is a labeling method of setting (or attaching) a label (or label value) for the presence or absence of an error (or abnormality) at a specific point in time (or a specific section) of the raw data. represents.
  • a preset default label value for example, an approval label
  • the server 200 works in conjunction with the terminal 100 to process raw data displayed on the terminal 100 according to user input (or user selection/touch/control) of the terminal 100.
  • the server 200 may include one or more selection label values at one or more feature points (or specific sections) related to the raw data transmitted from the terminal 100, meta information of the raw data, and the terminal 100. Receives identification information, etc.
  • the terminal 100 sets (or receives/inputs) one or more selection label values at one or more specific points in time (or specific sections) among the raw data according to user input.
  • the server 200 performs an image analysis function on the raw data and the comparison target image related to the raw data, and performs one or more specific analysis functions on the raw data based on the result of performing the video analysis function. You can also automatically set one or more selection label values at a point in time (or a specific section).
  • the server 200 sets one or more selection label values at one or more specific points in time (or specific sections) for the corresponding raw data
  • the server 200 sets one or more specific points in time related to the set corresponding raw data.
  • Information on one or more selection label values in (or a specific section) is provided to the terminal 100, and the terminal 100 provides one or more specific points in time (or specific time points) related to the raw data set in the server 200. Displays information about one or more selection label values in a section), and determines whether to finally approve one or more selection label values at one or more specific points in time (or specific sections) according to user input of the terminal 100. It can also be configured to do so.
  • the server 200 before or after performing selective labeling on the one or more raw data, performs hierarchical labeling on the one or more raw data in conjunction with the terminal 100.
  • selective labeling may be performed on one or more row data before/after performing hierarchical labeling.
  • the hierarchical labeling (or hierarchical labeling) is input feature engineering by the user, where a label (or label value) indicating characteristics of the raw data is attached, and the raw data is divided into a plurality of groups according to the characteristics. Indicates a labeling method for dividing (or classifying) sub-row data.
  • the server 200 in conjunction with the terminal 100, refers to (or is based on) a plurality of label classifications preset in relation to the specific topic for the raw data displayed on the terminal 100.
  • the server 200 According to the user input (or user selection/touch/control) of the corresponding terminal 100, setting (or receiving/input) a label (or label value) at another specific point in time (or another specific section) among the raw data. do.
  • the server 200 divides the raw data into a plurality of sub-row data.
  • the terminal 100 sets (or receives/inputs) one or more layer label values at one or more specific points in time (or other specific sections) among the raw data according to user input.
  • the server 200 performs an image analysis function on the raw data and the comparison target image related to the raw data, and performs an image analysis function on the raw data based on the result of performing the video analysis function.
  • One or more layer label values may be automatically set at another specific point in time (or another specific section).
  • the server 200 sets one or more hierarchical label values at one or more specific points in time (or other specific sections) for the corresponding raw data
  • the server 200 sets one or more hierarchical label values related to the set corresponding raw data.
  • Information about one or more layer label values at another specific point in time (or another specific section) is provided to the terminal 100, and the terminal 100 provides one or more other information related to the raw data set in the server 200. Displays information about one or more layer label values at a specific point in time (or another specific section), and displays one or more layer labels at one or more other specific times (or other specific sections) according to the user input of the terminal 100. It can also be configured to make a final decision on whether to approve the value.
  • the server 200 calls a library related to input feature engineering and converts basic image information (or raw data) into an input feature vector.
  • Hierarchical labeling by the user divides the basic image information into data unit 3 or data unit 4, and supervised learning of the prediction model so that the attribute value of data unit 3 or data unit 4 becomes a complex input feature.
  • the complex input feature represents basic image information combining point cloud, RGB, JPG, video information, voxel (or 3D image), vector format, etc. converted into input features.
  • hierarchical labeling by the user can be omitted in the process where the server 200 calls a library related to input feature engineering and converts basic image information into an input feature vector.
  • the first hierarchical cluster 1201 may be automatically created by the server 200.
  • hierarchical clustering labeling is performed by the server 200 in which artificial intelligence obtains input features on its own. can do.
  • the step of receiving hierarchical labeling information is omitted.
  • Input feature engineering by the user such as first layer labeling, second layer labeling, third layer labeling, etc. is omitted, and the server 200 obtains the input features on its own.
  • Input feature engineering by the user such as repeated layer labeling such as first layer labeling, second layer labeling, and third layer labeling, is omitted, and the server 200 obtains the input features on its own.
  • the first hierarchical cluster 1201 represents first basic image information clustered by first hierarchical labeling 1210.
  • the first hierarchical cluster 1201 becomes a hierarchical cluster 700 based on data unit 3 in FIG. 7 or becomes a hierarchical cluster 900 based on data unit 4 in FIG. 9.
  • hierarchical clustering includes a method in which the server 200 obtains input features on its own.
  • the second hierarchical labeling of FIG. 12 is to perform hierarchical clustering labeling on the first image information output from the viewing screen of the terminal 100, and inputs a hierarchical clustering label value for the first image information.
  • users refer to the label classification in [Table 1] to [Table 11].
  • the user does not label specific steps and/or detailed operation steps.
  • the video may be divided into data unit 3, data unit 4, or data unit 5 by the server 200.
  • the server 200 performs artificial intelligence-based machine learning based on information about the selectively labeled raw data, and generates (or confirms) a classification value for the raw data based on the machine learning results.
  • the classification value for the corresponding raw data is the selective labeling value, hierarchical labeling value, etc. for each same item. It may be a classified value.
  • the server 200 performs machine learning (or artificial intelligence/deep learning) using information about the selectively labeled raw data as input to a preset classification model, and produces machine learning results (or artificial intelligence results). /deep learning results) to create (or confirm) a classification value for the raw data.
  • machine learning or artificial intelligence/deep learning
  • labeling that classifies actions of an avatar, human, robot, etc. as approved (ACCEPT) or rejected (REJECT) is performed in the form of supervised learning, which corresponds to a classification model.
  • ACCEPT and REJECT binary classification can be used as a commonly used binary classification model, and when the success or failure of surgery and operation is expressed on a 5-level scale, each class is classified. It can be implemented as a multiple classification model from which a probability value of is derived.
  • the image information may be labeled as a dichotomy of selecting ACCEPT or REJECT in the user interface of the app execution result screen (or view screen) of the preceding terminal 100, but the ACCEPT ), NORMAL, and REJECT. You can also label image information in three steps. The stages of good and incorrect motions can be divided into degrees and labeled by subdividing them into 5th and 6th stage labels. When the level of label granularity is large, such as levels 5 and 6, a good score is scored from 5 to 1. If the correct score is above a certain level (4 points or more), it is considered approval (ACCEPT), and if the incorrect score is below a certain level (2 points or less), it is considered rejection (REJECT). A score of 3 is classified as NORMAL.
  • the server 200 includes a classification value for the generated corresponding raw data (or a classification value for the corresponding raw data), information on the selectively labeled raw data, the corresponding raw data, meta information related to the corresponding raw data, Machine learning (or artificial intelligence/deep learning) is performed using the image to be compared, meta information related to the image to be compared, etc. as input values, and the corresponding information is based on the machine learning result (or artificial intelligence result/deep learning result).
  • a first image corresponding to raw data is generated.
  • the first image is an image related to the movement of an avatar, item, robot, etc. generated based on the raw data, and an image in which the raw data has been updated (e.g., a human/person's movement/action included in the raw data) /video with updated actions), etc.
  • the server 200 includes a classification value for the generated corresponding raw data (or a classification value for the corresponding raw data), information on the selectively labeled raw data, the corresponding raw data, meta information related to the corresponding raw data, Machine learning (or artificial intelligence/deep learning) is performed using the comparison target image, meta information related to the comparison target image, etc. as input values of a preset prediction model, and the machine learning result (or artificial intelligence result/deep learning result) ) Based on this, a first image related to the raw data is generated.
  • the server 200 transmits (or provides) the generated first image to the terminal 100.
  • the structure of the GNN is as follows.
  • Objects in moving images or still images are expressed as nodes (x1 ⁇ x4, z1 ⁇ z4). Each object is related to each other, and there is a time-series movement pattern in which the relationship influences each other.
  • the input layer 1301 and the output layer 1303 have a plurality of overlapping layers, and a hidden layer (or hidden layer) 1302 exists in the middle of the input layer 1301 and the output layer 1303. When input is input, the next output is predicted.
  • GAN according to an embodiment of the present invention is used to express information about the characteristics of videos, poses, and movements in features, and in connecting points, the characteristics of joints (for example, can only be folded inward), angles, Distance, landmark points, etc. are additionally expressed.
  • the point cloud may be embodied in other data structures without departing from the essential characteristics.
  • GAN according to an embodiment of the present invention can express the characteristics of joints and structures as vectors and take the data structure converted from point cloud to GNN form.
  • spatial information is generated as an object that is a combination of multiple points rather than as a point, and this is processed by structuring the data in the form of GNN. do.
  • meta information is additionally used as another feature of the input, and if the form of the meta information feature is different, it cannot be simply changed, so the layer It is used by dividing (layers) and merging them.
  • Meta information that is merged and used as another input includes user information and item information.
  • Meta information is used as complementary information to supervised labels and as conditional information in the training of unsupervised GAN.
  • This meta information allows the GAN to remember the degree of similarity during various visual training, and when specific attribute information changes in the future, the visual information is used as input information to help variably perform artificial intervention accordingly.
  • the shape of the virtual avatar created may vary depending on the corresponding value of meta information.
  • GNN can represent an artificial neural network structure implemented by deriving similarities and feature points between modeling data using modeling data modeled based on data mapped between specific parameters.
  • the use of other algorithms is possible and is not limited to the algorithms mentioned.
  • user information includes face and body shape and color, age, gender, hair, race, fat level, muscularity, various other category information, numeric information, and other user attribute information.
  • item information includes brand, creator ID, advertiser ID, NFT ID, product group ID, and other item attribute information.
  • Information used in digital cadaver includes the name of each part, blood type, age, gender, type of disease, and progress status.
  • the server 200 modifies (1401) the condition meta information of the conditional GAN and modifies (1401) the avatar's body shape characteristic information such as slimness or muscle man.
  • meta information can be modified (1401) in various games.
  • the server 200 creates (or manages) an avatar that controls dancing performances, virtual surgery, virtual soccer games, virtual fighters, etc.
  • the digital cadaver may be an external object that can replace prosthetics, implants, etc. during dental surgery, and can be replaced to simulate pre-surgery, in plastic surgery, as a post-plastic simulation, and in general surgery, as a 3D three-dimensional object. It can be used for physical combination simulation according to size and structure.
  • the characteristics of objects learned in advance e.g., the opening and closing of various medical equipment, the doctor's hands and feet cannot be separated from the body and can be bent inward, medical equipment and instruments can fall from the digital cadaver, , can be attached, etc. are used as training features.
  • the properties of objects learned in advance e.g., the dental blade (bur) of a dental handpiece can turn, tissue can be opened by a surgical knife, a tooth can be pulled out from the gum of a tooth, human organs can be (including replaceable, etc.) is used as a training feature.
  • objects learned in advance e.g., the dental blade (bur) of a dental handpiece
  • tissue can be opened by a surgical knife, a tooth can be pulled out from the gum of a tooth, human organs can be (including replaceable, etc.) is used as a training feature.
  • the properties of objects learned in advance e.g., the wheels of a car can turn, the front door of a house can be opened, hands and feet cannot be separated from the body and can be bent inward, a hat can fall off the head
  • properties of objects learned in advance e.g., the wheels of a car can turn, the front door of a house can be opened, hands and feet cannot be separated from the body and can be bent inward, a hat can fall off the head
  • can be covered, can be covered, etc. are used as training features.
  • the server 200 modifies the conditional meta information of the conditional GAN (1401) to modify the variation of the digital cadaver, a type of avatar, and various disease information according to the case.
  • the terminal 100 may be various types of VR simulators.
  • Haptic rendering is simultaneously provided in VR simulators where visual rendering is provided by GAN and/or GNN prediction models.
  • a VR simulator is connected to a visual set device and various types of haptic devices.
  • the types of VR simulators are as follows. That is, the VR simulator includes a tooth removal VR simulator, a surgery VR simulator, a vehicle VR simulator, a VR treadmill, etc. The form of the VR simulator is not limited to this.
  • the equipment of the tooth removal VR simulator requires an HMD, a haptic device, and a foot pedal system used in a dental chair (including, for example, iOS, Raspberry Pi, etc.).
  • a digital cadaver is created in virtual reality and an artificial cadaver with HD tactile sensation is created.
  • Virtual dental treatment and surgical operations are performed using VR and 3D simulators.
  • the surgical VR simulator is as follows. This is a method of predicting the location of an invisible lesion and performing surgery by creating a 3D model of the patient's lesion and matching the 3D patient coordinate system with the coordinate system of the patient placed on the operating table based on the location and condition of the lesion and image information. .
  • the way avatars, humans, robots, etc. drive in various types of VR simulators (VEHICLE examples: submarines, tanks, drones, fighter jets, etc.) using the control device of the VEHICLE type VR simulator is converted into data. You can create an avatar.
  • the VR VEHICLE simulator simulates the pilot's own avatar's arms, feet, and other body parts.
  • the coordinate system is synchronized according to rules from start to finish in the metaverse world.
  • LIDAR infrared tracking
  • motion tracking to have a human body motion data matching algorithm, and a matching algorithm for the simulator's position in the metaverse world is also required.
  • visual data (basic image information) acquired by flying a virtual airplane becomes the data set of the initial model of the derivation and/or inference algorithm of FIG. 12.
  • the derivation and/or inference algorithm 1200 of FIG. 12 is the sum of the partial derivation and/or inference algorithms (first and second derivation and/or inference algorithms) of FIG. 15.
  • Visual data (basic image information) acquired by controlling a virtual airplane becomes the basic data that allows artificial intelligence to operate a flight simulator. If many errors and errors occur in artificial intelligence virtual flight control, the user (airplane pilot) performs selective labeling through the user interface of the app execution result screen (or view screen) of the terminal 100.
  • an avatar control system using a VR treadmill (wearing a HEAD MOUNTED DISPLAY) requires the following technology.
  • Matching algorithm for user and avatar movement, behavior, infinite walking, rotation, etc. posture control system, motion and movement control system using VIVE tracker, lidar and infrared tracking (shoe pressure value and infrared sensor value (use), infinite walking and human motion data matching algorithm, VR treadmill body designed to enable almost all movements of the human body, response technology according to coordinate standards and environmental variations in the metaverse world, motion data synchronization and dedicated server, user's A synchronization system that enables network play is needed.
  • the regression model that uses GNN for the coordinate values of the video and various visual data for the target attribute is defined as 'GNN regression model type 2'.
  • a model that predicts relative image information and state values at a specific point in time for an avatar's movement behavior is structured in the form of a GNN, and the model that predicts each value is called 'GNN regression model type 1 and type 2'. It is defined as
  • first association rule type 1 (1214) and first association rule type 2 (1215) predict the second attribute (1226) and the second target attribute (1227).
  • Association rule types 1 and 2 do not use GNN, but are models that infer still images and videos using association rules and deep learning (models that receive sequential input, excluding GNN regression models), respectively, and use GNN-type structuring. It is a model of the same type as GNN regression model types 1 and 2 in Figure 13, except that it is not used.
  • the deep learning (a model in which sequential input, excluding the GNN regression model, is input and the x, y, z coordinates of the object are tracked) used in the tracking neural network network is a deep neural network.
  • ‘GNN regression model type 1 and 2’ or ‘association rule type 1 and 2’ uses the sliding window technique. This is a model that receives sequential input. 'GNN regression model type 1 and 2' or 'association rule type 1 and 2' is 'GAN and/or GNN prediction model (1605)' in Figure 16.
  • the user selects labeling 1604 in the user interface 1603 of the terminal 100 to which the time setting device 1602 is connected, and the labeled visual data is used in the GAN and/or GNN prediction model 1605. It is used in The GAN and/or GNN prediction model 1605 transmits visual data to the simulation engine 1606 to generate or output the avatar's motion.
  • visual data is transmitted in the order of the simulation engine 1606, graphics engine 1607, display device 1608, and control algorithm 1609 and output through the user interface 1603.
  • the app execution result screen (or view screen) of the terminal 100 is the user interface 1603 implemented as a screen in the terminal 100.
  • the GAN and/or GNN prediction model 1605 of Figure 16 includes an interface API process.
  • examples of interface APIs are as follows: Data accepted by IoT Edge devices (including, for example, iOS, Raspberry Pi, etc.) may be input data itself, or may be output as a result of artificial intelligence inference run on the Edge. Artificial intelligence models created in Python, etc. can be converted for IoT Edge devices through open source libraries such as ONNX, and through this, the output result data and input data first inferred on the Edge can be further converted through Server API calls. This is re-inferred using a complex collective intelligence model.
  • IoT Edge devices including, for example, iOS, Raspberry Pi, etc.
  • Artificial intelligence models created in Python, etc. can be converted for IoT Edge devices through open source libraries such as ONNX, and through this, the output result data and input data first inferred on the Edge can be further converted through Server API calls. This is re-inferred using a complex collective intelligence model.
  • a digital unit refers to a video unit divided by artificial intelligence and user interaction (including, for example, time series segmentation selective labeling, body part selective labeling, etc.).
  • the first attribute (1224) selectively labeled (1604) for each K2 or K4 clusters is classified to create a first GNN regression model type 1 (1204) or first association rule 1. Derive and/or infer (ai inference) the type 1214.
  • the first GNN regression model 1 Type 1204 or first association rule type 1 1214 returns the time series sequence of the second attribute 1226 to the app execution result screen (or view screen) of the terminal 100.
  • the second attribute 1226 is the predicted value 1206, 1216 of the first GNN regression model type 1 1204 or the first association rule type 1 1214, and is a still image of the kth, Lth, or fth stage of the motion video. It is a feature vector representation of information.
  • the first GNN regression model type 2 (1205) or the first association rule type 2 Type 2 (1215) is the app execution result screen (or view screen) of the terminal 100 and is the predicted value (1207, 1217) of the first GNN regression model type 2 (1205) or the first association rule type 2 (1215).
  • the second target attribute 1227 is a feature vector representation of video information of the k-th, L-th, or f-th stage of the motion video.
  • the first induction and/or inference (ai inference) algorithm 1502 is as follows.
  • the data of the first hierarchical cluster 1201 is subjected to first selective labeling 1202 to derive and/or infer (AI inference) the first classification model 1203, and the classified first attribute 1224 and first target are Attributes 1225 are used for derivation and/or inference of the first GAN and/or GNN prediction model 1508
  • the server 200 performs additional selective labeling on the first image.
  • the additional selective labeling (or additional selective labeling) sets a label (or label value) for the presence or absence of an error (or abnormality) at another specific time point (or another specific section) of the first image (or (attached) indicates the labeling method.
  • a preset default label value (for example, an approval label) may be set at a time point (or section) in the first image for which a label (or label value) is not set according to the additional selective labeling.
  • the server 200 works in conjunction with the terminal 100 to display the first image displayed on the terminal 100 according to the user input (or user selection/touch/control) of the terminal 100. , Set (or receive/input) a label (or label value) at another specific point in time (or another specific section) of the first video.
  • the server 00 may provide one or more additional selection label values and one or more time series division selection labels at one or more specific points in time (or another specific section) related to the first image transmitted from the terminal 100.
  • a value, a selection label value for one or more body parts, a label value for sorting the order of a plurality of sub-images, identification information of the corresponding terminal 100, etc. are received.
  • the terminal 100 sets (or receives/inputs) one or more additional selection label values at one or more specific points in time (or another specific section) of the first image according to user input. This is mainly explained, but is not limited to this.
  • the server 200 performs an image analysis function on the first image and the comparison target image related to the first image, and performs an image analysis function based on the result of performing the image analysis function.
  • One or more additional selection label values may be automatically set at one or more specific points in time (or another specific section) for the first image.
  • the server 200 sets one or more additional selection label values at one or more specific points in time (or another specific section) for the corresponding first image
  • the server 200 sets the corresponding first image.
  • Information on one or more additional selection label values at one or more specific points in time (or another specific section) related to the video is provided to the terminal 100, and the terminal 100 selects a value set in the server 200.
  • the server 200 performs additional hierarchical labeling on the one or more first images in conjunction with the terminal 100. , and additional selective labeling may be performed on the first image before/after performing additional layer labeling.
  • the additional layer labeling (or additional layer labeling) is input feature engineering by the user, attaching a label (or label value) indicating the characteristics of the first image, and dividing the first image into a plurality of subs according to the characteristics. Indicates a labeling method for segmenting (or classifying) images.
  • the server 200 in conjunction with the terminal 100, classifies the first image displayed on the terminal 100 with reference to (or based on) a plurality of label classifications preset in relation to the specific topic. ), setting an additional label (or additional label value) at another specific point in time (or another specific section) of the first video according to the user input (or user selection/touch/control) of the terminal 100. (or receive/enter).
  • the server 200 divides the first image into a plurality of sub-images.
  • the terminal 100 sets one or more additional layer labels (or additional layer label values) at one or more specific points in the first image (or another specific section) according to user input. (or receiving/inputting) is mainly explained, but is not limited to this, and the server 200 performs an image analysis function on the first image and the comparison target image related to the first image, and performs image analysis. Based on the result of performing the function, one or more additional layer label values may be automatically set at one or more specific points in time (or another specific section) for the corresponding first image.
  • the server 200 sets one or more additional layer label values at one or more specific points in time (or another specific section) for the corresponding first image
  • the server 200 sets the corresponding first image.
  • Information on one or more additional layer label values at one or more specific points in time (or another specific section) related to the video is provided to the terminal 100, and the terminal 100 sets the value in the server 200.
  • Displays information about one or more additional layer label values at one or more specific points in time (or another specific section) related to the first video and displays one or more additional layer label values according to the user input of the corresponding terminal 100. It can also be configured to determine final approval for one or more additional layer label values at a point in time (or another specific section).
  • the second hierarchical labeling (1220) is performed on the first image information (1503), which is the predicted value of the first GNN and/or GAN prediction model (1508) of FIG. 15, a second hierarchical cluster (1507) is formed.
  • the first hierarchical labeling for the second basic image information 1506 is performed simultaneously, and the generated cluster is included in the second hierarchical cluster 1507.
  • the second hierarchical labeling 1220 information receiving step of receiving hierarchical clustering labeling information is omitted.
  • Input feature engineering by the user may be omitted and the server 200 may generate the feature itself.
  • the second hierarchical labeling 1220 may be performed by being included in the second selective labeling 1208.
  • the server 200 performs another artificial intelligence-based machine learning based on information about the additionally selected first image, etc., and creates a classification value for the first image based on other machine learning results. Create (or confirm).
  • the classification value for the first image (or the classification value for the first image) may be a value obtained by classifying additional selection labeling values, additional hierarchical labeling values, etc. by the same item.
  • the server 200 performs other machine learning (or other artificial intelligence/other deep learning) using the information about the additional selection labeled first image as an input value of the preset classification model, and other machines Based on the learning results (or other artificial intelligence results/other deep learning results), a classification value for the first image is generated (or confirmed).
  • the server 200 derives and/or infers a classification model for basic images (or raw data) input by K7 (several times) * K8 (multiple) users. /or includes an inference step.
  • the value predicted by the first GAN and/or GNN prediction model 1508 is the first image information 1503.
  • the still image information of the first image information 1503 is the second attribute 1226, and the video information is the second target attribute 1227.
  • the second classification model 1209 classifies the ‘second attribute 1226 and the second target attribute 1227’ belonging to a specific cluster, which is one of the second hierarchical clusters 1507.
  • a classification model for the labeled data is derived and/ Or infer.
  • the first attribute 1224 and the first target attribute 1225 of the second basic image information 1505 are learned as one model.
  • hierarchical clustering is generated by the server 200 itself.
  • the server 200 provides a classification value for the generated first image (or a classification value for the first image), information on the additionally selectively labeled first image, the first image, and the first image.
  • Other machine learning or other artificial intelligence/other deep learning
  • a second image corresponding to the first image is generated based on the intelligence result/other deep learning result.
  • the second image may be an image related to the movement of an avatar, item, or robot generated based on the first image, or an image in which the first image is updated.
  • the server 200 provides a classification value for the generated first image (or a classification value for the first image), information on the additionally selectively labeled first image, the first image, and the first image.
  • Other machine learning or other artificial intelligence/other deep learning
  • a second image related to the first image is generated based on the learning result (or other artificial intelligence result/other deep learning result).
  • the server 200 transmits (or provides) the generated second image to the terminal 100.
  • the second derivation and/or inference algorithm 1504 is as follows.
  • the predicted value of the first GAN and/or GNN prediction model 1508 becomes the second hierarchical cluster 1507 through the second hierarchical labeling 1220.
  • the data of the second hierarchical cluster 1507 is subjected to a second selective labeling 1208 to derive and/or infer a second classification model 1209, and the classified second attribute 1226 and the second target attribute are the second selective labeling 1208.
  • a second selective labeling 1208 Used for derivation and/or inference of GAN and/or GNN prediction model 1509.
  • the derivation and/or inference of the algorithm is repeated below.
  • the first GAN and/or GNN prediction model 1508 is the first GNN regression model type 1 (1204) and the first GNN regression model type 2 (1205), or the first association rule type 1 (1214) and the first association rule 2. My older brother is (1215).
  • the second GAN and/or GNN prediction model 1509 is a second selective labeling 1208 of a second hierarchical cluster 1507 of the first image information 1503 based on the first basic image information 1501, and a second selective labeling 1208. 2 This is a model derived and/or inferred by the second attribute (1226) and the second target attribute (1227) classified in the classification model (1209).
  • the second hierarchical cluster 1507 is a cluster of the second attribute 1226 and the second target attribute 1227.
  • the first attribute 1224 and the first target attribute 1225 based on the second basic image information 1505 are also used for derivation and/or inference of the second GAN and/or GNN prediction model 1509.
  • first image information and second basic image information are learned as a single model, and second image information 1505 is generated for each cluster.
  • the first target attribute 1225 is labeled and learned as a single model.
  • the model that predicts video information that is the result of a good operation is the first GNN regression model type 2 (1205) or the first association rule type 2 (1215).
  • 'First GNN Regression Model Type 2 1205' uses association rules.
  • video information (target attributes) including object patterns and physical attribute values are predicted from digital unit still image information (attributes) belonging to a specific group using association rules.
  • the GNN regression model type 2 is divided into a method using a backward association rule, a method using a forward association rule, and a method using a bidirectional association rule.
  • the second basic image information 1505 and the first image information 1503 are learned as the same model (single model).
  • the first image information 1503 is labeling data of the first basic image information 1501.
  • the second basic image information 1505 and the first image information 1503, which is a predicted value of the first derivation and/or inference algorithm, may have different strengths and weaknesses in terms of accuracy or sophistication. and/or is used as training data for the inference algorithm 1504.
  • the primary labeled first image information 1503 is secondary labeled by labeling, and this process is continuously repeated. This process is repeated with past labeled data (first image information, 1503) and other new data (second basic image information, 1505), and once learned data and/or similar label values are also learned at each repetition ( As it continues to appear in epochs, it requires a process of going through several experiments. Each epoch, the total number of accumulated unit labels (batch size) is divided into learning operation units (mini batch size) and various experiments are performed. In this process, the label values of the collective intelligence are selected and averaged. reflected in the model.
  • the first derivation and/or inference algorithm 1502 the second derivation and/or inference algorithm 1504,... ' is the induction and/or inference algorithm 1200 of FIG. 12, and the entire algorithm is expressed as the sum of partial algorithms.
  • a digital cadaver can be easily produced and initialized through 3D printing simulation in virtual space, and its use is performed in a virtual surgery audition game to relieve the constraints of virtual space.
  • the initial model of artificial intelligence is created by clustering and patterning surgical patterns collected through actual medical institutions and virtual surgery auditions. The degree of sophistication and success of the surgery is separately extracted from the patterns of verified specialists and supervised learning is performed.
  • the surgical medical artificial intelligence for each surgery initially modeled in the above manner performs virtual surgery (including, for example, procedures, treatments, etc.) on digital cadaver and artificial cadaver using a VR simulator. And it is gamified in a way that rewards doctors for labeling virtual surgery information performed by medical artificial intelligence. Medical artificial intelligence surgery labeling is elaborated by a doctor directly performing surgery in a virtual space or by editing and correcting the surgery performed by learned artificial intelligence. Reinforcement of this labeling behavior is gamified through rewards.
  • the sliding window is as follows. For video information, the unit of each window size is classified. Assuming that a total of 50 seconds of video is divided into 5 parts of 10 seconds each in the above method, if input is received in the order of A, B, Z, A, B, the association rule predicts that the next one is Z.
  • well-known deep learning algorithms such as RNN and LSTM can expand the forward direction to the reverse direction and bidirectional direction and seek additional performance features through a modified algorithm called bidirectional LSTM.
  • the proposed digital unit is also Just like in both directions, it can be expanded in both directions and in the reverse direction.
  • the proposed digital unit differs from RNN and LSTM in that it combines complex input features.
  • Video scene frames are clustered into characteristic patterns and can be clustered into A motion, B motion, and C motion shapes. Surgical movements and/or special movements of specific characters in the game can all be related back to a series of ordered patterns of learned movement clusters (A, B, C, ).
  • the pattern when sequential correlation patterns such as A ⁇ B ⁇ D, A ⁇ B ⁇ F are frequently observed with high order correlation in the learning data, the pattern is learned along with the sequence. do. Specific repetitive movements can be learned and reproduced as sequential related patterns in video clusters. Reproduction here means that when some of the patterns in the previous part are input, it is possible to infer by association rules which group's operation pattern the pattern to follow is.
  • the first GNN regression model predicts output data (trace and result), which is still image information, using GNN regression model type 1, and the vector product of the point cloud that is the cause for the output data (trace and result) is reversed. This is the predicted value of type 2 (1205).
  • the GNN regression model type 1 presents random predicted values (result values) and/or still image information, the GNN regression model type 2 Returns the vector product (causal value) of the cloud.
  • association rule inference In order to find meaningful relationships between result values for association rule inference, a data set of result values and a set of transactions that return the vector product (causal value) of the point cloud are constructed. Association rules have antecedents and successors, and are included in the set of result values and cause values, respectively. This is obtained as a result of association rule inference, and because the vector product is information with complexity, many association rules exist. do. Evaluation criteria are needed to find meaningful association rules. Evaluation scales include support, reliability, and improvement. In the association rule algorithm, each set of result values and cause values means a cluster of still image information and a cluster of video information in digital unit 4 and digital unit 5.
  • the server 200 returns the division point of the first image information and the second image information (including, for example, still image information, label values of still image information, etc.) to the user (for still image information the user's viewing), and the user performs time-series division selective labeling or body part-specific selective labeling on the return value (segmentation point).
  • time series division selective labeling or labeling by body part digital unit 3, digital unit 4, or digital unit 5 is created.
  • the image information is first image information 1503 or second image information 1506, and the second selective labeling 1208 or third selective labeling information receiving step includes time series division selective labeling 1701 of FIG. 17. do.
  • the image information is a repeated prediction value of the GAN and/or GNN prediction model 1605, and is '1st, 2nd, 3rd,... 'Video information'.
  • the second layer labeling 1220 or third layer labeling information including time series division selection labeling is related to the hierarchical cluster of FIG. 8 or FIG. 10.
  • the time series division selective labeling (1701) is included in the second selective labeling (1208) or the third selective labeling and is executed, and the second selective labeling (1208) Alternatively, it may be performed before or after the third selective labeling.
  • the second hierarchical cluster 1507 or the third hierarchical cluster is processed (or computerized) based on digital unit 3 or digital unit 4 of FIG. 8 or 10.
  • Figure 8 shows a hierarchical cluster 800 processed based on digital unit 3
  • Figure 10 shows a hierarchical cluster 1000 processed based on digital unit 4.
  • the user performs the time series division selection labeling 1701 of FIG. 17 with reference to the label classification, and then derives and/or infers the second classification model 1209.
  • the user selects it through the ACCEPT button or REJECT button.
  • the classification model reclassifies the labeled information, the 'GNN regression model or association rule (including deep learning)' returns a collective intelligence predicted value, and the user repeats the time series division selection labeling (1701) in Figure 17. Perform.
  • the user who refers to the label classification enters the label value through the app execution result screen (or view screen) of the terminal 100.
  • the time is displayed on the timeline in the play bar of the app execution result screen (or view screen) of the terminal 100.
  • Digital unit 3 (1705) and digital unit 4 (1706) used in the derivation and/or inference algorithm 1200 of FIG. 12 are the segmented rectangular parallelepipeds 301 of FIG. 3.
  • the attribute is still image information (403) at the end of the kth step of the segmented motion video of an avatar, human, robot, etc., and is a square marked in black in Figure 4.
  • still image information at the end of the nth step of the divided motion video also corresponds to an attribute and is the last black square in FIG. 4.
  • the attribute is still image information 503 at the end of the Lth stage of a segmented motion video of an avatar, human, robot, etc., and is the black square in FIG. 5.
  • still image information at the end of the (k, L)th step of the divided motion video also corresponds to an attribute, and is the last black square in FIGS. 4 and 5.
  • the still image information at the start is also an attribute, and the sum of the video information, which is a target attribute, becomes digital unit 3 or digital unit 4.
  • Figure 8 or Figure 10 is attached when the stages of the video are divided by the variable value entered in the input window of the app execution result screen (or view screen) of Figure 7 to the terminal 100.
  • This is a schematic diagram of hierarchical clustering created by label values.
  • the time series division selection labeling 1701 of FIG. 17 divides the video based on 'data unit 3 (1703) or data unit 4 (1704)' and 'digital unit 3 (1705) or digital unit 4 (1706)'.
  • digital unit 3 (1705) or digital unit 4 (1706) divides a video by combining time series division selective labeling (1701) and data sorting.
  • the user selects or rejects the order of the divided videos by attaching an ACCEPT label or REJECT label to the video or label value indicating the order of the videos.
  • Digital unit 4 is motion video information divided by time series division selection labeling (1701), which divides the motion of an avatar, human, robot, etc. into characteristic detailed motions of about 0.5 to 3 seconds by referring to the label classification. am. Digital Unit 5 allows for more granular video segmentation than Digital Unit 4.
  • Digital unit 3 is motion video information divided by time series division selective labeling (1701), which divides the motions of avatars, humans, robots, etc. into characteristic motions of about 3 seconds to tens of seconds by referring to the label classification. .
  • the data unit described in the embodiment of the present invention is a unit of a complex feature vector generated by the user, and the digital unit is a unit of a complex feature vector generated through the interaction between the user and artificial intelligence.
  • the label classification that classifies the movements of avatars, humans, robots, etc. into characteristic detailed movements of about 0.5 to 3 seconds is shown in [Table 5] or [Table 10].
  • data unit 3 and digital unit 3 may be units of video information divided into units of several seconds to tens of seconds.
  • quantum cloud computing devices with more than 3,000 qubits are commercialized and computing power is significantly improved compared to now, data unit 3 and digital unit 3 will be used to generate and output image information.
  • Digital unit 3 (1705) is the sum of the attribute (still image information) and target attribute (video information) processed in the same manner as data unit 3 (1703).
  • Digital unit 4 (1906) is the sum of the attribute (still image information) and target attribute (video information) processed in the same manner as data unit 4 (1904).
  • multiple users (such as air force cadets and/or fighter pilots) follow and label approximately one minute of the fighter jet piloting scene from the movie 'Top Gun' using a virtual fighter simulator (VEHICLE VR simulator). Proceed to obtain data sets for each data unit and digital unit used in the induction and/or inference algorithm of FIG. 12. Since fighter jet control has its own characteristic movements for each detailed piloting technique, when multiple users perform similar virtual flights, the entire video is divided into short videos of about 1 to 2 seconds.
  • VEHICLE VR simulator virtual fighter simulator
  • a number of users use a VR treadmill to trigger and label an electric controller-type weapon during about a minute of a battle scene in the movie 'Saving Private Ryan.'
  • the movements of infantry or engineers in movies can also be divided into short videos of about 1 to 2 seconds.
  • the time series division method of digital unit 3 (1905) is as follows.
  • a 'GNN regression model'' returns still image information and the division point and label values (s1, s2, s3, k) to platform users (doctors, dentists, etc.). The user performs time series division selection labeling (1701) on the return value.
  • the following [Table 12] illustrates a 30-second video showing the removal of maxillary central incisor laminate No. 11 (dental) by dividing it into 10 steps and dividing the 30 seconds at intervals of about 2 to 4 seconds. do.
  • the video can be divided into 4 digital units through the user's time series division selection labeling (1701).
  • a pre-made tooth removal index is placed in the mouth and teeth. video, etc. 2
  • the dentist visually checks the index located in the mouth and teeth and measures the amount of preparation. video, etc. 3
  • the dentist determines the amount of removal at his or her own discretion, checks the depth gage bur (a tooth removal handpiece bur, blade that indicates the depth to be removed on the tooth) of the dental handpiece, and installs it on the handpiece. video, etc. 4
  • the estimated removal depth of one third of the cervical area is removed with a depth gage bur.
  • video, etc. 5 The estimated cutting depth of the central third of the tooth is prepared with a depth gage bur.
  • the dentist attaches the ACCEPT label or REJECT label to the artificial intelligence return and performs time series division selective labeling for the division point (still image information).
  • the classification model reclassifies the labeled information, and the 'GNN regression model' returns a more collective intelligence segmentation point (still image information) and label value.
  • the dentist selects with the ACCEPT button or REJECT button. If the dentist performs labeling in the above manner, the GNN regression model that divides the video information and returns still image information returns the still image, and the induction and/or inference algorithm 1200 of FIG. 12 informs the dentist of the division point ( attribute value) and label value are returned.
  • the classification model reclassifies the labeled information and uses the 'GNN regression ‘Model Type 1’ returns a more collective intelligence segmentation point (still image information) and label value.
  • digital unit 4 (1906) which is sufficiently collectively intelligent, is created.
  • the image information is first image information 1503 or second image information 1506, and the second selective labeling 1208 and third selective labeling information receiving steps include selective labeling 1702 for each body part.
  • the image information is a repeated prediction value of the GAN and/or GNN prediction model (1605) and is '1st, 2, 3,... 'Video information'.
  • the second hierarchical labeling 1220 or third hierarchical labeling information containing selective labeling information for each body part becomes a hierarchical cluster.
  • selective labeling for each body part (1702) may be included and executed in the second selective labeling (1208) or may be executed before or after the second selective labeling (1208).
  • the second hierarchical cluster 1507 or the third hierarchical cluster is a computerized cluster based on digital unit 5.
  • Digital unit 5 (1707) is the sum of the attribute (still image information) and target attribute (video information) processed in the same manner as digital unit 4 (1706).
  • Data unit 3 (1703) or data unit 4 (1704) or digital unit 3 (1705) or digital unit 4 (1706) is processed as 'digital unit 5 (1707)' by selective labeling for each body part (1702).
  • labeling to change the order of actions in the actual video by attaching a label to determine the order of each body part is defined as 'selection by body part'.
  • preprocessing operations (delete, addition, etc.) according to video data sorting can be selected or rejected by attaching an ACCEPT label or REJECT label.
  • the user selectively labels the first and second images (or image information) by body part (1702) by referring to the label classification, and then derives and/or infers the second and third classification models.
  • the attribute is still image information at the end of the fth stage of a segmented motion video of an avatar, human, robot, etc., and is the black square in FIG. 6.
  • still image information at the end of the fth step of the segmented motion video also corresponds to an attribute and is the last black square in FIG. 6.
  • Figure 11 shows K6 clusters based on digital unit 5 (1707).
  • Digital unit 5 (1707) used in the derivation and/or inference algorithm 1200 of FIG. 12 is the segmented cuboid 301 of FIG. 3.
  • the start still image information is also an attribute, and the sum of the video information, which is a target attribute, becomes digital unit 5.
  • Figure 11 shows the label value attached when the stages of the video are divided by the variable value (label value) entered in the input window of the app execution result screen (or view screen) of the terminal 100.
  • This is a schematic diagram of hierarchical clustering created by .
  • Motion videos of avatars, humans, robots, etc. are divided into digital units of 5 by 'selective labeling by body part (1702)'.
  • the order of the segmented videos is specified through labeling that specifies the detailed order of body parts such as the central part of the maxillary central incisor teeth, the incisal part, and the cervical region, and a label classification according to the labeling order is created. Additionally, video information is sorted in the order of labeling above. Video and still image information included in the same specific cluster (in one embodiment of the present invention, tooth 11 is deleted without using an index) but with different tooth removal order (cervical, central, incisal deletion order) Through preprocessing tasks such as order labeling of body parts and sorting of video information, the error values of the classification model are reduced and the accuracy of the classification model is improved.
  • a dentist removes teeth in the order of the cervical region, central region, and incisal region
  • a dentist removes teeth in the order of the central region, incisal region, and cervical region
  • all teeth are removed in the same order as the cervical region, central region, and incisal region.
  • the video information is sorted and divided into clusters in this order.
  • the dentist uses the mouse arrow to point to a specific part of the body or thinks of a specific part of the body, artificial intelligence returns the boundaries and boundaries of the area the user pointed to or thought about with the mouse through object recognition. . Additionally, artificial intelligence returns sorted information about the treatment sequence to the user.
  • the user judges whether 'the part he intended or thought was right or wrong' and/or 'the order he intended was right or wrong' and/or 'the label value for the order was right or wrong'.
  • ACCEPT labels or REJECT labels are attached and sorted to moving images and still images, etc., based solely on judgment using the brain computer interface. The above labeling is repeated and applied to the derivation and/or inference algorithm 1200 of FIG. 12.
  • each tooth has a dental formula (tooth number).
  • the maxillary right central incisor is number 11.
  • all dentists recommend that they proceed in the order of certain tooth numbers (dental formulas) when removing teeth for laminate treatment. Therefore, the above video information is sorted in a certain order (dental formula) and preprocessing is also performed on deleted or added video information.
  • the video is divided by using selective labeling 1702 and alignment for each body part. Divide into subdivisions.
  • Son Heung-min made an in-step dribble 3-step long motion
  • the soccer ball momentarily touched Son Heung-min's feet in the order of toe touch, 1-step run, ankle touch, and 2-step run in the preset label categories. If the user touches and runs in the order of ankle touch, 1-step run, toe touch, and 2-step run, the brain computer interface is used to selectively label each body part ( 1702).
  • Blackpink Jennie's front and back wave motion is the left arm. Lift or move back and forth in the following order: lifting the right arm, moving the chest, moving the stomach, moving the pelvis, and moving the legs. If a specific user moves the legs, moves the pelvis, moves the abdomen, moves the chest, raises the right arm, and raises the left arm in that order, selective labeling (1902) for each body part is performed using the brain computer interface. . Sort a specific user's motion video in the order of Blackpink Jennie's motions.
  • a total of 3 minutes and 14 seconds of video can be time-series divided into approximately 200 videos of approximately 1 to 2 seconds in length.
  • Dance movements are a series of combinations of movements of the head, hands, feet, and torso.
  • Time series division selective labeling (1701) may be performed without selective labeling (1702) for each body part.
  • the server 200 performs the preceding selective labeling process, classification model inference process, prediction model inference process, and generated first data on a plurality of raw data provided from a plurality of terminals 100 in relation to the specific topic.
  • a collective intelligence product is created in relation to the specific topic (or in relation to the video to be compared related to the specific topic). 2 Create (or update) a video.
  • the server 200 provides the last updated (or most recently created) second video to a plurality of terminals 100 that have provided raw data related to the specific topic in real time or at the request of a specific terminal 100. It may be provided depending on.
  • all terminals 100 or specific terminals 100 that have provided raw data related to the specific topic to the server 200 can be provided with the latest collective intelligence second video related to the specific topic. there is.
  • '1st, 2nd, 3rd,...' repeatedly generated by the GAN and/or GNN prediction model 1605.
  • 'Image information' is repeatedly learned using basic image information (1601) and a single model.
  • Hierarchical labeling and selection labeling (1604) are performed repeatedly.
  • a classification model is iteratively inferred, and a GAN and/or GNN prediction model 1605 is iteratively derived and/or inferred.
  • time series segmentation selective labeling (1701) and/or body part-specific selective labeling (1702) are repeatedly performed.
  • the server 200 works in conjunction with the terminal 100 to provide real people (or real people), virtual avatars or items output (or being managed) by the terminal 100 in relation to a specific topic.
  • Collects motion-related video or motion-related video related to at least one of humans, avatars, and items), meta information related to the motion-related video, etc.
  • the specific topic includes medical practice (including, for example, procedures, surgery, etc.), dance, sports (including, for example, soccer, basketball, table tennis, etc.), games, e-sports, etc. .
  • the motion-related video (or basic video information/raw data) related to the human is obtained (or It may be a video (filmed).
  • the video related to the movement of the avatar and/or item may be an image generated through a selective labeling process, classification model inference process, prediction model inference process, etc. based on arbitrary raw data related to the specific topic.
  • the visual data 1801 of the avatar, item, and human movement in FIG. 18 includes visual data of the movement of a vehicle operated by an avatar or a human.
  • the visual data 1801 represents raw data about the movements of a user (or human) in the real world.
  • the server 200 uses the collected motion-related images (or the collected motion-related images of real humans, virtual avatars, or items) in order to implement the collected motion-related images into the movements of an actual robot. Reconstructed into robot motion video.
  • the robot is a robot arm manufactured in a form that can operate in the tooth removal VR simulator using the visual data of the tooth removal VR simulator, and a form that can operate in the surgery VR simulator using the visual data of the surgery VR simulator. It includes a manufactured robot arm, a robot manufactured in VEHICLE form using visual data from the VEHICLE VR simulator, and a humanoid robot that can operate on a VR treadmill.
  • the server 200 uses the collected motion-related video, meta information related to the motion-related video, etc. to apply the motion of the real human, virtual avatar, or item to the actual robot.
  • Coordinate information related to real humans, virtual avatars, items, etc. included in is converted into robot coordinate information to be applied to the actual robot, and the corresponding motion-related image is reconstructed into the robot motion image.
  • the server 200 includes the robot motion image (or reconstructed robot motion image), meta information about the robot motion image, the collected motion-related video, meta information related to the motion-related video, and the server 200.
  • the comparison target images searched in relation to the collected motion-related images (or robot motion images), meta information related to the comparison target images, etc. are stored in a plurality of comparison target images pre-registered in the server 200. It is transmitted to a specific terminal 100 selected from among the terminals 100.
  • the specific terminal 100 includes the robot motion image transmitted from the server 200, meta information about the robot motion image, the motion-related video, meta information related to the motion-related video, and the motion-related video ( or robot motion image), meta information related to the comparison target image, etc. are received.
  • Robotics programming deduced from a collective intelligence model that is advanced by evaluating movement and allowing the user to select robotics labeling (1810) and operates (1806) on the server 200 is defined as 'collective intelligence robotics (1803)'.
  • Selective labeling (basic selective labeling) is performed on the basic robotics image information before the first robotics selective labeling to infer and/or derive the first collective intelligence robotics (1803).
  • Hierarchical labeling and/or selective labeling can be performed on basic robotics image information in the same manner as in FIG. 12.
  • the visual data output from the app execution result screen (or view screen) of the terminal 100 is provided by the terminal 100 in robot virtual reality, augmented reality, mixed reality, extended reality, etc. This is the operation screen.
  • the robotics image information 1813 corresponds to the properties and target properties of FIGS. 3 to 6 and is visual data generated by the collective intelligence robotics 1803.
  • the first collective intelligence robotics 1902 is programmed by inputting the first basic robotics image information 1901, and generates the first robotics image information 1911.
  • the basic robotics image information 1802 of FIG. 18 is motion data 1801 of avatars, humans, robots, etc. secured from the terminal 100 in a state in which the metaverse user's behavior information and location information are synchronized to match the coordinates of the virtual environment. ) is reconstructed into robot motion data (image information) in the server 200.
  • the visual data 1801 of the avatar's motion secured from the terminal 100 is the predicted value of the GAN and/or GNN prediction model 1605 of FIG. 16, and '1st, 2, 3,...' in FIG. 15. 'Image information', and is the predicted value of the GAN and/or GNN prediction model (1605) of the metaverse world that is repeated below.
  • the visual data 1801 of human (or user) motion refers to raw data about the user's motion in the real world.
  • Visual data of human (or user) motion (1801) is reconstructed from robot motion data (image information) in the server 200, and the robot motion image information reconstructed from the visual data of human motion is basic robotics image information (1802). included in
  • the visual data output from the app execution result screen (or view screen) of the terminal 100 is an operation screen of the robot 1807 provided by the terminal 100, such as virtual reality, augmented reality, It can be extended reality, mixed reality, etc.
  • the actual distance coordinate system based on the robot size is estimated, and the angle for each robot joint is extracted and controlled.
  • a robot in the form of a robot arm, a humanoid, or a VEHICLE is manufactured using visual data from a tooth removal VR simulator, a surgery VR simulator, a VEHICLE VR simulator, and a VR treadmill.
  • the GAN and/or GNN robotics prediction model included in the collective intelligence robotics 1803 includes an interface API process, and the prediction model displays robotics image information 1813 on the app execution result screen (or view screen) of the terminal 100. outputs.
  • the GAN and/or GNN robotics prediction model is a model of visual data regarding robotics operation in the same manner as the GAN and/or GNN prediction model (1605).
  • Robotics image information (1813) is '1st, 2nd, 3rd,...' repeatedly output and/or generated by GAN and/or GNN robotics prediction model. 'Robotics video information'. Robotics selective labeling (1810) is repeatedly performed on the image information.
  • the visual data output from the collective intelligence robotics (1803) is transmitted to the robot simulation engine (1804), operates the robot (1806) through API communication (1805) with the robot, and goes through the graphics engine (1807) to the display device (1806). 1808) and is output through the user interface 1809.
  • programming of robotics in the server 200 is as follows.
  • the vision sensor is interfaced with ROS using ROS (Robot Operating System), OpenCV (Open Source Computer Vision), and PCL (Point Cloud Library), and programmed using libraries such as OpenCV and PCL.
  • ROS Robot Operating System
  • OpenCV Open Source Computer Vision
  • PCL Point Cloud Library
  • the terminal 100 creates a 3D model of the patient's lesion and displays the 3D patient coordinate system and the patient placed on the operating table based on the location and status of the lesion and image information. Match the coordinate systems so that they are aligned.
  • dentist users are provided with a service that allows them to substitute items such as surgical equipment, medical equipment, and materials into the face and body of a digital cadaver (patient's avatar) and create and/or print them in various combinations. can be provided.
  • the first robotics image information 1911 of FIG. 19 is the second attribute and the second target attribute of FIGS. 4 to 6.
  • Basic robotics image information 1802 is data belonging to a specific cluster, one of the clusters in FIGS. 7 to 11.
  • 'Robotics image information (1813) also becomes data belonging to the same specific group.
  • the server 200 performs selective labeling on the robot motion image.
  • the selective labeling refers to a labeling method that sets (or attaches) a label (or label value) for the presence or absence of an error (or abnormality) at a specific point in time (or a specific section) of the robot motion image.
  • a preset default label value for example, an approval label
  • the server 200 works in conjunction with the terminal 100 and responds to the robot operation image displayed on the terminal 100 according to the user input (or user selection/touch/control) of the terminal 100.
  • the server 200 may include one or more selection label values at one or more feature points (or specific sections) related to the robot motion image transmitted from the terminal 100, meta information of the robot motion image, and the terminal ( 100) receives identification information, etc.
  • the terminal 100 mainly describes setting (or receiving/input) one or more selection label values at one or more specific points in time (or specific sections) among the corresponding robot operation images according to user input.
  • the server 200 performs an image analysis function on the robot motion image and the comparison target image related to the robot motion image, and based on the result of performing the video analysis function, the server 200 performs an image analysis function on the robot motion image.
  • one or more selection label values may be automatically set at one or more specific points in time (or specific sections).
  • the server 200 sets one or more selection label values at one or more specific points in time (or specific sections) for the corresponding robot motion image
  • the server 200 sets one or more selection label values related to the set robot motion image.
  • Information on one or more selection label values at a specific point in time (or a specific section) is provided to the terminal 100, and at least one specific point in time related to the robot motion image set in the server 200 is provided to the terminal 100. (or a specific section) displays information about one or more selection label values, and final approval is given to one or more selection label values at one or more specific points in time (or a specific section) according to user input of the terminal 100. It can also be configured to determine whether or not.
  • the server 200 before or after performing selective labeling on the robot motion image, the server 200 performs hierarchical labeling on the robot motion image in conjunction with the terminal 100, Selective labeling can also be performed on the relevant robot motion images before and after performing hierarchical labeling.
  • the hierarchical labeling (or hierarchical labeling) is input feature engineering by the user, attaching a label indicating the characteristics of the robot motion image, and dividing the robot motion image into a plurality of sub-robot motion images according to the characteristics (or Classification) labeling method.
  • the server 200 in conjunction with the terminal 100, refers to (or based on) a plurality of label classifications preset in relation to the specific topic for the robot operation image displayed on the terminal 100. ), according to the user input (or user selection/touch/control) of the corresponding terminal 100, set (or receive/receive/ input).
  • the server 200 divides the robot motion image into a plurality of sub-robot motion images.
  • the terminal 100 mainly sets (or receives/inputs) one or more layer label values at one or more specific points in the robot operation video (or other specific sections) according to user input.
  • the server 200 performs an image analysis function on the corresponding robot motion image and the comparison target image related to the robot motion image, and operates the corresponding robot based on the result of performing the video analysis function.
  • One or more layer label values may be automatically set at one or more specific points in time (or other specific sections) for an image.
  • the server 200 sets one or more hierarchical label values at one or more specific points in time (or other specific sections) for the corresponding robot motion image
  • the server 200 sets the related robot motion image.
  • Information on one or more layer label values at one or more specific points in time (or other specific sections) is provided to the terminal 100, and the terminal 100 relates to the corresponding robot motion image set in the server 200.
  • First robotics selection labeling (1903) information is received for the first robotics image information (1911), which is the image information.
  • the derivation and/or inference method of the first robotics classification model (1904) is the same as that of the second classification model in FIG. 12.
  • First robotics selection labeling (1903) is performed on the first robotics image information (1911), which is the output of the first collective intelligence robotics (1902).
  • the classification model that classifies the visual data obtained by performing the first robotics selective labeling (1903) is defined as the 'first robotics classification model (1904)'. Below, the robotics classification model (1911) is repeated.
  • Robotics selective labeling 1910 is the same as the selective labeling 1604 of FIG. 16.
  • the user performs the robotics selection labeling 1810 of FIG. 18 for the robot's operation displayed on the user interface 1809 of FIG. 18 in the form of an app execution result screen (or view screen) of the terminal 100.
  • the robot's movements are robotics image information (1813).
  • the early model robots of ‘Collective Intelligence Robotics (1803)’ may have many errors in their movements. For the somewhat inaccurate movements of the robot (1809), robotics developers perform supervised learning through robotics selective labeling (1810) and classification. Avatars and items generated and output from the virtual simulation, as well as the spatial environment and narrative, are provided to the collective intelligence robotics (1803), and supervised learning is performed on the artificial intelligence by allowing the user to perform robotics selection labeling (1810).
  • the induction and/or inference algorithm 1200 of FIG. 12 advances collective intelligence robotics 1803.
  • the server 200 performs artificial intelligence-based machine learning based on information about the selectively labeled robot motion image, and generates a classification value for the robot motion image based on the machine learning results (or Confirm).
  • the classification value for the corresponding robot motion image (or classification value of the corresponding robot motion image/classification value of the selectively labeled robot motion image/classification value of the hierarchically labeled robot motion image) is a selective labeling value, a hierarchical labeling value, etc. It may be a value classified by the same item.
  • the server 200 performs machine learning (or artificial intelligence/deep learning) using information about the selectively labeled robot motion image as input to a preset classification model, and produces machine learning results (or artificial intelligence Based on the results/deep learning results), a classification value for the robot motion image is generated (or confirmed).
  • machine learning or artificial intelligence/deep learning
  • the image information output to the user interface 1809 is labeled in the robotics selection labeling 1810 and classified through the robotics classification model 1811.
  • the classified visual data is labeled robotics label information (1812) transmitted to collective intelligence robotics (1803).
  • robotics selective labeling (1810) includes hierarchical labeling, time-series division selective labeling (1701), and body part-specific selective labeling (1702) in the same manner as image processing in the metaverse.
  • Information classified by the first robotics classification model (1904) is first robotics label information (1905).
  • a number of users who are experts in each field of virtual simulation games perform robotics selection labeling (1810) through the interface (1809) of the terminal (100), and when sufficient visual data is secured, the VR simulator An artificial intelligence robot that operates is produced.
  • the initial model of Collective Intelligence Robotics (1803) which operates a VR simulator using robot joints, arms, and legs, was developed, the capabilities of the Collective Intelligence Robotics (1803) model are advanced through supervised learning through users' labeling.
  • an initial model of collective intelligence robotics (1803) that can operate in the real world can be developed, and in this case, collective intelligence robotics (1803) is advanced through supervised learning through robotics selection labeling (1810) by users and experts. do.
  • the collective intelligence algorithm that is evaluated and refined by the user advances artificial intelligence reasoning to the level of performing automated surgery in virtual surgery simulation and tooth removal simulation without error or error. Advance your intelligence.
  • the automation ability of the artificial intelligence model is advanced through supervised learning through doctors' robotics selection labeling (1810).
  • an initial artificial intelligence model that can perform automated procedures and surgeries in actual medical settings using a robotic arm can be developed.
  • the automation ability of the initial artificial intelligence model can be improved through doctors' robotics selection labeling (1810).
  • Advanced through supervised learning is
  • a humanoid-type robot using a robot head, robot arm, robot leg, robot body, robot joints, etc. is manufactured, and vehicle robots such as autonomous vehicles, drones, and airplanes and artificial intelligence dentists are manufactured.
  • vehicle robots such as autonomous vehicles, drones, and airplanes and artificial intelligence dentists are manufactured.
  • the server 200 provides a classification value for the generated robot motion image (or a classification value for the robot motion image), information on the selectively labeled robot motion image, a corresponding robot motion image, and a corresponding robot motion image.
  • Machine learning or artificial intelligence/deep learning is performed using meta information related to the comparison target image, meta information related to the comparison target image, etc. as input values, and machine learning results (or artificial intelligence results/deep learning results) )
  • a first robotics image corresponding to the robot motion image is generated.
  • the first robotics image may be an image related to the motion of an avatar, item, or robot generated based on the robot motion image, or an image in which the robot motion image is updated.
  • the server 200 provides a classification value for the generated robot motion image (or a classification value for the robot motion image), information on the selectively labeled robot motion image, a corresponding robot motion image, and a corresponding robot motion image.
  • Machine learning or artificial intelligence/deep learning is performed using meta information related to the comparison target image, meta information related to the comparison target image, etc. as input values of a preset prediction model, and machine learning results (or artificial intelligence Based on the results/deep learning results), a first robotics image related to the robot motion image is generated.
  • the server 200 transmits (or provides) the generated first robotics image to the terminal 100.
  • the second robotics image information (1912) is an image that is the predicted value of the second collective intelligence robotics (1906), and is the predicted value of a prediction model advanced through repeated application of the repeated induction and/or inference algorithm (1200) in the present invention. define.
  • the second robotics image information 1912 is the third attribute and third target attribute in FIGS. 4 to 6.
  • the first robotics label information (1905) classified by the first robotics classification model (1904) is input to the second collective intelligence robotics (1906), and the second basic robotics image information (1907) is also input to the second collective intelligence robotics (1906). ) is input into and programmed as a single model, and generates the second robotics image information (1912).
  • the server 200 performs additional selective labeling on the first robotics image.
  • the additional selective labeling (or additional selective labeling) sets a label (or label value) for the presence or absence of an error (or abnormality) at another specific time point (or another specific section) of the first robotics image ( or attached) indicates the labeling method.
  • a preset default label value (for example, an approval label) may be set at a point (or section) in the first robotics image for which a label (or label value) is not set according to the additional selective labeling.
  • the server 200 is linked with the terminal 100 and responds to the user input (or user selection/touch/control) of the terminal 100 with respect to the first robotics image displayed on the terminal 100. Accordingly, a label (or label value) at another specific point in time (or another specific section) of the first robotics image is set (or received/input).
  • the server 200 selects one or more additional selection label values and one or more time series divisions at one or more specific points in time (or another specific section) related to the first robotics image transmitted from the terminal 100.
  • a label value, a selection label value for one or more body parts, a label value for sorting the order of the plurality of sub-robotics images, identification information of the corresponding terminal 100, etc. are received.
  • the terminal 100 sets (or receives/inputs) one or more additional selection label values at one or more specific points in time (or another specific section) of the first robotics image according to user input.
  • the server 200 performs an image analysis function on the first robotics image and the comparison target image related to the first robotics image, and the result of performing the image analysis function Based on this, one or more additional selection label values may be automatically set at one or more specific points in time (or another specific section) for the first robotics image.
  • the server 200 sets one or more additional selection label values at one or more specific points in time (or another specific section) for the first robotics image
  • the server 200 sets the corresponding first robotics image.
  • 1 Information on one or more additional selection label values at one or more specific points in time (or another specific section) related to the robotics image is provided to the terminal 100, and the terminal 100 displays the server 200 Displays information about one or more additional selection label values at one or more specific points in time (or another specific section) related to the first robotics image set in, and displays one or more additional selection label values according to the user input of the terminal 100. It can also be configured to determine final approval for one or more additional selection label values at another specific point in time (or another specific section).
  • the server 200 links with the terminal 100 to add the one or more first robotics images as the target.
  • Hierarchical labeling may be performed, and additional selective labeling may be performed on the corresponding first robotics image before/after additional hierarchical labeling is performed.
  • the additional layer labeling (or additional layer labeling) is feature engineering input by the user, attaching a label (or label value) indicating the characteristics of the first robotics image, and dividing the first robotics image into a plurality of characters according to the characteristics. Indicates a labeling method for dividing (or classifying) sub-robotics images.
  • the server 200 in conjunction with the terminal 100, refers to (or based on) a plurality of label classifications preset in relation to the specific topic for the first robotics image displayed on the terminal 100. ), an additional label (or additional label value) at another specific point in time (or another specific section) of the first robotics video, according to the user input (or user selection/touch/control) of the terminal 100.
  • Set or receive/enter).
  • the server 200 divides the first robotics image into a plurality of sub-robotics images.
  • the terminal 100 creates one or more additional layer labels (or additional layer label values) at one or more specific points in the first robotics image (or another specific section) according to user input.
  • Setting or receiving/input
  • the server 200 performs an image analysis function for the first robotics image and the comparison target image related to the first robotics image, , Based on the results of performing the video analysis function, one or more additional layer label values may be automatically set at one or more specific points in time (or another specific section) for the first robotics image.
  • the server 200 sets one or more additional layer label values at one or more specific points in time (or another specific section) for the first robotics image
  • the server 200 sets the corresponding first robotics image.
  • 1 Information on one or more additional layer label values at one or more specific points in time (or another specific section) related to the robotics image is provided to the terminal 100, and the terminal 100 sends the server 200 Displays information about one or more additional layer label values at one or more specific points in time (or another specific section) related to the first robotics image set in, and displays one or more additional layer label values according to the user input of the corresponding terminal 100. It can also be configured to determine final approval for one or more additional layer label values at another specific point in time (or another specific section).
  • the second robotics image information (1912) is an image that is the predicted value of the second collective intelligence robotics (1906), and is the predicted value of a prediction model advanced through repeated application of the repeated induction and/or inference algorithm (1200) in the present invention. define.
  • the second robotics image information 1912 is the second attribute 1226 and the second target attribute 1227 in FIGS. 4 to 6.
  • the server 200 performs another artificial intelligence-based machine learning based on information about the first robotics image with the additional selection label, and classifies the first robotics image based on other machine learning results. Create (or check) a value.
  • the classification value for the first robotics image (or the classification value for the first robotics image) may be a value obtained by classifying additional selection labeling values, additional layer labeling values, etc. by the same item.
  • the server 200 performs other machine learning (or other artificial intelligence/other deep learning) by using the information about the first robotics image with the additional selection label as an input value of the preset classification model, and other Based on the machine learning results (or other artificial intelligence results/other deep learning results), a classification value for the first robotics image is generated (or confirmed).
  • the second robotics image information 1912 is labeled by the user using the second robotics selection labeling 1908 method, and the second robotics classification model 1909 is derived and/or inferred by the labeled data.
  • the classified second robotics label information (1910) is input to the third collective intelligence robotics. This is repeated below.
  • the first robotics label information (1905) and the second basic robotics image information (1907) are learned as a single model of the second collective intelligence robotics (1906).
  • the first collective intelligence robotics (1902) is programmed by inputting the first basic robotics image information (1901)
  • the second collective intelligence robotics is programmed by inputting the second basic robotics image information (1907) and the first robotics label information (1905).
  • Robotics (1906) is programmed, and is repeated below.
  • the server 200 provides a classification value for the generated first robotics image (or a classification value for the first robotics image), information on the additionally selectively labeled first robotics image, and the corresponding first robotics image.
  • perform other machine learning or other artificial intelligence/other deep learning
  • other machine learning or other artificial intelligence/other deep learning
  • a second robotics image corresponding to the first robotics image is generated.
  • the second robotics image may be an image related to the movement of an avatar, item, or robot generated based on the first robotics image, or an image in which the first robotics image is updated.
  • the server 200 provides a classification value for the generated first robotics image (or a classification value for the first robotics image), information on the additionally selectively labeled first robotics image, and the corresponding first robotics image.
  • Other machine learning or other artificial intelligence/other deep learning is performed using meta information related to the first robotics image, the comparison target image, and meta information related to the comparison target image as input values of the preset prediction model. and generate a second robotics image related to the first robotics image based on other machine learning results (or other artificial intelligence results/other deep learning results).
  • the server 200 transmits (or provides) the generated second robotics image to the terminal 100.
  • the second basic robotics image information 1907 is the output and/or generated data of the metaverse and the first robotics label information is the output and/or generated data of the first collective intelligence robotics 1902. (1905) may have different pros and cons in terms of accuracy or sophistication.
  • the two processes are different types of labeling processes, but in order for the model to accommodate only the advantages of both processes, a modified second basic robotics image of both labeling approaches is used.
  • the information 1907 and the first robotics label information 1905, which is output and/or generated data, are used as learning data for the same model (single model) rather than different models.
  • the first robotics label information (1905) which is the output and/or generated data proposed after being initially labeled by the first robotics selective labeling (1903) and the first robotics classification model (1904), is classified by the second robotics selective labeling (1908). Secondary labeling occurs, and this process is repeated continuously.
  • Past labeled data first robotics label information, 1905
  • second basic robotics image information, 1907 second basic robotics image information, 1907
  • once-learned data and/or similar label values are also learned every repetition (epoch). ), so it requires a process of multiple experiments.
  • Each epoch the total number of accumulated unit labels (batch size) is divided into learning operation units (mini batch size) and various experiments are performed.
  • the label value of the collective intelligence is selected and averaged. and is reflected in the model.
  • the robotics selective labeling (1810) of collective intelligence robotics (1803) is the same as the selective labeling (1604) of avatars, humans, robots, etc.
  • robotics selective labeling in the case of automatic surgery and dental surgery robots with a limited range of movement or combination, good and bad parts of image information are identified through robotics selective labeling (1810) without the need for hierarchical clustering. However, detailed labeling is performed. In the case of humanoid robots or vehicle robots with a high degree of freedom and/or reasoning (including, for example, dancing robots, soccer robots, bipedal robots, etc.), time series segmentation labeling (1701) in Figure 17 for hierarchical clustering. , After dividing the robotics image information into digital unit 3 (1705) and/or digital unit 4 (1706) and/or digital unit 5 (1707) through selective labeling for each body part (1702), robotics selective labeling (1810) ) is performed.
  • the server 200 performs the previous selective labeling process and classification model inference for motion-related images of a plurality of real humans, virtual avatars, or items collected from a plurality of terminals 100 in relation to the specific topic.
  • process, prediction model inference process, additional selective labeling process for the generated first robotics image, additional classification model inference process, and additional prediction model inference process are each repeated, and the corresponding specific Create (or update) a second robotics video with collective intelligence related to the topic.
  • the server 200 provides the last updated (or most recently created) second video to the plurality of terminals 100 that provide motion-related images of real humans, virtual avatars, or items related to the specific topic.
  • Robotics images may be provided in real time or upon request from a specific terminal 100.
  • ‘1st, 2, 3, ...’ are repeatedly output and/or generated by GAN and/or GNN robotics prediction models.
  • 'Robotics image information' (1813) is repeatedly learned as a single model with basic robotics image information (1802).
  • Robotics selection labeling (1810) is performed repeatedly.
  • a robotics classification model 1811 is iteratively derived and/or inferred, and a GAN and/or GNN robotics prediction model is iteratively derived and/or inferred.
  • GAN and/or GNN robotics prediction models are included in Collective Intelligence Robotics (1803).
  • hierarchical labeling, time-series division selective labeling (1701), and body part-specific selective labeling (1702) in the same manner as information processing of avatar motions are repeatedly performed.
  • the server 200 works in conjunction with a blockchain server (not shown) to create a first image, 2 NFTs (non-fungible tokens: non-fungible tokens) are issued (or issued) for the 1st robotics video, 2nd robotics video, etc.
  • 2 NFTs non-fungible tokens: non-fungible tokens
  • the NFT (or NFT content) issued by the server 200 is related to any digital art possessed by the owner who has provided the raw data, the avatar and/or the video related to the movement of the item, and the corresponding digital art It is content (or MR content/realistic content) created in response to art (including, for example, the first video, the second video, the first robotics video, the second robotics video, etc.), and is a digital addition to the original digital asset.
  • An address pointing to a file, a unique identification code (for example, including information about asset information, creator, owner, etc.), etc. may be inserted into the token.
  • the server 200 is one side of the screen of the terminal 100 on which the first image, the second image, the first robotics image, the second robotics image, etc. are displayed in relation to the issued NFT. Configure so that the marker is displayed together.
  • the server 200 Confirms the NFT corresponding to the selected marker, and displays information about the confirmed NFT (for example, including asset information, information about the creator, owner, etc.) on one side of the screen of the terminal 100 (or the first
  • the image, the second image, the first robotics image, the second robotics image, etc. may be configured to be displayed (in the form of a pop-up) on the display screen.
  • the terminal 100 may display information about the confirmed NFT in the form of virtual reality, augmented reality, mixed reality, extended reality, etc.
  • the server 200 provides a transaction function (or sales function/ownership transfer function) for NFTs related to the issued first image, the second image, the first robotics image, the second robotics image, etc. to provide.
  • a transaction function or sales function/ownership transfer function
  • the image information (including, for example, the first image, the second image, the first robotics image, the second robotics image, etc.) is image information to which an NFT has been granted, and the image information platform to which the NFT has been granted is provided.
  • the system is a circular structure (flywheel) in which users, participants, and companies create profits and make money while multiplying the fun factor.
  • a system for generating a virtual avatar and/or providing an output platform using GAN and/or GNN includes users, participants (influencers (2001) or individuals promoting their characters on SNS), It is a circular structure (flywheel) where companies (advertisers and/or manufacturers) create profits for each other, make money, and double the fun factor.
  • Image information granted with NFT is '1st, 2, 3,...' repeatedly output and generated by the GAN and/or GNN prediction model (1605). 'Video information'.
  • the GNN and/or GAN prediction model 1605 operates in the server 200 of FIG. 1.
  • GNN and/or GAN prediction model 1605 uses basic image information (first basic image information 1501, second basic image information 1505 in FIG. 15) provided by users and influencers (2001) to predict marketing platform (2003). ) to create or print NFT avatars and items. Companies and investors can own profile NFTs and product NFTs of influencers (2001) and use them for marketing and/or corporate promotion. Profiles (including, for example, videos, photos, etc.) are created avatars, and products are items.
  • deepfakes of users and influencers are used to advertise on a marketing platform (2003) and are programmed to automatically register in domestic and international NFT markets.
  • marketing platform 2003 refers to any platform capable of marketing.
  • NFT connects avatars and items as a medium for digital twin with owners, creators, advertisers, and physical products in the real world.
  • the server 200 separately objectsizes the human body and connects information such as gender, age, body type, Asian ethnicity, etc. with meta information. Items (products, etc.) are objectified separately and connected to meta information. At this time, each avatar ID is linked to the user ID, item ID, and NFT ID.
  • Various real-world value and product information can be included in the form of metadata and turned into NFT, which can be sold and traded with uniqueness guaranteed in the form of item NFT.
  • the platform ensures that ownership of the NFT can be used as a right to use real-world value, and the service usage history and stages are linked to the platform database, so that NFT meta information is updated and referenced.
  • the real-world value of owning an NFT includes the right to use a digital cadaver, which is the patient's avatar.
  • the server 200 of FIG. 1 can create products that are actually sold as items in the metaverse and provide instructions to purchase actual products in reality.
  • an influencer (2001) using the service of the present invention can promote his or her avatar or the service of the present invention on SNS on the network, and the server 200 can promote the service on the SNS on the network.
  • You can obtain promotional content uploaded to the channel.
  • the server 200 can analyze users introduced through SNS channels on the network, and settle promotional costs to be provided to SNS on the network based on the analyzed results.
  • the server 200 can generate and provide different links for each influencer 2001, and provide compensation to the influencer 2001 for users who come in through the link. Additionally, the server 200 may provide additional compensation to the influencer 2001 by analyzing the user's subscription status, item purchase amount, etc.
  • influencers 2001 include celebrities, actors, athletes, etc.
  • NFTs are also granted to each area including land, sea, and buildings within the metaverse, allowing it to perform the same role as a real estate register. Users trade each area using NFT.
  • each object in the metaverse game may be composed of complex elements such as pattern, color, material, and design
  • the server 200 may include brand, product ID, seller ID, creator ID, and advertisement. Meta information such as child ID, owner ID, etc. is linked and converted into NFT. Additionally, the server 200 separately objects hats, accessories, and clothes, and connects each object with meta information of the user, creator, unique ID, or representative object ID. At this time, each item ID may be linked to the NFT ID. In addition, the server 200 grants NFTs to items purchased by the user, such as accessories, and configures transactions based on them to be possible within the metaverse.
  • the server 200 provides dental, plastic surgery, and/or other store contents within the metaverse, and when the cost for the desired procedure or surgery and/or the cost for the item is paid, GAN and /Or change a certain part or all of the avatar and/or digital cadaver using GNN.
  • the server 200 issues an NFT to the digital cadaver and the user's avatar character in which purchased items (including, for example, surgical equipment, surgical instruments, surgical techniques, etc.) are synthesized. Users can receive NFTs for the digital cadaver and sell them to earn profit.
  • fun elements are provided by applying various combinations of items to digital cadavers through GAN and/or GNN, and uniqueness is provided by issuing NFTs for digital cadavers whose synthesis has been completed. , you can also earn profits through this.
  • the server 200 issues an NFT to an avatar composed of a purchased item. Users can receive NFTs for the avatar and sell them to earn profit. That is, according to an embodiment of the present invention, fun elements are provided by coordinating various combinations of items to the avatar through the GAN and/or GNN 1605, and uniqueness is provided by issuing NFTs to avatars for which synthesis has been completed. And you can also make a profit through this.
  • the server 200 grants NFTs to items purchased by the user, such as accessories, and configures transactions based on them to be possible within the metaverse.
  • the server 200 provides services such as trying on makeup, trying on clothes, receiving recommendations for makeup style and fashion style, inserting one's face into a celebrity's video, and checking the style.
  • the server 200 performs a labeling process (e.g. For example, label values according to user input in the selective labeling process, hierarchical labeling process, time series segmentation selective labeling process, body part-specific selective labeling process, etc.) (e.g., approval label corresponding to a good thing, rejection label corresponding to an error) (including, etc.), a step of transmitting information about the image information is performed to provide correction and an execution stop alert for minor or fatal mistakes made by the user.
  • a labeling process e.g. For example, label values according to user input in the selective labeling process, hierarchical labeling process, time series segmentation selective labeling process, body part-specific selective labeling process, etc.
  • a step of transmitting information about the image information is performed to provide correction and an execution stop alert for minor or fatal mistakes made by the user.
  • the server 200 provides supervised learning to artificial intelligence according to selective labeling (1604) about good and bad things according to the user's judgment. In addition, the server 200 intervenes with corrections and an execution stop warning for minor or fatal mistakes made by the user in the terminal 100.
  • the image information is '2nd, 3rd, 4th,... ' is repeated.
  • the image information is a repeated prediction value of the GAN and/or GNN prediction model (1605) and is '1st, 2, 3,... 'Video information'.
  • humans and collective intelligence robotics 1803 interact by providing a warning signal (or warning/alert signal).
  • Automated surgery artificial intelligence that affects the patient's life does not itself replace the doctor, but is included as a haptic concept in the robot arm steering device that assists the doctor in performing elaborate surgeries during the surgical procedure.
  • the artificial intelligence is included as a vibration device.
  • warning signals such as, it is possible to interact and intervene with the doctor. If the warning signal is ignored and the surgery is performed, it can be used as separate label data that says 'acting like that is the correct answer in that situation', and through this, the artificial intelligence in the virtual world can be used as a doctor in the real world. As more users intervene and assist in surgery, and based on that feedback, the sophistication doubles.
  • artificial intelligence performs supervised learning and sends an alert to the actions of avatars, humans, robots, etc. in videos labeled not ACCEPT or REJECT. Alerts are possible for virtual surgery, virtual driving, and flight in a VR simulator, as well as for actual surgery, actual driving, and flight.
  • warnings are also possible through video information, audio information, haptic devices, etc.
  • a REJECT label is attached to the video.
  • Artificial intelligence performs supervised learning on this.
  • an artificial intelligence doctor robot assists in stomach cancer surgery, it detects the doctor's incorrect surgical movements and sends an alert in a virtual surgery game and/or in an actual stomach cancer surgery.
  • the artificial intelligence when a user controls a fighter plane in a virtual war game and/or is shot down by an enemy plane, if the user attaches an ACCEPT or REJECT label to the video, the artificial intelligence responds accordingly. It undergoes supervised learning and detects incorrect adjustments during actual fighter pilot flight combat and sends an alert.
  • the step of transmitting information about the image information may be a step of correcting mistakes made by the user or performing autonomous operation of the robot itself.
  • the collective intelligence robotics 1803 of FIGS. 18 and 19 performs supervised learning on visual data with robotics selection labeling 1810, and the artificial intelligence robot operates on its own.
  • the terminal 100 performs correction operations and autonomous operations for mistakes made by the user.
  • the robotics image information is '2nd, 3rd, 4th,... ' is repeated.
  • the image information is a repeated prediction value of the GAN and/or GNN robotics prediction model and is divided into '1st, 2nd, 3rd,... 'Robotics video information'.
  • information labeled ACCEPT label or REJECT label or not ACCEPT label or not REJECT label is used by artificial intelligence to alert the user and is used by artificial intelligence to operate itself to solve or avoid problems that occur.
  • Autonomous operation of collective intelligence robotics (1803) is possible both in VR simulators and in real life.
  • VEHICLE autonomous operation of various drones
  • autonomous flight or autonomous operation of a humanoid robot are also possible.
  • advanced surgical medical artificial intelligence corrects minor or fatal mistakes made by a doctor while performing surgery (procedure, treatment, etc.) using an artificial cadaver and a robotic arm on an actual patient and alerts the patient to stop the operation. It can help with surgeries in the real world by intervening.
  • the VR simulator is gamified in a way that rewards the operation of the artificial intelligence robot arm and the operator's labeling of surgical information.
  • medical artificial intelligence is advanced by additional fine tuning of the existing algorithm model.
  • an artificial intelligence robot arm can perform surgery on a real human body and doctors can label the surgery.
  • an automatic surgery robot in a virtual surgery game can perform gastric cancer surgery in a surgery VR simulator.
  • a doctor makes a selection labeling (1604) during a virtual surgery on a simulator, the artificial intelligence performs supervised learning on this, and the artificial intelligence doctor robot gradually becomes more advanced.
  • Advanced artificial intelligence doctor robots can automatically perform actual surgeries, and the doctor selects and labels them again, making artificial intelligence even more advanced.
  • Collective Intelligence Robotics (1803) becomes an autonomous artificial intelligence doctor robot or artificial intelligence dentist robot.
  • a user presses the ACCEPT button and attaches an ACCEPT label to a video of a vehicle robot controlling a fighter jet to shoot down an enemy plane in a virtual fighter jet flight game
  • artificial intelligence performs supervised learning on this, Learn how to control a virtual or real fighter pilot's airplane. You can perform evasive or attack maneuvers through active operation in a virtual fighter flight game or in a real fighter flight.
  • the artificial intelligence learns supervised learning, and the VEHICLE robot gradually becomes more sophisticated. do. Advanced robots can perform actual driving automatically, and artificial intelligence becomes more advanced as real people once again perform robotics selection labeling (1810).
  • the information processing system 10 using the collective intelligence may further include an external server (not shown).
  • the external server may be connected to the server 200, which is a service providing device, through a network, and the server 200 may perform various methods for generating a virtual avatar and/or providing an output platform using GAN and/or GNN. Store and manage information.
  • the external server receives and stores various information and data that are generated and/or output as the server 200 performs the method of providing a virtual avatar generation and/or output platform using GAN and/or GNN. .
  • the external server is a storage server separately provided outside the server 200.
  • Figure 21 is a flowchart showing a method for generating and/or providing an output platform for virtual avatars and items using GNN and/or GAN according to an embodiment of the present invention.
  • the server 200 acquires user information from the user (S2110), generates a virtual avatar by GAN or outputs it by GNN based on the obtained user information (S2120), and An avatar is provided on the metaverse (S2130), and a metaverse game using the avatar is played (S2140).
  • the server 200 creates an avatar for a game that can be played on the Metaverse national platform.
  • Trial games, police games, firefighter games, art creation games, farming games, trade games, land development games, architecture games, financial investment games, energy generation games, state agency management games, war and battle games, shooting games, strategy games, Arcade games, sports games, audition games, etc. are some of the competitive games that can occur within the metaverse countries, and digital cadaver is a type of avatar.
  • the metaverse game can provide users with a service that allows them to substitute cosmetics, fashion items, and clothing onto their faces and bodies, and create and synthesize various combinations.
  • a marketing advertising platform and an online purchase connection platform can be provided to companies that provide items, and a platform that guides influencers to purchase their various images and videos through SNS and tracks them. We can provide a platform that returns a series of marketing activities to profit.
  • the computer program includes the steps of acquiring user information from the user (S2110), creating or outputting a virtual avatar and item based on the obtained user information (S2120), and storing the avatar on the metaverse. It includes one or more instructions for performing a method of providing a platform for generating and/or outputting a virtual avatar, including providing a step (S2130) and a step of playing a virtual game using the avatar (S2140).
  • the server 200 obtains user information from the user (S2110).
  • User information includes, but is not limited to, gender, age, body type, race, and user's facial image.
  • the server 200 creates or outputs a virtual avatar and items based on the acquired user information (S2120).
  • the server 200 provides an avatar on the metaverse (S2130) and plays various games using the avatar in conjunction with a game server (not shown) (S2140).
  • labeling is performed on one or more raw data related to specific content provided by the user, a learning function is performed on the labeled raw data through a preset classification model and prediction model, and the first output value of the prediction model is performed. Additional labeling may be performed on the image, and an additional learning function may be performed on the additionally labeled first image through a classification model and prediction model to output a second image.
  • motion-related images such as real humans, virtual avatars or items are reconstructed into robot motion images
  • labeling is performed on the reconstructed robot motion images
  • a preset classification model and A learning function is performed through a prediction model
  • additional labeling is performed on the first robotics image that is the result of performing the learning function
  • an additional learning function is performed through a classification model and a prediction model on the additionally labeled first robotics image.
  • 2 Robotics images can be output.
  • Figure 22 is a flowchart showing an information processing method using collective intelligence according to the first embodiment of the present invention.
  • the terminal 100 interacts with one or more visual set devices (not shown) to collect, in relation to a specific topic, one or more raw data, meta information related to the raw data, an image to be compared, and meta information related to the image to be compared.
  • the visual set device includes a camera unit, lidar, eye tracker, motion capture and motion tracker, medical equipment (eg, CT, scanner, MRI, medical ultrasound, etc.).
  • the specific topic includes medical practice (including, for example, procedures, surgery, etc.), dance, sports (including, for example, soccer, basketball, table tennis, etc.), games, and e-sports. ), etc.
  • the raw data (or original data/source data/visual data/image of real reality) is a sequential still image (or a plurality of sequential still images) acquired (or collected/filmed/measured) in real life. Includes still images), videos, measured values, etc.
  • the measured value includes image information (or 3D data) measured through the LIDAR, the eye tracker, the motion capture and motion tracker, the medical equipment, etc.
  • the terminal 100 includes one or more raw data related to the collected specific topic, meta information related to the raw data, an image to be compared, meta information related to the image to be compared, identification information of the terminal 100, etc. Transmitted to the server 200.
  • the identification information of the terminal 100 includes MDN, mobile IP, mobile MAC, SIM card unique information, serial number, etc.
  • the first terminal 100 interlocks with the first camera unit included in the visual set device installed in the first dental hospital to record the first row related to the first surgery (for example, implant surgery) by the first dentist.
  • Data, meta information related to the first raw data, a first comparison target image related to the first surgery, meta information related to the first comparison target image, etc. are collected.
  • the first terminal collects first raw data related to the first surgery (for example, implant surgery) of the first dentist, meta information related to the first raw data, and first information related to the first surgery.
  • the image to be compared, meta information related to the first image to be compared, identification information of the first terminal, etc. are transmitted to the server 200.
  • the second terminal 100 links with the second camera unit included in the visual set device installed in the second dance academy to record a cover dance in which Hong Gil-dong imitates Blackpink's Jenny's dance movements.
  • Second raw data, meta information related to the second raw data, a second comparison target video related to the cover dance, meta information related to the second comparison target video, etc. are collected. If the raw data is a robot motion video, Hong Gil-dong becomes the robot and Blackpink's Jenny's dancing motion becomes the correct data for the robot motion.
  • Professional dancers who evaluate and label robot motion videos may be experts (e.g., robot engineers) who can make evaluations of robot motions.
  • the second terminal collects second raw data related to the cover dance in which Hong Gil-dong imitates Blackpink's Jennie dance movements, meta information related to the second raw data, and a second comparison target video related to the cover dance. , meta information related to the second comparison target image, identification information of the second terminal, etc. are transmitted to the server 200 (S2210).
  • the server 200 receives one or more raw data transmitted from the terminal 100, meta information related to the raw data, an image to be compared, meta information related to the image to be compared, identification information of the terminal 100, etc. receives.
  • the server 200 performs selective labeling on one or more received raw data.
  • the selective labeling is a labeling method of setting (or attaching) a label (or label value) for the presence or absence of an error (or abnormality) at a specific point in time (or a specific section) of the raw data. represents.
  • a preset default label value for example, an approval label
  • the server 200 works in conjunction with the terminal 100 to process raw data displayed on the terminal 100 according to user input (or user selection/touch/control) of the terminal 100.
  • the terminal 100 executes a dedicated app pre-installed on the terminal 100 and displays an app execution result screen according to execution of the dedicated app.
  • the app execution result screen is a collection menu (or button/item) for collecting one or more raw data related to a specific topic, meta information related to the raw data, etc., and the collected information or provided from the server 200. It includes a view menu for displaying information and a settings menu for environmental settings.
  • the terminal 100 has registered as a member of the server 200 that provides the dedicated app, and uses the ID and password according to membership registration, a barcode or QR code containing the ID, etc. to access the dedicated app.
  • a login procedure to perform one or more functions of the dedicated app (e.g., raw data collection function, hierarchical labeling function for information/image, selective labeling function for information/image, time series division selection for information/image) (including labeling function, selective labeling function for each body part for information/image, etc.) can be performed.
  • functions of the dedicated app e.g., raw data collection function, hierarchical labeling function for information/image, selective labeling function for information/image, time series division selection for information/image
  • the terminal 100 displays the collected information or information provided from the server 200, Displays the view screen corresponding to the view menu.
  • the view screen includes an image display area for displaying the raw data or generated image, a comparison target image display area for displaying the comparison target image, and a variable value (or label value) for selecting variable values for hierarchical labeling. It includes a hierarchical label input menu, a selection label input menu to select settings for selective labeling, and a play bar to provide play/pause/stop functions for videos.
  • the terminal 100 displays the collected raw data. Displayed (or output) in the video display area, and a comparison target image corresponding to the collected raw data (or a comparison target image corresponding to the raw data provided from the server 200) is displayed in the comparison target image display area. Display (or output).
  • the terminal 100 performs synchronization on the raw data and the comparison target image based on meta information corresponding to each of the raw data and the comparison target image, and synchronizes the synchronized raw data and the comparison target image. It can be displayed on the video display area and the comparison target video display area, respectively.
  • the terminal 100 displays raw data displayed in the video display area of the terminal 100 at a specific point in time (or a specific section) according to a user input (or user selection/touch/control) of the terminal 100. ) Set (or receive/input) a label (or label value) for good or bad behavior of the object (or object's behavior) included in the raw data.
  • the terminal 100 displays a label value for a good action (for example, a preset approval/approval/ACCEPT label) or a wrong action according to a user input at one or more specific points in the raw data displayed in the video display area.
  • a label value for example, preset REJECT/REJECT label
  • Each label value is input.
  • the terminal 100 selects one or more raw data related to the specific topic at one or more specific points in time (or specific sections) according to the input of the user of the terminal 100, who is an expert related to the specific topic.
  • Set or receive/enter) each label (or selected label value).
  • the terminal 100 may send one or more selection label values at one or more feature points (or specific sections) related to the raw data, meta information of the raw data, identification information of the terminal 100, etc. to the server ( 200).
  • the server 200 may include one or more selection label values at one or more feature points (or specific sections) related to the raw data transmitted from the terminal 100, meta information of the raw data, and the terminal 100. Receives identification information, etc.
  • the server 200 before or after performing selective labeling on the one or more raw data, performs hierarchical labeling on the one or more raw data in conjunction with the terminal 100.
  • selective labeling may be performed on one or more row data before/after performing hierarchical labeling.
  • the hierarchical labeling (or hierarchical labeling) is input feature engineering by the user, where a label (or label value) indicating characteristics of the raw data is attached, and the raw data is divided into a plurality of groups according to the characteristics. Indicates a labeling method for dividing (or classifying) sub-row data.
  • the server 200 in conjunction with the terminal 100, refers to (or is based on) a plurality of label classifications preset in relation to the specific topic for the raw data displayed on the terminal 100.
  • the server 200 According to the user input (or user selection/touch/control) of the corresponding terminal 100, setting (or receiving/input) a label (or label value) at another specific point in time (or another specific section) among the raw data. do.
  • the first terminal runs the Dr. David app pre-installed on the first terminal and displays a Dr. David app execution result screen.
  • the first dentist of the first terminal may be logged in to the corresponding Dr. David app using the first ID and first password.
  • the first terminal displays a view screen 2300 corresponding to the selected view menu.
  • the first terminal when the play bar 2310 in the view screen 2300 is selected, as shown in FIG. 24, the first terminal outputs the collected first raw data to the video display area 2410. , the collected first comparison target image is output to the comparison target image display area 2420. At this time, the first terminal outputs the first raw data and the first comparison target image in a synchronized state.
  • the first terminal refers to the preset label classification according to [Table 1] to [Table 4], and relates to the first surgery (for example, implant surgery) for the output first raw data.
  • a 1-1 layer label value e.g., dental implant surgery corresponding to S1
  • a 1-2 layer label value e.g., dental implant surgery corresponding to S1
  • the 1st to 3rd layer label values for example, a surgery in which a block bone was implanted corresponding to S3 are received, respectively.
  • the first terminal divides the first raw data into preset intervals of 10 seconds.
  • the first terminal has the first raw data output to the image display area 2410 in the viewing screen 2400 and the first comparison target image output to the comparison target image display area 2420.
  • the 1-1 Accept label value at the 1-1 time point e.g., 1 minute and 10 seconds
  • the 1-2 section e.g., 1 minute and 45 seconds to 1
  • the 1-2 Reject label value at the 1-2 time point (minute 58 seconds) and the 1-3 Accept label value at the 1-3 time point for example, 2 minutes 20 seconds
  • the first terminal displays the 1-1 Accept label value at the 1-1 time point (e.g., 1 minute and 10 seconds) and the 1-2 section (e.g., 1 minute and 45 seconds) related to the first raw data. second to 1 minute 58 seconds), the 1-2 Reject label value at the 1-3 time point (e.g., 2 minutes 20 seconds), the 1-3 Accept label value for the first raw data, -1st layer label value (e.g., dental implant surgery corresponding to S1), 1st-2nd layer label value (e.g., case with narrow mandibular posterior bone width corresponding to S2), 1st-3rd layer label value (e.g., (e.g., surgery to implant a block bone corresponding to S3), information about the division (e.g., division at 10-second intervals), meta information related to the first raw data, identification information of the first terminal, etc. to the server. Send to (200).
  • -1st layer label value e.g., dental implant surgery corresponding to S1
  • the server 200 displays the 1-1 Accept label value at the 1-1 time point (for example, 1 minute and 10 seconds) related to the first raw data transmitted from the first terminal, and the 1-2 The 1-2 Reject label value at the interval (e.g., 1 minute 45 seconds to 1 minute 58 seconds), the 1-3 Accept label value at the 1-3 time point (e.g., 2 minutes 20 seconds), 1-1 layer label value for the first raw data (e.g., dental implant surgery corresponding to S1), 1-2 layer label value (e.g., case with narrow mandibular posterior bone width corresponding to S2), 1-3 layer label value (e.g., surgery to implant a block bone corresponding to S3), information about the division (e.g., 10-second interval division), meta information related to the first raw data, and the first Receives terminal identification information, etc.
  • 1-1 layer label value for the first raw data e.g., dental implant surgery corresponding to S1
  • 1-2 layer label value e.g., case with narrow mandibular posterior bone width
  • the second terminal runs the Dr. David app pre-installed on the second terminal and displays a Dr. David app execution result screen.
  • the second professional dancer of the second terminal may be logged in to the corresponding Dr. David app using the second ID and second password.
  • the second terminal displays a view screen 2500 corresponding to the selected view menu.
  • the second terminal when the play bar 2510 in the view screen 2500 is selected, as shown in FIG. 26, the second terminal outputs the collected second raw data to the video display area 2610. , the collected second comparison target image is output to the comparison target image display area 2620. At this time, the second terminal outputs the second raw data and the second comparison target image in a synchronized state.
  • the second terminal refers to the label classification according to the previously set [Table 7] to [Table 11], and determines the first information of the second terminal in relation to the cover dance of Hong Gil-dong for the output second raw data.
  • the 2-1 layer label value for the second raw data e.g., Blackpink Jennie corresponding to S1
  • the 2-2 layer label value e.g., the last layer corresponding to S2
  • the 2nd and 3rd layer label values for example, the open concert corresponding to S3 broadcast on July 8, 2022
  • the second terminal divides the second raw data into preset intervals of 3 seconds.
  • the second terminal displays the second raw data output to the image display area 2610 in the viewing screen 2600 and the second comparison target image output to the comparison target image display area 2620.
  • the 2-1 Reject label value in the 2-1 section e.g., 30 seconds to 45 seconds
  • the 2-2 section e.g., 1 minute and 10 seconds to The 2-2 Accept label value at 1 minute and 20 seconds
  • the 2-3 Accept label value at the 2-3 time point for example, 1 minute and 50 seconds
  • the second terminal displays the 2-1 Reject label value in the 2-1 section (e.g., 30 seconds to 45 seconds) related to the second raw data, and the 2-2 section (e.g., 1 minute) 2-2 Accept label value at 10 seconds to 1 minute 20 seconds), 2-3 Accept label value at 2-3 time point (for example, 1 minute 50 seconds), first for the second raw data 2-1 layer label value (e.g. Blackpink Jenny corresponding to S1), 2-2 layer label value (e.g. As the last (3 minutes 14 seconds) corresponding to S2, 2-3 layer label value (e.g., open concert corresponding to S3 broadcast on July 8, 2022), information about the division (e.g., 3-second interval division), meta information related to the second raw data, and identification of the second terminal Information, etc. is transmitted to the server 200.
  • the 2-1 layer label value e.g. Blackpink Jenny corresponding to S1
  • 2-2 layer label value e.g. As the last (3 minutes 14 seconds) corresponding to S2
  • 2-3 layer label value e.g., open
  • the server 200 displays the 2-1 Reject label value in the 2-1 section (for example, 30 seconds to 45 seconds) related to the second raw data transmitted from the second terminal, and the 2- The 2-2 Accept label value at section 2 (for example, 1 minute 10 seconds to 1 minute 20 seconds), the 2-3 Accept label value at the 2-3 time point (for example, 1 minute 50 seconds), 2-1 layer label value for the second raw data (e.g., Blackpink Jenny corresponding to S1), 2-2 layer label value (e.g., like the last (3 minutes and 14 seconds) corresponding to S2 , 2nd-3rd layer label value (e.g., open concert corresponding to S3 broadcast on July 8, 2022), information about the division (e.g., 3-second interval division), meta related to the second raw data Information, identification information of the second terminal, etc. are received (S2220).
  • 2-1 layer label value for the second raw data e.g., Blackpink Jenny corresponding to S1
  • 2-2 layer label value e.g., like the last (3 minutes and 14 seconds)
  • the server 200 performs artificial intelligence-based machine learning based on information about the selectively labeled raw data, etc., and generates (or confirms) a classification value for the raw data based on the machine learning results.
  • the classification value for the corresponding raw data (or the classification value of the corresponding raw data) may be a value obtained by classifying the selective labeling value, hierarchical labeling value, etc. by the same item.
  • the server 200 performs machine learning (or artificial intelligence/deep learning) using information about the selectively labeled raw data as input to a preset classification model, and produces machine learning results (or artificial intelligence results). /deep learning results) to create (or confirm) a classification value for the raw data.
  • machine learning or artificial intelligence/deep learning
  • the server 200 may provide the 1-1 Accept label value at the 1-1 time point (for example, 1 minute and 10 seconds), which is information about the selection labeled first raw data, and the 1-2 section.
  • the 1-2 Reject label value at for example, 1 minute 45 seconds to 1 minute 58 seconds
  • the 1-3 Accept label value at the 1-3 time point for example, 2 minutes 20 seconds
  • Machine learning is performed using the input value of the classification model, and based on the machine learning results, the 1-1 Accept label value, the 1-3 Accept label value, and the 1-2 Reject label value are calculated for the first raw data. Classify.
  • the server 200 provides the 2-1 Reject label value in the 2-1 section (for example, 30 seconds to 45 seconds), which is information about the selection labeled second raw data, and the 2- The 2-2 Accept label value at section 2 (for example, 1 minute 10 seconds to 1 minute 20 seconds), the 2-3 Accept label value at the 2-3 time point (for example, 1 minute 50 seconds), etc.
  • Machine learning is performed using as the input value of the classification model, and based on the machine learning results, the 2-2 Accept label value, the 2-3 Accept label value, and the 2-1 Reject are applied to the second raw data. Classify the label value (S2230).
  • the server 200 provides a classification value for the generated corresponding raw data (or a classification value for the corresponding raw data), information on the selectively labeled raw data, the corresponding raw data, meta information related to the corresponding raw data, Machine learning (or artificial intelligence/deep learning) is performed using the image to be compared, meta information related to the image to be compared, etc. as input values, and the corresponding information is based on the machine learning result (or artificial intelligence result/deep learning result).
  • a first image corresponding to raw data is generated.
  • the first image is an image related to the movement of an avatar, item, robot, etc. generated based on the raw data, and an image in which the raw data has been updated (e.g., a human/person's movement/action included in the raw data) /video with updated actions), etc.
  • the server 200 includes a classification value for the generated corresponding raw data (or a classification value for the corresponding raw data), information on the selectively labeled raw data, the corresponding raw data, meta information related to the corresponding raw data, Machine learning (or artificial intelligence/deep learning) is performed using the comparison target image, meta information related to the comparison target image, etc. as input values of a preset prediction model, and the machine learning result (or artificial intelligence result/deep learning result) ) Based on this, a first image related to the raw data is generated.
  • the server 200 transmits the generated first image to the terminal 100.
  • the terminal 100 receives the first video transmitted from the server 200 and outputs the received first video to the video display area instead of the raw data being output.
  • the terminal 100 may divide the screen of the terminal 100 and output the screen simultaneously while synchronizing the raw data, the comparison target image, and the first image.
  • the server 200 may provide a 1-1 Accept label value and a 1-3 Accept label value for the generated first row data, a classification value for the 1-2 Reject label value, and the selection.
  • the 1-1 Accept label value at the 1-1 time point e.g., 1 minute 10 seconds
  • the 1-2 section e.g., 1 minute 45 seconds to 1 minute
  • 1-2 Reject label value at 58 seconds 1-3 Accept label value at 1-3 time (for example, 2 minutes 20 seconds)
  • the first raw data, and Machine learning is performed using meta information, the first comparison target image, and meta information related to the first comparison target image as input values of the prediction model, and based on the machine learning results, the first raw data related to the corresponding first raw data is performed.
  • 1-1 Create a video e.g., 1 minute 10 seconds
  • the 1-2 section e.g., 1 minute 45 seconds to 1 minute
  • 1-3 Accept label value at 1-3 time for example, 2 minutes 20 seconds
  • the server 200 transmits the generated 1-1 video to the first terminal.
  • the first terminal receives the 1-1 video transmitted from the server 200, replaces the first raw data being output to the video display area, and outputs the received 1-1 video. do.
  • the server 200 may provide a 2-2 Accept label value and a 2-3 Accept label value for the generated second row data, a classification value for the 2-1 Reject label value, and the above.
  • the 2-1 Reject label value in the 2-1 section e.g., 30 seconds to 45 seconds
  • the 2-2 section e.g., 1 minute and 10 seconds to 1 minute
  • 2-2 Accept label value at time 2-3 for example, 1 minute 20 seconds
  • 2-3 Accept label value at time 2-3 for example, 1 minute 50 seconds
  • Machine learning is performed using meta information related to, the second comparison target image, and meta information related to the second comparison target image as input values of the prediction model, and based on the machine learning results, the corresponding second raw data and Generate related 1-2 images.
  • the server 200 transmits the generated video 1-2 to the second terminal.
  • the second terminal receives the 1-2 video transmitted from the server 200, and outputs the received 1-2 video in place of the second raw data being output to the video display area. Do it (S2240).
  • the server 200 performs additional selective labeling on the first image.
  • the additional selective labeling sets a label (or label value) for the presence or absence of an error (or abnormality) at another specific time point (or another specific section) of the first image (or (attached) indicates the labeling method.
  • a preset default label value for example, an approval label
  • the server 200 works in conjunction with the terminal 100 to display the first image displayed on the terminal 100 according to the user input (or user selection/touch/control) of the terminal 100. , Set (or receive/input) a label (or label value) at another specific point in time (or another specific section) of the first video.
  • the terminal 100 displays the first image as the image. Displayed (or output) in the display area and a comparison target image corresponding to the raw data (or the first image) (or a comparison target image corresponding to the raw data/first image provided from the server 200) is displayed (or output) in the comparison target image display area.
  • the terminal 100 performs synchronization on the first image and the comparison target image based on meta information corresponding to the first image and the comparison target image, respectively, and synchronizes the synchronized first image and the comparison target image. Images can be displayed in the image display area and the comparison target image display area, respectively.
  • the terminal 100 displays the first image displayed in the video display area of the terminal 100 at another specific time point ( Setting (or receiving) a label (or label value) for a good or bad action regarding the movement (or action of the object/avatar) of the object (or avatar) included in the first video in (or another specific section) /enter).
  • the terminal 100 displays a label value (for example, a preset approval/approval/ACCEPT label) for a good action according to a user input at one or more specific points in the first video displayed in the video display area.
  • a label value for each wrong action e.g., preset REJECT/REJECT label is input.
  • the terminal 100 displays the first image generated in relation to the specific topic at one or more specific viewpoints (or Set (or receive/input) one or more additional selection labels (or additional selection label values) in another specific section).
  • the terminal 100 performs a time-series division selective labeling function or a body part-specific selective labeling function according to the user input of the terminal 100.
  • the terminal 100 performs the time series division selective labeling function through the following process.
  • the terminal 100 generates a label value (for example, in advance for the plurality of sub-images into which the first image is divided) for the state (or good action) in which the division of each sub-image is well done according to the user input.
  • a set approval/acceptance/ACCEPT label) or a label value for an incorrect state (or wrong action) e.g. a preset rejection/REJECT label
  • the user input is used to sort the order of the plurality of sub-videos.
  • a label value indicating the order of the plurality of sub-videos (or a label value for adjusting the division time if the division time is incorrect or requires adjustment) is input.
  • the selection for each body part may be omitted.
  • the division of the first image into a plurality of sub-images is performed by dividing the first image into the plurality of sub-images based on information about the sub-row data divided into a plurality of parts according to the performance of the hierarchical labeling function for the raw data.
  • the first image may be divided into the plurality of sub-images according to the server 200 performing an artificial intelligence function or an image analysis function on the raw data.
  • the terminal 100 inputs label values for the well-segmented state and the incorrectly divided state of the plurality of sub-images, respectively, according to the user input of the terminal 100 for the first image.
  • the terminal 100 performs a selective labeling function for each body part through the following process.
  • the terminal provides a label for the action sequence of the avatar (or object) included in the plurality of sub-images according to the user input for the avatar (or object) included in the plurality of sub-images obtained by dividing the first image.
  • the user receives each value (or a label value for the good or bad state of the avatar's action sequence) and sorts the action sequence by body part in the actions of the avatar (or object) included in the plurality of sub-videos.
  • a label value indicating the order of the plurality of sub-videos (or a label value for adjusting the order of sub-videos containing an avatar) is input.
  • the division of the first image into a plurality of sub-images is performed by dividing the first image into the plurality of sub-images based on information about the sub-row data divided into a plurality of parts according to the performance of the hierarchical labeling function for the raw data.
  • the first image may be divided into the plurality of sub-images according to the server 200 performing an artificial intelligence function or an image analysis function on the raw data.
  • the terminal 100 generates a label value for the action sequence of an avatar (or object) included in a plurality of sub-images (or the corresponding avatar) according to the user input of the terminal 100 for the first image.
  • a label value for the correct or incorrect state of the action sequence) is input, respectively, and a label value (or A label value indicating the order of the plurality of sub-videos/label value for adjusting the order of sub-videos containing the avatar) is input, respectively.
  • the terminal 100 provides one or more additional selection label values at one or more specific points in time (or another specific section) related to the first image, one or more time series division selection label values, and one or more selections for each body part.
  • a label value, a label value for sorting the order of a plurality of sub-videos, identification information of the corresponding terminal 100, etc. are transmitted to the server 200.
  • the server 200 may provide one or more additional selection label values and one or more time series division selection labels at one or more specific points in time (or another specific section) related to the first image transmitted from the terminal 100.
  • a value, a selection label value for one or more body parts, a label value for sorting the order of a plurality of sub-images, identification information of the corresponding terminal 100, etc. are received.
  • the first terminal when the play bar in the view screen of the first terminal is selected, as shown in FIG. 27, the first terminal outputs the 1-1 video to the video display area 2710, and the comparison The first comparison target image is output to the target image display area 2720. At this time, the first terminal outputs the 1-1 video and the first comparison target video in a synchronized state.
  • the first comparison target image and the second comparison target image output to the comparison target image display areas 2720 and 2820 are labels for avatar motion, and the preceding [Tables 1] to [Table 11] are output as images. will be.
  • the first terminal refers to the preset label classification according to [Table 12], and refers to the upper central incisor, which is a detailed operation in the first surgery (for example, implant surgery), for the output 1-1 image.
  • the 1-1 image is divided into a 1-1-1 section, which is a plurality of sections of 2 to 4 seconds. to 1-1-10 sections, and 1-1-1 label values to 1-1-10 label values for each of the divided 1-1-1 sections to 1-1-10 sections. receives each.
  • the first terminal may provide a label value (e.g. Section 1-1-1, Section 1-1-2, Section 1-1-3, Section 1-1-6, Section 1-1-7, Section 1-1-8, Section 1 -Label values for sorting into the 1-4 section, 1-1-5 section, 1-1-9 section, and 1-1-10 section) are received respectively.
  • a label value e.g. Section 1-1-1, Section 1-1-2, Section 1-1-3, Section 1-1-6, Section 1-1-7, Section 1-1-8, Section 1 -Label values for sorting into the 1-4 section, 1-1-5 section, 1-1-9 section, and 1-1-10 section
  • the first terminal may display the 1-1-1 label value to the 1-1 for each of the 1-1-1 section to the 1-1-10 section related to the 1-1 video.
  • -10 Label value, label value for sorting the order e.g., 1-1-1 section, 1-1-2 section, 1-1-3 section, 1-1-6 section, 1st section To sort into the 1-1-7 section, the 1-1-8 section, the 1-1-4 section, the 1-1-5 section, the 1-1-9 section, and the 1-1-10 section. label value
  • identification information of the first terminal, etc. are transmitted to the server 200.
  • the server 200 provides the 1-1-1 for each of the 1-1-1 section to the 1-1-10 section related to the 1-1 video transmitted from the first terminal.
  • Label value to the 1-1-10th label value label value for sorting the order (e.g., 1-1-1 section, 1-1-2 section, 1-1-3 section, 1st section) Section 1-1-6, Section 1-1-7, Section 1-1-8, Section 1-1-4, Section 1-1-5, Section 1-1-9 and Section 1- label value for sorting into the 1-10 range), identification information of the first terminal, etc. are received.
  • the second terminal when the play bar in the view screen of the second terminal is selected, as shown in FIG. 28, the second terminal outputs the 1-2 video to the video display area 2810, and The second comparison target image is output to the comparison target image display area 2820. At this time, the second terminal outputs the 1-2 video and the second comparison target video in a synchronized state.
  • the second terminal refers to the preset label classification according to [Table 11], and in relation to the cover dance in which Hong Gil-dong imitates Blackpink's Jenny dance movements for the output 1-2 video,
  • a plurality of sections of 2 to 4 seconds are displayed according to the order of the body parts that move most when Blackpink's Jennie waves the 1-2 video forward/backward. divided into 1-2-1 sections to 1-2-20 sections, and 1-2-1 label values for each of the divided 1-2-1 sections to 1-2-20 sections.
  • the 1-2-20 label values are received respectively.
  • the second terminal may provide a label value (e.g. Section 1-2-1 to Section 1-2-7, Section 1-2-13 to Section 1-2-17, Section 1-2-8 to Section 1-2-10, Section 1 -Label values for sorting into sections 2-18 to 1-2-20 and sections 1-2-11 to 1-2-12) are received, respectively.
  • a label value e.g. Section 1-2-1 to Section 1-2-7, Section 1-2-13 to Section 1-2-17, Section 1-2-8 to Section 1-2-10, Section 1 -Label values for sorting into sections 2-18 to 1-2-20 and sections 1-2-11 to 1-2-12
  • the second terminal displays label values 1-2-1 to 1-2-20 for each of the 1-2-1 to 1-2-20 sections related to the 1-2 video.
  • Label value, label value for sorting the order e.g., section 1-2-1 to section 1-2-7, section 1-2-13 to section 1-2-17, section 1-
  • identification information of the second terminal, etc. are transmitted to the server 200.
  • the server 200 is a data set transmitted from the second terminal, and the 1-2- 1 label value to 1-2-20 label value, label for sorting the order (e.g., 1-2-1 section to 1-2-7 section, 1-2-13 section to 1 -2-17 section, 1-2-8 section to 1-2-10 section, 1-2-18 section to 1-2-20 section and 1-2-2 section to 1-2 label for sorting into -12 sections), identification information of the second terminal, etc. are received (S2250).
  • the 1-2- 1 label value to 1-2-20 label value, label for sorting the order e.g., 1-2-1 section to 1-2-7 section, 1-2-13 section to 1 -2-17 section, 1-2-8 section to 1-2-10 section, 1-2-18 section to 1-2-20 section and 1-2-2 section to 1-2 label for sorting into -12 sections
  • identification information of the second terminal, etc. are received (S2250).
  • the server 200 performs another artificial intelligence-based machine learning based on the information about the additionally selectively labeled first image, and creates a classification value for the first image based on the other machine learning results. Create (or confirm).
  • the classification value for the first image (or the classification value for the first image) may be a value obtained by classifying additional selection labeling values, additional hierarchical labeling values, etc. by the same item.
  • the server 200 performs other machine learning (or other artificial intelligence/other deep learning) using the information about the additional selection labeled first image as an input value of the preset classification model, and other machines Based on the learning results (or other artificial intelligence results/other deep learning results), a classification value for the first image is generated (or confirmed).
  • the server 200 provides the 1-1-1 information for each of the 1-1-1 section to the 1-1-10 section, which is information about the additional selection labeled 1-1 video.
  • Other machine learning is performed using the label value or the 1-1-10 label value as the input value of the classification model, and based on the other machine learning results, the 1-1 image is selected as the Accept label, 1-1.
  • the -1 label value to the 1-1-7 label value and the 1-1-10 label value are classified into the Reject label, which is the 1-1-8 label value to the 1-1-9 label value.
  • the server 200 provides 1-2-1 information for each of the 1-2-1 section to the 1-2-20 section, which is information about the additional selection labeled 1-2 image.
  • Other machine learning is performed using the label value to the 1-2-20 label value as the input value of the classification model, and based on the other machine learning results, the Accept label 1-2- is selected for the 1-2 image.
  • Classify the label value (S2260).
  • the server 200 generates a classification value for the generated first image (or a classification value for the first image), information on the additionally selectively labeled first image, the first image, and the first image.
  • Other machine learning or other artificial intelligence/other deep learning
  • a second image corresponding to the first image is generated based on the intelligence result/other deep learning result.
  • the second image may be an image related to the movement of an avatar, item, or robot generated based on the first image, or an image in which the first image is updated.
  • the server 200 provides a classification value for the generated first image (or a classification value for the first image), information on the additionally selectively labeled first image, the first image, and the first image.
  • Other machine learning or other artificial intelligence/other deep learning
  • a second image related to the first image is generated based on the learning result (or other artificial intelligence result/other deep learning result).
  • the server 200 transmits the generated second image to the terminal 100.
  • the terminal 100 receives the second video transmitted from the server 200 and outputs the received second video to the video display area instead of the first video being output.
  • the terminal 100 may divide the screen of the terminal 100 and output the screen simultaneously while synchronizing the raw data, the image to be compared, the first image, and the second image.
  • the server 200 provides the 1-1-1 label value to the 1-1-7 label value and the 1-1-10 label value as the Accept label for the generated 1-1 video. , classification values for the 1-1-8 label value to the 1-1-9 label value as the Reject label, the 1-1-1 section to the 1-1-1 section as information on the additional selection labeled 1-1 image, The 1-1-1 label value to the 1-1-10 label value for each 1-1-10 section, the label value for sorting the order (e.g., the 1-1-1 section, Section 1-1-2, Section 1-1-3, Section 1-1-6, Section 1-1-7, Section 1-1-8, Section 1-1-4, Section 1 -label value for sorting into the 1-5 section, the 1-1-9 section and the 1-1-10 section), the 1-1 video, meta information related to the 1-1 video, and the first Other machine learning is performed using the comparison target image, meta information related to the first comparison target image, etc. as input values of the prediction model, and the 2-1 related to the 1-1 image is based on the other machine learning results. Create a video.
  • the server 200 transmits the generated 2-1 video to the first terminal.
  • the first terminal receives the 2-1 video transmitted from the server 200, and displays the received 2-1 video in place of the 1-1 video being output to the video display area. Print out.
  • the server 200 sends the 1-2-1 label value to the 1-2-8 label value and the 1-2-12 label value as the Accept label for the generated video 1-2. to 1-2-20 label values, classification values for label values 1-2-9 to 1-2-11, which are Reject labels, and information about the additionally selectively labeled 1-2 image.
  • Other machine learning is performed using meta information related to, the second comparison target image, and meta information related to the second comparison target image as input values of the prediction model, and based on the other machine learning results, the corresponding first- Create a 2-2 video related to the 2 video.
  • the server 200 transmits the generated video 2-2 to the second terminal.
  • the second terminal receives the 2-2 video transmitted from the server 200, and displays the received 2-2 video in place of the 1-2 video being output to the video display area.
  • Output (S2270).
  • the server 200 performs the preceding selective labeling process, classification model inference process, prediction model inference process, and generated first data on a plurality of raw data provided from a plurality of terminals 100 in relation to the specific topic.
  • the additional selective labeling process for the image, the additional classification model inference process, and the additional prediction model inference process are each repeated and compared in relation to the specific topic (or comparison related to the specific topic).
  • a second image that is collectively intelligent is created (or updated) in relation to the target image.
  • the server 200 provides the last updated (or most recently created) second video to a plurality of terminals 100 that have provided raw data related to the specific topic in real time or at the request of a specific terminal 100. It may be provided depending on.
  • all terminals 100 or specific terminals 100 that have provided raw data related to the specific topic to the server 200 can be provided with the latest collective intelligence second video related to the specific topic. there is.
  • the server 200 may provide 101st raw data to 101st raw data related to the first surgery (for example, implant surgery) provided from the 101st to 200th terminals 100 in addition to the first terminal, respectively.
  • the previous selective labeling process, classification model inference process, prediction model inference process, additional selective labeling process for the generated first image, additional classification model inference process, and additional prediction model inference process are performed, respectively.
  • the second image that has become collectively intelligent is updated in relation to the first surgery (S2280).
  • Figure 29 is a flowchart showing an information processing method using collective intelligence according to the second embodiment of the present invention.
  • the server 200 links with the terminal 100 to view motion-related images (or human images) of real humans, virtual avatars, or items output (or being managed) from the terminal 100 in relation to a specific topic.
  • motion-related video related to at least one of the avatar and item includes medical practice (including, for example, procedures, surgery, etc.), dance, sports (including, for example, soccer, basketball, table tennis, etc.), games, e-sports, etc.
  • the human-related motion-related video may be an image obtained (or filmed) of an actual human (or person/ influencer) performing an action (or motion/act) related to the specific topic.
  • the video related to the movement of the avatar and/or item may be an image generated through a selective labeling process, classification model inference process, prediction model inference process, etc. based on arbitrary raw data related to the specific topic.
  • the server 200 works in conjunction with the third terminal 100 to display a third motion-related video related to the motion of a third avatar output from the third terminal, meta information related to the third motion-related video, etc. Collect (S2910).
  • the server 200 uses the collected motion-related images (or the collected motion-related images of real humans, virtual avatars, or items) in order to implement the collected motion-related images into the movements of an actual robot.
  • the robot is a robot arm manufactured in a form that can operate in the tooth removal VR simulator using the visual data of the tooth removal VR simulator, and a form that can operate in the surgery VR simulator using the visual data of the surgery VR simulator. It includes a manufactured robot arm, a robot manufactured in VEHICLE form using visual data from the VEHICLE VR simulator, and a humanoid robot that can operate on a VR treadmill.
  • the server 200 uses the collected motion-related video, meta information related to the motion-related video, etc. to apply the motion of the real human, virtual avatar, or item to the actual robot.
  • Coordinate information related to real humans, virtual avatars, items, etc. included in is converted into robot coordinate information to be applied to the actual robot, and the corresponding motion-related image is reconstructed into the robot motion image (or basic robotics image).
  • the server 200 includes the robot motion image (or reconstructed robot motion image), meta information about the robot motion image, the collected motion-related video, meta information related to the motion-related video, and the server 200.
  • the comparison target images searched in relation to the collected motion-related images (or robot motion images), meta information related to the comparison target images, etc. are stored in a plurality of comparison target images pre-registered in the server 200. It is transmitted to a specific terminal 100 selected from among the terminals 100.
  • the specific terminal 100 includes the robot motion image transmitted from the server 200, meta information about the robot motion image, the motion-related video, meta information related to the motion-related video, and the motion-related video ( or robot motion image), meta information related to the comparison target image, etc. are received.
  • the server 200 may use the collected third avatar's motion for artificial joint surgery based on the collected third motion-related video, meta information related to the third motion-related video, etc.
  • the third motion-related image is reconstructed into a third robot motion image.
  • the server 200 includes the reconstructed third robot motion image, meta information related to the third robot motion image, a third motion-related image related to the collected motion of the third avatar, and the third motion-related image. meta information related to, a third comparison target image corresponding to the third motion-related image, meta information related to the third comparison target image, etc. 4 Transmit to terminal 100.
  • the fourth terminal transmits the third robot motion image transmitted from the server 200, meta information related to the third robot motion image, a third motion-related video related to the motion of the third avatar, and the third robot motion image transmitted from the server 200.
  • Meta information related to the motion-related image, a third comparison target image corresponding to the third motion-related image, and meta information related to the third comparison target image are received (S2920).
  • the server 200 performs selective labeling on the robot motion image.
  • the selective labeling refers to a labeling method that sets (or attaches) a label (or label value) for the presence or absence of an error (or abnormality) at a specific point in time (or a specific section) of the robot motion image.
  • a preset default label value for example, an approval label
  • the server 200 works in conjunction with the terminal 100 and responds to the robot operation image displayed on the terminal 100 according to the user input (or user selection/touch/control) of the terminal 100.
  • the terminal 100 executes a dedicated app pre-installed on the terminal 100 and displays an app execution result screen according to execution of the dedicated app.
  • the app execution result screen is a collection menu (or button/item) for collecting one or more raw data related to a specific topic, meta information related to the raw data, etc., and the collected information or provided from the server 200. It includes a view menu for displaying information and a settings menu for environmental settings.
  • the terminal 100 has registered as a member of the server 200 that provides the dedicated app, and uses the ID and password according to membership registration, a barcode or QR code containing the ID, etc. to access the dedicated app.
  • a login procedure to perform one or more functions of the dedicated app (e.g., raw data collection function, hierarchical labeling function for information/image, selective labeling function for information/image, time series division selection for information/image) (including labeling function, selective labeling function for each body part for information/image, etc.) can be performed.
  • functions of the dedicated app e.g., raw data collection function, hierarchical labeling function for information/image, selective labeling function for information/image, time series division selection for information/image
  • the terminal 100 displays the collected information or information provided from the server 200, Displays the view screen corresponding to the view menu.
  • the view screen includes an image display area for displaying the raw data or generated image, a comparison target image display area for displaying the comparison target image, and a variable value (or label value) for selecting variable values for hierarchical labeling. It includes a hierarchical label input menu, a selection label input menu to select settings for selective labeling, and a play bar to provide play/pause/stop functions for videos.
  • the terminal 100 displays the robot operation video as the video. Display (or output) in the display area, and display the comparison target image corresponding to the robot operation image (or the comparison target image corresponding to the robot operation image provided by the server 200) in the comparison target image display area. (or print).
  • the terminal 100 performs synchronization on the robot motion image and the comparison object image based on meta information corresponding to the robot motion image and the comparison object image, respectively, and creates the synchronized robot motion image and the comparison object image. Images can be displayed in the image display area and the comparison target image display area, respectively.
  • the terminal 100 operates at a specific point in time (or at a specific time) according to the user input (or user selection/touch/control) of the terminal 100 with respect to the robot motion image displayed in the video display area of the terminal 100.
  • the terminal 100 displays a label value for a good action (for example, a preset approval/approval/ACCEPT label) or an incorrect action according to a user input at one or more specific points in the robot operation image displayed in the video display area.
  • a label value for example, preset REJECT/REJECT label
  • Each label value is input.
  • the terminal 100 provides one or more robot operation images related to the specific topic at one or more specific points in time (or specific sections) according to the user input of the terminal 100, which is an expert related to the specific topic.
  • the terminal 100 may include one or more selection label values at one or more characteristic viewpoints (or specific sections) related to the robot motion image, meta information of the robot motion image, identification information of the terminal 100, etc. Transmitted to the server 200.
  • the server 200 may include one or more selection label values at one or more feature points (or specific sections) related to the robot motion image transmitted from the terminal 100, meta information of the robot motion image, and the terminal ( 100) receives identification information, etc.
  • the fourth terminal runs the Dr. David app pre-installed on the fourth terminal and displays a Dr. David app execution result screen.
  • the fourth surgical specialist of the fourth terminal may be logged in to the corresponding Dr. David app using the fourth ID and fourth password.
  • the fourth terminal displays a view screen 3000 corresponding to the selected view menu.
  • the fourth terminal when the play bar 3010 in the viewing screen 3000 is selected, as shown in FIG. 31, the fourth terminal outputs the third robot operation image to the image display area 3110, A third comparison target image related to the third robot operation image is output to the comparison target image display area 3120. At this time, the fourth terminal outputs the third robot operation image and the third comparison target image in a synchronized state.
  • the third image to be compared is a label classification for robot motion, produced in a similar manner to [Table 1] to [Table 11], and is a correct answer data set for robot motion and is output as an image.
  • the fourth terminal refers to a plurality of preset label classifications and classifies the output third robot operation image according to the input of a fourth surgeon of the fourth terminal in relation to the artificial joint surgery.
  • 3-1 layer label value for the 3rd robot motion image e.g., artificial joint surgery corresponding to S1
  • 3-2 layer label value e.g., right knee joint corresponding to S2
  • 3- 3 layer label values e.g., partial replacement operation corresponding to S3
  • the fourth terminal divides the third robot operation image into preset intervals of 5 seconds.
  • the fourth terminal displays the third robot operation image output to the image display area 3110 in the viewing screen 3100 and the third comparison target image output to the comparison target image display area 3120.
  • the 3-1 Reject label value at the 3-1 time point e.g., 35 seconds
  • the 3-2 section e.g., 1 minute and 10 seconds ⁇ 3-2 Accept label value in the 3-3 section (e.g., 1 minute 35 seconds to 1 minute 50 seconds)
  • 3-3 Accept label value in the 3-4 section e.g., 1 minute 35 seconds to 1 minute 50 seconds
  • 3-4 section For example, the 3-4 Accept label values (2 minutes 5 seconds to 2 minutes 25 seconds) are received respectively.
  • the fourth terminal displays the 3-1 Reject label value at the 3-1 time point (e.g., 35 seconds) and the 3-2 section (e.g., 1 minute and 10 seconds) related to the third robot operation image.
  • ⁇ 1 minute 30 seconds 3-2 Accept label value
  • 3-3 Accept label value at 3-3 section e.g. 1 minute 35 seconds ⁇ 1 minute 50 seconds
  • 3-4 section e.g., 2 minutes 5 seconds to 2 minutes 25 seconds
  • 3-4 Accept label value 3-1 layer label value for the 3rd robot motion image (e.g., artificial joint surgery corresponding to S1) ), 3-2 layer label value (e.g. right knee joint corresponding to S2), 3-3 layer label value (e.g. partial replacement surgery corresponding to S3), information about the division (e.g. divided into 5-second intervals), identification information of the fourth terminal, etc. are transmitted to the server 200.
  • the server 200 displays the 3-1 Reject label value and the 3-2 section at the 3-1 time point (for example, 35 seconds) related to the third robot operation image transmitted from the fourth terminal.
  • 3-1 time point for example, 35 seconds
  • the server 200 displays the 3-1 Reject label value and the 3-2 section at the 3-1 time point (for example, 35 seconds) related to the third robot operation image transmitted from the fourth terminal.
  • 3-1 time point for example, 35 seconds
  • 3-1 layer label value for the third robot motion image e.g.
  • the server 200 performs artificial intelligence-based machine learning based on information about the selectively labeled robot motion image, and generates a classification value for the robot motion image based on the machine learning result (or Confirm).
  • the classification value for the corresponding robot motion image (or the classification value for the corresponding robot motion image) may be a value obtained by classifying the selection labeling value, hierarchical labeling value, etc. by the same item.
  • the server 200 performs machine learning (or artificial intelligence/deep learning) using information about the selectively labeled robot motion image as input to a preset classification model, and produces machine learning results (or artificial intelligence Based on the results/deep learning results), a classification value for the robot motion image is generated (or confirmed).
  • machine learning or artificial intelligence/deep learning
  • the server 200 may include the 3-1 Reject label value at the 3-1 time point (e.g., 35 seconds), which is information about the selectively labeled third robot motion image, and the 3-2 section ( For example, the 3-2 Accept label value in the 1 minute 10 seconds to 1 minute 30 seconds), and the 3-3 Accept label in the 3-3 section (for example, 1 minute 35 seconds to 1 minute 50 seconds) Machine learning is performed using the value, the 3-4 Accept label value in the 3-4 section (for example, 2 minutes 5 seconds to 2 minutes 25 seconds) as the input value of the classification model, and the machine learning result is Based on the corresponding third robot operation image, the 3-2 Accept label value, 3-3 Accept label value, 3-4 Accept label value, and 3-1 Reject label value are classified (S2940).
  • the 3-1 Reject label value at the 3-1 time point e.g. 35 seconds
  • the 3-2 section for example, the 3-2 Accept label value in the 1 minute 10 seconds to 1 minute 30 seconds
  • the 3-3 Accept label in the 3-3 section for example, 1 minute 35 seconds to 1
  • the server 200 provides a classification value for the generated robot motion image (or a classification value for the robot motion image), information on the selectively labeled robot motion image, a corresponding robot motion image, and a corresponding robot motion image.
  • Machine learning or artificial intelligence/deep learning is performed using meta information related to the comparison target image, meta information related to the comparison target image, etc. as input values, and machine learning results (or artificial intelligence results/deep learning results) )
  • a first robotics image corresponding to the robot motion image is generated.
  • the first robotics image may be an image related to the motion of an avatar, item, or robot generated based on the robot motion image, or an image in which the robot motion image is updated.
  • the server 200 provides a classification value for the generated robot motion image (or a classification value for the robot motion image), information on the selectively labeled robot motion image, a corresponding robot motion image, and a corresponding robot motion image.
  • Machine learning or artificial intelligence/deep learning is performed using meta information related to the comparison target image, meta information related to the comparison target image, etc. as input values of a preset prediction model, and machine learning results (or artificial intelligence Based on the results/deep learning results), a first robotics image related to the robot motion image is generated.
  • the server 200 transmits the generated first robotics image to the terminal 100.
  • the terminal 100 receives the first robotics image transmitted from the server 200, and outputs the received first robotics image to the video display area instead of the robot motion image being output. At this time, the terminal 100 may split the screen of the terminal 100 and output them simultaneously while synchronizing the robot motion image, the comparison target image, and the first robotics image.
  • the server 200 may display a 3-2 Accept label value, a 3-3 Accept label value, and a 3-4 Accept label value, and a 3-1 Reject label value for the generated third robot motion image.
  • Machine learning is performed using the comparison target image, meta information related to the third comparison target image, etc. as input values of the prediction model, and based on the machine learning results, 1-3 robotics images related to the third robot operation image creates .
  • the server 200 transmits the generated 1-3 robotics images to the fourth terminal.
  • the fourth terminal receives the 1-3 robotics image transmitted from the server 200, replaces the third robot operation image being output in the video display area, and displays the received 1-3 robotics image. Output the video (S2950).
  • the server 200 performs additional selective labeling on the first robotics image.
  • the additional selective labeling sets a label (or label value) for the presence or absence of an error (or abnormality) at another specific time point (or another specific section) of the first robotics image ( or attached) indicates the labeling method.
  • a preset default label value for example, an approval label
  • the server 200 is linked with the terminal 100 and responds to the user input (or user selection/touch/control) of the terminal 100 with respect to the first robotics image displayed on the terminal 100. Accordingly, a label (or label value) at another specific point in time (or another specific section) of the first robotics image is set (or received/input).
  • the terminal 100 displays the first robotics image. Displayed (or output) in the image display area, and corresponds to the comparison target image corresponding to the robot operation image (or the first robotics image) (or the corresponding robot operation image/first robotics image provided from the server 200)
  • the comparison target image is displayed (or output) in the comparison target image display area.
  • the terminal 100 performs synchronization on the first robotics image and the comparison target image based on meta information corresponding to the first robotics image and the comparison target image, respectively, and creates a synchronized first robotics image.
  • the image to be compared may be displayed in the image display area and the image display area to be compared, respectively.
  • the terminal 100 displays the first robotics image displayed in the image display area of the terminal 100 at another specific time point according to a user input (or user selection/touch/control) of the terminal 100.
  • the terminal 100 displays a label value (for example, a preset approval/acceptance/ACCEPT label) for a good action according to a user input at one or more specific points in the first robotics image displayed in the image display area.
  • a label value for example, a preset REJECT label
  • a label value for example, a preset REJECT label
  • the terminal 100 displays the first robotics image generated in relation to the specific topic at one or more specific points in time (or Set (or receive/input) one or more additional selection labels (or additional selection label values) in another specific section).
  • the terminal 100 performs a time-series division selective labeling function or a body part-specific selective labeling function according to the user input of the terminal 100.
  • the terminal 100 performs the time series division selective labeling function through the following process.
  • the terminal 100 provides a label value (e.g., a good state (or good action)) for the state (or good action) of the division of each sub-robotics image according to the user input for the plurality of sub-robotics images into which the first robotics image is divided.
  • a label value e.g., a good state (or good action)
  • the terminal 100 provides a label value for the state (or good action) of the division of each sub-robotics image according to the user input for the plurality of sub-robotics images into which the first robotics image is divided.
  • a label value e.g., a good state (or good action)
  • a label value for an incorrect state e.g. a preset rejection/REJECT label
  • the division of the first robotics image into a plurality of sub-robotics images is performed based on information about the sub-robot motion images divided into a plurality of sub-robot motion images according to the performance of the hierarchical labeling function for the robot motion image.
  • the first robotics image is divided into a plurality of sub-robotics images, or the first robotics image is divided into a plurality of sub-robotics images according to the performance of an artificial intelligence function or an image analysis function on the robot operation image in the server 200. It may be a state.
  • the terminal 100 generates label values for the well-segmented state and the incorrectly divided state of the plurality of sub-robotics images according to the user input of the corresponding terminal 100 for the first robotics image.
  • Each input is received, and a label value for sorting the order of the plurality of sub-robotics images (or a label value indicating the order of the plurality of sub-robotics images/a label for adjusting the division point when the division point is wrong or needs adjustment) value) are input respectively.
  • the terminal 100 performs a selective labeling function for each body part through the following process.
  • the terminal determines the operation order of the avatars (or objects) included in the plurality of sub-robotics images according to user input with respect to the avatars (or objects) included in the plurality of robotics sub-images obtained by dividing the first robotics image.
  • a label value (or a label value for a good or incorrect state of the avatar's action sequence) is input for each, and the action sequence for each body part is determined from the actions of the avatar (or object) included in the plurality of sub-robotics images.
  • a label value indicating the order of the plurality of sub-robotics images is input according to user input.
  • the division of the first robotics image into a plurality of sub-robotics images is performed by dividing the first robotics image into a plurality of sub-robotics data based on information about the sub-robotics data divided into a plurality of parts according to the performance of the hierarchical labeling function for the robot motion image.
  • the first robotics image is divided into a plurality of sub-robotics images, or the first robotics image is divided into a plurality of sub-robotics images according to the performance of an artificial intelligence function or an image analysis function on the robot operation image in the server 200. It may be a state.
  • the terminal 100 generates a label value (or To receive the label value for the good or bad state of the avatar's action sequence, respectively, and to sort the order of the plurality of sub-robotics images (or the action sequence of the avatar included in the plurality of sub-robotics images)
  • a label value (or a label value indicating the order of the plurality of sub-robotics images/label value for adjusting the order of sub-robotics images including avatars) is input, respectively.
  • the terminal 100 may display one or more additional selection label values, one or more time series division selection label values, and one or more body part-specific values at one or more specific points in time (or another specific section) related to the first robotics image.
  • a selection label value, a label value for sorting the order of the plurality of sub-robotics images, identification information of the corresponding terminal 100, etc. are transmitted to the server 200.
  • the server 200 selects one or more additional selection label values and one or more time series divisions at one or more specific points in time (or another specific section) related to the first robotics image transmitted from the terminal 100.
  • a label value, a selection label value for one or more body parts, a label value for sorting the order of the plurality of sub-robotics images, identification information of the corresponding terminal 100, etc. are received.
  • the fourth terminal when the play bar in the view screen of the fourth terminal is selected, as shown in FIG. 32, the fourth terminal outputs the 1-3 robotics image to the image display area 3210, and the The third comparison target image is output to the comparison target image display area 3220. At this time, the fourth terminal outputs the 1-3 robotics image and the third comparison target image in synchronization.
  • the fourth terminal refers to a plurality of preset label classifications and, with respect to the output 1-3 robotics images, describes the fourth terminal in relation to detailed operations in the third surgery (for example, artificial joint surgery).
  • the 1-3 robotics image is divided into sections 1-3-1 to 1-3-15, which are a plurality of sections of 2 to 4 seconds, 1-3-1 label values to 1-3-15 label values for each of the divided 1-3-1 to 1-3-15 sections are respectively received.
  • the fourth terminal may use a label value (e.g., For example, from section 1-3-1 to section 1-3-5, section 1-3-11 to section 1-3-15, and section 1-3-6 to section 1-3-10. Label values for sorting) are received respectively.
  • a label value e.g., For example, from section 1-3-1 to section 1-3-5, section 1-3-11 to section 1-3-15, and section 1-3-6 to section 1-3-10. Label values for sorting
  • the fourth terminal is the 1-3-1 label value to the 1-3- for each of the 1-3-1 section to the 1-3-15 section related to the 1-3 robotics image.
  • 15 Label value, label value for sorting the order e.g., section 1-3-1 to section 1-3-5, section 1-3-11 to section 1-3-15, and section 1 Label values for sorting into sections -3-6 to 1-3-10), identification information of the fourth terminal, etc. are transmitted to the server 200.
  • the server 200 provides the 1-3-1 video for each of the 1-3-1 sections to the 1-3-15 sections related to the 1-3 robotics image transmitted from the fourth terminal.
  • Label value to 1-3-15 label value, label value for sorting the order e.g., 1-3-1 section to 1-3-5 section, 1-3-11 section to 1st -3-15 section and label value for sorting from 1-3-6 section to 1-3-10 section
  • identification information of the fourth terminal, etc. are received (S2960).
  • the server 200 performs another artificial intelligence-based machine learning based on the information about the first robotics image with the additional selection label, and classifies the first robotics image based on other machine learning results.
  • the classification value for the first robotics image (or the classification value for the first robotics image) may be a value obtained by classifying additional selection labeling values, additional layer labeling values, etc. by the same item.
  • the server 200 performs other machine learning (or other artificial intelligence/other deep learning) by using the information about the first robotics image with the additional selection label as an input value of the preset classification model, and other Based on the machine learning results (or other artificial intelligence results/other deep learning results), a classification value for the first robotics image is generated (or confirmed).
  • the server 200 may display the 1-3-1 information for each of the 1-3-1 section to the 1-3-15 section, which is information about the additional selection labeled 1-3 robotics image.
  • Another machine learning is performed using the label value to the 1-3-15 label value as an input value of the classification model, and based on the other machine learning results, the 1-3 robotics image is an Accept label, The 3-1 label value to the 1-3-5 label value, the 1-3-11 label value to the 1-3-15 label value, and the 1-3-6 label value to the first Reject label.
  • -3-10 Classify the label value (S2970).
  • the server 200 generates a classification value for the generated first robotics image (or a classification value for the first robotics image), information on the additionally selectively labeled first robotics image, and the corresponding first robotics image. , perform other machine learning (or other artificial intelligence/other deep learning) using meta information related to the first robotics image, the comparison target image, and meta information related to the comparison target image as input values, and other machine learning Based on the results (or other artificial intelligence results/other deep learning results), a second robotics image corresponding to the first robotics image is generated.
  • the second robotics image may be an image related to the movement of an avatar, item, or robot generated based on the first robotics image, or an image in which the first robotics image is updated.
  • the server 200 provides a classification value for the generated first robotics image (or a classification value for the first robotics image), information on the additionally selectively labeled first robotics image, and the corresponding first robotics image.
  • Other machine learning or other artificial intelligence/other deep learning is performed using meta information related to the first robotics image, the comparison target image, and meta information related to the comparison target image as input values of the preset prediction model. and generate a second robotics image related to the first robotics image based on other machine learning results (or other artificial intelligence results/other deep learning results).
  • the server 200 transmits the generated second robotics image to the terminal 100.
  • the terminal 100 receives the second robotics image transmitted from the server 200, and outputs the received second robotics image to the video display area instead of the first robotics image being output. .
  • the terminal 100 may split the screen of the terminal 100 and output them simultaneously while synchronizing the motion-related video, the comparison target video, the first robotics video, and the second robotics video.
  • the server 200 may send the 1-3-1 label value to the 1-3-5 label value and the 1-3-11 label value as an Accept label for the generated 1-3 robotics image.
  • the server 200 transmits the generated 2-3 robotics image to the fourth terminal.
  • the fourth terminal receives the 2-3 robotics image transmitted from the server 200, and replaces the 1-3 robotics image being output to the video display area, and displays the received 2-3 robotics image. Output the robotics video (S2980).
  • the server 200 performs the previous selective labeling process and classification model inference for the motion-related images of a plurality of real humans, virtual avatars, or items collected from a plurality of terminals 100 in relation to the specific topic.
  • process, prediction model inference process, additional selective labeling process for the generated first robotics image, additional classification model inference process, and additional prediction model inference process are each repeated, and the corresponding specific Create (or update) a second robotics video with collective intelligence related to the topic.
  • the server 200 provides the last updated (or most recently created) second video to the plurality of terminals 100 that provide motion-related images of real humans, virtual avatars, or items related to the specific topic.
  • Robotics images may be provided in real time or upon request from a specific terminal 100.
  • the server 200 may display the 201st motion-related video related to the third surgery (e.g., artificial joint surgery) provided from the 201st to 300th terminals 100 in addition to the fourth terminal, respectively.
  • the preceding selective labeling process, classification model inference process, prediction model inference process, additional selective labeling process for the generated first robotics image, additional classification model inference process, and additional prediction model inference process are performed to update the second robotics image that has become collectively intelligent in relation to the third surgery (S2990).
  • an embodiment of the present invention performs labeling on one or more raw data related to specific content provided by the user, and performs a learning function through a preset classification model and prediction model on the labeled raw data. Additional labeling is performed on the first image, which is the output value of the prediction model, and an additional learning function is performed on the additionally labeled first image through a classification model and prediction model to output a second image,
  • the inference ability of artificial intelligence can be improved by providing avatars and/or items to users and labeling raw data.
  • an embodiment of the present invention reconstructs motion-related images of real humans, virtual avatars, or items into robot motion images, performs labeling on the reconstructed robot motion images, and creates a labeled robot.
  • Performs a learning function through a preset classification model and prediction model for the motion image performs additional labeling on the first robotics image as a result of performing the learning function, and performs a classification model and prediction model on the additionally labeled first robotics image.
  • the present invention performs labeling on one or more raw data related to specific content provided by a user, performs a learning function on the labeled raw data through a preset classification model and prediction model, and produces a first output value of the prediction model.
  • a learning function on the labeled raw data through a preset classification model and prediction model
  • produces a first output value of the prediction model By performing additional labeling on the image, performing additional learning functions through a classification model and prediction model on the additionally labeled first image, and outputting a second image, avatars and/or items related to raw data are provided to the user.
  • the inference ability of artificial intelligence can be improved through labeling of raw data, so it has industrial applicability.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computer Graphics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 집단 지성을 이용한 정보 처리 시스템 및 그 방법을 개시한다. 즉, 본 발명은 사용자로부터 제공되는 특정 콘텐츠와 관련한 하나 이상의 로우 데이터에 대해서 라벨링을 수행하고, 라벨링된 로우 데이터에 대해서 미리 설정된 분류 모델 및 예측 모델을 통해 학습 기능을 수행하고, 예측 모델의 출력값인 제 1 영상에 대해서 추가 라벨링을 수행하고, 추가 라벨링된 제 1 영상에 대해서 분류 모델 및 예측 모델을 통해 추가 학습 기능을 수행하여 제 2 영상을 출력함으로써, 로우 데이터와 관련한 아바타 및/또는 아이템을 사용자에게 제공하고, 로우 데이터에 대한 라벨링을 통해 인공지능의 추론 능력을 향상시킬 수 있다.

Description

집단 지성을 이용한 정보 처리 시스템 및 그 방법
본 발명은 집단 지성을 이용한 정보 처리 시스템 및 그 방법에 관한 것으로서, 특히 사용자로부터 제공되는 특정 콘텐츠와 관련한 하나 이상의 로우 데이터에 대해서 라벨링을 수행하고, 라벨링된 로우 데이터에 대해서 미리 설정된 분류 모델 및 예측 모델을 통해 학습 기능을 수행하고, 예측 모델의 출력값인 제 1 영상에 대해서 추가 라벨링을 수행하고, 추가 라벨링된 제 1 영상에 대해서 분류 모델 및 예측 모델을 통해 추가 학습 기능을 수행하여 제 2 영상을 출력하는 집단 지성을 이용한 정보 처리 시스템 및 그 방법을 제공하는 데 있다.
집단 지성은 집단 구성원들이 서로 협력하거나 경쟁하여 쌓은 지적 능력의 결과로 얻어진 지성. 또는 그러한 집단적 능력을 나타낸다.
이러한 집단 지성은 아바타, 아이템, 로보틱스 등의 정보 데이터베이스 기술의 발전에 따라, 새로운 빅데이터 기반의 지식 서비스와의 연결에 대한 필요성이 존재한다.
본 발명의 목적은 사용자로부터 제공되는 특정 콘텐츠와 관련한 하나 이상의 로우 데이터에 대해서 라벨링을 수행하고, 라벨링된 로우 데이터에 대해서 미리 설정된 분류 모델 및 예측 모델을 통해 학습 기능을 수행하고, 예측 모델의 출력값인 제 1 영상에 대해서 추가 라벨링을 수행하고, 추가 라벨링된 제 1 영상에 대해서 분류 모델 및 예측 모델을 통해 추가 학습 기능을 수행하여 제 2 영상을 출력하는 집단 지성을 이용한 정보 처리 시스템 및 그 방법을 제공하는 데 있다.
본 발명의 다른 목적은 실제 인간, 가상의 아바타나 아이템 등의 동작 관련 영상을 로봇 동작 영상으로 재구성하고, 재구성된 로봇 동작 영상에 대해서 라벨링을 수행하고, 라벨링된 로봇 동작 영상에 대해서 미리 설정된 분류 모델 및 예측 모델을 통해 학습 기능을 수행하고, 학습 기능 수행 결과인 제 1 로보틱스 영상에 대해서 추가 라벨링을 수행하고, 추가 라벨링된 제 1 로보틱스 영상에 대해서 분류 모델 및 예측 모델을 통해 추가 학습 기능을 수행하여 제 2 로보틱스 영상을 출력하는 집단 지성을 이용한 정보 처리 시스템 및 그 방법을 제공하는 데 있다.
본 발명의 실시예에 따른 집단 지성을 이용한 정보 처리 시스템은 특정 주제와 관련해서 수집된 하나 이상의 로우 데이터, 상기 로우 데이터와 관련한 메타 정보, 비교 대상 영상, 상기 비교 대상 영상과 관련한 메타 정보 및 단말의 식별 정보를 전송하는 단말; 및 상기 단말로부터 전송되는 단말로부터 전송되는 특정 주제와 관련한 하나 이상의 로우 데이터, 상기 로우 데이터와 관련한 메타 정보, 비교 대상 영상, 상기 비교 대상 영상과 관련한 메타 정보 및 단말의 식별 정보를 수신하고, 상기 단말과 연동하여 상기 하나 이상의 로우 데이터를 대상으로 선택라벨링을 수행하고, 상기 선택라벨링된 로우 데이터에 대한 정보를 근거로 인공지능 기반의 기계 학습을 수행하여 기계 학습 결과를 근거로 상기 로우 데이터에 대한 분류값을 생성하고, 상기 생성된 로우 데이터에 대한 분류값, 상기 선택라벨링된 로우 데이터에 대한 정보, 상기 로우 데이터, 상기 로우 데이터와 관련한 메타 정보, 상기 비교 대상 영상 및 상기 비교 대상 영상과 관련한 메타 정보를 입력값으로 하여 기계 학습을 수행하고 기계 학습 결과를 근거로 상기 로우 데이터에 대응하는 제 1 영상을 생성하고, 상기 생성된 제 1 영상을 상기 단말에 전송하는 서버를 포함할 수 있다.
본 발명과 관련된 일 예로서 상기 서버는, 상기 단말과 연동하여 상기 제 1 영상을 대상으로 추가 선택라벨링을 수행하고, 상기 추가 선택라벨링된 제 1 영상에 대한 정보를 근거로 인공지능 기반의 기계 학습을 수행하여 기계 학습 결과를 근거로 상기 제 1 영상에 대한 분류값을 생성하고, 상기 생성된 제 1 영상에 대한 분류값, 상기 추가 선택라벨링된 제 1 영상에 대한 정보, 상기 제 1 영상, 상기 제 1 영상과 관련한 메타 정보, 상기 비교 대상 영상 및 상기 비교 대상 영상과 관련한 메타 정보를 입력값으로 하여 기계 학습을 수행하고, 기계 학습 결과를 근거로 상기 제 1 영상에 대응하는 제 2 영상을 생성하고, 상기 생성된 제 2 영상을 상기 단말에 전송할 수 있다.
본 발명과 관련된 일 예로서 상기 서버는, 상기 특정 주제와 관련해서, 복수의 단말로부터 제공되는 복수의 로우 데이터에 대해서, 앞선 선택라벨링 과정, 분류 모델 추론 과정, 예측 모델 추론 과정, 생성된 제 1 영상에 대한 추가 선택라벨링 과정, 추가 분류 모델 추론 과정 및, 추가 예측 모델 추론 과정을 각각 반복 수행하여, 상기 특정 주제와 관련해서 집단 지성화된 제 2 영상을 생성할 수 있다.
본 발명의 실시예에 따른 집단 지성을 이용한 정보 처리 방법은 서버에 의해, 단말로부터 전송되는 특정 주제와 관련한 하나 이상의 로우 데이터, 상기 로우 데이터와 관련한 메타 정보, 비교 대상 영상, 상기 비교 대상 영상과 관련한 메타 정보 및 단말의 식별 정보를 수신하는 단계; 상기 서버에 의해, 상기 단말과 연동하여, 상기 하나 이상의 로우 데이터를 대상으로 선택라벨링을 수행하는 단계; 상기 서버에 의해, 상기 선택라벨링된 로우 데이터에 대한 정보를 근거로 인공지능 기반의 기계 학습을 수행하여, 기계 학습 결과를 근거로 상기 로우 데이터에 대한 분류값을 생성하는 단계; 상기 서버에 의해, 상기 생성된 로우 데이터에 대한 분류값, 상기 선택라벨링된 로우 데이터에 대한 정보, 상기 로우 데이터, 상기 로우 데이터와 관련한 메타 정보, 상기 비교 대상 영상 및 상기 비교 대상 영상과 관련한 메타 정보를 입력값으로 하여 기계 학습을 수행하고, 기계 학습 결과를 근거로 상기 로우 데이터에 대응하는 제 1 영상을 생성하는 단계; 상기 서버에 의해, 상기 생성된 제 1 영상을 상기 단말에 전송하는 단계; 및 상기 단말에 의해, 상기 서버로부터 전송되는 제 1 영상을 출력하는 단계를 포함할 수 있다.
본 발명과 관련된 일 예로서 상기 하나 이상의 로우 데이터를 대상으로 선택라벨링을 수행하는 단계는, 상기 단말에 표시되는 로우 데이터에 대해서 사용자 입력에 따라 상기 로우 데이터 중 하나 이상의 특정 시점 및 하나 이상의 특정 구간 중 적어도 하나에서의 라벨값을 설정할 수 있다.
본 발명과 관련된 일 예로서 상기 하나 이상의 로우 데이터를 대상으로 선택라벨링을 수행하는 단계는, 상기 단말의 영상 표시 영역에 표시되는 로우 데이터에 대해서 상기 단말의 사용자 입력에 따라, 특정 시점 또는 특정 구간에서의 상기 로우 데이터에 포함된 객체의 움직임에 대한 잘된 행위 또는 잘못된 행위에 대해 라벨값을 설정할 수 있다.
본 발명과 관련된 일 예로서 상기 서버에 의해, 상기 하나 이상의 로우 데이터를 대상으로 선택라벨링을 수행하는 단계 이전에 또는 이후에, 상기 단말과 연동하여, 상기 하나 이상의 로우 데이터를 대상으로 계층라벨링을 수행하는 단계를 더 포함할 수 있다.
본 발명과 관련된 일 예로서 상기 하나 이상의 로우 데이터를 대상으로 계층라벨링을 수행하는 단계는, 상기 단말에 표시되는 로우 데이터에 대해서 미리 설정된 복수의 라벨 분류를 근거로 사용자 입력에 따라 상기 로우 데이터 중 다른 특정 시점 및 다른 특정 구간 중 적어도 하나에서의 라벨값을 설정하는 과정; 및 상기 로우 데이터를 복수의 서브 로우 데이터로 분할하는 과정을 포함할 수 있다.
본 발명과 관련된 일 예로서 상기 기계 학습 결과를 근거로 상기 로우 데이터에 대한 분류값을 생성하는 단계는, 상기 선택라벨링된 로우 데이터에 대한 정보를 미리 설정된 분류 모델의 입력값으로 하여 기계 학습을 수행하고, 기계 학습 결과를 근거로 상기 로우 데이터에 대한 분류값을 생성할 수 있다.
본 발명과 관련된 일 예로서 상기 기계 학습 결과를 근거로 상기 로우 데이터에 대응하는 제 1 영상을 생성하는 단계는, 상기 생성된 로우 데이터에 대한 분류값, 상기 선택라벨링된 로우 데이터에 대한 정보, 상기 로우 데이터, 상기 로우 데이터와 관련한 메타 정보, 상기 비교 대상 영상 및 상기 비교 대상 영상과 관련한 메타 정보를 미리 설정된 예측 모델의 입력값으로 하여 기계 학습을 수행하고, 기계 학습 결과를 근거로 상기 로우 데이터와 관련한 제 1 영상을 생성할 수 있다.
본 발명과 관련된 일 예로서 상기 서버에 의해, 상기 단말과 연동하여, 상기 제 1 영상을 대상으로 추가 선택라벨링을 수행하는 단계; 상기 서버에 의해, 상기 추가 선택라벨링된 제 1 영상에 대한 정보를 근거로 인공지능 기반의 기계 학습을 수행하여, 기계 학습 결과를 근거로 상기 제 1 영상에 대한 분류값을 생성하는 단계; 상기 서버에 의해, 상기 생성된 제 1 영상에 대한 분류값, 상기 추가 선택라벨링된 제 1 영상에 대한 정보, 상기 제 1 영상, 상기 제 1 영상과 관련한 메타 정보, 상기 비교 대상 영상 및 상기 비교 대상 영상과 관련한 메타 정보를 입력값으로 하여 기계 학습을 수행하고, 기계 학습 결과를 근거로 상기 제 1 영상에 대응하는 제 2 영상을 생성하는 단계; 상기 서버에 의해, 상기 생성된 제 2 영상을 상기 단말에 전송하는 단계; 상기 단말에 의해, 상기 서버로부터 전송되는 제 2 영상을 출력하는 단계; 및 상기 서버에 의해, 상기 특정 주제와 관련해서, 복수의 단말로부터 제공되는 복수의 로우 데이터에 대해서, 앞선 선택라벨링 과정, 분류 모델 추론 과정, 예측 모델 추론 과정, 생성된 제 1 영상에 대한 추가 선택라벨링 과정, 추가 분류 모델 추론 과정 및, 추가 예측 모델 추론 과정을 각각 반복 수행하여, 상기 특정 주제와 관련해서 집단 지성화된 제 2 영상을 생성하는 단계를 더 포함할 수 있다.
본 발명과 관련된 일 예로서 상기 제 1 영상을 대상으로 추가 선택라벨링을 수행하는 단계는, 상기 단말에 의해, 상기 로우 데이터에 대한 계층라벨링 기능 수행에 따라 복수로 분할된 서브 로우 데이터에 대한 정보를 근거로 상기 제 1 영상을 복수의 서브 영상으로 분할하는 과정; 상기 단말에 의해, 상기 분할된 복수의 서브 영상에 대해서 사용자 입력에 따라 잘된 행위에 대한 라벨값 또는 잘못된 행위에 대한 라벨값을 각각 입력받는 과정; 상기 단말에 의해, 상기 복수의 서브 영상의 순서를 정렬하기 위해서 사용자 입력에 따라 상기 복수의 서브 영상의 순서를 나타내는 라벨값을 입력받는 과정; 상기 단말에 의해, 상기 입력된 상기 복수의 서브 영상에 대한 잘된 행위와 잘못된 행위에 대한 라벨값, 상기 복수의 서브 영상에 대한 순서를 정렬하기 위한 라벨값 및 상기 단말의 식별 정보를 상기 서버에 전송하는 과정; 및 상기 서버에 의해, 상기 제 1 영상을 대상으로 한 시계열 분할 선택라벨링 기능 수행에 따라, 상기 단말로부터 전송되는 상기 복수의 서브 영상에 대한 잘된 행위와 잘못된 행위에 대한 라벨값, 상기 복수의 서브 영상에 대한 순서를 정렬하기 위한 라벨값 및 상기 단말의 식별 정보를 수신하는 과정을 포함할 수 있다.
본 발명과 관련된 일 예로서 상기 제 1 영상을 대상으로 추가 선택라벨링을 수행하는 단계는, 상기 단말에 의해, 상기 로우 데이터에 대한 계층라벨링 기능 수행에 따라 복수로 분할된 서브 로우 데이터에 대한 정보를 근거로 상기 제 1 영상을 복수의 서브 영상으로 분할하는 과정; 상기 단말에 의해, 상기 분할된 복수의 서브 영상에 포함된 아바타의 동작 순서에 대한 라벨값을 각각 입력받는 과정; 상기 단말에 의해, 상기 복수의 서브 영상에 포함된 아바타의 동작에서 신체부위별로 동작 순서를 정렬하기 위해서 사용자 입력에 따라 상기 복수의 서브 영상의 순서를 나타내는 라벨값을 입력받는 과정; 상기 단말에 의해, 상기 입력된 상기 복수의 서브 영상에 포함된 아바타의 동작 순서에 대한 라벨값, 상기 복수의 서브 영상에 대한 순서를 정렬하기 위한 라벨값 및 상기 단말의 식별 정보를 상기 서버에 전송하는 과정; 및 상기 서버에 의해, 상기 제 1 영상을 대상으로 한 신체부위별 선택라벨링 기능 수행에 따라, 상기 단말로부터 전송되는 상기 복수의 서브 영상에 포함된 아바타의 동작 순서에 대한 라벨값, 상기 복수의 서브 영상에 대한 순서를 정렬하기 위한 라벨값 및 상기 단말의 식별 정보를 수신하는 과정을 포함할 수 있다.
본 발명의 실시예에 따른 집단 지성을 이용한 정보 처리 시스템은 특정 주제와 관련해서 실제 인간, 아바타 및 아이템 중 적어도 하나와 관련한 동작 관련 영상 및, 상기 동작 관련 영상과 관련한 메타 정보를 수집하고, 상기 수집된 동작 관련 영상을 실제 로봇의 동작으로 구현하기 위해서, 상기 수집된 동작 관련 영상을 로봇 동작 영상으로 재구성하고, 단말과 연동하여 상기 로봇 동작 영상을 대상으로 선택라벨링을 수행하고, 상기 선택라벨링된 로봇 동작 영상에 대한 정보를 근거로 인공지능 기반의 기계 학습을 수행하여 기계 학습 결과를 근거로 상기 로봇 동작 영상에 대한 분류값을 생성하고, 상기 생성된 로봇 동작 영상에 대한 분류값, 상기 선택라벨링된 로봇 동작 영상에 대한 정보, 상기 로봇 동작 영상, 상기 로봇 동작 영상과 관련한 메타 정보, 상기 비교 대상 영상 및 상기 비교 대상 영상과 관련한 메타 정보를 근거로 상기 로봇 동작 영상에 대응하는 제 1 로보틱스 영상을 생성하고, 상기 생성된 제 1 로보틱스 영상을 상기 단말에 전송하는 서버; 및 상기 서버로부터 전송되는 제 1 로보틱스 영상을 출력하는 상기 단말을 포함할 수 있다.
본 발명과 관련된 일 예로서 상기 서버는, 상기 단말과 연동하여 상기 제 1 로보틱스 영상을 대상으로 추가 선택라벨링을 수행하고, 상기 추가 선택라벨링된 제 1 로보틱스 영상에 대한 정보를 근거로 인공지능 기반의 기계 학습을 수행하여 기계 학습 결과를 근거로 상기 제 1 로보틱스 영상에 대한 분류값을 생성하고, 상기 생성된 제 1 로보틱스 영상에 대한 분류값, 상기 추가 선택라벨링된 제 1 로보틱스 영상에 대한 정보, 상기 제 1 로보틱스 영상, 상기 제 1 로보틱스 영상과 관련한 메타 정보, 상기 비교 대상 영상 및 상기 비교 대상 영상과 관련한 메타 정보를 입력값으로 하여 기계 학습을 수행하고, 기계 학습 결과를 근거로 상기 제 1 로보틱스 영상에 대응하는 제 2 로보틱스 영상을 생성하고, 상기 생성된 제 2 로보틱스 영상을 상기 단말에 전송할 수 있다.
본 발명과 관련된 일 예로서 상기 서버는, 상기 특정 주제와 관련해서, 복수의 단말로부터 제공되는 복수의 실제 인간, 아바타 및 아이템 중 적어도 하나와 관련한 동작 관련 영상에 대해서, 앞선 선택라벨링 과정, 분류 모델 추론 과정, 예측 모델 추론 과정, 생성된 제 1 로보틱스 영상에 대한 추가 선택라벨링 과정, 추가 분류 모델 추론 과정 및, 추가 예측 모델 추론 과정을 각각 반복 수행하여, 상기 특정 주제와 관련해서 집단 지성화된 제 2 로보틱스 영상을 생성할 수 있다.
본 발명의 실시예에 따른 집단 지성을 이용한 정보 처리 방법은 서버에 의해, 특정 주제와 관련해서 실제 인간, 아바타 및 아이템 중 적어도 하나와 관련한 동작 관련 영상 및, 상기 동작 관련 영상과 관련한 메타 정보를 수집하는 단계; 상기 서버에 의해, 상기 수집된 동작 관련 영상을 실제 로봇의 동작으로 구현하기 위해서, 상기 수집된 동작 관련 영상을 로봇 동작 영상으로 재구성하는 단계; 상기 서버에 의해, 단말과 연동하여, 상기 로봇 동작 영상을 대상으로 선택라벨링을 수행하는 단계; 상기 서버에 의해, 상기 선택라벨링된 로봇 동작 영상에 대한 정보를 근거로 인공지능 기반의 기계 학습을 수행하여, 기계 학습 결과를 근거로 상기 로봇 동작 영상에 대한 분류값을 생성하는 단계; 상기 서버에 의해, 상기 생성된 로봇 동작 영상에 대한 분류값, 상기 선택라벨링된 로봇 동작 영상에 대한 정보, 상기 로봇 동작 영상, 상기 로봇 동작 영상과 관련한 메타 정보, 상기 비교 대상 영상 및 상기 비교 대상 영상과 관련한 메타 정보를 근거로 상기 로봇 동작 영상에 대응하는 제 1 로보틱스 영상을 생성하는 단계; 상기 서버에 의해, 상기 생성된 제 1 로보틱스 영상을 상기 단말에 전송하는 단계; 및 상기 단말에 의해, 상기 서버로부터 전송되는 제 1 로보틱스 영상을 출력하는 단계를 포함할 수 있다.
본 발명과 관련된 일 예로서 상기 서버에 의해, 상기 로봇 동작 영상을 대상으로 선택라벨링을 수행하는 단계 이전에 또는 이후에, 상기 단말과 연동하여, 상기 로봇 동작 영상을 대상으로 계층라벨링을 수행하는 단계를 더 포함할 수 있다.
본 발명과 관련된 일 예로서 상기 서버에 의해, 상기 단말과 연동하여, 상기 제 1 로보틱스 영상을 대상으로 추가 선택라벨링을 수행하는 단계; 상기 서버에 의해, 상기 추가 선택라벨링된 제 1 로보틱스 영상에 대한 정보를 근거로 인공지능 기반의 기계 학습을 수행하여, 기계 학습 결과를 근거로 상기 제 1 로보틱스 영상에 대한 분류값을 생성하는 단계; 상기 서버에 의해, 상기 생성된 제 1 로보틱스 영상에 대한 분류값, 상기 추가 선택라벨링된 제 1 로보틱스 영상에 대한 정보, 상기 제 1 로보틱스 영상, 상기 제 1 로보틱스 영상과 관련한 메타 정보, 상기 비교 대상 영상 및 상기 비교 대상 영상과 관련한 메타 정보를 입력값으로 하여 기계 학습을 수행하고, 기계 학습 결과를 근거로 상기 제 1 로보틱스 영상에 대응하는 제 2 로보틱스 영상을 생성하는 단계; 상기 서버에 의해, 상기 생성된 제 2 로보틱스 영상을 상기 단말에 전송하는 단계; 상기 단말에 의해, 상기 서버로부터 전송되는 제 2 로보틱스 영상을 출력하는 단계; 및 상기 서버에 의해, 상기 특정 주제와 관련해서, 복수의 단말로부터 제공되는 복수의 실제 인간, 아바타 및 아이템 중 적어도 하나와 관련한 동작 관련 영상에 대해서, 앞선 선택라벨링 과정, 분류 모델 추론 과정, 예측 모델 추론 과정, 생성된 제 1 로보틱스 영상에 대한 추가 선택라벨링 과정, 추가 분류 모델 추론 과정 및, 추가 예측 모델 추론 과정을 각각 반복 수행하여, 상기 특정 주제와 관련해서 집단 지성화된 제 2 로보틱스 영상을 생성하는 단계를 더 포함할 수 있다.
본 발명은 사용자로부터 제공되는 특정 콘텐츠와 관련한 하나 이상의 로우 데이터에 대해서 라벨링을 수행하고, 라벨링된 로우 데이터에 대해서 미리 설정된 분류 모델 및 예측 모델을 통해 학습 기능을 수행하고, 예측 모델의 출력값인 제 1 영상에 대해서 추가 라벨링을 수행하고, 추가 라벨링된 제 1 영상에 대해서 분류 모델 및 예측 모델을 통해 추가 학습 기능을 수행하여 제 2 영상을 출력함으로써, 로우 데이터와 관련한 아바타 및/또는 아이템을 사용자에게 제공하고, 로우 데이터에 대한 라벨링을 통해 인공지능의 추론 능력을 향상시킬 수 있는 효과가 있다.
또한, 본 발명은 실제 인간, 가상의 아바타나 아이템 등의 동작 관련 영상을 로봇 동작 영상으로 재구성하고, 재구성된 로봇 동작 영상에 대해서 라벨링을 수행하고, 라벨링된 로봇 동작 영상에 대해서 미리 설정된 분류 모델 및 예측 모델을 통해 학습 기능을 수행하고, 학습 기능 수행 결과인 제 1 로보틱스 영상에 대해서 추가 라벨링을 수행하고, 추가 라벨링된 제 1 로보틱스 영상에 대해서 분류 모델 및 예측 모델을 통해 추가 학습 기능을 수행하여 제 2 로보틱스 영상을 출력함으로써, 인공지능에 따른 결과물을 인공지능의 분류 모델 및 예측 모델에 반복적으로 적용하여 인공지능의 학습 능력을 향상시킬 수 있는 효과가 있다.
도 1은 본 발명의 실시예에 따른 집단 지성을 이용한 정보 처리 시스템의 구성을 나타낸 블록도이다.
도 2는 본 발명의 실시예에 따른 로우 데이터(실제 현실 데이터)의 계층적 군집화의 계통도이다.
도 3은 본 발명의 실시예에 따른 도 4 내지 도 6의 분할된 동작 동영상에서 입체도형의 정의를 나타낸 개념도이다.
도 4는 본 발명의 실시예에 따른 아바타(인간) 및/또는 로보틱스의 동작에 대한 n개의 정보 수집을 입체도형으로 나타낸 개념도이다.
도 5는 본 발명의 실시예에 따른 아바타(인간) 및/또는 로보틱스의 동작에 대한 n'개의 정보 수집을 입체도형으로 나타낸 개념도이다.
도 6은 본 발명의 실시예에 따른 아바타(인간) 및/또는 로보틱스의 동작에 대한 N개의 정보 수집을 입체도형으로 나타낸 개념도이다.
도 7은 본 발명의 실시예에 따른 데이터 단위 3을 기준으로 처리된 계층적 군집화의 계통도이다.
도 8은 본 발명의 실시예에 따른 디지털 단위 3을 기준으로 처리된 계층적 군집화의 계통도이다.
도 9는 본 발명의 실시예에 따른 데이터 단위 4를 기준으로 처리된 계층적 군집화의 계통도이다.
도 10은 본 발명의 실시예에 따른 디지털 단위 4를 기준으로 처리된 계층적 군집화의 계통도이다.
도 11은 본 발명의 실시예에 따른 디지털 단위 5를 기준으로 처리된 계층적 군집화의 계통도이다.
도 12는 본 발명의 실시예에 따른 유도 및/또는 추론 알고리즘에 정보처리된 데이터가 어떤 방식으로 적용되는지를 나타낸 순서도이다.
도 13은 본 발명의 실시예에 따른 GNN 회귀모델의 원리를 나타내는 도이다.
도 14는 본 발명의 실시예에 따른 GAN을 이용한 가상의 아바타 및 아이템의 생성 방법을 나타내는 도이다.
도 15는 본 발명의 실시예에 따른 기초 영상정보가 계속 수집될 경우, 기존 데이터와 같이 하나의 모델로 적용되는 원리를 나타내는 도이다.
도 16은 본 발명의 실시예에 따른 서버에서 작동하여 단말에서 출력 및 생성되는 시각렌더링의 원리를 나타내는 도이다.
도 17은 본 발명의 실시예에 따른 라벨링에 의해 디지털 단위가 생성되는 원리를 나타내는 도이다.
도 18은 본 발명의 실시예에 따른 집단지성 로보틱스가 서버에서 작동되는 원리를 나타내는 도이다.
도 19는 본 발명의 실시예에 따른 로보틱스 라벨링에 의해 집단지성 로보틱스가 고도화되는 원리를 나타내는 도이다.
도 20은 본 발명의 실시예에 따른 사용자 및 참여자 및 기업들이 이익을 창출하고 돈을 벌면서 재미요소를 배가하는 플랫폼으로서의 원순환 구조를 나타내는 도이다.
도 21은 본 발명의 실시예에 따른 GAN 및/또는 GNN을 이용한 가상 아바타 및 아이템의 생성 및/또는 출력 플랫폼 제공 방법을 나타내는 도이다.
도 22는 본 발명의 제 1 실시예에 따른 집단 지성을 이용한 정보 처리 방법을 나타낸 흐름도이다.
도 23 내지 도 28은 본 발명의 실시예에 따른 단말의 화면의 예를 나타낸 도이다.
도 29는 본 발명의 제 2 실시예에 따른 집단 지성을 이용한 정보 처리 방법을 나타낸 흐름도이다.
도 30 내지 도 32는 본 발명의 실시예에 따른 단말의 화면의 예를 나타낸 도이다.
본 발명에서 사용되는 기술적 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 발명에서 사용되는 기술적 용어는 본 발명에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 발명에서 사용되는 기술적인 용어가 본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는 당업자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 발명에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.
또한, 본 발명에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함한다. 본 발명에서 "구성된다" 또는 "포함한다" 등의 용어는 발명에 기재된 여러 구성 요소들 또는 여러 단계를 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
또한, 본 발명에서 사용되는 제 1, 제 2 등과 같이 서수를 포함하는 용어는 구성 요소들을 설명하는데 사용될 수 있지만, 구성 요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제 1 구성 요소는 제 2 구성 요소로 명명될 수 있고, 유사하게 제 2 구성 요소도 제 1 구성 요소로 명명될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 발명의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 발명의 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다.
도 1은 본 발명의 실시예에 따른 집단 지성을 이용한 정보 처리 시스템(10)의 구성을 나타낸 블록도이다.
도 1에 도시한 바와 같이, 집단 지성을 이용한 정보 처리 시스템(10)은 단말(100) 및 서버(200)로 구성된다. 도 1에 도시된 집단 지성을 이용한 정보 처리 시스템(10)의 구성 요소 모두가 필수 구성 요소인 것은 아니며, 도 1에 도시된 구성 요소보다 많은 구성 요소에 의해 집단 지성을 이용한 정보 처리 시스템(10)이 구현될 수도 있고, 그보다 적은 구성 요소에 의해서도 집단 지성을 이용한 정보 처리 시스템(10)이 구현될 수도 있다.
상기 단말(100)은 스마트폰(Smart Phone), 휴대 단말기(Portable Terminal), 이동 단말기(Mobile Terminal), 폴더블 단말기(Foldable Terminal), 개인 정보 단말기(Personal Digital Assistant: PDA), PMP(Portable Multimedia Player) 단말기, 텔레매틱스(Telematics) 단말기, 내비게이션(Navigation) 단말기, 개인용 컴퓨터(Personal Computer), 노트북 컴퓨터, 슬레이트 PC(Slate PC), 태블릿 PC(Tablet PC), 울트라북(ultrabook), 웨어러블 디바이스(Wearable Device, 예를 들어, 워치형 단말기(Smartwatch), 글래스형 단말기(Smart Glass), HMD(Head Mounted Display) 등 포함), 와이브로(Wibro) 단말기, IPTV(Internet Protocol Television) 단말기, 스마트 TV, 디지털방송용 단말기, AVN(Audio Video Navigation) 단말기, A/V(Audio/Video) 시스템, 플렉시블 단말기(Flexible Terminal), 디지털 사이니지 장치, VR 시뮬레이터, 로봇(robot) 등과 같은 다양한 단말기에 적용될 수 있다.
상기 서버(200)는 클라우드 컴퓨팅(cloud computing), 그리드 컴퓨팅(grid computing), 서버 기반 컴퓨팅(server-based computing), 유틸리티 컴퓨팅(utility computing), 네트워크 컴퓨팅(network computing), 퀀텀 클라우드 컴퓨팅(quantum cloud computing), 웹 서버, 데이터베이스 서버, 프록시 서버 등의 형태로 구현될 수 있다. 또한, 상기 서버(200)에는 네트워크 부하 분산 메커니즘, 내지 해당 서버(200)가 인터넷 또는 다른 네트워크상에서 동작할 수 있도록 하는 다양한 소프트웨어 중 하나 이상이 설치될 수 있으며, 이를 통해 컴퓨터화된 시스템으로 구현될 수 있다. 또한, 네트워크는 http 네트워크일 수 있으며, 전용 회선(private line), 인트라넷 또는 임의의 다른 네트워크일 수 있다. 나아가, 상기 단말(100) 및 상기 서버(200) 간의 연결은 데이터가 임의의 해커 또는 다른 제3자에 의한 공격을 받지 않도록 보안 네트워크로 연결될 수 있다. 또한, 상기 서버(200)는 복수의 데이터베이스 서버를 포함할 수 있으며, 이러한 데이터베이스 서버가 분산 데이터베이스 서버 아키텍처를 비롯한 임의의 유형의 네트워크 연결을 통해 상기 서버(200)와 별도로 연결되는 방식으로 구현될 수 있다.
상기 단말(100) 및 상기 서버(200) 각각은 다른 단말들과의 통신 기능을 수행하기 위한 통신부(미도시), 다양한 정보 및 프로그램(또는 애플리케이션)을 저장하기 위한 저장부(미도시), 다양한 정보 및 프로그램 실행 결과를 표시하기 위한 표시부(미도시), 상기 다양한 정보 및 프로그램 실행 결과에 대응하는 음성 정보를 출력하기 위한 음성 출력부(미도시), 각 단말의 다양한 구성 요소 및 기능을 제어하기 위한 제어부(미도시) 등을 포함할 수 있다.
상기 단말(100)은 상기 서버(200) 등과 통신한다. 이때, 상기 단말(100)은 해당 서버(200)에서 제공하는 전용 앱을 통해 로우 데이터 수집 기능, 정보/영상에 대한 계층라벨링 기능, 정보/영상에 대한 선택라벨링 기능, 정보/영상에 대한 시계열 분할 선택라벨링 기능, 정보/영상에 대한 신체부위별 선택라벨링 기능 등을 수행하기 위한 사용자(또는 특정 분야의 전문가)가 소지한 단말일 수 있다.
또한, 상기 단말(100)은 상기 서버(200)와의 연동에 의해, 상기 서버(200)에서 제공하는 전용 앱 및/또는 웹 사이트를 통해 로우 데이터 수집 기능, 정보/영상에 대한 계층라벨링 기능, 정보/영상에 대한 선택라벨링 기능, 정보/영상에 대한 시계열 분할 선택라벨링 기능, 정보/영상에 대한 신체부위별 선택라벨링 기능 등을 제공받기 위한 사용자로 회원 가입하며, 개인 정보 등을 상기 서버(200)에 등록한다. 이때, 상기 개인 정보는 아이디, 이메일 주소, 패스워드(또는 비밀번호), 이름, 성별, 생년월일, 연락처, 주소지(또는 주소정보) 등을 포함한다.
또한, 상기 단말(100)은 해당 단말(100)의 사용자가 가입한 SNS 계정 정보 또는 타사이트 계정 정보 또는 모바일 메신저 계정 정보를 이용하여 상기 서버(200)에 사용자로 회원 가입할 수도 있다. 여기서, 상기 SNS 계정은 페이스북, 트위터, 인스타그램, 카카오 스토리, 네이버 블로그 등과 관련한 정보일 수 있다. 또한, 상기 타사이트 계정은 유튜브, 카카오, 네이버 등과 관련한 정보일 수 있다. 또한, 상기 모바일 메신저 계정은 카카오톡(KakaoTalk), 라인(line), 바이버(viber), 위챗(wechat), 와츠앱(whatsapp), 텔레그램(Telegram), 스냅챗(snapchat) 등과 관련한 정보일 수 있다.
또한, 회원 가입 절차 수행 시, 상기 단말(100)은 본인 인증 수단(예를 들어 이동 전화, 신용카드, 아이핀 등 포함)을 통한 인증 기능을 완료해야 상기 서버(200)에 대한 회원 가입 절차를 정상적으로 완료할 수 있다.
또한, 회원 가입이 완료된 후, 상기 단말(100)은 상기 서버(200)에서 제공하는 서비스를 이용하기 위해서, 상기 서버(200)로부터 제공되는 전용 앱(또는 애플리케이션/응용 프로그램/특정 앱)을 해당 단말(100)에 설치한다. 이때, 상기 전용 앱은 네이티브 앱(Native App), 모바일 웹앱(Mobile WebApp), 반응형 웹앱(Mobile WebApp Design: RWD), 적응형 웹앱(Adaptive Web Design: AWD), 하이브리드 앱(Hybrid App) 등을 포함하며, 로우 데이터 수집 기능, 정보/영상에 대한 계층라벨링 기능, 정보/영상에 대한 선택라벨링 기능, 정보/영상에 대한 시계열 분할 선택라벨링 기능, 정보/영상에 대한 신체부위별 선택라벨링 기능 등을 수행하기 위한 앱일 수 있다.
또한, 회원 가입이 완료된 후, 상기 단말(100)은 상기 서버(200)에서 제공되는 할인 쿠폰을 해당 전용 앱을 통해 표시할 수 있다. 이때, 상기 할인 쿠폰은 해당 서버(200)에서 제공하는 로우 데이터 수집 기능, 정보/영상에 대한 계층라벨링 기능, 정보/영상에 대한 선택라벨링 기능, 정보/영상에 대한 시계열 분할 선택라벨링 기능, 정보/영상에 대한 신체부위별 선택라벨링 기능 등을 이용시 일정 비율의 할인 정보를 포함하는 할인 쿠폰일 수 있다.
또한, 상기 단말(100)은 상기 서버(200)에서 제공하는 기능들을 수행하기 위해서, 상기 서버(200) 및 결제 서버(미도시)와 연동하여, 구독 기능에 따라 결제 기능을 수행한다. 이때, 상기 서버(200)는 카드 결제, 은행의 결제 계좌 연동을 통한 자동 이체, 상기 서버(200)에 회원 가입한 상기 단말(100)의 계정에 남아 있는 현금성 포인트나 현금을 이용한 결제, 카카오페이, 네이버페이 등을 포함하는 간편결제 등을 통해 결제 기능을 수행할 수 있다.
결제가 실패한 경우, 상기 단말(100)은 상기 서버(200)(또는 상기 결제 서버)로부터 전송되는 결제가 실패한 상태임을 나타내는 정보(예를 들어 잔액 부족, 한도 초과 등 포함)를 수신하고, 상기 수신된 결제가 실패한 상태임을 나타내는 정보를 출력(또는 표시)한다.
또한, 상기 단말(100)은 결제 기능이 정상적으로 수행된 후, 상기 서버(200)로부터 전송되는 결제 기능 수행 결과를 수신한다. 여기서, 상기 결제 기능 수행 결과는 구독 기간, 결제 금액, 결제 일자 및 시각 정보 등을 포함한다.
또한, 상기 단말(100)은 해당 단말(100)에 미리 설치된 전용 앱을 실행하고, 전용 앱 실행에 따른 앱 실행 결과 화면을 표시한다. 여기서, 상기 앱 실행 결과 화면은 특정 주제와 관련한 하나 이상의 로우 데이터, 해당 로우 데이터와 관련한 메타 정보 등을 수집하기 위한 수집 메뉴(또는 버튼/항목), 수집된 정보나 상기 서버(200)로부터 제공되는 정보를 표시하기 위한 보기 메뉴, 환경 설정을 위한 설정 메뉴 등을 포함한다. 여기서, 상기 단말(100)은 해당 전용 앱을 제공하는 서버(200)에 회원 가입한 상태로, 회원 가입에 따른 아이디 및 비밀번호, 상기 아이디를 포함하는 바코드 또는 QR 코드 등을 이용해서 상기 전용 앱 실행 시 로그인 절차를 수행하여, 해당 전용 앱의 하나 이상의 기능(예를 들어 로우 데이터 수집 기능, 정보/영상에 대한 계층라벨링 기능, 정보/영상에 대한 선택라벨링 기능, 정보/영상에 대한 시계열 분할 선택라벨링 기능, 정보/영상에 대한 신체부위별 선택라벨링 기능 등 포함)을 수행할 수 있다.
또한, 상기 단말(100)에 표시되는 앱 실행 결과 화면에서 미리 설정된 수집 메뉴가 선택되는 경우, 상기 단말(100)은 사용자 설정에 따른 하나 이상의 시각 세트 장치(미도시)로부터 특정 주제와 관련해서, 하나 이상의 로우 데이터, 해당 로우 데이터와 관련한 메타 정보, 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보 등을 수집하기 위해서, 상기 선택된 수집 메뉴에 대응하는 수집 화면을 표시한다. 여기서, 상기 수집 화면은 사용자 선택(또는 사용자 입력/터치/제어)에 따라 해당 단말(100)과 연동하는 하나 이상의 시각 세트 장치를 선택하기 위한 정보 수집 대상 선택 항목, 선택된 정보 수집 대상으로부터 수집할 정보의 종류를 선택하기 위한 수집 정보 종류 선택 항목, 선택된 항목에 따라 해당 정보 수집 대상으로부터 정보를 수집하기 위한 수집 시작 항목 등을 포함한다.
또한, 상기 단말(100)은 해당 단말(100)에 표시되는 수집 화면에서 해당 단말(100)의 사용자 입력(또는 사용자/전문가 선택/터치/제어)에 따라 복수의 입력 항목에 대응하는 복수의 입력값을 수신한다. 여기서, 상기 복수의 입력값은 정보 수집 대상(또는 시각 세트 장치 정보/시각 세트 장치의 식별 정보), 수집할 정보의 종류(예를 들어 시퀀셜 정지영상(또는 복수의 시퀀셜 정지영상), 동영상, 측정값/센서값 등 포함) 등을 포함한다.
또한, 상기 단말(100)은 상기 수신된 복수의 입력값을 근거로 상기 하나 이상의 시각 세트 장치와 연동하여, 특정 주제와 관련해서, 하나 이상의 로우 데이터, 해당 로우 데이터와 관련한 메타 정보, 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보 등을 수집한다. 여기서, 상기 특정 주제(또는 특정 콘텐츠)는 의료 행위(예를 들어 시술, 수술 등 포함), 댄스, 운동 종목(예를 들어 축구, 농구, 탁구 등 포함), 게임, 이-스포츠(e-sport) 등을 포함한다. 이때, 상기 단말(100)은 해당 특정 주제와 관련해서 1명의 사용자로부터 1개의 로우 데이터를 수집할 수도 있고, 1명의 사용자로부터 서로 다른 복수의 로우 데이터(또는 어노테이션 단계(annotation 단계) 또는 어트리뷰트(attribute) 항목의 로우 데이터/기초 영상정보)를 수집할 수도 있다. 여기서, 상기 비교 대상 영상은 저작권, 초상권 등의 지식 재산권에 저촉되지 않는 콘텐츠일 수 있다.
상기 시각 세트 장치는 상기 단말(100), 상기 서버(200) 등과 통신한다.
또한, 상기 시각 세트 장치는 카메라부, 라이다, 아이트래커, 모션 캡처 및 모션트래커, 의료장비(예를 들어 CT, 스캐너, MRI, 의료용 초음파 등) 등을 포함한다.
또한, 상기 시각 세트 장치는 해당 시각 세트 장치가 구성된(또는 배치된/설치된) 장소(또는 영역)와 관련한 실제 현실의 영상(또는 실제 현실의 영상정보)을 획득(또는 수집/촬영/측정)한다. 여기서, 상기 실제 현실의 영상은 로우 데이터(raw data)(또는 원본 데이터/소스 데이터/시각 데이터)를 나타내며, 실제 현실에서 획득되는(또는 수집되는/촬영되는/측정되는) 시퀀셜 정지영상(또는 복수의 시퀀셜 정지영상/속성), 동영상(또는 타깃 속성), 측정값 등을 포함한다. 또한, 상기 측정값은 상기 라이다, 상기 아이트래커, 상기 모션 캡처 및 모션트래커, 상기 의료장비 등을 통해 측정되는 영상 정보(또는 3차원 데이터) 등을 포함한다. 또한, 상기 획득된 하나 이상의 실제 현실의 영상은 합병(merge)하여 사용할 수 있다.
또한, 상기 단말(100)은 지멘스 헬시니어스(Siemens Healthineers)가 마이크로소프트 홀로렌즈 2를 활용해 개발한 의료 보조 애플리케이션 시네마틱 리얼리티와 연동하여, 실제 현실의 영상을 획득할 수도 있다. 여기서, 상기 시네마틱 리얼리티는 의료용 CT, MRI 등으로부터 얻어지는 복셀 데이터를 렌더링하는 기능을 포함한다. 시네마틱 리얼리티로 렌더링된 데이터는 디지털 카데바, 3D 프린팅 인공 카데바 등을 제작하기 위한 데이터 셋으로 사용된다. 이때, 상기 복셀 데이터(boxel data)는 GNN 형태의 포인트 클라우드(point cloud) 데이터와 합병하여 사용한다.
도 2는 본 발명의 실시예에 따른 로우 데이터를 나타낸 도이다. 여기서, 상기 로우 데이터는 실제 현실의 영상(또는 실제 현실 데이터), 로봇 동작 영상(또는 로봇 동작 영상정보) 등을 포함한다. 이때, 상기 로봇 동작 영상은 실제 로봇의 작동을 시각세트장치로 수집한 것으로, 아바타 및/또는 아이템의 로우 데이터와 동일한 방식으로 도 1 내지 도 17, 도 22에 적용된다.
상기 도 2에 도시된 로우 데이터는 K1개의 군집(또는 시퀀셜 형태의 데이터/정지영상)을 나타낸다. 여기서, 상기 K는 자연수(또는 양의 정수)일 수 있다. 이때, 상기 서버(200)에 의해 생성되는 가상의 생성데이터(Augmentation 데이터)는 해당 로우 데이터에 포함된다.
또한, 상기 도 2의 로우 데이터를 이용해서 생성되는 가상의 생성데이터는 어트리뷰(attribute) 항목(또는 어노테이션(annotation) 단계의 복수의 데이터)으로 제공한다.
본 발명은 가상 수술 시뮬레이션 및 가상 치아 삭제 시뮬레이션에서 적은 양의 실제 수술 수집 데이터(또는 실제 현실의 영상정보/로우 데이터를 사용하여 성능을 극대화하는데 1차 목표가 있으며, 이를 위해 생성된 가상 디지털 카데바 생성데이터를 트레이닝 및 시뮬레이션 단계에서 제공하고, 상기 가상 디지털 카데바 생성데이터를 의사가 선택라벨링을 하는 방식으로 인공지능(또는 분류 모델/예측 모델)을 지도학습시킬 수 있다.
상기 디지털 카데바(digital cadaver)는 환자의 아바타이다. 디지털 카데바의 단점인 균일한 디지털 속성상 개별 환자의 상이한 신체 구조(또는 변이)를 반영하기 어려운 것을 보완하기 위해서 의료 현장에서의 정보 수집 장치(또는 상기 시각 세트 장치)(예를 들어 CT, X-Ray, 초음파 장치, 구강 스캐너 등 포함)로부터 수집된 의료 정보, 전문 인력의 경험, 전문 인력의 지식 등을 활용한다. 이런 종합적인 정보를 사용하여 특정 환자의 변이가 반영된 디지털 카데바 및 인공 카데바 사용을 병행하여, 가상현실(VR: virtual reality) 및 3D 시뮬레이터(미도시)의 가상 치료, 가상 수술 등을 진행할 수 있다.
또한, 상기 단말(100)은 상기 수집된 특정 주제와 관련한 하나 이상의 로우 데이터, 해당 로우 데이터와 관련한 메타 정보, 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보, 단말(100)의 식별 정보 등을 서버(200)에 전송한다. 여기서, 상기 단말(100)의 식별 정보는 MDN(Mobile Directory Number), 모바일 IP, 모바일 MAC, Sim(subscriber identity module: 가입자 식별 모듈) 카드 고유정보, 시리얼번호 등을 포함한다.
이때, 상기 로우 데이터와 관련한 비교 대상 영상이 해당 단말(100)에서 수집되지 않은 경우, 상기 단말(100)은 상기 수집된 특정 주제와 관련한 하나 이상의 로우 데이터, 해당 로우 데이터와 관련한 메타 정보, 상기 단말(100)의 식별 정보 등을 상기 서버(200)에 전송한다.
또한, 상기 단말(100)은 상기 전송에 응답하여 상기 서버(200)로부터 전송되는 해당 로우 데이터와 관련한 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보 등을 수신하고, 상기 수신된 해당 로우 데이터와 관련한 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보 등과 상기 수집된 특정 주제와 관련한 하나 이상의 로우 데이터, 해당 로우 데이터와 관련한 메타 정보 등을 매칭하여(또는 매핑하여/연동하여) 관리한다.
또한, 상기 단말(100)은 상기 수집된 특정 주제와 관련해서, 하나 이상의 로우 데이터, 해당 로우 데이터와 관련한 메타 정보, 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보 등을 표시(또는 출력)한다. 이때, 상기 단말(100)은 해당 로우 데이터 등에 가상현실, 증강현실, 확장현실, 혼합현실 등을 적용하여 표시(또는 출력)할 수도 있다.
즉, 상기 단말(100)에 표시되는 앱 실행 결과 화면에서 미리 설정된 보기 메뉴가 선택되는 경우, 상기 단말(100)은 수집된 정보나 상기 서버(200)로부터 제공되는 정보를 표시하기 위해서, 상기 선택된 보기 메뉴에 대응하는 보기 화면을 표시한다. 여기서, 상기 보기 화면은 상기 로우 데이터나 생성된 영상을 표시하기 위한 영상 표시 영역, 상기 비교 대상 영상을 표시하기 위한 비교 대상 영상 표시 영역, 계층라벨링을 위해 변수값(또는 라벨값)을 선택하기 위한 계층라벨 입력 메뉴, 선택라벨링을 위해 설정값을 선택하기 위한 선택라벨 입력 메뉴, 동영상에 대한 재생/일시정지/멈춤 기능 등을 제공하기 위한 재생바 등을 포함한다.
또한, 상기 단말(100)에 표시되는 앱 실행 결과 화면 내의 보기 화면에 포함된 재생바가 선택되는 경우 또는 해당 보기 화면 내의 재생 버튼이 선택되는 경우, 상기 단말(100)은 상기 수집된 로우 데이터를 상기 영상 표시 영역에 표시(또는 출력)하고, 상기 수집된 로우 데이터에 대응하는 비교 대상 영상(또는 상기 서버(200)로부터 제공받은 해당 로우 데이터에 대응하는 비교 대상 영상)을 상기 비교 대상 영상 표시 영역에 표시(또는 출력)한다. 이때, 상기 단말(100)은 상기 로우 데이터 및 상기 비교 대상 영상에 각각 대응하는 메타 정보를 근거로 해당 로우 데이터 및 상기 비교 대상 영상에 대해 동기화를 수행하여, 동기화된 로우 데이터 및 비교 대상 영상을 상기 영상 표시 영역 및 상기 비교 대상 영상 표시 영역에 각각 표시할 수 있다. 여기서, 상기 단말(100) 내의 상기 영상 표시 영역에 표시되는 로우 데이터 및 상기 비교 대상 영상 표시 영역에 표시되는 비교 대상 영상 중에서 어느 하나가 일시정지 기능 또는 멈춤 기능에 의해 멈추는 경우, 상기 단말(100)은 다른 하나도 함께 일시정지 기능 또는 멈춤 기능에 의해 멈추도록 제어한다.
또한, 상기 단말(100)은 상기 서버(200)와 연동하여, 해당 단말(100)에 표시되는 로우 데이터에 대해서, 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 해당 로우 데이터 중 특정 시점(또는 특정 구간)에서의 라벨(또는 라벨값)을 설정(또는 수신/입력)한다.
또한, 상기 단말(100)은 상기 단말(100)의 영상 표시 영역에 표시되는 로우 데이터에 대해서 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 특정 시점(또는 특정 구간)에서의 해당 로우 데이터에 포함된 객체의 움직임(또는 객체의 행위)에 대한 잘된 행위 또는 잘못된 행위에 대해 라벨(또는 라벨값)을 설정(또는 수신/입력)한다.
즉, 상기 단말(100)은 상기 영상 표시 영역에 표시되는 로우 데이터의 하나 이상의 특정 시점에서 사용자 입력에 따라 잘된 행위에 대한 라벨값(예를 들어 미리 설정된 승인/승낙/ACCEPT 라벨) 또는 잘못된 행위에 대한 라벨값(예를 들어 미리 설정된 거절/REJECT 라벨)을 각각 입력받는다.
이와 같이, 상기 단말(100)은 해당 특정 주제와 관련한 로우 데이터에 대해서, 해당 특정 주제와 관련한 전문가인 해당 단말(100)의 사용자 입력에 따라, 하나 이상의 특정 시점(또는 특정 구간)에서 하나 이상의 선택라벨(또는 선택라벨값)을 각각 설정(또는 수신/입력)한다.
또한, 이와 같이, 상기 단말(100)의 사용자는 해당 단말(100)에 표시되는(또는 출력되는) 로우 데이터에서 사용자 자신의 전문 지식을 기초로 판단하여, 잘못된 행위와 관련된 부분이 보이면, 해당 부분에는 거절 라벨을 선택하고, 잘된 행위와 관련된 부분에는 승인 라벨을 선택한다.
또한, 상기 단말(100)은 해당 로우 데이터에 마우스(미도시)의 드래그(drag)를 하거나 태그를 붙여서, 경계선과 경계면을 자동 인식하는 객체 인식 방법을 이용하여 2분법, 3분법, 다분법 등의 방식으로 해당 단말(100)에 표시되는 로우 데이터의 특정 시점(또는 특정 구간)에서 라벨을 붙일 수 있다. 여기서, 상기 선택라벨링(또는 선택레이블링/1차 선택라벨링/제 1 선택라벨링)은 상기 로우 데이터의 특정 시점(또는 특정 구간)에서의 오류(또는 이상) 유무에 대한 라벨(label)(또는 라벨값)을 설정하는(또는 붙이는) 라벨링 방법을 나타낸다. 이때, 상기 로우 데이터 중에서 상기 선택라벨링에 따라 라벨(또는 라벨값)이 설정되지 않은 시점(또는 구간)은 미리 설정된 디폴트 라벨값(예를 들어 승인 라벨)이 설정될 수 있다. 또한, 상기 단말(100)은 상기 로우 데이터 중에서 상기 승인 라벨이 붙지 않은 시점(또는 구간/속성/타깃 속성)에는 미리 설정된 not ACCEPT 라벨을 붙이고, 상기 로우 데이터 중에서 상기 거절 라벨이 붙지 않은 시점(또는 구간/속성/타깃 속성)에는 미리 설정된 not REJECT 라벨을 붙일 수도 있다.
또한, 상기 객체 인식(object recognition/object detection)을 위한 인공 신경망은 해당 단말(100)의 사용자가 해당 단말(100)에 표시되는 로우 데이터에 드래그를 하거나 태그를 붙이면, 하나 이상의 잘못된 동작 부위 및 동작을 탐지하여 이미지를 분리하고 분석한다. 또한, 상기 단말(100)은 인공 지능 추론 과정을 통해 사용자에게 추론 결과를 제공한다.
다양한 실시예로, 로우 데이터(또는 영상 정보)는 2D 영상 정보, 3D 영상 정보, 정지 영상의 포인트 클라우드 정보 등을 포함한다.
또한, 상기 단말(100)은 해당 단말(100)에 표시되는 로우 데이터(예를 들어 동영상)에서 해당 재생바 내의 타임 라인 상에서 사용자 입력에 따라 마우스의 화살표(또는 마우스의 포인트)를 이동하여 특정 시점에서 정지하여 정지 영상을 캡처한 다음, 해당 시각의 정지 영상에 경계선과 경계면을 자동 인식하여 마우스의 버튼과 화살표를 이용해서 태그를 붙인다. 또한, 상기 단말(100)은 동영상 중에서 캡처한 복수의 3D 정지 영상에 태그를 붙이면, 동영상 전체의 경계면과 경계선이 자동 인식되도록 제어한다.
또한, 상기 단말(100)에 출력되는 로우 데이터(또는 영상 정보) 전체에 대해 승인 라벨 또는 거절 라벨을 붙이고자 하는 경우, 상기 단말(100)은 사용자 입력에 따라 해당 단말(100)에 표시되는 승인 버튼 또는 거절 버튼을 직접 누르는 방식으로 가능하고, 세밀한 부분을 지정하여 승인 버튼 또는 거절 버튼을 눌러 라벨을 붙이고자 하는 경우, 마우스 드래그를 이용하여 경계선(예를 들어 직선, 곡선 등 포함)이나 경계면(예를 들어 폐곡선 등 포함)을 지정하거나 또는, 복수의 포인트를 마우스 버튼으로 지정한 다음에 승인 버튼이나 거절 버튼을 눌러 라벨을 붙일 수 있다.
본 발명의 일 실시예에서, 객체 인식의 방법에서 객체 탐지, 위치 측정, 객체 및 인스턴스 분할, 자세 추정 등이 적용되고, 동영상 분석을 위한 인스턴스 추적, 행동 인식, 움직임 추정 등에도 동일하게 적용된다. 또한, 동영상 클립에 포함된 동작을 감지하기 위해 합성곱 신경망과 결합하여 사용한다. 동작 감지, 장면 추출, 다음 프레임 예측, 객체 추적 등이 사용된다. 자동 인식된 경계선과 경계면을 기준으로 인터페이스에서 출력되는 객체 및 동작의 잘된 부분과 잘못된 부분에 각각 승인 버튼 또는 거절 버튼을 누르는 방식으로 해당 라벨을 붙인다.
본 발명의 일 실시예에서, 2D 영상 정보 및 3D 영상 정보의 복수의 포인트 클라우드에 마우스의 왼쪽 버튼을 눌러 태그를 붙이거나 및/또는 드래그를 하여 태그를 붙이면, 경계선 및 경계면의 자동 인식이 가능할 수 있다. 또한, 3D 정지 영상 중에서 x, y, z 좌표상에 존재하는 복수의 포인트 클라우드에 마우스 왼쪽 버튼을 눌러 태그를 붙이거나 드래그를 하여 태그를 붙이면, 잘된 정보와 잘못된 정보의 경계선이 자동 인식되고, 폐곡선에 의해 경계면이 자동 인식될 수 있다.
또한, 상기 정보 처리 시스템(10)은 기타 입력 장치(미도시)를 더 포함할 수 있다.
상기 기타 입력 장치는 상기 단말(100), 상기 서버(200) 등과 통신한다.
또한, 상기 기타 입력 장치는 로우 데이터(또는 영상 정보)에 태그를 붙이거나 드래그를 하여 라벨을 붙일 때 사용한다.
또한, 상기 기타 입력 장치는 컨트롤러, 아이 트래커(eye tracker), 데이터 글러브(data glove), 음성인식 인터페이스(speech recognition interface), 브레인 컴퓨터 인터페이스(Brain-Computer Interface: BCI), 손 추적 기술(hand tracking technology), 햅틱 장치(haptic device) 등을 포함한다.
다음은 상기 기타 입력 장치의 사용 방법의 예를 나타낸다.
즉, 상기 기타 입력 장치의 사용 방법은 마우스의 화살표나 버튼을 음성 인식 인터페이스와 브레인 컴퓨터 인터페이스로 작동시켜, 태그를 붙이거나 드래그를 하고 라벨을 붙이는 방법, 광선이 나오는 컨트롤러를 음성 인식 인터페이스와 브레인 컴퓨터 인터페이스로 작동시켜 태그를 붙이거나 드래그를 하고 라벨을 붙이는 방법, 아이 트래커를 음성 인식 인터페이스와 브레인 컴퓨터 인터페이스로 작동시켜 태그를 붙이거나 드래그를 하고 라벨을 붙이는 방법, 데이터 글러브를 손 추적 기술, 음성 인식 인터페이스, 브레인 컴퓨터 인터페이스로 작동시켜 태그를 붙이거나 드래그를 하고 라벨을 붙이는 방법 등을 포함한다.
본 발명의 일 실시예에서, 음성 인식 인터페이스로 컴퓨터의 마우스의 버튼을 직접 움직인다. 컨트롤러의 광선을 움직여서 태그를 붙이거나 드래그를 할 수도 있다. 또한, 아이 트래커를 사용하여 사용자의 응시를 감지해 시야각의 중심부에 태그를 붙이는 방법으로 분류하고자 하는 개체를 식별하여 객체에 라벨링을 수행한다. 또한, 데이터 글러브 및 손동작의 상호작용(또는 손동작 추적 기술)을 이용하여 사용자 인터페이스상의 영상에 태그를 붙이거나 객체에 경계선과 경계면을 만든다. 플랫폼 사용자(또는 각 분야 전문가 집단)가 사람의 뇌와 컴퓨터를 연결하는 브레인 컴퓨터 인터페이스 기술을 이용한다면, 플랫폼 사용자는 영상(예를 들어 정지 영상, 동영상 등 포함)을 보고, 경계선과 경계면에 마우스로 태그를 붙이거나 드래그를 한 다음 자신의 의지(또는 생각)만으로 정지 영상이나 동영상에 승인 버튼 또는 거절 버튼을 눌러 라벨을 붙일 수 있다. 더 나아가, 자신의 의지(또는 생각)만으로 정지 영상이나 동영상에서 경계선과 경계면을 만들기 위한 태그를 붙이거나 드래그를 한 다음, 구분된 정지 영상과 동영상에서 선택라벨링을 수행한다.
본 발명의 일 실시예에서, 브레인 컴퓨터 인터페이스와 순환 신경망, 합성곱 신경망, 다층 신경망 알고리즘 등과 로봇팔 기술을 융합하여 사용하면, 생각만으로도 해당 단말(100)의 화면에 표시되는 승인 버튼 또는 거절 버튼을 눌러 라벨을 붙이거나 선택라벨링을 할 수 있다. 또한, 상기 단말(100)은 뇌 기계 인터페이스, 뉴로모핍 칩 등을 이용하여 정지 영상 정보와 동영상 정보에 라벨링을 하고, 라벨링된 정보들로 계층적 군집화를 할 수도 있다.
본 발명의 일 실시예에서, 고도화된 브레인 컴퓨터 인터페이스가 개발되면, 해당 단말(100)에 표시되는 사용자 인터페이스(또는 화면)가 생각만으로 사용자의 머릿속에 나타나고, 사용자의 생각만으로 라벨링을 할 수도 있다. 또한, 상기 단말(100) 또는 상기 서버(200)는 라벨링된 정보들로 계층적 군집화를 하고, 분류 모델 및 예측 모델에 활용할 수 있다.
본 발명의 일 실시예에서, 정지 영상에서 잘못된 부분을 지정하는 방식은 다음과 같다.
치과 의사가 환자의 구강에 식립된 교정용 미니 임플란트의 위치가 자신의 의학 지식에 근거하여 적절한 위치보다 다소 높거나 낮다고 판단하면, 마우스 드래그를 이용하여 경계선(예를 들어 직선, 곡선 등 포함)이나 경계면(예를 들어 폐곡선 등 포함)을 지정하거나 복수의 포인트를 마우스 버튼으로 지정하고, 거절 버튼을 누를 수 있다. 이 부분은 거절 라벨이 붙게 된다.
본 발명의 일 실시예에서, 수술 동영상에서 잘못된 부분을 지정하고 라벨을 붙이는 방식은 다음과 같다.
먼저, 잘못된 의료 행위 및/또는 잘못된 의료 동작이 행해진 동영상 구간을 시계열(또는 해당 재생바 내의 타임 라인 상)에서 마우스의 화살표를 이용하여 한정한다. 해당 마우스의 화살표를 이동하여 선택된 시각과 시각의 사이에 존재하는 동영상 정보가 라벨을 붙일 정보로 한정된다.
본 발명의 일 실시예에서, 교정용 미니 임플란트를 식립하는 동영상에서 선택라벨링을 하고자 한다면, 동영상의 정지 화면 및/또는 동영상 화면에서 마우스 드래그나 마우스 버튼을 이용한 복수의 태그를 사용하여 경계선(예를 들어 곡선, 직선 등 포함) 및/또는 경계면(예를 들어 폐곡선 등 포함)이 되는 포인트 클라우드들을 지정한다. 이때, 선택하고자 하는 동영상이 자동 인식되고, 그 다음 순서로 인식된 동영상에 승인 버튼을 누를 수 있다.
또한, 상기 단말(100)은 상기 로우 데이터와 관련한 하나 이상의 특징 시점(또는 특정 구간)에서의 하나 이상의 선택라벨값, 해당 로우 데이터의 메타 정보, 해당 단말(100)의 식별 정보 등을 상기 서버(200)에 전송한다.
또한, 상기 단말(100)은 상기 서버(200)와 연동하여, 해당 하나 이상의 로우 데이터를 대상으로 선택라벨링을 수행하기 이전에 또는 수행한 이후에, 해당 하나 이상의 로우 데이터를 대상으로 계층라벨링을 수행하고, 계층라벨링 수행 전/후로 해당 하나 이상의 로우 데이터를 대상으로 선택라벨링을 수행할 수도 있다. 여기서, 상기 계층라벨링(또는 계층레이블링/1차 계층라벨링/제 1 계층라벨링)은 사용자에 의한 입력 피처 엔지니어링(input feature engineering)(또는 계층적 군집화 라벨링)으로, 해당 로우 데이터에 대한 특징을 나타내는 라벨(또는 라벨값)을 붙이고, 해당 로우 데이터를 특징에 따라 복수의 서브 로우 데이터로 분할(또는 분류)하는 라벨링 방법을 나타낸다.
즉, 상기 단말(100)은 상기 서버(200)와 연동하여, 해당 단말(100)에 표시되는 로우 데이터에 대해서, 해당 특정 주제와 관련해서 미리 설정된 복수의 라벨 분류를 참조하여(또는 근거로), 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 해당 로우 데이터 중 다른 특정 시점(또는 다른 특정 구간)에서의 라벨(또는 라벨값)을 설정(또는 수신/입력)한다.
다음의 [표 1] 내지 [표 11]은 특정 분야에서의 라벨 분류(또는 라벨 분류표)의 예를 나타낸다.
상기 라벨 분류는 인공지능이 학습할 정답 데이터 셋을 나타내며, 사용자가 참조하여 계층적 군집화 라벨링을 할 수 있도록 임의의 방식 및 단계별로 계층화한 분류를 나타낸다.
즉, 상기 [표 1] 내지 상기 [표 6]은 치과 대학교수(또는 의사 인플루언서)가 임플란트 수술 또는 라미네이트 시술을 하는 과정에서의 계층별 라벨값(또는 변수값)의 예를 나타낸다. 이때, 의사 인플루언서의 라벨 분류는 다양한 동작에 대해 m1×m2×m3×n×n'×N(각 라벨분류들의 곱)개 존재한다.
사용자는 라벨 분류를 참조하여 계층적 군집화 관련 변수값(또는 라벨값)을 도 23 내지 도 28 및 도 30 내지 도 32의 입력창(s1, s2, s3)에 입력한다.
제1 계층(201, 701, 801, 901, 1001, 1101)의 변수 s1의 변수값(또는 라벨값)이 입력되고, 제2 계층(102, 702, 802, 902, 1002, 1102)의 변수 s2의 변수값(또는 라벨값)이 입력되고, 제 3계층(203, 703, 803, 903, 1003, 1103)의 변수 s3의 변수값(또는 라벨값)이 입력된다. 계층의 개수에 따라 입력창의 개수가 늘어난다.
라벨분류를 참조한 사용자가 재생바(도 23내지 도 28, 도 29 내지 도 32) 내의 타임 라인 상에서 시각을 나타내는 표(또는 화살표)를 이동하여, 동영상을 분할하고자 하는 시점의 정지영상정보를 캡처한 후, ACCEPT 버튼을 누르거나 혹은 선택을 하면, 해당 선택시점이 동영상의 분할시점이 되며, 상기 단말(100)(또는 상기 서버(200))은 상기 선택된 ACCEPT 버튼에 대응하는 선택시점(또는 분할시점)에 따라 해당 동영상을 분할한다.
제4 계층(204, 704, 804, 904, 1004, 1104), 제5 계층(905, 1005, 1105), 제6 계층(1106) 등의 동영상정보는 라벨 분류의 라벨값(k, L, f)과 같은 순서대로 분할된다.
변수값(라벨값) 특정 아바타(외과 수술 분야) 정보 형태
1 설암 수술 문서 등
2 양악 수술(BSSRQ) 문서 등
3 대장암 수술 문서 등
... ... 문서 등
S1 치과 임플란트 수술 문서 등
... ... 문서 등
m1 간 이식 수술 문서 등
변수값(라벨값) 특정 아바타의 특정 동작(특정 변이를 갖는 환자들의 치과임플란트수술의 증례 혹은 특정 변이를 갖는 디지털카데바의 증례) 정보 형태
1 상악 구치부 골폭이 좁은 증례 영상 등
2 전치부 골폭이 좁고 치조골 소실이 많은 증례 영상 등
... ... 영상 등
S2 하악 구치부 골폭이 좁은 증례 영상 등
... ... 영상 등
m2 ... 영상 등
변수값(라벨값) 특정 동작의 특정 방식(하악 구치부골폭이 좁은 증례의 수술 방식) 정보 형태
1 ridge split을 한 후... 영상 등
2 3D stent를 이용하여 드릴이 안전하게 삽입... 영상 등
... ... 영상 등
S3 block bone을 이식한 수술 영상 등
... ... 영상 등
m3 ... 영상 등
변수값(라벨값) 특정 방식의 특정 단계(block bone 이식 수술 방식의 수술 단계) 정보 형태
1 절개 및 피판을 형성한다. ... 영상 등
2 block bone을 공여 부위에서 채취한다. ... 영상 등
... ... 영상 등
K 이식 부위에 block bone을 고정한다. 영상 등
... ... 영상 등
n 봉합 및 소독을 한다. ... 영상 등
변수값(라벨값) 세부 동작 단계 1(상악중절치 라미네이트 11번(치식) 삭제를 진행하는 30초 동영상) 정보 형태
1 치아 삭제 전에 미리 제작한 치아 삭제용 인덱스를 구강 및 치아에 위치시킨다. 영상 등
2 구강 및 치아에 위치된 인덱스를 치과 의사가 눈으로 확인하고 삭제량을 측정한다. 영상 등
... ... 영상 등
L 치아 절단부 3분의 1의 예상 삭제 깊이를 depth gage bur로 삭제한다. 영상 등
... ... 영상 등
n' 상악 중절치 전체 치아를 핸드피스의 트리밍 bur(다듬는 칼날)로 다듬고 미세하게 삭제한다. 영상 등
변수값(라벨값) 세부 동작 단계 2 (치식) 정보 형태
1 11(오른쪽 상악 중절치에 해당됨) 영상 등
2 12 영상 등
... ... 영상 등
f 35(좌측 하악 두 번째 작은 어금니 해당됨) 영상 등
... ... 영상 등
N 48(40번대 치열에서 사랑이에 해당됨) 영상 등
또한, 상기 [표 7] 내지 상기 [표 11]은 댄서(또는 춤 인플루언서)가 블랙핑크의 마지막처럼의 춤 동작에서의 계층별 라벨값(또는 변수값)의 예를 나타낸다.
변수값(라벨값) 특정 아바타 (딥페이크 할 게임 캐릭터) 정보 형태
1 BTS 진 영상 등
2 BTS 슈가 영상 등
... ... 영상 등
S1 블랙핑크 제니 영상 등
... ... 영상 등
m3 블랙핑크 지수 영상 등
변수값(라벨값) 특정 아바타의 특정 동작(제니의 댄스 동작 및 노래 종류) 정보 형태
1 Shut Down(4분 10초) 영상 등
... ... 영상 등
S2 마지막처럼(3분 14초) 영상 등
... ... 영상 등
m3 자 오늘 밤이야(3분 55초) 영상 등
변수값(라벨값) 특정 동작의 특정 방식(제니의 마지막처럼 방송 목록) 정보 형태
1 뮤직 뱅크 2022년 3월 14일 방송 영상 등
... ... 영상 등
S3 열린음악회 2022년 7월 8일 방송 영상 등
... ... 영상 등
m3 콘서트 2022년 6월 3일 녹화 영상 등
변수값(라벨값) 특정 동작의 특정 단계(열린음악회 2022년 7월 8일 방송) 정보 형태
1 좌측 그루브 영상 등
... ... 영상 등
K 앞뒤 웨이브 영상 등
... ... 영상 등
n 상체 팝핀 및 골반 튕기기 영상 등
변수값(라벨값) 세부 동작 단계 2(제니가 앞뒤 웨이브할 때가장 많이 움직이는 신체 부위의 순서) 정보 형태
1 왼쪽 팔을 든다. 영상 등
2 오른쪽 팔을 든다. 영상 등
3 가슴을 앞으로 내민다. 영상 등
4 배를 앞으로 내민다. 영상 등
5 골반을 앞으로 내민다. 영상 등
6 다리를 앞으로 내민다. 영상 등
이와 같이, 상기 [표 5] 및 상기 [표 10]은 사용자에 의해 동영상이 1초 ~ 3초 내외로 짧게 분할될 수 있도록 특징적인 동작으로 세부 분류된 라벨 분류이다. 상기 [표 1] 내지 [표 12]의 동일한 방식으로 실제 현실의 로봇 동작 영상이 라벨 분류로 제작될 수 있다.
또한, 상기 [표 6] 및 상기 [표11]은 아바타, 인간, 로봇 등의 신체부위에 라벨을 붙인 것으로 제 1, 2 계층라벨링, 선택라벨링, 추가 선택라벨링, 시계열분할 선택 라벨링, 신체부위별 선택라벨링 등에 사용되며, 전문가 집단이 임의로 설정한 라벨 분류이다.
신체부위별 선택은 단수 혹은 복수의 분할된 정지영상에서 신체의 각 세밀한 부위에 대한 객체 인식을 통해 신체의 세밀한 부위의 각 영상에 라벨분류 [표 6] 및 상기 [표 11]의 라벨 순서대로 라벨값을 불이는 방식이다. 재생바(시각을 나타내는 표) 또는 신체부위별 선택을 이용하여 데이터단위 5로 동영상을 분할 할 수 있다.
신체 부위별 선택(데이터단위 5를 생성, 동영상 분할, f)을 통한 계층라벨링은 사용자에 의해 실행되는 인풋 피쳐 엔지니어링이고, 이와 같은 신체부위별 선택은 생략될 수 있다. 서버(200)는 신체부위별 선택(세밀한 부위 신체의 객체인식 등)에 관한 라이브러리를 호출하여 자동으로 라벨링(라벨 f)을 하고 동영상을 분할(데이터단위 5)할 수 있다.
도 11은 데이터 단위 5를 기준으로 하는 계층적 군집화를 나타내는 도면으로 사용될 수 있다.
신체부위별 선택은 계층라벨링이고, 신체부위별 선택 라벨링은 서버(200)와 사용자의 상호작용(서버에 의한 동영상 분할시점(라벨값)에 대한 사용자의 판단 혹은 신체부위의 동작 순서에 대한 판단)을 통해 디지털단위 5를 생성하고, 동영상을 분할하는 라벨링이다.
시계열분할 선택(데이터단위 3, 4 생성)은 계층라벨링이고, 시계열분할 선택라벨링은 사용자의 상호작용(서버에 의한 동영상 분할시점(라벨값)에 대한 사용자의 판단)을 통해 디지털단위 3, 4를 생성하고, 동영상을 분할하는 라벨링이다.
세부 동작 단계는 동영상을 분할하는 방식에 따라 세부 동작 단계 1과 세부 동작 단계 2로 분류한다. 여기서, 상기 세부 동작 단계 1은 시계열 분할 선택라벨링에 의한 동작 단계의 세부 분할이고, 상기 세부 동작 단계 2는 신체 부위별 선택라벨링에 의한 동작 단계의 세부 분할이다.
본 발명의 일 실시예에서, 라벨 분류 [표 9]의 제니의 마지막처럼(3분 14초) 노래의 열린음악회 2022년 7월 8일 방송의 댄스 동작이 사용자의 HMD(Head-mounted display)를 통해서 영상으로 출력된다. 제니의 영상은 동영상 형태이고, 분할된 형태로 사용자에게 보일 수 있다. 사용자는 라벨값을 순서대로 정지 영상을 시청할 수 있고, 분할된 동영상의 끝부분 정지 영상을 볼 수 있다.
사용자는 HMD를 통해서 출력된 제니의 영상을 참조하여, 제니의 동작과 유사하거나 동일한 동작을 VR 트레드밀(treadmill)상에서 실행하고, 사용자의 동작 영상 정보는 상기 시각 세트 장치로 수집되어 로우 데이터(또는 기초 영상/기초 영상 정보)로 사용된다. 사용자는 자신의 선택에 따라, 제니의 동작과 합성된 자신의 아바타를 생성할 수도 있고, 자신의 모습과 동작이 제니의 동작과 합성되지 않고 그대로 출력되도록 할 수도 있다.
이때, 사용자는 제니의 동작에 있어서, 정지된 상태로 보이는 정지 영상과 정지 영상의 라벨값을 참조하여, 자신의 아바타 및 타인의 아바타에 대해 계층라벨링, 선택라벨링, 시계열 분할 선택라벨링, 신체부위별 선택라벨링 등을 수행한다. 사용자는 제니의 아바타와 인공지능에 의해 합성되어 생성된 자신의 아바타 및 타인의 아바타의 동작을 HMD를 통해 제 3 자적 시점에서 시청할 수도 있고, 라벨 분류 [표 9]의 제니의 마지막처럼(3분 14초) 노래의 열린음악회 2022년 7월 8일 방송의 댄스 동작과 비교하여 상기 라벨링을 수행한다.
사용자는 제니의 동작을 수차례 걸쳐 따라할 수 있고, 이러한 춤 동작인 기초 영상 정보(또는 로우 데이터)는 상기 단말(100)에 의해 수집되어 상기 서버(200)에 전송할 수 있다. 수차례의 춤 동작 정보는 어트리뷰트(attribute) 항목(또는 어노테이션 단계)의 복수의 데이터(또는 복수의 로우 데이터)이다.
본 발명의 일 실시예에서, 상기 [표 1] 내지 [표 6]은 치과 대학교수(또는 의사 인플루언서)가 임플란트 수술 또는 라미네이트 시술을 하는 과정에서의 계층별 라벨값(또는 변수값)의 예를 나타내며, 치과대학 학생이나 치과 의사들은 정답 데이터 셋인 상기 [표 1] 내지 [표 6]의 라벨 분류를 HMD를 통해 시청하면서, 치아삭제 VR 시뮬레이터(미도시)를 이용하여, 디지털 카데바에 가상 수술, 가상 시술 등을 진행할 수 있고, 라벨링을 진행할 수 있다.
이때, 상기 단말(100)에 표시되는 앱 실행 결과 화면 내의 보기 화면에 포함된 재생바가 선택되는 경우 또는 해당 보기 화면 내의 재생 버튼이 선택되는 경우, 상기 단말(100)은 상기 수집된 로우 데이터를 상기 영상 표시 영역에 표시(또는 출력)하고, 상기 수집된 로우 데이터에 대응하는 비교 대상 영상(또는 상기 서버(200)로부터 제공받은 해당 로우 데이터에 대응하는 비교 대상 영상)을 상기 비교 대상 영상 표시 영역에 표시(또는 출력)한다. 이때, 상기 단말(100)은 상기 로우 데이터 및 상기 비교 대상 영상에 각각 대응하는 메타 정보를 근거로 해당 로우 데이터 및 상기 비교 대상 영상에 대해 동기화를 수행하여, 동기화된 로우 데이터 및 비교 대상 영상을 상기 영상 표시 영역 및 상기 비교 대상 영상 표시 영역에 각각 표시할 수 있다. 여기서, 상기 단말(100) 내의 상기 영상 표시 영역에 표시되는 로우 데이터 및 상기 비교 대상 영상 표시 영역에 표시되는 비교 대상 영상 중에서 어느 하나가 일시정지 기능 또는 멈춤 기능에 의해 멈추는 경우, 상기 단말(100)은 다른 하나도 함께 일시정지 기능 또는 멈춤 기능에 의해 멈추도록 제어한다.
또한, 상기 단말(100)은 상기 단말(100)의 영상 표시 영역에 표시되는 로우 데이터에 대해서 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 다른 특정 시점(또는 다른 특정 구간)에서의 해당 로우 데이터에 포함된 객체의 움직임(또는 객체의 행위)에 대한 하나 이상의 단계별 라벨(또는 라벨값)을 설정(또는 수신/입력)한다.
즉, 상기 단말(100)은 상기 영상 표시 영역에 표시되는 로우 데이터의 하나 이상의 다른 특정 시점(또는 다른 특정 구간)에서 사용자 입력에 따라 해당 로우 데이터에 포함된 객체의 움직임(또는 객체의 행위)에 대해 계층적으로(hierarchical) 객체의 특정 동작, 특정 동작의 특정 방식, 특정 방식의 특정 단계 등에 대해 계층라벨(또는 계층라벨값)을 각각 입력받는다.
이와 같이, 상기 단말(100)은 해당 특정 주제와 관련한 로우 데이터에 대해서, 해당 특정 주제와 관련한 전문가인 해당 단말(100)의 사용자 입력에 따라, 하나 이상의 다른 특정 시점(또는 다른 특정 구간)에서 하나 이상의 계층라벨(또는 계층라벨값)을 각각 설정(또는 수신/입력)한다.
또한, 상기 단말(100)은 계층라벨링 과정을 수행한 전/후로, 앞서 설명한 선택라벨링 과정을 수행한다.
이와 같이, 상기 단말(100)은 특정 아바타, 인간, 로봇 등의 동작별 및/또는 특정 방식별 및/또는 특정 단계별 및/또는 세부동작 단계별로 아바타, 인간, 로봇 등의 동작을 계층적으로 분류한 라벨 분류를 참조하여, 라벨값을 입력하는 계층적 군집화 라벨링인 계층라벨링을 수행한다.
어떤 특정 환자와 비슷한 해부학적 구조(또는 특정 변이)를 가진 환자들의 시술 또는 수술과 관련한 동작은 특정 아바타, 인간, 로봇 등의 특정 동작에 포함된다.
치과 시술 혹은 외과수술의 계층적 군집화에서 상기 [표 2] 내지 [표 3]의 특정 증례의 특정 방식의 라벨 분류는 상기 [표 7] 내지 [표 9]에서 특정 아바타, 인간, 로봇 등의 특정 동작별, 특정 동작의 방식별의 라벨 분류에 포함된다.
본 발명의 일 실시예에서, 상기 서버(200)에서 계층라벨링의 라벨값을 학습한 인공 지능이 상기 단말(100)의 사용자에게 라벨값 또는 영상 정보를 반환하고, 사용자는 이에 대해 승인 라벨 또는 거절 라벨을 붙일 수 있다.
다양한 실시예에서, 사용자는 각 분야의 직업을 갖는 전문가(예를 들어 도메인 전문가, 치과의사, 의사, 축구선수, 댄서 등 포함)일 수 있다.
도 3의 직육면체(301)는 도 4 내지 도 6의 타깃 속성인 분할된 동영상의 동영상 정보이고, k번째 단계의 분할된 동작의 동영상 정보(405), L번째 단계의 분할된 동작의 동영상 정보(505), f번째 단계의 분할된 동작의 동영상 정보(605)를 나타낸다. 여기서, 시작부분 yz 평면(302) 또는 끝부분 yz 평면(303)은 속성인 정지 영상 정보를 나타낸다.
여기서, 변수 m1, m2 및 m3는 임의의 양의 정수(또는 자연수)를 나타내고, s1, s2 및 s3는 변수를 나타내고,
Figure PCTKR2023006127-appb-img-000001
,
Figure PCTKR2023006127-appb-img-000002
,
Figure PCTKR2023006127-appb-img-000003
를 나타내고, k는 변수를 나타내고,
Figure PCTKR2023006127-appb-img-000004
을 나타내고, 변수 n, n' 및 N은 임의의 양의 정수(또는 자연수)를 나타내고, L과 f는 변수를 나타내고,
Figure PCTKR2023006127-appb-img-000005
Figure PCTKR2023006127-appb-img-000006
을 나타낸다.
사용자는 제 1 속성 및 제 1 타깃 속성에 해당하는 로우 데이터(또는 동영상 정보)의 출력을 해당 단말(100)에 표시되는 화면에서 먼저 확인하고서, 라벨 분류를 참조하여 계층적 군집화 관련 변수값(또는 라벨값)을 해당 단말(100)에 표시되는 화면에서 입력한다.
또한, 상기 단말(100)은 아바타, 인간, 로봇 등의 동작 등에 관련한 영상 정보(예를 들어 속성, 타깃 속성 등 포함)를 출력한다.
또한, 상기 도 4 내지 상기 도 6에서의 속성 및 타깃 속성은 상기 서버(200)에 의해 생성된 가상의 아바타, 아이템, 인간, 로봇 등의 동작 관련 영상 정보일 수 있다.
또한, 상기 단말(100)은 해당 보기 화면 내의 계층라벨 입력 메뉴에 포함된 복수의 입력창을 통해서 사용자 입력에 따른 제 1 계층의 변수 S1의 변수값(라벨값)을 수신하고, 제 2 계층의 변수 S2의 변수값(또는 라벨값)을 수신하고, 제 3 계층의 변수 S3의 변수값(또는 라벨값)을 수신한다. 이때, 상기 계층라벨 입력 메뉴에 포함된 복수의 입력창은 설계자의 설계에 따라 계층의 개수에 따라 다양하게 설정할 수 있다.
또한, 제 4 계층, 제 5 계층 및 제 6 계층의 동영상 정보는 라벨 분류의 라벨값(예를 들어 k, L, f)과 같은 순서대로 분할된다.
본 발명의 일 실시예에서, 사용자가 단계를 분할하는 방법은 상기 재생바 내의 타임 라인 상에서 시각을 나타내는 표(또는 화살표)를 시간축에서 마우스로 이동시키고, 분할시키고자 하는 동영상의 시각을 확인한 다음 마우스로 선택한다.
본 발명의 실시예에서는 상기 사용자가 상기 라벨 분류를 참조하여 특정 로우 데이터와 관련한 계층라벨링을 설정하는 것을 주로 설명하고 있으나, 이에 한정되는 것은 아니며, 상기 단말(100)은 해당 단말(100)의 사용자 입력에 따라, 단계별로(또는 계층별로/캐스케이드 형태로) 계층라벨링값을 직접 입력받을 수도 있다.
상기 도 4는 동영상(또는 기다란 입체 도형)이 n개로 분할된 상태의 예를 나타내고, 상기 도 5는 동영상이 n'개로 분할된 상태의 예를 나타내고, 상기 도 6은 동영상이 N개로 분할된 상태의 예를 나타낸다. 여기서, 상기 n, n' 및 N은
Figure PCTKR2023006127-appb-img-000007
,
Figure PCTKR2023006127-appb-img-000008
Figure PCTKR2023006127-appb-img-000009
을 만족하고, 변수 k, L 및 f는 양의 정수(또는 자연수)를 나타낸다.
상기 도 4 내지 상기 도 6은 아바타(또는 사람)의 동작 1회를 입체 도형으로 표현한 것이다. 첫 번째 사각형(검정색 표시)은 동작(또는 동영상)의 시작부분 정지영상 정보(401, 501, 601)이고, 마지막 사각형(검정색 표시)은 동작(또는 동영상)의 끝부분 정지영상 정보(404, 504, 604)이고, x축은 시간이고, yz평면(사각형)은 정지영상 정보이고, 분할된 직육면체는 분할된 동영상을 나타낸다.
상기 도 4 내지 상기 도 6의 분할된 입체도형 1개는 상기 도 3의 직육면체(301)에 해당(또는 대응)한다.
또한, 상기 도 5의 분할된 입체도형 1개는 기다란 직육면체가 n'개로 분할된 것이고, 상기 도 6의 분할된 입체도형 1개는 기다란 직육면체가 N개로 분할된 것이다. 상기 도 4 내지 상기 도 6의 기다란 막대모양의 직육면체는 아바타의 전체 동작 관련 동영상 정보를 입체도형으로 나타낸 것이다.
또한, 상기 도 3을 참조하면, 검정색 형태의 사각형인 끝부분 yz 평면(303)은 속성(또는 정지영상)이고, 직육면체(301)는 분할된 동작의 동영상(또는 타깃 속성)이다.
다음은 소괄호의 순서대로 매칭된다. 상기 도 4 내지 상기 도 6의 (k, L, f)번째 시작부분 정지영상정보(402, 502, 602)는 상기 도 3의 시작부분 정지영상정보(302)를 나타내고, (k, L, f)번째 끝부분 정지영상정보(403, 503, 603)는 상기 도 3의 끝부분 정지영상정보(303)를 나타내고, (k, L, f)번째 시작부분 정지영상정보(402, 502, 602)와 (k-1, L-1, f-1)번째 끝부분 정지영상정보(403, 503, 603)는 동일하다. 상기 도 4 내지 상기 도 6의 (k, L, f)번째 끝부분 정지영상정보(403, 503, 603)는 속성이고, 분할된 동작 동영상의 (k, L, f)번째 단계(405, 505, 605)는 타깃 속성이다. 상기 도 3 내지 상기 도 6에서 데이터 단위 1은 아바타, 인간, 로봇 등의 1회 동작 전체 동영상의 시작부분 정지영상정보(401, 501, 601)와 전체 동영상의 끝부분 정지영상정보(404, 504, 604)의 합을 나타내고, 데이터 단위 2는 아바타, 인간, 로봇 등의 분할된 동작 동영상의 최초 단계 정지영상정보로부터 마지막 단계 정지영상정보까지의 합을 나타낸다.
상기 도 4에서 데이터 단위 3은 아바타, 인간, 로봇동작 등의 분할된 동작 동영상의 k번째 단계의 동영상정보와 k번째 단계의 끝부분 정지영상정보의 합을 나타낸다.
상기 도 5에서 데이터 단위 4는 아바타, 인간, 로봇동작 등의 분할된 동작 동영상의 L번째 단계의 동영상정보와 L번째 단계의 끝부분 정지영상정보의 합을 나타낸다.
상기 도 6에서 데이터 단위 4는 아바타, 인간, 로봇동작 등의 분할된 동작 동영상의 f번째 단계의 동영상정보와 f번째 단계의 끝부분 정지영상정보의 합을 나타낸다.
도 7은 데이터 단위 1, 2, 3을 기준으로 하는 계층적 군집화를 나타내고, 도 9는 데이터 단위 1, 2, 3, 4를 기준으로 하는 계층적 군집화를 나타낸다.
상기 데이터 단위 3에서 속성은 아바타, 인간, 로봇동작 등의 분할된 동작 동영상의 k번째 단계의 끝부분 정지영상정보(403)이고, 상기 도 4에서의 검정색 표시의 사각형을 나타낸다.
또한, 상기 데이터 단위 4에서의 속성은 아바타, 인간, 로봇동작 등의 분할된 동작 동영상의 L번째 단계의 끝부분 정지영상정보(503)이고, 상기 도 5에서의 검정색 표시의 사각형을 나타낸다.
또한, 상기 데이터 단위 5에서의 속성은 아바타, 인간, 로봇동작 등의 분할된 동작 동영상의 f번째 단계의 끝부분 정지영상정보(603)이고, 상기 도 6에서의 검정색 표시의 사각형을 나타낸다.
본 발명의 실시예에 따른 분류 모델 및 예측 모델(또는 유도 및/또는 추론 모델)에서 사용되는 데이터 단위 3, 데이터 단위 4, 데이터 단위 5 등은 상기 도 3의 분할된 직육면체(301)일 수 있다.(디지털 단위도 동일)
상기 도 2는 실제 현실의 데이터(또는 로우 데이터)에 대한 계층적 군집화의 계통도(900)로써, K1개의 군집을 나타낸다. 로우 데이터(실제 현실 데이터)에는 시각세트 장치로 수집한 로봇동작 영상정보가 포함된다. 로봇동작 영상정보를 로우 데이터로 사용할 경우 도 22는 로봇트레이닝에 사용될 수 있다.
상기 도 7 또는 상기 9는 데이터 단위에 의해 동영상의 단계가 분할될 때 붙여진 라벨값에 의해 만들어진 계층적 군집화의 계통도이다.
상기 도 7은 데이터 단위 3에 근거한 K2개의 군집을 나타내고, 상기 도 9는 데이터 단위 4에 근거한 K4개의 군집을 나타낸다.
본 발명의 일 실시예에서, 시작부분 정지영상정보도 속성이고, 타깃 속성과의 합으로 데이터 단위가 되고, 알고리즘의 방향성에 있어서 순방향의 동영상 생성 및 출력에 사용된다.
본 발명의 일 실시예에서, 증례, 방식, 단계별 계층적 군집화와 관련한 라벨링 방식은 다음과 같다.
앞선 [표 1] 내지 [표 6]은 의사 및 치과의사들의 의료 분야 전문지식에 근거하여 제작된 것으로, 상기 단말(100)에 표시되는 앱 실행 결과 화면(또는 보기 화면)에서 변수값(또는 라벨값)을 입력하기 위해 제시된 라벨 분류들의 예시이다.
상기 [표 1]은 수술 분야의 변수값(또는 라벨값)을 입력하기 위한 예시이고, 상기 [표 2]는 수술 증례의 변수값(또는 라벨값)을 입력하기 위한 예시이고, 상기 [표 3]은 수술 방식의 변수값(또는 라벨값)을 입력하기 위한 예시이고, 상기 [표 4]는 수술 단계의 변수값(또는 라벨값)을 입력하기 위한 예시이다. 이것은 임상적인 기준(예를 들어 증례, 방식, 단계 등 포함)을 사용자(예를 들어 의사, 치과의사 등 포함)가 참조하여 변수값(또는 라벨값)을 입력하는 방식이다.
상기 [표 5]는 수술 단계를 더욱 세분화하여 분류한 예시이고, 상기 [표 6]은 아바타, 인간, 로봇 등의 신체부위에 라벨값을 지정한 분류의 예시이다.
외과 수술에 대한 증례, 방식, 단계별 분류 기준이 계층적 군집 라벨 값 입력에 의해, 상기도 7 및 도 9의 데이터 단위를 기준으로 적용된다. 의료동영상 정보 및 기타 정보들을 증례, 방식, 단계별 계층적 군집화를 하는 것을 기본으로 하나, 위 정보들을 임의의 방식으로 세부적으로 라벨 링하고, 동영상을 분할하여, 세분화된 계층적 군집화를 한다면 계층의 종류 및 개수(예를 들어 3개 층, 4개 층, 5개 층 등 포함)와 동영상 분할의 방식과 상관없이, 분류 모델 및/또는 예측 모델에 적용할 수 있다.
본 발명의 일 실시 예에서, 실제 수술과 시술 등에 사용되는 환자의 신체나 장기의 영상 정보, 기타 의료정보, 디지털 카데바 등은 상기 단말(100)에 표시되는 입 실행 결과 화면(또는 보기 화면)을 통해 라벨링되어, 상기 도 7 내지 상기 도 10에서 각각 K2, K3, K4 및 K5개의 군집이 된다. 여기서, 상기 K는 변수(또는 자연수)를 나타낸다. 같은 군집에 속한 특정한 환자의 신체나 장기정보, 디지털 카데바 등은 그 군집에 해당되는 메타데이터(또는 메타정보)이다. 메타데이터를 기반으로 한 디지털 카데바의 인공지능 추론 내지 반환으로 가상 수술, 가상 시술 등을 진행한다. 인공지능 추론 및 반환으로 출력된 디지털 카데바와 인공 카데바를 활용한 가상 수술 동영상, 가상 시술 동영상 등에 대해 의사 및/또는 치과의사들은 상기 단말(100)에 표시되는 앱 실행 결과 화면(또는 보기 화면)을 통해 선택라벨링을 수행한다.
다양한 실시예에서, 상기 도 3 내지 상기 도 6에서 아바타(또는 사람)의 동작 1회는 어떤 특정 환자의 외과 수술 1회이다. 동작 시작시의 최초 정지영상정보는 진단정보이며, 아바타(또는 사람)의 동작 1회 동영상 정보의 각각 k, L, f번째 동작의 단계는 어떤 특정 환자의 외과 수술 1회 동영상 정보의 각각의 k, L, f번째 수술의 단계이다. 수술을 받는 디지털 카데바의 반응은 아바타 또는 사람의 동작과 비교하면, 일종의 수동적인 아바타의 동작이라 할 수 있다(예를 들어 디지털 카데바는 일종의 환자 아바타).
이와 같이, 상기 단말(100)은 아바타, 아이템, 로봇 등의 영상에 대해 계층라벨링 기능, 선택라벨링 기능 등을 수행한다.
본 발명의 실시예에서는 상기 계층라벨링 기능 및 상기 선택라벨링 기능을 분리하여 설명하고 있으나, 이에 한정되는 것은 아니며, 상기 단말(100)은 상기 계층라벨링 기능을 상기 선택라벨링 기능에 포함시켜 수행할 수 있으며, 또한 상기 계층라벨링과 상기 선택라벨링을 하나의 라벨링 기능으로 통합하여 수행할 수도 있다.
또한, 상기 단말(100)은 상기 서버(200)로부터 전송되는 제 1 영상을 수신한다. 여기서, 상기 제 1 영상은 상기 서버(200)에서의 해당 로우 데이터를 대상으로 한 분류 모델 및 예측 모델에 의한 학습 결과로 생성된 결과물로, 상기 로우 데이터를 근거로 생성되는 아바타, 아이템, 로봇 등의 동작 관련 영상, 상기 로우 데이터가 업데이트된 영상(예를 들어 상기 로우 데이터에 포함된 인간/사람의 동작/행위/행동이 업데이트된 영상) 등일 수 있다.
또한, 상기 단말(100)은 상기 수신된 제 1 영상을 상기 영상 표시 영역에 출력한다. 이때, 상기 단말(100)은 상기 로우 데이터, 상기 비교 대상 영상 및 상기 제 1 영상을 동기화한 상태에서 해당 단말(100)의 화면을 분할하여 동시에 출력할 수도 있다.
또한, 상기 단말(100)은 상기 서버(200)와 연동하여, 상기 제 1 영상을 대상으로 추가 선택라벨링을 수행한다. 여기서, 상기 추가 선택라벨링(또는 추가 선택레이블링/2차 선택라벨링/제 2 선택라벨링)은 상기 제 1 영상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 오류(또는 이상) 유무에 대한 라벨(또는 라벨값)을 설정하는(또는 붙이는) 라벨링 방법을 나타낸다. 이때, 상기 제 1 영상 중에서 상기 추가 선택라벨링에 따라 라벨(또는 라벨값)이 설정되지 않은 시점(또는 구간)은 미리 설정된 디폴트 라벨값(예를 들어 승인 라벨)이 설정될 수 있다. 또한, 상기 단말(100)은 상기 제 1 영상 중에서 상기 승인 라벨이 붙지 않은 시점(또는 구간/속성/타깃 속성)에는 미리 설정된 not ACCEPT 라벨을 붙이고, 상기 제 1 영상 중에서 상기 거절 라벨이 붙지 않은 시점(또는 구간/속성/타깃 속성)에는 미리 설정된 not REJECT 라벨을 붙일 수도 있다.
즉, 상기 단말(100)은 상기 서버(200)와 연동하여, 해당 단말(100)에 표시되는 제 1 영상에 대해서, 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 해당 제 1 영상 중 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 오류(또는 이상) 유무에 대한 라벨(또는 라벨값)을 설정(또는 수신/입력)한다.
또한, 상기 단말(100)에 표시되는 앱 실행 결과 화면 내의 보기 화면에 포함된 재생바가 선택되는 경우 또는 해당 보기 화면 내의 재생 버튼이 선택되는 경우, 상기 단말(100)은 상기 제 1 영상을 상기 영상 표시 영역에 표시(또는 출력)하고, 상기 로우 데이터(또는 상기 제 1 영상)에 대응하는 비교 대상 영상(또는 상기 서버(200)로부터 제공받은 해당 로우 데이터/제 1 영상에 대응하는 비교 대상 영상)을 상기 비교 대상 영상 표시 영역에 표시(또는 출력)한다. 이때, 상기 단말(100)은 상기 제 1 영상 및 상기 비교 대상 영상에 각각 대응하는 메타 정보를 근거로 해당 제 1 영상 및 상기 비교 대상 영상에 대해 동기화를 수행하여, 동기화된 제 1 영상 및 비교 대상 영상을 상기 영상 표시 영역 및 상기 비교 대상 영상 표시 영역에 각각 표시할 수 있다. 여기서, 상기 단말(100) 내의 상기 영상 표시 영역에 표시되는 제 1 영상 및 상기 비교 대상 영상 표시 영역에 표시되는 비교 대상 영상 중에서 어느 하나가 일시정지 기능 또는 멈춤 기능에 의해 멈추는 경우, 상기 단말(100)은 다른 하나도 함께 일시정지 기능 또는 멈춤 기능에 의해 멈추도록 제어한다.
또한, 상기 단말(100)은 상기 단말(100)의 영상 표시 영역에 표시되는 제 1 영상에 대해서 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 해당 제 1 영상에 포함된 객체(또는 아바타)의 움직임(또는 객체/아바타의 행위)에 대한 잘된 행위 또는 잘못된 행위에 대해 라벨(또는 라벨값)을 설정(또는 수신/입력)한다.
즉, 상기 단말(100)은 상기 영상 표시 영역에 표시되는 제 1 영상의 하나 이상의 또 다른 특정 시점에서 사용자 입력에 따라 잘된 행위에 대한 라벨값(예를 들어 미리 설정된 승인/승낙/ACCEPT 라벨) 또는 잘못된 행위에 대한 라벨값(예를 들어 미리 설정된 거절/REJECT 라벨)을 각각 입력받는다.
이와 같이, 상기 단말(100)은 해당 특정 주제와 관련해서 생성된 제 1 영상에 대해서, 해당 특정 주제와 관련한 전문가인 해당 단말(100)의 사용자 입력에 따라, 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서 하나 이상의 추가 선택라벨(또는 추가 선택라벨값)을 각각 설정(또는 수신/입력)한다.
이때, 상기 단말(100)은 해당 단말(100)의 사용자 입력에 따라 시계열 분할 선택라벨링 기능 또는 신체부위별 선택라벨링 기능을 수행한다.
상기 단말(100)은 다음의 과정을 통해 시계열 분할 선택라벨링 기능을 수행한다.
즉, 상기 단말(100)은 상기 제 1 영상을 분할한 복수의 서브 영상에 대해서, 사용자 입력에 따라 각각의 서브 영상의 분할 상태가 잘된 상태(또는 잘된 행위)에 대한 라벨값(예를 들어 미리 설정된 승인/승낙/ACCEPT 라벨) 또는 잘못된 상태(또는 잘못된 행위)에 대한 라벨값(예를 들어 미리 설정된 거절/REJECT 라벨)을 각각 입력받고, 해당 복수의 서브 영상의 순서를 정렬하기 위해서 사용자 입력에 따라 해당 복수의 서브 영상의 순서를 나타내는 라벨값(또는 분할 시점이 잘못되거나 조정이 필요한 경우 분할 시점을 조정하기 위한 라벨값)을 입력받는다. 여기서, 상기 제 1 영상에 대한 복수의 서브 영상으로의 분할은 상기 로우 데이터에 대한 계층라벨링 기능 수행에 따라 복수로 분할된 서브 로우 데이터에 대한 정보를 근거로 상기 제 1 영상을 상기 복수의 서브 영상으로 분할한 상태이거나 또는, 상기 서버(200)에서의 상기 로우 데이터에 대한 인공지능 기능이나 영상 분석 기능 수행에 따라 상기 제 1 영상을 상기 복수의 서브 영상으로 분할한 상태일 수 있다.
이에 따라, 상기 단말(100)은 상기 제 1 영상을 대상으로 해당 단말(100)의 사용자 입력에 따라, 복수의 서브 영상의 분할 상태가 잘된 상태와 분할 상태가 잘못된 상태에 대한 라벨값을 각각 입력받고, 해당 복수의 서브 영상에 대한 순서를 정렬하기 위한 라벨값(또는 해당 복수의 서브 영상의 순서를 나타내는 라벨값/분할 시점이 잘못되거나 조정이 필요한 경우 분할 시점을 조정하기 위한 라벨값)을 각각 입력받는다.
또한, 상기 단말(100)은 상기 입력된 상기 복수의 서브 영상의 분할 상태가 잘된 상태와 잘못된 상태에 대한 라벨값, 상기 복수의 서브 영상에 대한 순서를 정렬하기 위한 라벨값(또는 분할 시점을 조정하기 위한 라벨값), 상기 단말(100)의 식별 정보 등을 상기 서버(200)에 전송한다.
또한, 상기 서버(200)는 해당 제 1 영상을 대상으로 한 시계열 분할 선택라벨링 기능 수행에 따라, 상기 단말(100)로부터 전송되는 상기 복수의 서브 영상의 분할 상태가 잘된 상태와 잘못된 상태에 대한 라벨값, 상기 복수의 서브 영상에 대한 순서를 정렬하기 위한 라벨값(또는 분할 시점을 조정하기 위한 라벨값), 상기 단말(100)의 식별 정보 등을 수신한다.
또한, 상기 서버(200)는 상기 수신된 상기 복수의 서브 영상의 분할 상태가 잘된 상태와 잘못된 상태에 대한 라벨값, 상기 복수의 서브 영상에 대한 순서를 정렬하기 위한 라벨값(또는 분할 시점을 조정하기 위한 라벨값) 등을 근거로 상기 제 1 영상을 분할한 복수의 서브 영상의 순서를 재정렬한다.
이와 같이, 상기 시계열 분할 선택라벨링은 상기 제 1 영상이 복수의 서브 영상으로 분할된 경우, 상기 단말(100)의 사용자 입력에 따라, 해당 제 1 영상의 복수의 서브 영상으로의 각각의 분할 시점(예를 들어 라벨값, 정지영상정보 등 포함)이 맞는지 또는 틀리는지에 대해 라벨링하고, 분할 시점이 잘못된 경우 분할 시점 또는 순서를 조정하기 위한 라벨값에 대해 라벨링하는 과정일 수 있다.
또한, 상기 단말(100)은 다음의 과정을 통해 신체부위별 선택라벨링 기능을 수행한다.
즉, 상기 단말은 상기 제 1 영상을 분할한 복수의 서브 영상에 포함된 아바타(또는 객체)에 대해서, 사용자 입력에 따라 상기 복수의 서브 영상에 포함된 아바타(또는 객체)의 동작 순서에 대한 라벨값(또는 해당 아바타의 동작 순서의 잘된 상태 또는 잘못된 상태에 대한 라벨값)을 각각 입력받고, 해당 복수의 서브 영상에 포함된 아바타, 인간, 로봇 등의 동작에서 신체부위(또는 로봇의 각 부위)별로 동작 순서를 정렬하기 위해서 사용자 입력에 따라 해당 복수의 서브 영상의 순서를 나타내는 라벨값(또는 아바타가 포함된 서브 영상의 순서를 조정하기 위한 라벨값)을 입력받는다. 이와 같은 신체부위별 선택은 사용자에 의해 실행되거나 생략될 수 있고, 서버(200)에 의해 자동으로 실행될 수도 있다(계층라벨링). 여기서, 상기 제 1 영상에 대한 복수의 서브 영상으로의 분할은 상기 로우 데이터에 대한 계층라벨링 기능 수행에 따라 복수로 분할된 서브 로우 데이터에 대한 정보를 근거로 상기 제 1 영상을 상기 복수의 서브 영상으로 분할한 상태이거나 또는, 상기 서버(200)에서의 상기 로우 데이터에 대한 인공지능 기능이나 영상 분석 기능 수행에 따라 상기 제 1 영상을 상기 복수의 서브 영상으로 분할한 상태일 수 있다.
이에 따라, 상기 단말(100)은 상기 제 1 영상을 대상으로 해당 단말(100)의 사용자 입력에 따라, 복수의 서브 영상에 포함된 아바타(또는 객체)의 동작 순서에 대한 라벨값(또는 해당 아바타, 로봇 등의 동작 순서의 잘된 상태 또는 잘못된 상태에 대한 라벨값)을 각각 입력받고, 해당 복수의 서브 영상에 대한 순서(또는 해당 복수의 서브 영상에 포함된 아바타, 로봇 등의 동작 순서)를 정렬하기 위한 라벨값(또는 해당 복수의 서브 영상의 순서를 나타내는 라벨값/아바타, 로봇이 포함된 서브 영상의 순서를 조정하기 위한 라벨값)을 각각 입력받는다.
또한, 상기 단말(100)은 상기 입력된 상기 복수의 서브 영상에 포함된 아바타(또는 객체)의 동작 순서에 대한 라벨값(또는 해당 아바타, 로봇 등의 동작 순서의 잘된 상태 또는 잘못된 상태에 대한 라벨값), 상기 복수의 서브 영상에 대한 순서(또는 해당 복수의 서브 영상에 포함된 아바타, 로봇 등의 동작 순서)를 정렬하기 위한 라벨값, 상기 단말(100)의 식별 정보 등을 상기 서버(200)에 전송한다.
또한, 상기 서버(200)는 해당 제 1 영상을 대상으로 한 신체부위별 선택라벨링 기능 수행에 따라, 상기 단말(100)로부터 전송되는 상기 복수의 서브 영상에 포함된 아바타(또는 객체)의 동작 순서에 대한 라벨값(또는 해당 아바타의 동작 순서의 잘된 상태 또는 잘못된 상태에 대한 라벨값), 상기 복수의 서브 영상에 대한 순서(또는 해당 복수의 서브 영상에 포함된 아바타의 동작 순서)를 정렬하기 위한 라벨값, 상기 단말(100)의 식별 정보 등을 수신한다.
또한, 상기 서버(200)는 상기 수신된 상기 복수의 서브 영상에 포함된 아바타(또는 객체)의 동작 순서에 대한 라벨값(또는 해당 아바타의 동작 순서의 잘된 상태 또는 잘못된 상태에 대한 라벨값), 상기 복수의 서브 영상에 대한 순서(또는 해당 복수의 서브 영상에 포함된 아바타의 동작 순서)를 정렬하기 위한 라벨값 등을 근거로 상기 제 1 영상을 분할한 복수의 서브 영상의 순서를 재정렬한다.
이와 같이, 상기 신체부위별 선택라벨링은 상기 제 1 영상이 복수의 서브 영상으로 분할된 경우, 상기 단말(100)의 사용자 입력에 따라, 해당 제 1 영상의 분할된 복수의 서브 영상에 각각 포함된 아바타(또는 객체)의 동작 순서가 맞는지 또는 틀리는지에 대해 라벨링하고, 해당 아바타의 동작 순서를 조정하기 위해서 상기 복수의 서브 영상에 대한 순서(또는 해당 복수의 서브 영상에 포함된 아바타의 동작 순서)를 정렬하기 위한 라벨값에 대해 라벨링하는 과정일 수 있다.
또한, 상기 신체부위별 선택라벨링 기능은 다음의 기능을 더 포함한다.
즉, 상기 서버(200)는 상기 분할된 복수의 서브 영상에 대해서 상기 서버(200)에서의 인공지능 기능이나 영상 분석 기능 수행에 따라 상기 복수의 서브 영상에 포함된 아바타, 로봇 등의 동작 순서에 대한 정보를 상기 단말(100)에 제공한다.
또한, 상기 단말(100)은 상기 단말(100)에서 사용자 입력에 따라 해당 복수의 서브 영상에 포함된 아바타(또는 로봇)의 동작 순서에 대해 잘된 상태 또는 잘못된 상태에 대해서 라벨링하고, 아바타(또는 로봇)의 동작 순서가 잘못되거나 조정이 필요한 경우 동작 순서 또는 아바타, 로봇이 포함된 서브 영상의 순서를 조정하기 위한 라벨값 등을 입력받고, 입력받은 해당 복수의 서브 영상에 포함된 아바타(또는 로봇)의 동작 순서에 대해 잘된 상태 또는 잘못된 상태에 대한 라벨값, 아바타(또는 로봇)의 동작 순서가 잘못되거나 조정이 필요한 경우 동작 순서 또는 아바타(또는 로봇)가 포함된 서브 영상의 순서를 조정하기 위한 라벨값, 상기 단말(100)의 식별 정보 등을 상기 서버(200)에 전송한다.
또한, 상기 서버(200)는 상기 단말(100)로부터 전송되는 해당 복수의 서브 영상에 포함된 아바타(또는 로봇)의 동작 순서에 대해 잘된 상태 또는 잘못된 상태에 대한 라벨값, 아바타(또는 로봇)의 동작 순서가 잘못되거나 조정이 필요한 경우 동작 순서 또는 아바타(또는 로봇)가 포함된 서브 영상의 순서를 조정하기 위한 라벨값, 상기 단말(100)의 식별 정보 등을 수신한다.
또한, 상기 서버(200)는 상기 수신된 해당 복수의 서브 영상에 포함된 아바타(또는 로봇)의 동작 순서에 대해 잘된 상태 또는 잘못된 상태에 대한 라벨값, 아바타(또는 로봇)의 동작 순서가 잘못되거나 조정이 필요한 경우 동작 순서 또는 아바타(또는 로봇)가 포함된 서브 영상의 순서를 조정하기 위한 라벨값 등을 근거로 상기 제 1 영상을 분할한 복수의 서브 영상의 순서를 재정렬한다.
또한, 상기 단말(100)은 상기 제 1 영상과 관련한 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 하나 이상의 추가 선택라벨값, 하나 이상의 시계열 분할 선택라벨값, 하나 이상의 신체부위별 선택라벨값, 복수의 서브 영상의 순서를 정렬하기 위한 라벨값, 해당 단말(100)의 식별 정보 등을 상기 서버(200)에 전송한다.
또한, 상기 단말(100)은 상기 서버(200)와 연동하여, 해당 제 1 영상을 대상으로 추가 선택라벨링을 수행하기 이전에 또는 수행한 이후에, 해당 하나 이상의 제 1 영상을 대상으로 추가 계층라벨링을 수행하고, 추가 계층라벨링 수행 전/후로 해당 제 1 영상을 대상으로 추가 선택라벨링을 수행할 수도 있다. 여기서, 상기 추가 계층라벨링(또는 추가 계층레이블링/2차 계층라벨링/제 2 계층라벨링)은 사용자에 의한 입력 피처 엔지니어링으로, 해당 제 1 영상에 대한 특징을 나타내는 라벨(또는 라벨값)을 붙이고, 해당 제 1 영상을 특징에 따라 복수의 서브 영상으로 분할(또는 분류)하는 라벨링 방법을 나타낸다.
즉, 상기 단말(100)은 상기 서버(200)와 연동하여, 해당 단말(100)에 표시되는 제 1 영상에 대해서, 해당 특정 주제와 관련해서 미리 설정된 복수의 라벨 분류를 참조하여(또는 근거로), 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 해당 제 1 영상 중 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 추가 라벨(또는 추가 라벨값)을 설정(또는 수신/입력)한다.
이때, 상기 단말(100)에 표시되는 앱 실행 결과 화면 내의 보기 화면에 포함된 재생바가 선택되는 경우 또는 해당 보기 화면 내의 재생 버튼이 선택되는 경우, 상기 단말(100)은 상기 제 1 영상을 상기 영상 표시 영역에 표시(또는 출력)하고, 상기 제 1 영상과 관련한 비교 대상 영상(또는 상기 서버(200)로부터 제공받은 해당 로우 데이터/제 1 영상에 대응하는 비교 대상 영상)을 상기 비교 대상 영상 표시 영역에 표시(또는 출력)한다. 이때, 상기 단말(100)은 상기 제 1 영상 및 상기 비교 대상 영상에 각각 대응하는 메타 정보를 근거로 해당 제 1 영상 및 상기 비교 대상 영상에 대해 동기화를 수행하여, 동기화된 제 1 영상 및 비교 대상 영상을 상기 영상 표시 영역 및 상기 비교 대상 영상 표시 영역에 각각 표시할 수 있다. 여기서, 상기 단말(100) 내의 상기 영상 표시 영역에 표시되는 제 1 영상 및 상기 비교 대상 영상 표시 영역에 표시되는 비교 대상 영상 중에서 어느 하나가 일시정지 기능 또는 멈춤 기능에 의해 멈추는 경우, 상기 단말(100)은 다른 하나도 함께 일시정지 기능 또는 멈춤 기능에 의해 멈추도록 제어한다.
또한, 상기 단말(100)은 상기 단말(100)의 영상 표시 영역에 표시되는 제 1 영상에 대해서 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 해당 제 1 영상에 포함된 객체의 움직임(또는 객체의 행위)에 대한 하나 이상의 단계별 추가 라벨(또는 추가 라벨값)을 설정(또는 수신/입력)한다.
즉, 상기 단말(100)은 상기 영상 표시 영역에 표시되는 제 1 영상의 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서 사용자 입력에 따라 해당 제 1 영상에 포함된 객체의 움직임(또는 객체의 행위)에 대해 계층적으로 객체의 특정 동작, 특정 동작의 특정 방식, 특정 방식의 특정 단계 등에 대해 추가 계층라벨(또는 추가 계층라벨값)을 각각 입력받는다.
이와 같이, 상기 단말(100)은 해당 특정 주제와 관련한 제 1 영상에 대해서, 해당 특정 주제와 관련한 전문가인 해당 단말(100)의 사용자 입력에 따라, 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서 하나 이상의 추가 계층라벨(또는 추가 계층라벨값)을 각각 설정(또는 수신/입력)한다.
또한, 상기 단말(100)은 추가 계층라벨링 과정을 수행한 전/후로, 앞서 설명한 추가 선택라벨링 과정을 수행한다.
이와 같이, 상기 단말(100)은 상기 제 1 영상을 대상으로 추가 계층라벨링 기능, 추가 선택라벨링 기능 등을 수행한다.
본 발명의 실시예에서는 상기 추가 계층라벨링 기능 및 상기 추가 선택라벨링 기능을 분리하여 설명하고 있으나, 이에 한정되는 것은 아니며, 상기 단말(100)은 상기 추가 계층라벨링 기능을 상기 추가 선택라벨링 기능에 포함시켜 수행할 수 있으며, 또한 상기 추가 계층라벨링과 상기 추가 선택라벨링을 하나의 추가 라벨링 기능으로 통합하여 수행할 수도 있다.
또한, 상기 단말(100)은 상기 서버(200)로부터 전송되는 제 2 영상을 수신한다. 여기서, 상기 제 2 영상은 상기 서버(200)에서의 해당 제 1 영상을 대상으로 한 분류 모델 및 예측 모델에 의한 학습 결과로 생성된 결과물로, 상기 제 1 영상을 근거로 생성되는 아바타, 아이템, 로봇 등의 동작 관련 영상, 상기 제 1 영상이 업데이트된 영상 등일 수 있다.
또한, 상기 단말(100)은 상기 수신된 제 2 영상을 상기 영상 표시 영역에 출력한다. 이때, 상기 단말(100)은 상기 로우 데이터, 상기 비교 대상 영상, 상기 제 1 영상 및 상기 제 2 영상을 동기화한 상태에서 해당 단말(100)의 화면을 분할하여 동시에 출력할 수도 있다.
또한, 상기 단말(100)은 상기 특정 주제(또는 상기 로우 데이터)와 관련해서 최신의 집단 지성화된 제 2 영상(또는 업데이트된 제 2 영상)을 상기 서버(200)로부터 제공받을 수 있다.
또한, 상기 단말(100)은 특정 주제와 관련해서, 상기 단말(100)에서 출력되는 아바타, 아이템, 로봇 등의 동작 관련 영상(또는 아바타 및 아이템 중 적어도 하나와 관련한 동작 관련 영상), 해당 동작 관련 영상과 관련한 메타 정보 등을 상기 서버(200)에 전송한다. 여기서, 상기 특정 주제(또는 특정 콘텐츠)는 의료 행위(예를 들어 시술, 수술 등 포함), 댄스, 운동 종목(예를 들어 축구, 농구, 탁구 등 포함), 게임, 이-스포츠 등을 포함한다. 또한, 상기 아바타 및/또는 아이템의 동작 관련 영상은 해당 특정 주제와 관련한 임의의 로우 데이터를 근거로 선택라벨링 과정, 분류 모델 추론 과정, 예측 모델 추론 과정 등을 통해 생성된 영상일 수 있다. 상기 로봇 영상은 실제 현실의 로봇 동작을 시각세트장치로 수집한 영상(또는 로우 데이터)이다.
또한, 상기 단말(100)은 상기 서버(200)와 연동하여, 해당 단말(100)에 표시되는 로봇 동작 영상(도 29, 기초로보틱스 영상)에 대해서, 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 해당 로봇 동작 영상 중 특정 시점(또는 특정 구간)에서의 라벨(또는 라벨값)을 설정(또는 수신/입력)한다.
또한, 상기 단말(100)에 표시되는 앱 실행 결과 화면 내의 보기 화면에 포함된 재생바가 선택되는 경우 또는 해당 보기 화면 내의 재생 버튼이 선택되는 경우, 상기 단말(100)은 상기 로봇 동작 영상을 상기 영상 표시 영역에 표시(또는 출력)하고, 상기 로봇 동작 영상에 대응하는 비교 대상 영상(또는 상기 서버(200)로부터 제공받은 해당 로봇 동작 영상에 대응하는 비교 대상 영상)을 상기 비교 대상 영상 표시 영역에 표시(또는 출력)한다. 이때, 상기 단말(100)은 상기 로봇 동작 영상 및 상기 비교 대상 영상에 각각 대응하는 메타 정보를 근거로 해당 로봇 동작 영상 및 상기 비교 대상 영상에 대해 동기화를 수행하여, 동기화된 로봇 동작 영상 및 비교 대상 영상을 상기 영상 표시 영역 및 상기 비교 대상 영상 표시 영역에 각각 표시할 수 있다. 여기서, 상기 단말(100) 내의 상기 영상 표시 영역에 표시되는 로봇 동작 영상 및 상기 비교 대상 영상 표시 영역에 표시되는 비교 대상 영상 중에서 어느 하나가 일시정지 기능 또는 멈춤 기능에 의해 멈추는 경우, 상기 단말(100)은 다른 하나도 함께 일시정지 기능 또는 멈춤 기능에 의해 멈추도록 제어한다.
또한, 상기 단말(100)은 상기 단말(100)의 영상 표시 영역에 표시되는 로봇 동작 영상에 대해서 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 특정 시점(또는 특정 구간)에서의 해당 로봇 동작 영상에 포함된 객체의 움직임(또는 객체의 행위)에 대한 잘된 행위 또는 잘못된 행위에 대해 라벨(또는 라벨값)을 설정(또는 수신/입력)한다.
즉, 상기 단말(100)은 상기 영상 표시 영역에 표시되는 로봇 동작 영상의 하나 이상의 특정 시점에서 사용자 입력에 따라 잘된 행위에 대한 라벨값(예를 들어 미리 설정된 승인/승낙/ACCEPT 라벨) 또는 잘못된 행위에 대한 라벨값(예를 들어 미리 설정된 거절/REJECT 라벨)을 각각 입력받는다.
이와 같이, 상기 단말(100)은 해당 특정 주제와 관련한 로봇 동작 영상에 대해서, 해당 특정 주제와 관련한 전문가인 해당 단말(100)의 사용자 입력에 따라, 하나 이상의 특정 시점(또는 특정 구간)에서 하나 이상의 선택라벨(또는 선택라벨값)을 각각 설정(또는 수신/입력)한다. 여기서, 상기 선택라벨링(또는 선택레이블링/1차 선택라벨링/제 1 선택라벨링)은 상기 로봇 동작 영상의 특정 시점(또는 특정 구간)에서의 오류(또는 이상) 유무에 대한 라벨(label)(또는 라벨값)을 설정하는(또는 붙이는) 라벨링 방법을 나타낸다. 이때, 상기 로봇 동작 영상 중에서 상기 선택라벨링에 따라 라벨(또는 라벨값)이 설정되지 않은 시점(또는 구간)은 미리 설정된 디폴트 라벨값(예를 들어 승인 라벨)이 설정될 수 있다. 또한, 상기 단말(100)은 상기 로봇 동작 영상 중에서 상기 승인 라벨이 붙지 않은 시점(또는 구간/속성/타깃 속성)에는 미리 설정된 not ACCEPT 라벨을 붙이고, 상기 로봇 동작 영상 중에서 상기 거절 라벨이 붙지 않은 시점(또는 구간/속성/타깃 속성)에는 미리 설정된 not REJECT 라벨을 붙일 수도 있다.
또한, 상기 단말(100)은 상기 로봇 동작 영상과 관련한 하나 이상의 특징 시점(또는 특정 구간)에서의 하나 이상의 선택라벨값, 해당 로봇 동작 영상의 메타 정보, 해당 단말(100)의 식별 정보 등을 상기 서버(200)에 전송한다.
또한, 상기 단말(100)은 상기 서버(200)와 연동하여, 해당 로봇 동작 영상을 대상으로 선택라벨링을 수행하기 이전에 또는 수행한 이후에, 해당 로봇 동작 영상을 대상으로 계층라벨링을 수행하고, 계층라벨링 수행 전/후로 해당 로봇 동작 영상을 대상으로 선택라벨링을 수행할 수도 있다. 여기서, 상기 계층라벨링(또는 계층레이블링)은 사용자에 의한 입력 피처 엔지니어링으로, 해당 로봇 동작 영상에 대한 특징을 나타내는 라벨을 붙이고, 해당 로봇 동작 영상을 특징에 따라 복수의 서브 로봇 동작 영상으로 분할(또는 분류)하는 라벨링 방법을 나타낸다.
즉, 상기 단말(100)은 상기 서버(200)와 연동하여, 해당 단말(100)에 표시되는 로봇 동작 영상에 대해서, 해당 특정 주제와 관련해서 미리 설정된 복수의 라벨 분류를 참조하여(또는 근거로), 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 해당 로봇 동작 영상 중 다른 특정 시점(또는 다른 특정 구간)에서의 라벨(또는 라벨값)을 설정(또는 수신/입력)한다.
이때, 상기 단말(100)에 표시되는 앱 실행 결과 화면 내의 보기 화면에 포함된 재생바가 선택되는 경우 또는 해당 보기 화면 내의 재생 버튼이 선택되는 경우, 상기 단말(100)은 상기 로봇 동작 영상을 상기 영상 표시 영역에 표시(또는 출력)하고, 상기 로봇 동작 영상에 대응하는 비교 대상 영상(또는 상기 서버(200)로부터 제공받은 해당 로봇 동작 영상에 대응하는 비교 대상 영상)을 상기 비교 대상 영상 표시 영역에 표시(또는 출력)한다. 이때, 상기 단말(100)은 상기 로봇 동작 영상 및 상기 비교 대상 영상에 각각 대응하는 메타 정보를 근거로 해당 로봇 동작 영상 및 상기 비교 대상 영상에 대해 동기화를 수행하여, 동기화된 로봇 동작 영상 및 비교 대상 영상을 상기 영상 표시 영역 및 상기 비교 대상 영상 표시 영역에 각각 표시할 수 있다. 여기서, 상기 단말(100) 내의 상기 영상 표시 영역에 표시되는 로봇 동작 영상 및 상기 비교 대상 영상 표시 영역에 표시되는 비교 대상 영상 중에서 어느 하나가 일시정지 기능 또는 멈춤 기능에 의해 멈추는 경우, 상기 단말(100)은 다른 하나도 함께 일시정지 기능 또는 멈춤 기능에 의해 멈추도록 제어한다.
또한, 상기 단말(100)은 상기 단말(100)의 영상 표시 영역에 표시되는 로봇 동작 영상에 대해서 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 다른 특정 시점(또는 다른 특정 구간)에서의 해당 로봇 동작 영상에 포함된 객체의 움직임(또는 객체의 행위)에 대한 하나 이상의 단계별 라벨(또는 라벨값)을 설정(또는 수신/입력)한다.
즉, 상기 단말(100)은 상기 영상 표시 영역에 표시되는 로봇 동작 영상의 하나 이상의 다른 특정 시점(또는 다른 특정 구간)에서 사용자 입력에 따라 해당 로봇 동작 영상에 포함된 객체의 움직임(또는 객체의 행위)에 대해 계층적으로 객체의 특정 동작, 특정 동작의 특정 방식, 특정 방식의 특정 단계 등에 대해 계층라벨(또는 계층라벨값)을 각각 입력받는다.
이와 같이, 상기 단말(100)은 해당 특정 주제와 관련한 로봇 동작 영상에 대해서, 해당 특정 주제와 관련한 전문가인 해당 단말(100)의 사용자 입력에 따라, 하나 이상의 다른 특정 시점(또는 다른 특정 구간)에서 하나 이상의 계층라벨(또는 계층라벨값)을 각각 설정(또는 수신/입력)한다.
또한, 상기 단말(100)은 계층라벨링 과정을 수행한 전/후로, 앞서 설명한 선택라벨링 과정을 수행한다.
또한, 상기 단말(100)은 상기 서버(200)로부터 전송되는 제 1 로보틱스 영상을 수신한다. 여기서, 상기 제 1 로보틱스 영상은 상기 서버(200)에서의 해당 로봇 동작 영상을 대상으로 한 분류 모델 및 예측 모델에 의한 학습 결과로 생성된 결과물로, 상기 로봇 동작 영상을 근거로 생성되는 아바타, 아이템, 로봇 등의 동작 관련 영상, 상기 로우 데이터가 업데이트된 영상(예를 들어 상기 로우 데이터에 포함된 인간/사람의 동작/행위/행동이 업데이트된 영상) 등일 수 있다.
또한, 상기 단말(100)은 상기 수신된 제 1 로보틱스 영상을 상기 영상 표시 영역에 출력한다. 이때, 상기 단말(100)은 상기 로봇 동작 영상, 상기 비교 대상 영상 및 상기 제 1 로보틱스 영상을 동기화한 상태에서 해당 단말(100)의 화면을 분할하여 동시에 출력할 수도 있다.
또한, 상기 단말(100)은 상기 서버(200)와 연동하여, 상기 제 1 로보틱스 영상을 대상으로 추가 선택라벨링을 수행한다. 여기서, 상기 추가 선택라벨링(또는 추가 선택레이블링/2차 선택라벨링/제 2 선택라벨링)은 상기 제 1 로보틱스 영상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 오류(또는 이상) 유무에 대한 라벨(또는 라벨값)을 설정하는(또는 붙이는) 라벨링 방법을 나타낸다. 이때, 상기 제 1 로보틱스 영상 중에서 상기 추가 선택라벨링에 따라 라벨(또는 라벨값)이 설정되지 않은 시점(또는 구간)은 미리 설정된 디폴트 라벨값(예를 들어 승인 라벨)이 설정될 수 있다. 또한, 상기 단말(100)은 상기 제 1 로보틱스 영상 중에서 상기 승인 라벨이 붙지 않은 시점(또는 구간/속성/타깃 속성)에는 미리 설정된 not ACCEPT 라벨을 붙이고, 상기 제 1 로보틱스 영상 중에서 상기 거절 라벨이 붙지 않은 시점(또는 구간/속성/타깃 속성)에는 미리 설정된 not REJECT 라벨을 붙일 수도 있다. 상기 제 2 선택라벨링은 도 19의 제 1 로보틱스 선택라벨링에 해당될 수 있다.
즉, 상기 단말(100)은 상기 서버(200)와 연동하여, 해당 단말(100)에 표시되는 제 1 로보틱스 영상에 대해서, 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 해당 제 1 로보틱스 영상 중 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 라벨(또는 라벨값)을 설정(또는 수신/입력)한다.
또한, 상기 단말(100)에 표시되는 앱 실행 결과 화면 내의 보기 화면에 포함된 재생바가 선택되는 경우 또는 해당 보기 화면 내의 재생 버튼이 선택되는 경우, 상기 단말(100)은 상기 제 1 로보틱스 영상을 상기 영상 표시 영역에 표시(또는 출력)하고, 상기 로봇 동작 영상(또는 상기 제 1 로보틱스 영상)에 대응하는 비교 대상 영상(또는 상기 서버(200)로부터 제공받은 해당 로봇 동작 영상/제 1 로보틱스 영상에 대응하는 비교 대상 영상)을 상기 비교 대상 영상 표시 영역에 표시(또는 출력)한다. 이때, 상기 단말(100)은 상기 제 1 로보틱스 영상 및 상기 비교 대상 영상에 각각 대응하는 메타 정보를 근거로 해당 제 1 로보틱스 영상 및 상기 비교 대상 영상에 대해 동기화를 수행하여, 동기화된 제 1 로보틱스 영상 및 비교 대상 영상을 상기 영상 표시 영역 및 상기 비교 대상 영상 표시 영역에 각각 표시할 수 있다.
또한, 상기 단말(100)은 상기 단말(100)의 영상 표시 영역에 표시되는 제 1 로보틱스 영상에 대해서 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 해당 제 1 로보틱스 영상에 포함된 객체(또는 아바타)의 움직임(또는 객체/아바타의 행위)에 대한 잘된 행위 또는 잘못된 행위에 대해 라벨(또는 라벨값)을 설정(또는 수신/입력)한다.
즉, 상기 단말(100)은 상기 영상 표시 영역에 표시되는 제 1 로보틱스 영상의 하나 이상의 또 다른 특정 시점에서 사용자 입력에 따라 잘된 행위에 대한 라벨값(예를 들어 미리 설정된 승인/승낙/ACCEPT 라벨) 또는 잘못된 행위에 대한 라벨값(예를 들어 미리 설정된 거절/REJECT 라벨)을 각각 입력받는다.
이와 같이, 상기 단말(100)은 해당 특정 주제와 관련해서 생성된 제 1 로보틱스 영상에 대해서, 해당 특정 주제와 관련한 전문가인 해당 단말(100)의 사용자 입력에 따라, 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서 하나 이상의 추가 선택라벨(또는 추가 선택라벨값)을 각각 설정(또는 수신/입력)한다.
이때, 상기 단말(100)은 해당 단말(100)의 사용자 입력에 따라 시계열 분할 선택라벨링 기능 또는 신체부위별 선택라벨링 기능을 수행한다.
상기 단말(100)은 다음의 과정을 통해 시계열 분할 선택라벨링 기능을 수행한다.
즉, 상기 단말(100)은 상기 제 1 로보틱스 영상을 분할한 복수의 서브 로보틱스 영상에 대해서, 사용자 입력에 따라 각각의 서브 로보틱스 영상의 분할 상태가 잘된 상태(또는 잘된 행위)에 대한 라벨값(예를 들어 미리 설정된 승인/승낙/ACCEPT 라벨) 또는 잘못된 상태(또는 잘못된 행위)에 대한 라벨값(예를 들어 미리 설정된 거절/REJECT 라벨)을 각각 입력받고, 해당 복수의 서브 로보틱스 영상의 순서를 정렬하기 위해서 사용자 입력에 따라 해당 복수의 서브 로보틱스 영상의 순서를 나타내는 라벨값(또는 분할 시점이 잘못되거나 조정이 필요한 경우 분할 시점을 조정하기 위한 라벨값)을 각각 입력받는다. 여기서, 상기 제 1 로보틱스 영상에 대한 복수의 서브 로보틱스 영상으로 분할은 상기 로봇 동작 영상에 대한 계층라벨링 기능 수행에 따라 복수로 분할된 서브 로봇 동작 영상에 대한 정보를 근거로 상기 제 1 로보틱스 영상을 상기 복수의 서브 로보틱스 영상으로 분할한 상태이거나 또는, 상기 서버(200)에서의 상기 로봇 동작 영상에 대한 인공지능 기능이나 영상 분석 기능 수행에 따라 상기 제 1 로보틱스 영상을 상기 복수의 서브 로보틱스 영상으로 분할한 상태일 수 있다.
이에 따라, 상기 단말(100)은 상기 제 1 로보틱스 영상을 대상으로 해당 단말(100)의 사용자 입력에 따라, 복수의 서브 로보틱스 영상의 분할 상태가 잘된 상태와 분할 상태가 잘못된 상태에 대한 라벨값을 각각 입력받고, 해당 복수의 서브 로보틱스 영상에 대한 순서를 정렬하기 위한 라벨값(또는 해당 복수의 서브 로보틱스 영상의 순서를 나타내는 라벨값/분할 시점이 잘못되거나 조정이 필요한 경우 분할 시점을 조정하기 위한 라벨값)을 각각 입력받는다.
또한, 상기 단말(100)은 상기 입력된 상기 복수의 서브 로보틱스 영상의 분할 상태가 잘된 상태와 잘못된 상태에 대한 라벨값, 상기 복수의 서브 로보틱스 영상에 대한 순서를 정렬하기 위한 라벨값(또는 해당 복수의 서브 로보틱스 영상의 순서를 나타내는 라벨값/분할 시점을 조정하기 위한 라벨값), 상기 단말(100)의 식별 정보 등을 상기 서버(200)에 전송한다.
또한, 상기 서버(200)는 해당 제 1 로보틱스 영상을 대상으로 한 시계열 분할 선택라벨링 기능 수행에 따라, 상기 단말(100)로부터 전송되는 상기 복수의 서브 로보틱스 영상의 분할 상태가 잘된 상태와 잘못된 상태에 대한 라벨값, 상기 복수의 서브 로보틱스 영상에 대한 순서를 정렬하기 위한 라벨값(또는 해당 복수의 서브 로보틱스 영상의 순서를 나타내는 라벨값/분할 시점을 조정하기 위한 라벨값), 상기 단말(100)의 식별 정보 등을 수신한다.
또한, 상기 서버(200)는 상기 수신된 상기 복수의 서브 로보틱스 영상의 분할 상태가 잘된 상태와 잘못된 상태에 대한 라벨값, 상기 복수의 서브 로보틱스 영상에 대한 순서를 정렬하기 위한 라벨값(또는 해당 복수의 서브 로보틱스 영상의 순서를 나타내는 라벨값/분할 시점을 조정하기 위한 라벨값) 등을 근거로 상기 제 1 로보틱스 영상을 분할한 복수의 서브 로보틱스 영상의 순서를 재정렬한다.
이와 같이, 상기 시계열 분할 선택라벨링은 상기 제 1 로보틱스 영상이 복수의 서브 로보틱스 영상으로 분할된 경우, 상기 단말(100)의 사용자 입력에 따라, 해당 제 1 로보틱스 영상의 복수의 서브 로보틱스 영상으로의 각각의 분할 시점(예를 들어 라벨값, 정지영상정보 등 포함)이 맞는지 또는 틀리는지에 대해 라벨링하고, 분할 시점이 잘못된 경우 분할 시점 또는 순서를 조정하기 위한 라벨값에 대해 라벨링하는 과정일 수 있다.
또한, 상기 단말(100)은 다음의 과정을 통해 신체부위별 선택라벨링 기능을 수행한다.
즉, 상기 단말은 상기 제 1 로보틱스 영상을 분할한 복수의 로보틱스 서브 영상에 포함된 아바타(또는 객체)에 대해서, 사용자 입력에 따라 상기 복수의 서브 로보틱스 영상에 포함된 아바타(또는 객체)의 동작 순서에 대한 라벨값(또는 해당 아바타의 동작 순서의 잘된 상태 또는 잘못된 상태에 대한 라벨값)을 각각 입력받고, 해당 복수의 서브 로보틱스 영상에 포함된 아바타(또는 객체)의 동작에서 신체부위별로 동작 순서를 정렬하기 위해서 사용자 입력에 따라 해당 복수의 서브 로보틱스 영상의 순서를 나타내는 라벨값(또는 아바타가 포함된 서브 로보틱스 영상의 순서를 조정하기 위한 라벨값)을 입력받는다. 여기서, 상기 제 1 로보틱스 영상에 대한 복수의 서브 로보틱스 영상으로의 분할은 상기 로봇 동작 영상에 대한 계층라벨링 기능 수행에 따라 복수로 분할된 서브 로보틱스 데이터에 대한 정보를 근거로 상기 제 1 로보틱스 영상을 상기 복수의 서브 로보틱스 영상으로 분할한 상태이거나 또는, 상기 서버(200)에서의 상기 로봇 동작 영상에 대한 인공지능 기능이나 영상 분석 기능 수행에 따라 상기 제 1 로보틱스 영상을 상기 복수의 서브 로보틱스 영상으로 분할한 상태일 수 있다.
이에 따라, 상기 단말(100)은 상기 제 1 로보틱스 영상을 대상으로 해당 단말(100)의 사용자 입력에 따라, 복수의 서브 로보틱스 영상에 포함된 아바타(또는 객체)의 동작 순서에 대한 라벨값(또는 해당 아바타의 동작 순서의 잘된 상태 또는 잘못된 상태에 대한 라벨값)을 각각 입력받고, 해당 복수의 서브 로보틱스 영상에 대한 순서(또는 해당 복수의 서브 로보틱스 영상에 포함된 아바타의 동작 순서)를 정렬하기 위한 라벨값(또는 해당 복수의 서브 로보틱스 영상의 순서를 나타내는 라벨값/아바타가 포함된 서브 로보틱스 영상의 순서를 조정하기 위한 라벨값)을 각각 입력받는다.
또한, 상기 단말(100)은 상기 입력된 상기 복수의 서브 로보틱스 영상에 포함된 아바타(또는 객체)의 동작 순서에 대한 라벨값(또는 해당 아바타의 동작 순서의 잘된 상태 또는 잘못된 상태에 대한 라벨값), 상기 복수의 서브 로보틱스 영상에 대한 순서(또는 해당 복수의 서브 로보틱스 영상에 포함된 아바타의 동작 순서)를 정렬하기 위한 라벨값(또는 해당 복수의 서브 로보틱스 영상의 순서를 나타내는 라벨값), 상기 단말(100)의 식별 정보 등을 상기 서버(200)에 전송한다.
또한, 상기 서버(200)는 해당 제 1 로보틱스 영상을 대상으로 한 신체부위별 선택라벨링 기능 수행에 따라, 상기 단말(100)로부터 전송되는 상기 복수의 서브 로보틱스 영상에 포함된 아바타(또는 객체)의 동작 순서에 대한 라벨값(또는 해당 아바타의 동작 순서의 잘된 상태 또는 잘못된 상태에 대한 라벨값), 상기 복수의 서브 로보틱스 영상에 대한 순서(또는 해당 복수의 서브 로보틱스 영상에 포함된 아바타의 동작 순서)를 정렬하기 위한 라벨값(또는 해당 복수의 서브 로보틱스 영상의 순서를 나타내는 라벨값), 상기 단말(100)의 식별 정보 등을 수신한다.
또한, 상기 서버(200)는 상기 수신된 상기 복수의 서브 로보틱스 영상에 포함된 아바타(또는 객체)의 동작 순서에 대한 라벨값(또는 해당 아바타의 동작 순서의 잘된 상태 또는 잘못된 상태에 대한 라벨값), 상기 복수의 서브 로보틱스 영상에 대한 순서(또는 해당 복수의 서브 로보틱스 영상에 포함된 아바타의 동작 순서)를 정렬하기 위한 라벨값(또는 해당 복수의 서브 로보틱스 영상의 순서를 나타내는 라벨값) 등을 근거로 상기 제 1 로보틱스 영상을 분할한 복수의 서브 로보틱스 영상의 순서를 재정렬한다.
이와 같이, 상기 신체부위별 선택라벨링은 상기 제 1 로보틱스 영상이 복수의 서브 로보틱스 영상으로 분할된 경우, 상기 단말(100)의 사용자 입력에 따라, 해당 제 1 로보틱스 영상의 분할된 복수의 서브 로보틱스 영상에 각각 포함된 아바타(또는 객체)의 동작 순서가 맞는지 또는 틀리는지에 대한 라벨링하고, 해당 아바타의 동작 순서를 조정하기 위해서 상기 복수의 서브 로보틱스 영상에 대한 순서(또는 해당 복수의 서브 로보틱스 영상에 포함된 아바타의 동작 순서)를 정렬하기 위한 라벨값에 대해 라벨링하는 과정일 수 있다.
또한, 상기 신체부위별 선택라벨링 기능은 다음의 기능을 더 포함한다.
즉, 상기 서버(200)는 상기 분할된 복수의 서브 로보틱스 영상에 대해서 상기 서버(200)에서의 인공지능 기능이나 영상 분석 기능 수행에 따라 상기 복수의 서브 로보틱스 영상에 포함된 아바타의 동작 순서에 대한 정보를 상기 단말(100)에 제공한다.
또한, 상기 단말(100)은 상기 단말(100)에서 사용자 입력에 따라 해당 복수의 서브 로보틱스 영상에 포함된 아바타의 동작 순서에 대해 잘된 상태 또는 잘못된 상태에 대해서 라벨링하고, 아바타의 동작 순서가 잘못되거나 조정이 필요한 경우 동작 순서 또는 아바타(또는 인간)가 포함된 서브 로보틱스 영상의 순서를 조정하기 위한 라벨값 등을 입력받고, 입력받은 해당 복수의 서브 로보틱스 영상에 포함된 아바타의 동작 순서에 대해 잘된 상태 또는 잘못된 상태에 대한 라벨값(예를 들어 선택, 거부 등 포함), 아바타의 동작 순서가 잘못되거나 조정이 필요한 경우 동작 순서 또는 아바타, 인간, 로봇 등이 포함된 서브 로보틱스 영상의 순서를 조정하기 위한 라벨값, 상기 단말(100)의 식별 정보 등을 상기 서버(200)에 전송한다.
또한, 상기 서버(200)는 상기 단말(100)로부터 전송되는 해당 복수의 서브 로보틱스 영상에 포함된 아바타의 동작 순서에 대해 잘된 상태 또는 잘못된 상태에 대한 라벨값, 아바타의 동작 순서가 잘못되거나 조정이 필요한 경우 동작 순서 또는 아바타가 포함된 서브 로보틱스 영상의 순서를 조정하기 위한 라벨값, 상기 단말(100)의 식별 정보 등을 수신한다.
또한, 상기 서버(200)는 상기 수신된 해당 복수의 서브 로보틱스 영상에 포함된 아바타의 동작 순서에 대해 잘된 상태 또는 잘못된 상태에 대한 라벨값, 아바타의 동작 순서가 잘못되거나 조정이 필요한 경우 동작 순서 또는 아바타가 포함된 서브 로보틱스 영상의 순서를 조정하기 위한 라벨값 등을 근거로 상기 제 1 로보틱스 영상을 분할한 복수의 서브 로보틱스 영상의 순서를 재정렬한다.
또한, 상기 단말(100)은 상기 제 1 로보틱스 영상과 관련한 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 하나 이상의 추가 선택라벨값, 하나 이상의 시계열 분할 선택라벨값, 하나 이상의 신체부위별 선택라벨값, 해당 복수의 서브 로보틱스 영상의 순서를 정렬하기 위한 라벨값, 해당 단말(100)의 식별 정보 등을 상기 서버(200)에 전송한다.
또한, 상기 단말(100)은 상기 서버(200)와 연동하여, 해당 제 1 로보틱스 영상을 대상으로 추가 선택라벨링을 수행하기 이전에 또는 수행한 이후에, 해당 하나 이상의 제 1 로보틱스 영상을 대상으로 추가 계층라벨링을 수행하고, 추가 계층라벨링 수행 전/후로 해당 제 1 로보틱스 영상을 대상으로 추가 선택라벨링을 수행할 수도 있다. 여기서, 상기 추가 계층라벨링(또는 추가 계층레이블링)은 사용자에 의한 입력 피처 엔지니어링으로, 해당 제 1 로보틱스 영상에 대한 특징을 나타내는 라벨(또는 라벨값)을 붙이고, 해당 제 1 로보틱스 영상을 특징에 따라 복수의 서브 로보틱스 영상으로 분할(또는 분류)하는 라벨링 방법을 나타낸다.
즉, 상기 단말(100)은 상기 서버(200)와 연동하여, 해당 단말(100)에 표시되는 제 1 로보틱스 영상에 대해서, 해당 특정 주제와 관련해서 미리 설정된 복수의 라벨 분류를 참조하여(또는 근거로), 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 해당 제 1 로보틱스 영상 중 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 추가 라벨(또는 추가 라벨값)을 설정(또는 수신/입력)한다.
이때, 상기 단말(100)에 표시되는 앱 실행 결과 화면 내의 보기 화면에 포함된 재생바가 선택되는 경우 또는 해당 보기 화면 내의 재생 버튼이 선택되는 경우, 상기 단말(100)은 상기 제 1 로보틱스 영상을 상기 영상 표시 영역에 표시(또는 출력)하고, 상기 제 1 로보틱스 영상과 관련한 비교 대상 영상(또는 상기 서버(200)로부터 제공받은 해당 로봇 동작 영상/제 1 로보틱스 영상에 대응하는 비교 대상 영상)을 상기 비교 대상 영상 표시 영역에 표시(또는 출력)한다. 이때, 상기 단말(100)은 상기 제 1 로보틱스 영상 및 상기 비교 대상 영상에 각각 대응하는 메타 정보를 근거로 해당 제 1 로보틱스 영상 및 상기 비교 대상 영상에 대해 동기화를 수행하여, 동기화된 제 1 로보틱스 영상 및 비교 대상 영상을 상기 영상 표시 영역 및 상기 비교 대상 영상 표시 영역에 각각 표시할 수 있다. 여기서, 상기 단말(100) 내의 상기 영상 표시 영역에 표시되는 제 1 로보틱스 영상 및 상기 비교 대상 영상 표시 영역에 표시되는 비교 대상 영상 중에서 어느 하나가 일시정지 기능 또는 멈춤 기능에 의해 멈추는 경우, 상기 단말(100)은 다른 하나도 함께 일시정지 기능 또는 멈춤 기능에 의해 멈추도록 제어한다.
또한, 상기 단말(100)은 상기 단말(100)의 영상 표시 영역에 표시되는 제 1 로보틱스 영상에 대해서 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 해당 제 1 로보틱스 영상에 포함된 객체의 움직임(또는 객체의 행위)에 대한 하나 이상의 단계별 추가 라벨(또는 추가 라벨값)을 설정(또는 수신/입력)한다.
즉, 상기 단말(100)은 상기 영상 표시 영역에 표시되는 제 1 로보틱스 영상의 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서 사용자 입력에 따라 해당 제 1 로보틱스 영상에 포함된 객체의 움직임(또는 객체의 행위)에 대해 계층적으로 객체의 특정 동작, 특정 동작의 특정 방식, 특정 방식의 특정 단계 등에 대해 추가 계층라벨(또는 추가 계층라벨값)을 각각 입력받는다.
이와 같이, 상기 단말(100)은 해당 특정 주제와 관련한 제 1 로보틱스 영상에 대해서, 해당 특정 주제와 관련한 전문가인 해당 단말(100)의 사용자 입력에 따라, 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서 하나 이상의 추가 계층라벨(또는 추가 계층라벨값)을 각각 설정(또는 수신/입력)한다.
또한, 상기 단말(100)은 추가 계층라벨링 과정을 수행한 전/후로, 앞서 설명한 추가 선택라벨링 과정을 수행한다.
이와 같이, 상기 단말(100)은 상기 제 1 로보틱스 영상을 대상으로 추가 계층라벨링 기능, 추가 선택라벨링 기능 등을 수행한다.
본 발명의 실시예에서는 상기 추가 계층라벨링 기능 및 상기 추가 선택라벨링 기능을 분리하여 설명하고 있으나, 이에 한정되는 것은 아니며, 상기 단말(100)은 상기 추가 계층라벨링 기능을 상기 추가 선택라벨링 기능에 포함시켜 수행할 수 있으며, 또한 상기 추가 계층라벨링과 상기 추가 선택라벨링을 하나의 추가 라벨링 기능으로 통합하여 수행할 수도 있다.
또한, 상기 단말(100)은 상기 서버(200)로부터 전송되는 제 2 로보틱스 영상을 수신한다. 여기서, 상기 제 2 로보틱스 영상은 상기 서버(200)에서의 해당 제 1 로보틱스 영상을 대상으로 한 분류 모델 및 예측 모델에 의한 학습 결과로 생성된 결과물로, 상기 제 1 로보틱스 영상을 근거로 생성되는 아바타, 아이템, 로봇 등의 동작 관련 영상, 상기 제 1 로보틱스 영상이 업데이트된 영상 등일 수 있다.
또한, 상기 단말(100)은 상기 수신된 제 2 로보틱스 영상을 상기 영상 표시 영역에 출력한다. 이때, 상기 단말(100)은 상기 로봇 동작 영상, 상기 비교 대상 영상, 상기 제 1 로보틱스 영상 및 상기 제 2 로보틱스 영상을 동기화한 상태에서 해당 단말(100)의 화면을 분할하여 동시에 출력할 수도 있다.
또한, 상기 단말(100)은 상기 특정 주제(또는 상기 로우 데이터)와 관련해서 최신의 집단 지성화된 제 2 로보틱스 영상(또는 업데이트된 제 2 로보틱스 영상)을 상기 서버(200)로부터 제공받을 수 있다.
본 발명의 실시예에서는 상기 단말(300)에서 전용 앱 형태로 로우 데이터 수집 기능, 정보/영상에 대한 계층라벨링 기능, 정보/영상에 대한 선택라벨링 기능, 정보/영상에 대한 시계열 분할 선택라벨링 기능, 정보/영상에 대한 신체부위별 선택라벨링 기능 등을 수행하는 것을 설명하고 있으나, 이에 한정되는 것은 아니며, 상기 전용 앱 이외에도 상기 서버(200)에 제공하는 웹 사이트 등을 통해 상기 로우 데이터 수집 기능, 상기 정보/영상에 대한 계층라벨링 기능, 상기 정보/영상에 대한 선택라벨링 기능, 상기 정보/영상에 대한 시계열 분할 선택라벨링 기능, 상기 정보/영상에 대한 신체부위별 선택라벨링 기능 등을 수행할 수도 있다.
상기 서버(200)는 상기 단말(100) 등과 통신한다.
또한, 상기 서버(200)는 상기 단말(100) 등의 사용자에 대한 회원 가입 절차 등을 수행한다.
또한, 상기 서버(200)는 상기 단말(100) 등의 사용자와 관련한 개인 정보를 등록한다. 이때, 상기 서버(200)는 해당 개인 정보 등을 DB 서버(미도시)에 등록(또는 관리)할 수 있다.
또한, 상기 서버(200)는 상기 단말(100) 등의 사용자에 대한 회원 관리 기능을 수행한다.
또한, 상기 서버(200)는 로우 데이터 수집 기능, 정보/영상에 대한 계층라벨링 기능, 정보/영상에 대한 선택라벨링 기능, 정보/영상에 대한 시계열 분할 선택라벨링 기능, 정보/영상에 대한 신체부위별 선택라벨링 기능 등을 제공하는 전용 앱 및/또는 웹 사이트를 상기 단말(100) 등에 제공한다.
또한, 상기 서버(200)는 공지사항, 이벤트 등을 위한 게시판 기능을 제공한다.
또한, 상기 서버(200)는 상기 단말(100) 및 상기 결제 서버와 연동하여, 해당 서버(200)에서 제공하는 로우 데이터 수집 기능, 정보/영상에 대한 계층라벨링 기능, 정보/영상에 대한 선택라벨링 기능, 정보/영상에 대한 시계열 분할 선택라벨링 기능, 정보/영상에 대한 신체부위별 선택라벨링 기능 등에 대해서 해당 단말(100)에서의 구독 기능 수행에 따른 결제 기능을 수행한다.
결제 기능이 실패한 경우, 상기 서버(200)는 결제 실패 정보(예를 들어 결제일자, 결제금액, 실패 정보(예를 들어 잔액 부족, 한도 초과 등 포함) 등 포함)(또는 결제가 실패한 상태임을 나타내는 정보)를 상기 단말(100)로 제공한다.
또한, 상기 서버(200)는 상기 단말(100)과의 결제 기능이 정상적으로 수행된 후, 상기 결제 서버로부터 제공되는 결제 기능 수행 결과를 상기 단말(100)에 각각 전송한다. 여기서, 상기 결제 기능 수행 결과는 구독 기간, 결제 금액, 결제 일자 및 시각 정보 등을 포함한다.
또한, 상기 서버(200)는 결제 기능 수행 결과를 해당 단말(100)(또는 해당 단말(100)과 관련한 계정 정보)과 매핑하여(또는 매칭하여/연동하여) 관리(또는 저장/등록)한다.
또한, 상기 서버(200)는 상기 구독 기능 수행에 따라, 상기 단말(100)에서 해당 전용 앱을 통해 해당 서버(200)에서 제공하는 로우 데이터 수집 기능, 정보/영상에 대한 계층라벨링 기능, 정보/영상에 대한 선택라벨링 기능, 정보/영상에 대한 시계열 분할 선택라벨링 기능, 정보/영상에 대한 신체부위별 선택라벨링 기능 등을 수행하기 위한 다양한 정보 등을 제공한다.
또한, 상기 서버(200)는 해당 서버(200)의 구성 요소 간 통신 기능을 제공하기 위해서 버스(미도시), 통신 인터페이스(미도시) 등을 더 포함할 수 있다.
상기 버스는 주소 버스(address bus), 데이터 버스(data bus), 제어 버스(control bus) 등 다양한 형태의 버스로 구현한다.
상기 통신 인터페이스는 상기 서버(200)의 유/무선 인터넷 통신을 지원한다.
또한, 상기 서버(200)는 컴퓨터 프로그램이 메모리에 로드될 때, 프로세서로 하여금 본 발명의 다양한 실시예에 따른 방법/기능을 수행하도록 하는 하나 이상의 인스트럭션을 포함한다. 즉, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 본 발명의 다양한 실시예에 따른 상기 방법/기능을 수행한다.
또한, 상기 서버(200)는 사전에 수집된 특정 주제와 관련한 로우 데이터, 해당 로우 데이터와 관련한 메타 정보, 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보, 제 1 영상, 해당 제 1 영상과 관련한 메타 정보, 제 2 영상, 해당 제 2 영상과 관련한 메타 정보, 아바타 및/또는 아이템의 동작 관련 영상, 해당 동작 관련 영상과 관련한 메타 정보, 제 1 로보틱스 영상, 해당 제 1 로보틱스 영상과 관련한 메타 정보, 제 2 로보틱스 영상, 해당 제 2 로보틱스 영상과 관련한 메타 정보 등을 지속적인 기계학습(또는 딥러닝)의 데이터로 활용한다. 여기서, 상기 기계학습을 위한 입력 데이터세트는 상기 특정 주제와 관련한 로우 데이터, 해당 로우 데이터와 관련한 메타 정보, 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보, 제 1 영상, 해당 제 1 영상과 관련한 메타 정보, 제 2 영상, 해당 제 2 영상과 관련한 메타 정보, 아바타 및/또는 아이템의 동작 관련 영상, 해당 동작 관련 영상과 관련한 메타 정보, 제 1 로보틱스 영상, 해당 제 1 로보틱스 영상과 관련한 메타 정보, 제 2 로보틱스 영상, 해당 제 2 로보틱스 영상과 관련한 메타 정보 등을 미리 설정된 비율(예를 들어 7:3, 8:2 등 포함)로 훈련 세트(train set)와 테스트 세트(test set)로 분할하여, 훈련 및 테스트 기능을 수행할 수 있다. 또한, 상기 기계학습을 위한 입력 데이터세트는 추후 수집되는 특정 주제와 관련한 로우 데이터, 해당 로우 데이터와 관련한 메타 정보, 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보, 제 1 영상, 해당 제 1 영상과 관련한 메타 정보, 제 2 영상, 해당 제 2 영상과 관련한 메타 정보, 아바타 및/또는 아이템의 동작 관련 영상, 해당 동작 관련 영상과 관련한 메타 정보, 제 1 로보틱스 영상, 해당 제 1 로보틱스 영상과 관련한 메타 정보, 제 2 로보틱스 영상, 해당 제 2 로보틱스 영상과 관련한 메타 정보 등을 포함한다. 또한, 상기 기계학습을 위한 출력 데이터세트는 예측하고 싶은 부분으로, 수집된 정보 등에 따라 학습하고, 추후에 이를 분류하거나 예측하여, 해당 로우 데이터, 제 1 영상, 제 2 영상, 동작 관련 영상, 제 1 로보틱스 영상, 제 2 로보틱스 영상 등과 관련한 라벨을 분류하고, 분류된 정보들을 근거로 생성되는 제 1 영상, 제 2 영상, 제 1 로보틱스 영상, 제 2 로보틱스 영상 등을 포함한다.
즉, 상기 서버(200)는 미리 설정된 학습용 데이터를 통해 분류 모델에 대해서 사전에 수집된 특정 주제와 관련한 로우 데이터, 제 1 영상, 아바타 및/또는 아이템의 동작 관련 영상, 제 1 로보틱스 영상 등에 대해서 해당 정보들과 관련한 라벨값을 분류하기 위한 학습 기능을 수행한다. 이때, 상기 서버(200)는 해당 정보들을 병렬 및 분산하여 저장하고, 저장된 정보들 내에 포함된 사전에 수집된 특정 주제와 관련한 로우 데이터, 해당 로우 데이터와 관련한 메타 정보, 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보, 제 1 영상, 해당 제 1 영상과 관련한 메타 정보, 제 2 영상, 해당 제 2 영상과 관련한 메타 정보, 아바타 및/또는 아이템의 동작 관련 영상, 해당 동작 관련 영상과 관련한 메타 정보, 제 1 로보틱스 영상, 해당 제 1 로보틱스 영상과 관련한 메타 정보, 제 2 로보틱스 영상, 해당 제 2 로보틱스 영상과 관련한 메타 정보 등을 비정형(Unstructed) 데이터, 정형(Structured) 데이터, 반정형 데이터(Semi-structured)를 정제하고, 메타 데이터로 분류를 포함한 전처리를 실시하고, 전처리된 데이터를 데이터 마이닝(Data Mining)을 포함하는 분석을 실시하고 적어도 하나의 종류의 기계학습에 기반하여 학습, 훈련 및 테스트를 진행하여 빅데이터를 구축할 수 있다. 이때, 적어도 하나의 종류의 기계학습은 지도 학습(Supervised Learning), 반지도 학습(Semi-Supervised Learning), 비지도 학습(Unsupervised Learning), 강화 학습(Reinforcement Learning) 및 심층 강화 학습(Deep Reinforcement Learning) 중 어느 하나 또는 적어도 하나의 조합으로 이루어질 수 있다.
또한, 상기 서버(200)는 미리 설정된 학습용 데이터를 통해 예측 모델에 대해 사전에 수집된 특정 주제와 관련해서 상기 분류 모델을 통해 분류된 분류값, 로우 데이터, 해당 로우 데이터와 관련한 메타 정보, 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보, 제 1 영상, 해당 제 1 영상과 관련한 메타 정보, 제 2 영상, 해당 제 2 영상과 관련한 메타 정보, 아바타 및/또는 아이템의 동작 관련 영상, 해당 동작 관련 영상과 관련한 메타 정보, 제 1 로보틱스 영상, 해당 제 1 로보틱스 영상과 관련한 메타 정보, 제 2 로보틱스 영상, 해당 제 2 로보틱스 영상과 관련한 메타 정보 등에 대해서 해당 정보들과 관련한 새로운 영상(예를 들어 제 1 영상, 제 2 영상 등 포함)을 생성하기 위한 학습 기능을 수행한다. 이때, 상기 서버(200)는 해당 정보들을 병렬 및 분산하여 저장하고, 저장된 정보들 내에 포함된 사전에 수집된 특정 주제와 관련한 상기 분류 모델을 통해 분류된 분류값, 로우 데이터, 해당 로우 데이터와 관련한 메타 정보, 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보, 제 1 영상, 해당 제 1 영상과 관련한 메타 정보, 제 2 영상, 해당 제 2 영상과 관련한 메타 정보, 아바타 및/또는 아이템의 동작 관련 영상, 해당 동작 관련 영상과 관련한 메타 정보, 제 1 로보틱스 영상, 해당 제 1 로보틱스 영상과 관련한 메타 정보, 제 2 로보틱스 영상, 해당 제 2 로보틱스 영상과 관련한 메타 정보 등을 비정형 데이터, 정형 데이터, 반정형 데이터를 정제하고, 메타 데이터로 분류를 포함한 전처리를 실시하고, 전처리된 데이터를 데이터 마이닝을 포함하는 분석을 실시하고 적어도 하나의 종류의 기계학습에 기반하여 학습, 훈련 및 테스트를 진행하여 빅데이터를 구축할 수 있다. 이때, 적어도 하나의 종류의 기계학습은 지도 학습, 반지도 학습, 비지도 학습, 강화 학습 및 심층 강화 학습 중 어느 하나 또는 적어도 하나의 조합으로 이루어질 수 있다.
이와 같이, 상기 서버(200)는 상기 학습용 데이터 등을 통해서 뉴럴 네트워크(Neural Networks) 형태의 상기 분류 모델, 상기 예측 모델 등에 대해서 학습 기능을 수행한다.
또한, 상기 서버(200)는 생성적 신경망 알고리즘, 추적 신경망 네트워크 등을 사용한다. 여기서, 상기 추적 신경망 네트워크는 시퀀셜(sequential) 형태의 입력이 들어오는 모델이면서, 객체의 영상 정보의 xyz 좌표의 상대값을 4차원 벡터적으로 측정 및 자료 구조화하는 것이 가능한 신경망 알고리즘일 수 있다.
본 발명의 일 실시예에서, 생성적 신경망 알고리즘과 추적 신경망 네트워크로 GNN(Graph Neural Network), GAN(Generative Adversarial Network) 등을 이용한다. 인공지능 알고리즘으로 GAN과 GNN의 조합이 있을 수 있고, GAN을 제외한 GNN 단독 적용이 있을 수 있고, GNN을 제외한 GAN 단독 적용이 있을 수 있다. GAN을 단독으로 사용하는 경우에는 'GNN 회귀모델 1형' 및 'GNN 회귀모델 2형'을 사용하지 않고, 속성과 타깃 속성의 예측값을 구할 때, 딥러닝 및 연관규칙을 사용한다. GAN은 정지영상이나 동영상의 표현, 화질의 자연스러움, 정교함 등을 보강한다. 다음 동작의 예측을 위해서 동작 패턴의 연관규칙 등으로 추론한다.
로우 데이터인 제 1 기초 영상정보는 제 1 계층라벨링(1210)에 의해 군집화된 제 1 속성(1224) 및 제 1 타깃 속성(1225)이 된다.
상기 도 3 내지 상기 도 5를 참조하면, 어노테이션 단계의 복수의 기초 영상(또는 로우 데이터/기초 영상 정보)에 대해 사용자가 제 1 계층라벨링(1210)을 하면, 기초 영상 정보는 계층적으로 군집화된다. 이를 제 1 계층적 군집이라 하며, 기초 영상은 기초영상정보가 상기 단말(100)의 보기 화면으로 출력되는 영상을 나타낸다.
또한, 상기 서버(200)는 상기 단말(100)로부터 전송되는 하나 이상의 로우 데이터, 해당 로우 데이터와 관련한 메타 정보, 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보, 단말(100)의 식별 정보 등을 수신한다.
이때, 상기 단말(100)로부터 상기 로우 데이터와 관련한 비교 대상 영상이 전송되지 않은 경우, 상기 서버(200)는 상기 수신된 해당 특정 주제와 관련한 하나 이상의 로우 데이터, 해당 로우 데이터와 관련한 메타 정보 등을 근거로 해당 서버(200)에서 관리 중인 복수의 비교 대상 영상 중에서 상기 로우 데이터와 관련한 비교 대상 영상을 확인(또는 검색)하고, 상기 확인된 해당 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보 등을 상기 단말(100)에 제공한다.
또한, 상기 서버(200)는 상기 수신된 하나 이상의 로우 데이터를 대상으로 선택라벨링을 수행한다. 여기서, 상기 선택라벨링(또는 선택레이블링)은 상기 로우 데이터의 특정 시점(또는 특정 구간)에서의 오류(또는 이상) 유무에 대한 라벨(label)(또는 라벨값)을 설정하는(또는 붙이는) 라벨링 방법을 나타낸다. 이때, 상기 로우 데이터 중에서 상기 선택라벨링에 따라 라벨(또는 라벨값)이 설정되지 않은 시점(또는 구간)은 미리 설정된 디폴트 라벨값(예를 들어 승인 라벨)이 설정될 수 있다.
즉, 상기 서버(200)는 상기 단말(100)과 연동하여, 해당 단말(100)에 표시되는 로우 데이터에 대해서, 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 해당 로우 데이터 중 특정 시점(또는 특정 구간)에서의 라벨(또는 라벨값)을 설정(또는 수신/입력)한다.
또한, 상기 서버(200)는 상기 단말(100)로부터 전송되는 상기 로우 데이터와 관련한 하나 이상의 특징 시점(또는 특정 구간)에서의 하나 이상의 선택라벨값, 해당 로우 데이터의 메타 정보, 해당 단말(100)의 식별 정보 등을 수신한다.
본 발명의 실시예에서는, 상기 단말(100)에서 사용자 입력에 따라 해당 로우 데이터 중 하나 이상의 특정 시점(또는 특정 구간)에서 하나 이상의 선택라벨값을 설정(또는 수신/입력)하는 것을 주로 설명하고 있으나, 이에 한정되는 것은 아니며, 상기 서버(200)는 해당 로우 데이터 및 해당 로우 데이터와 관련한 비교 대상 영상에 대한 영상 분석 기능을 수행하고, 영상 분석 기능 수행 결과를 근거로 해당 로우 데이터에 대해서 하나 이상의 특정 시점(또는 특정 구간)에서 하나 이상의 선택라벨값을 자동으로 각각 설정할 수도 있다.
또한, 상기 서버(200)에서 해당 로우 데이터에 대해 하나 이상의 특정 시점(또는 특정 구간)에서 하나 이상의 선택라벨값을 설정한 경우, 상기 서버(200)는 상기 설정된 해당 로우 데이터와 관련한 하나 이상의 특정 시점(또는 특정 구간)에서의 하나 이상의 선택라벨값에 대한 정보를 상기 단말(100)에 제공하고, 해당 단말(100)에서 상기 서버(200)에서 설정된 해당 로우 데이터와 관련한 하나 이상의 특정 시점(또는 특정 구간)에서의 하나 이상의 선택라벨값에 대한 정보를 표시하고, 해당 단말(100)의 사용자 입력에 따라 해당 하나 이상의 특정 시점(또는 특정 구간)에서의 하나 이상의 선택라벨값에 대해 최종 승인 여부를 결정하도록 구성할 수도 있다.
이때, 해당 하나 이상의 로우 데이터를 대상으로 선택라벨링을 수행하기 이전에 또는 수행한 이후에, 상기 서버(200)는 상기 단말(100)과 연동하여, 해당 하나 이상의 로우 데이터를 대상으로 계층라벨링을 수행하고, 계층라벨링 수행 전/후로 해당 하나 이상의 로우 데이터를 대상으로 선택라벨링을 수행할 수도 있다. 여기서, 상기 계층라벨링(또는 계층레이블링)은 사용자에 의한 입력 피처 엔지니어링(input feature engineering)으로, 해당 로우 데이터에 대한 특징을 나타내는 라벨(또는 라벨값)을 붙이고, 해당 로우 데이터를 특징에 따라 복수의 서브 로우 데이터로 분할(또는 분류)하는 라벨링 방법을 나타낸다.
즉, 상기 서버(200)는 상기 단말(100)과 연동하여, 해당 단말(100)에 표시되는 로우 데이터에 대해서, 해당 특정 주제와 관련해서 미리 설정된 복수의 라벨 분류를 참조하여(또는 근거로), 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 해당 로우 데이터 중 다른 특정 시점(또는 다른 특정 구간)에서의 라벨(또는 라벨값)을 설정(또는 수신/입력)한다.
또한, 상기 서버(200)는 상기 로우 데이터를 복수의 서브 로우 데이터로 분할한다.
본 발명의 실시예에서는, 상기 단말(100)에서 사용자 입력에 따라 해당 로우 데이터 중 하나 이상의 다른 특정 시점(또는 다른 특정 구간)에서 하나 이상의 계층라벨값을 설정(또는 수신/입력)하는 것을 주로 설명하고 있으나, 이에 한정되는 것은 아니며, 상기 서버(200)는 해당 로우 데이터 및 해당 로우 데이터와 관련한 비교 대상 영상에 대한 영상 분석 기능을 수행하고, 영상 분석 기능 수행 결과를 근거로 해당 로우 데이터에 대해서 하나 이상의 다른 특정 시점(또는 다른 특정 구간)에서 하나 이상의 계층라벨값을 자동으로 각각 설정할 수도 있다.
또한, 상기 서버(200)에서 해당 로우 데이터에 대해 하나 이상의 다른 특정 시점(또는 다른 특정 구간)에서 하나 이상의 계층라벨값을 설정한 경우, 상기 서버(200)는 상기 설정된 해당 로우 데이터와 관련한 하나 이상의 다른 특정 시점(또는 다른 특정 구간)에서의 하나 이상의 계층라벨값에 대한 정보를 상기 단말(100)에 제공하고, 해당 단말(100)에서 상기 서버(200)에서 설정된 해당 로우 데이터와 관련한 하나 이상의 다른 특정 시점(또는 다른 특정 구간)에서의 하나 이상의 계층라벨값에 대한 정보를 표시하고, 해당 단말(100)의 사용자 입력에 따라 해당 하나 이상의 다른 특정 시점(또는 다른 특정 구간)에서의 하나 이상의 계층라벨값에 대해 최종 승인 여부를 결정하도록 구성할 수도 있다.
또한, 상기 서버(200)는 입력 피처 엔지니어링에 관한 라이브러리를 호출하여, 기초영상정보(또는 로우 데이터)를 입력 피처 벡터(input feature vector)로 변환(conversion)한다. 사용자에 의한 계층라벨링은 기초영상정보를 데이터 단위 3 또는 데이터 단위 4로 분할하고, 데이터 단위 3 또는 데이터 단위 4의 속성값이 복합적인 입력 피처가 되도록 예측 모델을 지도 학습한다. 상기 복합적인 입력 피처는 포인트 클라우드, RGB, JPG, 동영상 정보, 복셀(또는 3D 이미지), 벡터 포맷 등이 결합된 기초영상정보가 입력 피처로 변환된 것을 나타낸다.
또한, 사용자에 의한 계층라벨링은 상기 서버(200)가 입력 피처 엔지니어링에 관한 라이브러리를 호출하여 기초영상정보를 입력 피처 벡터로 변환하는 과정에서 생략될 수 있다.
제 1 계층적 군집(1201)이 상기 서버(200)에 의해 스스로 생성될 수 있다. 사용자에 의한 제 1 계층라벨링, 제 2 계층라벨링 등이 일부 혹은 전체를 사용자가 수행하지 않을 경우에, 인공지능이 입력 피처를 스스로 구하는 것을 계층적 군집화 라벨링이 상기 서버(200)에 의해 수행되는 것이라 할 수 있다.
본 발명의 일 실시예에서, 계층적 군집화 라벨링 정보를 수신하는 계층라벨링 정보 수신 단계를 생략한다. 제 1 계층라벨링, 제 2 계층라벨링, 제 3 계층라벨링 등과 같은 사용자에 의한 입력 피처 엔지니어링을 생략하고, 상기 서버(200)가 스스로 입력 피처를 구한다. 제 1 계층라벨링, 제 2 계층라벨링, 제 3 계층라벨링 등의 반복되는 계층라벨링과 같은 사용자에 의한 입력 피처 엔지니어링을 생략하고, 상기 서버(200)가 스스로 입력 피처를 구한다.
상기 도 12에서 제 1 계층적군집(1201)은 제 1 기초영상정보가 제 1 계층라벨링(1210)에 의해 군집화된 것을 나타낸다. 상기 제 1 계층적 군집(1201)은 상기 도 7의 데이터 단위 3 기준으로 계층적군집(700)이 되거나 또는, 상기 도 9의 데이터 단위 4 기준으로 계층적군집(900)이 된다.
본 발명의 일 실시예에서, 계층적 군집은 상기 서버(200)가 스스로 입력 피처를 구하는 방식을 포함한다.
상기 도 12의 제 2 계층라벨링은 상기 단말(100)의 보기 화면에서 출력되는 제 1 영상정보에 대해 계층적 군집화 라벨링을 진행하는 것으로, 상기 제 1 영상정보에 대해 계층적 군집화 라벨값을 입력하기 위해 사용자는 앞선 [표 1] 내지 [표 11]의 라벨 분류를 참조한다.
본 발명의 일 실시예에서, 사용자는(또는 단말(100)/서버(200)) 특정 단계별 및/또는 세부동작 단계별 라벨링을 하지 않는다. 상기 서버(200)에 의해 데이터 단위 3 또는 데이터 단위 4 또는 데이터 단위 5로 동영상이 분할될 수 있다.
또한, 상기 서버(200)는 상기 선택라벨링된 로우 데이터에 대한 정보 등을 근거로 인공지능 기반의 기계 학습을 수행하여, 기계 학습 결과를 근거로 해당 로우 데이터에 대한 분류값을 생성(또는 확인)한다. 여기서, 상기 해당 로우 데이터에 대한 분류값(또는 해당 로우 데이터의 분류값/선택라벨링된 로우 데이터의 분류값/계층라벨링된 로우 데이터의 분류값)은 선택라벨링값, 계층라벨링값 등을 동일 항목별로 분류한 값일 수 있다.
즉, 상기 서버(200)는 상기 선택라벨링된 로우 데이터에 대한 정보 등을 미리 설정된 분류 모델의 입력값으로 하여 기계 학습(또는 인공지능/딥 러닝)을 수행하고, 기계 학습 결과(또는 인공지능 결과/딥 러닝 결과)를 근거로 해당 로우 데이터에 대한 분류값을 생성(또는 확인)한다.
다양한 실시예에서, 라벨링 단계에서 아바타, 인간, 로봇 등의 동작을 승인(ACCEPT) 또는 거절(REJECT) 분류하는 라벨링은 지도학습형태로 진행되며, 이는 분류모델에 해당된다. 승인(ACCEPT) 및 거절(REJECT) 2진 분류는 보편적으로 사용하는 2진 분류(Binary Classification) 모델로 사용 가능하며, 수술 및 동작의 성공 실패를 5단계의 척도로 표현시에는 각 클래스(class)의 확률값이 도출되는 멀티 분류 모델(multiple classification model)로 구현할 수 있다.
다양한 실시예에서, 앞선 단말(100)의 앱 실행 결과 화면(또는 보기 화면)의 사용자 인터페이스에서 승인(ACCEPT) 또는 거절(REJECT)을 선택하는 이분법으로 영상정보에 라벨을 붙일 수 있지만, 승인(ACCEPT), 노멀(NORMAL), 거절(REJECT)로 분류하여 3단계로 영상정보에 라벨을 붙일 수도 있다. 잘된 동작과 잘못된 동작의 단계를 정도로 나누어서 5단계, 6단계 라벨로 세분화하여 라벨링 할 수도 있다. 5단계, 6단계와 같이 라벨의 세분화가 클 경우, 잘된 점수를 5점부터 1점까지 점수를 매긴다. 잘된 점수가 일정 이상(4점 이상)인 경우에는 승인(ACCEPT)으로 간주하고, 잘못된 점수가 일정 이하(2점 이하)인 경우에는 거절(REJECT)로 간주하여 분류한다. 3점은 노멀(NORMAL)로 분류한다.
또한, 상기 서버(200)는 상기 생성된 해당 로우 데이터에 대한 분류값(또는 해당 로우 데이터의 분류값), 상기 선택라벨링된 로우 데이터에 대한 정보, 해당 로우 데이터, 해당 로우 데이터와 관련한 메타 정보, 상기 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보 등을 입력값으로 하여 기계 학습(또는 인공지능/딥 러닝)을 수행하고, 기계 학습 결과(또는 인공지능 결과/딥 러닝 결과)를 근거로 해당 로우 데이터에 대응하는 제 1 영상을 생성한다. 이때, 상기 제 1 영상은 상기 로우 데이터를 근거로 생성되는 아바타, 아이템, 로봇 등의 동작 관련 영상, 상기 로우 데이터가 업데이트된 영상(예를 들어 상기 로우 데이터에 포함된 인간/사람의 동작/행위/행동이 업데이트된 영상) 등일 수 있다.
즉, 상기 서버(200)는 상기 생성된 해당 로우 데이터에 대한 분류값(또는 해당 로우 데이터의 분류값), 상기 선택라벨링된 로우 데이터에 대한 정보, 해당 로우 데이터, 해당 로우 데이터와 관련한 메타 정보, 상기 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보 등을 미리 설정된 예측 모델의 입력값으로 하여 기계 학습(또는 인공지능/딥 러닝)을 수행하고, 기계 학습 결과(또는 인공지능 결과/딥 러닝 결과)를 근거로 해당 로우 데이터와 관련한 제 1 영상을 생성한다.
또한, 상기 서버(200)는 상기 생성된 제 1 영상을 상기 단말(100)에 전송(또는 제공)한다.
도 13을 참조하면, GNN의 구조는 다음과 같다.
동영상이나 정지영상 속의 객체는 노드(x1~x4, z1~z4)로 표현된다. 각 객체들은 서로 연관되어 있고, 그 관계가 상호영향을 주는 시계열적인 움직임 패턴이 있다. 입력층(1301)과 출력층(1303)은 복수의 층(layer)이 겹쳐 있고, 입력층(1301)과 출력층(1303)의 중간에는 감쳐진 층(또는 히든층)(1302)이 존재한다. 입력(Input)이 들어가면 다음 출력(output)이 예측된다.
기존의 GAN은 3D 복셀(voxel) 방식을 이용한다. 공간을 3D 복셀화하는 경우, X*, Y*, Z*, 4차원(dimension)의 정보가 수백 메가바이트에 달하므로, 매우 많은 하드웨어, GPU, 메모리 리소스를 필요로 하고, 트레이닝 시간이 매우 많이 소요되는 문제가 있다. 이러한 문제로 인해 최근에는 포인트 클라우드 방식을 주로 이용하고 있다. 포인트 클라우드 방식은 라이다(Lidar) 등을 이용하여 실물 공간 측정이 가능하고, xyz 좌표의 상대값을 물리적으로 측정 및 자료구조화하는 것이 가능하여 3D 복셀 방식에 비하여 효과적인 측면이 있다. 하지만 포인트(point)는 정렬되어 있지 않고, 정형화되어 있지 않아, 인공지능에 객체의 특성을 매우 일부만 표현해주는 단점이 있어, 상대적인 값, 특징(feature)에 대한 정렬된 정보를 표현할 필요가 있다.
본 발명의 실시 예에 따른 GAN은 동영상, 포즈, 움직임의 특성에 대한 정보를 특징 내에 표현하기 위해, 포인트와 포인트의 연결에 있어서, 관절의 특성(예를 들어 안으로만 접힐 수 있음), 각도, 거리, 랜드마크 포인트(land mark point) 등을 추가로 표현한다.
본 발명의 일 실시예에서, 포인트 클라우드는 필수적 특징을 벗어나지 않는 범위에서 다른 자료 구조로 구체화 될 수 있다..
즉, 본 발명의 실시 예에 따른 GAN은 관절, 구조물의 특성을 벡터(vector)적으로 표현하고, 포인트 클라우드에서 GNN 형태로의 치환된 자료구조를 가져갈 수 있다.
또한, 3D 공간, 3D 모션(motion), 체형, 동작에 대한 GAN 활용에 있어, 공간의 정보를 포인트가 아닌 복수의 포인트가 결합된 오브젝트(object)로 생성하며, 이를 GNN 형태로 자료구조화 하여 처리한다.
GNN 형태로 처리함에 있어 부가적으로 메타(meta) 정보를 입력값(input)의 또 다른 특징(feature)으로 사용하고 있으며, 메타정보의 특징의 형태가 상이한 경우, 이를 단순하게 변경할 수 없으므로, 층(layer)을 나누어 합병하여(merge) 사용한다.
합병하여 또 다른 입력값으로 사용하는 메타 정보는 사용자 정보 및 아이템 정보를 포함한다.
메타 정보는 비지도(unsupervised) GAN의 트레이닝에 있어, 지도(supervised) 라벨의 보완 정보로 사용되며, 조건(Conditional) 정보로 사용된다.
해당 메타 정보는 각종 시각적 트레이닝 시 유사 정도를 GAN이 기억하게 되고, 향후 특정 속성 정보가 바뀔 때, 시각정보가 그에 맞추어 가변적으로 인위적 개입을 함에 있어 도움을 주는 입력값 정보로 활용된다. 본 발명의 일 실시예에서, 근육량 수치를 늘리거나, 연령을 낮추는 경우 생성된 가상의 아바타의 모양은 메타정보의 해당 값에 따라 달라지게 될 수 있다.
GNN은 특정 파라미터 간 매핑된 데이터를 기초로 모델링된 모델링 데이터를 이용하여, 모델링 데이터 간의 유사도와 특징점을 도출하는 방식으로 구현된 인공신경망 구조를 나타낼 수 있다. 여기에서 망라된 알고리즘 이외에도 다른 것의 사용도 가능하고 언급된 알고리즘에 국한하지 않는다.
본 발명의 일 실시예에서, 사용자 정보는 얼굴 및 몸의 형태 및 색상, 연령, 성별, 헤어, 인종, fat 정도, 근육질 정도, 기타 각종 카테고리 정보, 숫자(numeric) 정보, 기타 사용자 속성 정보를 포함하고, 아이템 정보는 브랜드, 생성자ID, 광고주ID, NFT ID, 상품그룹ID, 기타 아이템 속성 정보를 포함한다. 디지털 카데바에서 활용되는 경우는 각 부위명, 혈액형, 나이, 성별, 발병종류, 진행상태 등의 정보이다.
도 14를 참조하면, 서버(200)는 조건부(Conditional) GAN의 조건(Condition) 메타 정보를 수정(1401)하여, 아바타의 날씬해지기, 근육맨 등 체형특성정보를 수정(1401)한다. 도 14를 참조하면, 다양한 게임에서 메타정보를 수정(1401)할 수 있다.
본 발명의 일 실시예에서, 상기 서버(200)는 댄싱 퍼포먼스, 가상 수술, 가상 축구게임, 가상 전투기 등을 조정하는 아바타 등을 생성(또는 관리)한다.
본 발명의 일 실시예에서, 디지털 카데바는 치과 수술시 보철, 임플란트 등이 교체 가능한 외부 객체일 수 있으며, 이를 교체하여 수술 전 시뮬레이션 해 볼 수 있으며, 성형에서는 성형 후 시뮬레이션으로, 일반 수술에서는 3D 입체적인 크기와 구조에 따른 물리적 결합 시뮬레이션 용도로 활용해 볼 수 있다. 이를 통해, 미리 학습된 객체에 대한 특성(예를 들어 각종 의료장비의 열리고 닫힘, 의사의 손과 발은 몸에서 떨어질 수 없고 안쪽으로 굽어질 수 있음, 의료장비 및 기구는 디지털 카데바에서 떨어질 수 있고, 붙어질 수 있음 등 포함)을 트레이닝 특징으로 활용한다.
이를 통해, 미리 학습된 객체에 대한 특성(예를 들어 치과 핸드피스의 치과용 날(버)는 돌아갈 수 있음, 수술용 칼에 의해 조직이 열림, 치아는 치아 잇몸에서 뽑힐 수 있음, 인체 장기는 대체될 수 있음 등 포함)을 트레이닝 특징으로 활용한다.
이를 통해, 미리 학습된 객체에 대한 특성(예를 들어 자동차의 바퀴는 돌아갈 수 있음, 집의 현관문은 열림, 손과 발은 몸에서 떨어질 수 없고 안쪽으로 굽어질 수 있음, 모자는 머리에서 떨어질 수 있고, 씌워질 수 있음 등 포함)을 트레이닝 특징으로 활용한다.
이를 통해, 상기 서버(200)는 조건부 GAN의 조건 메타 정보를 수정(1401)하여, 아바타의 일종인 디지털 카데바의 변이, 증례에 따른 각종 질환정보를 수정한다.
다양한 실시의 예로서, 상기 단말(100)은 다양한 형태의 VR 시뮬레이터일 수 있다. GAN 및/또는 GNN 예측모델에 의해 시각렌더링이 제공되는 VR 시뮬레이터에는 햅틱렌더링이 동시에 제공된다. VR 시뮬레이터에는 시각 세트 장치 및 다양한 형태의 햅틱 디바이스가 연결된다. VR 시뮬레이터의 형태에 따른 종류는 다음과 같다. 즉, 상기 VR 시뮬레이터는 치아삭제 VR 시뮬레이터, 수술 VR 시뮬레이터, 비히클(VEHICLE) VR 시뮬레이터, VR 트레드밀 등을 포함한다. VR 시뮬레이터의 형태는 이에 국한하지 않는다.
본 발명의 일 실시예에서, 치아삭제 VR 시뮬레이터의 장비는 HMD, 햅틱 디바이스, 치과용 체어에 사용되는 풋페달 시스템(예를 들어 아두이노, 라즈베리파이 등 포함) 등이 필요하다. 3D 프린팅을 이용하여 디지털 카데바를 가상현실에서 만들고 HD 촉각을 구현한 인공 카데바를 만든다. VR 및 3D 시뮬레이터를 이용하여 가상의 치과치료 및 외과수술을 진행한다.
본 발명의 일 실시예에서, 수술 VR 시뮬레이터는 다음과 같다. 환자의 병변에 대한 3D 모델을 작성하여 병변의 위치 및 상태, 영상정보를 기반으로 3D 환자 좌표계와 수술대 위에 놓인 환자의 좌표계를 정합함으로써, 보이지 않는 병변의 위치를 예측하여 수술을 수행하게 하는 방식이다.
본 발명의 일 실시예에서, 다양한 형태의 VR 시뮬레이터(VEHICLE 예시 : 잠수함, 탱크, 드론, 전투기 등)에서 아바타, 인간, 로봇 등이 VEHICLE 형 VR 시뮬레이터의 조종장치를 이용하여 운전하는 방식을 데이터화하여 아바타를 생성할 수 있다.
VR VEHICLE 시뮬레이터는 조종사 자신의 아바타 팔, 발, 다른 신체 일부 등으로 시뮬레이션한다. 좌표계는 메타버스 월드 상에서 시작부터 종료까지 규칙에 따라 동기화된다. 높은 수준의 시각 렌더링을 구현하기 위해 라이다 및 적외선 트래킹 및 모션트레킹을 장착하여 인체의 모션데이터 정합 알고리즘을 갖추어야 하고 메타버스 월드에서 시뮬레이터의 위치에 대한 정합 알고리즘도 필요하다.
예를 들어, 가상 비행기 조종에 의해 획득된 시각데이터(기초 영상정보)는 도 12의 유도 및/또는 추론 알고리즘의 초기 모델의 데이터 셋이 된다.
도 12의 유도 및/또는 추론 알고리즘(1200)은 도 15의 부분 유도 및/추론 알고리즘(제1,2 유도 및/또는 추론 알고리즘)의 합이다.
가상 비행기 조종에 의해 획득된 시각데이터(기초 영상정보)는 인공지능이 비행 시뮬레이터를 작동시킬 수 있게 하는 기초 데이터가 된다. 인공지능의 가상 비행 조종에 있어서 오류와 오차가 많이 발생하면 사용자(비행기 조종사)는 상기 단말(100)의 앱 실행 결과 화면(또는 보기 화면)의 사용자 인터페이스를 통해 선택라벨링을 진행한다.
본 발명의 일 실시예에서, VR 트레드밀을 이용한 아바타 컨트롤 시스템 (HEAD MOUNTED DISPLAY 착용)은 다음과 같은 기술이 필요하다.
사용자와 아바타의 이동, 행동, 무한 보행, 회전 등의 정합 알고리즘, 자세 제어 시스템, 바이브(VIVE) 트래커를 활용한 모션 및 이동 제어 시스템, 라이다 및 적외선 트래킹(신발의 압력값과 적외선 센서값을 이용)을 이용한 무한보행 및 인체 모션데이터 정합 알고리즘, 인체의 거의 모든 움직임 등이 가능하도록 설계된 VR 트레드밀 본체, 메타버스 세상의 좌표기준과 환경 변이에 따라 반응 기술, 모션 데이터 동기화와 전용서버, 사용자의 네트워크 플레이가 가능하도록 하는 동기화 시스템 등이 필요하다.
상기 도 7 내지 도 11의 총 K2개 내지 K6개의 군집 중의 하나인, 특정군집에 속한, 속성의 정지영상의 좌표값과 각종 시각 데이터에 대해 GNN을 사용하는 회귀 모델을 'GNN 회귀 모델 1형'으로 정의하고, 타깃속성에 대한 동영상의 좌표값과 각종 시각 데이터에 대해 GNN을 사용하는 회귀모델을 'GNN 회귀모델 2형'으로 정의한다.
도 13을 참조하여, 아바타의 동작 행위에 대한 특정 시점의 상대적 영상 정보 및 상태값을 예측하는 모델이 GNN 형태로 구조화되고, 이의 각 수치를 예측한 모델을 'GNN 회귀모델 1형 및 2형'으로 정의한다.
GAN 단독 사용시, 제1 연관규칙 1형(1214) 및 제1 연관규칙 2형(1215)이 제2 속성(1226) 및 제2 타깃속성(1227)을 예측한다. 연관규칙 1형 및 2형은 GNN을 사용하지 않고, 각각 정지영상 및 동영상을 연관규칙 및 딥러닝(GNN 회귀모델을 제외한 Sequential 형태의 input이 들어오는 모델)으로 추론하는 모델이고, GNN 형태의 구조화를 사용하지 않는 점을 제외하고 도 13의 GNN 회귀모델 1형 및 2형과 동일한 형태의 모델이다.
본 발명의 일 실시예에서, 추적 신경망 네트워크에 사용되는 딥러닝(GNN 회귀모델을 제외한 Sequential 형태의 input이 들어오고, 객체의 x, y, z 좌표가 추적되는 모델)은 딥뉴럴네트워크가 있다.
'GNN 회귀모델 1형 및 2형' 혹은 '연관규칙 1형 및 2형'은 슬라이딩 윈도(sliding window) 기법을 사용하고. 시퀀셜(Sequential) 형태의 입력이 들어오는 모델이다. 'GNN 회귀모델 1형 및 2형' 혹은 '연관규칙 1형 및 2형'은 도 16의 'GAN 및/또는 GNN 예측모델(1605)'이다.
도 16을 참조하면, 시각세트장치(1602)가 연결된 단말(100)의 사용자 인터페이스(1603)에서 사용자는 선택라벨링(1604)을 하고, 라벨링된 시각데이터는 GAN 및/또는 GNN 예측모델(1605)에서 사용된다. GAN 및/또는 GNN 예측모델(1605)은 아바타의 동작을 생성하거나 출력하기 위해 시각데이터를 시뮬레이션 엔진(1606)에 전달한다. 도 16에서 시각데이터는 시뮬레이션 엔진(1606) 및 그래픽스 엔진(1607) 및 디스플레이 장치(1608) 및 제어알고리즘(1609)의 순서대로 전달되어 사용자 인터페이스(1603)를 통해 출력된다. 상기 단말(100)의 앱 실행 결과 화면(또는 보기 화면)은 사용자 인터페이스(1603)가 단말(100)에서 화면으로 구현된 것이다.
도 16의 GAN 및/또는 GNN 예측모델(1605)은 인터페이스 API과정을 포함한다.
다양한 실시예에서, 인터페이스 API의 예시는 다음과 같다. IoT Edge(예를 들어 아두이노, 라즈베리파이 등 포함) 디바이스가 받아들이는 데이터는 입력 데이터 자체일 수도 있고, Edge 상에서 구동된 인공지능 추론의 결과 출력일 수도 있다. 파이썬 등으로 만들어진 인공지능 모델은 ONNX 등의 오픈소스 라이브러리를 통하여 IoT Edge 디바이스용으로 컨버팅 가능하고, 이를 통해 Edge 상에서 1차 추론된 출력 결과(output Result) 데이터 및 입력 데이터는 Server API 호출을 통해 더욱 복잡한 집단지성 모델로 재 추론된다.
디지털 단위는 인공지능과 사용자의 상호작용(예를 들어 시계열 분할 선택라벨링, 신체부위별 선택라벨링 등 포함)에 의해 분할된 동영상 단위를 의미한다.
상기 도 7 또는 상기 도 9의 계층적 군집에서 K2 혹은 K4개의 각 군집별로 선택라벨링(1604) 된 제1 속성(1224)을 분류하여 제1 GNN 회귀모델 1형(1204) 혹은 제1 연관규칙 1형(1214) 을 유도 및/또는 추론(ai inference)한다.
상기 도 7 또는 상기 도 9의 계층적 군집에서 K2 혹은 K4 개의 각 군집화된 제1 속성(1224)과 제1 타깃속성(1225)에서 제1 GNN 회귀모델 2형(1205) 혹은 제1 연관규칙 2형(1215)을 유도 및/또는 추론(ai inference)한다.
제1 GNN 회귀모델 1형(1204) 혹은 제1 연관규칙 1형(1214)에 정지영상정보(데이터단위 1, 2 혹은 제1 속성, 1224)의 시계열 시퀀스를 입력하면, 제1 GNN 회귀모델 1형(1204) 혹은 제1 연관규칙 1형(1214)은 상기 단말(100)의 앱 실행 결과 화면(또는 보기 화면)으로 제2 속성(1226)의 시계열 시퀀스를 반환한다. 제2 속성(1226)은 제1 GNN 회귀모델 1형(1204) 혹은 제1 연관규칙 1형(1214)의 예측값(1206, 1216)이고 동작 동영상의 k번째 혹은 L번째 혹은 f번째 단계의 정지영상정보에 대한 특징벡터표현(feature vector representation)이다.
제1 GNN 회귀모델 2형(1205) 혹은 제1 연관규칙 2형(1215)에 '제2 속성(1226)의 시계열 시퀀스가 입력되면, 제1 GNN 회귀모델 2형(1205) 혹은 제1 연관규칙 2형(1215)은 상기 단말(100)의 앱 실행 결과 화면(또는 보기 화면)으로 제1 GNN 회귀모델 2형(1205) 혹은 제1 연관규칙 2형(1215) 의 예측값(1207, 1217)인 '제2 타깃속성(1527)'을 생성 및 출력한다. 제2 타깃속성(1227)은 동작 동영상의 k번째 혹은 L번째 혹은 f번째 단계의 동영상정보에 대한 특징벡터표현(feature vector representation)이다.
도 12 및 도 15를 참조하면, 제1 유도 및/또는 추론(ai inference) 알고리즘(1502)은 다음과 같다. 제1 계층적 군집(1201)의 데이터는 제1 선택라벨링(1202)되어 제1 분류모델(1203)이 유도 및/또는 추론(ai inference)되고, 분류된 제1 속성(1224) 및 제1 타깃속성(1225)은 제1 GAN 및/또는 GNN 예측모델(1508)의 유도 및/또는 추론에 사용된다
또한, 상기 서버(200)는 상기 제 1 영상을 대상으로 추가 선택라벨링을 수행한다. 여기서, 상기 추가 선택라벨링(또는 추가 선택레이블링)은 상기 제 1 영상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 오류(또는 이상) 유무에 대한 라벨(또는 라벨값)을 설정하는(또는 붙이는) 라벨링 방법을 나타낸다. 이때, 상기 제 1 영상 중에서 상기 추가 선택라벨링에 따라 라벨(또는 라벨값)이 설정되지 않은 시점(또는 구간)은 미리 설정된 디폴트 라벨값(예를 들어 승인 라벨)이 설정될 수 있다.
즉, 상기 서버(200)는 상기 단말(100)과 연동하여, 해당 단말(100)에 표시되는 제 1 영상에 대해서, 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 해당 제 1 영상 중 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 라벨(또는 라벨값)을 설정(또는 수신/입력)한다.
또한, 상기 서버(00)는 상기 단말(100)로부터 전송되는 상기 제 1 영상과 관련한 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 하나 이상의 추가 선택라벨값, 하나 이상의 시계열 분할 선택라벨값, 하나 이상의 신체부위별 선택라벨값, 복수의 서브 영상의 순서를 정렬하기 위한 라벨값, 해당 단말(100)의 식별 정보 등을 수신한다.
본 발명의 실시예에서는, 상기 단말(100)에서 사용자 입력에 따라 해당 제 1 영상 중 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서 하나 이상의 추가 선택라벨값을 설정(또는 수신/입력)하는 것을 주로 설명하고 있으나, 이에 한정되는 것은 아니며, 상기 서버(200)는 해당 제 1 영상 및 해당 제 1 영상과 관련한 비교 대상 영상에 대한 영상 분석 기능을 수행하고, 영상 분석 기능 수행 결과를 근거로 해당 제 1 영상에 대해서 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서 하나 이상의 추가 선택라벨값을 자동으로 설정할 수도 있다.
또한, 상기 서버(200)에서 해당 제 1 영상에 대해 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서 하나 이상의 추가 선택라벨값을 설정한 경우, 상기 서버(200)는 상기 설정된 해당 제 1 영상과 관련한 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 하나 이상의 추가 선택라벨값에 대한 정보를 상기 단말(100)에 제공하고, 해당 단말(100)에서 상기 서버(200)에서 설정된 해당 제 1 영상과 관련한 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 하나 이상의 추가 선택라벨값에 대한 정보를 표시하고, 해당 단말(100)의 사용자 입력에 따라 해당 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 하나 이상의 추가 선택라벨값에 대해 최종 승인 여부를 결정하도록 구성할 수도 있다.
이때, 해당 제 1 영상을 대상으로 추가 선택라벨링을 수행하기 이전에 또는 수행한 이후에, 상기 서버(200)는 상기 단말(100)과 연동하여, 해당 하나 이상의 제 1 영상을 대상으로 추가 계층라벨링을 수행하고, 추가 계층라벨링 수행 전/후로 해당 제 1 영상을 대상으로 추가 선택라벨링을 수행할 수도 있다. 여기서, 상기 추가 계층라벨링(또는 추가 계층레이블링)은 사용자에 의한 입력 피처 엔지니어링으로, 해당 제 1 영상에 대한 특징을 나타내는 라벨(또는 라벨값)을 붙이고, 해당 제 1 영상을 특징에 따라 복수의 서브 영상으로 분할(또는 분류)하는 라벨링 방법을 나타낸다.
즉, 상기 서버(200)는 상기 단말(100)과 연동하여, 해당 단말(100)에 표시되는 제 1 영상에 대해서, 해당 특정 주제와 관련해서 미리 설정된 복수의 라벨 분류를 참조하여(또는 근거로), 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 해당 제 1 영상 중 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 추가 라벨(또는 추가 라벨값)을 설정(또는 수신/입력)한다.
또한, 상기 서버(200)는 상기 제 1 영상을 복수의 서브 영상으로 분할한다.
본 발명의 실시예에서는, 상기 단말(100)에서 사용자 입력에 따라 해당 제 1 영상 중 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서 하나 이상의 추가 계층라벨(또는 추가 계층라벨값)을 설정(또는 수신/입력)하는 것을 주로 설명하고 있으나, 이에 한정되는 것은 아니며, 상기 서버(200)는 해당 제 1 영상 및 해당 제 1 영상과 관련한 비교 대상 영상에 대한 영상 분석 기능을 수행하고, 영상 분석 기능 수행 결과를 근거로 해당 제 1 영상에 대해서 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서 하나 이상의 추가 계층라벨값을 자동으로 각각 설정할 수도 있다.
또한, 상기 서버(200)에서 해당 제 1 영상에 대해 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서 하나 이상의 추가 계층라벨값을 설정한 경우, 상기 서버(200)는 상기 설정된 해당 제 1 영상과 관련한 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 하나 이상의 추가 계층라벨값에 대한 정보를 상기 단말(100)에 제공하고, 해당 단말(100)에서 상기 서버(200)에서 설정된 해당 제 1 영상과 관련한 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 하나 이상의 추가 계층라벨값에 대한 정보를 표시하고, 해당 단말(100)의 사용자 입력에 따라 해당 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 하나 이상의 추가 계층라벨값에 대해 최종 승인 여부를 결정하도록 구성할 수도 있다.
상기 도 15의 제1 GNN 및/또는 GAN 예측모델(1508)의 예측값인 제1 영상정보(1503)에 대해 제2 계층라벨링(1220)을 하면 제2 계층적 군집(1507)이 된다. 제2 기초영상정보(1506)에 대한 제1 계층라벨링이 동시에 이루어지고 생성된 군집은 제2 계층적 군집(1507)에 포함된다.
본 발명의 일 실시예에서, 계층적 군집화 라벨링 정보를 수신하는 제 2 계층라벨링(1220)정보 수신 단계를 생략한다. 사용자에 의한 입력 피처 엔지니어링을 생략하고 상기 서버(200)에 의해 스스로 생성될 수 있다.
본 발명의 실시예에서, 제2 계층라벨링(1220)은 제2 선택라벨링(1208)에 포함되어 실시될 수 있다.
또한, 상기 서버(200)는 상기 추가 선택라벨링된 제 1 영상에 대한 정보 등을 근거로 인공지능 기반의 다른 기계 학습을 수행하여, 다른 기계 학습 결과를 근거로 해당 제 1 영상에 대한 분류값을 생성(또는 확인)한다. 여기서, 상기 해당 제 1 영상에 대한 분류값(또는 해당 제 1 영상의 분류값)은 추가 선택라벨링값, 추가 계층라벨링값 등을 동일 항목별로 분류한 값일 수 있다.
즉, 상기 서버(200)는 상기 추가 선택라벨링된 제 1 영상에 대한 정보 등을 상기 미리 설정된 분류 모델의 입력값으로 하여 다른 기계 학습(또는 다른 인공지능/다른 딥 러닝)을 수행하고, 다른 기계 학습 결과(또는 다른 인공지능 결과/다른 딥 러닝 결과)를 근거로 해당 제 1 영상에 대한 분류값을 생성(또는 확인)한다.
상기 서버(200)는 K7(수차례) * K8(여러 명)의 사용자가 입력한 기초영상(또는 로우 데이터)에 대해 분류 모델을 유도 및/또는 추론하는 제2 분류모델(1209)의 유도 및/또는 추론 단계를 포함한다.
제1 GAN 및/또는 GNN 예측모델(1508)에 의해 예측된 값이 제1 영상정보(1503)이다. 제1 영상정보(1503)의 정지영상정보는 제2 속성(1226)이고 동영상정보는 제2 타깃속성(1227)이다.
제2 분류 모델(1209)은 제2 계층적군집(1507)중의 하나인, 특정군집에 속한 '제2 속성(1226) 및 제2 타깃속성(1227)'을 분류한 것이다. 특정군집에 속한 제2 속성(1226) 및 제2 타깃속성(1227)에 대해 사용자들이 계층적 군집화 라벨값을 입력하고 '선택라벨링(1604)'을 하면 라벨링된 데이터에 대한 분류모델을 유도 및/또는 추론한다. 상기 분류모델에서 제2 기초 영상정보(1505)의 제1 속성(1224) 및 제1 타깃속성(1225)이 하나의 모델로 학습된다.
본 발명의 실시예에서, 계층적 군집화 라벨링 정보를 수신하는 사용자에 의한 제1 기초영상정보에 기반한 제1 영상정보의 제2 계층라벨링 정보와 제2 기초 영상정보에 기반한 제1 계층라벨링 정보의 수신 단계를 생략할 때, 계층적 군집은 상기 서버(200)에 의해 스스로 생성된다.
또한, 상기 서버(200)는 상기 생성된 해당 제 1 영상에 대한 분류값(또는 해당 제 1 영상의 분류값), 상기 추가 선택라벨링된 제 1 영상에 대한 정보, 해당 제 1 영상, 해당 제 1 영상과 관련한 메타 정보, 상기 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보 등을 입력값으로 하여 다른 기계 학습(또는 다른 인공지능/다른 딥 러닝)을 수행하고, 다른 기계 학습 결과(또는 다른 인공지능 결과/다른 딥 러닝 결과)를 근거로 해당 제 1 영상에 대응하는 제 2 영상을 생성한다. 이때, 상기 제 2 영상은 상기 제 1 영상을 근거로 생성되는 아바타, 아이템, 로봇 등의 동작 관련 영상, 상기 제 1 영상이 업데이트된 영상 등일 수 있다.
즉, 상기 서버(200)는 상기 생성된 해당 제 1 영상에 대한 분류값(또는 해당 제 1 영상의 분류값), 상기 추가 선택라벨링된 제 1 영상에 대한 정보, 해당 제 1 영상, 해당 제 1 영상과 관련한 메타 정보, 상기 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보 등을 상기 미리 설정된 예측 모델의 입력값으로 하여 다른 기계 학습(또는 다른 인공지능/다른 딥 러닝)을 수행하고, 다른 기계 학습 결과(또는 다른 인공지능 결과/다른 딥 러닝 결과)를 근거로 해당 제 1 영상과 관련한 제 2 영상을 생성한다.
또한, 상기 서버(200)는 상기 생성된 제 2 영상을 상기 단말(100)에 전송(또는 제공)한다.
'제1 기초 영상정보, 제2 기초 영상정보, …'는 도 12의 유도 및/또는 추론(ai inference) 알고리즘(1200)에 입력되는 것으로, 시각세트장치(1602)를 통해 계속적으로 수집된 실제 현실의 시각데이터이다.
제2 유도 및/또는 추론 알고리즘(1504)은 다음과 같다. 제1 GAN 및/또는 GNN 예측모델(1508)의 예측값은 제2 계층라벨링(1220)에 의해 제2 계층적 군집(1507)이 된다. 제2 계층적 군집(1507)의 데이터는 제2 선택라벨링(1208)되어 제2 분류모델(1209)이 유도 및/또는 추론되고, 분류된 제2 속성(1226) 및 제2 타깃속성은 제2 GAN 및/또는 GNN 예측모델(1509)의 유도 및/또는 추론에 사용된다. 이하 알고리즘의 유도 및/또는 추론이 반복된다.
제1 GAN 및/또는 GNN 예측모델(1508)은 제1 GNN 회귀모델 1형(1204) 및 제1 GNN 회귀모델 2형(1205)이거나 제1 연관규칙 1형(1214) 및 제1 연관규칙 2형(1215)이다.
제2 GAN 및/또는 GNN 예측모델(1509)은 제1 기초영상정보(1501)에서 기반한 제1 영상정보(1503)의 제2 계층적 군집(1507)이 제2 선택라벨링(1208)되고, 제2 분류모델(1209)에 분류된 제2 속성(1226)과 제2 타깃속성(1227)에 의해 유도 및/또는 추론된 모델이다. 제2 계층적 군집(1507)은 제2 속성(1226) 및 제2 타깃속성(1227)의 군집이다. 또한, 제2 기초영상정보(1505)에서 기반한 제1 속성(1224) 및 제1 타깃속성(1225)도 제2 GAN 및/또는 GNN 예측모델(1509)의 유도 및/또는 추론에 사용된다.
상기 도 15를 참조하면, 제2 유도 및/또는 추론 알고리즘(1504)에서 제1 영상정보 및 제2 기초 영상정보가 단일모델로 학습되고, 각 군집별로 제2 영상정보(1505)가 생성된다. 제1 기초 영상정보(1501)에서 기반한 제1 영상정보(1503)의 제2 속성(1226) 및 제2 타깃속성(1227)과 제2 기초영상정보(1505)에서 기반한 제1 속성(1224)과 제1 타깃속성(1225)이 라벨링되어 단일모델로 학습된다.
본 발명의 일 실시예에서, 잘된 동작의 결과인 동영상정보를 예측하는 모델이 제1 GNN 회귀모델 2형(1205) 혹은 제1 연관규칙 2형(1215)이다.
다양한 실시예에서, '제1 GNN 회귀모델 2형(1205)'은 연관규칙을 사용한다. 도 8, 도 10 및 도 11의, 특정군집에 속한, 디지털단위의 정지영상정보(속성)에서 객체의 패턴, 물리적 속성값을 포함한 동영상정보(타깃속성)를 연관규칙으로 예측한다.
본 발명의 일 실시예에서, GNN 회귀모델 2형은 역방향의 연관규칙을 사용하는 방식과 순방향의 연관규칙을 사용하는 방식과 양방향의 연관규칙을 사용하는 방식으로 나뉜다.
제2 기초 영상정보(1505)와 제1 영상정보(1503)가 동일 모델(단일모델)로 학습된다. 제1 영상정보(1503)는 제1 기초 영상정보(1501)의 라벨링 데이터이다.
상기 도 15에서 모델 관점에서 제2 기초 영상정보(1505)와 제1 유도 및/또는 추론 알고리즘의 예측값인 제1 영상정보(1503)는 정확도나 정교함의 장단점이 서로 상이할 수 있는데, 제2 유도 및/또는 추론 알고리즘(1504)의 학습 데이터로 사용된다
1차 라벨링 된 제1 영상정보(1503)는 라벨링에 의해 2차 라벨링되고, 이 과정은 계속하여 반복된다. 이 과정을 과거 라벨 된 데이터(제1 영상정보, 1503)와 다른 새로운 데이터(제2 기초 영상정보, 1505)가 함께 반복 수행하게 되며, 한번 학습했던 데이터 및/또는 유사한 레이블 값 또한 매 반복 학습(epoch)에 계속 등장하여, 여러 번의 실험을 거치는 과정이 필요하다. 매 에포크(epoch)는 누적된 단위 레이블의 총 개수(batch size)만큼을 학습 연산 단위(mini batch size)로 분할하여 다양한 실험을 하게 되며 해당 과정에서 집단지성의 라벨값은, 취사 선택 및 평균화되어 모델에 반영된다.
상기 도 15에서 '제1 유도 및/또는 추론 알고리즘(1502), 제2 유도 및/또는 추론 알고리즘(1504), …'은 도 12의 유도 및/또는 추론 알고리즘(1200)이고, 전체 알고리즘을 부분 알고리즘의 합으로 표현한 것이다.
다양한 실시의 예에서, 가상공간상 3D 프린팅 시뮬레이션으로 디지털 카데바를 손쉽게 제작 및 초기화 가능하고, 이의 사용은 가상공간의 제약을 덜기 위해 가상수술 오디션 게임을 진행한다. 실제 의료기관, 가상수술 오디션 등을 통해 수집된 수술 패턴을 군집화 및 패턴화하여 인공지능의 초기 모델을 만든다. 수술의 정교함의 정도 및 성공 여부에 대하여는 검증된 전문의의 패턴을 별도 추출하여 지도학습한다. 위 방식으로 초기 모델화된 각 수술별 수술 의료인공지능은 스스로 디지털 카데바 및 인공 카데바에 대해 VR 시뮬레이터로 가상수술(예를 들어 시술, 치료 등 포함)을 수행한다. 그리고 의사가 의료 인공지능이 수행한 가상수술정보에 대해 라벨링을 하는 것을 보상하는 방식으로 게임화한다. 의료 인공지능 수술 라벨링은 의사가 직접 가상공간상에서 수술을 하거나, 학습된 인공지능이 하는 수술을 첨삭 보정하는 방법으로 정교화된다. 이러한 라벨링 행위의 강화는 보상을 통해 게임화 한다.
본 발명의 일 실시예에서, 슬라이딩 윈도(sliding window)는 다음과 같다. 동영상 정보들에 대해서 각 윈도 크기(windows size)의 단위를 분류(classification)한다. 위 방식으로 총 50초짜리 동영상들이 10초씩 5개로 나뉜다고 할 때, A,B,Z,A,B 의 순서로 입력이 들어오면, 다음이 Z 라는 걸 연관규칙으로 예측한다.
본 발명의 일 실시예에서, 잘 알려진 딥러닝 알고리즘인 RNN, LSTM 등은 양방향(bidirectional) LSTM이라는 변형 알고리즘을 통해 순방향을 역방향 및 양방향으로 확대하고 추가적인 성능 형상을 꾀할 수 있는데, 제안하는 디지털 단위 또한 양방향과 마찬가지로 역방향 및 양방향으로 확대 가능하다. 제안하는 디지털 단위는 RNN 및 LSTM과 달리 복합적인 입력 피처가 결합되어 있다는 차이점이 있다. 동영상 장면 프레임은 특징적인 패턴으로 군집화되어, A동작, B동작, C동작 형태로 군집 될 수 있다. 수술 동작 및/또는 게임 내 특정 캐릭터의 특별한 동작은 모두 학습된 동작 군집(A, B, C, …)의 일련의 순서 패턴으로 다시 연관도가 만들어질 수 있다. 이는 본 발명의 일 실시예에서 A→B→D, A→B→F 등의 시퀀셜(Sequential) 연관 패턴이 학습 데이터 내에서 순서 연관도 높게 빈발하게 관찰될 경우, 그 패턴이 순서와 함께 학습되게 된다. 특정 반복 동작은 동영상 군집의 시퀀셜 연관 패턴으로 학습 및 재현되어 질 수 있다. 여기서 말하는 재현은 앞부분의 일부 패턴이 입력으로 입력되었을 때 뒤이을 패턴이 어떤 군집의 동작 패턴인지 연관규칙으로 유추 추론 가능하다는 의미이다.
다양한 실시예로, 시계열 역방향의 연관규칙을 설명한다.
GNN 회귀모델 1형을 사용하여 정지영상정보인 출력(Output) 데이터(흔적 및 결과)를 예측하고, 출력 데이터(흔적 및 결과)에 대한 원인이 되는 포인트 클라우드의 벡터적이 역방향의 제1 GNN 회귀모델 2형(1205)의 예측값이다. 결과값을 분석하여 시간의 변화에 따른 GNN 프레임워크 상의 포인트 클라우드의 벡터적을 찾아내어 플랫폼 사용자에게 반환한다. 결과값이 있으면 포인트 클라우드의 벡터적이 있다는 규칙을 발견하여, GNN 회귀모델 1형이 임의의 예측값(결과값) 및/또는 정지영상정보를 제시하면, GNN 회귀모델 2형은 시간의 변화에 따른 포인트 클라우드의 벡터적(원인값)을 반환한다. 연관규칙 추론을 위해 결과값들 간의 의미 있는 관계를 찾아내기 위하여 결과값의 데이터 집합과 포인트 클라우드의 벡터적(원인값)을 반환하는 트랜잭션의 집합을 구축한다. 연관규칙은 선행사건과 후행사건이 있으며, 결과값과 원인값의 집합에 각각 포함되는 것으로 이는 연관규칙 추론의 결과로 얻게 되며, 벡터적은 복잡함(complexity)이 있는 정보이기 때문에 많은 연관규칙이 존재하게 된다. 의미 있는 연관 규칙을 찾아내는 평가기준이 필요하다. 평가척도로는 지지도, 신뢰도, 향상도 등을 사용한다. 연관 규칙 알고리즘에서 결과값과 원인 값의 각각의 집합이 디지털 단위 4 및 디지털 단위 5에서 정지영상정보의 군집과 동영상정보 군집을 의미한다.
앞서 설명한 시계열 분할 선택라벨링 기능에 대해서 추가로 설명한다.
계층라벨링을 하지 않고도 상기 서버(200)는 사용자에게 제1 영상정보, 제2 영상정보의 분할시점(예를 들어 정지영상정보, 정지영상정보의 라벨값 등 포함)을 반환(정지영상정보에 대한 사용자의 시청)하고, 사용자는 반환값(분할시점)에 대해 시계열분할 선택라벨링 혹은 신체부위별 선택라벨링을 수행한다. 시계열분할 선택라벨링 혹은 신체부위별 라벨링을 수행하면, 디지털 단위 3 혹은 디지털 단위 4 혹은 디지털 단위 5가 생성된다.
상기 영상정보는 제1 영상정보(1503) 또는 제2 영상정보(1506)이고, 상기 제2 선택라벨링(1208) 또는 제3 선택라벨링 정보 수신 단계는 도 17의 시계열 분할 선택라벨링(1701)을 포함한다. 상기 영상정보는 GAN 및/또는 GNN 예측모델(1605)의 반복되는 예측값으로, '제1, 2, 3, …의 영상정보'이다.
시계열분할 선택라벨링을 포함한 제2 계층라벨링(1220) 또는 제3 계층라벨링 정보는 도 8 혹은 도 10의 계층적 군집과 관련된 것이다.
본 발명의 실시예에서, 계층적 군집화 라벨링이 생략되는 경우에도 시계열 분할 선택라벨링(1701)은 제2 선택라벨링(1208) 또는 제3 선택라벨링에 포함되어 실행되기도 하고, 제2 선택라벨링(1208) 또는 제3 선택라벨링 전후에도 실행될 수 있다.
제2 계층적 군집(1507) 또는 제3 계층적 군집은 도 8 혹은 도 10의 디지털 단위 3 혹은 디지털 단위 4를 기준으로 처리된(또는 전산화된) 것이다.
도 8은 디지털 단위 3을 기준으로 처리된 계층적군집(800)이고, 도 10은 디지털 단위 4를 기준으로 처리된 계층적 군집(1000)이다.
'제1, 2 GNN 회귀모델 1형의 예측값 혹은 제1, 2 연관규칙 1형의 예측값' 혹은 '제1, 2 GNN 회귀모델 2형의 예측값 혹은 제1, 2 연관규칙 2형의 예측값'에 대해 사용자가 ACCEPT 혹은 REJECT의 라벨을 붙여 분할시점(정지영상정보 혹은 속성의 라벨값)을 선택하거나 거부하는 방식을 도 17의 '시계열분할 선택라벨링'(1701)이라고 정의한다.
사용자가 라벨분류를 참조하여 도 17의 시계열분할 선택라벨링(1701)을 수행한 다음, 제2 분류모델(1209)을 유도 및/또는 추론한다.
인공지능이 분할시점을 학습하여 이를 사용자에게 반환하면 사용자는 ACCEPT 버튼 또는 REJECT 버튼을 통해 선택한다. 분류모델은 라벨링이 된 정보를 다시 분류하고, 'GNN 회귀모델 혹은 연관규칙(딥러닝 포함)'은 집단지성화된 예측값을 반환하고, 사용자는 반복하여 도 17의 시계열분할 선택라벨링(1701)을 수행한다. 라벨분류를 참조한 사용자가 상기 단말(100)의 앱 실행 결과 화면(또는 보기 화면)을 통해 라벨값을 입력한다.
본 발명의 일 실시예에서, 시계열분할 선택라벨링(1701)에서 사용자가 REJECT 버튼을 눌렀다면, 상기 단말(100)의 앱 실행 결과 화면(또는 보기 화면)의 상기 재생바 내의 타임 라인 상에서 시각을 나타내는 표(또는 화살표)를 이동하여, 동영상을 분할하고자 하는 시점의 정지영상정보를 캡처한 후, ACCEPT 버튼을 누르는 방법으로 시계열 분할에 따라 라벨링되는 라벨값을 직접 입력한다.
도 12의 유도 및/또는 추론 알고리즘(1200)에 사용되는 디지털 단위 3(1705), 디지털 단위 4(1706)는 도 3의 분할된 직육면체(301)이다.
디지털 단위 3(1705)에서 속성은 아바타, 인간, 로봇 등의 분할된 동작 동영상의 k번째 단계의 끝부분 정지영상정보(403)이고, 도 4 검정색 표시의 사각형이다..
상기 도 4를 참조하면, 분할된 동작 동영상의 n번째 단계의 끝부분 정지영상정보 또한 속성에 해당되고, 도 4의 마지막 검정색 표시의 사각형이다.
디지털 단위 4(1706)에서 속성은 아바타, 인간, 로봇 등의 분할된 동작 동영상의 L번째 단계의 끝부분 정지영상정보(503)이고, 도 5의 검정색 표시의 사각형이다.
상기 도 4 내지 상기 도 5를 참조하면, 분할된 동작 동영상의 (k, L)번째 단계의 끝부분 정지영상정보 또한 속성에 해당되고, 도 4 내지 도 5의 마지막 검정색 표시의 사각형이다.
상기 도 8 및 상기 도 10은 디지털 단위 3(1705), 디지털 단위 4(1706)에 근거한 K3, K5개의 군집이다.
다양한 실시예에서, 시작부분 정지영상정보도 속성이고 타깃속성인 동영상정보와의 합으로 디지털 단위 3 혹은 디지털 단위 4가 된다.
본 발명의 일 실시예에서, 도 8 혹은 도 10은 도 7 내지 상기 단말(100)의 앱 실행 결과 화면(또는 보기 화면)의 입력창에 입력된 변수값에 의해 동영상의 단계가 분할될 때 붙여진 라벨값에 의해 만들어진 계층적 군집화의 계통도이다.
도 17의 시계열분할 선택라벨링(1701)은 '데이터 단위 3(1703) 혹은 데이터 단위 4(1704)'를 '디지털 단위 3(1705) 혹은 디지털 단위 4(1706)'를 기준으로 동영상을 분할한다.
본 발명의 일 실시예에서, 디지털 단위 3(1705) 혹은 디지털 단위 4(1706)는 시계열분할 선택라벨링(1701)과 데이터 정렬을 병행하여 동영상을 분할한 것이다. 사용자는 정렬된 동영상의 순서를 정렬하기 위해 동영상 혹은 동영상의 순서를 나타내는 라벨값에 대해 ACCEPT 라벨 혹은 REJECT 라벨을 붙여 분할된 동영상의 순서를 선택하거나 거부한다.
디지털 단위 4는 사용자가 라벨분류를 참조하여 아바타, 인간, 로봇 등의 동작을 약 0.5초 ~ 3초 내외의 특징적인 세부 동작들로 분할하는 시계열분할 선택라벨링(1701)에 의해 분할된 동작 동영상정보이다. 디지털 단위 5는 디지털 단위 4보다 좀더 세분화된 동영상의 분할이 가능하다.
디지털 단위 3은 사용자가 라벨분류를 참조하여 아바타, 인간, 로봇 등의 동작을 약 3초 ~ 수십초 내외의 특징적인 동작들로 분할하는 시계열분할 선택라벨링(1701)에 의해 분할된 동작 동영상정보이다.
본 발명의 실시예에서 설명하는 데이터 단위는 사용자에 의해 생성되는 복합적인 피처 벡터의 단위이고, 디지털 단위는 사용자와 인공지능의 상호작용으로 생성된 복합적인 피처 벡터의 단위이다.
본 발명의 일 실시예에서, 아바타, 인간, 로봇 등의 동작을 약 0.5초 ~ 3초 내외의 특징적인 세부 동작들로 분류한 라벨분류는 앞선 [표 5] 혹은 [표 10]이다.
본 발명의 일 실시예에서, 데이터 단위 3 및 디지털 단위 3은 수초에서부터 수십초 단위로 분할된 동영상정보의 단위일 수 있다. 3000 큐비트 이상의 양자 클라우드 컴퓨팅장치가 상용화되어 컴퓨팅 파워가 지금보다 월등히 향상될 때, 데이터 단위 3 및 디지털 단위 3은 영상정보의 생성과 출력에 사용된다.
디지털 단위 3(1705)은 데이터 단위 3(1703)과 동일한 방식으로 속성(정지영상정보)과 타깃속성(동영상정보)의 합이 처리된 것이다.
디지털 단위 4(1906)는 데이터 단위 4(1904)와 동일한 방식으로 속성(정지영상정보)과 타깃속성(동영상정보)의 합이 처리된 것이다.
본 발명의 일 실시예에서, 다수의 사용자(공군 사관생도 및/또는 전투기 조종사 등)가 영화 '탑건'의 전투기 조종 장면 약 1분간을 가상 전투기 시뮬레이터(VEHICLE VR 시뮬레이터)를 이용하여 따라서 조종하고 라벨링을 진행하여, 도 12의 유도 및/또는 추론 알고리즘에 사용하는 데이터 단위 및 디지털 단위별 데이터 셋을 획득한다. 전투기 조정은 조종의 세부적인 조종술마다 각 방식의 특징적인 동작이 있기 때문에 다수의 사용자가 유사한 가상 비행을 하면 전체동영상이 1초 ~ 2초 내외의 짧은 동영상으로 분할된다.
본 발명의 일 실시예에서, 다수의 사용자가 영화 '라이언 일병 구하기'의 전투 장면 약 1분간을 VR 트레드밀을 이용하여 전동콘트롤러형 무기를 격발하고 라벨링을 진행한다. 영화 속 보병이나 공병의 움직임(소총 격발 및 수류탄 던지기 등의 연속동작)도 1초 ~ 2초 내외의 짧은 동영상으로 분할이 가능하다.
본 발명의 일 실시예에서, 디지털 단위 3(1905)의 시계열 분할 방식은 다음과 같다.
앞선 [표 1] 내지 [표 4]와 같은 라벨분류 등을 참조하여 치과의사, 의사 등의 라벨링을 하여, 도 12 의 유도 및/또는 추론 알고리즘(1200)이 고도화된다면, 'GNN 회귀모델'’은 정지영상정보를 반환하면서 플랫폼 사용자(의사, 치과의사 등)에게 분할시점 및 라벨값 (s1, s2, s3, k)을 반환한다. 반환값에 대해 사용자는 시계열분할 선택라벨링(1701)을 수행한다.
본 발명의 일 실시예에서, 다음의 [표 12]는 상악중절치 라미네이트 11번(치식) 삭제를 진행하는 30초 동영상을 10단계로 분할하여 30초를 약 2초 ~ 4초 간격으로 분할하여 설명한다. 사용자의 시계열분할 선택라벨링(1701)을 통해 디지털 단위 4로 동영상의 분할이 가능하다.
변수값(라벨값) 상악 중절치 라미네이트 치료를 위한 11번 치아 삭제 방법(세부동작단계) 정보 형태
1 치아삭제 전에 미리 제작한 치아삭제용 인덱스를 구강 및 치아에 위치시킨다. 영상 등
2 구강 및 치아에 위치된 인덱스를 치과의사가 눈으로 확인하고 삭제량을 측정한다. 영상 등
3 치과의사는 자신이 판단으로 삭제량을 정하고 치과용 핸드피스의 depth gage bur(삭제할 깊이를 치아에 표시하는 치아 삭제용 핸드피스 버, 칼날)를 체크하여 핸드피스에 장착한다. 영상 등
4 치경부 3분의 1의 예상 삭제 깊이를 depth gage bur로 삭제한다. 영상 등
5 치아 중앙부 3분의 1의 예상 삭제 깊이를 depth gage bur로 삭제한다. 영상 등
6 치아 절단부 3분의 1의 예상 삭제 깊이를 depth gage bur로 삭제한다. 영상 등
7 치아 치경부 3분의 1를 실제 치아 삭제용 핸드피스 bur로 삭제한다. 영상 등
8 치아 중앙부 3분의 1를 실제 치아 삭제용 핸드피스 bur로 삭제한다. 영상 등
9 치아 절단부 3분의 1를 실제 치아 삭제용 핸드피스 bur로 삭제한다. 영상 등
10 상악 중절치 전체 치아를 핸드피스의 트리밍 bur(다듬는 칼날)로 다듬고 미세하게 삭제한다. 영상 등
위와 같은 10단계로 분할되는 여러 환자(아바타 및 디지털 카데바)들을 대상으로 한 동영상정보들이 도 9에서 같은 특정군집에 속해 있다고 하더라도 해당 동영상에서 세밀한 수술과 시술의 순서는 집도하는 의사의 의료기술에 따라 다를 수가 있다. 다른 순서는 앞선 [표 5]의 라벨 순서를 기준으로 전처리하여 분류모델에 적용시킬 수 있다. 또한, 단계가 순서가 다르거나 생략된 부분 및/또는 추가된 부분에 대해서 [표 12]의 라벨 순서를 기준으로 동영상 정보를 정렬하여 군집화한다.
라벨분류([표 12])를 참조하여 치과의사가 라벨링을 수행한다면, 인공지능의 반환에 대해 치과의사는 ACCEPT 라벨 또는 REJECT 라벨을 붙여 분할시점(정지영상정보)에 대해 시계열분할 선택라벨링을 하면, 분류모델은 라벨링이 된 정보를 다시 분류하고, 'GNN 회귀모델'은 더욱 집단지성화된 분할시점(정지영상정보)과 라벨값을 반환하게 된다. 인공지능의 반환에 대해 치과의사는 ACCEPT 버튼 또는 REJECT 버튼으로 선택한다. 위 방식으로 치과의사가 라벨링을 수행한다면, 동영상정보를 분할하여 정지영상정보를 반환하는 GNN 회귀모델이 정지영상을 반환하면서 도 12의 유도 및/또는 추론 알고리즘(1200)은 치과의사에게 분할시점(속성값) 및 라벨값 반환한다. 인공지능의 예측값에 대해 치과의사가 ACCEPT 버튼 또는 REJECT 버튼을 눌러 라벨을 붙여 분할시점(속성 혹은 속성의 라벨값)을 선택하거나 거부하면, 분류 모델은 라벨링이 된 정보를 다시 분류하고, 'GNN 회귀모델 1형'은 더욱 집단지성화된 분할시점(정지영상정보)과 라벨값을 반환한다. 결국, 충분히 집단지성화된 디지털 단위 4(1906)가 생성된다.
앞서 설명한 신체부위별 선택라벨링 기능에 대해서 추가로 설명한다.
상기 영상정보는 제1 영상정보(1503) 또는 제2 영상정보(1506)이고, 상기 제2 선택라벨링(1208) 및 제3 선택라벨링 정보 수신 단계는 신체부위별 선택라벨링(1702)을 포함한다.
상기 영상정보는 GAN 및/또는 GNN 예측모델(1605)의 반복되는 예측값으로 '제1, 2, 3, …의 영상정보'이다.
신체부위별 선택라벨링을 실행하여, 신체부위별 선택라벨링 정보가 포함된 제2 계층라벨링(1220) 또는 제3 계층라벨링 정보는 계층적군집이 된다.
본 발명의 실시예에서, 계층적 군집화 라벨링이 생략되는 경우에도 신체 부위별 선택라벨링(1702)은 제2 선택라벨링(1208)에 포함되어 실행되기도 하고 제2 선택라벨링(1208) 전후에 실행될 수 있다.
제2 계층적 군집(1507) 또는 제3 계층적 군집은 디지털 단위 5를 기준으로 전산화된 군집이다.
디지털 단위 5(1707)는 디지털 단위 4(1706)와 동일한 방식으로 속성(정지영상정보)과 타깃속성(동영상정보)의 합이 처리된 것이다.
데이터 단위 3(1703) 혹은 데이터 단위 4(1704) 혹은 디지털 단위 3(1705) 혹은 디지털 단위 4(1706)는 신체부위별 선택라벨링(1702)에 의해 '디지털 단위 5(1707)'로 처리된다.
아바타, 인간, 로봇 등의 동작에서 신체부위별로 동작 순서를 정하기 위해 신체부위별로 순서를 정하는 라벨을 붙여 실제 동영상에서의 동작 순서를 바꾸기 위한 라벨링을 하는 것을 '신체부위별 선택'이라고 정의한다.
본 발명의 실시예에서, '신체 부위별 선택'을 한 후, 동영상 데이터 정렬에 따른 전처리작업(삭제, 추가 등)등에 대해서 ACCEPT 라벨 또는 REJECT 라벨을 붙여 선택하거나 거부할 수 있다.
사용자가 라벨분류를 참조하여 제1, 2 영상(또는 영상정보)에 신체부위별 선택라벨링(1702)을 한 다음, 제2, 3 분류모델을 유도 및/또는 추론한다.
사용자가 라벨분류를 참조하여 제1 영상정보(1503) 또는 제2 영상정보(1506)에 신체부위별 선택라벨링(1702)을 수행하고, 이로 인해 디지털 단위 5(1707)로 동영상이 분할되는 단계이다.
디지털 단위 5(1707)에서 속성은 아바타, 인간, 로봇 등의 분할된 동작 동영상의 f번째 단계의 끝부분 정지영상정보이고, 도 6의 검정색 표시의 사각형이다.
도 6을 참조하면, 분할된 동작 동영상의 f번째 단계의 끝부분 정지영상정보 또한 속성에 해당되고, 도 6의 마지막 검정색 표시의 사각형이다.
도 11은 디지털 단위 5(1707)에 근거한 K6 개의 군집이다.
도 12의 유도 및/또는 추론 알고리즘(1200)에 사용되는 디지털 단위 5(1707)는 도 3의 분할된 직육면체(301)이다.
다양한 실시예에서, 시작부분 정지영상정보도 속성이고 타깃속성인 동영상정보와의 합으로 디지털 단위 5가 된다.
본 발명의 일 실시예에서, 도 11은 상기 단말(100)의 앱 실행 결과 화면(또는 보기 화면)의 입력창에 입력된 변수값(라벨값)에 의해 동영상의 단계가 분할될 때 붙여진 라벨값에 의해 만들어진 계층적 군집화의 계통도이다.
'신체부위별 선택라벨링(1702)'에 의해 디지털 단위 5로 아바타, 인간, 로봇 등의 동작 동영상이 분할된다.
본 발명의 일 실시예에서, 라미네이트 치아 11번 삭제에 대해서도 대부분의 치과의사들이 치아 삭제용 인덱스를 제작하여 치아삭제를 하지만 인덱스를 제작하지 않는 치과의사도 있고, depth gage bur를 사용하지 않는 사람도 있다. 위 차이를 기준으로 계층적 군집화를 수행하고 동영상 정보를 정렬하여 전처리한다. 치아삭제시 순서(치경부, 중앙부, 절단부 순서 등)를 라벨분류의 기준으로 하지 않고 자신만의 순서대로 진행하는 사람도 있을 수 있다. 이런 경우, 상악 중절치 치아의 중앙부, 절단부, 치경부와 같은 신체 부위에 대한 세부적인 순서를 지정하는 라벨링을 통해서 분할된 동영상의 순서를 지정하고 라벨링 순서에 맞는 라벨분류를 만든다. 또한, 위 라벨링의 순서대로 동영상정보들을 정렬한다. 동일한 특정 군집(본 발명의 일 실시예에서, 11번 치아를 인덱스를 사용하지 않고 삭제하는 방식)에 포함되었으나 치아삭제의 순서(치경부, 중앙부, 절단부 삭제 순서)가 다른 동영상 및 정지영상 정보들에 대해 신체부위의 순서 라벨링과 동영상정보의 정렬 등의 전처리작업을 통해서 분류모델의 오차값들을 줄이고 분류모델의 정확도를 높인다.
본 발명의 일 실시예에서, 어떤 치과의사가 치경부, 중앙부, 절단부 순으로 치아삭제를 하고 어떤 치과의사가 중앙부, 절단부, 치경부 순으로 치아를 삭제했다면 전부 치경부, 중앙부, 절단부 삭제 순서와 같은 방식으로 동영상정보를 정렬하고 이 순서대로 분할하여 군집화한다. 또한, 치과의사가 마우스의 화살표를 이용하여 신체의 특정 부분을 가리키거나 신체의 특정 부위를 생각만 한다면 사용자가 마우스로 가리키거나 생각한 부위의 경계선 및 경계면을 객체인식을 통해 인공지능이 반환한다. 또한, 인공지능은 치료순서에 대한 정렬된 정보를 사용자에게 반환한다. 이에 대해 사용자는 '자신이 의도하거나 생각한 부위가 맞다, 틀리다' 및/또는 '자신이 의도한 순서가 맞다, 틀리다' 및/또는 '순서에 대한 라벨값이 맞다, 틀리다'를 판단한다. 이와 같이 브레인 컴퓨터 인터페이스를 이용한 판단만으로 동영상 및 정지영상 등에 ACCEPT 라벨 또는 REJECT 라벨을 붙이고 정렬한다. 위 라벨링을 반복하여 도 12의 유도 및/또는 추론 알고리즘(1200)에 적용한다.
본 발명의 일 실시예에서, [표 6]에서 건강한 성인의 구강에는 약 28개의 치아가 있고 치아마다 치식(치아번호)이 있다. 상악 우측 중절치는 11번이다. 치식 22, 21, 11, 12 치아 4개를 라미네이트 치료를 위해 삭제하는 술식을 하는 경우에, 모든 치과의사들이 라미네이트를 하기 위해 치아삭제를 할 때, 일정한 치아번호(치식)의 순서대로 진행하는 것이 아니므로, 위 동영상정보를 일정한 순서(치식)대로 정렬하고 삭제되거나 추가된 동영상정보에 대해서도 전처리를 한다.
시계열 분할 라벨링을 수행할 경우, 계층적 군집화와 더불어 신체 부위의 구체적 시술 순서에 대한 정렬(치식순서)을 동시에 진행하면 더욱 정확한 군집화가 가능하다(계층적 군집화 및 신체 부위별 선택). 또한, 좀 더 세부적인 신체부위별 선택라벨링(1702)을 하고자 한다면, 상악중절치 라미네이트 치아삭제(11번 치아)의 방식과 순서도 치과의사마다 다를 수 있으므로 라벨분류(일정한 기준)를 근거로 동영상정보를 정렬하고 생략되거나 추가된 동영상정보에 대해서 전처리를 한다.
본 발명의 일 실시예에서, 메타버스 축구게임의 동영상에서 0.5초 이하의 순간적인 작은 데이터 크기의 디지털 단위로 분할된 동영상을 얻고자 한다면, 신체부위별 선택라벨링(1702)과 정렬을 이용하여 동영상을 세분화하여 분할한다. 손흥민이 인스텝 드리블 3스텝 롱동작을 할 때, 축구공이 미리 설정된 라벨 분류의 발가락 터치, 1 스텝 달리기, 발목 터치, 2 스텝 달리기 순서대로 축구공이 손흥민의 발에 순간적인 터치를 하였는데 이것을 재현한 특정 사용자가 발목 터치, 1 스텝 달리기, 발가락 터치, 2 스텝 달리기 순으로 터치하고 달리기를 하였다면, 특정 사용자의 인프런트 드리블의 터치순서 및 달리기의 순서에 대해 브레인 컴퓨터 인터페이스를 이용하여 신체부위별 선택라벨링(1702)을 수행한다.
본 발명의 일 실시예에서, [표 10]에서 열린음악회 2022년 7월 8일 방송의 제니의 k번째 동작이 앞뒤 웨이브라고 했을 때, [표 11]에서 블랙핑크 제니의 앞뒤 웨이브 동작은 왼쪽 팔 들기, 오른쪽 팔 들기, 가슴 움직이기, 배 움직이기, 골반 움직이기, 다리 움직이기 순으로 들거나 앞뒤로 움직인다. 특정 사용자가 다리 움직이기, 골반 움직이기, 배 움직이기, 가슴 움직이기, 오른쪽 팔 들기, 왼쪽 팔들기 순서대로 앞뒤 웨이브를 했다면, 브레인 컴퓨터 인터페이스를 이용하여 신체부위별 선택라벨링(1902)을 수행한다. 특정사용자의 동작 동영상을 블랙핑크 제니의 동작 순서대로 정렬한다. 또한, 총 3분 14초의 동영상은 1초 ~ 2초 내외의 동영상, 약 200개로 시계열 분할이 가능하다. 춤 동작은 머리, 손, 발, 몸통의 움직임의 조합이 연속된 것이다. 신체부위별 선택라벨링(1702)을 하지 않고 시계열분할 선택라벨링(1701)을 할 수도 있다.
또한, 상기 서버(200)는 해당 특정 주제와 관련해서, 복수의 단말(100)로부터 제공되는 복수의 로우 데이터에 대해서, 앞선 선택라벨링 과정, 분류 모델 추론 과정, 예측 모델 추론 과정, 생성된 제 1 영상에 대한 추가 선택라벨링 과정, 추가 분류 모델 추론 과정, 추가 예측 모델 추론 과정을 각각 반복 수행하여, 해당 특정 주제와 관련해서(또는 해당 특정 주제와 관련한 비교 대상 영상과 관련해서) 집단 지성화된 제 2 영상을 생성(또는 업데이트)한다.
이때, 상기 서버(200)는 해당 특정 주제와 관련해서 로우 데이터를 제공한 복수의 단말(100)에 마지막으로 업데이트된(또는 최신으로 생성된) 제 2 영상을 실시간 또는 특정 단말(100)의 요청에 따라 제공할 수도 있다.
이에 따라, 해당 특정 주제와 관련한 로우 데이터를 상기 서버(200)에 제공한 모든 단말(100) 또는 특정 단말(100)은 해당 특정 주제와 관련해서 최신의 집단 지성화된 제 2 영상을 제공받을 수 있다.
GAN 및/또는 GNN 예측 모델(1605)에 의해 반복되어 생성되는 '제1, 2, 3, …의 영상정보'는 기초영상정보(1601)와 단일모델로 반복적으로 학습된다. 계층라벨링, 선택라벨링(1604)이 반복적으로 실행된다. 분류 모델이 반복적으로 추론되고, GAN 및/또는 GNN 예측 모델(1605)이 반복적으로 유도 및/또는 추론된다.
본 발명의 일 실시예에서, 시계열 분할 선택라벨링(1701) 및/또는 신체 부위별 선택라벨링(1702)이 반복적으로 실행된다.
또한, 상기 서버(200)는 단말(100)과 연동하여, 특정 주제와 관련해서, 상기 단말(100)에서 출력되는(또는 관리 중인) 실제 인간(또는 실제 사람), 가상의 아바타나 아이템 등의 동작 관련 영상(또는 인간, 아바타 및 아이템 중 적어도 하나와 관련한 동작 관련 영상), 해당 동작 관련 영상과 관련한 메타 정보 등을 수집한다. 여기서, 상기 특정 주제(또는 특정 콘텐츠)는 의료 행위(예를 들어 시술, 수술 등 포함), 댄스, 운동 종목(예를 들어 축구, 농구, 탁구 등 포함), 게임, 이-스포츠 등을 포함한다. 또한, 상기 인간과 관련한 동작 관련 영상(또는 기초영상정보/로우 데이터)은 실제 인간(또는 사람/인플루언서)이 상기 특정 주제와 관련해서 수행 중인 행동(또는 동작/행위)를 획득한(또는 촬영한) 영상일 수 있다. 또한, 상기 아바타 및/또는 아이템의 동작 관련 영상은 해당 특정 주제와 관련한 임의의 로우 데이터를 근거로 선택라벨링 과정, 분류 모델 추론 과정, 예측 모델 추론 과정 등을 통해 생성된 영상일 수 있다.
본 발명의 일 실시예에서, 도 18의 아바타, 아이템, 인간 동작의 시각데이터(1801)는 아바타 또는 인간이 조작하여 작동하는 비히클(vehicle) 움직임의 시각데이터를 포함한다. 여기서, 상기 시각데이터(1801)는 현실세계의 사용자(또는 인간)의 동작에 대한 로우 데이터를 나타낸다.
또한, 상기 서버(200)는 상기 수집된 동작 관련 영상을 실제 로봇의 동작으로 구현하기 위해서, 상기 수집된 동작 관련 영상(또는 상기 수집된 실제 인간, 가상의 아바타나 아이템 등의 동작 관련 영상)을 로봇 동작 영상으로 재구성한다. 여기서, 상기 로봇은 치아삭제 VR 시뮬레이터의 시각데이터를 이용하여 치아삭제 VR 시뮬레이터에서 작동할 수 있는 형태로 제작한 로봇팔, 수술 VR 시뮬레이터의 시각데이터를 이용하여 수술 VR 시뮬레이터에서 작동할 수 있는 형태로 제작한 로봇팔, VEHICLE VR 시뮬레이터의 시각데이터를 이용하여 VEHICLE 형태로 제작한 로봇, VR 트레드밀에서 작동할 수 있는 휴머노이드 로봇을 포함한다.
즉, 상기 서버(200)는 상기 수집된 동작 관련 영상, 상기 동작 관련 영상과 관련한 메타 정보 등을 근거로 해당 실제 인간, 가상의 아바타나 아이템 등의 동작을 실제 로봇에 적용하기 위해서 해당 동작 관련 영상에 포함된 실제 인간, 가상의 아바타나 아이템 등과 관련한 좌표 정보를 상기 실제 로봇에 적용하기 위한 로봇 좌표 정보로 변환하여, 해당 동작 관련 영상을 상기 로봇 동작 영상으로 재구성한다.
또한, 상기 서버(200)는 상기 로봇 동작 영상(또는 재구성된 로봇 동작 영상), 해당 로봇 동작 영상에 대한 메타 정보, 상기 수집된 동작 관련 영상, 상기 동작 관련 영상과 관련한 메타 정보, 상기 서버(200)에서 관리 중인 복수의 비교 대상 영상 중에서 상기 수집된 동작 관련 영상(또는 로봇 동작 영상)과 관련해서 검색된 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보 등을 상기 서버(200)에 미리 등록된 복수의 단말(100) 중에서 선택된 특정 단말(100)에 전송한다.
또한, 상기 특정 단말(100)은 상기 서버(200)로부터 전송되는 상기 로봇 동작 영상, 해당 로봇 동작 영상에 대한 메타 정보, 상기 동작 관련 영상, 상기 동작 관련 영상과 관련한 메타 정보, 상기 동작 관련 영상(또는 로봇 동작 영상)에 대응하는 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보 등을 수신한다.
단말(100)과 연결하여 로봇의 움직임에 대한 공간적 시간적 좌표를 정확히 계측하면서 상기 단말(100)의 앱 실행 결과 화면(또는 보기 화면)의 디스플레이 장치(1808) 및 사용자 인터페이스(1809)를 통해 로봇의 움직임을 평가하여 사용자가 로보틱스 선택라벨링(1810)을 하는 방식으로 고도화하여 서버(200)상에서 작동(1806)하는 집단지성 모델로 추론된 로보틱스 프로그래밍을 '집단지성 로보틱스(1803)'라 정의한다. 기초 로보틱스 영상정보에 대해서 제 1 로보틱스 선택라벨링 이전에 선택라벨링(기초 선택라벨링)을 실행하여 제 1 집단지성 로보틱스(1803)를 추론 및/또는 유도한다. 기초 로보틱스 영상정보에 대해 계층라벨링 및/또는 선택라벨링이 도 12의 방식과 동일하게 실행될 수 있다.
본 발명의 일 실시예에서, 상기 단말(100)의 앱 실행 결과 화면(또는 보기 화면)에서 출력되는 시각데이터는 단말(100)이 제공하는 로봇의 가상현실, 증강현실, 혼합현실, 확장현실 등에서의 동작 화면이다.
로보틱스 영상정보(1813)는 앞선 도 3 내지 도 6의 속성 및 타깃속성에 해당되고, 집단지성 로보틱스(1803)에 의해 생성되는 시각데이터이다.
제 1 집단지성 로보틱스(1902)는 제1 기초 로보틱스 영상정보(1901)가 입력되어 프로그래밍 되고, 제1 로보틱스 영상정보(1911)를 생성한다.
도 18의 기초 로보틱스 영상정보(1802)는 메타버스 사용자의 행동 정보 및 위치정보가 가상환경의 좌표에 정합되도록 동기화된 상태에서 단말(100)로부터 확보된 아바타, 인간, 로봇 등의 동작 데이터(1801)가 상기 서버(200)에서 로봇 동작 데이터(영상정보)로 재구성된 것이다. 상기 단말(100)로부터 확보된 아바타 동작의 시각데이터(1801)는 도 16의 GAN 및/또는 GNN 예측 모델(1605)의 예측값이고, 도 15에서의 '제1, 2, 3, …의 영상정보'이며, 이하 반복되는 메타버스 월드의 GAN 및/또는 GNN 예측모델(1605)의 예측값이다. 또는, 인간(또는 사용자) 동작의 시각데이터(1801)은 현실세계에서의 사용자의 동작에 대한 로우 데이터를 의미한다. 인간(또는 사용자) 동작의 시각데이터(1801) 상기 서버(200)에서 로봇 동작 데이터(영상정보)로 재구성되고, 상기 인간 동작의 시각데이터가 재구성된 로봇 동작 영상정보는 기초 로보틱스 영상정보(1802)에 포함된다.
본 발명의 일 실시예에서, 상기 단말(100)의 앱 실행 결과 화면(또는 보기 화면)에서 출력되는 시각데이터는 단말(100)이 제공하는 로봇(1807)의 동작 화면으로 가상현실, 증강현실, 확장현실, 혼합현실 등일 수 있다.
단말(100)의 사용자 인터페이스(1809)상의 좌표계와 로봇 동작에서의 좌표계의 오차를 줄이기 위해 로봇 크기 기반 실제 거리 좌표계를 추정하고, 로봇 관절별 각도를 추출하며 제어한다.
본 발명의 실시예에서, 치아삭제 VR 시뮬레이터, 수술 VR 시뮬레이터, VEHICLE VR 시뮬레이터, VR 트레드밀의 시각 데이터를 이용하여, 로봇팔 형태 혹은 휴머노이드 형태 혹은 VEHICLE 형태의 로봇을 제작한다.
도 18을 참조하면, 기초 로보틱스 영상정보(1802)는 집단지성 로보틱스(1803)에 입력된다. 집단지성 로보틱스(1803)에 포함된 GAN 및/또는 GNN 로보틱스 예측 모델은 인터페이스 API 과정을 포함하고, 예측 모델은 상기 단말(100)의 앱 실행 결과 화면(또는 보기 화면)에 로보틱스 영상정보(1813)를 출력한다. GAN 및/또는 GNN 로보틱스 예측모델은 GAN 및/또는 GNN 예측모델(1605)과 동일한 방식의 로보틱스 동작에 관한 시각데이터의 모델이다. 로보틱스 영상정보(1813)는 GAN 및/또는 GNN 로보틱스 예측모델에 의해 반복적으로 출력 및/또는 생성되는 '제1, 2, 3, …의 로보틱스 영상정보'이다. 상기 영상정보에 대해 반복적으로 로보틱스 선택라벨링(1810)이 이루어진다.
집단지성 로보틱스(1803)에서 출력된 시각데이터는 로봇 시뮬레이션 엔진(1804)으로 전달되고, 로봇과의 API 통신(1805)을 통해 로봇을 작동(1806)시키고, 그래픽스 엔진(1807)을 거쳐 디스플레이 장치(1808) 및 사용자 인터페이스(1809)를 통해 출력된다.
본 발명의 일 실시예에서, 상기 서버(200)에서의 로보틱스의 프로그래밍은 다음과 같다. ROS(Robot Operating System)와 OpenCV(Open Source Computer Vision), PCL(Point Cloud Library)을 활용하여 비전 센서를 ROS와 인터페이스하고, OpenCV 및 PCL과 같은 라이브러리를 이용하여 프로그래밍한다.
본 발명의 일 실시예에서, 메타버스 병원 및 치과병원 게임에서 단말(100)은 환자의 병변에 대한 3D 모델을 작성하여 병변의 위치 및 상태, 영상정보를 기반으로 3D 환자 좌표계와 수술대 위에 놓인 환자의 좌표계를 정합되도록 정합한다.
이와 같이, 본 발명에 의하면, 병원 게임에서 치과의사 사용자에게는 외료기기, 의료장비, 재료 등의 아이템을 디지털 카데바(환자의 아바타)의 얼굴 및 몸에 대입 및 다양한 조합으로 생성 및/또는 출력해보는 서비스를 제공할 수 있다.
본 발명의 일 실시예에서, 의사 및/또는 치과의사에 의해 동작하는 VR 시뮬레이터를 통해 충분한 가상 수술 및 치아삭제 시술에 관한 시각데이터가 확보되면, 로보틱스 프로그래밍에 의해 VR 시뮬레이터에서 자동화 수술 및 시술을 할 수 있는 인공지능 수술 및 시술 로봇 제작이 가능하다. '실제 의료기관의 데이터 수집 및 가상 치아 시뮬레이터 및 가상 수술 시뮬레이터'에서 수집된 군집의 활용에 있어서, 연관규칙과 앞에서 예측한 것이 뒤에 입력으로 가면서 반복되는 시퀀셜(sequential) 모델을 통해 '자동화 수술 및 시술할 수 있는 인공지능'의 초기 모델을 만든다. 로보틱스 선택라벨링(1810)을 통해 인공지능을 고도화한다. 인공지능이 가상수술 및 시술을 진행하고, 이에 대해 의사가 라벨링을 진행하여 도 12의 유도 및/또는 추론 알고리즘(1200)을 적용하고 인공지능을 고도화한다.
도 19의 제1 로보틱스 영상정보(1911)는 도 4 내지 도 6의 제2 속성 및 제2 타깃속성이다. 기초 로보틱스 영상정보(1802)는 도 7 내지 도 11의 군집중의 하나인, 특정군집에 속하는 데이터이다. '로보틱스 영상정보(1813) 또한 같은 특정군집에 속하는 데이터가 된다.
또한, 상기 서버(200)는 상기 로봇 동작 영상을 대상으로 선택라벨링을 수행한다. 여기서, 상기 선택라벨링(또는 선택레이블링)은 상기 로봇 동작 영상의 특정 시점(또는 특정 구간)에서의 오류(또는 이상) 유무에 대한 라벨(또는 라벨값)을 설정하는(또는 붙이는) 라벨링 방법을 나타낸다. 이때, 상기 로봇 동작 영상 중에서 상기 선택라벨링에 따라 라벨(또는 라벨값)이 설정되지 않은 시점(또는 구간)은 미리 설정된 디폴트 라벨값(예를 들어 승인 라벨)이 설정될 수 있다.
즉, 상기 서버(200)는 상기 단말(100)과 연동하여, 해당 단말(100)에 표시되는 로봇 동작 영상에 대해서, 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 해당 로봇 동작 영상 중 특정 시점(또는 특정 구간)에서의 라벨(또는 라벨값)을 설정(또는 수신/입력)한다.
또한, 상기 서버(200)는 상기 단말(100)로부터 전송되는 상기 로봇 동작 영상과 관련한 하나 이상의 특징 시점(또는 특정 구간)에서의 하나 이상의 선택라벨값, 해당 로봇 동작 영상의 메타 정보, 해당 단말(100)의 식별 정보 등을 수신한다.
본 발명의 실시예에서는, 상기 단말(100)에서 사용자 입력에 따라 해당 로봇 동작 영상 중 하나 이상의 특정 시점(또는 특정 구간)에서 하나 이상의 선택라벨값을 설정(또는 수신/입력)하는 것을 주로 설명하고 있으나, 이에 한정되는 것은 아니며, 상기 서버(200)는 해당 로봇 동작 영상 및 해당 로봇 동작 영상과 관련한 비교 대상 영상에 대한 영상 분석 기능을 수행하고, 영상 분석 기능 수행 결과를 근거로 해당 로봇 동작 영상에 대해서 하나 이상의 특정 시점(또는 특정 구간)에서 하나 이상의 선택라벨값을 자동으로 각각 설정할 수도 있다.
또한, 상기 서버(200)에서 해당 로봇 동작 영상에 대해 하나 이상의 특정 시점(또는 특정 구간)에서 하나 이상의 선택라벨값을 설정한 경우, 상기 서버(200)는 상기 설정된 해당 로봇 동작 영상과 관련한 하나 이상의 특정 시점(또는 특정 구간)에서의 하나 이상의 선택라벨값에 대한 정보를 상기 단말(100)에 제공하고, 해당 단말(100)에서 상기 서버(200)에서 설정된 해당 로봇 동작 영상과 관련한 하나 이상의 특정 시점(또는 특정 구간)에서의 하나 이상의 선택라벨값에 대한 정보를 표시하고, 해당 단말(100)의 사용자 입력에 따라 해당 하나 이상의 특정 시점(또는 특정 구간)에서의 하나 이상의 선택라벨값에 대해 최종 승인 여부를 결정하도록 구성할 수도 있다.
이때, 해당 로봇 동작 영상을 대상으로 선택라벨링을 수행하기 이전에 또는 수행한 이후에, 상기 서버(200)는 상기 단말(100)과 연동하여, 해당 로봇 동작 영상을 대상으로 계층라벨링을 수행하고, 계층라벨링 수행 전/후로 해당 로봇 동작 영상을 대상으로 선택라벨링을 수행할 수도 있다. 여기서, 상기 계층라벨링(또는 계층레이블링)은 사용자에 의한 입력 피처 엔지니어링으로, 해당 로봇 동작 영상에 대한 특징을 나타내는 라벨을 붙이고, 해당 로봇 동작 영상을 특징에 따라 복수의 서브 로봇 동작 영상으로 분할(또는 분류)하는 라벨링 방법을 나타낸다.
즉, 상기 서버(200)는 상기 단말(100)과 연동하여, 해당 단말(100)에 표시되는 로봇 동작 영상에 대해서, 해당 특정 주제와 관련해서 미리 설정된 복수의 라벨 분류를 참조하여(또는 근거로), 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 해당 로봇 동작 영상 중 다른 특정 시점(또는 다른 특정 구간)에서의 라벨(또는 라벨값)을 설정(또는 수신/입력)한다.
또한, 상기 서버(200)는 상기 로봇 동작 영상을 복수의 서브 로봇 동작 영상으로 분할한다.
본 발명의 실시예에서는, 상기 단말(100)에서 사용자 입력에 따라 해당 로봇 동작 영상 중 하나 이상의 다른 특정 시점(또는 다른 특정 구간)에서 하나 이상의 계층라벨값을 설정(또는 수신/입력)하는 것을 주로 설명하고 있으나, 이에 한정되는 것은 아니며, 상기 서버(200)는 해당 로봇 동작 영상 및 해당 로봇 동작 영상과 관련한 비교 대상 영상에 대한 영상 분석 기능을 수행하고, 영상 분석 기능 수행 결과를 근거로 해당 로봇 동작 영상에 대해서 하나 이상의 다른 특정 시점(또는 다른 특정 구간)에서 하나 이상의 계층라벨값을 자동으로 각각 설정할 수도 있다.
또한, 상기 서버(200)에서 해당 로봇 동작 영상에 대해 하나 이상의 다른 특정 시점(또는 다른 특정 구간)에서 하나 이상의 계층라벨값을 설정한 경우, 상기 서버(200)는 상기 설정된 해당 로봇 동작 영상과 관련한 하나 이상의 다른 특정 시점(또는 다른 특정 구간)에서의 하나 이상의 계층라벨값에 대한 정보를 상기 단말(100)에 제공하고, 해당 단말(100)에서 상기 서버(200)에서 설정된 해당 로봇 동작 영상과 관련한 하나 이상의 다른 특정 시점(또는 다른 특정 구간)에서의 하나 이상의 계층라벨값에 대한 정보를 표시하고, 해당 단말(100)의 사용자 입력에 따라 해당 하나 이상의 다른 특정 시점(또는 다른 특정 구간)에서의 하나 이상의 계층라벨값에 대해 최종 승인 여부를 결정하도록 구성할 수도 있다.
상기 영상정보인 제1 로보틱스 영상정보(1911) 에 대해 제1 로보틱스 선택라벨링(1903) 정보를 수신한다.
제1 로보틱스 분류모델(1904) 유도 및/또는 추론 방식은 도 12의 제2 분류모델의 방식과 동일하다.
제1 집단지성 로보틱스(1902)의 출력인 제1 로보틱스 영상정보(1911)에 대해 제1 로보틱스 선택라벨링(1903)을 수행한다. 제1 로보틱스 선택라벨링(1903)을 수행하여 획득된 시각데이터를 분류한 분류모델을 '제1 로보틱스 분류모델(1904)'이라 정의한다. 이하 로보틱스 분류모델(1911)은 반복된다. 로보틱스 선택라벨링(1910)은 도 16의 선택라벨링(1604)과 동일한 방식이다.
상기 단말(100)의 앱 실행 결과 화면(또는 보기 화면) 형태의 도 18의 사용자 인터페이스(1809)에서 출력되는 로봇의 동작에 대해 사용자가 도 18의 로보틱스 선택라벨링(1810)을 수행한다. 로봇의 동작은 로보틱스 영상정보(1813)이다.
'집단지성 로보틱스(1803)'의 초기 모델의 로봇은 동작에 오류가 많을 수 있다. 다소 부정확한 로봇(1809)의 움직임에 대해 로보틱스 개발자는 로보틱스 선택라벨링(1810) 및 분류를 통해 지도학습을 한다. 가상 시뮬레이션에서 생성 및 출력된 아바타와 아이템, 그리고 공간 환경, 서사 등을 집단지성 로보틱스(1803)에 제공하고, 사용자가 로보틱스 선택라벨링(1810)을 수행하는 방식으로 인공지능에 지도학습을 한다. 도 12의 유도 및/또는 추론 알고리즘(1200)은 집단지성 로보틱스(1803)를 고도화한다.
또한, 상기 서버(200)는 상기 선택라벨링된 로봇 동작 영상에 대한 정보 등을 근거로 인공지능 기반의 기계 학습을 수행하여, 기계 학습 결과를 근거로 해당 로봇 동작 영상에 대한 분류값을 생성(또는 확인)한다. 여기서, 상기 해당 로봇 동작 영상에 대한 분류값(또는 해당 로봇 동작 영상의 분류값/선택라벨링된 로봇 동작 영상의 분류값/계층라벨링된 로봇 동작 영상의 분류값)은 선택라벨링값, 계층라벨링값 등을 동일 항목별로 분류한 값일 수 있다.
즉, 상기 서버(200)는 상기 선택라벨링된 로봇 동작 영상에 대한 정보 등을 미리 설정된 분류 모델의 입력값으로 하여 기계 학습(또는 인공지능/딥 러닝)을 수행하고, 기계 학습 결과(또는 인공지능 결과/딥 러닝 결과)를 근거로 해당 로봇 동작 영상에 대한 분류값을 생성(또는 확인)한다.
도 18에서 사용자 인터페이스(1809)에 출력된 영상정보는 로보틱스 선택라벨링(1810)에 라벨링되어 로보틱스 분류모델(1811)을 통해 분류된다. 분류된 시각데이터는 집단지성 로보틱스(1803)에 전달되는 라벨링된 로보틱스 라벨정보(1812)이다.
본 발명의 실시예에서, 로보틱스 선택라벨링(1810)은 메타버스의 영상처리와 동일한 방식의 계층라벨링, 시계열분할 선택라벨링(1701), 신체부위별 선택라벨링(1702) 등을 포함한다.
제1 로보틱스 분류모델(1904)에 의해 분류된 정보가 제1 로보틱스 라벨정보(1905)이다.
본 발명의 일 실시예에서, 가상 시뮬레이션 게임의 각 분야 전문가에 해당되는 다수의 사용자들이 단말(100)의 인터페이스(1809)를 통해 로보틱스 선택라벨링(1810)을 진행하여 충분한 시각데이터가 확보되면 VR 시뮬레이터를 조작하는 인공지능 로봇이 제작된다. 로봇 관절과 팔과 다리 등을 이용하여 VR 시뮬레이터를 조작하는 집단지성 로보틱스(1803)의 초기 모델이 개발된 경우에 사용자들의 라벨링을 통해 집단지성 로보틱스(1803) 모델의 능력을 지도학습으로 고도화한다. 고도화가 되면 실제 현실에서 동작할 수 있는 집단지성 로보틱스(1803) 초기 모델이 개발될 수 있고, 이 경우에도 사용자 및 전문가들의 로보틱스 선택라벨링(1810)을 통해 집단지성 로보틱스(1803)를 지도학습으로 고도화한다. 도 18 및 도 19의 집단지성 로보틱스(1803)는 도 12의 유도 및/또는 추론 알고리즘(1200)을 반복 적용하고 라벨링을 반복하여 집단지성 로보틱스(1803)의 모델을 고도화한다. 집단지성 로보틱스(1803)의 고도화에 따라 로봇팔을 이용한 실제 의료 현장에서의 자동화 시술 및 수술할 수 있는 인공지능 초기 모델이 개발될 수 있고, 이 경우에도 의사들의 로보틱스 선택라벨링(1810)을 통해 인공지능의 초기모델의 자동화 능력을 지도학습으로 고도화한다.
본 발명의 일 실시예에서, 사용자(의사)에 의하여, 평가되고 다듬어지는 집단지성화 알고리즘은 인공지능 추론을 고도화하여 오차와 오류가 없이 가상 수술 시뮬레이션 및 치아삭제 시뮬레이션에서 자동화 수술을 하는 수준으로 인공지능을 고도화한다. 로봇팔을 이용한 VR 시뮬레이터 상에서의 자동화 시술 및 수술할 수 있는 인공지능 초기 모델이 개발된 경우에 의사들의 로보틱스 선택라벨링(1810)을 통해 인공지능 모델의 자동화 능력을 지도학습으로 고도화한다. 고도화가 되면 로봇팔을 이용한 실제 의료 현장에서의 자동화 시술 및 수술할 수 있는 인공지능 초기 모델이 개발될 수 있고, 이 경우에도 의사들의 로보틱스 선택라벨링(1810)을 통해 인공지능 초기모델의 자동화 능력을 지도학습으로 고도화한다.
본 발명의 일 실시예에서, 로봇머리, 로봇팔, 로봇다리, 로봇 몸, 로봇 관절 등을 사용하는 휴머노이드형 로봇을 제작하고, 자율주행형 차량, 드론, 비행기 등의 비히클 로봇 및 인공지능 치과의사로봇 및 인공지능 의사로봇을 제작한다.
또한, 상기 서버(200)는 상기 생성된 해당 로봇 동작 영상에 대한 분류값(또는 해당 로봇 동작 영상의 분류값), 상기 선택라벨링된 로봇 동작 영상에 대한 정보, 해당 로봇 동작 영상, 해당 로봇 동작 영상과 관련한 메타 정보, 상기 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보 등을 입력값으로 하여 기계 학습(또는 인공지능/딥 러닝)을 수행하고, 기계 학습 결과(또는 인공지능 결과/딥 러닝 결과)를 근거로 해당 로봇 동작 영상에 대응하는 제 1 로보틱스 영상을 생성한다. 이때, 상기 제 1 로보틱스 영상은 상기 로봇 동작 영상을 근거로 생성되는 아바타, 아이템, 로봇 등의 동작 관련 영상, 상기 로봇 동작 영상이 업데이트된 영상 등일 수 있다.
즉, 상기 서버(200)는 상기 생성된 해당 로봇 동작 영상에 대한 분류값(또는 해당 로봇 동작 영상의 분류값), 상기 선택라벨링된 로봇 동작 영상에 대한 정보, 해당 로봇 동작 영상, 해당 로봇 동작 영상과 관련한 메타 정보, 상기 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보 등을 미리 설정된 예측 모델의 입력값으로 하여 기계 학습(또는 인공지능/딥 러닝)을 수행하고, 기계 학습 결과(또는 인공지능 결과/딥 러닝 결과)를 근거로 해당 로봇 동작 영상과 관련한 제 1 로보틱스 영상을 생성한다.
또한, 상기 서버(200)는 상기 생성된 제 1 로보틱스 영상을 상기 단말(100)에 전송(또는 제공)한다.
제2 로보틱스 영상정보(1912)는 제2 집단지성 로보틱스(1906)의 예측값인 영상으로, 본 발명에 있어서 반복된 유도 및/또는 추론 알고리즘(1200)의 반복된 적용으로 고도화된 예측모델의 예측값으로 정의한다.
제2 로보틱스 영상정보(1912)는 도 4 내지 도 6에서 제3 속성과 제3 타깃속성이다.
제1 로보틱스 분류모델(1904)에 의해 분류된 제1 로보틱스 라벨정보(1905)는 제2 집단지성 로보틱스(1906)에 입력되고, 제2 기초 로보틱스 영상정보(1907)도 제 2 집단지성 로보틱스(1906)에 입력되어 단일모델로 프로그래밍 되고, 제2 로보틱스 영상정보(1912)를 생성한다.
또한, 상기 서버(200)는 상기 제 1 로보틱스 영상을 대상으로 추가 선택라벨링을 수행한다. 여기서, 상기 추가 선택라벨링(또는 추가 선택레이블링)은 상기 제 1 로보틱스 영상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 오류(또는 이상) 유무에 대한 라벨(또는 라벨값)을 설정하는(또는 붙이는) 라벨링 방법을 나타낸다. 이때, 상기 제 1 로보틱스 영상 중에서 상기 추가 선택라벨링에 따라 라벨(또는 라벨값)이 설정되지 않은 시점(또는 구간)은 미리 설정된 디폴트 라벨값(예를 들어 승인 라벨)이 설정될 수 있다.
즉, 상기 서버(200)는 상기 단말(100)과 연동하여, 해당 단말(100)에 표시되는 제 1 로보틱스 영상에 대해서, 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 해당 제 1 로보틱스 영상 중 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 라벨(또는 라벨값)을 설정(또는 수신/입력)한다.
또한, 상기 서버(200)는 상기 단말(100)로부터 전송되는 상기 제 1 로보틱스 영상과 관련한 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 하나 이상의 추가 선택라벨값, 하나 이상의 시계열 분할 선택라벨값, 하나 이상의 신체부위별 선택라벨값, 해당 복수의 서브 로보틱스 영상의 순서를 정렬하기 위한 라벨값, 해당 단말(100)의 식별 정보 등을 수신한다.
본 발명의 실시예에서는, 상기 단말(100)에서 사용자 입력에 따라 해당 제 1 로보틱스 영상 중 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서 하나 이상의 추가 선택라벨값을 설정(또는 수신/입력)하는 것을 주로 설명하고 있으나, 이에 한정되는 것은 아니며, 상기 서버(200)는 해당 제 1 로보틱스 영상 및 해당 제 1 로보틱스 영상과 관련한 비교 대상 영상에 대한 영상 분석 기능을 수행하고, 영상 분석 기능 수행 결과를 근거로 해당 제 1 로보틱스 영상에 대해서 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서 하나 이상의 추가 선택라벨값을 자동으로 설정할 수도 있다.
또한, 상기 서버(200)에서 해당 제 1 로보틱스 영상에 대해 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서 하나 이상의 추가 선택라벨값을 설정한 경우, 상기 서버(200)는 상기 설정된 해당 제 1 로보틱스 영상과 관련한 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 하나 이상의 추가 선택라벨값에 대한 정보를 상기 단말(100)에 제공하고, 해당 단말(100)에서 상기 서버(200)에서 설정된 해당 제 1 로보틱스 영상과 관련한 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 하나 이상의 추가 선택라벨값에 대한 정보를 표시하고, 해당 단말(100)의 사용자 입력에 따라 해당 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 하나 이상의 추가 선택라벨값에 대해 최종 승인 여부를 결정하도록 구성할 수도 있다.
이때, 해당 제 1 로보틱스 영상을 대상으로 추가 선택라벨링을 수행하기 이전에 또는 수행한 이후에, 상기 서버(200)는 상기 단말(100)과 연동하여, 해당 하나 이상의 제 1 로보틱스 영상을 대상으로 추가 계층라벨링을 수행하고, 추가 계층라벨링 수행 전/후로 해당 제 1 로보틱스 영상을 대상으로 추가 선택라벨링을 수행할 수도 있다. 여기서, 상기 추가 계층라벨링(또는 추가 계층레이블링)은 사용자에 의한 입력 피처 엔지니어링으로, 해당 제 1 로보틱스 영상에 대한 특징을 나타내는 라벨(또는 라벨값)을 붙이고, 해당 제 1 로보틱스 영상을 특징에 따라 복수의 서브 로보틱스 영상으로 분할(또는 분류)하는 라벨링 방법을 나타낸다.
즉, 상기 서버(200)는 상기 단말(100)과 연동하여, 해당 단말(100)에 표시되는 제 1 로보틱스 영상에 대해서, 해당 특정 주제와 관련해서 미리 설정된 복수의 라벨 분류를 참조하여(또는 근거로), 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 해당 제 1 로보틱스 영상 중 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 추가 라벨(또는 추가 라벨값)을 설정(또는 수신/입력)한다.
또한, 상기 서버(200)는 상기 제 1 로보틱스 영상을 복수의 서브 로보틱스 영상으로 분할한다.
본 발명의 실시예에서는, 상기 단말(100)에서 사용자 입력에 따라 해당 제 1 로보틱스 영상 중 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서 하나 이상의 추가 계층라벨(또는 추가 계층라벨값)을 설정(또는 수신/입력)하는 것을 주로 설명하고 있으나, 이에 한정되는 것은 아니며, 상기 서버(200)는 해당 제 1 로보틱스 영상 및 해당 제 1 로보틱스 영상과 관련한 비교 대상 영상에 대한 영상 분석 기능을 수행하고, 영상 분석 기능 수행 결과를 근거로 해당 제 1 로보틱스 영상에 대해서 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서 하나 이상의 추가 계층라벨값을 자동으로 각각 설정할 수도 있다.
또한, 상기 서버(200)에서 해당 제 1 로보틱스 영상에 대해 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서 하나 이상의 추가 계층라벨값을 설정한 경우, 상기 서버(200)는 상기 설정된 해당 제 1 로보틱스 영상과 관련한 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 하나 이상의 추가 계층라벨값에 대한 정보를 상기 단말(100)에 제공하고, 해당 단말(100)에서 상기 서버(200)에서 설정된 해당 제 1 로보틱스 영상과 관련한 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 하나 이상의 추가 계층라벨값에 대한 정보를 표시하고, 해당 단말(100)의 사용자 입력에 따라 해당 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 하나 이상의 추가 계층라벨값에 대해 최종 승인 여부를 결정하도록 구성할 수도 있다.
제2 로보틱스 영상정보(1912)는 제2 집단지성 로보틱스(1906)의 예측값인 영상으로, 본 발명에 있어서 반복된 유도 및/또는 추론 알고리즘(1200)의 반복된 적용으로 고도화된 예측모델의 예측값으로 정의한다.
제2 로보틱스 영상정보(1912)는 도 4 내지 도 6에서 제2 속성(1226)과 제2 타깃속성(1227)이다.
또한, 상기 서버(200)는 상기 추가 선택라벨링된 제 1 로보틱스 영상에 대한 정보 등을 근거로 인공지능 기반의 다른 기계 학습을 수행하여, 다른 기계 학습 결과를 근거로 해당 제 1 로보틱스 영상에 대한 분류값을 생성(또는 확인)한다. 여기서, 상기 해당 제 1 로보틱스 영상에 대한 분류값(또는 해당 제 1 로보틱스 영상의 분류값)은 추가 선택라벨링값, 추가 계층라벨링값 등을 동일 항목별로 분류한 값일 수 있다.
즉, 상기 서버(200)는 상기 추가 선택라벨링된 제 1 로보틱스 영상에 대한 정보 등을 상기 미리 설정된 분류 모델의 입력값으로 하여 다른 기계 학습(또는 다른 인공지능/다른 딥 러닝)을 수행하고, 다른 기계 학습 결과(또는 다른 인공지능 결과/다른 딥 러닝 결과)를 근거로 해당 제 1 로보틱스 영상에 대한 분류값을 생성(또는 확인)한다.
제2 로보틱스 영상정보(1912)는 사용자에 의해 제2 로보틱스 선택라벨링(1908) 방식으로 라벨링되고, 라벨링된 데이터에 의해 제2 로보틱스 분류모델(1909)이 유도 및/또는 추론된다. 분류된 제2 로보틱스 라벨정보(1910)는 제3 집단지성 로보틱스에 입력된다. 이하 반복된다.
제1 로보틱스 라벨정보(1905) 및 제2 기초 로보틱스 영상정보(1907)는 제 2 집단지성 로보틱스(1906)의 단일 모델로 학습된다. 제1 기초 로보틱스 영상정보(1901) 입력에 의해 제1 집단지성 로보틱스(1902)가 프로그래밍 되고, 제2 기초 로보틱스 영상정보(1907)와 제1 로보틱스 라벨정보(1905)의 입력에 의해 제2 집단지성 로보틱스(1906)가 프로그래밍 되고, 이하 반복된다.
또한, 상기 서버(200)는 상기 생성된 해당 제 1 로보틱스 영상에 대한 분류값(또는 해당 제 1 로보틱스 영상의 분류값), 상기 추가 선택라벨링된 제 1 로보틱스 영상에 대한 정보, 해당 제 1 로보틱스 영상, 해당 제 1 로보틱스 영상과 관련한 메타 정보, 상기 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보 등을 입력값으로 하여 다른 기계 학습(또는 다른 인공지능/다른 딥 러닝)을 수행하고, 다른 기계 학습 결과(또는 다른 인공지능 결과/다른 딥 러닝 결과)를 근거로 해당 제 1 로보틱스 영상에 대응하는 제 2 로보틱스 영상을 생성한다. 이때, 상기 제 2 로보틱스 영상은 상기 제 1 로보틱스 영상을 근거로 생성되는 아바타, 아이템, 로봇 등의 동작 관련 영상, 상기 제 1 로보틱스 영상이 업데이트된 영상 등일 수 있다.
즉, 상기 서버(200)는 상기 생성된 해당 제 1 로보틱스 영상에 대한 분류값(또는 해당 제 1 로보틱스 영상의 분류값), 상기 추가 선택라벨링된 제 1 로보틱스 영상에 대한 정보, 해당 제 1 로보틱스 영상, 해당 제 1 로보틱스 영상과 관련한 메타 정보, 상기 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보 등을 상기 미리 설정된 예측 모델의 입력값으로 하여 다른 기계 학습(또는 다른 인공지능/다른 딥 러닝)을 수행하고, 다른 기계 학습 결과(또는 다른 인공지능 결과/다른 딥 러닝 결과)를 근거로 해당 제 1 로보틱스 영상과 관련한 제 2 로보틱스 영상을 생성한다.
또한, 상기 서버(200)는 상기 생성된 제 2 로보틱스 영상을 상기 단말(100)에 전송(또는 제공)한다.
도 19를 참조하면, 모델 관점에서 메타버스의 출력 및/또는 생성 데이터인 제2 기초 로보틱스 영상정보(1907)와 제1 집단지성 로보틱스(1902)의 출력 및/또는 생성 데이터인 제1 로보틱스 라벨정보(1905)의 정확도나 정교함의 장단점이 서로 상이할 수 있는데, 두 과정이 서로 다른 형태의 라벨링 과정이지만, 모델이 두 과정의 장점만을 수용하게 하기 위해서는 양 라벨 접근방법의 수정된 제2 기초 로보틱스 영상정보(1907)와 출력 및/또는 생성 데이터인 제1 로보틱스 라벨정보(1905)는 서로 다른 모델이 아닌 동일 모델(단일모델)의 학습 데이터로 사용된다. 제1 로보틱스 선택라벨링(1903) 및 제1 로보틱스 분류모델(1904)로 1차 라벨링 된 이후 제안한 출력 및/또는 생성 데이터인 제1 로보틱스 라벨정보(1905)는 제2 로보틱스 선택라벨링(1908)에 의해 2차 라벨링 되고, 이 과정은 계속하여 반복된다. 과거 라벨된 데이터(제1 로보틱스 라벨정보, 1905)는 다른 라벨 데이터(제2 기초 로보틱스 영상정보, 1907)와 함께 반복 수행하게 되며, 한번 학습했던 데이터 및/또는 유사한 레이블 값 또한 매 반복 학습(epoch)에 계속 등장하여, 여러 번의 실험을 거치는 과정이 필요하다. 매 에포크(epoch)는 누적된 단위 레이블의 총 개수(batch size) 만큼을 학습 연산 단위(mini batch size)로 분할하여 다양한 실험을 하게 되며, 해당 과정에서 집단지성의 레이블 값은, 취사 선택 및 평균화 되어 모델에 반영된다.
집단지성 로보틱스(1803)의 로보틱스 선택라벨링(1810)은 아바타, 인간, 로봇 등의 선택라벨링(1604)과 동일한 방식이다.
본 발명의 일 실시예에서, 움직임이나 조합의 범위가 한정돼 있는 자동 수술 및 치과시술 로봇 경우에는 계층적 군집화를 할 필요없이 로보틱스 선택라벨링(1810)을 통하여 영상정보의 잘된 부분과 잘못된 부분을 하나하나 세밀하게 라벨링을 수행한다. 자유도 및/또는 추론이 높은 휴머노이드 로봇이나 비히클 로봇(예를 들어 댄스하는 로봇, 축구하는 로봇, 2족 보행 로봇 등 포함)의 경우에는, 계층적 군집화를 위한 도 17에서 시계열분할 라벨링(1701), 신체부위별 선택라벨링(1702) 등을 통하여 디지털 단위 3(1705) 및/또는 디지털 단위 4(1706) 및/또는 디지털단위 5(1707)로 로보틱스 영상정보를 분할한 후, 로보틱스 선택라벨링(1810)을 수행한다.
또한, 상기 서버(200)는 해당 특정 주제와 관련해서, 복수의 단말(100)로부터 수집되는 복수의 실제 인간, 가상의 아바타나 아이템 등의 동작 관련 영상에 대해서, 앞선 선택라벨링 과정, 분류 모델 추론 과정, 예측 모델 추론 과정, 생성된 제 1 로보틱스 영상에 대한 추가 선택라벨링 과정, 추가 분류 모델 추론 과정, 추가 예측 모델 추론 과정(예를 들어 앞선 S2910 단계 ~ S2980 단계)을 각각 반복 수행하여, 해당 특정 주제와 관련해서 집단 지성화된 제 2 로보틱스 영상을 생성(또는 업데이트)한다.
이때, 상기 서버(200)는 해당 특정 주제와 관련해서 실제 인간, 가상의 아바타나 아이템 등의 동작 관련 영상을 제공한 복수의 단말(100)에 마지막으로 업데이트된(또는 최신으로 생성된) 제 2 로보틱스 영상을 실시간 또는 특정 단말(100)의 요청에 따라 제공할 수도 있다.
이에 따라, 해당 특정 주제와 관련한 실제 인간, 가상의 아바타나 아이템 등의 동작 관련 영상을 상기 서버(200)에 제공한 모든 단말(100) 또는 특정 단말(100)은 해당 특정 주제와 관련해서(또는 해당 특정 주제와 관련한 비교 대상 영상과 관련해서) 최신의 집단 지성화된 제 2 로보틱스 영상을 제공받을 수 있다.
GAN 및/또는 GNN 로보틱스 예측모델에 의해 반복되어 출력 및/또는 생성되는 '제1, 2, 3, …의 로보틱스 영상정보'(1813)는 기초 로보틱스 영상정보(1802)와 단일모델로 반복적으로 학습된다. 로보틱스 선택라벨링(1810)이 반복적으로 실행된다. 로보틱스 분류모델(1811)이 반복적으로 유도 및/또는 추론되고 GAN 및/또는 GNN 로보틱스 예측모델이 반복적으로 유도 및/또는 추론된다. GAN 및/또는 GNN 로보틱스 예측 모델은 집단지성 로보틱스(1803)에 포함된다.
본 발명의 일 실시예에서, 아바타 동작의 정보처리와 동일한 방식의 계층라벨링, 시계열 분할 선택라벨링(1701), 신체 부위별 선택라벨링(1702) 등이 반복적으로 실행된다.
또한, 상기 서버(200)는 블록체인 서버(미도시)와 연동하여, 상기 단말(100)에서 제공한 로우 데이터, 아바타 및/또는 아이템의 동작 관련 영상 등을 근거로 생성되는 제 1 영상, 제 2 영상, 제 1 로보틱스 영상, 제 2 로보틱스 영상 등을 대상으로 NFT(non-fungible token: 대체 불가 토큰)를 발행(또는 발급)한다.
상기 서버(200)에 의해 발행되는 NFT(또는 NFT 콘텐츠)는 상기 로우 데이터, 상기 아바타 및/또는 아이템의 동작 관련 영상을 제공한 소유권이 있는 소유자가 소지한 임의의 디지털 아트와 관련되며, 해당 디지털 아트(예를 들어 상기 제 1 영상, 상기 제 2 영상, 상기 제 1 로보틱스 영상, 상기 제 2 로보틱스 영상 등 포함)에 대응하여 생성된 콘텐츠(또는 MR 콘텐츠/실감 콘텐츠)이며, 원본 디지털 자산에 디지털 파일을 가리키는 주소, 고유 식별 코드(예를 들어 자산 정보, 작성자, 소유자 등에 대한 정보 포함) 등이 토큰에 삽입된 상태일 수 있다.
또한, 상기 서버(200)는 상기 발행된 NFT와 관련해서, 상기 제 1 영상, 상기 제 2 영상, 상기 제 1 로보틱스 영상, 상기 제 2 로보틱스 영상 등이 표시되는 상기 단말(100)의 화면의 일측에 마커가 함께 표시되도록 구성한다.
또한, 상기 제 1 영상, 상기 제 2 영상, 상기 제 1 로보틱스 영상, 상기 제 2 로보틱스 영상 등의 일측에 표시되는 마커가 상기 단말(100)의 사용자 터치에 따라 선택되는 경우, 상기 서버(200)는 상기 선택된 마커에 대응하는 NFT를 확인하고, 상기 확인된 NFT에 대한 정보(예를 들어 자산 정보, 작성자, 소유자 등에 대한 정보 등 포함)를 상기 단말(100)의 화면 일측에(또는 상기 제 1 영상, 상기 제 2 영상, 상기 제 1 로보틱스 영상, 상기 제 2 로보틱스 영상 등이 표시되는 화면에 팝업 형태로) 표시되도록 구성할 수 있다. 이때, 상기 단말(100)은 상기 확인된 NFT에 대한 정보를 가상현실, 증강현실, 혼합현실, 확장현실 등의 형태로 표시할 수도 있다.
또한, 상기 서버(200)는 상기 발행된 상기 제 1 영상, 상기 제 2 영상, 상기 제 1 로보틱스 영상, 상기 제 2 로보틱스 영상 등과 관련한 NFT에 대해서 거래 기능(또는 판매 기능/소유권 이전 기능) 등을 제공한다.
즉, 상기 영상정보(예를 들어 상기 제 1 영상, 상기 제 2 영상, 상기 제 1 로보틱스 영상, 상기 제 2 로보틱스 영상 등 포함)는 NFT가 부여된 영상정보이고 상기 NFT가 부여된 영상정보 플랫폼 제공 시스템은 사용자 및 참여자 및 기업들이 이익을 창출하고 돈을 벌면서 재미요소를 배가하는 원순환 구조(flywheel)이다.
상기 도 20을 참조하면, GAN 및/또는 GNN을 이용한 가상 아바타 생성 및/또는 출력 플랫폼 제공 시스템은 사용자(user), 참여자(인플루언서(2001) 또는 SNS에 자신의 캐릭터를 홍보하는 개개인), 기업(광고주 및/또는 제조사)들이 서로서로 이익을 창출하고 돈을 벌면서 재미요소를 배가하는 플랫폼으로서의 원순환 구조(flywheel)이다.
NFT가 부여된 영상정보는 GAN 및/또는 GNN 예측모델(1605)에 의해 반복적으로 출력 및 생성되는 '제1, 2, 3, …의 영상정보'이다.
상기 도 20을 참조하면, GNN 및/또는 GAN 예측모델(1605)은 도 1의 상기 서버(200)에서 작동한다. GNN 및/또는 GAN 예측모델(1605)은 사용자 및 인플루언서(2001)로부터 제공받은 기초 영상정보(도 15의 제1 기초 영상정보 1501, 제 2 기초 영상정보 1505)를 활용하여 마케팅 플랫폼(2003)에 NFT 아바타 및 아이템을 생성하거나 출력한다. 기업 및 투자자는 인플루언서(2001)의 프로필 NFT 및 상품 NFT를 소유할 수 있고 마케팅 및/또는 기업 홍보에 활용한다. 프로필(예를 들어 동영상, 사진 등 포함)은 생성된 아바타이고, 상품은 아이템이다.
본 발명의 일 실시예에서, 사용자와 인플루언서(2001)의 딥페이크를 이용하여, 마케팅 플랫폼(2003)에 광고를 하고, 국내외 NFT 마켓에 자동등록할 수 있도록 프로그래밍된다
본 발명의 일 실시예에서, 마케팅 플랫폼(2003)은 마케팅이 가능한 모든 플랫폼을 의미한다.
메타버스 상에서 NFT는 아바타와 아이템을 현실세계의 소유자, 생성자, 광고주, 실물 상품 등과의 디지털 트윈(digital twin)을 위한 매개로 연결된다.
또한, 참여자에게는 홍보비를 제공하고, 사용자에게는 아바타 및 아이템에 대한 NFT를 발급함으로써 유일성이 부여되어 가치가 측정되고, 가치에 따른 비용이 환급됨으로써 이익을 창출한다.
도 14를 참조하면, 상기 서버(200)는 사람 몸을 별도 객체화하고, 성별, 나이, 체형, 동양인 등의 정보를 메타 정보와 연결한다. 아이템(상품 등)을 별도 객체화하여 메타정보와 연결한다. 이때, 각 아바타 ID는 유저ID 및 아이템 ID 및 NFT ID와 연결된다.
다양한 현실의 가치 및 재화 정보는 메타 데이터 형태로 포함되어 NFT화될 수 있으며, 이는 아이템 NFT 형태로 유일성이 보장되면서 매매 및 거래가 될 수 있다. 플랫폼은 해당 NFT 소유가 현실의 가치 이용의 사용권이 될 수 있도록 보장하며, 서비스의 사용 내역 및 단계는 플랫폼 데이터베이스와 연동되어, NFT 메타 정보가 갱신되고 참조된다.
본 발명의 일 실시예에서, NFT 소유에 대한 현실의 가치는 환자의 아바타인 디지털 카데바 사용권 등이 있다.
도 20를 참조하면, 도 1의 상기 서버(200)는 실제 판매되는 제품을 메타버스 내 아이템으로 생성할 수 있고, 현실에서 실제 제품을 구매할 수 있도록 인스트럭션을 제공할 수 있다.
본 발명의 일 실시예에서, 본 발명의 서비스를 이용하는 인플루언서(2001)는 본인의 아바타나 본 발명의 서비스를 본인의 네트워크상의 SNS에 홍보할 수 있고, 상기 서버(200)는 네트워크상의 SNS 채널에 업로드된 홍보 관련 콘텐츠를 획득할 수 있다. 상기 서버(200)는 네트워크상의 SNS 채널을 통해 유입된 사용자를 분석할 수 있고, 분석된 결과를 기초로 네트워크상의 SNS에게 제공할 홍보비용을 정산할 수 있다. 상기 서버(200)는 각 인플루언서(2001)별로 상이한 링크를 생성하여 제공할 수 있고, 해당 링크를 통해 유입되는 사용자에 대한 보상을 인플루언서(2001)에게 제공할 수 있다. 또한, 상기 서버(200)는 사용자의 가입 여부, 아이템 구매 금액 등을 분석하여 인플루언서(2001)에게 추가 보상을 제공할 수도 있다.
본 발명의 일 실시예에서, 인플루언서(2001)는 연예인, 배우, 운동선수 등을 포함한다.
본 발명의 일 실시예에서, 메타버스 내의 땅이나 바다, 건물을 포함하는 각각의 영역에도 NFT가 부여되어, 부동산 등기부와 같은 역할을 수행하도록 한다. 사용자들은 NFT를 이용하여 각각의 영역을 거래한다.
본 발명의 일 실시예에서, 메타버스 게임에서 각 객체는 무늬, 색, 재질, 디자인 등의 복합 요소로 구성될 수 있고, 상기 서버(200)는 브랜드, 상품ID, 판매자ID, 생성자ID, 광고자ID, 소유자ID 등과 메타 정보를 연동하고 NFT화한다. 또한, 상기 서버(200)는 모자, 액세서리, 의상을 별도 객체화하고, 각 객체는 사용자, 생성자, 유일성ID 혹은 대표객체ID의 메타 정보와 연결한다. 이때, 각 아이템ID는 NFT ID와 연결될 수 있다. 또한, 상기 서버(200)는 액세서리 등 사용자가 구매한 아이템에 NFT를 부여하고, 이에 기반한 거래가 메타버스 내에서 가능하도록 구성한다.
본 발명의 일 실시예에서, 상기 서버(200)는 메타버스 내에 치과 및 성형외과 및/또는 기타 상점 콘텐츠를 제공하고, 원하는 시술 혹은 수술에 대한 비용 및/또는 아이템에 대한 비용을 지급하면 GAN 및/또는 GNN을 이용하여 아바타 및/또는 디지털 카데바의 일정 부분이나 전체를 변경한다. 상기 서버(200)는 구매 완료된 아이템(예를 들어 수술장비, 수술기구, 수술 기법 등 포함)이 합성된 디지털 카데바 및 자신의 아바타 캐릭터에 NFT를 발급한다. 사용자는 해당 디지털 카데바에 대한 NFT를 발급받을 수 있으며, 이를 판매하여 수익을 얻는 것이 가능하다. 즉, 본 발명의 실시예에 따르면, GAN 및/또는 GNN을 통해 디지털 카데바에게 다양한 조합의 아이템을 적용하면서, 재미요소를 제공하고, 합성이 완료된 디지털 카데바에 대해 NFT를 발급함으로써, 유일성을 제공하며, 이를 통한 수익을 얻을 수도 있다.
본 발명의 일 실시예에서, 상기 서버(200)는 구매 완료된 아이템이 합성된 아바타에 NFT를 발급한다. 사용자는 해당 아바타에 대한 NFT를 발급받을 수 있으며, 이를 판매하여 수익을 얻는 것이 가능하다. 즉, 본 발명의 실시 예에 따르면, GAN 및/또는 GNN(1605)을 통해 아바타에게 다양한 조합의 아이템을 코디네이션 하면서, 재미요소를 제공하고, 합성이 완료된 아바타에 대해 NFT를 발급함으로써, 유일성을 제공하며, 이를 통한 수익을 얻을 수도 있다. 또한, 상기 서버(200)는 액세서리 등 사용자가 구매한 아이템에 NFT를 부여하고, 이에 기반한 거래가 메타버스 내에서 가능하도록 구성한다.
본 발명의 일 실시예에서, 상기 서버(200)는 화장해보기, 옷입어 보기, 화장스타일, 패션스타일 추천받기, 연예인의 영상에 나의 얼굴을 대입, 스타일 확인해보기 등의 서비스를 제공한다.
또한, 상기 서버(200)는 상기 로우 데이터, 상기 제 1 영상, 상기 제 2 영상, 상기 아바타 및/또는 아이템의 동작 관련 영상, 상기 제 1 로보틱스 영상, 상기 제 2 로보틱스 영상 등에 대한 라벨링 과정(예를 들어 선택라벨링 과정, 계층라벨링 과정, 시계열 분할 선택라벨링 과정, 신체부위별 선택라벨링 과정 등 포함)에서의 사용자 입력에 따른 라벨값(예를 들어 잘된 것에 대응하는 승인 라벨, 잘못된 것에 대응하는 거절 라벨 등 포함)을 근거로 사용자가 행하는 사소한 실수나 치명적인 실수에 대해 보정 및 수행 중지 경보(alert)를 제공하는 상기 영상정보에 대한 정보 발신의 단계를 수행한다.
상기 도 16을 참조하면, 상기 서버(200)는 사용자의 판단에 의한 잘된 것과 잘못된 것에 대해 선택라벨링(1604)에 따라 인공지능에게 지도학습을 한다. 또한, 상기 서버(200)는 상기 단말(100)에서 사용자가 행하는 사소한 실수나 치명적인 실수에 대해 보정 및 수행 중지 경보로 개입한다
본 발명의 일 실시예에서, 상기 영상정보는 '제2, 3, 4, …'와 같이 반복된다.
상기 영상정보는 GAN 및/또는 GNN 예측모델(1605)의 반복되는 예측값으로 '제1, 2, 3, …의 영상정보'이다.
본 발명의 일 실시예에서, 워닝 시그널(또는 경보 시그널)(warning/alert signal)을 제공하는 방식으로 인간과 집단지성 로보틱스(1803)는 상호 작용을 한다. 환자의 생명에 영향을 주는 자동화 수술 인공지능은 그것 스스로 의사를 대체하는 것이 아닌, 의사의 수술 과정에서 정교한 수술을 돕는 로봇팔 조향 장치에 햅틱 개념으로 포함되어, 잘못된 수술을 시술하려 하는 경우, 진동 등의 워닝 시그널을 줌으로 인하여, 의사와 상호 작용 및 개입할 수 있다. 해당 경보 시그널을 무시하고, 수술을 집행하는 경우에는, '해당 상황에서 그렇게 행동하는 것이 올바른 정답이다'라는 별도의 라벨 데이터로 사용될 수 있으며, 이를 통해, 가상세계의 인공지능은 실존세계의 의사의 수술에 개입하고 도움을 주면서, 그 피드백에 따라 사용자가 많아 질 수록 정교함이 배가 된다.
본 발명의 일 실시예에서, not ACCEPT 라벨 혹은 REJECT 라벨이 붙여진 동영상에서의 아바타, 인간, 로봇 등의 행위에 대해서, 인공지능은 지도학습하여 경보를 보낸다. 경보는 VR 시뮬레이터에서의 가상 수술이나 가상 운전, 비행 등에도 가능하고 실제 수술이나 실제 운전, 비행 등에서도 가능하다.
본 발명의 일 실시예에서, 경보는 영상정보, 음성정보, 햅틱디바이스 등을 통해서도 가능하다.
본 발명의 일 실시예에서, 외과의사가 위암수술을 하는 경우에 실수가 있다면 동영상에 REJECT 라벨을 붙인다. 인공지능은 이에 대해 지도학습을 하게 된다. 인공지능 의사로봇이 위암수술을 보조하는 경우, 가상 수술게임 및/또는 실제의 위암수술에서 의사의 잘못된 수술 동작을 감지하여 경보를 보낸다.
본 발명의 일 실시예에서, 사용자가 가상의 전쟁게임의 전투기 조정에서 전투기를 조정하는 경우 및/또는 적기에 의해 격추되는 경우에, 사용자가 이 동영상에 ACCEPT 혹은 REJECT 라벨을 붙인다면 인공지능은 이에 대해 지도학습을 하게 되고 실제 전투기 조종사의 비행전투에서 잘못된 조정을 감지하여 경보를 보낸다.
예를 들면, VR 트레드밀의 가상의 경찰 게임에서 사용자(도둑 역할)가 물건을 훔치거나 범죄를 저지르는 행위에 대해 REJECT 라벨을 붙인다면, 인공지능은 이를 지도학습하게 되고, 실제 경비 시스템에서 도둑의 행위를 감지하여 경보를 보낸다.
또한, 상기 영상정보에 대한 정보 발신의 단계는 사용자가 행하는 실수에 대해 보정 동작을 하거나 및 로봇 스스로 자율동작을 하는 단계일 수 있다.
즉, 도 18 내지 도 19의 집단지성 로보틱스(1803)는 로보틱스 선택라벨링(1810)된 시각데이터에 대해 지도학습하고, 인공지능 로봇은 스스로 동작한다. 단말(100)에서 사용자가 행하는 실수에 대해 보정 동작을 하거나 및 자율동작을 수행한다.
본 발명의 일 실시예에서, 상기 로보틱스 영상정보는 '제2, 3, 4, …'와 같이 반복된다.
상기 영상정보는 GAN 및/또는 GNN 로보틱스 예측모델의 반복되는 예측값으로 '제1, 2, 3, …의 로보틱스 영상정보'이다.
본 발명의 일 실시예에서, ACCEPT 라벨 혹은 REJECT 라벨 혹은 not ACCEPT 라벨 혹은 not REJECT 라벨이 붙은 정보는 인공지능이 사용자에게 경보를 하는데 사용되고, 발생한 문제를 해결하거나 회피하기 위해 인공지능 스스로 동작하는데 사용된다. 집단지성 로보틱스(1803)의 자율동작은 VR 시뮬레이터에서도 가능하고 실제 현실에서도 가능하다.
본 발명의 일 실시예에서, 가상의 수술이나 각종 드론(VEHICLE)의 자율운전, 자율비행 혹은 휴머노이드 로봇의 자율동작 등에서도 가능하다.
본 발명의 일 실시예에서, 고도화된 수술 의료인공지능은 인공 카데바 및 실제 환자에 대해 로봇팔을 사용하여 수술(시술, 치료 등)을 하면서 의사가 행하는 사소한 실수나 치명적인 실수를 보정 및 수행 중지 Alert으로 개입함으로써 현실세계의 수술에 도움을 줄 수 있다. VR 시뮬레이터를 인공지능 로봇팔이 작동하고 작동 의사가 수술정보에 대해 라벨링을 하는 것을 보상하는 방식으로 게임화한다. 추가로 라벨링 된 수술정보에 대해서는 기존 알고리즘 모델을 추가 파인 튜닝(fine tuning)하는 방식으로 의료인공지능을 고도화한다. 궁극적으로는 인공지능 로봇팔이 실제 인체에 대해 수술을 진행하고 이에 대해 의사가 라벨링을 할 수 있다.
본 발명의 일 실시예에서, 가상의 수술 게임에서 자동 수술 로봇은 수술 VR 시뮬레이터에서의 위암수술을 할 수 있다. 시뮬레이터 상의 가상 수술에서 의사가 선택라벨링(1604)을 하면 인공지능은 이에 대해 지도학습을 하게 되고 인공지능 의사 로봇은 점차 고도화된다. 고도화된 인공지능 의사 로봇은 실제 수술을 자동으로 할 수 있게 되고 이를 의사가 다시 한번 선택라벨링을 하여 인공지능은 더욱 고도화된다. 반복되는 알고리즘으로 집단지성 로보틱스(1803)는 자율동작하는 인공지능 의사 로봇 혹은 인공지능 치과의사 로봇이 된다.
본 발명의 일 실시예에서, 가상의 전투기 비행게임에서 비히클 로봇이 전투기를 조정하여 적기를 격추하는 동영상에 사용자가 ACCEPT 버튼을 눌러 ACCEPT 라벨을 붙인다면, 인공지능은 이에 대해 지도학습을 하게 되고, 가상의 혹은 실제 전투기 조종사의 비행기 조정을 학습한다. 가상 전투기 비행게임에서 혹은 실제의 전투기 비행에서 적극적인 작동으로 회피기동이나 공격기동을 할 수 있다.
본 발명의 일 실시예에서, 가상의 자동차 조정에서 VEHICLE 로봇이 VR 시뮬레이터 상에서 자율주행을 하는 것에 대해 실제 사람이 선택라벨링(1604)을 하면, 인공지능은 이를 지도학습하게 되고, VEHICLE 로봇은 점차 고도화된다. 고도화된 로봇은 실제 주행을 자동으로 할 수 있게 되고, 이를 실제 사람이 다시 한번 로보틱스 선택라벨링(1810)을 하여 인공지능은 더욱 고도화된다.
본 발명의 일 실시예에서, VR 트레드밀의 가상의 댄스 경연에서 휴머노이드 로봇이 댄스 경연을 하는 동영상에 실제 댄스 전문가 혹은 도메인 전문가 혹은 로보틱스 개발자 혹은 사용자가 로보틱스 선택라벨링(1810)을 하면, 인공지능은 이에 대해 지도학습을 하게 되고 휴머노이드 로봇의 동작은 점차적으로 고도화된다.
상기 집단 지성을 이용한 정보 처리 시스템(10)은 외부 서버(미도시)를 더 포함할 수 있다.
상기 외부 서버는 네트워크를 통해 서비스 제공 장치인 상기 서버(200)와 연결될 수 있으며, 상기 서버(200)가 GAN 및/또는 GNN을 이용한 가상 아바타의 생성 및/또는 출력 플랫폼 제공 방법을 수행하기 위한 각종 정보를 저장 및 관리한다.
또한, 상기 외부 서버는 상기 서버(200)가 GAN 및/또는 GNN을 이용한 가상 아바타의 생성 및/또는 출력 플랫폼 제공 방법을 수행함에 따라, 생성 및/또는 출력되는 각종 정보 및 데이터를 제공받아 저장한다.
본 발명의 일 실시예에서, 상기 외부 서버는 상기 서버(200) 외부에 별도로 구비되는 저장 서버이다.
도 21은 본 발명의 실시예에 따른 GNN 및/또는 GAN을 이용한 가상 아바타 및 아이템의 생성 및/또는 출력 플랫폼 제공 방법을 나타내는 흐름도이다.
도 21을 참조하면, 상기 서버(200)는 사용자로부터 사용자 정보를 획득하고(S2110), 획득된 사용자 정보를 기초로, 가상의 아바타를 GAN에 의해 생성하거나 GNN에 의해 출력하고(S2120), 상기 아바타를 메타버스 상에 제공하고(S2130), 상기 아바타를 이용한 메타버스 게임 등을 진행한다(S2140).
본 발명의 일 실시예에서, 상기 서버(200)는 메타버스 국가 플랫폼에서 할 수 있는 게임의 아바타를 제작한다. 재판게임, 경찰게임, 소방관게임, 예술품 창작 게임, 농업게임, 무역게임, 토지개발 게임, 건축게임, 금융투자게임, 에너지 발전 게임, 국가기관 운영게임, 전쟁 및 전투 게임, 슈팅 게임, 전략 게임, 아케이드 게임, 스포츠 게임, 오디션 게임 등이 메타버스 국가 내에서 일어날 수 있는 경쟁 게임의 일부이고 디지털 카데바는 아바타의 일종이다.
이와 같이, 본 발명에 의하면, 메타버스 게임에서 사용자에게는 화장품, 패션 아이템 및 의류를 나의 얼굴 및 몸에 대입 및 다양한 조합으로 생성 및 합성해보는 서비스를 제공할 수 있다.
또한, 본 발명에 의하면, 아이템을 제공하는 기업에는 마케팅 광고 플랫폼 및 온라인 구매 연결 플랫폼을 제공할 수 있으며, 인플루언서에게는 자신의 다양한 이미지 및 영상을 SNS를 경유하여 구매로 유도하고, 이를 트래킹하는 일련의 마케팅 활동을 수익으로 환원해 주는 플랫폼을 제공할 수 있다.
도 21에서 컴퓨터 프로그램은 사용자로부터 사용자 정보를 획득하는 단계(S2110)와, 획득된 사용자 정보를 기초로, 가상의 아바타 및 아이템을 생성하거나 출력하는 단계(S2120)와, 상기 아바타를 메타버스 상에 제공하는 단계(S2130)와, 상기 아바타를 이용한 가상 게임 등을 진행하는 단계(S2140)를 포함하는 가상 아바타의 생성 및/또는 출력에 관한 플랫폼 제공 방법을 수행하도록 하는 하나 이상의 인스트럭션을 포함한다.
도 21을 참조하면, 상기 서버(200)는 사용자로부터 사용자 정보를 획득한다(S2110). 사용자 정보는 성별, 나이, 체형, 인종, 사용자의 얼굴 이미지 등을 포함하나, 이에 한정되는 것은 아니다. 상기 서버(200)는 획득된 사용자 정보를 기초로 가상의 아바타 및 아이템을 생성 혹은 출력한다(S2120). 상기 서버(200)는 아바타를 메타버스 상에 제공하고(S2130), 게임 서버(미도시) 등과 연동하여 아바타를 이용해 각종 게임을 진행한다(S2140).
이와 같이, 사용자로부터 제공되는 특정 콘텐츠와 관련한 하나 이상의 로우 데이터에 대해서 라벨링을 수행하고, 라벨링된 로우 데이터에 대해서 미리 설정된 분류 모델 및 예측 모델을 통해 학습 기능을 수행하고, 예측 모델의 출력값인 제 1 영상에 대해서 추가 라벨링을 수행하고, 추가 라벨링된 제 1 영상에 대해서 분류 모델 및 예측 모델을 통해 추가 학습 기능을 수행하여 제 2 영상을 출력할 수 있다.
또한, 이와 같이, 실제 인간, 가상의 아바타나 아이템 등의 동작 관련 영상을 로봇 동작 영상으로 재구성하고, 재구성된 로봇 동작 영상에 대해서 라벨링을 수행하고, 라벨링된 로봇 동작 영상에 대해서 미리 설정된 분류 모델 및 예측 모델을 통해 학습 기능을 수행하고, 학습 기능 수행 결과인 제 1 로보틱스 영상에 대해서 추가 라벨링을 수행하고, 추가 라벨링된 제 1 로보틱스 영상에 대해서 분류 모델 및 예측 모델을 통해 추가 학습 기능을 수행하여 제 2 로보틱스 영상을 출력할 수 있다.
이하에서는, 본 발명에 따른 집단 지성을 이용한 정보 처리 방법을 도 1 내지 도 32를 참조하여 상세히 설명한다.
도 22는 본 발명의 제 1 실시예에 따른 집단 지성을 이용한 정보 처리 방법을 나타낸 흐름도이다.
먼저, 단말(100)은 하나 이상의 시각 세트 장치(미도시)와 연동하여, 특정 주제와 관련해서, 하나 이상의 로우 데이터, 해당 로우 데이터와 관련한 메타 정보, 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보 등을 수집한다. 여기서, 상기 시각 세트 장치는 카메라부, 라이다, 아이트래커, 모션 캡처 및 모션트래커, 의료장비(예를 들어 CT, 스캐너, MRI, 의료용 초음파 등) 등을 포함한다. 또한, 상기 특정 주제(또는 특정 콘텐츠)는 의료 행위(예를 들어 시술, 수술 등 포함), 댄스, 운동 종목(예를 들어 축구, 농구, 탁구 등 포함), 게임, 이-스포츠(e-sport) 등을 포함한다. 또한, 상기 로우 데이터(raw data)(또는 원본 데이터/소스 데이터/시각 데이터/실제 현실의 영상)는 실제 현실에서 획득되는(또는 수집되는/촬영되는/측정되는) 시퀀셜 정지영상(또는 복수의 시퀀셜 정지영상), 동영상, 측정값 등을 포함한다. 여기서, 상기 측정값은 상기 라이다, 상기 아이트래커, 상기 모션 캡처 및 모션트래커, 상기 의료장비 등을 통해 측정되는 영상 정보(또는 3차원 데이터) 등을 포함한다.
또한, 상기 단말(100)은 상기 수집된 특정 주제와 관련한 하나 이상의 로우 데이터, 해당 로우 데이터와 관련한 메타 정보, 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보, 단말(100)의 식별 정보 등을 서버(200)에 전송한다. 여기서, 상기 단말(100)의 식별 정보는 MDN, 모바일 IP, 모바일 MAC, Sim 카드 고유정보, 시리얼번호 등을 포함한다.
일 예로, 제 1 단말(100)은 제 1 치과 병원에 설치된 시각 세트 장치에 포함된 제 1 카메라부와 연동하여, 제 1 치과 의사의 제 1 수술(예를 들어 임플란트 수술)과 관련한 제 1 로우 데이터, 상기 제 1 로우 데이터와 관련한 메타 정보, 상기 제 1 수술과 관련한 제 1 비교 대상 영상, 상기 제 1 비교 대상 영상과 관련한 메타 정보 등을 수집한다.
또한, 상기 제 1 단말은 상기 수집된 제 1 치과 의사의 제 1 수술(예를 들어 임플란트 수술)과 관련한 제 1 로우 데이터, 상기 제 1 로우 데이터와 관련한 메타 정보, 상기 제 1 수술과 관련한 제 1 비교 대상 영상, 상기 제 1 비교 대상 영상과 관련한 메타 정보, 상기 제 1 단말의 식별 정보 등을 상기 서버(200)에 전송한다.
다른 일 예로, 제 2 단말(100)은 제 2 댄스 학원에 설치된 시각 세트 장치에 포함된 제 2 카메라부와 연동하여, 홍길동이 블랙핑크의 제니 춤 동작을 따라하는 커버 댄스(cover dance)와 관련한 제 2 로우 데이터, 상기 제 2 로우 데이터와 관련한 메타 정보, 상기 커버 댄스와 관련한 제 2 비교 대상 영상, 상기 제 2 비교 대상 영상과 관련한 메타 정보 등을 수집한다. 로우 데이터가 로봇 동작 영상일 경우, 홍길동은 로봇이 되고 블랙핑크의 제니 춤을 추는 동작은 로봇 동작에 대한 정답 데이터가 된다. 로봇 동작 영상을 평가하고 라벨링을 하는 전문댄서는 로봇 동작에 대한 평가를 내릴 수 있는 전문가(예시, 로봇 엔지니어)일 수 있다.
또한, 상기 제 2 단말은 상기 수집된 홍길동이 블랙핑크의 제니 춤 동작을 따라하는 커버 댄스와 관련한 제 2 로우 데이터, 상기 제 2 로우 데이터와 관련한 메타 정보, 상기 커버 댄스와 관련한 제 2 비교 대상 영상, 상기 제 2 비교 대상 영상과 관련한 메타 정보, 상기 제 2 단말의 식별 정보 등을 상기 서버(200)에 전송한다(S2210).
이후, 상기 서버(200)는 상기 단말(100)로부터 전송되는 하나 이상의 로우 데이터, 해당 로우 데이터와 관련한 메타 정보, 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보, 단말(100)의 식별 정보 등을 수신한다.
또한, 상기 서버(200)는 상기 수신된 하나 이상의 로우 데이터를 대상으로 선택라벨링을 수행한다. 여기서, 상기 선택라벨링(또는 선택레이블링)은 상기 로우 데이터의 특정 시점(또는 특정 구간)에서의 오류(또는 이상) 유무에 대한 라벨(label)(또는 라벨값)을 설정하는(또는 붙이는) 라벨링 방법을 나타낸다. 이때, 상기 로우 데이터 중에서 상기 선택라벨링에 따라 라벨(또는 라벨값)이 설정되지 않은 시점(또는 구간)은 미리 설정된 디폴트 라벨값(예를 들어 승인 라벨)이 설정될 수 있다.
즉, 상기 서버(200)는 상기 단말(100)과 연동하여, 해당 단말(100)에 표시되는 로우 데이터에 대해서, 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 해당 로우 데이터 중 특정 시점(또는 특정 구간)에서의 라벨(또는 라벨값)을 설정(또는 수신/입력)한다.
이때, 상기 단말(100)은 해당 단말(100)에 미리 설치된 전용 앱을 실행하고, 전용 앱 실행에 따른 앱 실행 결과 화면을 표시한다. 여기서, 상기 앱 실행 결과 화면은 특정 주제와 관련한 하나 이상의 로우 데이터, 해당 로우 데이터와 관련한 메타 정보 등을 수집하기 위한 수집 메뉴(또는 버튼/항목), 수집된 정보나 상기 서버(200)로부터 제공되는 정보를 표시하기 위한 보기 메뉴, 환경 설정을 위한 설정 메뉴 등을 포함한다. 이때, 상기 단말(100)은 해당 전용 앱을 제공하는 상기 서버(200)에 회원 가입한 상태로, 회원 가입에 따른 아이디 및 비밀번호, 상기 아이디를 포함하는 바코드 또는 QR 코드 등을 이용해서 상기 전용 앱 실행 시 로그인 절차를 수행하여, 해당 전용 앱의 하나 이상의 기능(예를 들어 로우 데이터 수집 기능, 정보/영상에 대한 계층라벨링 기능, 정보/영상에 대한 선택라벨링 기능, 정보/영상에 대한 시계열 분할 선택라벨링 기능, 정보/영상에 대한 신체부위별 선택라벨링 기능 등 포함)을 수행할 수 있다.
또한, 상기 단말(100)에 표시되는 앱 실행 결과 화면에서 미리 설정된 보기 메뉴가 선택되는 경우, 상기 단말(100)은 수집된 정보나 상기 서버(200)로부터 제공되는 정보를 표시하기 위해서, 상기 선택된 보기 메뉴에 대응하는 보기 화면을 표시한다. 여기서, 상기 보기 화면은 상기 로우 데이터나 생성된 영상을 표시하기 위한 영상 표시 영역, 상기 비교 대상 영상을 표시하기 위한 비교 대상 영상 표시 영역, 계층라벨링을 위해 변수값(또는 라벨값)을 선택하기 위한 계층라벨 입력 메뉴, 선택라벨링을 위해 설정값을 선택하기 위한 선택라벨 입력 메뉴, 동영상에 대한 재생/일시정지/멈춤 기능 등을 제공하기 위한 재생바 등을 포함한다.
또한, 상기 단말(100)에 표시되는 앱 실행 결과 화면 내의 보기 화면에 포함된 재생바가 선택되는 경우 또는 해당 보기 화면 내의 재생 버튼이 선택되는 경우, 상기 단말(100)은 상기 수집된 로우 데이터를 상기 영상 표시 영역에 표시(또는 출력)하고, 상기 수집된 로우 데이터에 대응하는 비교 대상 영상(또는 상기 서버(200)로부터 제공받은 해당 로우 데이터에 대응하는 비교 대상 영상)을 상기 비교 대상 영상 표시 영역에 표시(또는 출력)한다. 이때, 상기 단말(100)은 상기 로우 데이터 및 상기 비교 대상 영상에 각각 대응하는 메타 정보를 근거로 해당 로우 데이터 및 상기 비교 대상 영상에 대해 동기화를 수행하여, 동기화된 로우 데이터 및 비교 대상 영상을 상기 영상 표시 영역 및 상기 비교 대상 영상 표시 영역에 각각 표시할 수 있다.
또한, 상기 단말(100)은 상기 단말(100)의 영상 표시 영역에 표시되는 로우 데이터에 대해서 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 특정 시점(또는 특정 구간)에서의 해당 로우 데이터에 포함된 객체의 움직임(또는 객체의 행위)에 대한 잘된 행위 또는 잘못된 행위에 대해 라벨(또는 라벨값)을 설정(또는 수신/입력)한다.
즉, 상기 단말(100)은 상기 영상 표시 영역에 표시되는 로우 데이터의 하나 이상의 특정 시점에서 사용자 입력에 따라 잘된 행위에 대한 라벨값(예를 들어 미리 설정된 승인/승낙/ACCEPT 라벨) 또는 잘못된 행위에 대한 라벨값(예를 들어 미리 설정된 거절/REJECT 라벨)을 각각 입력받는다.
이와 같이, 상기 단말(100)은 해당 특정 주제와 관련한 로우 데이터에 대해서, 해당 특정 주제와 관련한 전문가인 해당 단말(100)의 사용자 입력에 따라, 하나 이상의 특정 시점(또는 특정 구간)에서 하나 이상의 선택라벨(또는 선택라벨값)을 각각 설정(또는 수신/입력)한다.
또한, 상기 단말(100)은 상기 로우 데이터와 관련한 하나 이상의 특징 시점(또는 특정 구간)에서의 하나 이상의 선택라벨값, 해당 로우 데이터의 메타 정보, 해당 단말(100)의 식별 정보 등을 상기 서버(200)에 전송한다.
또한, 상기 서버(200)는 상기 단말(100)로부터 전송되는 상기 로우 데이터와 관련한 하나 이상의 특징 시점(또는 특정 구간)에서의 하나 이상의 선택라벨값, 해당 로우 데이터의 메타 정보, 해당 단말(100)의 식별 정보 등을 수신한다.
이때, 해당 하나 이상의 로우 데이터를 대상으로 선택라벨링을 수행하기 이전에 또는 수행한 이후에, 상기 서버(200)는 상기 단말(100)과 연동하여, 해당 하나 이상의 로우 데이터를 대상으로 계층라벨링을 수행하고, 계층라벨링 수행 전/후로 해당 하나 이상의 로우 데이터를 대상으로 선택라벨링을 수행할 수도 있다. 여기서, 상기 계층라벨링(또는 계층레이블링)은 사용자에 의한 입력 피처 엔지니어링(input feature engineering)으로, 해당 로우 데이터에 대한 특징을 나타내는 라벨(또는 라벨값)을 붙이고, 해당 로우 데이터를 특징에 따라 복수의 서브 로우 데이터로 분할(또는 분류)하는 라벨링 방법을 나타낸다.
즉, 상기 서버(200)는 상기 단말(100)과 연동하여, 해당 단말(100)에 표시되는 로우 데이터에 대해서, 해당 특정 주제와 관련해서 미리 설정된 복수의 라벨 분류를 참조하여(또는 근거로), 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 해당 로우 데이터 중 다른 특정 시점(또는 다른 특정 구간)에서의 라벨(또는 라벨값)을 설정(또는 수신/입력)한다.
일 예로, 상기 제 1 단말은 해당 제 1 단말에 미리 설치된 닥터다비드 앱을 실행하고, 닥터다비드 앱 실행 결과 화면을 표시한다. 이때, 상기 제 1 단말의 제 1 치과 의사는 제 1 아이디와 제 1 비밀번호를 이용해서 해당 닥터다비드 앱에 로그인한 상태일 수 있다.
또한, 상기 닥터다비드 앱 실행 결과 화면 중에서 보기 메뉴가 선택될 때, 도 23에 도시된 바와 같이, 상기 제 1 단말은 상기 선택된 보기 메뉴에 대응하는 보기 화면(2300)을 표시한다.
또한, 상기 보기 화면(2300) 내의 재생바(2310)가 선택될 때, 도 24에 도시된 바와 같이, 상기 제 1 단말은 상기 영상 표시 영역(2410)에 상기 수집된 제 1 로우 데이터를 출력하고, 상기 비교 대상 영상 표시 영역(2420)에 상기 수집된 제 1 비교 대상 영상을 출력한다. 이때, 상기 제 1 단말은 상기 제 1 로우 데이터와 상기 제 1 비교 대상 영상을 동기화한 상태에서 출력한다.
또한, 상기 제 1 단말은 미리 설정된 앞선 [표 1] 내지 [표 4]에 따른 라벨 분류를 참조하여, 상기 출력되는 제 1 로우 데이터에 대해서 해당 제 1 수술(예를 들어 임플란트 수술)과 관련해서 해당 제 1 단말의 제 1 치과 의사 입력에 따라, 상기 제 1 로우 데이터에 대한 제 1-1 계층 라벨값(예를 들어 S1에 대응하는 치과 임플란트 수술), 제 1-2 계층 라벨값(예를 들어 S2에 대응하는 하악 구치부 골폭이 좁은 증례), 제 1-3 계층 라벨값(예를 들어 S3에 대응하는 블록 본(block bone)을 이식한 수술) 등을 각각 수신한다.
또한, 상기 제 1 단말은 상기 제 1 로우 데이터를 미리 설정된 10초 간격으로 분할한다.
또한, 상기 제 1 단말은 상기 보기 화면(2400) 내의 상기 영상 표시 영역(2410)에 출력되는 상기 제 1 로우 데이터와 상기 비교 대상 영상 표시 영역(2420)에 출력되는 상기 제 1 비교 대상 영상에 대해서, 상기 제 1 치과 의사의 선택에 따라, 제 1-1 시점(예를 들어 1분 10초)에서의 제 1-1 Accept 라벨값, 제 1-2 구간(예를 들어 1분 45초 ~ 1분 58초)에서의 제 1-2 Reject 라벨값, 제 1-3 시점(예를 들어 2분 20초)에서의 제 1-3 Accept 라벨값 등을 각각 수신한다.
또한, 상기 제 1 단말은 상기 제 1 로우 데이터와 관련한 제 1-1 시점(예를 들어 1분 10초)에서의 제 1-1 Accept 라벨값, 제 1-2 구간(예를 들어 1분 45초 ~ 1분 58초)에서의 제 1-2 Reject 라벨값, 제 1-3 시점(예를 들어 2분 20초)에서의 제 1-3 Accept 라벨값, 상기 제 1 로우 데이터에 대한 제 1-1 계층 라벨값(예를 들어 S1에 대응하는 치과 임플란트 수술), 제 1-2 계층 라벨값(예를 들어 S2에 대응하는 하악 구치부 골폭이 좁은 증례), 제 1-3 계층 라벨값(예를 들어 S3에 대응하는 블록 본을 이식한 수술), 상기 분할에 대한 정보(예를 들어 10초 간격 분할), 상기 제 1 로우 데이터와 관련한 메타 정보, 상기 제 1 단말의 식별 정보 등을 상기 서버(200)에 전송한다.
또한, 상기 서버(200)는 상기 제 1 단말로부터 전송되는 상기 제 1 로우 데이터와 관련한 제 1-1 시점(예를 들어 1분 10초)에서의 제 1-1 Accept 라벨값, 제 1-2 구간(예를 들어 1분 45초 ~ 1분 58초)에서의 제 1-2 Reject 라벨값, 제 1-3 시점(예를 들어 2분 20초)에서의 제 1-3 Accept 라벨값, 상기 제 1 로우 데이터에 대한 제 1-1 계층 라벨값(예를 들어 S1에 대응하는 치과 임플란트 수술), 제 1-2 계층 라벨값(예를 들어 S2에 대응하는 하악 구치부 골폭이 좁은 증례), 제 1-3 계층 라벨값(예를 들어 S3에 대응하는 블록 본을 이식한 수술), 상기 분할에 대한 정보(예를 들어 10초 간격 분할), 상기 제 1 로우 데이터와 관련한 메타 정보, 상기 제 1 단말의 식별 정보 등을 수신한다.
다른 일 예로, 상기 제 2 단말은 해당 제 2 단말에 미리 설치된 닥터다비드 앱을 실행하고, 닥터다비드 앱 실행 결과 화면을 표시한다. 이때, 상기 제 2 단말의 제 2 전문 댄서는 제 2 아이디와 제 2 비밀번호를 이용해서 해당 닥터다비드 앱에 로그인한 상태일 수 있다.
또한, 상기 닥터다비드 앱 실행 결과 화면 중에서 보기 메뉴가 선택될 때, 도 25에 도시된 바와 같이, 상기 제 2 단말은 상기 선택된 보기 메뉴에 대응하는 보기 화면(2500)을 표시한다.
또한, 상기 보기 화면(2500) 내의 재생바(2510)가 선택될 때, 도 26에 도시된 바와 같이, 상기 제 2 단말은 상기 영상 표시 영역(2610)에 상기 수집된 제 2 로우 데이터를 출력하고, 상기 비교 대상 영상 표시 영역(2620)에 상기 수집된 제 2 비교 대상 영상을 출력한다. 이때, 상기 제 2 단말은 상기 제 2 로우 데이터와 상기 제 2 비교 대상 영상을 동기화한 상태에서 출력한다.
또한, 상기 제 2 단말은 미리 설정된 앞선 [표 7] 내지 [표 11]에 따른 라벨 분류를 참조하여, 상기 출력되는 제 2 로우 데이터에 대해서 해당 홍길동의 커버 댄스와 관련해서 해당 제 2 단말의 제 2 전문 댄서 입력에 따라, 상기 제 2 로우 데이터에 대한 제 2-1 계층 라벨값(예를 들어 S1에 대응하는 블랙핑크 제니), 제 2-2 계층 라벨값(예를 들어 S2에 대응하는 마지막처럼(3분 14초), 제 2-3 계층 라벨값(예를 들어 S3에 대응하는 열린 음악회 2022년 7월 8일 방송) 등을 각각 수신한다.
또한, 상기 제 2 단말은 상기 제 2 로우 데이터를 미리 설정된 3초 간격으로 분할한다.
또한, 상기 제 2 단말은 상기 보기 화면(2600) 내의 상기 영상 표시 영역(2610)에 출력되는 상기 제 2 로우 데이터와 상기 비교 대상 영상 표시 영역(2620)에 출력되는 상기 제 2 비교 대상 영상에 대해서, 상기 제 2 전문 댄서의 선택에 따라, 제 2-1 구간(예를 들어 30초 ~ 45초)에서의 제 2-1 Reject 라벨값, 제 2-2 구간(예를 들어 1분 10초 ~ 1분 20초)에서의 제 2-2 Accept 라벨값, 제 2-3 시점(예를 들어 1분 50초)에서의 제 2-3 Accept 라벨값 등을 각각 수신한다.
또한, 상기 제 2 단말은 상기 제 2 로우 데이터와 관련한 제 2-1 구간(예를 들어 30초 ~ 45초)에서의 제 2-1 Reject 라벨값, 제 2-2 구간(예를 들어 1분 10초 ~ 1분 20초)에서의 제 2-2 Accept 라벨값, 제 2-3 시점(예를 들어 1분 50초)에서의 제 2-3 Accept 라벨값, 상기 제 2 로우 데이터에 대한 제 2-1 계층 라벨값(예를 들어 S1에 대응하는 블랙핑크 제니), 제 2-2 계층 라벨값(예를 들어 S2에 대응하는 마지막처럼(3분 14초), 제 2-3 계층 라벨값(예를 들어 S3에 대응하는 열린 음악회 2022년 7월 8일 방송), 상기 분할에 대한 정보(예를 들어 3초 간격 분할), 상기 제 2 로우 데이터와 관련한 메타 정보, 상기 제 2 단말의 식별 정보 등을 상기 서버(200)에 전송한다.
또한, 상기 서버(200)는 상기 제 2 단말로부터 전송되는 상기 제 2 로우 데이터와 관련한 제 2-1 구간(예를 들어 30초 ~ 45초)에서의 제 2-1 Reject 라벨값, 제 2-2 구간(예를 들어 1분 10초 ~ 1분 20초)에서의 제 2-2 Accept 라벨값, 제 2-3 시점(예를 들어 1분 50초)에서의 제 2-3 Accept 라벨값, 상기 제 2 로우 데이터에 대한 제 2-1 계층 라벨값(예를 들어 S1에 대응하는 블랙핑크 제니), 제 2-2 계층 라벨값(예를 들어 S2에 대응하는 마지막처럼(3분 14초), 제 2-3 계층 라벨값(예를 들어 S3에 대응하는 열린 음악회 2022년 7월 8일 방송), 상기 분할에 대한 정보(예를 들어 3초 간격 분할), 상기 제 2 로우 데이터와 관련한 메타 정보, 상기 제 2 단말의 식별 정보 등을 수신한다(S2220).
이후, 상기 서버(200)는 상기 선택라벨링된 로우 데이터에 대한 정보 등을 근거로 인공지능 기반의 기계 학습을 수행하여, 기계 학습 결과를 근거로 해당 로우 데이터에 대한 분류값을 생성(또는 확인)한다. 여기서, 상기 해당 로우 데이터에 대한 분류값(또는 해당 로우 데이터의 분류값)은 선택라벨링값, 계층라벨링값 등을 동일 항목별로 분류한 값일 수 있다.
즉, 상기 서버(200)는 상기 선택라벨링된 로우 데이터에 대한 정보 등을 미리 설정된 분류 모델의 입력값으로 하여 기계 학습(또는 인공지능/딥 러닝)을 수행하고, 기계 학습 결과(또는 인공지능 결과/딥 러닝 결과)를 근거로 해당 로우 데이터에 대한 분류값을 생성(또는 확인)한다.
일 예로, 상기 서버(200)는 상기 선택라벨링된 제 1 로우 데이터에 대한 정보인 제 1-1 시점(예를 들어 1분 10초)에서의 제 1-1 Accept 라벨값, 제 1-2 구간(예를 들어 1분 45초 ~ 1분 58초)에서의 제 1-2 Reject 라벨값, 제 1-3 시점(예를 들어 2분 20초)에서의 제 1-3 Accept 라벨값 등을 상기 분류 모델의 입력값으로 하여 기계 학습을 수행하고, 기계 학습 결과를 근거로 해당 제 1 로우 데이터에 대해서 제 1-1 Accept 라벨값 및 제 1-3 Accept 라벨값과, 제 1-2 Reject 라벨값을 분류한다.
다른 일 예로, 상기 서버(200)는 상기 선택라벨링된 제 2 로우 데이터에 대한 정보인 제 2-1 구간(예를 들어 30초 ~ 45초)에서의 제 2-1 Reject 라벨값, 제 2-2 구간(예를 들어 1분 10초 ~ 1분 20초)에서의 제 2-2 Accept 라벨값, 제 2-3 시점(예를 들어 1분 50초)에서의 제 2-3 Accept 라벨값 등을 상기 분류 모델의 입력값으로 하여 기계 학습을 수행하고, 기계 학습 결과를 근거로 해당 제 2 로우 데이터에 대해서 제 2-2 Accept 라벨값 및 제 2-3 Accept 라벨값과, 제 2-1 Reject 라벨값을 분류한다(S2230).
이후, 상기 서버(200)는 상기 생성된 해당 로우 데이터에 대한 분류값(또는 해당 로우 데이터의 분류값), 상기 선택라벨링된 로우 데이터에 대한 정보, 해당 로우 데이터, 해당 로우 데이터와 관련한 메타 정보, 상기 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보 등을 입력값으로 하여 기계 학습(또는 인공지능/딥 러닝)을 수행하고, 기계 학습 결과(또는 인공지능 결과/딥 러닝 결과)를 근거로 해당 로우 데이터에 대응하는 제 1 영상을 생성한다. 이때, 상기 제 1 영상은 상기 로우 데이터를 근거로 생성되는 아바타, 아이템, 로봇 등의 동작 관련 영상, 상기 로우 데이터가 업데이트된 영상(예를 들어 상기 로우 데이터에 포함된 인간/사람의 동작/행위/행동이 업데이트된 영상) 등일 수 있다.
즉, 상기 서버(200)는 상기 생성된 해당 로우 데이터에 대한 분류값(또는 해당 로우 데이터의 분류값), 상기 선택라벨링된 로우 데이터에 대한 정보, 해당 로우 데이터, 해당 로우 데이터와 관련한 메타 정보, 상기 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보 등을 미리 설정된 예측 모델의 입력값으로 하여 기계 학습(또는 인공지능/딥 러닝)을 수행하고, 기계 학습 결과(또는 인공지능 결과/딥 러닝 결과)를 근거로 해당 로우 데이터와 관련한 제 1 영상을 생성한다.
또한, 상기 서버(200)는 상기 생성된 제 1 영상을 상기 단말(100)에 전송한다.
또한, 상기 단말(100)은 상기 서버(200)로부터 전송되는 상기 제 1 영상을 수신하고, 상기 출력 중인 상기 로우 데이터 대신에 상기 수신된 제 1 영상을 상기 영상 표시 영역에 출력한다. 이때, 상기 단말(100)은 상기 로우 데이터, 상기 비교 대상 영상 및 상기 제 1 영상을 동기화한 상태에서 해당 단말(100)의 화면을 분할하여 동시에 출력할 수도 있다.
일 예로, 상기 서버(200)는 상기 생성된 해당 제 1 로우 데이터에 대해서 제 1-1 Accept 라벨값 및 제 1-3 Accept 라벨값과, 제 1-2 Reject 라벨값에 대한 분류값, 상기 선택라벨링된 제 1 로우 데이터에 대한 정보인 제 1-1 시점(예를 들어 1분 10초)에서의 제 1-1 Accept 라벨값, 제 1-2 구간(예를 들어 1분 45초 ~ 1분 58초)에서의 제 1-2 Reject 라벨값, 제 1-3 시점(예를 들어 2분 20초)에서의 제 1-3 Accept 라벨값, 상기 제 1 로우 데이터, 상기 제 1 로우 데이터와 관련한 메타 정보, 상기 제 1 비교 대상 영상, 상기 제 1 비교 대상 영상과 관련한 메타 정보 등을 상기 예측 모델의 입력값으로 하여 기계 학습을 수행하고, 기계 학습 결과를 근거로 해당 제 1 로우 데이터와 관련한 제 1-1 영상을 생성한다.
또한, 상기 서버(200)는 상기 생성된 제 1-1 영상을 상기 제 1 단말에 전송한다.
또한, 상기 제 1 단말은 상기 서버(200)로부터 전송되는 제 1-1 영상을 수신하고, 상기 영상 표시 영역에 출력 중인 상기 제 1 로우 데이터를 대체하여, 상기 수신된 제 1-1 영상을 출력한다.
다른 일 예로, 상기 서버(200)는 상기 생성된 해당 제 2 로우 데이터에 대해서 제 2-2 Accept 라벨값 및 제 2-3 Accept 라벨값과, 제 2-1 Reject 라벨값에 대한 분류값, 상기 선택라벨링된 제 2 로우 데이터에 대한 정보인 제 2-1 구간(예를 들어 30초 ~ 45초)에서의 제 2-1 Reject 라벨값, 제 2-2 구간(예를 들어 1분 10초 ~ 1분 20초)에서의 제 2-2 Accept 라벨값, 제 2-3 시점(예를 들어 1분 50초)에서의 제 2-3 Accept 라벨값, 상기 제 2 로우 데이터, 상기 제 2 로우 데이터와 관련한 메타 정보, 상기 제 2 비교 대상 영상, 상기 제 2 비교 대상 영상과 관련한 메타 정보 등을 상기 예측 모델의 입력값으로 하여 기계 학습을 수행하고, 기계 학습 결과를 근거로 해당 제 2 로우 데이터와 관련한 제 1-2 영상을 생성한다.
또한, 상기 서버(200)는 상기 생성된 제 1-2 영상을 상기 제 2 단말에 전송한다.
또한, 상기 제 2 단말은 상기 서버(200)로부터 전송되는 제 1-2 영상을 수신하고, 상기 영상 표시 영역에 출력 중인 상기 제 2 로우 데이터를 대신하여, 상기 수신된 제 1-2 영상을 출력한다(S2240).
이후, 상기 서버(200)는 상기 제 1 영상을 대상으로 추가 선택라벨링을 수행한다. 여기서, 상기 추가 선택라벨링(또는 추가 선택레이블링)은 상기 제 1 영상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 오류(또는 이상) 유무에 대한 라벨(또는 라벨값)을 설정하는(또는 붙이는) 라벨링 방법을 나타낸다. 이때, 상기 제 1 영상 중에서 상기 추가 선택라벨링에 따라 라벨(또는 라벨값)이 설정되지 않은 시점(또는 구간)은 미리 설정된 디폴트 라벨값(예를 들어 승인 라벨)이 설정될 수 있다.
즉, 상기 서버(200)는 상기 단말(100)과 연동하여, 해당 단말(100)에 표시되는 제 1 영상에 대해서, 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 해당 제 1 영상 중 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 라벨(또는 라벨값)을 설정(또는 수신/입력)한다.
이때, 상기 단말(100)에 표시되는 앱 실행 결과 화면 내의 보기 화면에 포함된 재생바가 선택되는 경우 또는 해당 보기 화면 내의 재생 버튼이 선택되는 경우, 상기 단말(100)은 상기 제 1 영상을 상기 영상 표시 영역에 표시(또는 출력)하고, 상기 로우 데이터(또는 상기 제 1 영상)에 대응하는 비교 대상 영상(또는 상기 서버(200)로부터 제공받은 해당 로우 데이터/제 1 영상에 대응하는 비교 대상 영상)을 상기 비교 대상 영상 표시 영역에 표시(또는 출력)한다. 이때, 상기 단말(100)은 상기 제 1 영상 및 상기 비교 대상 영상에 각각 대응하는 메타 정보를 근거로 해당 제 1 영상 및 상기 비교 대상 영상에 대해 동기화를 수행하여, 동기화된 제 1 영상 및 비교 대상 영상을 상기 영상 표시 영역 및 상기 비교 대상 영상 표시 영역에 각각 표시할 수 있다.
또한, 상기 단말(100)은 상기 단말(100)의 영상 표시 영역에 표시되는 제 1 영상에 대해서 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 해당 제 1 영상에 포함된 객체(또는 아바타)의 움직임(또는 객체/아바타의 행위)에 대한 잘된 행위 또는 잘못된 행위에 대해 라벨(또는 라벨값)을 설정(또는 수신/입력)한다.
즉, 상기 단말(100)은 상기 영상 표시 영역에 표시되는 제 1 영상의 하나 이상의 또 다른 특정 시점에서 사용자 입력에 따라 잘된 행위에 대한 라벨값(예를 들어 미리 설정된 승인/승낙/ACCEPT 라벨) 또는 잘못된 행위에 대한 라벨값(예를 들어 미리 설정된 거절/REJECT 라벨)을 각각 입력받는다.
이와 같이, 상기 단말(100)은 해당 특정 주제와 관련해서 생성된 제 1 영상에 대해서, 해당 특정 주제와 관련한 전문가인 해당 단말(100)의 사용자 입력에 따라, 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서 하나 이상의 추가 선택라벨(또는 추가 선택라벨값)을 각각 설정(또는 수신/입력)한다.
이때, 상기 단말(100)은 해당 단말(100)의 사용자 입력에 따라 시계열 분할 선택라벨링 기능 또는 신체부위별 선택라벨링 기능을 수행한다.
상기 단말(100)은 다음의 과정을 통해 시계열 분할 선택라벨링 기능을 수행한다.
즉, 상기 단말(100)은 상기 제 1 영상을 분할한 복수의 서브 영상에 대해서, 사용자 입력에 따라 각각의 서브 영상의 분할 상태가 잘된 상태(또는 잘된 행위)에 대한 라벨값(예를 들어 미리 설정된 승인/승낙/ACCEPT 라벨) 또는 잘못된 상태(또는 잘못된 행위)에 대한 라벨값(예를 들어 미리 설정된 거절/REJECT 라벨)을 각각 입력받고, 해당 복수의 서브 영상의 순서를 정렬하기 위해서 사용자 입력에 따라 해당 복수의 서브 영상의 순서를 나타내는 라벨값(또는 분할 시점이 잘못되거나 조정이 필요한 경우 분할 시점을 조정하기 위한 라벨값)을 입력받는다. 상기 신체부위별 선택은 생략될 수 있다. 여기서, 상기 제 1 영상에 대한 복수의 서브 영상으로의 분할은 상기 로우 데이터에 대한 계층라벨링 기능 수행에 따라 복수로 분할된 서브 로우 데이터에 대한 정보를 근거로 상기 제 1 영상을 상기 복수의 서브 영상으로 분할한 상태이거나 또는, 상기 서버(200)에서의 상기 로우 데이터에 대한 인공지능 기능이나 영상 분석 기능 수행에 따라 상기 제 1 영상을 상기 복수의 서브 영상으로 분할한 상태일 수 있다.
이에 따라, 상기 단말(100)은 상기 제 1 영상을 대상으로 해당 단말(100)의 사용자 입력에 따라, 복수의 서브 영상의 분할 상태가 잘된 상태와 분할 상태가 잘못된 상태에 대한 라벨값을 각각 입력받고, 해당 복수의 서브 영상에 대한 순서를 정렬하기 위한 라벨값(또는 해당 복수의 서브 영상의 순서를 나타내는 라벨값/분할 시점이 잘못되거나 조정이 필요한 경우 분할 시점을 조정하기 위한 라벨값)을 각각 입력받는다.
또한, 상기 단말(100)은 다음의 과정을 통해 신체부위별 선택라벨링 기능을 수행한다.
즉, 상기 단말은 상기 제 1 영상을 분할한 복수의 서브 영상에 포함된 아바타(또는 객체)에 대해서, 사용자 입력에 따라 상기 복수의 서브 영상에 포함된 아바타(또는 객체)의 동작 순서에 대한 라벨값(또는 해당 아바타의 동작 순서의 잘된 상태 또는 잘못된 상태에 대한 라벨값)을 각각 입력받고, 해당 복수의 서브 영상에 포함된 아바타(또는 객체)의 동작에서 신체부위별로 동작 순서를 정렬하기 위해서 사용자 입력에 따라 해당 복수의 서브 영상의 순서를 나타내는 라벨값(또는 아바타가 포함된 서브 영상의 순서를 조정하기 위한 라벨값)을 입력받는다. 여기서, 상기 제 1 영상에 대한 복수의 서브 영상으로의 분할은 상기 로우 데이터에 대한 계층라벨링 기능 수행에 따라 복수로 분할된 서브 로우 데이터에 대한 정보를 근거로 상기 제 1 영상을 상기 복수의 서브 영상으로 분할한 상태이거나 또는, 상기 서버(200)에서의 상기 로우 데이터에 대한 인공지능 기능이나 영상 분석 기능 수행에 따라 상기 제 1 영상을 상기 복수의 서브 영상으로 분할한 상태일 수 있다.
이에 따라, 상기 단말(100)은 상기 제 1 영상을 대상으로 해당 단말(100)의 사용자 입력에 따라, 복수의 서브 영상에 포함된 아바타(또는 객체)의 동작 순서에 대한 라벨값(또는 해당 아바타의 동작 순서의 잘된 상태 또는 잘못된 상태에 대한 라벨값)을 각각 입력받고, 해당 복수의 서브 영상에 대한 순서(또는 해당 복수의 서브 영상에 포함된 아바타의 동작 순서)를 정렬하기 위한 라벨값(또는 해당 복수의 서브 영상의 순서를 나타내는 라벨값/아바타가 포함된 서브 영상의 순서를 조정하기 위한 라벨값)을 각각 입력받는다.
또한, 상기 단말(100)은 상기 제 1 영상과 관련한 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 하나 이상의 추가 선택라벨값, 하나 이상의 시계열 분할 선택라벨값, 하나 이상의 신체부위별 선택라벨값, 복수의 서브 영상의 순서를 정렬하기 위한 라벨값, 해당 단말(100)의 식별 정보 등을 상기 서버(200)에 전송한다.
또한, 상기 서버(200)는 상기 단말(100)로부터 전송되는 상기 제 1 영상과 관련한 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 하나 이상의 추가 선택라벨값, 하나 이상의 시계열 분할 선택라벨값, 하나 이상의 신체부위별 선택라벨값, 복수의 서브 영상의 순서를 정렬하기 위한 라벨값, 해당 단말(100)의 식별 정보 등을 수신한다.
일 예로, 상기 제 1 단말의 보기 화면 내의 재생바가 선택될 때, 도 27에 도시된 바와 같이, 상기 제 1 단말은 상기 영상 표시 영역(2710)에 상기 제 1-1 영상을 출력하고, 상기 비교 대상 영상 표시 영역(2720)에 상기 제 1 비교 대상 영상을 출력한다. 이때, 상기 제 1 단말은 상기 제 1-1 영상과 상기 제 1 비교 대상 영상을 동기화한 상태에서 출력한다. 여기서, 상기 비교 대상 영상 표시 영역(2720, 2820)에 출력되는 제 1 비교 대상 영상 및 제 2 비교 대상 영상은 아바타 동작에 관한 라벨 분류로 앞선 [표 1] 내지 [표 11]가 영상으로 출력된 것이다.
또한, 상기 제 1 단말은 미리 설정된 앞선 [표 12]에 따른 라벨 분류를 참조하여, 상기 출력되는 제 1-1 영상에 대해서 해당 제 1 수술(예를 들어 임플란트 수술)에서의 세부 동작인 상막 중절치 라미네이트 치료를 위한 11번 치아 삭제 방법과 관련해서 해당 제 1 단말의 제 1 치과 의사 입력에 따라, 상기 제 1-1 영상을 2초 ~ 4초 단위의 복수의 구간인 제 1-1-1 구간 내지 제 1-1-10 구간으로 분할하고, 상기 분할된 제 1-1-1 구간 내지 제 1-1-10 구간 각각에 대한 제 1-1-1 라벨값 내지 제 1-1-10 라벨값을 각각 수신한다.
또한, 상기 제 1 단말은 상기 제 1-1-1 구간 내지 제 1-1-10 구간에 대해서, 해당 제 1 단말의 제 1 치과 의사 입력에 따라, 순서를 정렬하기 위한 라벨값(예를 들어 제 1-1-1 구간, 제 1-1-2 구간, 제 1-1-3 구간, 제 1-1-6 구간, 제 1-1-7 구간, 제 1-1-8 구간, 제 1-1-4 구간, 제 1-1-5 구간, 제 1-1-9 구간 및 제 1-1-10 구간으로 정렬하기 위한 라벨값)을 각각 수신한다.
또한, 상기 제 1 단말은 상기 제 1-1 영상과 관련한 상기 제 1-1-1 구간 내지 상기 제 1-1-10 구간 각각에 대한 상기 제 1-1-1 라벨값 내지 상기 제 1-1-10 라벨값, 상기 순서를 정렬하기 위한 라벨값(예를 들어 제 1-1-1 구간, 제 1-1-2 구간, 제 1-1-3 구간, 제 1-1-6 구간, 제 1-1-7 구간, 제 1-1-8 구간, 제 1-1-4 구간, 제 1-1-5 구간, 제 1-1-9 구간 및 제 1-1-10 구간으로 정렬하기 위한 라벨값), 상기 제 1 단말의 식별 정보 등을 상기 서버(200)에 전송한다.
또한, 상기 서버(200)는 상기 제 1 단말로부터 전송되는 상기 제 1-1 영상과 관련한 상기 제 1-1-1 구간 내지 상기 제 1-1-10 구간 각각에 대한 상기 제 1-1-1 라벨값 내지 상기 제 1-1-10 라벨값, 상기 순서를 정렬하기 위한 라벨값(예를 들어 제 1-1-1 구간, 제 1-1-2 구간, 제 1-1-3 구간, 제 1-1-6 구간, 제 1-1-7 구간, 제 1-1-8 구간, 제 1-1-4 구간, 제 1-1-5 구간, 제 1-1-9 구간 및 제 1-1-10 구간으로 정렬하기 위한 라벨값), 상기 제 1 단말의 식별 정보 등을 수신한다.
다른 일 예로, 상기 제 2 단말의 보기 화면 내의 재생바가 선택될 때, 도 28에 도시된 바와 같이, 상기 제 2 단말은 상기 영상 표시 영역(2810)에 상기 제 1-2 영상을 출력하고, 상기 비교 대상 영상 표시 영역(2820)에 상기 제 2 비교 대상 영상을 출력한다. 이때, 상기 제 2 단말은 상기 제 1-2 영상과 상기 제 2 비교 대상 영상을 동기화한 상태에서 출력한다.
또한, 상기 제 2 단말은 미리 설정된 앞선 [표 11]에 따른 라벨 분류를 참조하여, 상기 출력되는 제 1-2 영상에 대해서 해당 홍길동이 블랙핑크의 제니 춤 동작을 따라하는 커버 댄스와 관련해서, 상기 제 2 단말의 제 2 전문 댄서 입력에 따라, 상기 제 1-2 영상을 블랙핑크의 제니가 앞/뒤 웨이브할 때 가장 많이 움직이는 신체 부위의 순서에 따라 2초 ~ 4초 단위의 복수의 구간인 제 1-2-1 구간 내지 제 1-2-20 구간으로 분할하고, 상기 분할된 제 1-2-1 구간 내지 제 1-2-20 구간 각각에 대한 제 1-2-1 라벨값 내지 제 1-2-20 라벨값을 각각 수신한다.
또한, 상기 제 2 단말은 상기 제 1-2-1 구간 내지 제 1-2-20 구간에 대해서, 해당 제 2 단말의 제 2 전문 댄서 입력에 따라, 순서를 정렬하기 위한 라벨값(예를 들어 제 1-2-1 구간 내지 제 1-2-7 구간, 제 1-2-13 구간 내지 제 1-2-17 구간, 제 1-2-8 구간 내지 제 1-2-10 구간, 제 1-2-18 구간 내지 제 1-2-20 구간 및 제 1-2-11 구간 내지 제 1-2-12 구간으로 정렬하기 위한 라벨값)을 각각 수신한다.
또한, 상기 제 2 단말은 상기 제 1-2 영상과 관련한 상기 제 1-2-1 구간 내지 상기 제 1-2-20 구간 각에 대한 제 1-2-1 라벨값 내지 제 1-2-20 라벨값, 상기 순서를 정렬하기 위한 라벨값(예를 들어 제 1-2-1 구간 내지 제 1-2-7 구간, 제 1-2-13 구간 내지 제 1-2-17 구간, 제 1-2-8 구간 내지 제 1-2-10 구간, 제 1-2-18 구간 내지 제 1-2-20 구간 및 제 1-2-11 구간 내지 제 1-2-12 구간으로 정렬하기 위한 라벨값), 상기 제 2 단말의 식별 정보 등을 상기 서버(200)에 전송한다.
또한, 상기 서버(200)는 상기 제 2 단말로부터 전송되는 데이터 셋인 상기 제 1-2 영상과 관련한 상기 제 1-2-1 구간 내지 상기 제 1-2-20 구간 각에 대한 제 1-2-1 라벨값 내지 제 1-2-20 라벨값, 상기 순서를 정렬하기 위한 라벨(예를 들어 제 1-2-1 구간 내지 제 1-2-7 구간, 제 1-2-13 구간 내지 제 1-2-17 구간, 제 1-2-8 구간 내지 제 1-2-10 구간, 제 1-2-18 구간 내지 제 1-2-20 구간 및 제 1-2-2 구간 내지 제 1-2-12 구간으로 정렬하기 위한 라벨), 상기 제 2 단말의 식별 정보 등을 수신한다(S2250).
이후, 상기 서버(200)는 상기 추가 선택라벨링된 제 1 영상에 대한 정보 등을 근거로 인공지능 기반의 다른 기계 학습을 수행하여, 다른 기계 학습 결과를 근거로 해당 제 1 영상에 대한 분류값을 생성(또는 확인)한다. 여기서, 상기 해당 제 1 영상에 대한 분류값(또는 해당 제 1 영상의 분류값)은 추가 선택라벨링값, 추가 계층라벨링값 등을 동일 항목별로 분류한 값일 수 있다.
즉, 상기 서버(200)는 상기 추가 선택라벨링된 제 1 영상에 대한 정보 등을 상기 미리 설정된 분류 모델의 입력값으로 하여 다른 기계 학습(또는 다른 인공지능/다른 딥 러닝)을 수행하고, 다른 기계 학습 결과(또는 다른 인공지능 결과/다른 딥 러닝 결과)를 근거로 해당 제 1 영상에 대한 분류값을 생성(또는 확인)한다.
일 예로, 상기 서버(200)는 상기 추가 선택라벨링된 제 1-1 영상에 대한 정보인 상기 제 1-1-1 구간 내지 상기 제 1-1-10 구간 각각에 대한 상기 제 1-1-1 라벨값 내지 상기 제 1-1-10 라벨값을 상기 분류 모델의 입력값으로 하여 다른 기계 학습을 수행하고, 다른 기계 학습 결과를 근거로 해당 제 1-1 영상에 대해서 Accept 라벨인 제 1-1-1 라벨값 내지 제 1-1-7 라벨값 및 제 1-1-10 라벨값과, Reject 라벨인 제 1-1-8 라벨값 내지 제 1-1-9 라벨값을 분류한다.
다른 일 예로, 상기 서버(200)는 상기 추가 선택라벨링된 제 1-2 영상에 대한 정보인 상기 제 1-2-1 구간 내지 상기 제 1-2-20 구간 각에 대한 제 1-2-1 라벨값 내지 제 1-2-20 라벨값을 상기 분류 모델의 입력값으로 하여 다른 기계 학습을 수행하고, 다른 기계 학습 결과를 근거로 해당 제 1-2 영상에 대해서 Accept 라벨인 제 1-2-1 라벨값 내지 제 1-2-8 라벨값, 제 1-2-12 라벨값 내지 제 1-2-20 라벨값과, Reject 라벨인 제 1-2-9 라벨값 내지 제 1-2-11 라벨값을 분류한다(S2260).
이후, 상기 서버(200)는 상기 생성된 해당 제 1 영상에 대한 분류값(또는 해당 제 1 영상의 분류값), 상기 추가 선택라벨링된 제 1 영상에 대한 정보, 해당 제 1 영상, 해당 제 1 영상과 관련한 메타 정보, 상기 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보 등을 입력값으로 하여 다른 기계 학습(또는 다른 인공지능/다른 딥 러닝)을 수행하고, 다른 기계 학습 결과(또는 다른 인공지능 결과/다른 딥 러닝 결과)를 근거로 해당 제 1 영상에 대응하는 제 2 영상을 생성한다. 이때, 상기 제 2 영상은 상기 제 1 영상을 근거로 생성되는 아바타, 아이템, 로봇 등의 동작 관련 영상, 상기 제 1 영상이 업데이트된 영상 등일 수 있다.
즉, 상기 서버(200)는 상기 생성된 해당 제 1 영상에 대한 분류값(또는 해당 제 1 영상의 분류값), 상기 추가 선택라벨링된 제 1 영상에 대한 정보, 해당 제 1 영상, 해당 제 1 영상과 관련한 메타 정보, 상기 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보 등을 상기 미리 설정된 예측 모델의 입력값으로 하여 다른 기계 학습(또는 다른 인공지능/다른 딥 러닝)을 수행하고, 다른 기계 학습 결과(또는 다른 인공지능 결과/다른 딥 러닝 결과)를 근거로 해당 제 1 영상과 관련한 제 2 영상을 생성한다.
또한, 상기 서버(200)는 상기 생성된 제 2 영상을 상기 단말(100)에 전송한다.
또한, 상기 단말(100)은 상기 서버(200)로부터 전송되는 상기 제 2 영상을 수신하고, 상기 출력 중인 상기 제 1 영상 대신에 상기 수신된 제 2 영상을 상기 영상 표시 영역에 출력한다. 이때, 상기 단말(100)은 상기 로우 데이터, 상기 비교 대상 영상, 상기 제 1 영상 및 상기 제 2 영상을 동기화한 상태에서 해당 단말(100)의 화면을 분할하여 동시에 출력할 수도 있다.
일 예로, 상기 서버(200)는 상기 생성된 해당 제 1-1 영상에 대해서 Accept 라벨인 제 1-1-1 라벨값 내지 제 1-1-7 라벨값 및 제 1-1-10 라벨값과, Reject 라벨인 제 1-1-8 라벨값 내지 제 1-1-9 라벨값에 대한 분류값, 상기 추가 선택라벨링된 제 1-1 영상에 대한 정보인 상기 제 1-1-1 구간 내지 상기 제 1-1-10 구간 각각에 대한 상기 제 1-1-1 라벨값 내지 상기 제 1-1-10 라벨값, 상기 순서를 정렬하기 위한 라벨값(예를 들어 제 1-1-1 구간, 제 1-1-2 구간, 제 1-1-3 구간, 제 1-1-6 구간, 제 1-1-7 구간, 제 1-1-8 구간, 제 1-1-4 구간, 제 1-1-5 구간, 제 1-1-9 구간 및 제 1-1-10 구간으로 정렬하기 위한 라벨값), 상기 제 1-1 영상, 상기 제 1-1 영상과 관련한 메타 정보, 상기 제 1 비교 대상 영상, 상기 제 1 비교 대상 영상과 관련한 메타 정보 등을 상기 예측 모델의 입력값으로 하여 다른 기계 학습을 수행하고, 다른 기계 학습 결과를 근거로 해당 제 1-1 영상과 관련한 제 2-1 영상을 생성한다.
또한, 상기 서버(200)는 상기 생성된 제 2-1 영상을 상기 제 1 단말에 전송한다.
또한, 상기 제 1 단말은 상기 서버(200)로부터 전송되는 제 2-1 영상을 수신하고, 상기 영상 표시 영역에 출력 중인 상기 제 1-1 영상을 대신하여, 상기 수신된 제 2-1 영상을 출력한다.
다른 일 예로, 상기 서버(200)는 상기 생성된 해당 제 1-2 영상에 대해서 Accept 라벨인 제 1-2-1 라벨값 내지 제 1-2-8 라벨값, 제 1-2-12 라벨값 내지 제 1-2-20 라벨값과, Reject 라벨인 제 1-2-9 라벨값 내지 제 1-2-11 라벨값에 대한 분류값, 상기 추가 선택라벨링된 제 1-2 영상에 대한 정보인 상기 제 1-2-1 구간 내지 상기 제 1-2-20 구간 각에 대한 제 1-2-1 라벨값 내지 제 1-2-20 라벨값, 상기 순서를 정렬하기 위한 라벨값(예를 들어 제 1-2-1 구간 내지 제 1-2-7 구간, 제 1-2-13 구간 내지 제 1-2-17 구간, 제 1-2-8 구간 내지 제 1-2-10 구간, 제 1-2-18 구간 내지 제 1-2-20 구간 및 제 1-2-11 구간 내지 제 1-2-12 구간으로 정렬하기 위한 라벨값), 상기 제 1-2 영상, 상기 제 1-2 영상과 관련한 메타 정보, 상기 제 2 비교 대상 영상, 상기 제 2 비교 대상 영상과 관련한 메타 정보 등을 상기 예측 모델의 입력값으로 하여 다른 기계 학습을 수행하고, 다른 기계 학습 결과를 근거로 해당 제 1-2 영상과 관련한 제 2-2 영상을 생성한다.
또한, 상기 서버(200)는 상기 생성된 제 2-2 영상을 상기 제 2 단말에 전송한다.
또한, 상기 제 2 단말은 상기 서버(200)로부터 전송되는 제 2-2 영상을 수신하고, 상기 영상 표시 영역에 출력 중인 상기 제 1-2 영상을 대신하여, 상기 수신된 제 2-2 영상을 출력한다(S2270).
이후, 상기 서버(200)는 해당 특정 주제와 관련해서, 복수의 단말(100)로부터 제공되는 복수의 로우 데이터에 대해서, 앞선 선택라벨링 과정, 분류 모델 추론 과정, 예측 모델 추론 과정, 생성된 제 1 영상에 대한 추가 선택라벨링 과정, 추가 분류 모델 추론 과정, 추가 예측 모델 추론 과정(예를 들어 앞선 S2210 단계 ~ S2270 단계)을 각각 반복 수행하여, 해당 특정 주제와 관련해서(또는 해당 특정 주제와 관련한 비교 대상 영상과 관련해서) 집단 지성화된 제 2 영상을 생성(또는 업데이트)한다.
이때, 상기 서버(200)는 해당 특정 주제와 관련해서 로우 데이터를 제공한 복수의 단말(100)에 마지막으로 업데이트된(또는 최신으로 생성된) 제 2 영상을 실시간 또는 특정 단말(100)의 요청에 따라 제공할 수도 있다.
이에 따라, 해당 특정 주제와 관련한 로우 데이터를 상기 서버(200)에 제공한 모든 단말(100) 또는 특정 단말(100)은 해당 특정 주제와 관련해서 최신의 집단 지성화된 제 2 영상을 제공받을 수 있다.
일 예로, 상기 서버(200)는 상기 제 1 단말 이외에 제 101 단말(100) 내지 제 200 단말(100)로부터 각각 제공되는 상기 제 1 수술(예를 들어 임플란트 수술)과 관련한 제 101 로우 데이터 내지 제 200 로우 데이터 각각에 대해서, 앞선 선택라벨링 과정, 분류 모델 추론 과정, 예측 모델 추론 과정, 생성된 제 1 영상에 대한 추가 선택라벨링 과정, 추가 분류 모델 추론 과정, 추가 예측 모델 추론 과정을 각각 수행하여, 해당 제 1 수술과 관련해서 집단 지성화된 제 2 영상을 업데이트한다(S2280).
도 29는 본 발명의 제 2 실시예에 따른 집단 지성을 이용한 정보 처리 방법을 나타낸 흐름도이다.
먼저, 서버(200)는 단말(100)과 연동하여, 특정 주제와 관련해서, 상기 단말(100)에서 출력되는(또는 관리 중인) 실제 인간, 가상의 아바타나 아이템 등의 동작 관련 영상(또는 인간, 아바타 및 아이템 중 적어도 하나와 관련한 동작 관련 영상), 해당 동작 관련 영상과 관련한 메타 정보 등을 수집한다. 여기서, 상기 특정 주제(또는 특정 콘텐츠)는 의료 행위(예를 들어 시술, 수술 등 포함), 댄스, 운동 종목(예를 들어 축구, 농구, 탁구 등 포함), 게임, 이-스포츠 등을 포함한다. 또한, 상기 인간과 관련한 동작 관련 영상은 실제 인간(또는 사람/인플루언서)이 상기 특정 주제와 관련해서 수행 중인 행동(또는 동작/행위)를 획득한(또는 촬영한) 영상일 수 있다. 또한, 상기 아바타 및/또는 아이템의 동작 관련 영상은 해당 특정 주제와 관련한 임의의 로우 데이터를 근거로 선택라벨링 과정, 분류 모델 추론 과정, 예측 모델 추론 과정 등을 통해 생성된 영상일 수 있다.
일 예로, 상기 서버(200)는 제 3 단말(100)과 연동하여, 해당 제 3 단말에서 출력되는 제 3 아바타의 동작과 관련한 제 3 동작 관련 영상, 상기 제 3 동작 관련 영상과 관련한 메타 정보 등을 수집한다(S2910).
이후, 상기 서버(200)는 상기 수집된 동작 관련 영상을 실제 로봇의 동작으로 구현하기 위해서, 상기 수집된 동작 관련 영상(또는 상기 수집된 실제 인간, 가상의 아바타나 아이템 등의 동작 관련 영상)을 로봇 동작 영상으로 재구성한다. 여기서, 상기 로봇은 치아삭제 VR 시뮬레이터의 시각데이터를 이용하여 치아삭제 VR 시뮬레이터에서 작동할 수 있는 형태로 제작한 로봇팔, 수술 VR 시뮬레이터의 시각데이터를 이용하여 수술 VR 시뮬레이터에서 작동할 수 있는 형태로 제작한 로봇팔, VEHICLE VR 시뮬레이터의 시각데이터를 이용하여 VEHICLE 형태로 제작한 로봇, VR 트레드밀에서 작동할 수 있는 휴머노이드 로봇을 포함한다.
즉, 상기 서버(200)는 상기 수집된 동작 관련 영상, 상기 동작 관련 영상과 관련한 메타 정보 등을 근거로 해당 실제 인간, 가상의 아바타나 아이템 등의 동작을 실제 로봇에 적용하기 위해서 해당 동작 관련 영상에 포함된 실제 인간, 가상의 아바타나 아이템 등과 관련한 좌표 정보를 상기 실제 로봇에 적용하기 위한 로봇 좌표 정보로 변환하여, 해당 동작 관련 영상을 상기 로봇 동작 영상(또는 기초 로보틱스 영상)으로 재구성한다.
또한, 상기 서버(200)는 상기 로봇 동작 영상(또는 재구성된 로봇 동작 영상), 해당 로봇 동작 영상에 대한 메타 정보, 상기 수집된 동작 관련 영상, 상기 동작 관련 영상과 관련한 메타 정보, 상기 서버(200)에서 관리 중인 복수의 비교 대상 영상 중에서 상기 수집된 동작 관련 영상(또는 로봇 동작 영상)과 관련해서 검색된 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보 등을 상기 서버(200)에 미리 등록된 복수의 단말(100) 중에서 선택된 특정 단말(100)에 전송한다.
또한, 상기 특정 단말(100)은 상기 서버(200)로부터 전송되는 상기 로봇 동작 영상, 해당 로봇 동작 영상에 대한 메타 정보, 상기 동작 관련 영상, 상기 동작 관련 영상과 관련한 메타 정보, 상기 동작 관련 영상(또는 로봇 동작 영상)에 대응하는 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보 등을 수신한다.
일 예로, 상기 서버(200)는 상기 수집된 제 3 아바타의 동작과 관련한 제 3 동작 관련 영상, 상기 제 3 동작 관련 영상과 관련한 메타 정보 등을 근거로 해당 제 3 아바타의 동작을 인공관절 수술용 로봇에 적용하기 위해서 상기 제 3 동작 관련 영상을 제 3 로봇 동작 영상으로 재구성한다.
또한, 상기 서버(200)는 상기 재구성된 제 3 로봇 동작 영상, 상기 제 3 로봇 동작 영상과 관련한 메타 정보, 상기 수집된 제 3 아바타의 동작과 관련한 제 3 동작 관련 영상, 상기 제 3 동작 관련 영상과 관련한 메타 정보, 상기 제 3 동작 관련 영상에 대응하는 제 3 비교 대상 영상, 상기 제 3 비교 대상 영상과 관련한 메타 정보 등을 상기 서버(200)에 미리 등록된 복수의 단말(100) 중에서 선택된 제 4 단말(100)에 전송한다.
또한, 상기 제 4 단말은 상기 서버(200)로부터 전송되는 상기 제 3 로봇 동작 영상, 상기 제 3 로봇 동작 영상과 관련한 메타 정보, 상기 제 3 아바타의 동작과 관련한 제 3 동작 관련 영상, 상기 제 3 동작 관련 영상과 관련한 메타 정보, 상기 제 3 동작 관련 영상에 대응하는 제 3 비교 대상 영상, 상기 제 3 비교 대상 영상과 관련한 메타 정보 등을 수신한다(S2920).
이후, 상기 서버(200)는 상기 로봇 동작 영상을 대상으로 선택라벨링을 수행한다. 여기서, 상기 선택라벨링(또는 선택레이블링)은 상기 로봇 동작 영상의 특정 시점(또는 특정 구간)에서의 오류(또는 이상) 유무에 대한 라벨(또는 라벨값)을 설정하는(또는 붙이는) 라벨링 방법을 나타낸다. 이때, 상기 로봇 동작 영상 중에서 상기 선택라벨링에 따라 라벨(또는 라벨값)이 설정되지 않은 시점(또는 구간)은 미리 설정된 디폴트 라벨값(예를 들어 승인 라벨)이 설정될 수 있다.
즉, 상기 서버(200)는 상기 단말(100)과 연동하여, 해당 단말(100)에 표시되는 로봇 동작 영상에 대해서, 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 해당 로봇 동작 영상 중 특정 시점(또는 특정 구간)에서의 라벨(또는 라벨값)을 설정(또는 수신/입력)한다.
이때, 상기 단말(100)은 해당 단말(100)에 미리 설치된 전용 앱을 실행하고, 전용 앱 실행에 따른 앱 실행 결과 화면을 표시한다. 여기서, 상기 앱 실행 결과 화면은 특정 주제와 관련한 하나 이상의 로우 데이터, 해당 로우 데이터와 관련한 메타 정보 등을 수집하기 위한 수집 메뉴(또는 버튼/항목), 수집된 정보나 상기 서버(200)로부터 제공되는 정보를 표시하기 위한 보기 메뉴, 환경 설정을 위한 설정 메뉴 등을 포함한다. 이때, 상기 단말(100)은 해당 전용 앱을 제공하는 상기 서버(200)에 회원 가입한 상태로, 회원 가입에 따른 아이디 및 비밀번호, 상기 아이디를 포함하는 바코드 또는 QR 코드 등을 이용해서 상기 전용 앱 실행 시 로그인 절차를 수행하여, 해당 전용 앱의 하나 이상의 기능(예를 들어 로우 데이터 수집 기능, 정보/영상에 대한 계층라벨링 기능, 정보/영상에 대한 선택라벨링 기능, 정보/영상에 대한 시계열 분할 선택라벨링 기능, 정보/영상에 대한 신체부위별 선택라벨링 기능 등 포함)을 수행할 수 있다.
또한, 상기 단말(100)에 표시되는 앱 실행 결과 화면에서 미리 설정된 보기 메뉴가 선택되는 경우, 상기 단말(100)은 수집된 정보나 상기 서버(200)로부터 제공되는 정보를 표시하기 위해서, 상기 선택된 보기 메뉴에 대응하는 보기 화면을 표시한다. 여기서, 상기 보기 화면은 상기 로우 데이터나 생성된 영상을 표시하기 위한 영상 표시 영역, 상기 비교 대상 영상을 표시하기 위한 비교 대상 영상 표시 영역, 계층라벨링을 위해 변수값(또는 라벨값)을 선택하기 위한 계층라벨 입력 메뉴, 선택라벨링을 위해 설정값을 선택하기 위한 선택라벨 입력 메뉴, 동영상에 대한 재생/일시정지/멈춤 기능 등을 제공하기 위한 재생바 등을 포함한다.
또한, 상기 단말(100)에 표시되는 앱 실행 결과 화면 내의 보기 화면에 포함된 재생바가 선택되는 경우 또는 해당 보기 화면 내의 재생 버튼이 선택되는 경우, 상기 단말(100)은 상기 로봇 동작 영상을 상기 영상 표시 영역에 표시(또는 출력)하고, 상기 로봇 동작 영상에 대응하는 비교 대상 영상(또는 상기 서버(200)로부터 제공받은 해당 로봇 동작 영상에 대응하는 비교 대상 영상)을 상기 비교 대상 영상 표시 영역에 표시(또는 출력)한다. 이때, 상기 단말(100)은 상기 로봇 동작 영상 및 상기 비교 대상 영상에 각각 대응하는 메타 정보를 근거로 해당 로봇 동작 영상 및 상기 비교 대상 영상에 대해 동기화를 수행하여, 동기화된 로봇 동작 영상 및 비교 대상 영상을 상기 영상 표시 영역 및 상기 비교 대상 영상 표시 영역에 각각 표시할 수 있다.
또한, 상기 단말(100)은 상기 단말(100)의 영상 표시 영역에 표시되는 로봇 동작 영상에 대해서 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 특정 시점(또는 특정 구간)에서의 해당 로봇 동작 영상에 포함된 객체의 움직임(또는 객체의 행위)에 대한 잘된 행위 또는 잘못된 행위에 대해 라벨(또는 라벨값)을 설정(또는 수신/입력)한다.
즉, 상기 단말(100)은 상기 영상 표시 영역에 표시되는 로봇 동작 영상의 하나 이상의 특정 시점에서 사용자 입력에 따라 잘된 행위에 대한 라벨값(예를 들어 미리 설정된 승인/승낙/ACCEPT 라벨) 또는 잘못된 행위에 대한 라벨값(예를 들어 미리 설정된 거절/REJECT 라벨)을 각각 입력받는다.
이와 같이, 상기 단말(100)은 해당 특정 주제와 관련한 로봇 동작 영상에 대해서, 해당 특정 주제와 관련한 전문가인 해당 단말(100)의 사용자 입력에 따라, 하나 이상의 특정 시점(또는 특정 구간)에서 하나 이상의 선택라벨(또는 선택라벨값)을 각각 설정(또는 수신/입력)한다.
또한, 상기 단말(100)은 상기 로봇 동작 영상과 관련한 하나 이상의 특징 시점(또는 특정 구간)에서의 하나 이상의 선택라벨값, 해당 로봇 동작 영상의 메타 정보, 해당 단말(100)의 식별 정보 등을 상기 서버(200)에 전송한다.
또한, 상기 서버(200)는 상기 단말(100)로부터 전송되는 상기 로봇 동작 영상과 관련한 하나 이상의 특징 시점(또는 특정 구간)에서의 하나 이상의 선택라벨값, 해당 로봇 동작 영상의 메타 정보, 해당 단말(100)의 식별 정보 등을 수신한다.
일 예로, 상기 제 4 단말은 해당 제 4 단말에 미리 설치된 닥터다비드 앱을 실행하고, 닥터다비드 앱 실행 결과 화면을 표시한다. 이때, 상기 제 4 단말의 제 4 외과 수술 전문의사는 제 4 아이디와 제 4 비밀번호를 이용해서 해당 닥터다비드 앱에 로그인한 상태일 수 있다.
또한, 상기 닥터다비드 앱 실행 결과 화면 중에서 보기 메뉴가 선택될 때, 도 30에 도시된 바와 같이, 상기 제 4 단말은 상기 선택된 보기 메뉴에 대응하는 보기 화면(3000)을 표시한다.
또한, 상기 보기 화면(3000) 내의 재생바(3010)가 선택될 때, 도 31에 도시된 바와 같이, 상기 제 4 단말은 상기 영상 표시 영역(3110)에 상기 제 3 로봇 동작 영상을 출력하고, 상기 비교 대상 영상 표시 영역(3120)에 상기 제 3 로봇 동작 영상과 관련한 제 3 비교 대상 영상을 출력한다. 이때, 상기 제 4 단말은 상기 제 3 로봇 동작 영상과 상기 제 3 비교 대상 영상을 동기화한 상태에서 출력한다. 여기서, 상기 제 3 비교 대상 영상은 로봇동작에 관한 라벨 분류로 [표 1] 내지 [표 11]과 유사한 방식으로 제작되고 로봇 동작에 대한 정답 데이터 셋이며 영상으로 출력된다.
또한, 상기 제 4 단말은 미리 설정된 복수의 라벨 분류를 참조하여, 상기 출력되는 제 3 로봇 동작 영상에 대해서 해당 인공관절 수술과 관련해서 해당 제 4 단말의 제 4 외과 수술 전문의사 입력에 따라, 상기 제 3 로봇 동작 영상에 대한 제 3-1 계층 라벨값(예를 들어 S1에 대응하는 인공관절 수술), 제 3-2 계층 라벨값(예를 들어 S2에 대응하는 우측 무릎 관절), 제 3-3 계층 라벨값(예를 들어 S3에 대응하는 부분 치환술) 등을 각각 수신한다.
또한, 상기 제 4 단말은 상기 제 3 로봇 동작 영상을 미리 설정된 5초 간격으로 분할한다.
또한, 상기 제 4 단말은 상기 보기 화면(3100) 내의 상기 영상 표시 영역(3110)에 출력되는 상기 제 3 로봇 동작 영상과 상기 비교 대상 영상 표시 영역(3120)에 출력되는 상기 제 3 비교 대상 영상에 대해서, 상기 제 4 외과 수술 전문의사의 선택에 따라, 제 3-1 시점(예를 들어 35초)에서의 제 3-1 Reject 라벨값, 제 3-2 구간(예를 들어 1분 10초 ~ 1분 30초)에서의 제 3-2 Accept 라벨값, 제 3-3 구간(예를 들어 1분 35초 ~ 1분 50초)에서의 제 3-3 Accept 라벨값, 제 3-4 구간(예를 들어 2분 5초 ~ 2분 25초)에서의 제 3-4 Accept 라벨값 등을 각각 수신한다.
또한, 상기 제 4 단말은 상기 제 3 로봇 동작 영상과 관련한 제 3-1 시점(예를 들어 35초)에서의 제 3-1 Reject 라벨값, 제 3-2 구간(예를 들어 1분 10초 ~ 1분 30초)에서의 제 3-2 Accept 라벨값, 제 3-3 구간(예를 들어 1분 35초 ~ 1분 50초)에서의 제 3-3 Accept 라벨값, 제 3-4 구간(예를 들어 2분 5초 ~ 2분 25초)에서의 제 3-4 Accept 라벨값, 상기 제 3 로봇 동작 영상에 대한 제 3-1 계층 라벨값(예를 들어 S1에 대응하는 인공관절 수술), 제 3-2 계층 라벨값(예를 들어 S2에 대응하는 우측 무릎 관절), 제 3-3 계층 라벨값(예를 들어 S3에 대응하는 부분 치환술), 상기 분할에 대한 정보(예를 들어 5초 간격 분할), 상기 제 4 단말의 식별 정보 등을 상기 서버(200)에 전송한다.
또한, 상기 서버(200)는 상기 제 4 단말로부터 전송되는 상기 제 3 로봇 동작 영상과 관련한 제 3-1 시점(예를 들어 35초)에서의 제 3-1 Reject 라벨값, 제 3-2 구간(예를 들어 1분 10초 ~ 1분 30초)에서의 제 3-2 Accept 라벨값, 제 3-3 구간(예를 들어 1분 35초 ~ 1분 50초)에서의 제 3-3 Accept 라벨값, 제 3-4 구간(예를 들어 2분 5초 ~ 2분 25초)에서의 제 3-4 Accept 라벨값, 상기 제 3 로봇 동작 영상에 대한 제 3-1 계층 라벨값(예를 들어 S1에 대응하는 인공관절 수술), 제 3-2 계층 라벨값(예를 들어 S2에 대응하는 우측 무릎 관절), 제 3-3 계층 라벨값(예를 들어 S3에 대응하는 부분 치환술), 상기 분할에 대한 정보(예를 들어 5초 간격 분할), 상기 제 4 단말의 식별 정보 등을 수신한다(S2930).
이후, 상기 서버(200)는 상기 선택라벨링된 로봇 동작 영상에 대한 정보 등을 근거로 인공지능 기반의 기계 학습을 수행하여, 기계 학습 결과를 근거로 해당 로봇 동작 영상에 대한 분류값을 생성(또는 확인)한다. 여기서, 상기 해당 로봇 동작 영상에 대한 분류값(또는 해당 로봇 동작 영상의 분류값)은 선택라벨링값, 계층라벨링값 등을 동일 항목별로 분류한 값일 수 있다.
즉, 상기 서버(200)는 상기 선택라벨링된 로봇 동작 영상에 대한 정보 등을 미리 설정된 분류 모델의 입력값으로 하여 기계 학습(또는 인공지능/딥 러닝)을 수행하고, 기계 학습 결과(또는 인공지능 결과/딥 러닝 결과)를 근거로 해당 로봇 동작 영상에 대한 분류값을 생성(또는 확인)한다.
일 예로, 상기 서버(200)는 상기 선택라벨링된 제 3 로봇 동작 영상에 대한 정보인 제 3-1 시점(예를 들어 35초)에서의 제 3-1 Reject 라벨값, 제 3-2 구간(예를 들어 1분 10초 ~ 1분 30초)에서의 제 3-2 Accept 라벨값, 제 3-3 구간(예를 들어 1분 35초 ~ 1분 50초)에서의 제 3-3 Accept 라벨값, 제 3-4 구간(예를 들어 2분 5초 ~ 2분 25초)에서의 제 3-4 Accept 라벨값 등을 상기 분류 모델의 입력값으로 하여 기계 학습을 수행하고, 기계 학습 결과를 근거로 해당 제 3 로봇 동작 영상에 대해서 제 3-2 Accept 라벨값, 제 3-3 Accept 라벨값 및 제 3-4 Accept 라벨값과, 제 3-1 Reject 라벨값을 분류한다(S2940).
이후, 상기 서버(200)는 상기 생성된 해당 로봇 동작 영상에 대한 분류값(또는 해당 로봇 동작 영상의 분류값), 상기 선택라벨링된 로봇 동작 영상에 대한 정보, 해당 로봇 동작 영상, 해당 로봇 동작 영상과 관련한 메타 정보, 상기 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보 등을 입력값으로 하여 기계 학습(또는 인공지능/딥 러닝)을 수행하고, 기계 학습 결과(또는 인공지능 결과/딥 러닝 결과)를 근거로 해당 로봇 동작 영상에 대응하는 제 1 로보틱스 영상을 생성한다. 이때, 상기 제 1 로보틱스 영상은 상기 로봇 동작 영상을 근거로 생성되는 아바타, 아이템, 로봇 등의 동작 관련 영상, 상기 로봇 동작 영상이 업데이트된 영상 등일 수 있다.
즉, 상기 서버(200)는 상기 생성된 해당 로봇 동작 영상에 대한 분류값(또는 해당 로봇 동작 영상의 분류값), 상기 선택라벨링된 로봇 동작 영상에 대한 정보, 해당 로봇 동작 영상, 해당 로봇 동작 영상과 관련한 메타 정보, 상기 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보 등을 미리 설정된 예측 모델의 입력값으로 하여 기계 학습(또는 인공지능/딥 러닝)을 수행하고, 기계 학습 결과(또는 인공지능 결과/딥 러닝 결과)를 근거로 해당 로봇 동작 영상과 관련한 제 1 로보틱스 영상을 생성한다.
또한, 상기 서버(200)는 상기 생성된 제 1 로보틱스 영상을 상기 단말(100)에 전송한다.
또한, 상기 단말(100)은 상기 서버(200)로부터 전송되는 상기 제 1 로보틱스 영상을 수신하고, 상기 출력 중인 상기 로봇 동작 영상 대신에 상기 수신된 제 1 로보틱스 영상을 상기 영상 표시 영역에 출력한다. 이때, 상기 단말(100)은 상기 로봇 동작 영상, 상기 비교 대상 영상 및 상기 제 1 로보틱스 영상을 동기화한 상태에서 해당 단말(100)의 화면을 분할하여 동시에 출력할 수도 있다.
일 예로, 상기 서버(200)는 상기 생성된 해당 제 3 로봇 동작 영상에 대해서 제 3-2 Accept 라벨값, 제 3-3 Accept 라벨값 및 제 3-4 Accept 라벨값과, 제 3-1 Reject 라벨값에 대한 분류값, 상기 선택라벨링된 제 3 로봇 동작 영상에 대한 정보인 제 3-1 시점(예를 들어 35초)에서의 제 3-1 Reject 라벨값, 제 3-2 구간(예를 들어 1분 10초 ~ 1분 30초)에서의 제 3-2 Accept 라벨값, 제 3-3 구간(예를 들어 1분 35초 ~ 1분 50초)에서의 제 3-3 Accept 라벨값, 제 3-4 구간(예를 들어 2분 5초 ~ 2분 25초)에서의 제 3-4 Accept 라벨값, 상기 제 3 로봇 동작 영상, 상기 제 3 로봇 동작 영상과 관련한 메타 정보, 상기 제 3 비교 대상 영상, 상기 제 3 비교 대상 영상과 관련한 메타 정보 등을 상기 예측 모델의 입력값으로 하여 기계 학습을 수행하고, 기계 학습 결과를 근거로 해당 제 3 로봇 동작 영상과 관련한 제 1-3 로보틱스 영상을 생성한다.
또한, 상기 서버(200)는 상기 생성된 제 1-3 로보틱스 영상을 상기 제 4 단말에 전송한다.
또한, 상기 제 4 단말은 상기 서버(200)로부터 전송되는 제 1-3 로보틱스 영상을 수신하고, 상기 영상 표시 영역에 출력 중인 상기 제 3 로봇 동작 영상을 대체하여, 상기 수신된 제 1-3 로보틱스 영상을 출력한다(S2950).
이후, 상기 서버(200)는 상기 제 1 로보틱스 영상을 대상으로 추가 선택라벨링을 수행한다. 여기서, 상기 추가 선택라벨링(또는 추가 선택레이블링)은 상기 제 1 로보틱스 영상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 오류(또는 이상) 유무에 대한 라벨(또는 라벨값)을 설정하는(또는 붙이는) 라벨링 방법을 나타낸다. 이때, 상기 제 1 로보틱스 영상 중에서 상기 추가 선택라벨링에 따라 라벨(또는 라벨값)이 설정되지 않은 시점(또는 구간)은 미리 설정된 디폴트 라벨값(예를 들어 승인 라벨)이 설정될 수 있다.
즉, 상기 서버(200)는 상기 단말(100)과 연동하여, 해당 단말(100)에 표시되는 제 1 로보틱스 영상에 대해서, 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 해당 제 1 로보틱스 영상 중 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 라벨(또는 라벨값)을 설정(또는 수신/입력)한다.
이때, 상기 단말(100)에 표시되는 앱 실행 결과 화면 내의 보기 화면에 포함된 재생바가 선택되는 경우 또는 해당 보기 화면 내의 재생 버튼이 선택되는 경우, 상기 단말(100)은 상기 제 1 로보틱스 영상을 상기 영상 표시 영역에 표시(또는 출력)하고, 상기 로봇 동작 영상(또는 상기 제 1 로보틱스 영상)에 대응하는 비교 대상 영상(또는 상기 서버(200)로부터 제공받은 해당 로봇 동작 영상/제 1 로보틱스 영상에 대응하는 비교 대상 영상)을 상기 비교 대상 영상 표시 영역에 표시(또는 출력)한다. 이때, 상기 단말(100)은 상기 제 1 로보틱스 영상 및 상기 비교 대상 영상에 각각 대응하는 메타 정보를 근거로 해당 제 1 로보틱스 영상 및 상기 비교 대상 영상에 대해 동기화를 수행하여, 동기화된 제 1 로보틱스 영상 및 비교 대상 영상을 상기 영상 표시 영역 및 상기 비교 대상 영상 표시 영역에 각각 표시할 수 있다.
또한, 상기 단말(100)은 상기 단말(100)의 영상 표시 영역에 표시되는 제 1 로보틱스 영상에 대해서 해당 단말(100)의 사용자 입력(또는 사용자 선택/터치/제어)에 따라, 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 해당 제 1 로보틱스 영상에 포함된 객체(또는 아바타)의 움직임(또는 객체/아바타의 행위)에 대한 잘된 행위 또는 잘못된 행위에 대해 라벨(또는 라벨값)을 설정(또는 수신/입력)한다.
즉, 상기 단말(100)은 상기 영상 표시 영역에 표시되는 제 1 로보틱스 영상의 하나 이상의 또 다른 특정 시점에서 사용자 입력에 따라 잘된 행위에 대한 라벨값(예를 들어 미리 설정된 승인/승낙/ACCEPT 라벨) 또는 잘못된 행위에 대한 라벨값(예를 들어 미리 설정된 거절/REJECT 라벨)을 각각 입력받는다.
이와 같이, 상기 단말(100)은 해당 특정 주제와 관련해서 생성된 제 1 로보틱스 영상에 대해서, 해당 특정 주제와 관련한 전문가인 해당 단말(100)의 사용자 입력에 따라, 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서 하나 이상의 추가 선택라벨(또는 추가 선택라벨값)을 각각 설정(또는 수신/입력)한다.
이때, 상기 단말(100)은 해당 단말(100)의 사용자 입력에 따라 시계열 분할 선택라벨링 기능 또는 신체부위별 선택라벨링 기능을 수행한다.
상기 단말(100)은 다음의 과정을 통해 시계열 분할 선택라벨링 기능을 수행한다.
즉, 상기 단말(100)은 상기 제 1 로보틱스 영상을 분할한 복수의 서브 로보틱스 영상에 대해서, 사용자 입력에 따라 각각의 서브 로보틱스 영상의 분할 상태가 잘된 상태(또는 잘된 행위)에 대한 라벨값(예를 들어 미리 설정된 승인/승낙/ACCEPT 라벨) 또는 잘못된 상태(또는 잘못된 행위)에 대한 라벨값(예를 들어 미리 설정된 거절/REJECT 라벨)을 각각 입력받고, 해당 복수의 서브 로보틱스 영상의 순서를 정렬하기 위해서 사용자 입력에 따라 해당 복수의 서브 로보틱스 영상의 순서를 나타내는 라벨값(또는 분할 시점이 잘못되거나 조정이 필요한 경우 분할 시점을 조정하기 위한 라벨값)을 각각 입력받는다. 여기서, 상기 제 1 로보틱스 영상에 대한 복수의 서브 로보틱스 영상으로 분할은 상기 로봇 동작 영상에 대한 계층라벨링 기능 수행에 따라 복수로 분할된 서브 로봇 동작 영상에 대한 정보를 근거로 상기 제 1 로보틱스 영상을 상기 복수의 서브 로보틱스 영상으로 분할한 상태이거나 또는, 상기 서버(200)에서의 상기 로봇 동작 영상에 대한 인공지능 기능이나 영상 분석 기능 수행에 따라 상기 제 1 로보틱스 영상을 상기 복수의 서브 로보틱스 영상으로 분할한 상태일 수 있다.
이에 따라, 상기 단말(100)은 상기 제 1 로보틱스 영상을 대상으로 해당 단말(100)의 사용자 입력에 따라, 복수의 서브 로보틱스 영상의 분할 상태가 잘된 상태와 분할 상태가 잘못된 상태에 대한 라벨값을 각각 입력받고, 해당 복수의 서브 로보틱스 영상에 대한 순서를 정렬하기 위한 라벨값(또는 해당 복수의 서브 로보틱스 영상의 순서를 나타내는 라벨값/분할 시점이 잘못되거나 조정이 필요한 경우 분할 시점을 조정하기 위한 라벨값)을 각각 입력받는다.
또한, 상기 단말(100)은 다음의 과정을 통해 신체부위별 선택라벨링 기능을 수행한다.
즉, 상기 단말은 상기 제 1 로보틱스 영상을 분할한 복수의 로보틱스 서브 영상에 포함된 아바타(또는 객체)에 대해서, 사용자 입력에 따라 상기 복수의 서브 로보틱스 영상에 포함된 아바타(또는 객체)의 동작 순서에 대한 라벨값(또는 해당 아바타의 동작 순서의 잘된 상태 또는 잘못된 상태에 대한 라벨값)을 각각 입력받고, 해당 복수의 서브 로보틱스 영상에 포함된 아바타(또는 객체)의 동작에서 신체부위별로 동작 순서를 정렬하기 위해서 사용자 입력에 따라 해당 복수의 서브 로보틱스 영상의 순서를 나타내는 라벨값(또는 아바타가 포함된 서브 로보틱스 영상의 순서를 조정하기 위한 라벨값)을 입력받는다. 여기서, 상기 제 1 로보틱스 영상에 대한 복수의 서브 로보틱스 영상으로의 분할은 상기 로봇 동작 영상에 대한 계층라벨링 기능 수행에 따라 복수로 분할된 서브 로보틱스 데이터에 대한 정보를 근거로 상기 제 1 로보틱스 영상을 상기 복수의 서브 로보틱스 영상으로 분할한 상태이거나 또는, 상기 서버(200)에서의 상기 로봇 동작 영상에 대한 인공지능 기능이나 영상 분석 기능 수행에 따라 상기 제 1 로보틱스 영상을 상기 복수의 서브 로보틱스 영상으로 분할한 상태일 수 있다.
이에 따라, 상기 단말(100)은 상기 제 1 로보틱스 영상을 대상으로 해당 단말(100)의 사용자 입력에 따라, 복수의 서브 로보틱스 영상에 포함된 아바타(또는 객체)의 동작 순서에 대한 라벨값(또는 해당 아바타의 동작 순서의 잘된 상태 또는 잘못된 상태에 대한 라벨값)을 각각 입력받고, 해당 복수의 서브 로보틱스 영상에 대한 순서(또는 해당 복수의 서브 로보틱스 영상에 포함된 아바타의 동작 순서)를 정렬하기 위한 라벨값(또는 해당 복수의 서브 로보틱스 영상의 순서를 나타내는 라벨값/아바타가 포함된 서브 로보틱스 영상의 순서를 조정하기 위한 라벨값)을 각각 입력받는다.
또한, 상기 단말(100)은 상기 제 1 로보틱스 영상과 관련한 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 하나 이상의 추가 선택라벨값, 하나 이상의 시계열 분할 선택라벨값, 하나 이상의 신체부위별 선택라벨값, 해당 복수의 서브 로보틱스 영상의 순서를 정렬하기 위한 라벨값, 해당 단말(100)의 식별 정보 등을 상기 서버(200)에 전송한다.
또한, 상기 서버(200)는 상기 단말(100)로부터 전송되는 상기 제 1 로보틱스 영상과 관련한 하나 이상의 또 다른 특정 시점(또는 또 다른 특정 구간)에서의 하나 이상의 추가 선택라벨값, 하나 이상의 시계열 분할 선택라벨값, 하나 이상의 신체부위별 선택라벨값, 해당 복수의 서브 로보틱스 영상의 순서를 정렬하기 위한 라벨값, 해당 단말(100)의 식별 정보 등을 수신한다.
일 예로, 상기 제 4 단말의 보기 화면 내의 재생바가 선택될 때, 도 32에 도시된 바와 같이, 상기 제 4 단말은 상기 영상 표시 영역(3210)에 상기 제 1-3 로보틱스 영상을 출력하고, 상기 비교 대상 영상 표시 영역(3220)에 상기 제 3 비교 대상 영상을 출력한다. 이때, 상기 제 4 단말은 상기 제 1-3 로보틱스 영상과 상기 제 3 비교 대상 영상을 동기화를 맞춘 상태에서 출력한다.
또한, 상기 제 4 단말은 미리 설정된 복수의 라벨 분류를 참조하여, 상기 출력되는 제 1-3 로보틱스 영상에 대해서 해당 제 3 수술(예를 들어 인공관절 수술)에서의 세부 동작과 관련해서 해당 제 4 단말의 제 4 외과 수술 전문의사 입력에 따라, 상기 제 1-3 로보틱스 영상을 2초 ~ 4초 단위의 복수의 구간인 제 1-3-1 구간 내지 제 1-3-15 구간으로 분할하고, 상기 분할된 제 1-3-1 구간 내지 제 1-3-15 구간 각각에 대한 제 1-3-1 라벨값 내지 제 1-3-15 라벨값을 각각 수신한다.
또한, 상기 제 4 단말은 상기 제 1-3-1 구간 내지 제 1-3-15 구간에 대해서, 해당 제 4 단말의 제 4 외과 수술 전문의사 입력에 따라, 순서를 정렬하기 위한 라벨값(예를 들어 제 1-3-1 구간 내지 제 1-3-5 구간, 제 1-3-11 구간 내지 제 1-3-15 구간 및 제 1-3-6 구간 내지 제 1-3-10 구간으로 정렬하기 위한 라벨값)을 각각 수신한다.
또한, 상기 제 4 단말은 상기 제 1-3 로보틱스 영상과 관련한 상기 제 1-3-1 구간 내지 제 1-3-15 구간 각각에 대한 상기 제 1-3-1 라벨값 내지 제 1-3-15 라벨값, 상기 순서를 정렬하기 위한 라벨값(예를 들어 제 1-3-1 구간 내지 제 1-3-5 구간, 제 1-3-11 구간 내지 제 1-3-15 구간 및 제 1-3-6 구간 내지 제 1-3-10 구간으로 정렬하기 위한 라벨값), 상기 제 4 단말의 식별 정보 등을 상기 서버(200)에 전송한다.
또한, 상기 서버(200)는 상기 제 4 단말로부터 전송되는 상기 제 1-3 로보틱스 영상과 관련한 상기 제 1-3-1 구간 내지 제 1-3-15 구간 각각에 대한 상기 제 1-3-1 라벨값 내지 제 1-3-15 라벨값, 상기 순서를 정렬하기 위한 라벨값(예를 들어 제 1-3-1 구간 내지 제 1-3-5 구간, 제 1-3-11 구간 내지 제 1-3-15 구간 및 제 1-3-6 구간 내지 제 1-3-10 구간으로 정렬하기 위한 라벨값), 상기 제 4 단말의 식별 정보 등을 수신한다(S2960).
이후, 상기 서버(200)는 상기 추가 선택라벨링된 제 1 로보틱스 영상에 대한 정보 등을 근거로 인공지능 기반의 다른 기계 학습을 수행하여, 다른 기계 학습 결과를 근거로 해당 제 1 로보틱스 영상에 대한 분류값을 생성(또는 확인)한다. 여기서, 상기 해당 제 1 로보틱스 영상에 대한 분류값(또는 해당 제 1 로보틱스 영상의 분류값)은 추가 선택라벨링값, 추가 계층라벨링값 등을 동일 항목별로 분류한 값일 수 있다.
즉, 상기 서버(200)는 상기 추가 선택라벨링된 제 1 로보틱스 영상에 대한 정보 등을 상기 미리 설정된 분류 모델의 입력값으로 하여 다른 기계 학습(또는 다른 인공지능/다른 딥 러닝)을 수행하고, 다른 기계 학습 결과(또는 다른 인공지능 결과/다른 딥 러닝 결과)를 근거로 해당 제 1 로보틱스 영상에 대한 분류값을 생성(또는 확인)한다.
일 예로, 상기 서버(200)는 상기 추가 선택라벨링된 제 1-3 로보틱스 영상에 대한 정보인 상기 제 1-3-1 구간 내지 제 1-3-15 구간 각각에 대한 상기 제 1-3-1 라벨값 내지 제 1-3-15 라벨값을 상기 분류 모델의 입력값으로 하여 다른 기계 학습을 수행하고, 다른 기계 학습 결과를 근거로 해당 제 1-3 로보틱스 영상에 대해서 Accept 라벨인 상기 제 1-3-1 라벨값 내지 제 1-3-5 라벨값 및 상기 제 1-3-11 라벨값 내지 제 1-3-15 라벨값과, Reject 라벨인 상기 제 1-3-6 라벨값 내지 제 1-3-10 라벨값을 분류한다(S2970).
이후, 상기 서버(200)는 상기 생성된 해당 제 1 로보틱스 영상에 대한 분류값(또는 해당 제 1 로보틱스 영상의 분류값), 상기 추가 선택라벨링된 제 1 로보틱스 영상에 대한 정보, 해당 제 1 로보틱스 영상, 해당 제 1 로보틱스 영상과 관련한 메타 정보, 상기 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보 등을 입력값으로 하여 다른 기계 학습(또는 다른 인공지능/다른 딥 러닝)을 수행하고, 다른 기계 학습 결과(또는 다른 인공지능 결과/다른 딥 러닝 결과)를 근거로 해당 제 1 로보틱스 영상에 대응하는 제 2 로보틱스 영상을 생성한다. 이때, 상기 제 2 로보틱스 영상은 상기 제 1 로보틱스 영상을 근거로 생성되는 아바타, 아이템, 로봇 등의 동작 관련 영상, 상기 제 1 로보틱스 영상이 업데이트된 영상 등일 수 있다.
즉, 상기 서버(200)는 상기 생성된 해당 제 1 로보틱스 영상에 대한 분류값(또는 해당 제 1 로보틱스 영상의 분류값), 상기 추가 선택라벨링된 제 1 로보틱스 영상에 대한 정보, 해당 제 1 로보틱스 영상, 해당 제 1 로보틱스 영상과 관련한 메타 정보, 상기 비교 대상 영상, 해당 비교 대상 영상과 관련한 메타 정보 등을 상기 미리 설정된 예측 모델의 입력값으로 하여 다른 기계 학습(또는 다른 인공지능/다른 딥 러닝)을 수행하고, 다른 기계 학습 결과(또는 다른 인공지능 결과/다른 딥 러닝 결과)를 근거로 해당 제 1 로보틱스 영상과 관련한 제 2 로보틱스 영상을 생성한다.
또한, 상기 서버(200)는 상기 생성된 제 2 로보틱스 영상을 상기 단말(100)에 전송한다.
또한, 상기 단말(100)은 상기 서버(200)로부터 전송되는 상기 제 2 로보틱스 영상을 수신하고, 상기 출력 중인 상기 제 1 로보틱스 영상 대신에 상기 수신된 제 2 로보틱스 영상을 상기 영상 표시 영역에 출력한다. 이때, 상기 단말(100)은 상기 동작 관련 영상, 상기 비교 대상 영상, 상기 제 1 로보틱스 영상 및 상기 제 2 로보틱스 영상을 동기화한 상태에서 해당 단말(100)의 화면을 분할하여 동시에 출력할 수도 있다.
일 예로, 상기 서버(200)는 상기 생성된 해당 제 1-3 로보틱스 영상에 대해서 Accept 라벨인 상기 제 1-3-1 라벨값 내지 제 1-3-5 라벨값 및 상기 제 1-3-11 라벨값 내지 제 1-3-15 라벨값과, Reject 라벨인 상기 제 1-3-6 라벨값 내지 제 1-3-10 라벨값에 대한 분류값, 상기 추가 선택라벨링된 제 1-3 로보틱스 영상에 대한 정보인 상기 제 1-3-1 구간 내지 제 1-3-15 구간 각각에 대한 상기 제 1-3-1 라벨값 내지 제 1-3-15 라벨값, 상기 순서를 정렬하기 위한 라벨값(예를 들어 제 1-3-1 구간 내지 제 1-3-5 구간, 제 1-3-11 구간 내지 제 1-3-15 구간 및 제 1-3-6 구간 내지 제 1-3-10 구간으로 정렬하기 위한 라벨값), 상기 제 1-3 로보틱스 영상, 상기 제 1-3 로보틱스 영상과 관련한 메타 정보, 상기 제 3 비교 대상 영상, 상기 제 3 비교 대상 영상과 관련한 메타 정보 등을 상기 예측 모델의 입력값으로 하여 다른 기계 학습을 수행하고, 다른 기계 학습 결과를 근거로 해당 제 1-3 로보틱스 영상과 관련한 제 2-3 로보틱스 영상을 생성한다.
또한, 상기 서버(200)는 상기 생성된 제 2-3 로보틱스 영상을 상기 제 4 단말에 전송한다.
또한, 상기 제 4 단말은 상기 서버(200)로부터 전송되는 제 2-3 로보틱스 영상을 수신하고, 상기 영상 표시 영역에 출력 중인 상기 제 1-3 로보틱스 영상을 대신하여, 상기 수신된 제 2-3 로보틱스 영상을 출력한다(S2980).
이후, 상기 서버(200)는 해당 특정 주제와 관련해서, 복수의 단말(100)로부터 수집되는 복수의 실제 인간, 가상의 아바타나 아이템 등의 동작 관련 영상에 대해서, 앞선 선택라벨링 과정, 분류 모델 추론 과정, 예측 모델 추론 과정, 생성된 제 1 로보틱스 영상에 대한 추가 선택라벨링 과정, 추가 분류 모델 추론 과정, 추가 예측 모델 추론 과정(예를 들어 앞선 S2910 단계 ~ S2980 단계)을 각각 반복 수행하여, 해당 특정 주제와 관련해서 집단 지성화된 제 2 로보틱스 영상을 생성(또는 업데이트)한다.
이때, 상기 서버(200)는 해당 특정 주제와 관련해서 실제 인간, 가상의 아바타나 아이템 등의 동작 관련 영상을 제공한 복수의 단말(100)에 마지막으로 업데이트된(또는 최신으로 생성된) 제 2 로보틱스 영상을 실시간 또는 특정 단말(100)의 요청에 따라 제공할 수도 있다.
이에 따라, 해당 특정 주제와 관련한 실제 인간, 가상의 아바타나 아이템 등의 동작 관련 영상을 상기 서버(200)에 제공한 모든 단말(100) 또는 특정 단말(100)은 해당 특정 주제와 관련해서(또는 해당 특정 주제와 관련한 비교 대상 영상과 관련해서) 최신의 집단 지성화된 제 2 로보틱스 영상을 제공받을 수 있다.
일 예로, 상기 서버(200)는 상기 제 4 단말 이외에 제 201 단말(100) 내지 제 300 단말(100)로부터 각각 제공되는 상기 제 3 수술(예를 들어 인공관절 수술)과 관련한 제 201 동작 관련 영상 내지 제 300 동작 관련 영상 각각에 대해서, 앞선 선택라벨링 과정, 분류 모델 추론 과정, 예측 모델 추론 과정, 생성된 제 1 로보틱스 영상에 대한 추가 선택라벨링 과정, 추가 분류 모델 추론 과정, 추가 예측 모델 추론 과정을 각각 수행하여, 해당 제 3 수술과 관련해서 집단 지성화된 제 2 로보틱스 영상을 업데이트한다(S2990).
본 발명의 실시예는 앞서 설명된 바와 같이, 사용자로부터 제공되는 특정 콘텐츠와 관련한 하나 이상의 로우 데이터에 대해서 라벨링을 수행하고, 라벨링된 로우 데이터에 대해서 미리 설정된 분류 모델 및 예측 모델을 통해 학습 기능을 수행하고, 예측 모델의 출력값인 제 1 영상에 대해서 추가 라벨링을 수행하고, 추가 라벨링된 제 1 영상에 대해서 분류 모델 및 예측 모델을 통해 추가 학습 기능을 수행하여 제 2 영상을 출력하여, 로우 데이터와 관련한 아바타 및/또는 아이템을 사용자에게 제공하고, 로우 데이터에 대한 라벨링을 통해 인공지능의 추론 능력을 향상시킬 수 있다.
또한, 본 발명의 실시예는 앞서 설명된 바와 같이, 실제 인간, 가상의 아바타나 아이템 등의 동작 관련 영상을 로봇 동작 영상으로 재구성하고, 재구성된 로봇 동작 영상에 대해서 라벨링을 수행하고, 라벨링된 로봇 동작 영상에 대해서 미리 설정된 분류 모델 및 예측 모델을 통해 학습 기능을 수행하고, 학습 기능 수행 결과인 제 1 로보틱스 영상에 대해서 추가 라벨링을 수행하고, 추가 라벨링된 제 1 로보틱스 영상에 대해서 분류 모델 및 예측 모델을 통해 추가 학습 기능을 수행하여 제 2 로보틱스 영상을 출력하여, 인공지능에 따른 결과물을 인공지능의 분류 모델 및 예측 모델에 반복적으로 적용하여 인공지능의 학습 능력을 향상시킬 수 있다.
전술된 내용은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
발명의 실시를 위한 형태는 위의 발명의 실시를 위한 최선의 형태에서 함께 기술되었다.
본 발명은 사용자로부터 제공되는 특정 콘텐츠와 관련한 하나 이상의 로우 데이터에 대해서 라벨링을 수행하고, 라벨링된 로우 데이터에 대해서 미리 설정된 분류 모델 및 예측 모델을 통해 학습 기능을 수행하고, 예측 모델의 출력값인 제 1 영상에 대해서 추가 라벨링을 수행하고, 추가 라벨링된 제 1 영상에 대해서 분류 모델 및 예측 모델을 통해 추가 학습 기능을 수행하여 제 2 영상을 출력함으로써, 로우 데이터와 관련한 아바타 및/또는 아이템을 사용자에게 제공하고, 로우 데이터에 대한 라벨링을 통해 인공지능의 추론 능력을 향상시킬 수 있어 산업상 이용가능성이 있다.

Claims (19)

  1. 특정 주제와 관련해서 수집된 하나 이상의 로우 데이터, 상기 로우 데이터와 관련한 메타 정보, 비교 대상 영상, 상기 비교 대상 영상과 관련한 메타 정보 및 단말의 식별 정보를 전송하는 단말; 및
    상기 단말로부터 전송되는 단말로부터 전송되는 특정 주제와 관련한 하나 이상의 로우 데이터, 상기 로우 데이터와 관련한 메타 정보, 비교 대상 영상, 상기 비교 대상 영상과 관련한 메타 정보 및 단말의 식별 정보를 수신하고, 상기 단말과 연동하여 상기 하나 이상의 로우 데이터를 대상으로 선택라벨링을 수행하고, 상기 선택라벨링된 로우 데이터에 대한 정보를 근거로 인공지능 기반의 기계 학습을 수행하여 기계 학습 결과를 근거로 상기 로우 데이터에 대한 분류값을 생성하고, 상기 생성된 로우 데이터에 대한 분류값, 상기 선택라벨링된 로우 데이터에 대한 정보, 상기 로우 데이터, 상기 로우 데이터와 관련한 메타 정보, 상기 비교 대상 영상 및 상기 비교 대상 영상과 관련한 메타 정보를 입력값으로 하여 기계 학습을 수행하고 기계 학습 결과를 근거로 상기 로우 데이터에 대응하는 제 1 영상을 생성하고, 상기 생성된 제 1 영상을 상기 단말에 전송하는 서버를 포함하는 집단 지성을 이용한 정보 처리 시스템.
  2. 제 1 항에 있어서,
    상기 서버는,
    상기 단말과 연동하여 상기 제 1 영상을 대상으로 추가 선택라벨링을 수행하고, 상기 추가 선택라벨링된 제 1 영상에 대한 정보를 근거로 인공지능 기반의 기계 학습을 수행하여 기계 학습 결과를 근거로 상기 제 1 영상에 대한 분류값을 생성하고, 상기 생성된 제 1 영상에 대한 분류값, 상기 추가 선택라벨링된 제 1 영상에 대한 정보, 상기 제 1 영상, 상기 제 1 영상과 관련한 메타 정보, 상기 비교 대상 영상 및 상기 비교 대상 영상과 관련한 메타 정보를 입력값으로 하여 기계 학습을 수행하고, 기계 학습 결과를 근거로 상기 제 1 영상에 대응하는 제 2 영상을 생성하고, 상기 생성된 제 2 영상을 상기 단말에 전송하는 것을 특징으로 하는 집단 지성을 이용한 정보 처리 시스템.
  3. 제 1 항에 있어서,
    상기 서버는,
    상기 특정 주제와 관련해서, 복수의 단말로부터 제공되는 복수의 로우 데이터에 대해서, 앞선 선택라벨링 과정, 분류 모델 추론 과정, 예측 모델 추론 과정, 생성된 제 1 영상에 대한 추가 선택라벨링 과정, 추가 분류 모델 추론 과정 및, 추가 예측 모델 추론 과정을 각각 반복 수행하여, 상기 특정 주제와 관련해서 집단 지성화된 제 2 영상을 생성하는 것을 특징으로 하는 집단 지성을 이용한 정보 처리 시스템.
  4. 서버에 의해, 단말로부터 전송되는 특정 주제와 관련한 하나 이상의 로우 데이터, 상기 로우 데이터와 관련한 메타 정보, 비교 대상 영상, 상기 비교 대상 영상과 관련한 메타 정보 및 단말의 식별 정보를 수신하는 단계;
    상기 서버에 의해, 상기 단말과 연동하여, 상기 하나 이상의 로우 데이터를 대상으로 선택라벨링을 수행하는 단계;
    상기 서버에 의해, 상기 선택라벨링된 로우 데이터에 대한 정보를 근거로 인공지능 기반의 기계 학습을 수행하여, 기계 학습 결과를 근거로 상기 로우 데이터에 대한 분류값을 생성하는 단계;
    상기 서버에 의해, 상기 생성된 로우 데이터에 대한 분류값, 상기 선택라벨링된 로우 데이터에 대한 정보, 상기 로우 데이터, 상기 로우 데이터와 관련한 메타 정보, 상기 비교 대상 영상 및 상기 비교 대상 영상과 관련한 메타 정보를 입력값으로 하여 기계 학습을 수행하고, 기계 학습 결과를 근거로 상기 로우 데이터에 대응하는 제 1 영상을 생성하는 단계;
    상기 서버에 의해, 상기 생성된 제 1 영상을 상기 단말에 전송하는 단계; 및
    상기 단말에 의해, 상기 서버로부터 전송되는 제 1 영상을 출력하는 단계를 포함하는 집단 지성을 이용한 정보 처리 방법.
  5. 제 4 항에 있어서,
    상기 하나 이상의 로우 데이터를 대상으로 선택라벨링을 수행하는 단계는,
    상기 단말에 표시되는 로우 데이터에 대해서 사용자 입력에 따라 상기 로우 데이터 중 하나 이상의 특정 시점 및 하나 이상의 특정 구간 중 적어도 하나에서의 라벨값을 설정하는 것을 특징으로 하는 집단 지성을 이용한 정보 처리 방법.
  6. 제 4 항에 있어서,
    상기 하나 이상의 로우 데이터를 대상으로 선택라벨링을 수행하는 단계는,
    상기 단말의 영상 표시 영역에 표시되는 로우 데이터에 대해서 상기 단말의 사용자 입력에 따라, 특정 시점 또는 특정 구간에서의 상기 로우 데이터에 포함된 객체의 움직임에 대한 잘된 행위 또는 잘못된 행위에 대해 라벨값을 설정하는 것을 특징으로 하는 집단 지성을 이용한 정보 처리 방법.
  7. 제 4 항에 있어서,
    상기 서버에 의해, 상기 하나 이상의 로우 데이터를 대상으로 선택라벨링을 수행하는 단계 이전에 또는 이후에, 상기 단말과 연동하여, 상기 하나 이상의 로우 데이터를 대상으로 계층라벨링을 수행하는 단계를 더 포함하는 것을 특징으로 하는 집단 지성을 이용한 정보 처리 방법.
  8. 제 7 항에 있어서,
    상기 하나 이상의 로우 데이터를 대상으로 계층라벨링을 수행하는 단계는,
    상기 단말에 표시되는 로우 데이터에 대해서 미리 설정된 복수의 라벨 분류를 근거로 사용자 입력에 따라 상기 로우 데이터 중 다른 특정 시점 및 다른 특정 구간 중 적어도 하나에서의 라벨값을 설정하는 과정; 및
    상기 로우 데이터를 복수의 서브 로우 데이터로 분할하는 과정을 포함하는 것을 특징으로 하는 집단 지성을 이용한 정보 처리 방법.
  9. 제 4 항에 있어서,
    상기 기계 학습 결과를 근거로 상기 로우 데이터에 대한 분류값을 생성하는 단계는,
    상기 선택라벨링된 로우 데이터에 대한 정보를 미리 설정된 분류 모델의 입력값으로 하여 기계 학습을 수행하고, 기계 학습 결과를 근거로 상기 로우 데이터에 대한 분류값을 생성하는 것을 특징으로 하는 집단 지성을 이용한 정보 처리 방법.
  10. 제 4 항에 있어서,
    상기 기계 학습 결과를 근거로 상기 로우 데이터에 대응하는 제 1 영상을 생성하는 단계는,
    상기 생성된 로우 데이터에 대한 분류값, 상기 선택라벨링된 로우 데이터에 대한 정보, 상기 로우 데이터, 상기 로우 데이터와 관련한 메타 정보, 상기 비교 대상 영상 및 상기 비교 대상 영상과 관련한 메타 정보를 미리 설정된 예측 모델의 입력값으로 하여 기계 학습을 수행하고, 기계 학습 결과를 근거로 상기 로우 데이터와 관련한 제 1 영상을 생성하는 것을 특징으로 하는 집단 지성을 이용한 정보 처리 방법.
  11. 제 4 항에 있어서,
    상기 서버에 의해, 상기 단말과 연동하여, 상기 제 1 영상을 대상으로 추가 선택라벨링을 수행하는 단계;
    상기 서버에 의해, 상기 추가 선택라벨링된 제 1 영상에 대한 정보를 근거로 인공지능 기반의 기계 학습을 수행하여, 기계 학습 결과를 근거로 상기 제 1 영상에 대한 분류값을 생성하는 단계;
    상기 서버에 의해, 상기 생성된 제 1 영상에 대한 분류값, 상기 추가 선택라벨링된 제 1 영상에 대한 정보, 상기 제 1 영상, 상기 제 1 영상과 관련한 메타 정보, 상기 비교 대상 영상 및 상기 비교 대상 영상과 관련한 메타 정보를 입력값으로 하여 기계 학습을 수행하고, 기계 학습 결과를 근거로 상기 제 1 영상에 대응하는 제 2 영상을 생성하는 단계;
    상기 서버에 의해, 상기 생성된 제 2 영상을 상기 단말에 전송하는 단계;
    상기 단말에 의해, 상기 서버로부터 전송되는 제 2 영상을 출력하는 단계; 및
    상기 서버에 의해, 상기 특정 주제와 관련해서, 복수의 단말로부터 제공되는 복수의 로우 데이터에 대해서, 앞선 선택라벨링 과정, 분류 모델 추론 과정, 예측 모델 추론 과정, 생성된 제 1 영상에 대한 추가 선택라벨링 과정, 추가 분류 모델 추론 과정 및, 추가 예측 모델 추론 과정을 각각 반복 수행하여, 상기 특정 주제와 관련해서 집단 지성화된 제 2 영상을 생성하는 단계를 더 포함하는 것을 특징으로 하는 집단 지성을 이용한 정보 처리 방법.
  12. 제 11 항에 있어서,
    상기 제 1 영상을 대상으로 추가 선택라벨링을 수행하는 단계는,
    상기 단말에 의해, 상기 로우 데이터에 대한 계층라벨링 기능 수행에 따라 복수로 분할된 서브 로우 데이터에 대한 정보를 근거로 상기 제 1 영상을 복수의 서브 영상으로 분할하는 과정;
    상기 단말에 의해, 상기 분할된 복수의 서브 영상에 대해서 사용자 입력에 따라 잘된 행위에 대한 라벨값 또는 잘못된 행위에 대한 라벨값을 각각 입력받는 과정;
    상기 단말에 의해, 상기 복수의 서브 영상의 순서를 정렬하기 위해서 사용자 입력에 따라 상기 복수의 서브 영상의 순서를 나타내는 라벨값을 입력받는 과정;
    상기 단말에 의해, 상기 입력된 상기 복수의 서브 영상에 대한 잘된 행위와 잘못된 행위에 대한 라벨값, 상기 복수의 서브 영상에 대한 순서를 정렬하기 위한 라벨값 및 상기 단말의 식별 정보를 상기 서버에 전송하는 과정; 및
    상기 서버에 의해, 상기 제 1 영상을 대상으로 한 시계열 분할 선택라벨링 기능 수행에 따라, 상기 단말로부터 전송되는 상기 복수의 서브 영상에 대한 잘된 행위와 잘못된 행위에 대한 라벨값, 상기 복수의 서브 영상에 대한 순서를 정렬하기 위한 라벨값 및 상기 단말의 식별 정보를 수신하는 과정을 포함하는 것을 특징으로 하는 집단 지성을 이용한 정보 처리 방법.
  13. 제 11 항에 있어서,
    상기 제 1 영상을 대상으로 추가 선택라벨링을 수행하는 단계는,
    상기 단말에 의해, 상기 로우 데이터에 대한 계층라벨링 기능 수행에 따라 복수로 분할된 서브 로우 데이터에 대한 정보를 근거로 상기 제 1 영상을 복수의 서브 영상으로 분할하는 과정;
    상기 단말에 의해, 상기 분할된 복수의 서브 영상에 포함된 아바타의 동작 순서에 대한 라벨값을 각각 입력받는 과정;
    상기 단말에 의해, 상기 복수의 서브 영상에 포함된 아바타의 동작에서 신체부위별로 동작 순서를 정렬하기 위해서 사용자 입력에 따라 상기 복수의 서브 영상의 순서를 나타내는 라벨값을 입력받는 과정;
    상기 단말에 의해, 상기 입력된 상기 복수의 서브 영상에 포함된 아바타의 동작 순서에 대한 라벨값, 상기 복수의 서브 영상에 대한 순서를 정렬하기 위한 라벨값 및 상기 단말의 식별 정보를 상기 서버에 전송하는 과정; 및
    상기 서버에 의해, 상기 제 1 영상을 대상으로 한 신체부위별 선택라벨링 기능 수행에 따라, 상기 단말로부터 전송되는 상기 복수의 서브 영상에 포함된 아바타의 동작 순서에 대한 라벨값, 상기 복수의 서브 영상에 대한 순서를 정렬하기 위한 라벨값 및 상기 단말의 식별 정보를 수신하는 과정을 포함하는 것을 특징으로 하는 집단 지성을 이용한 정보 처리 방법.
  14. 특정 주제와 관련해서 실제 인간, 아바타 및 아이템 중 적어도 하나와 관련한 동작 관련 영상 및, 상기 동작 관련 영상과 관련한 메타 정보를 수집하고, 상기 수집된 동작 관련 영상을 실제 로봇의 동작으로 구현하기 위해서, 상기 수집된 동작 관련 영상을 로봇 동작 영상으로 재구성하고, 단말과 연동하여 상기 로봇 동작 영상을 대상으로 선택라벨링을 수행하고, 상기 선택라벨링된 로봇 동작 영상에 대한 정보를 근거로 인공지능 기반의 기계 학습을 수행하여 기계 학습 결과를 근거로 상기 로봇 동작 영상에 대한 분류값을 생성하고, 상기 생성된 로봇 동작 영상에 대한 분류값, 상기 선택라벨링된 로봇 동작 영상에 대한 정보, 상기 로봇 동작 영상, 상기 로봇 동작 영상과 관련한 메타 정보, 상기 비교 대상 영상 및 상기 비교 대상 영상과 관련한 메타 정보를 근거로 상기 로봇 동작 영상에 대응하는 제 1 로보틱스 영상을 생성하고, 상기 생성된 제 1 로보틱스 영상을 상기 단말에 전송하는 서버; 및
    상기 서버로부터 전송되는 제 1 로보틱스 영상을 출력하는 상기 단말을 포함하는 집단 지성을 이용한 정보 처리 시스템.
  15. 제 14 항에 있어서,
    상기 서버는,
    상기 단말과 연동하여 상기 제 1 로보틱스 영상을 대상으로 추가 선택라벨링을 수행하고, 상기 추가 선택라벨링된 제 1 로보틱스 영상에 대한 정보를 근거로 인공지능 기반의 기계 학습을 수행하여 기계 학습 결과를 근거로 상기 제 1 로보틱스 영상에 대한 분류값을 생성하고, 상기 생성된 제 1 로보틱스 영상에 대한 분류값, 상기 추가 선택라벨링된 제 1 로보틱스 영상에 대한 정보, 상기 제 1 로보틱스 영상, 상기 제 1 로보틱스 영상과 관련한 메타 정보, 상기 비교 대상 영상 및 상기 비교 대상 영상과 관련한 메타 정보를 입력값으로 하여 기계 학습을 수행하고, 기계 학습 결과를 근거로 상기 제 1 로보틱스 영상에 대응하는 제 2 로보틱스 영상을 생성하고, 상기 생성된 제 2 로보틱스 영상을 상기 단말에 전송하는 것을 특징으로 하는 집단 지성을 이용한 정보 처리 시스템.
  16. 제 15 항에 있어서,
    상기 서버는,
    상기 특정 주제와 관련해서, 복수의 단말로부터 제공되는 복수의 실제 인간, 아바타 및 아이템 중 적어도 하나와 관련한 동작 관련 영상에 대해서, 앞선 선택라벨링 과정, 분류 모델 추론 과정, 예측 모델 추론 과정, 생성된 제 1 로보틱스 영상에 대한 추가 선택라벨링 과정, 추가 분류 모델 추론 과정 및, 추가 예측 모델 추론 과정을 각각 반복 수행하여, 상기 특정 주제와 관련해서 집단 지성화된 제 2 로보틱스 영상을 생성하는 것을 특징으로 하는 집단 지성을 이용한 정보 처리 시스템.
  17. 서버에 의해, 특정 주제와 관련해서 실제 인간, 아바타 및 아이템 중 적어도 하나와 관련한 동작 관련 영상 및, 상기 동작 관련 영상과 관련한 메타 정보를 수집하는 단계;
    상기 서버에 의해, 상기 수집된 동작 관련 영상을 실제 로봇의 동작으로 구현하기 위해서, 상기 수집된 동작 관련 영상을 로봇 동작 영상으로 재구성하는 단계;
    상기 서버에 의해, 단말과 연동하여, 상기 로봇 동작 영상을 대상으로 선택라벨링을 수행하는 단계;
    상기 서버에 의해, 상기 선택라벨링된 로봇 동작 영상에 대한 정보를 근거로 인공지능 기반의 기계 학습을 수행하여, 기계 학습 결과를 근거로 상기 로봇 동작 영상에 대한 분류값을 생성하는 단계;
    상기 서버에 의해, 상기 생성된 로봇 동작 영상에 대한 분류값, 상기 선택라벨링된 로봇 동작 영상에 대한 정보, 상기 로봇 동작 영상, 상기 로봇 동작 영상과 관련한 메타 정보, 상기 비교 대상 영상 및 상기 비교 대상 영상과 관련한 메타 정보를 근거로 상기 로봇 동작 영상에 대응하는 제 1 로보틱스 영상을 생성하는 단계;
    상기 서버에 의해, 상기 생성된 제 1 로보틱스 영상을 상기 단말에 전송하는 단계; 및
    상기 단말에 의해, 상기 서버로부터 전송되는 제 1 로보틱스 영상을 출력하는 단계를 포함하는 집단 지성을 이용한 정보 처리 방법.
  18. 제 17 항에 있어서,
    상기 서버에 의해, 상기 로봇 동작 영상을 대상으로 선택라벨링을 수행하는 단계 이전에 또는 이후에, 상기 단말과 연동하여, 상기 로봇 동작 영상을 대상으로 계층라벨링을 수행하는 단계를 더 포함하는 것을 특징으로 하는 집단 지성을 이용한 정보 처리 방법.
  19. 제 17 항에 있어서,
    상기 서버에 의해, 상기 단말과 연동하여, 상기 제 1 로보틱스 영상을 대상으로 추가 선택라벨링을 수행하는 단계;
    상기 서버에 의해, 상기 추가 선택라벨링된 제 1 로보틱스 영상에 대한 정보를 근거로 인공지능 기반의 기계 학습을 수행하여, 기계 학습 결과를 근거로 상기 제 1 로보틱스 영상에 대한 분류값을 생성하는 단계;
    상기 서버에 의해, 상기 생성된 제 1 로보틱스 영상에 대한 분류값, 상기 추가 선택라벨링된 제 1 로보틱스 영상에 대한 정보, 상기 제 1 로보틱스 영상, 상기 제 1 로보틱스 영상과 관련한 메타 정보, 상기 비교 대상 영상 및 상기 비교 대상 영상과 관련한 메타 정보를 입력값으로 하여 기계 학습을 수행하고, 기계 학습 결과를 근거로 상기 제 1 로보틱스 영상에 대응하는 제 2 로보틱스 영상을 생성하는 단계;
    상기 서버에 의해, 상기 생성된 제 2 로보틱스 영상을 상기 단말에 전송하는 단계;
    상기 단말에 의해, 상기 서버로부터 전송되는 제 2 로보틱스 영상을 출력하는 단계; 및
    상기 서버에 의해, 상기 특정 주제와 관련해서, 복수의 단말로부터 제공되는 복수의 실제 인간, 아바타 및 아이템 중 적어도 하나와 관련한 동작 관련 영상에 대해서, 앞선 선택라벨링 과정, 분류 모델 추론 과정, 예측 모델 추론 과정, 생성된 제 1 로보틱스 영상에 대한 추가 선택라벨링 과정, 추가 분류 모델 추론 과정 및, 추가 예측 모델 추론 과정을 각각 반복 수행하여, 상기 특정 주제와 관련해서 집단 지성화된 제 2 로보틱스 영상을 생성하는 단계를 더 포함하는 것을 특징으로 하는 집단 지성을 이용한 정보 처리 방법.
PCT/KR2023/006127 2022-05-05 2023-05-04 집단 지성을 이용한 정보 처리 시스템 및 그 방법 WO2023214826A1 (ko)

Applications Claiming Priority (52)

Application Number Priority Date Filing Date Title
KR10-2022-0055802 2022-05-05
KR20220055802 2022-05-05
KR10-2022-0074901 2022-06-20
KR20220074901 2022-06-20
KR20220077869 2022-06-24
KR10-2022-0077869 2022-06-24
KR20220078565 2022-06-28
KR10-2022-0078565 2022-06-28
KR10-2022-0080939 2022-06-30
KR20220080939 2022-06-30
KR10-2022-0081533 2022-07-01
KR20220081533 2022-07-01
KR20220081537 2022-07-02
KR10-2022-0081537 2022-07-02
KR20220081573 2022-07-03
KR10-2022-0081573 2022-07-03
KR20220083421 2022-07-06
KR10-2022-0083421 2022-07-06
KR10-2022-0083434 2022-07-07
KR20220083435 2022-07-07
KR20220083434 2022-07-07
KR10-2022-0083435 2022-07-07
KR10-2022-0086003 2022-07-13
KR20220086003 2022-07-13
KR20230002561 2023-01-07
KR10-2023-0002561 2023-01-07
KR10-2023-0004191 2023-01-11
KR20230004191 2023-01-11
KR20230014544 2023-02-03
KR10-2023-0014544 2023-02-03
KR20230015225 2023-02-04
KR10-2023-0015225 2023-02-04
KR10-2023-0020396 2023-02-16
KR20230020402 2023-02-16
KR20230020396 2023-02-16
KR10-2023-0020402 2023-02-16
KR20230028678 2023-03-03
KR10-2023-0028678 2023-03-03
KR10-2023-0028841 2023-03-05
KR20230028841 2023-03-05
KR10-2023-0032212 2023-03-13
KR20230032212 2023-03-13
KR20230044428 2023-04-04
KR10-2023-0044428 2023-04-04
KR10-2023-0044101 2023-04-04
KR20230044101 2023-04-04
KR10-2023-0044453 2023-04-05
KR20230044453 2023-04-05
KR10-2023-0054478 2023-04-26
KR20230054478 2023-04-26
KR1020230058299A KR20230156268A (ko) 2022-05-05 2023-05-04 집단 지성을 이용한 정보 처리 시스템 및 그 방법
KR10-2023-0058299 2023-05-04

Publications (1)

Publication Number Publication Date
WO2023214826A1 true WO2023214826A1 (ko) 2023-11-09

Family

ID=88646725

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/006127 WO2023214826A1 (ko) 2022-05-05 2023-05-04 집단 지성을 이용한 정보 처리 시스템 및 그 방법

Country Status (1)

Country Link
WO (1) WO2023214826A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200115231A (ko) * 2019-03-27 2020-10-07 일렉트로닉 아트 아이엔씨. 이미지 또는 비디오 데이터로부터의 가상 캐릭터 생성
JP2021033961A (ja) * 2019-08-29 2021-03-01 株式会社鈴康 動画生成プログラム、動画生成装置及び動画生成方法
KR20210041856A (ko) * 2019-10-08 2021-04-16 한국전자통신연구원 딥 러닝 기반으로 애니메이션 캐릭터를 학습하는 데 필요한 학습 데이터 생성 방법 및 장치
WO2021176584A1 (ja) * 2020-03-04 2021-09-10 三菱電機株式会社 ラベリング装置及び学習装置
KR20220049754A (ko) * 2020-10-15 2022-04-22 삼성에스디에스 주식회사 영상 분류 모델 학습 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200115231A (ko) * 2019-03-27 2020-10-07 일렉트로닉 아트 아이엔씨. 이미지 또는 비디오 데이터로부터의 가상 캐릭터 생성
JP2021033961A (ja) * 2019-08-29 2021-03-01 株式会社鈴康 動画生成プログラム、動画生成装置及び動画生成方法
KR20210041856A (ko) * 2019-10-08 2021-04-16 한국전자통신연구원 딥 러닝 기반으로 애니메이션 캐릭터를 학습하는 데 필요한 학습 데이터 생성 방법 및 장치
WO2021176584A1 (ja) * 2020-03-04 2021-09-10 三菱電機株式会社 ラベリング装置及び学習装置
KR20220049754A (ko) * 2020-10-15 2022-04-22 삼성에스디에스 주식회사 영상 분류 모델 학습 장치 및 방법

Similar Documents

Publication Publication Date Title
CN111460875B (zh) 图像处理方法及装置、图像设备及存储介质
WO2019177400A1 (ko) 접이식 가상현실 장비
WO2010128830A2 (ko) 가상 세계에서의 객체를 제어하는 시스템, 방법 및 기록 매체
JP2022503776A (ja) 視覚ディスプレイの補完的なデータを生成するためのシステム及び方法
KR101911133B1 (ko) 깊이 카메라를 이용한 아바타 구성
CN112437950A (zh) 用于对虚拟头像制作动画的骨架系统
CN110245638A (zh) 视频生成方法和装置
CN109325469A (zh) 一种基于深度神经网络的人体姿态识别方法
WO2020203656A1 (ja) 情報処理装置、情報処理方法及びプログラム
CN107851299A (zh) 信息处理装置、信息处理方法以及程序
WO2020147796A1 (zh) 图像处理方法及装置、图像设备及存储介质
CN113486771B (zh) 基于关键点检测的视频动作整齐度评估方法及系统
CN104854623A (zh) 基于化身的虚拟试衣室
CN114612511A (zh) 基于改进域对抗神经网络算法的运动训练辅助决策支持系统
WO2020147791A1 (zh) 图像处理方法及装置、图像设备及存储介质
WO2023214826A1 (ko) 집단 지성을 이용한 정보 처리 시스템 및 그 방법
CN112734632A (zh) 图像处理方法、装置、电子设备和可读存储介质
US11386615B2 (en) Creating a custom three-dimensional body shape model
WO2024053989A1 (ko) 디지털 영상 인식을 활용한 생활환경 감지 기반의 재활회복 운동 추천 시스템 및 방법
Song et al. Data-driven design of a six-bar lower-limb rehabilitation mechanism based on gait trajectory prediction
CN116108391B (zh) 一种基于无监督学习的人体姿态分类识别系统
CN109902729A (zh) 基于序列状态演进的行为预测方法及装置
KR20230156268A (ko) 집단 지성을 이용한 정보 처리 시스템 및 그 방법
KR20230153304A (ko) 집단 지성을 이용한 정보 처리 시스템 및 그 방법
de Gusmao Lafayette et al. Comparison of RGB and HSV color spaces for motion capture and analysis of individuals with limb discrepancy

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23799707

Country of ref document: EP

Kind code of ref document: A1