WO2019093599A1 - 사용자 관심 정보 생성 장치 및 그 방법 - Google Patents

사용자 관심 정보 생성 장치 및 그 방법 Download PDF

Info

Publication number
WO2019093599A1
WO2019093599A1 PCT/KR2018/003972 KR2018003972W WO2019093599A1 WO 2019093599 A1 WO2019093599 A1 WO 2019093599A1 KR 2018003972 W KR2018003972 W KR 2018003972W WO 2019093599 A1 WO2019093599 A1 WO 2019093599A1
Authority
WO
WIPO (PCT)
Prior art keywords
node
interest
image
instruction
context
Prior art date
Application number
PCT/KR2018/003972
Other languages
English (en)
French (fr)
Inventor
김도곤
김경수
김성진
안킷쿠마르
이강희
이형민
박재현
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to CN201880077875.8A priority Critical patent/CN111434118B/zh
Priority to US16/761,957 priority patent/US11678012B2/en
Priority to EP18877211.5A priority patent/EP3694220A4/en
Publication of WO2019093599A1 publication Critical patent/WO2019093599A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4666Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • G06Q30/0627Directed, with specific intent or strategy using item specifications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies

Definitions

  • the present invention relates to an artificial intelligence (AI) system for simulating functions such as recognition and judgment of a human brain using a machine learning algorithm such as a deep learning and its application. And a context awareness based artificial intelligence application technology.
  • AI artificial intelligence
  • AI Artificial intelligence
  • AI is a computer system that implements human-level intelligence. Unlike existing Rule-based smart systems, AI is a system in which machines learn, judge and become smart. Artificial intelligence systems are increasingly recognized and improving their understanding of user preferences as they are used, and existing rule-based smart systems are gradually being replaced by deep-run-based artificial intelligence systems.
  • Machine learning is an algorithm technology that classifies / learns the characteristics of input data by itself.
  • Element technology is a technology that simulates functions such as recognition and judgment of human brain using machine learning algorithms such as deep learning. Understanding, reasoning / prediction, knowledge representation, and motion control.
  • Linguistic understanding is a technology for recognizing, applying, and processing human language / characters, including natural language processing, machine translation, dialogue system, query response, speech recognition / synthesis, and the like.
  • Visual understanding is a technology for recognizing and processing objects as human vision, including object recognition, object tracking, image search, human recognition, scene understanding, spatial understanding, and image enhancement.
  • Inference prediction is a technique for judging and logically inferring and predicting information, including knowledge / probability based reasoning, optimization prediction, preference base planning, and recommendation.
  • Knowledge representation is a technology for automating human experience information into knowledge data, including knowledge building (data generation / classification) and knowledge management (data utilization).
  • the motion control is a technique for controlling the autonomous travel of the vehicle and the motion of the robot, and includes motion control (navigation, collision, traveling), operation control (behavior control), and the like.
  • a technique of estimating the user's interest information by analyzing user feedback on various contents exposed to the user is provided.
  • a technique of collecting positive feedback on content posted on a social network and obtaining interest information of the user from the common points of the contents that received positive feedback is known.
  • the subject of the object to be identified is limited to a specific range.
  • the computational load for object identification without scope limitation is unacceptable unless it is a high-end electronic device such as a server with extremely high computing performance.
  • the object identification without limitation of range has a high probability of causing a problem with its accuracy.
  • the present technology does not provide a method of selecting an object of interest recognized by the user who is exposed to the image among the objects recognized in the image.
  • Many of the images will have multiple objects.
  • the presently provided technology is missing a key configuration for generating the user's interest information from the image exposed to the user.
  • this core configuration related to the selection of objects of interest in an image which can be used in electronic devices with relatively poor computing capabilities such as user terminals, but which provides high accuracy, is required to provide context aware based artificial intelligence application technology.
  • An object of the present invention is to provide an electronic device for implementing an artificial intelligence application technology that obtains information that a user is interested in in consideration of context data at the time when an image is displayed, .
  • an image processing method for selecting an interest tree of an index tree for searching a sample image corresponding to each of objects recognized in the image, And starting the search from the node of interest, thereby increasing the speed at which the object of interest is selected in the image.
  • An electronic device includes a processor, a display for displaying an image, and a memory for storing a plurality of instructions executed by the processor.
  • the plurality of instructions may include instructions for obtaining context data related to an image displayed on the display, an index for searching a sample image corresponding to a candidate object of the image using the context data, An instruction for selecting an interest node corresponding to the context data among nodes of an index tree by using a comparison result between a subject of each node of the index tree and the context data; And an instruction to select an object of interest among the candidate objects included in the image using the node of interest.
  • the index tree may be hierarchically connected to other nodes according to a semantic relationship between subjects of the respective nodes.
  • the context data includes a plurality of context elements
  • the instruction for selecting the node of interest includes an instruction for selecting the lowest node among the plurality of nodes corresponding to the plurality of context elements as the node of interest .
  • the plurality of context elements include a first context element and a second context element, and the lowest one of the first node corresponding to the first context element and the second node corresponding to the second context element
  • the instruction for selecting the object of interest when it fails to find an object corresponding to the second node among the candidate objects, selects an object corresponding to the first node among the plurality of candidate objects And an instruction to select an object of interest among the candidate objects included in the image using the first node.
  • the first node has a depth N (where N is a natural number of 1 or more) on the index tree, the first node has a depth of N + 2 (N is a natural number of 1 or more)
  • N is a natural number of 1 or more
  • An instruction to find an object corresponding to the first node among the candidate objects of the candidate object can not find the object corresponding to the second node among the candidate objects, And may include instructions to skip one or more and move to the first node.
  • the instruction for selecting an object of interest includes an instruction for finding an object corresponding to an ancestor node of the object node among the plurality of candidate objects when it fails to find an object corresponding to the node of interest among the candidate objects, And an instruction for selecting an object of interest among the candidate objects included in the image using the upper node.
  • the nodes of the index tree include a leaf node and a non-leaf node, and each of the non-leaf nodes receives the feature data
  • the instruction for selecting an object of interest among the candidate objects included in the image using the object node includes a classifier for generating an output indicating a child node when the object node is the non- An instruction for inputting the feature data of the candidate object to the classifier of the node of interest and moving to the child node indicated by the output of the classifier and an instruction for repeating the instruction for moving to the child node until reaching the terminal node .
  • the terminal node is matched with one or more images matched to the subject assigned to the terminal node among the sample images of the image archive, and the terminal node is a candidate object included in the image
  • the instruction to select an object of interest includes an instruction to determine whether a sample image matched to the terminal node and the candidate object is matched when the terminal node reaches the terminal node, And an instruction to select the candidate object as the object of interest.
  • an instruction for selecting an object of interest among the candidate objects included in the image using the node of interest may include, for all candidate objects, the output of the classifier of the current node does not include a child node corresponding to the feature data And if so, an instruction to move to an upper node of the current node.
  • the ancestor node of the current node may be a nearest ancestor matching one of a plurality of context elements included in the context data among the ancestor nodes of the current node.
  • the instruction to obtain the context data may include instructions to obtain context data that matches the subject of at least some of the nodes of the index tree.
  • the instruction to obtain the context data may include instructions to obtain, as the context data, text displayed on the display simultaneously with the image.
  • the instruction for obtaining the context data may include an instruction to acquire the positioning information of the electronic device as the context data.
  • the instruction to obtain the context data may include an instruction to acquire, as the context data, the converted text of the voice data input through the microphone while the image is displayed on the display.
  • the instruction to obtain the context data may include an instruction to acquire the context data upon detecting a trigger of an object selection operation of interest.
  • the trigger is one in which an operation associated with the image of the electronic device user is sensed, a keyboard is displayed on the display, a screen capture operation is detected,
  • the trigger may be that the attention is sensed for a predetermined time or more through the visual recognition sensor.
  • a method for generating user interest information comprising: obtaining context data at a display time of an image; and generating a sample image corresponding to a plurality of candidate objects recognized in the image using the context data Selecting an interest node corresponding to the context data among the nodes of the index tree to search for; and selecting an object of interest among the plurality of candidate objects using the node of interest.
  • the index tree is hierarchically connected to another node according to a semantic relationship between subjects of each node, and each non-terminal node of the index tree includes a unique classifier,
  • the terminal node receives an input of characteristic data and generates an output indicating a child node corresponding to the characteristic data, the terminal node matching one or more images matched with the subject of the terminal node,
  • the method comprising the steps of: inputting the feature data of the candidate object to the classifier of the node of interest when the node of interest is the non-terminal node and moving to the child node indicated by the output of the classifier; Repeating until the terminal node reaches the terminal node; Determining whether the candidate object matched with the terminal node matches the candidate object, and selecting the candidate object determined to match the image matched with the terminal node as the object of interest have.
  • the plurality of candidate objects include a first object and a second object
  • the step of moving to the child node indicated by the output of the classifier comprises: The output of the classifier indicates a movement to one of the child nodes of the current node and the output of the classifier according to the input of the characteristic data of the second object indicates that there is no child node corresponding to the second object And dividing the tree search for the first object and the tree search for the second object.
  • the plurality of candidate objects include a first object and a second object
  • the step of moving to a child node indicated by the output of the classifier comprises: When the output of the classifier indicates the movement to one of the child nodes of the current node and the output of the classifier according to the input of the characteristic data of the second object indicates that there is no child node corresponding to the second object, And terminating the tree search for the second object.
  • FIG. 1 is a configuration diagram of a user interest information generating system according to an embodiment of the present invention.
  • FIG. 2 is a conceptual diagram for explaining context data based interest object selection according to some embodiments of the present invention.
  • FIG. 3 is a conceptual diagram for explaining the selection of an interest object based on positioning information according to an embodiment of the present invention.
  • FIG. 4 is a conceptual diagram illustrating voice-based interest object selection according to an embodiment of the present invention.
  • FIG. 5 is a conceptual diagram illustrating text-based interest object selection in accordance with some embodiments of the present invention.
  • 6 to 7 are conceptual diagrams for helping understanding of the index tree referred to in some embodiments of the present invention.
  • 8 to 13 are conceptual diagrams illustrating a process of selecting an object of interest according to some embodiments of the present invention.
  • FIG. 14 is a configuration diagram of an electronic device according to another embodiment of the present invention.
  • FIG. 15 is a conceptual diagram for explaining that the instructions shown in Fig. 14 are executed in cooperation with each other.
  • 16 is a flowchart of a method of selecting an object of interest according to another embodiment of the present invention.
  • FIG. 17 is a detailed flowchart for explaining the object selecting operation of interest in the method of FIG. 16 in more detail.
  • the system according to the present embodiment may include the object identification support apparatus 10 and the electronic devices 100a, 100b, and 100c.
  • the electronic devices 100a, 100b, and 100c are user terminals used by a user, for example, a wearable device such as a smart phone or a smart watch, an operation of a tablet, a desktop, a notebook, a digital TV, a digital signage, A computing device with a processor, or a digital device with computing means.
  • the object-of-interest identification support apparatus 10 includes an index tree 50 and a classifier ML (Machine Learning) parameter 51, a set of feature data of sample images grouped by each terminal node of the index tree 50 (100a, 100b, 100c) manage data necessary to perform identification of an object of interest, and update the electronic device (100a, 100b, 100c) when there is an update in the data .
  • ML Machine Learning
  • the index tree 50 is a data structure for searching for a sample image matching an object to identify a subject.
  • the sample images are grouped by subject. In order to recognize the subject of the image, the result of the comparison with the sample image may be referred to.
  • the sample images of each subject can be accessed through a leaf node of the subject of the index tree 50.
  • the number of sample images will be gradually increased in order to improve recognition performance of images.
  • the similarity comparison between images was developed in a comparison method between pixels, and a comparison method using a feature data set (also referred to as a 'feature vector'). Therefore, retention of the sample image itself is not essential.
  • the feature data of the sample image is extracted in advance, and only the feature data of each sample image is managed, not the sample images themselves, thereby saving storage space and increasing the operation speed. Accordingly, the feature data of the sample image, not the sample image itself of each subject, can be linked to the leaf node of the subject of the index tree 50.
  • one or more objects contained in the image 60 are recognized.
  • object recognition can be performed based on artificial intelligence technology.
  • machine learning using the training data set is performed by the machine learning implementer, and one or more objects included in the image 60 can be recognized using the object recognition model generated as a result of the machine learning.
  • One or more objects recognized in the image 60 will be referred to hereinbelow as " candidate objects ".
  • a 'object of interest' an object estimated to be of interest by the user is referred to as an 'object of interest'.
  • FIG. 14 or 16, etc. relating to recognizing the object in the image 60.
  • the index tree 50 traverses the index tree 50 in a top-down fashion from a root node to a leaf node to recognize what the candidate object represents as an image, It is necessary to find a terminal node judged to have a sample image similar to the candidate object in the course of the circulation. If the current node is a non-leaf node having a plurality of child nodes in the traversing process, there arises a problem of which child node should be moved. At this time, the child node to be moved is selected using the classifier of the non-terminal node.
  • the classifier is an image classification model generated using machine learning techniques.
  • the output of the classifier becomes reference data for directing to the terminal node as the final destination.
  • the classifier may be configured in the electronic devices 100a, 100b, and 100c using a classifier ML parameter 51. That is, when moving from the current node to the terminal node, it is necessary to decide which of the child nodes of the current node to move to, and move to the child node indicated by the output data of the current node's classifier.
  • each non-terminal node may have its own classifier. Accordingly, the object-identification support apparatus 10 generates a classifier of an object image unique to each non-terminal node by performing machine learning training using training data for each non-terminal node.
  • the training data of the first non- The feature data set of the sample data included in the lower node of the second child node includes those to which the first tag is assigned and the feature data set of the sample data that the child node of the second child node has the second tag.
  • the object-of-interest support apparatus 10 may be configured to generate a classifier for each of the non-leaf nodes of the index tree 50 using unsupervised learning based on deep learning techniques. learning or semi-supervised learning may be used.
  • the electronic devices 100a, 100b and 100c display an image 60 and use the data received from the object identification support apparatus 10 to select an object of interest among a plurality of candidate objects in the image 60 do. At this time, the electronic devices 100a, 100b, and 100c can select the object of interest using the context data at the time of displaying the image 60. [ A method of selecting an object of interest will be described later.
  • the electronic devices 100a, 100b, and 100c may store information about the selected object of interest, and may periodically or aperiodically configure the object of interest data 40 and transmit the data to the service server 20.
  • the service server 20 is a server device that provides online services such as digital advertisement transmission and recommendation content delivery to the electronic devices 100a, 100b, and 100c.
  • the service server 20 can transmit the customized online service data to each electronic device 100a, 100b, and 100c using the interest object related data 40. [ A detailed description related to the configuration and operation of the electronic device will also be described later.
  • Recognition of a plurality of candidate objects 61a, 61b, 61c, 61d in the image 60 can be performed by using various object recognition methodologies known in the art.
  • object recognition can be performed by inputting data of an image 60 to an object recognition model generated through machine learning and processing the output data.
  • the object recognition model may be, for example, an artificial neural network. That is, in this case, the electronic device that recognizes the candidate object in the image 60 may store artificial neural network data outputting data for object recognition.
  • the interested object 61b of the plurality of candidate objects 61a, 61b, 61c, 61d is selected using the context information 62 at the display time of the image 60.
  • an interest node corresponding to the context data among the nodes of the index tree is selected using the context data.
  • the node of interest is selected using the result of comparison between the subject of each node of the index tree and the context data.
  • an object of interest is selected from the candidates included in the image using the node of interest.
  • the context data matching the subject of at least some of the nodes of the index tree may be meaningful for the selection of objects of interest.
  • context data that is limited to match the subject of the nodes of the index tree is obtained, so that unnecessary noise is collected as context data, and consequently, the computing load can be prevented from being consumed.
  • the context information literally means information about a situation when the image 60 is displayed.
  • the device circumstance that displays the image when the image 60 is displayed will closely match the situation that the user of the device is touching.
  • Lt; RTI ID 0.0 > 60 < / RTI >
  • the positioning information of the device displaying the image 60 may be used as the context information. As shown in FIG. 3, if it is determined that the current position is a sneaker store according to the positioning information of the apparatus, the belt image 61a as the first candidate object, the clock image 61b as the second candidate object, A foot image 61d, which is a fourth candidate object of the candidate image 61c and a fourth candidate image 61d, may be selected as an object of interest.
  • the image 60 is displayed by the microphone of the device displaying the image 60, or the microphone of the device connected in wired or wireless communication with the device, ) May be used as the context information.
  • the text "Belt is pretty” is obtained as a result of speech to text (STT)
  • the subject of the index tree node "belt” is detected in the obtained text
  • the belt image 61a that is the object of interest may be selected as the object of interest.
  • text displayed simultaneously with the image 60 may be used as the context information. It will be difficult to see that the entire text displayed concurrently with the image 60 is associated with the image 60.
  • text displayed adjacent to the display area of the image 60 may be used as the context information.
  • text associated with an indicator such as a # tag may be used as the context information.
  • the scope of the present invention is not limited to the context information of the positioning information, the voice and the text, but also various types of context information To select the object of interest.
  • the electronic device is provided with an odor recognition sensor, the odor may be utilized as context information.
  • the context information may be configured using data output from the context information generation model generated as a result of the machine learning.
  • the context information generation model is configured using, for example, an artificial neural network, and may be machine-learned using various kinds of context information described with reference to FIG. 3 to FIG.
  • the context information generation model will output the context information in consideration of the surrounding situation comprehensively.
  • an index tree 50 which is reference data for selecting an object of interest, will be described in some embodiments of the present invention.
  • the index tree 50 is constructed using both the sample images of the image archive 70 and the semantic hierarchy tree 72.
  • the index tree 50 may be constructed and updated by the interest object identification support device of FIG.
  • the index tree 50 may be constructed and updated by all devices having computing means. That is, the index tree 50 may be constructed and updated by an apparatus for displaying an image.
  • the image archive 70 is a collection of sample images for each subject.
  • the leather watch sample image 70a shown in Fig. 6 is a variety of images grouped on the theme of " leather watch ".
  • the casual watch sample image (70b) is likewise various images grouped on the theme of "casual watch”.
  • the image archive 70 may be a collection of feature data of the sample image rather than the sample image itself.
  • the semantic hierarchical tree 72 is a tree-shaped data representing a semantic hierarchical relationship of each topic.
  • the semantic hierarchical tree 72 may be composed of a single tree having one root node. However, in such a case, all the subjects of the world must be hierarchically arranged under one main rule, ) Will become deeper, resulting in inefficiency of the data processing dimension. Therefore, as shown in FIG. 6, the semantic hierarchical trees 72a, 72b, and 72c may be configured for several predetermined topics.
  • the index tree 50 may also be constituted by index trees 50a, 50b, and 50c for the same topic as the subject of the same semantic hierarchy tree.
  • each of the non-terminal nodes 50a-1, 50a-2, 50a-3, 50a-4, 50a-5 has its own classifiers 80a-1, 80a-2, 80a -3, 80a-4, and 80a-5.
  • the terminal nodes 50a-6, 50a-7 are linked to the sample images 70a, 70b of the subject of each terminal node. All nodes in the index tree 50a have a topic. That is, all the nodes in the index tree 50a have the subject text. The subject text is compared to a context.
  • the node of interest is selected according to the result of the comparison, and the index tree traversing from the node of interest to the terminal node linked to the sample image is started. This reduces the computing load required to search the sample image using the index tree. This will be described in detail below.
  • Fig. 8 shows the context information 62c in the form of a text and the index tree 50a. It is assumed that context information 62c is a set of # tags. Context information 62c includes respective # tags 62c-1, 62c-2, 62c-3, 62c-4, 62c-5, 62c-6 and 62c-7. As such, the context information may include a plurality of context elements. Context information 62c shown in FIG. 8 is divided into seven context elements 62c-1, 62c-2, 62c-3, 62c-4, 62c-5, 62c-6, and 62c-7. As illustrated in FIG. 8, in some embodiments of the present invention, the context information is divided into a plurality of context elements through analysis.
  • the context information may be composed of disparate context elements. For example, in the state where the # tags 62c shown in Fig. 8 are displayed adjacent to the image, the user who viewed the image can see " Belt Pretty? ", The voice is converted to text, and the" belt "in the text is selected as the context element. Because the " belt " is the subject of one of the index tree nodes. Then, the "belt” also becomes a context element. If the # tags 62c-1, 62c-2, 62c-3, 62c-4, 62c-5, 62c-6 and 62c-7 are context elements of a text type, Type of context element. As such, the context information can be composed of different types of context elements.
  • a node of the index tree 50a having a topic that is the same as the meaning of the context element or that has a degree of similarity higher than a predetermined value is selected.
  • the subjects of the nodes of the index tree 50a shown in Fig. 8 are [clock, wall clock, wrist watch, digital clock, analog clock, leather watch, casual watch], among which context element 62c- A node 50a-1 having the same subject as the context element 62c-1, a node 50a-1 having the same subject as the context element 62c-1 having the same meaning as the wristwatch, The node 50a-7 is selected.
  • the selected nodes 50a-1, 50a-2, and 50a-7 are nodes of interest.
  • a traversal start node for starting the traversal of the index tree may be selected among the selected interest nodes.
  • the traversal start node is the node of interest having the largest depth value of the index tree 50a among the nodes of interest.
  • the traversal start node corresponds to the most detailed topic among the context elements. That is, the traversal start node corresponds to the most detailed topic among the situations encountered by the user exposed to the image. Therefore, when the tree traversal starts from the traversal start node, the most interesting objects included in the image can be selected. That is, according to the present embodiment, detailed interest information of the user can be obtained. Also, when the tree traversal starts from the traversal start node, the number of traversals to the leaf node can be reduced. Reducing the number of moves means that the computing load is reduced accordingly.
  • a representative value of the depth value of the index tree 50a of the nodes of interest is calculated.
  • the representative value is, for example, an average value or an intermediate value.
  • the traversal start node is an interesting node whose depth value of the index tree 50a among the nodes of interest is closest to the representative value. In the case of the first embodiment of selecting the traversing start node, there is a risk that, when reaching the terminal node, matching with the sample data of the terminal node fails. In this case, it is necessary to move back toward the root node to find another terminal node.
  • the object of interest can be selected within a short time, but there is also such a risk.
  • the traversal start node since the traversal start node corresponds to a moderate specificity among the subjects of the context elements, it has the effect of canceling the risk of the previous embodiment.
  • the current node is a terminal node
  • matching with the linked sample image is performed.
  • the feature data extraction operation for each of the candidate objects 61a, 61b, 61c and 61d is performed and as a result, the feature data of each of the candidate objects 61a, 61b, 61c and 61d is obtained will be.
  • Matching is performed between the feature data of each of the obtained candidate objects 61a, 61b, 61c and 61d and the feature data of the sample images 70a connected to the current node 50a-7, It is confirmed whether or not the matching is found.
  • the candidate object 61b will be selected as the object of interest.
  • the subject of the object of interest is also determined to be a " leather watch ". Through this, it can be assumed that the user who views the image is interested in the "leather watch”.
  • the traversal start node among the three interest nodes 50a-1, 50a-2, and 50a-7 is an intermediate node 50a-2 that is a non-terminal node.
  • Figure 11 shows that node 50a-2 is the current node of the tree traversal.
  • the current node is a non-terminal node, it is possible to select one of the child nodes 50a-4 and 50a-5 of the current node according to the classifier output according to the feature data of each candidate object input to the classifier 80a-2 of the current node It is determined which node to move to. 11 shows an output according to the input of the feature data of the four candidate objects 61a, 61b, 61c and 61d in the classifier 80a-2 (80a-2 '). .
  • An output (N / A) indicating that there is no child node corresponding to all the other candidate objects 61a, 61c, 61d except for one candidate object 61b is obtained.
  • the next node will be the analog clock node 50a-4, which is the child node pointed to by the feature data of the candidate object 61b.
  • the analog clock node 50a-4 is also a non-terminal node, the next proceeding node is determined in the same manner as the wristwatch node 50a-2.
  • the casual clock node 50a-6 is determined as the next node of the analog clock node 50a-4 so that the current node is the casual clock node 50a-6.
  • the candidate object 61b will be selected as the object of interest.
  • the subject of the object of interest is also determined as a " casual watch. &Quot; Through this, it can be assumed that the user who views the image is interested in "casual watch".
  • a matching sample image may be found at a terminal node other than the node of interest. That is, even if the subject image of the context element is slightly different from the subject of the linked node to which the sample image matched with the object of interest is slightly different, the terminal node to which the sample image matched with the object of interest is linked accurately through the index tree 50a Can be searched.
  • index tree traversal logic of the present invention can be understood as a comprehensive reflection of the embodiments described herein.
  • Figs. 11 and 12 show tables 80a-2 'and 80a-4' indicating outputs of the classifier.
  • the output of the classifier of the current node will be a value indicating that there is no corresponding child node for the feature data of all the candidate objects. In this case, you must move from the current node to the root node.
  • the next node of the current node is the parent node of the current node. If the terminal node (matching node) having the sample data matching the object of interest is a sibling node of the current node, it is possible to quickly reach the matching node according to the present embodiment.
  • the next node of the current node is the closest interested node among the upper nodes of the current node.
  • the subject of the node of interest corresponds to the subject of the element in the context. That is, the node of interest is a node likely to be an important branch point in searching for the matching node. This embodiment focused on this point makes it possible to save computing load by avoiding unnecessarily going through all non-terminal nodes in the reverse movement to the superordinate node.
  • the current node is a terminal node
  • matching with the linked sample image is performed.
  • the feature data extraction operation for each of the candidate objects 61a, 61b, 61c and 61d is performed and as a result, the feature data of each of the candidate objects 61a, 61b, 61c and 61d is obtained will be.
  • Matching is performed between the feature data of each of the obtained candidate objects 61a, 61b, 61c and 61d and the feature data of the sample images 70a connected to the current node 50a-7, It is confirmed whether or not the matching is found.
  • the operation of the electronic device 100 according to the present embodiment can be achieved by obtaining context data according to the above embodiments, selecting an interest node among the nodes of the index tree, selecting an object of interest among the candidate objects by traversing the index tree But should be understood to include related operations.
  • the electronic device 100 includes a processor 101, a memory 102, and a display 104.
  • the electronic device 100 may further include at least one of a positioning means 107 such as a GPS signal receiver, a line of sight recognition sensor 106, a microphone 105 and a network interface 109.
  • a positioning means 107 such as a GPS signal receiver, a line of sight recognition sensor 106, a microphone 105 and a network interface 109.
  • the system bus 108 serves as a data transmission path between the internal elements of the electronic device 100, such as the processor 101, the memory 102, and the storage 103.
  • the memory 102 may be a volatile data storage device, such as, for example, a random access memory (RAM).
  • the storage 103 may be a data storage device such as a nonvolatile memory such as a flash memory, a hard disk, or the like.
  • An instruction in this specification refers to being executed in a processor as a series of instructions, grouped by function.
  • the storage 103 may store at least one of the index tree-related data 131, the interest object selection history data 135, the executable code of the interest object selection application 136a, and one or more application applications 137.
  • the index tree related data 131 has already been described as being received from an external device (for example, the object identification support device of FIG. 1).
  • the index tree 132 is data constituting the index tree 50 described with reference to FIG.
  • the classifier ML parameter data 133 is data for constructing a classifier of each non-terminal node in the index tree 50.
  • the sample image feature data is feature data of subject-specific sample images linked to each terminal node of the index tree 50.
  • the object of interest selection application 136a may be automatically executed and operated in the background mode.
  • the interest object selection application 136a may be executed only when there is an execution command of the user as one of application applications, or may be implemented as an internal module of the specific application application 137.
  • the interested object selection application 136a is loaded into the memory 102 and stored (136b).
  • the index tree 132 included in the index tree-related data, the classifier ML parameter data 133, and the sample image feature data 134 are also stored in the memory 102 ). ≪ / RTI >
  • the interest object selection trigger detection instruction 122 is executed. It is not desirable that the action of selecting the object of interest is always performed. Secondly, in order to generate user interest information, it is necessary to select the object of interest from the image displayed at the time when the user is interested.
  • the target object selection trigger detection instruction 122 is a timing at which the current user is interested in viewing an image through data collected from various elements of the electronic device 100 and related calculations, ≪ / RTI >
  • the interesting object selection trigger may be an indispensable requirement that at least one image is being displayed on the display 104. If there is no image being displayed, it is impossible to select the object of interest.
  • the interesting object detection trigger may be that a user of the electronic device 100 is performing an operation associated with the image.
  • the operations associated with the image may include, for example, “like” input to the image, zoom-in / zoom-out input, "sharing", “bookmark” Such as an online service upload operation of the downloaded content, a download operation of the content containing the image, and the like.
  • the interesting object detection trigger may be that the keyboard is displayed on the display 104 during the display of the image.
  • the fact that the keyboard is displayed while the image is being displayed means that the user is interested in the image by inputting the article related to the image.
  • the interesting object detection trigger may be that a user of the electronic device 100 detects that a screen capture operation is detected.
  • the fact that the keyboard is displayed while the image is displayed also means that the user wants to keep the content containing the image or send it to another person.
  • the image included in the screen-captured screen may contain the user's interest information.
  • the object of interest detection trigger may be viewed over a predefined time period through a line of sight recognition sensor. It will be clear evidence that the user is interested in a longer period of time.
  • the interesting object detection trigger may be that a virtual assistant (or voice recognition secretary) is called during the display of an image, and an operation on the current screen is requested through the virtual secretary. Operations associated with the image through the virtual assistant may also indicate the user's interest in the image.
  • a virtual assistant or voice recognition secretary
  • the context data acquisition instruction 123 When trigger generation is detected by the object selection trigger detection instruction 122, the context data acquisition instruction 123 is executed.
  • the context data acquisition instruction 123 acquires context data associated with the image displayed on the display 104, such as in the manner described above with reference to Figures 2-5.
  • a candidate object extraction instruction 126 is executed on the image displayed on the display 104, and a candidate object is detected in the image.
  • the candidate object extraction instruction 126 extracts one or more candidate objects included in the image using an object recognition model (not shown) generated as a result of the machine learning.
  • the object recognition model may be, for example, an artificial neural network.
  • the memory 102 may store a parameter set for defining the artificial neural network of the object recognition model.
  • the parameter set may include information about the number of layers constituting the artificial neural network, the number of nodes for each layer, and the weights among the nodes.
  • the object recognition model may be received from an external device (not shown) that performs the machine learning training to generate the object recognition model through the network interface 109.
  • the external device may be, for example, the object identification support device described with reference to FIG.
  • the machine learning training may be performed using sample data linked to each terminal node of the index tree 132 as a training data set.
  • the object recognition model will have the capability of recognizing candidate objects, which are regions estimated to be similar to any one of the entire sample data, among the entire input image regions.
  • the candidate object corresponds to a region of interest (ROI) in the image processing technology.
  • ROI region of interest
  • the candidate object extraction instruction 126 may be used to update the object recognition model received from the external device (not shown) via the network interface 109 periodically / aperiodically by incremental learning It is possible.
  • the candidate object extraction instruction 126 may display a candidate object recognized in the image for the incremental learning and may perform a process for obtaining feedback to the user as to whether the candidate object recognition result is correct.
  • the candidate object extraction instruction 126 will update the object recognition model by itself using the feedback.
  • the candidate object extraction instruction 126 may perform the candidate object extraction using a plurality of object recognition models together.
  • the plurality of object recognition models may include a first object recognition model for extracting an object having a first characteristic from an image and a second object recognition model for extracting an object having a second characteristic from the image. That is, the candidate object extraction instruction 126 may prevent the candidate object from being missed by using the object recognition models that professionally extract the region having the specific feature.
  • the plurality of object recognition models may include both models generated by machine learning and models using an image processing algorithm for pixel values of images.
  • the object recognition model may be one in which the output layer is learned to output feature data for each candidate object.
  • an interest node selection instruction 124 is executed.
  • the node selection instruction 124 selects the context element included in the context data among the nodes of the index tree and the node of interest to which the subject matches, through the method described above with reference to FIG.
  • the node of interest selection instruction 124 refers to the index tree 132 in the process of selecting the node of interest.
  • the index tree 132 may be data whose index tree related data 131 is loaded and stored in the memory 102 and the index tree related data 131 may have been updated by the index tree related data update instruction 125.
  • the interested object selection instruction 127 selects an interest node among the candidate objects through the method described above with reference to FIGS. 9 to 13.
  • the interest object selection instruction 127 refers to the index tree 132 to select the node of interest.
  • the interest object selection history data may be, for example, time series data including a " subject " of the object of interest per time and may be periodically / aperiodically transmitted to the service server.
  • the interest information generating method may be performed by an electronic device.
  • the interest information generating method is mainly performed by the electronic device, and the operation of the interest information generating method may be performed by another apparatus.
  • the electronic device may be, for example, the electronic device 100 shown in FIG.
  • the interest information generation method may include at least a part of the operations of the electronic device described with reference to Figs. 14 to 15 and the description of Figs. 1 to 13 referred to by the description of the operation of the computer device. Therefore, although there is no separate disclosure in the description of the method of generating interest information, which will be described below, the operation described above with reference to Figs. 1 to 15 can be included in the interest information generating method. Further, in the following description of the methods, when there is no description of the subject of operation, the subject may be interpreted as the electronic device.
  • step S101 it is determined whether or not an interest object selection trigger has occurred. If it is determined that the object of interest selection trigger has been generated, the image displayed at the time of occurrence of the trigger will be obtained (S103). Otherwise, it is determined whether or not the object selection trigger is generated.
  • step S105 one or more objects in the acquired image are sensed.
  • the objects detected at this time are referred to herein as candidate objects.
  • the feature data of each candidate object is generated.
  • the operation of the step S105 can be referred to the operation of the candidate object extracting instruction described with reference to Fig.
  • step S107 the context data at the time of occurrence of the trigger is obtained. If the context data includes a plurality of context elements, in step S109, the context elements are individually identified through analysis of the context data.
  • step S111 a node having a topic matching the subject of the context element among the nodes of the index tree is selected as an interested node.
  • step S113 an object of interest is selected from among the candidate objects using the node of interest. Detailed related operations will be described later. In some cases, the object of interest may not be selected among the candidate objects (S115). If the object of interest is selected, the history of the object of interest is recorded (S117), and the recorded history may be provided to the service server and become the basic data of the personalization service for the user.
  • an object of interest is selected among the candidate objects using the node of interest.
  • a traversal of the index tree is required, and this traversal starts from the traversal start node, one of the nodes of interest.
  • the lowest node among the nodes of interest is selected as the traversal start node (S113a).
  • the current node which means the currently determined node, is initialized with the traversal start node.
  • step S113b it is determined whether the current node does not exist. Since it is difficult to assume that there is no circulating start node at the start time, it is again determined whether or not the current node is a leaf node in step S113d.
  • step S113e the feature data of the candidate object is matched with the feature data of the sample image of the current node to determine whether there is a match (S113f). If matching exists, the object of interest becomes the candidate object matched with the sample image, and the subject of the object of interest will be the subject of the current node (S113g).
  • step S113d the current node moved as a result of the backward traversal will not be the terminal node. Accordingly, by inputting the feature data of the candidate object to the classifier in step S113h, the current node can be updated (S113i) and the circuit can continue to travel toward the terminal node again. As a result of the traversal, the terminal node is reached. If it is determined in step S113f that matching is present, the selection of the object of interest (S113g) is performed.
  • step S113h when the classifier outputs as a result that a corresponding child node exists for a part of the candidate objects and outputs no corresponding child node for another part, the candidate object in which the child node exists And the search of the tree for the candidate object in which the child node does not exist can be divided. That is, the candidate node having the child node in the current node, which is the non-terminal node, can be traversed toward the terminal node, and the candidate object having no child node can proceed to the tree node in the direction of the root node.
  • step S113i if the output of the classifier indicates that there is no child node matching the feature data of all the candidate objects, it is determined in step S113b that the current node does not exist, and there is no object of interest among the result candidate objects (S113c).
  • the methods according to the embodiments of the present invention described so far can be performed by the execution of a computer program embodied in computer readable code.
  • the computer program may be transmitted from a first computing device to a second computing device via a network, such as the Internet, and installed in the second computing device, thereby enabling it to be used in the second computing device.
  • the first computing device and the second computing device all include a server device, a physical server belonging to a server pool for cloud services, and a fixed computing device such as a desktop PC.
  • the computer program may be stored in a non-transitory recording medium such as a DVD-ROM, flash memory device, or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 인공지능(AI)에 관련된 것으로서, 사용자에 디스플레이 되는 이미지에서 상기 사용자의 관심 정보를 얻는 상황 인지 기반 인공지능 응용 기술에 관한 것이다. 본 발명의 일 실시예에 따른 전자 장치는, 상기 이미지와 관련된 컨텍스트 데이터를 획득하고, 상기 컨텍스트 데이터를 이용하여, 기계학습 결과로 생성된 모델을 이용하여 상기 이미지에서 추출된 후보 객체에 대응되는 샘플 이미지를 탐색하기 위한 인덱스 트리의 노드들 중 상기 컨텍스트 데이터에 대응되는 관심 노드를 선정하되, 상기 인덱스 트리의 각 노드의 주제와 상기 컨텍스트 데이터 사이의 비교 결과를 이용하여 상기 관심 노드를 선정하고, 상기 관심 노드를 이용하여, 상기 이미지에 포함된 후보 객체 중 관심 객체를 선정한다.

Description

사용자 관심 정보 생성 장치 및 그 방법
본 발명은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 인공지능(AI) 시스템 및 그 응용에 관련된 것으로서, 사용자에 디스플레이 되는 이미지에서 상기 사용자의 관심 정보를 얻는 상황 인지(context awareness) 기반 인공지능 응용 기술에 관한 것이다.
인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.
인공지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다. 기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.
인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.
한편, 사용자에 노출되는 다양한 컨텐츠에 대한 사용자의 피드백(feedback)을 분석함으로써, 상기 사용자의 관심 정보를 추정하는 기술이 제공되고 있다. 대표적으로, 소셜 네트워크 상에 게시된 컨텐츠에 대한 긍정 피드백을 취합하고, 긍정 피드백을 받은 컨텐츠들의 공통점으로부터 상기 사용자의 관심 정보를 얻는 등의 기술이 알려져 있다. 이 때, 사용자에게 노출된 이미지로부터 사용자의 관심 정보를 추출하기 위하여, 상기 이미지에 어떠한 주제들이 담겨 있는지 분석되는 것이 선행되어야 할 것이다. 이를 위해 상기 이미지에 포함된 객체를 인식(object recognition)하고, 인식 된 각각의 객체가 어떤 주제를 표현하는 것인지 식별하는 프로세스가 수행된다.
한편, 추출될 수 있는 관심 정보의 범위를 제한하지 않기 위하여, 식별 대상 객체의 주제가 특정 범위의 것으로 한정되는 것은 바람직하지 않다. 하지만, 범위의 한정이 없는 객체 식별을 위한 컴퓨팅 부하는 컴퓨팅 성능이 매우 뛰어난 서버 등의 고사양 전자 장치가 아니면 감당하기 어려운 수준이다. 또한, 범위의 한정이 없는 객체 식별은 그 정확도에도 문제가 발생할 확률이 높다.
또한, 컴퓨팅 부하 및 정확도의 문제가 해결된다 하더라도, 현재의 기술은 이미지에서 인식된 객체 중 상기 이미지에 노출된 사용자가 관심을 가지고 있을 것으로 판단되는 관심 객체를 선정할 수 있는 방법은 제공하지 않는다. 이미지에 복수의 서로 다른 객체가 인식된 경우, 그 복수의 객체들 중 어느 객체가 관심 객체인지 선정하는 것은, 사용자의 관심 정보를 얻는데 있어서 매우 중요하다. 상당수의 이미지는 복수의 객체를 가지고 있을 것이기 때문이다.
요컨대, 현재 제공되는 기술은 사용자에 노출된 이미지로부터 상기 사용자의 관심 정보를 생성하기 위한 핵심 구성을 누락하고 있다.
따라서, 사용자 단말 등의 비교적 컴퓨팅 성능이 뛰어나지 않은 전자 장치에서 사용될 수 있으면서도 높은 정확도를 제공하는, 이미지 내 관심 객체의 선정과 관련된 이러한 핵심 구성은 상황 인지 기반 인공지능 응용 기술의 제공이 요구된다.
본 발명이 해결하고자 하는 기술적 과제는, 이미지가 디스플레이 되는 시점의 컨텍스트 데이터(context data)를 고려하여, 상기 이미지에서 사용자가 관심이 있는 것으로 추정되는 정보를 얻는 인공지능 응용 기술 구현 전자 장치 및 그 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 다른 기술적 과제는, 상기 이미지에서 인식된 객체들 각각에 대응되는 샘플 이미지를 탐색하기 위한 인덱스 트리(index tree)의 관심 노드를 선정하고, 인식된 객체에 매칭되는 샘플 이미지의 탐색을 상기 관심 노드로부터 시작함으로써, 이미지 내의 관심 객체가 선정되는 속도를 증가시키는 인공지능 응용 기술 구현 전자 장치 및 그 방법을 제공하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명의 기술분야에서의 통상의 기술자에게 명확하게 이해 될 수 있을 것이다.
본 발명의 일 실시예에 따른 전자 장치는, 프로세서와, 이미지를 표시하는 하는 디스플레이와, 상기 프로세서에 의하여 실행되는 복수의 인스트럭션(instruction)을 저장하는 메모리를 포함한다. 이 때, 상기 복수의 인스트럭션은, 상기 디스플레이에 표시된 이미지와 관련된 컨텍스트 데이터(context data)를 획득하는 인스트럭션과, 상기 컨텍스트 데이터를 이용하여, 상기 이미지의 후보 객체에 대응되는 샘플 이미지를 탐색하기 위한 인덱스 트리(index tree)의 노드들 중 상기 컨텍스트 데이터에 대응되는 관심 노드를 선정하되, 상기 인덱스 트리의 각 노드의 주제와 상기 컨텍스트 데이터 사이의 비교 결과를 이용하여 상기 관심 노드를 선정하는 인스트럭션과, 상기 관심 노드를 이용하여, 상기 이미지에 포함된 후보 객체 중 관심 객체를 선정하는 인스트럭션을 포함한다. 이 때, 상기 인덱스 트리는 각 노드의 주제 간의 시맨틱(semantic) 관계에 따라 다른 노드와 계층적으로 연결된 것일 수 있다.
일 실시예에서, 상기 컨텍스트 데이터는, 복수의 컨텍스트 요소를 포함하고, 상기 관심 노드를 선정하는 인스트럭션은 상기 복수의 컨텍스트 요소에 대응 되는 복수의 노드들 중 최하위 노드를 상기 관심 노드로 선정하는 인스트럭션을 포함할 수 있다.
일 실시예에서, 상기 복수의 컨텍스트 요소는 제1 컨텍스트 요소 및 제2 컨텍스트 요소를 포함하고, 상기 제1 컨텍스트 요소에 대응되는 제1 노드 및 상기 제2 컨텍스트 요소에 대응되는 제2 노드 중 상기 최하위 노드는 제2 노드일 때, 상기 관심 객체를 선정하는 인스트럭션은, 상기 후보 객체 중 상기 제2 노드에 대응되는 객체를 찾는 것을 실패하면, 상기 복수의 후보 객체 중 상기 제1 노드에 대응되는 객체를 찾는 인스트럭션과, 상기 제1 노드를 이용하여 상기 이미지에 포함된 후보 객체 중 관심 객체를 선정하는 인스트럭션을 포함할 수 있다. 이 때, 상기 제1 노드는 상기 인덱스 트리 상에서 깊이가 N(N는 1이상의 자연수)이고, 상기 제1 노드는 상기 인덱스 트리 상에서 깊이가 N+2(N는 1이상의 자연수) 이상이며, 상기 복수의 후보 객체 중 상기 제1 노드에 대응되는 객체를 찾는 인스트럭션은, 상기 후보 객체 중 상기 제2 노드에 대응되는 객체를 찾는 것을 실패하면, 상기 제2 노드와 상기 제1 노드 사이에 존재하는 노드를 하나 이상 건너뛰고 상기 제1 노드로 이동하는 인스트럭션을 포함할 수 있다.
일 실시예에서, 상기 관심 객체를 선정하는 인스트럭션은, 상기 후보 객체 중 상기 관심 노드에 대응되는 객체를 찾는 것을 실패하면, 상기 복수의 후보 객체 중 상기 관심 노드의 상위 노드에 대응되는 객체를 찾는 인스트럭션과, 상기 상위 노드를 이용하여 상기 이미지에 포함된 후보 객체 중 관심 객체를 선정하는 인스트럭션을 포함할 수 있다.
일 실시예에서, 상기 인덱스 트리의 노드들은 단말 노드(leaf node) 및 비-단말 노드(non-leaf node)를 포함하고, 상기 비-단말 노드 각각은 특징 데이터를 입력 받아 상기 특징 데이터에 대응 되는 자식 노드를 가리키는 출력을 생성하는 분류기(classifier)를 포함하며, 상기 관심 노드를 이용하여 상기 이미지에 포함된 후보 객체 중 관심 객체를 선정하는 인스트럭션은, 상기 관심 노드가 상기 비-단말 노드인 경우, 상기 관심 노드의 분류기에 상기 후보 객체의 특징 데이터를 입력하고, 상기 분류기의 출력이 가리키는 자식 노드로 이동하는 인스트럭션과, 상기 자식 노드로 이동하는 인스트럭션을, 단말 노드에 도달할 때까지 반복하는 인스트럭션을 포함할 수 있다. 이 때, 상기 단말 노드는 이미지 아카이브(archive)의 각 샘플 이미지들 중, 상기 단말 노드에 할당된 주제에 매칭된 하나 이상의 이미지에 매칭된 것이고, 상기 관심 노드를 이용하여 상기 이미지에 포함된 후보 객체 중 관심 객체를 선정하는 인스트럭션은, 상기 단말 노드에 도달하면, 상기 단말 노드에 매칭된 샘플 이미지와 상기 후보 객체의 매칭 여부를 판정하는 인스트럭션과, 상기 단말 노드에 매칭된 이미지와 매칭되는 것으로 판정된 상기 후보 객체를, 상기 관심 객체로 선정하는 인스트럭션을 포함할 수 있다. 또한, 상기 관심 노드를 이용하여 상기 이미지에 포함된 후보 객체 중 관심 객체를 선정하는 인스트럭션은, 모든 후보 객체에 대하여, 현재 노드의 분류기의 출력이 상기 특징 데이터에 대응 되는 자식 노드가 존재하지 않음을 가리키는 경우, 상기 현재 노드의 상위 노드로 이동하는 인스트럭션을 포함할 수 있다. 상기 현재 노드의 상위 노드는, 상기 현재 노드의 상위 노드들 중 상기 컨텍스트 데이터에 포함되는 복수의 컨텍스트 요소 중 하나와 매칭되는 가장 가까운 상위 노드일 수 있다.
일 실시예에서, 상기 컨텍스트 데이터를 획득하는 인스트럭션은, 상기 인덱스 트리의 노드들 중 적어도 일부 노드의 주제와 매칭되는 컨텍스트 데이터를 획득하는 인스트럭션을 포함할 수 있다. 다른 실시예에서, 상기 컨텍스트 데이터를 획득하는 인스트럭션은, 상기 디스플레이에 상기 이미지와 동시에 표시된 텍스트를 상기 컨텍스트 데이터로서 획득하는 인스트럭션을 포함할 수 있다. 또 다른 실시예에서, 상기 컨텍스트 데이터를 획득하는 인스트럭션은, 상기 전자 장치의 측위 정보를 상기 컨텍스트 데이터로서 획득하는 인스트럭션을 포함할 수 있다. 또 다른 실시예에서, 상기 컨텍스트 데이터를 획득하는 인스트럭션은, 상기 디스플레이에 상기 이미지가 표시되는 동안 마이크를 통해 입력된 보이스 데이터가 변환된 텍스트를 상기 컨텍스트 데이터로서 획득하는 인스트럭션을 포함할 수 있다.
일 실시예에서, 상기 컨텍스트 데이터를 획득하는 인스트럭션은, 관심 객체 선정 동작의 트리거(trigger)를 감지하면, 상기 컨텍스트 데이터를 획득하는 인스트럭션을 포함할 수 있다. 이 때, 상기 트리거는, 상기 전자 장치 사용자의 상기 이미지와 관련된 조작이 감지되는 것이거나, 상기 이미지가 표시되는 도중, 상기 디스플레이 상에 키보드가 표시되는 것이거나, 스크린 캡처 조작이 감지되는 것이거나, 상기 트리거는, 시선 인식 센서를 통하여 기 지정된 시간 이상의 주시가 감지되는 것일 수 있다.
본 발명의 다른 실시예에 따른 사용자 관심 정보 생성 방법은, 이미지의 디스플레이 시점의 컨텍스트 데이터를 획득하는 단계와, 상기 컨텍스트 데이터를 이용하여, 상기 이미지에서 인식된 복수의 후보 객체에 대응되는 샘플 이미지를 탐색하기 위한 인덱스 트리의 노드들 중 상기 컨텍스트 데이터에 대응되는 관심 노드를 선정하는 단계와, 상기 관심 노드를 이용하여, 상기 복수의 후보 객체 중 관심 객체를 선정하는 단계를 포함한다.
일 실시예에서, 상기 인덱스 트리는 각 노드의 주제 간의 시맨틱 관계에 따라 다른 노드와 계층적으로 연결된 것이고, 상기 인덱스 트리의 비-단말 노드 각각은 고유의 분류기를 포함하되, 상기 고유의 분류기는 이미지의 특징 데이터를 입력 받아 상기 특징 데이터에 대응 되는 자식 노드를 가리키는 출력을 생성하는 것이고, 상기 단말 노드는 상기 단말 노드의 주제에 매칭된 하나 이상의 이미지에 매칭된 것이며, 이 때, 상기 관심 객체를 선정하는 단계는, 상기 관심 노드가 상기 비-단말 노드인 경우, 상기 관심 노드의 분류기에 상기 후보 객체의 특징 데이터를 입력하고, 상기 분류기의 출력이 가리키는 자식 노드로 이동하는 단계와, 상기 자식 노드로 이동하는 인스트럭션을, 단말 노드에 도달할 때까지 반복하는 단계와, 상기 단말 노드에 도달하면, 상기 단말 노드에 매칭된 샘플 이미지와 상기 후보 객체의 매칭 여부를 판정하는 단계와, 상기 단말 노드에 매칭된 이미지와 매칭되는 것으로 판정된 상기 후보 객체를 상기 관심 객체로 선정하는 단계를 포함할 수 있다. 이 때, 일 실시예에서, 상기 복수의 후보 객체는 제1 객체 및 제2 객체를 포함하고, 상기 분류기의 출력이 가리키는 자식 노드로 이동하는 단계는, 상기 제1 객체의 특징 데이터의 입력에 따른 상기 분류기의 출력은 상기 현재 노드의 자식 노드 중 하나로의 이동을 가리키고, 상기 제2 객체의 특징 데이터의 입력에 따른 상기 분류기의 출력은 상기 제2 객체에 대응 되는 자식 노드가 존재하지 않음을 가리키는 경우, 상기 제1 객체에 대한 트리 탐색과 상기 제2 객체에 대한 트리 탐색을 분할하는 단계를 포함할 수도 있다. 또한, 다른 실시예에서, 상기 복수의 후보 객체는 제1 객체 및 제2 객체를 포함하고, 상기 분류기의 출력이 가리키는 자식 노드로 이동하는 단계는, 상기 제1 객체의 특징 데이터의 입력에 따른 상기 분류기의 출력은 상기 현재 노드의 자식 노드 중 하나로의 이동을 가리키고, 상기 제2 객체의 특징 데이터의 입력에 따른 상기 분류기의 출력은 상기 제2 객체에 대응 되는 자식 노드가 존재하지 않음을 가리키는 경우, 상기 제2 객체에 대한 트리 탐색을 종료하는 단계를 포함할 수도 있다.
도 1은 본 발명의 일 실시예에 따른 사용자 관심 정보 생성 시스템의 구성도이다.
도 2는 본 발명의 몇몇 실시예들에 따른 컨텍스트 데이터 기반 관심 객체 선정을 설명하기 위한 개념도이다.
도 3은 본 발명의 일 실시예에 따른 측위 정보 기반 관심 객체 선정을 설명하기 위한 개념도이다.
도 4는 본 발명의 일 실시예에 따른 보이스 기반 관심 객체 선정을 설명하기 위한 개념도이다.
도 5는 본 발명의 몇몇 실시예들에 따른 텍스트 기반 관심 객체 선정을 설명하기 위한 개념도이다.
도 6 내지 도 7은 본 발명의 몇몇 실시예들에서 참조 되는 인덱스 트리의 이해를 돕기 위한 개념도이다.
도 8 내지 도 13는 본 발명의 몇몇 실시예들에 따른 관심 객체 선정 과정을 설명하기 위한 개념도이다.
도 14는 본 발명의 다른 실시예에 따른 전자 장치의 구성도이다.
도 15은 도 14에 도시된 인스트럭션들이 서로 연동되어 실행되는 것을 설명하기 위한 개념도이다.
도 16은 본 발명의 또 다른 실시예에 따른 관심 객체 선정 방법의 순서도이다.
도 17는 도 16의 방법 중 관심 객체 선정 동작을 보다 상세하게 설명하기 위한 상세 순서도이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 이하, 도면들을 참조하여 본 발명의 몇몇 실시예들을 설명한다.
도 1을 참조하여 본 발명의 일 실시예에 따른 사용자 관심 정보 시스템의 구성 및 동작을 설명한다. 본 실시예에 따른 시스템은 관심 객체 식별 지원 장치(10) 및 전자 장치(100a, 100b, 100c)를 포함할 수 있다. 전자 장치(100a, 100b, 100c)는 사용자에 의하여 사용되는 사용자 단말로서, 예를 들어, 스마트폰, 스마트워치 등의 웨어러블 디바이스, 태블릿, 데스크톱, 노트북, 디지털 TV, 디지털 사이니지, 키오스크 등의 연산 프로세서가 구비된 컴퓨팅 장치 또는 컴퓨팅 수단이 구비된 디지털 장치 등의 전자 장치일 수 있다.
관심 객체 식별 지원 장치(10)는 인덱스 트리(50) 및 분류기 ML(Machine Learning) 파라미터(51), 인덱스 트리(50)의 각 단말 노드 별로 그룹핑 된 샘플 이미지들의 특징 데이터(feature data) 셋(미도시) 등 전자 장치(100a, 100b, 100c)가 관심 객체의 식별을 수행하기 위하여 필요한 데이터를 관리하고, 상기 데이터에 업데이트가 존재하는 경우, 전자 장치(100a, 100b, 100c)에 업데이트 된 데이터를 송신한다.
인덱스 트리(50)는 주제를 식별하고자 하는 객체에 매칭되는 샘플 이미지를 탐색하기 위한 데이터 구조이다. 상기 샘플 이미지는 주제를 기준으로 그룹핑 되어 있다. 이미지의 주제를 인식하기 위하여, 상기 샘플 이미지와의 비교 결과가 참조될 수 있다. 각 주제의 샘플 이미지들은, 인덱스 트리(50)의 해당 주제의 단말 노드(leaf node)를 통하여 억세스 될 수 있다.
다양한 주제의 이미지들이 인식 될 수 있어야 하고, 각 주제는 다양한 이미지로 표현될 수 있는 바, 이미지에 대한 인식 성능을 개선시키기 위하여, 샘플 이미지들의 개수가 점점 증가하게 될 것이다. 이미지 간의 유사도 비교는 픽셀 간의 비교 방식에서, 특징 데이터 셋(‘특징 벡터’라고도 함)을 이용한 비교 방식으로 발전되었다. 따라서, 샘플 이미지 자체의 보유는 필수적이지 않다. 상기 샘플 이미지에 대한 특징 데이터가 사전에 추출되어, 각 샘플 이미지 자체가 아닌 각 샘플 이미지의 특징 데이터만 관리함으로써 저장 공간을 절약하고, 연산 속도를 증대 시킬 수 있다. 이에 따라, 각 주제의 샘플 이미지 자체가 아니라 샘플 이미지의 특징 데이터가, 인덱스 트리(50)의 해당 주제의 단말 노드에 링크(link) 될 수 있다.
전자 장치(100a, 100b, 100c)에 디스플레이 된 이미지(60)에 대한 분석을 통하여, 이미지(60)에 포함된 하나 이상의 객체(object)가 인식된다. 이러한 객체 인식은 인공지능 기술에 기반하여 수행될 수 있다. 예를 들어, 기계학습 수행 장치에 의하여 트레이닝 데이터셋을 이용한 기계학습이 수행되고, 기계학습의 결과 생성된 객체 인식 모델을 이용하여 이미지(60)에 포함된 하나 이상의 객체가 인식 될 수 있다. 이미지(60)에서 인식 된 하나 이상의 객체를, 이하 ‘후보 객체’로 지칭한다. 또한, ‘후보 객체’ 중 사용자가 관심을 가지고 있는 것으로 추정되는 객체를 ‘관심 객체’로 지칭한다. 이미지(60)에서 객체를 인식하는 것과 관련하여 도 14 또는 도 16 등을 참조하여 후술한다.
후보 객체가 무엇을 표현하는 이미지인지를 인식하기 위해, 인덱스 트리(50)를 루트 노드(root node)로부터 단말 노드(leaf node)로의 탑-다운(top-down) 방식으로 순회(traverse)하고, 상기 순회 과정에서 상기 후보 객체와 유사한 샘플 이미지가 있을 것으로 판단되는 단말 노드를 찾아낼 필요가 있다. 상기 순회 과정에서, 현재 노드가 복수의 자식 노드를 가지는 비-단말(non-leaf node) 노드인 경우, 어떤 자식 노드로 이동해야 하는 지의 문제가 발생한다. 이 때, 상기 비-단말 노드의 분류기(classifier)를 이용하여, 이동할 자식 노드가 선택된다.
몇몇 실시예들에서, 상기 분류기는 기계학습(machine learning) 기술을 이용하여 생성된 이미지 분류 모델이다.
상술한 바와 같이, 인덱스 트리(50)의 탐색에 있어서 상기 분류기의 출력은 최종 목적지인 단말 노드로 향하기 위한 기준 데이터가 된다. 상기 분류기는 분류기 ML 파라미터(51)를 이용하여 전자 장치(100a, 100b, 100c)에서 구성될 수 있다. 즉, 현재 노드에서 단말 노드를 향할 때, 현재 노드의 자식 노드들 중 어느 노드로 이동해야 할 지 결정해야 하는데, 현재 노드의 분류기의 출력 데이터가 가리키는 자식 노드로 이동하면 된다.
각각의 비-단말 노드는 자식 노드가 서로 다르기 때문에, 각각의 비-단말 노드는 각자 고유의 분류기를 가질 수 있다. 따라서, 관심 객체 식별 지원 장치(10)는 각각의 비-단말 노드를 위한 트레이닝 데이터(training data)를 이용하여 기계학습 트레이닝을 수행함으로써, 각 비-단말 노드 고유의 객체 이미지의 분류기를 생성한다. 지도 학습(supervised learning) 타입의 기계학습이 수행되는 경우, 제1 비-단말 노드가 제1 자식 노드 및 제2 자식 노드를 가질 때, 상기 제1 비-단말 노드의 트레이닝 데이터는 제1 자식 노드의 하위 노드가 가지는 샘플 데이터의 특징 데이터 셋으로서, 제1 태그가 부여된 것들과, 제2 자식 노드의 하위 노드가 가지는 샘플 데이터의 특징 데이터 셋으로서, 제2 태그가 부여된 것들을 포함할 것이다.
물론, 관심 객체 식별 지원 장치(10)는 인덱스 트리(50)의 비-단말 노드(non-leaf node) 각각을 위한 분류기를 생성함에 있어서, 딥 러닝(deep learning) 기술에 기반한 비지도 학습(unsupervised learning) 또는 반-지도 학습(semi-supervised learning)이 이용될 수도 있다.
전자 장치(100a, 100b, 100c)는, 이미지(60)를 표시하고, 관심 객체 식별 지원 장치(10)로부터 수신된 데이터를 이용하여 이미지(60) 내부의 복수의 후보 객체들 중 관심 객체를 선정한다. 이 때, 전자 장치(100a, 100b, 100c)는 이미지(60) 표시 시점의 컨텍스트 데이터를 이용하여 상기 관심 객체를 선정할 수 있다. 관심 객체 선정 방법에 대하여는 후술한다.
전자 장치(100a, 100b, 100c)는 선정된 관심 객체에 대한 정보를 저장해 두었다가, 주기적 또는 비주기적으로 관심 객체 관련 데이터(40)로 구성하여 서비스 서버(20)에 송신할 수 있다. 서비스 서버(20)는 전자 장치(100a, 100b, 100c)에 디지털 광고 송신, 추천 컨텐츠 제공 등 온라인 서비스를 제공하는 서버 장치이다. 서비스 서버(20)는 관심 객체 관련 데이터(40)를 이용하여 각 전자 장치(100a, 100b, 100c)에 대하여 사용자 맞춤형 온라인 서비스 데이터를 송신할 수 있다. 전자 장치의 구성 및 동작과 관련된 구체적인 설명도 후술될 것이다.
이하, 본 발명의 몇몇 실시예들을 통하여 실현될 수 있는 컨텍스트 데이터 기반 관심 객체 선정을 도 2 내지 도 5를 참조하여 설명한다.
복수의 후보 객체(61a, 61b, 61c, 61d)를 가지는 이미지(60)가 디스플레이 된다고 가정한다. 이미지(60)에서 복수의 후보 객체(61a, 61b, 61c, 61d)를 인식하는 것은, 공지의 다양한 객체 인식 방법(object recognition methodology)을 이용하는 것에 의하여 수행될 수 있다. 예를 들어, 기계학습을 통하여 생성된 객체 인식 모델에 이미지(60)의 데이터를 입력하고, 그 출력 데이터를 처리하는 것에 의하여 객체 인식이 수행될 수 있다. 상기 객체 인식 모델은, 예를 들어 인공 신경망(neural network)으로 구성된 것일 수 있다. 즉, 이 경우 이미지(60)에서 후보 객체를 인식하는 전자 장치에는 객체 인식을 위한 데이터를 출력하는 인공 신경망 데이터가 저장될 수 있다. 본 발명의 몇몇 실시예들에서, 이미지(60)의 표시 시점의 컨텍스트 정보(62)를 이용하여 복수의 후보 객체(61a, 61b, 61c, 61d) 중 관심 객체(61b)가 선정된다.
후술 하겠지만, 컨텍스트 데이터를 이용하여, 상기 인덱스 트리의 노드들 중 상기 컨텍스트 데이터에 대응되는 관심 노드가 선정된다. 이 때, 상기 인덱스 트리의 각 노드의 주제와 상기 컨텍스트 데이터 사이의 비교 결과를 이용하여 상기 관심 노드가 선정된다. 그리고, 상기 관심 노드를 이용하여, 상기 이미지에 포함된 후보 객체 중 관심 객체가 선정된다. 따라서, 상기 인덱스 트리의 노드들 중 적어도 일부 노드의 주제와 매칭되는 컨텍스트 데이터가 관심 객체의 선정을 위하여 유의미한 것일 수 있다. 따라서, 일 실시예에 따르면, 상기 인덱스 트리의 노드들의 주제와 매칭되는 것으로 한정되는 컨텍스트 데이터가 획득됨으로써, 불필요한 노이즈가 컨텍스트 데이터로서 수집되고, 그로 인해 컴퓨팅 부하가 소모되는 것이 방지될 수 있다.
컨텍스트 정보는, 말 그대로 이미지(60)가 디스플레이 될 때의 상황에 대한 정보를 의미한다. 이미지(60)가 디스플레이 될 때의 이미지를 디스플레이 하는 장치 주변 상황은, 상기 장치의 사용자가 접하는 상황과 거의 일치할 것이다. 이러한 착안에 따라, 본 발명의 몇몇 실시예들에서, 관심 객체(61b)의 선정에, 이미지(60)가 디스플레이 되는 시점의, 이미지(60)가 디스플레이 되는 장치 주변의 컨텍스트 정보를 반영함으로써, 이미지(60)에 노출되는 사용자의 관심을 반영한다.
다양한 종류의 컨텍스트 정보가 사용자의 관심 사항을 추정하기 위하여 참조될 수 있다. 이하, 몇몇 실시예들을 설명한다.
일 실시예에서, 도 3에 도시된 것과 같이, 이미지(60)를 디스플레이 하는 장치의 측위 정보가 상기 컨텍스트 정보로서 사용될 수 있다. 도 3에 도시된 바와 같이, 상기 장치의 측위 정보에 따를 때 현재 위치가 운동화 매장인 것으로 판정되면, 제1 후보 객체인 벨트 이미지(61a), 제2 후보 객체인 시계 이미지(61b), 제3 후보 객체인 신발의 일부 이미지(61c) 및 제4 후보 객체인 신발 이미지(61d) 중 제4 후보 객체인 신발 이미지(61d)가 관심 객체로 선정될 수 있을 것이다.
다른 실시예에서, 도 4에 도시된 것과 같이, 이미지(60)를 디스플레이 하는 장치의 마이크, 또는 상기 장치와 유무선 통신으로 연결된 장치의 마이크에 의하여 이미지(60)가 디스플레이 되는 동안 감지 된 보이스(voice)가 상기 컨텍스트 정보로서 사용될 수 있다. 도 4에 도시된 바와 같이, 상기 보이스를 텍스트로 변환(STT; Speech To Text)한 결과, “벨트 예쁜데?”라는 텍스트가 얻어지고, 얻어진 텍스트에서 “벨트”라는 인덱스 트리 노드의 주제가 감지되면, 제1 후보 객체인 벨트 이미지(61a), 제2 후보 객체인 시계 이미지(61b), 제3 후보 객체인 신발의 일부 이미지(61c) 및 제4 후보 객체인 신발 이미지(61d) 중 제1 후보 객체인 벨트 이미지(61a)가 관심 객체로 선정될 수 있을 것이다.
또 다른 실시예에서, 도 5에 도시된 것과 같이, 이미지(60)와 동시에 디스플레이 된 텍스트가 상기 컨텍스트 정보로서 사용될 수 있다. 이미지(60)와 동시에 디스플레이 된 텍스트 전체가 이미지(60)와 관련된 것으로 보기에는 무리가 따를 것이다. 따라서, 일 실시예에서, 이미지(60)의 표시 영역에 인접하여 표시된 텍스트가 상기 컨텍스트 정보로서 사용될 수 있다. 또한, 다른 실시예에서, #태그 등의 표시자가 연결된 텍스트가 상기 컨텍스트 정보로서 사용될 수도 있다.
도 5에 도시된 바와 같이, 이미지(60)와 동시에 #태그(62c) 들이 표시되면, 그 태그들 중 “시계”, “가죽시계” 및 “손목시계”라는 인덱스 트리 노드의 주제들이 감지되고, 제1 후보 객체인 벨트 이미지(61a), 제2 후보 객체인 시계 이미지(61b), 제3 후보 객체인 신발의 일부 이미지(61c) 및 제4 후보 객체인 신발 이미지(61d) 중 제2 후보 객체인 시계 이미지(61b)가 관심 객체로 선정될 수 있을 것이다.
이상, 도 3 내지 도 5를 참조하여 3가지의 컨텍스트 정보 타입을 예시하였으나, 본 발명의 범위는 측위 정보, 보이스 및 텍스트의 컨텍스트 정보 뿐 만 아니라, 그 의미가 식별될 수 있는 다양한 타입의 컨텍스트 정보를 이용하여 관심 객체를 선정하는 것에 미친다. 예를 들어, 전자 장치에 냄새 인식 센서가 구비되는 경우, 상기 냄새도 컨텍스트 정보로서 활용될 수 있을 것이다.
또한, 일 실시예에서, 상기 컨텍스트 정보는 기계학습의 결과로 생성된 컨텍스트 정보 생성 모델에서 출력된 데이터를 이용하여 구성될 수 있다. 상기 컨텍스트 정보 생성 모델은 예를 들어, 인공 신경망을 이용하여 구성된 것으로서, 도 3 내지 도 5를 참조하여 설명한 다양한 종류의 컨텍스트 정보를 이용하여 기계학습 된 것일 수 있다. 이러한 컨텍스트 정보 생성 모델은 주변 상황을 종합적으로 고려하여 컨텍스트 정보를 출력할 것이다.
도 5의 사례에서 시계 이미지(61b)가 관심 객체로 선정되는 구체적인 로직에 대하여 이하 구체적으로 설명한다.
먼저, 도 6 및 도 7을 참조하여, 본 발명의 몇몇 실시예들에서 관심 객체의 선정을 위한 참조 데이터가 되는 인덱스 트리(50)에 대하여 설명한다.
도 6에 도시된 바와 같이, 이미지 아카이브(70)의 샘플 이미지들과 시맨틱 계층 트리(72) 모두 이용하여 인덱스 트리(50)가 구성된다. 인덱스 트리(50)는, 도 1의 관심 객체 식별 지원 장치에 의하여 구성되고 업데이트 될 수 있다. 다만, 인덱스 트리(50)는 컴퓨팅 수단을 가지는 모든 장치에 의하여 구성되고 업데이트 될 수 있다. 즉, 인덱스 트리(50)는 이미지를 디스플레이 하는 장치에 의하여 구성되고, 업데이트 될 수도 있다.
이미지 아카이브(70)는 각 주제 별 샘플 이미지들의 집합체이다. 도 6에 도시된 가죽 시계 샘플 이미지(70a)는 “가죽 시계”라는 주제를 기준으로 그룹핑 된 다양한 이미지들이다. 캐주얼 시계 샘플 이미지(70b)도 마찬가지로 “캐주얼 시계”라는 주제를 기준으로 그룹핑 된 다양한 이미지들이다. 이미지 아카이브(70)는 샘플 이미지 자체가 아닌 샘플 이미지의 특징 데이터들의 집합체일 수도 있다.
시맨틱 계층 트리(72)는, 각 주제의 의미론적 계층 관계를 표현하는 트리 형태의 데이터이다. 시맨틱 계층 트리(72)를 하나의 루트 노드(root node)를 가지는 단일 트리로 구성할 수도 있겠지만, 그렇게 구성하는 경우, 세상의 모든 주제를 하나의 대주제 아래로 계층 구성해야 하므로, 트리의 깊이(depth)가 깊어지게 되는 등 데이터 처리 차원의 비효율을 초래할 것이다. 따라서, 도 6에 도시된 바와 같이, 사전 지정된 몇몇 주제 별로 시맨틱 계층 트리들(72a, 72b, 72c)이 구성될 수 있다. 이 경우, 인덱스 트리(50)도 동일한 시맨틱 계층 트리의 주제와 동일한 주제 별로 인덱스 트리들(50a, 50b, 50c)이 구성될 수 있다.
도 7을 참조하여, 인덱스 트리(50a)의 구체적인 구성을 상술한다. 도 7에 도시된 바와 같이, 각각의 비-단말 노드들(50a-1, 50a-2, 50a-3, 50a-4, 50a-5)은 각자의 분류기(80a-1, 80a-2, 80a-3, 80a-4, 80a-5)를 가진다. 단말 노드들(50a-6, 50a-7)은 각 단말 노드의 주제의 샘플 이미지들(70a, 70b)에 링크 된다. 인덱스 트리(50a)의 모든 노드들은 주제를 가진다. 즉, 인덱스 트리(50a)의 모든 노드들은 주제 텍스트를 가진다. 상기 주제 텍스트는 컨텍스트와 비교된다. 상기 비교의 결과에 의하여 관심 노드가 선정되며, 상기 관심 노드로부터 샘플 이미지에 링크 된 단말 노드를 목적지로 하는 인덱스 트리 순회가 시작된다. 이로 인하여, 인덱스 트리를 이용하여 샘플 이미지를 탐색하는데 소요되는 컴퓨팅 부하가 절감된다. 이하 상술한다.
도 8는 텍스트 형태의 컨텍스트 정보(62c) 및 인덱스 트리(50a)를 도시한다. 컨텍스트 정보(62c)는 #태그들의 집합인 상황을 가정한다. 컨텍스트 정보(62c)는 각각의 #태그들(62c-1, 62c-2, 62c-3, 62c-4, 62c-5, 62c-6, 62c-7)을 포함한다. 이와 같이, 컨텍스트 정보는 복수의 컨텍스트 요소를 포함할 수 있다. 도 8에 도시된 컨텍스트 정보(62c)는 7개의 컨텍스트 요소들(62c-1, 62c-2, 62c-3, 62c-4, 62c-5, 62c-6, 62c-7)로 구분된다. 도 8에 예시된 바와 같이, 본 발명의 몇몇 실시예들에서 컨텍스트 정보는 분석을 통하여 복수의 컨텍스트 요소로 분할된다.
일 실시예에서, 컨텍스트 정보는 이종의 컨텍스트 요소로 구성될 수 있다. 예를 들어, 도 8에 도시된 #태그들(62c)이 이미지에 인접하여 디스플레이 된 상태에서, 상기 이미지를 본 사용자가 “와! 벨트 예쁜데?”라고 말하면, 그 보이스가 텍스트로 변환되고, 텍스트에서 “벨트”가 컨텍스트 요소로서 선정된다. “벨트”가 인덱스 트리 노드들 중 하나의 주제인 때문이다. 그러면, “벨트”도 컨텍스트 요소가 된다. 이 때, 각각의 #태그들(62c-1, 62c-2, 62c-3, 62c-4, 62c-5, 62c-6, 62c-7)이 텍스트 타입의 컨텍스트 요소라면, “벨트”는 보이스 타입의 컨텍스트 요소가 될 것이다. 이처럼, 컨텍스트 정보는 이종의 컨텍스트 요소로 구성될 수 있다.
각각의 컨텍스트 요소가 식별되면, 컨텍스트 요소의 의미와 동일 또는 기 지정된 수치 이상의 유사도를 갖는 주제를 갖는 인덱스 트리(50a)의 노드가 선정된다. 도 8에 표시된 인덱스 트리(50a)의 노드들의 주제는 [시계, 벽시계, 손목시계, 디지털시계, 아날로그시계, 가죽시계, 캐주얼시계]인데, 그 중, 의미가 시계인 컨텍스트 요소(62c-2)와 동일한 주제의 노드(50a-1), 의미가 손목시계인 컨텍스트 요소(62c-7)와 동일한 주제의 노드(50a-2), 의미가 가죽시계인 컨텍스트 요소(62c-4)와 동일한 주제의 노드(50a-7)가 선정된다. 상기 선정된 노드들(50a-1, 50a-2, 50a-7)이 관심 노드이다.
일 실시예에서, 선정된 관심 노드가 복수개인 경우, 인덱스 트리의 순회를 시작하기 위한 순회 시작 노드가 선정된 관심 노드들 중에서 선정될 수 있다.
순회 시작 노드 선정의 제1 실시예에 따르면, 상기 순회 시작 노드는 상기 관심 노드들 중 인덱스 트리(50a)의 깊이(depth) 값이 가장 큰 관심 노드이다. 상기 순회 시작 노드는, 컨텍스트 요소들 중 가장 세부적인 주제에 대응되는 것이다. 즉, 상기 순회 시작 노드는, 이미지에 노출된 사용자가 접한 상황 중 가장 세부적인 주제에 대응되는 것이다. 따라서, 이러한 순회 시작 노드로부터 트리 순회가 시작되면, 상기 이미지에 포함된 가장 세부적인 관심 객체를 선정할 수 있는 효과가 있다. 즉, 본 실시예에 따르면, 사용자의 세부적인 관심 정보까지 얻을 수 있다. 또한, 이러한 순회 시작 노드로부터 트리 순회가 시작되면, 단말 노드까지의 이동 횟수를 줄일 수 있다. 이동 횟수가 줄어든다는 것은, 그만큼 컴퓨팅 부하가 감소한다는 것을 의미한다.
순회 시작 노드 선정의 제2 실시예에 따르면, 상기 관심 노드들의 인덱스 트리(50a) 깊이 값의 대표 값이 연산된다. 상기 대표 값은, 예를 들어 평균 값 또는 중간 값이다. 상기 순회 시작 노드는 상기 관심 노드들 중 인덱스 트리(50a)의 깊이 값이 상기 대표 값에 가장 가까운 관심 노드이다. 순회 시작 노드 선정의 제1 실시예의 경우, 단말 노드에 도달했을 때, 단말 노드의 샘플 데이터와의 매칭이 실패할 리스크가 존재한다. 이 경우, 다시 루트 노드 방향으로 거슬러 이동하여 다른 단말 노드를 찾을 필요가 있다. 즉, 순회 시작 노드 선정의 제1 실시예의 경우, 최초 도달 단말 노드의 샘플 데이터와 매칭 되면 빠른 시간 내에 관심 객체 선정이 가능하나, 그만큼의 리스크도 존재한다. 순회 시작 노드 선정의 제2 실시예의 경우, 순회 시작 노드가 컨텍스트 요소들이 가진 주제들 중 중간 정도의 구체성에 대응되는 것이므로, 직전의 실시예가 가지는 상기 리스크를 상쇄하는 효과를 가진다.
도 9 내지 도 13는, 도 2 내지 도 5에 도시된 이미지에서 인식된 총 4개의 후보 객체(61a, 61b, 61c, 61d) 중에서 관심 객체가 선정되는 것을 전제로 도시된 것이다.
이하, 순회 시작 노드 선정의 제1 실시예가 적용된 것을 전제로, 도 9 및 도 10를 참조하여 설명한다. 총 3개의 관심 노드들(50a-1, 50a-2, 50a-7) 중 순회 시작 노드는 최하위의 노드(50a-7)이다. 도 9에는 노드(50a-7)가 트리 순회의 현재 노드인 점이 도시되어 있다.
현재 노드가 단말 노드이므로, 링크 된 샘플 이미지와의 매칭이 수행된다. 상기 매칭을 위해, 후보 객체들(61a, 61b, 61c, 61d) 각각에 대한 특징 데이터 추출 동작이 수행되고, 그 결과로 후보 객체들(61a, 61b, 61c, 61d) 각각의 특징 데이터가 얻어질 것이다. 상기 얻어진 후보 객체들(61a, 61b, 61c, 61d) 각각의 특징 데이터와, 현재 노드(50a-7)에 연결된 샘플 이미지들(70a)의 특징 데이터 간에 매칭을 진행하여, 동일 또는 기준치 이상의 유사도를 가지는 매칭이 발견되는지 확인된다.
도 10에는 이러한 과정이 도시되어 있다. 샘플 이미지들(70a)의 특징 데이터 셋(70a-1)에 포함된 특징 데이터 중, 후보 객체의 특징 데이터(ABCD)와 동일한 특징 데이터가 존재한다. 따라서, 이 경우 후보 객체(61b)가 관심 객체로 선정될 것이다. 추가적으로, 관심 객체의 주제도 “가죽시계”로 결정된다. 이를 통해, 이미지를 보는 사용자가 “가죽시계”에 관심을 갖고 있음이 추정될 수 있는 것이다.
이하, 순회 시작 노드 선정의 제2 실시예가 적용된 것을 전제로, 도 11 및 도 13를 참조하여 설명한다. 총 3개의 관심 노드들(50a-1, 50a-2, 50a-7) 중 순회 시작 노드는 비-단말 노드인 중간 노드(50a-2)이다. 도 11에는 노드(50a-2)가 트리 순회의 현재 노드인 점이 도시되어 있다.
현재 노드가 비-단말 노드이므로, 현재 노드의 분류기(80a-2)에 입력된 각 후보 객체의 특징 데이터에 따른 분류기 출력에 따라, 현재 노드의 자식 노드들(50a-4, 50a-5) 중 어느 노드로 이동할지가 결정된다. 이해의 편의를 위해, 도 11에는 분류기(80a-2)에 총 4개의 후보 객체들(61a, 61b, 61c, 61d)의 특징 데이터를 입력한 것에 따른 출력이 도시 되어 있다(80a-2’). 하나의 후보 객체(61b)를 제외 하고 다른 모든 후보 객체(61a, 61c, 61d)에 대하여 대응 되는 자식 노드가 존재하지 않음을 가리키는 출력(N/A)이 얻어 졌다. 따라서, 다음 노드는, 후보 객체(61b)의 특징 데이터가 가리키는 자식 노드인, 아날로그 시계 노드(50a-4)가 될 것이다.
도 12를 참조하면, 아날로그 시계 노드(50a-4) 역시 비-단말 노드이므로, 손목 시계 노드(50a-2)와 동일한 방식으로 다음 진행 노드가 결정된다.
도 13에는, 아날로그 시계 노드(50a-4)의 다음 노드로 캐주얼 시계 노드(50a-6)가 결정되어, 현재 노드가 캐주얼 시계 노드(50a-6)인 상황이 도시되어 있다. 캐주얼 시계 노드(50a-6)에 링크 된 샘플 이미지들(70b)의 특징 데이터 셋(70b-1)에 포함된 특징 데이터 중, 후보 객체의 특징 데이터(ABCD)와 동일한 특징 데이터가 존재한다. 따라서, 이 경우 후보 객체(61b)가 관심 객체로 선정될 것이다. 추가적으로, 관심 객체의 주제도 “캐주얼시계”로 결정된다. 이를 통해, 이미지를 보는 사용자가 “캐주얼시계”에 관심을 갖고 있음이 추정될 수 있는 것이다.
도 11 내지 도 13를 참조하여 설명된 실시예에 따르면, 관심 노드가 아닌 다른 단말 노드에서 매치된 샘플 이미지가 발견될 수도 있는 점을 알 수 있다. 즉, 컨텍스트 요소의 주제가 관심 객체에 매치되는 샘플 이미지가 링크 된 노드의 주제와 다소 차이가 존재하더라도, 인덱스 트리(50a)의 순회를 통해, 관심 객체에 매치되는 샘플 이미지가 링크 된 단말 노드가 정확하게 탐색될 수 있다.
이하, 인덱스 트리(50a)의 순회 과정에서 고려될 수 있는 몇몇 실시예들을 추가로 설명한다. 본 발명의 인덱스 트리 순회 로직은 본 명세서를 통하여 설명된 실시예들을 종합적으로 반영한 것으로 이해될 수 있을 것이다.
도 11 및 도 12에는 분류기의 출력을 표시한 테이블(80a-2’, 80a-4’)이 도시되어 있다. 테이블(80a-2’, 80a-4’)에는 적어도 하나의 특징 데이터에 대하여는 자식 노드를 가리키는 출력이 존재하였으나, 현재 노드의 주제와 후보 객체(61a, 61b, 61c, 61d) 모두의 주제가 서로 전혀 다르다면, 현재 노드의 분류기의 출력은 모든 후보 객체의 특징 데이터에 대하여 대응되는 자식 노드가 존재하지 않음을 가리키는 값이 될 것이다. 이러한 경우, 현재 노드에서 루트 노드 방향으로 이동 해야 한다.
상위 노드로의 반대 방향 이동에 관한 제1 실시예에 따르면 현재 노드의 다음 노드는 현재 노드의 부모 노드이다. 관심 객체에 매칭되는 샘플 데이터를 가진 단말 노드(매칭 노드)가 현재 노드의 형제 노드(sibling node)라면, 본 실시예에 따라 신속하게 상기 매칭 노드에 도달 할 수 있는 효과가 있다.
상위 노드로의 반대 방향 이동에 관한 제2 실시예에 따르면 현재 노드의 다음 노드는 현재 노드의 상위 노드들 중, 가장 가까운 관심 노드이다. 이미 설명한 바와 같이, 상기 관심 노드의 주제는 컨텍스트에 요소의 주제와 대응되는 것이다. 즉, 상기 관심 노드는 상기 매칭 노드를 찾아 감에 있어서, 중요한 분기점이 될 가능성이 높은 노드이다. 이러한 점에 착안한 본 실시예는, 상위 노드로의 반대 방향 이동에 있어서, 불필요하게 모든 비-단말 노드를 거쳐가지 않도록 함으로써, 컴퓨팅 부하가 절약될 수 있도록 한다.
현재 노드가 단말 노드이므로, 링크 된 샘플 이미지와의 매칭이 수행된다. 상기 매칭을 위해, 후보 객체들(61a, 61b, 61c, 61d) 각각에 대한 특징 데이터 추출 동작이 수행되고, 그 결과로 후보 객체들(61a, 61b, 61c, 61d) 각각의 특징 데이터가 얻어질 것이다. 상기 얻어진 후보 객체들(61a, 61b, 61c, 61d) 각각의 특징 데이터와, 현재 노드(50a-7)에 연결된 샘플 이미지들(70a)의 특징 데이터 간에 매칭을 진행하여, 동일 또는 기준치 이상의 유사도를 가지는 매칭이 발견되는지 확인된다.
이하, 본 발명의 다른 실시예에 따른 전자 장치(100)의 구성 및 동작을 설명한다. 본 실시예에 따른 전자 장치의 동작은, 별도의 기재가 없더라도 상술한 실시예들에 따른 컨텍스트 데이터 획득, 인덱스 트리의 노드 중 관심 노드 선정, 인덱스 트리의 순회를 통한 후보 객체 중 관심 객체의 선정 등과 관련된 동작을 포함하는 것으로 이해되어야 할 것이다.
도 14에 도시된 바와 같이, 본 실시예에 따른 전자 장치(100)는 프로세서(101), 메모리(102) 및 디스플레이(104)를 포함한다. 몇몇 실시예들에서, 전자 장치(100)는 GPS 신호 리시버 등의 측위 수단(107), 시선 인식 센서(106), 마이크(105) 및 네트워크 인터페이스(109) 중 적어도 하나를 더 포함할 수 있다.
시스템 버스(108)는 프로세서(101), 메모리(102) 및 스토리지(103) 등, 전자 장치(100) 내부 요소 사이의 사이의 데이터 송수신 통로 역할을 수행한다. 메모리(102)는, 예를 들어 RAM(Random Access Memory)와 같은 휘발성 데이터 저장장치일 수 있다. 스토리지(103)는 플래시 메모리와 같은 비휘발성 메모리, 하드디스크 등의 데이터 저장 장치일 수 있다.
본 명세서에서 인스트럭션(instruction)은 기능을 기준으로 묶인 일련의 명령어들로서 프로세서에서 실행되는 것을 가리킨다.
스토리지(103)는 인덱스 트리 관련 데이터(131), 관심 객체 선정 이력 데이터(135), 관심 객체 선정 어플리케이션(136a)의 실행 코드 및 하나 이상의 응용 어플리케이션(137) 중 적어도 하나를 저장할 수 있다.
인덱스 트리 관련 데이터(131)는 외부 장치(예를 들어, 도 1의 관심 객체 식별 지원 장치)로부터 수신된 것일 수 있는 점을 이미 설명한 바 있다. 인덱스 트리(132)는 도 6을 참조하여 설명한 인덱스 트리(50)를 구성하는 데이터이다. 또한, 분류기 ML 파라미터 데이터(133)는 인덱스 트리(50)의 각 비-단말 노드가 가지는 분류기를 구성하기 위한 데이터이다. 또한, 샘플 이미지 특징 데이터는 인덱스 트리(50)의 각 단말 노드에 링크된 주제 별 샘플 이미지들의 특징 데이터이다.
일 실시예에 따르면, 전자 장치(100)의 부팅 시, 관심 객체 선정 어플리케이션(136a)이 자동으로 실행 되고, 백그라운드 모드로 동작할 수 있다. 이 경우, 다양한 응용 어플리케이션(137)에서 이미지가 표시될 때, 특정 응용 어플리케이션(137)에 한정되지 않고, 사용자 관심 정보를 생성할 수 있는 효과가 있다(응용 어플리케이션에 독립적). 물론, 관심 객체 선정 어플리케이션(136a)은 응용 어플리케이션의 하나로써, 사용자의 실행 명령이 있을 때에만 실행 될 수도 있고, 특정 응용 어플리케이션(137)의 내부 모듈로서 구현될 수도 있다.
도 14에는 관심 객체 선정 어플리케이션(136a)이 메모리(102)에 로딩 되어 저장(136b)된 것이 도시되어 있다. 관심 객체 선정 어플리케이션(136a)이 메모리(102)에 로딩 될 때, 인덱스 트리 관련 데이터에 포함된 인덱스 트리(132), 분류기 ML 파라미터 데이터(133) 및 샘플 이미지 특징 데이터(134)도 함께 메모리(102)에 로딩 되는 것이 바람직하다.
이하, 메모리(102)에 로딩 되어 프로세서(101)를 통해 실행 되는 관심 객체 선정 어플리케이션(136b)의 다양한 인스트럭션들의 상호 연동 동작에 대하여 도 15을 참조하여 설명한다.
먼저, 관심 객체 선정 트리거 감지 인스트럭션(122)이 실행된다. 관심 객체를 선정하는 동작이 항상 수행되는 것은 바람직하지 않다. 전력 소모 등의 문제는 둘째 치고, 사용자 관심 정보를 생성하려면, 사용자가 관심을 갖고 있는 시점에 표시된 이미지로부터 관심 객체를 선정해야 하기 때문이다. 관심 객체 선정 트리거 감지 인스트럭션(122)은 전자 장치(100)의 다양한 요소로부터 수집된 데이터 및 관련 연산 등을 통하여 현재 사용자가 관심을 갖고 이미지를 보고 있으며, 그에 따라 관심 객체 선정을 진행해야 하는 시점인지 여부를 판정한다.
이하, 다양한 관심 객체 선정 트리거에 대하여 제시한다. 일 실시예에서, 상기 관심 객체 선정 트리거는, 디스플레이(104)에 적어도 하나의 이미지가 표시되고 있는 것을 필수적인 요건으로 할 수 있다. 디스플레이 되고 있는 이미지가 존재하지 않으면 관심 객체의 선정이 불가능하기 때문이다.
일 실시예에서, 상기 관심 객체 감지 트리거는, 전자 장치(100)의 사용자가 상기 이미지와 관련된 조작을 하는 것이 감지되는 것일 수 있다. 상기 이미지와 관련된 조작은, 예를 들어 이미지에 대한 “좋아요” 입력, 줌-인/줌-아웃 입력, 이미지에 대한 “공유하기”, “북마크” 조작, 더블 탭을 통한 이미지 확대, 이미지가 포함된 컨텐츠의 온라인 서비스 업로드 조작, 이미지가 포함된 컨텐츠의 다운로드 조작 등과 같이, 이미지에 관심을 갖고 있는 것으로 볼 수 있는 다양한 조작을 포함한다.
다른 실시예에서, 상기 관심 객체 감지 트리거는, 상기 이미지가 표시되는 도중, 디스플레이(104) 상에 키보드가 표시되는 것이 감지되는 것일 수 있다. 이미지가 표시되는 도중 키보드가 표시된다는 것은, 상기 이미지와 관련된 글을 입력하는 행위를 하는 것을 의미하고, 이는 사용자가 상기 이미지에 관심을 가지고 있다는 것을 의미한다.
또 다른 실시예에서, 상기 관심 객체 감지 트리거는, 전자 장치(100)의 사용자가 스크린 캡처 조작이 감지되는 것이 감지되는 것일 수 있다. 이미지가 표시되는 도중 키보드가 표시된다는 것 역시, 이미지가 포함된 컨텐츠를 보관하거나 타인에게 송부하고자 한다는 것을 의미한다. 따라서, 스크린 캡처 된 화면에 포함된 이미지는 사용자의 관심 정보를 담고 있을 수 있다.
또 다른 실시예에서, 상기 관심 객체 감지 트리거는, 시선 인식 센서를 통하여 기 지정된 시간 이상의 주시가 감지되는 것일 수 있다. 일정 시간 이상의 주시야 말로 사용자가 관심을 가지고 있다는 확실한 증거가 될 것이다.
또 다른 실시예에서, 상기 관심 객체 감지 트리거는, 이미지가 표시되는 도중에 가상 비서(또는 음성 인식 비서)가 호출 되고, 상기 가상 비서를 통하여 현재 화면에 대한 조작이 요청 되는 것일 수 있다. 가상 비서를 통한 상기 이미지와 관련된 조작 역시 상기 이미지에 대한 사용자의 관심을 나타낼 수 있다.
관심 객체 선정 트리거 감지 인스트럭션(122)에 의하여 트리거 발생이 감지되면, 컨텍스트 데이터 획득 인스트럭션(123)이 실행된다. 컨텍스트 데이터 획득 인스트럭션(123)은 도 2 내지 도 5를 참조하여 상술한 방식 등을 통하여, 디스플레이(104)에 표시된 이미지와 관련된 컨텍스트 데이터를 획득한다.
한편, 상기 트리거 발생이 감지된 시점에 디스플레이(104)에 디스플레이 된 이미지에 대하여 후보 객체 추출 인스트럭션(126)이 실행되어, 상기 이미지에서 후보 객체가 감지된다.
후보 객체 추출 인스트럭션(126)은 기계학습의 결과로 생성된 객체 인식 모델(미도시)을 이용하여 상기 이미지에 포함된 하나 이상의 후보 객체를 추출한다. 상기 객체 인식 모델은, 예를 들어 인공 신경망으로 구성된 것일 수 있고, 이 경우 메모리(102)에는 상기 객체 인식 모델의 인공 신경망을 정의하기 파라미터 셋이 저장될 수 있다. 상기 파라미터 셋은 상기 인공 신경망을 구성하는 레이어(layer)의 수, 각 레이어 별 노드 수, 각 노드 간 가중치(weight) 등에 대한 정보를 포함할 수 있다. 상기 객체 인식 모델은 상기 객체 인식 모델을 생성하기 위한 기계학습 트레이닝을 수행하는 외부 장치(미도시)로부터 네트워크 인터페이스(109)를 통해 수신한 것일 수 있다. 상기 외부 장치는 예를 들어, 도 1을 참조하여 설명한 관심 객체 식별 지원 장치일 수 있다.
상기 기계학습 트레이닝은 인덱스 트리(132)의 각 단말 노드에 링크 된 샘플 데이터들을 트레이닝 데이터셋으로 사용하여 수행되는 것일 수 있다. 이 경우, 상기 객체 인식 모델은 입력된 전체 이미지 영역 중, 전체 샘플 데이터들 중 어느 하나와 유사한 영역으로 추정되는 영역인 후보 객체를 인식할 수 있는 능력을 가지게 될 것이다. 이러한 점에서, 상기 후보 객체는 이미지 프로세싱 기술에 있어서 관심 영역(ROI, Region Of Interest)에 해당하는 것으로 이해될 수 있을 것이다.
일 실시예에서, 후보 객체 추출 인스트럭션(126)은 외부 장치(미도시)로부터 네트워크 인터페이스(109)를 통해 수신된 객체 인식 모델을 대상으로 증분 학습(incremental learning)에 의하여 주기적/비주기적으로 업데이트 할 수도 있다. 후보 객체 추출 인스트럭션(126)은, 상기 증분 학습을 위하여 이미지에서 인식된 후보 객체를 표시하고, 사용자에게 후보 객체 인식 결과가 맞는지에 대한 피드백을 얻기 위한 프로세스를 수행할 수 있다. 후보 객체 추출 인스트럭션(126)은 상기 피드백을 이용하여 객체 인식 모델을 스스로 업데이트 할 것이다.
후보 객체 추출 인스트럭션(126)은 복수의 객체 인식 모델을 함께 이용하여 상기 후보 객체 추출을 수행할 수도 있다. 상기 복수의 객체 인식 모델은 이미지에서 제1 특징을 가진 객체를 추출하는 제1 객체 인식 모델, 이미지에서 제2 특징을 가진 객체를 추출하는 제2 객체 인식 모델을 포함할 수 있다. 즉, 후보 객체 추출 인스트럭션(126)은 특정 특징을 가지는 영역을 전문적으로 추출하는 객체 인식 모델들을 함께 사용함으로써, 후보 객체가 누락 되는 것을 방지할 수 있을 것이다. 이 때, 상기 복수의 객체 인식 모델은 기계학습에 의하여 생성된 모델 및 이미지의 픽셀 값에 대한 이미지 프로세싱 알고리즘을 이용하는 모델을 모두 포함할 수 있다.
일 실시예에서, 상기 객체 인식 모델은 그 출력층(output layer)이 각각의 후보 객체 별 특징 데이터를 출력하도록 학습된 것일 수 있다.
다음으로, 관심 노드 선정 인스트럭션(124)이 실행된다. 관심 노드 선정 인스트럭션(124)은 도 8를 참조하여 상술한 방식 등을 통하여 인덱스 트리의 노드들 중 컨텍스트 데이터에 포함된 컨텍스트 요소와 그 주제가 매치 되는 관심 노드를 선정한다. 관심 노드 선정 인스트럭션(124)은 관심 노드 선정 과정에서 인덱스 트리(132)를 참조한다. 인덱스 트리(132)는 인덱스 트리 관련 데이터(131)가 메모리(102)로 로딩 되어 저장된 데이터이고, 인덱스 트리 관련 데이터(131)는 인덱스 트리 관련 데이터 업데이트 인스트럭션(125)에 의하여 업데이트 된 것일 수 있다.
다음으로, 관심 객체 선정 인스트럭션(127)이 실행된다. 관심 객체 선정 인스트럭션(127)은 도 9 내지 도 13를 참조하여 상술한 방식 등을 통하여 상기 후보 객체 중에서 관심 노드를 선정한다. 관심 객체 선정 인스트럭션(127)은 관심 노드의 선정을 위하여 인덱스 트리(132)를 참조한다.
관심 객체 선정 인스트럭션(127)의 실행에 따라 관심 객체가 선정되면, 그 선정 이력에 대한 데이터(135)가 저장된다. 관심 객체 선정 이력 데이터는, 예를 들어, 시간 별 관심 객체의 “주제”가 포함된 시계열 데이터일 수 있고, 주기적/비주기적으로 서비스 서버에 송신될 수 있다.
이하, 본 발명의 또 다른 실시예에 따른 관심 정보 생성 방법에 대하여, 도 16 내지 도 17를 참조하여 설명한다. 상기 관심 정보 생성 방법은 전자 장치에 의하여 수행될 수 있다. 상기 관심 정보 생성 방법은, 주로 상기 전자 장치에 의하여 수행되되, 상기 관심 정보 생성 방법 일부 동작은 다른 장치에 의하여 수행될 수도 있다.
상기 전자 장치는 예를 들어 도 14에 도시된 전자 장치(100)일 수 있다. 상기 관심 정보 생성 방법에 도 14 내지 도 15을 참조하여 설명한 전자 장치의 동작과, 상기 컴퓨터 장치의 동작 설명에 의하여 참조된 도 1 내지 도 13의 설명이 적어도 일부 포함될 수 있음을 유의한다. 따라서, 이하 설명되는 상기 관심 정보 생성 방법에 대한 설명에서 별도의 개시가 없더라도, 도 1 내지 도 15을 참조하여 상술한 동작이 상기 관심 정보 생성 방법에 포함될 수 있다. 또한, 이하 상기 방법들에 대한 설명에서, 동작의 주체에 대한 기재가 존재하지 않는 경우, 상기 주체는 상기 전자 장치로 해석될 수 있다.
먼저, 도 16을 참조하여 설명한다.
단계 S101에서, 관심 객체 선정 트리거의 발생 여부가 판정된다. 관심 객체 선정 트리거가 발생된 것으로 판정되면, 상기 트리거의 발생 시점에 디스플레이 되어 있는 이미지가 획득될 것이나(S103), 그렇지 않은 경우라면, 계속하여 관심 객체 선정 트리거의 발생 여부가 판정될 것이다.
단계 S105에서, 획득된 이미지 내의 하나 이상의 객체가 감지된다. 이 때 감지된 객체들은 본 명세서에서 후보 객체로 지칭되고 있다. 상기 후보 객체 각각의 특징 데이터가 생성된다. 단계 S105의 동작은 도 15을 참조하여 설명된 후보 객체 추출 인스트럭션의 동작이 참조될 수 있다.
단계 S107에서, 상기 트리거 발생 시점의 컨텍스트 데이터가 획득된다. 상기 컨텍스트 데이터가 복수의 컨텍스트 요소들을 포함하는 경우, 단계 S109에서, 상기 컨텍스트 데이터에 대한 분석을 통하여 상기 컨텍스트 요소들이 개별적으로 식별된다.
단계 S111에서, 상기 인덱스 트리의 노드들 중, 상기 컨텍스트 요소의 주제와 매칭 되는 주제를 가진 노드가 관심 노드로 선정된다.
단계 S113에서, 상기 관심 노드를 이용하여 상기 후보 객체 중에서 관심 객체가 선정된다. 자세한 관련 동작은 후술한다. 경우에 따라 상기 후보 객체 중에서 관심 객체가 선정되지 않을 수 있다(S115). 관심 객체가 선정되었다면, 관심 객체 선정의 이력이 기록되고(S117), 상기 기록된 이력은 서비스 서버에 제공되어 사용자에 대한 개인화 서비스의 기초 데이터가 될 수 있다.
도 17를 참조하여, 관심 노드를 이용하여 상기 후보 객체 중에서 관심 객체가 선정되는 자세한 동작을 설명한다. 상술한 바와 같이, 관심 객체의 선정을 위하여는 상기 인덱스 트리의 순회가 요구되고, 이러한 순회는 상기 관심 노드 중 하나인 순회 시작 노드로부터 시작된다.
이해의 편의를 돕기 위하여, 관심 노드 중 최하위 노드를 상기 순회 시작 노드로 선정하는 실시예를 이용하여 설명한다(S113a). 트리 순회에 있어서, 현재 판단되고 있는 노드를 의미하는 현재 노드는 상기 순회 시작 노드로 초기화 된다.
단계 S113b에서, 상기 현재 노드가 존재하지 않는지 여부가 판단된다. 시작 시점의 순회 시작 노드가 존재하지 않는 상황은 가정하기 어려우므로, 단계 S113d에서 현재 노드가 단말 노드(leaf node)인지 여부가 다시 판단된다.
관심 노드 중 최하위 노드가 단말 노드라면, 단계 S113e에서, 후보 객체의 특징 데이터와 현재 노드의 샘플 이미지 별 특징 데이터 사이의 매칭을 수행하여, 매칭이 존재하는지 여부가 판단된다(S113f). 매칭이 존재한다면, 관심 객체는 샘플 이미지와 매칭된 후보 객체가 되고, 관심 객체의 주제는 현재 노드의 주제가 될 것이다(S113g).
매칭이 존재하지 않는다면(S113f), 상기 인덱스 트리 상에서 루트 노드 방향으로 역방향 순회를 해서 올라가야 함을 뜻한다. 이 때, 다음 노드는 현재 노드의 상위 노드이다. 이 때, 옵션 1은 상기 현재 노드의 부모 노드로 이동하는 것이고, 옵션 2는 상기 현재 노드의 상위 노드 중 가장 가까운 관심 노드로 이동하는 것이다(S113j). 상기 옵션 1과 상기 옵션 2 각각의 효과는 상술한 바 있다.
단계 S113d에서, 상기 역방향 순회를 한 결과 이동된 현재 노드는, 단말 노드가 아닐 것이다. 따라서, 단계 S113h에서 분류기에 후보 객체의 특징 데이터를 입력함으로써 현재 노드가 업데이트 되고(S113i) 다시 단말 노드 방향으로 순회를 계속할 수 있다. 상기 순회의 결과 단말 노드에 도달하고, 단계 S113f에서 매칭이 존재하는 것으로 판단되면, 관심 객체의 선정(S113g)이 이뤄진다.
한편, 단계 S113h에서, 상기 분류기가 후보 객체 중 일부에 대하여는 대응 되는 자식 노드가 존재하는 것으로 출력하고, 다른 일부에 대하여는 대응 되는 자식 노드가 존재하지 않는 것으로 출력한 경우, 자식 노드가 존재하는 후보 객체와 자식 노드가 존재하지 않는 후보 객체에 대한 트리의 탐색이 분할 될 수 있다. 즉, 비-단말 노드인 현재 노드에서 자식 노드가 존재하는 후보 객체에 대하여는 단말 노드 방향 순회를 진행하고, 자식 노드가 존재하지 않는 후보 객체에 대하여는 루트 노드 방향으로 트리 순회를 진행할 수 있다. 이 때, 다른 실시예에 따르면, 비-단말 노드인 현재 노드에서 자식 노드가 존재하지 않는 후보 객체에 대하여는, 관심 객체로 선정될 가능성이 없는 것으로 보고, 더 이상의 트리 탐색을 진행하지 않을 수도 있다.
단계 S113i에서, 분류기의 출력이 모든 후보 객체의 특징 데이터에 대하여 매칭되는 하위 노드가 없는 것을 가리키는 경우, 단계 S113b를 통해 현재 노드가 존재하지 않는 것으로 판단되고, 결과 후보 객체들 중에 관심 객체가 존재하지 않는 것으로 판정될 것이다(S113c).
지금까지 설명된 본 발명의 실시예에 따른 방법들은 컴퓨터가 읽을 수 있는 코드로 구현된 컴퓨터프로그램의 실행에 의하여 수행될 수 있다. 상기 컴퓨터프로그램은 인터넷 등의 네트워크를 통하여 제1 컴퓨팅 장치로부터 제2 컴퓨팅 장치에 전송되어 상기 제2 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 제2 컴퓨팅 장치에서 사용될 수 있다. 상기 제1 컴퓨팅 장치 및 상기 제2 컴퓨팅 장치는, 서버 장치, 클라우드 서비스를 위한 서버 풀에 속한 물리 서버, 데스크탑 피씨와 같은 고정식 컴퓨팅 장치를 모두 포함한다.
상기 컴퓨터프로그램은 DVD-ROM, 플래시 메모리 장치 등의 비-일시적인(non-transitory) 기록매체(recording medium)에 저장된 것일 수도 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다.

Claims (20)

  1. 프로세서;
    이미지를 표시하는 하는 디스플레이; 및
    상기 프로세서에 의하여 실행되는 복수의 인스트럭션을 저장하는 메모리를 포함하되,
    상기 복수의 인스트럭션은,
    상기 디스플레이에 표시된 이미지와 관련된 컨텍스트 데이터(context data)를 획득하는 인스트럭션;
    상기 컨텍스트 데이터를 이용하여, 상기 이미지의 후보 객체에 대응되는 샘플 이미지를 탐색하기 위한 인덱스 트리(index tree)의 노드들 중 상기 컨텍스트 데이터에 대응되는 관심 노드를 선정하되, 상기 인덱스 트리의 각 노드의 주제와 상기 컨텍스트 데이터 사이의 비교 결과를 이용하여 상기 관심 노드를 선정하는 인스트럭션; 및
    상기 관심 노드를 이용하여, 상기 이미지에 포함된 후보 객체 중 관심 객체를 선정하는 인스트럭션을 포함하고,
    상기 인덱스 트리는 각 노드의 주제 간의 시맨틱(semantic) 관계에 따라 다른 노드와 계층적으로 연결된 것인,
    전자 장치.
  2. 제1 항에 있어서,
    상기 컨텍스트 데이터는,
    복수의 컨텍스트 요소를 포함하고,
    상기 관심 노드를 선정하는 인스트럭션은,
    상기 복수의 컨텍스트 요소에 대응 되는 복수의 노드들 중 최하위 노드를 상기 관심 노드로 선정하는 인스트럭션을 포함하는,
    전자 장치.
  3. 제2 항에 있어서,
    상기 복수의 컨텍스트 요소는 제1 컨텍스트 요소 및 제2 컨텍스트 요소를 포함하고, 상기 제1 컨텍스트 요소에 대응되는 제1 노드 및 상기 제2 컨텍스트 요소에 대응되는 제2 노드 중 상기 최하위 노드는 제2 노드일 때,
    상기 관심 객체를 선정하는 인스트럭션은,
    상기 후보 객체 중 상기 제2 노드에 대응되는 객체를 찾는 것을 실패하면, 상기 복수의 후보 객체 중 상기 제1 노드에 대응되는 객체를 찾는 인스트럭션; 및
    상기 제1 노드를 이용하여 상기 이미지에 포함된 후보 객체 중 관심 객체를 선정하는 인스트럭션을 포함하는,
    전자 장치.
  4. 제3 항에 있어서,
    상기 제1 노드는 상기 인덱스 트리 상에서 깊이가 N(N는 1이상의 자연수)이고, 상기 제1 노드는 상기 인덱스 트리 상에서 깊이가 N+2(N는 1이상의 자연수) 이상이며,
    상기 복수의 후보 객체 중 상기 제1 노드에 대응되는 객체를 찾는 인스트럭션은,
    상기 후보 객체 중 상기 제2 노드에 대응되는 객체를 찾는 것을 실패하면, 상기 제2 노드와 상기 제1 노드 사이에 존재하는 노드를 하나 이상 건너뛰고 상기 제1 노드로 이동하는 인스트럭션을 포함하는,
    전자 장치.
  5. 제1 항에 있어서,
    상기 관심 객체를 선정하는 인스트럭션은,
    상기 후보 객체 중 상기 관심 노드에 대응되는 객체를 찾는 것을 실패하면, 상기 복수의 후보 객체 중 상기 관심 노드의 상위 노드에 대응되는 객체를 찾는 인스트럭션; 및
    상기 상위 노드를 이용하여 상기 이미지에 포함된 후보 객체 중 관심 객체를 선정하는 인스트럭션을 포함하는,
    전자 장치.
  6. 제1 항에 있어서,
    상기 인덱스 트리의 노드들은 단말 노드(leaf node) 및 비-단말 노드(non-leaf node)를 포함하고,
    상기 비-단말 노드 각각은 특징 데이터를 입력 받아 상기 특징 데이터에 대응 되는 자식 노드를 가리키는 출력을 생성하는 분류기(classifier)를 포함하며,
    상기 관심 노드를 이용하여 상기 이미지에 포함된 후보 객체 중 관심 객체를 선정하는 인스트럭션은,
    상기 관심 노드가 상기 비-단말 노드인 경우, 상기 관심 노드의 분류기에 상기 후보 객체의 특징 데이터를 입력하고, 상기 분류기의 출력이 가리키는 자식 노드로 이동하는 인스트럭션; 및
    상기 자식 노드로 이동하는 인스트럭션을, 단말 노드에 도달할 때까지 반복하는 인스트럭션을 포함하는,
    전자 장치.
  7. 제6 항에 있어서,
    상기 단말 노드는 이미지 아카이브(archive)의 각 샘플 이미지들 중, 상기 단말 노드에 할당된 주제에 매칭된 하나 이상의 이미지에 매칭된 것이고,
    상기 관심 노드를 이용하여 상기 이미지에 포함된 후보 객체 중 관심 객체를 선정하는 인스트럭션은,
    상기 단말 노드에 도달하면, 상기 단말 노드에 매칭된 샘플 이미지와 상기 후보 객체의 매칭 여부를 판정하는 인스트럭션; 및
    상기 단말 노드에 매칭된 이미지와 매칭되는 것으로 판정된 상기 후보 객체를, 상기 관심 객체로 선정하는 인스트럭션을 포함하는,
    전자 장치.
  8. 제6 항에 있어서,
    상기 관심 노드를 이용하여 상기 이미지에 포함된 후보 객체 중 관심 객체를 선정하는 인스트럭션은,
    모든 후보 객체에 대하여, 현재 노드의 분류기의 출력이 상기 특징 데이터에 대응 되는 자식 노드가 존재하지 않음을 가리키는 경우, 상기 현재 노드의 상위 노드로 이동하는 인스트럭션을 포함하되,
    상기 현재 노드의 상위 노드는,
    상기 현재 노드의 상위 노드들 중, 상기 컨텍스트 데이터에 포함되는 복수의 컨텍스트 요소 중 하나와 매칭되는 가장 가까운 상위 노드인,
    전자 장치.
  9. 제1 항에 있어서,
    상기 컨텍스트 데이터를 획득하는 인스트럭션은,
    상기 인덱스 트리의 노드들 중 적어도 일부 노드의 주제와 매칭되는 컨텍스트 데이터를 획득하는 인스트럭션을 포함하는,
    전자 장치.
  10. 제1 항에 있어서,
    상기 컨텍스트 데이터를 획득하는 인스트럭션은,
    상기 전자 장치의 측위 정보를 상기 컨텍스트 데이터로서 획득하는 인스트럭션을 포함하는,
    전자 장치.
  11. 제1 항에 있어서,
    상기 컨텍스트 데이터를 획득하는 인스트럭션은,
    상기 디스플레이에 상기 이미지가 표시되는 동안 마이크를 통해 입력된 보이스 데이터가 변환된 텍스트를 상기 컨텍스트 데이터로서 획득하는 인스트럭션을 포함하는,
    전자 장치.
  12. 제1 항에 있어서,
    상기 컨텍스트 데이터를 획득하는 인스트럭션은,
    관심 객체 선정 동작의 트리거(trigger)를 감지하면, 상기 컨텍스트 데이터를 획득하는 인스트럭션을 포함하되,
    상기 트리거는, 상기 전자 장치 사용자의 상기 이미지와 관련된 조작이 감지되는 것인,
    전자 장치.
  13. 제1 항에 있어서,
    상기 디스플레이는 터치 디스플레이이고,
    상기 컨텍스트 데이터를 획득하는 인스트럭션은,
    관심 객체 선정 동작의 트리거(trigger)를 감지하면, 상기 컨텍스트 데이터를 획득하는 인스트럭션을 포함하되,
    상기 트리거는, 상기 이미지가 표시되는 도중, 상기 디스플레이 상에 키보드가 표시되는 것인,
    전자 장치.
  14. 제1 항에 있어서,
    상기 컨텍스트 데이터를 획득하는 인스트럭션은,
    관심 객체 선정 동작의 트리거(trigger)를 감지하면, 상기 컨텍스트 데이터를 획득하는 인스트럭션을 포함하되,
    상기 트리거는, 스크린 캡처 조작이 감지되는 것인,
    전자 장치.
  15. 제1 항에 있어서,
    상기 외부 장치는, 암호화 알고리즘의 취약점 정보를 취합하여 상기 전자 장치에 송신하고, 상기 취약 암호화 알고리즘 실행의 통지를 상기 전자 장치로부터 취합하여 통계 데이터를 생성하며, 상기 취약 암호화 알고리즘을 사용하는 어플리케이션의 개발사 측 시스템에 상기 통계 데이터를 송신하는 장치인,
    보안 강화 방법.
  16. 전자 장치에 의하여 수행되는 방법에 있어서,
    이미지의 디스플레이 시점의 컨텍스트 데이터를 획득하는 단계;
    상기 컨텍스트 데이터를 이용하여, 상기 이미지에서 인식된 복수의 후보 객체에 대응되는 샘플 이미지를 탐색하기 위한 인덱스 트리의 노드들 중 상기 컨텍스트 데이터에 대응되는 관심 노드를 선정하는 단계; 및
    상기 관심 노드를 이용하여, 상기 복수의 후보 객체 중 관심 객체를 선정하는 단계를 포함하는,
    사용자 관심 정보 생성 방법.
  17. 제16 항에 있어서,
    상기 인덱스 트리는 각 노드의 주제 간의 시맨틱 관계에 따라 다른 노드와 계층적으로 연결된 것이고,
    상기 인덱스 트리의 비-단말 노드 각각은 고유의 분류기를 포함하되, 상기 고유의 분류기는 이미지의 특징 데이터를 입력 받아 상기 특징 데이터에 대응 되는 자식 노드를 가리키는 출력을 생성하는 것이고, 상기 단말 노드는 상기 단말 노드의 주제에 매칭된 하나 이상의 이미지에 매칭된 것이며,
    상기 관심 객체를 선정하는 단계는,
    상기 관심 노드가 상기 비-단말 노드인 경우, 상기 관심 노드의 분류기에 상기 후보 객체의 특징 데이터를 입력하고, 상기 분류기의 출력이 가리키는 자식 노드로 이동하는 단계;
    상기 자식 노드로 이동하는 인스트럭션을, 단말 노드에 도달할 때까지 반복하는 단계;
    상기 단말 노드에 도달하면, 상기 단말 노드에 매칭된 샘플 이미지와 상기 후보 객체의 매칭 여부를 판정하는 단계; 및
    상기 단말 노드에 매칭된 이미지와 매칭되는 것으로 판정된 상기 후보 객체를 상기 관심 객체로 선정하는 단계를 포함하는,
    사용자 관심 정보 생성 방법.
  18. 제17 항에 있어서,
    상기 복수의 후보 객체는 제1 객체 및 제2 객체를 포함하고,
    상기 분류기의 출력이 가리키는 자식 노드로 이동하는 단계는,
    상기 제1 객체의 특징 데이터의 입력에 따른 상기 분류기의 출력은 상기 현재 노드의 자식 노드 중 하나로의 이동을 가리키고, 상기 제2 객체의 특징 데이터의 입력에 따른 상기 분류기의 출력은 상기 제2 객체에 대응 되는 자식 노드가 존재하지 않음을 가리키는 경우, 상기 제1 객체에 대한 트리 탐색과 상기 제2 객체에 대한 트리 탐색을 분할하는 단계를 포함하는,
    사용자 관심 정보 생성 방법.
  19. 제17 항에 있어서,
    상기 복수의 후보 객체는 제1 객체 및 제2 객체를 포함하고,
    상기 분류기의 출력이 가리키는 자식 노드로 이동하는 단계는,
    상기 제1 객체의 특징 데이터의 입력에 따른 상기 분류기의 출력은 상기 현재 노드의 자식 노드 중 하나로의 이동을 가리키고, 상기 제2 객체의 특징 데이터의 입력에 따른 상기 분류기의 출력은 상기 제2 객체에 대응 되는 자식 노드가 존재하지 않음을 가리키는 경우, 상기 제2 객체에 대한 트리 탐색을 종료하는 단계를 포함하는,
    사용자 관심 정보 생성 방법.
  20. 컴퓨터를 이용하여 제16 항 내지 제19 항 중 어느 한항을 실행시키기 위하여 저장매체에 저장된 컴퓨터 프로그램.
PCT/KR2018/003972 2017-11-10 2018-04-04 사용자 관심 정보 생성 장치 및 그 방법 WO2019093599A1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201880077875.8A CN111434118B (zh) 2017-11-10 2018-04-04 用户感兴趣信息生成的装置和方法
US16/761,957 US11678012B2 (en) 2017-11-10 2018-04-04 Apparatus and method for user interest information generation
EP18877211.5A EP3694220A4 (en) 2017-11-10 2018-04-04 APPARATUS FOR GENERATING INFORMATION OF INTEREST OF A USER AND CORRESPONDING PROCESS

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0149414 2017-11-10
KR1020170149414A KR102387767B1 (ko) 2017-11-10 2017-11-10 사용자 관심 정보 생성 장치 및 그 방법

Publications (1)

Publication Number Publication Date
WO2019093599A1 true WO2019093599A1 (ko) 2019-05-16

Family

ID=66438496

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/003972 WO2019093599A1 (ko) 2017-11-10 2018-04-04 사용자 관심 정보 생성 장치 및 그 방법

Country Status (5)

Country Link
US (1) US11678012B2 (ko)
EP (1) EP3694220A4 (ko)
KR (1) KR102387767B1 (ko)
CN (1) CN111434118B (ko)
WO (1) WO2019093599A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10679306B2 (en) * 2017-11-21 2020-06-09 International Business Machines Corporation Focus-object-determined communities for augmented reality users
US11500477B2 (en) * 2018-07-02 2022-11-15 Google Llc Systems and methods for interacting and interfacing with an artificial intelligence system
KR20200072022A (ko) * 2018-12-12 2020-06-22 현대자동차주식회사 사용자 관심정보 제공장치 및 방법
CN112465075B (zh) * 2020-12-31 2021-05-25 杭银消费金融股份有限公司 元数据管理方法及系统
CN115826816A (zh) * 2022-11-17 2023-03-21 北京字跳网络技术有限公司 一种信息采集方法、装置、存储介质及电子设备
CN117376652B (zh) * 2023-12-07 2024-04-09 深圳市优友互联股份有限公司 直播场景交互追溯的方法和装置、计算机设备、存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130055029A (ko) * 2009-04-14 2013-05-27 퀄컴 인코포레이티드 모바일 디바이스들을 이용한 이미지 인식을 위한 시스템 및 방법
KR20160023164A (ko) * 2014-08-21 2016-03-03 삼성전자주식회사 콘텐츠 분류 방법 및 전자 장치
US20160094774A1 (en) * 2014-09-29 2016-03-31 Yahoo! Inc. Mobile device image acquisition using objects of interest recognition
US20160162731A1 (en) * 2012-06-14 2016-06-09 The Board Of Trustees Of The Leland Stanford Junior University Method and System for Optimizing Accuracy-Specificity Trade-offs in Large Scale Visual Recognition
US9588990B1 (en) * 2013-01-02 2017-03-07 Google Inc. Performing image similarity operations using semantic classification

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6266053B1 (en) 1998-04-03 2001-07-24 Synapix, Inc. Time inheritance scene graph for representation of media content
US7725484B2 (en) * 2005-11-18 2010-05-25 University Of Kentucky Research Foundation (Ukrf) Scalable object recognition using hierarchical quantization with a vocabulary tree
US10095985B2 (en) * 2008-07-24 2018-10-09 Hamid Hatami-Hanza Assisted knowledge discovery and publication system and method
US20090297045A1 (en) 2008-05-29 2009-12-03 Poetker Robert B Evaluating subject interests from digital image records
EP2402867B1 (en) * 2010-07-02 2018-08-22 Accenture Global Services Limited A computer-implemented method, a computer program product and a computer system for image processing
US8930391B2 (en) 2010-12-29 2015-01-06 Microsoft Corporation Progressive spatial searching using augmented structures
CN102324042B (zh) * 2011-09-13 2013-11-27 盛乐信息技术(上海)有限公司 视觉识别系统及视觉识别方法
KR101907414B1 (ko) 2011-12-13 2018-10-15 삼성전자주식회사 촬영 이미지 기반의 문자 인식 장치 및 방법
US8873812B2 (en) 2012-08-06 2014-10-28 Xerox Corporation Image segmentation using hierarchical unsupervised segmentation and hierarchical classifiers
KR102083624B1 (ko) 2013-01-15 2020-03-02 에스케이플래닛 주식회사 관심대상 분석 시스템 및 그 방법, 그리고 이에 적용되는 장치
JP6179592B2 (ja) * 2013-05-31 2017-08-16 日本電気株式会社 画像認識装置、その処理方法、およびプログラム
CN103679132B (zh) * 2013-07-15 2016-08-24 北京工业大学 一种敏感图像识别方法及系统
WO2015123601A2 (en) 2014-02-13 2015-08-20 Nant Holdings Ip, Llc Global visual vocabulary, systems and methods
US10474670B1 (en) * 2014-06-12 2019-11-12 Amazon Technologies, Inc. Category predictions with browse node probabilities
CN104036023B (zh) * 2014-06-26 2017-05-10 福州大学 一种融合上下文的树形视频语义索引建立方法
KR20160004739A (ko) 2014-07-04 2016-01-13 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법
CN105045907B (zh) * 2015-08-10 2018-03-09 北京工业大学 一种用于个性化社会图像推荐的视觉注意‑标签‑用户兴趣树的构建方法
US9875548B2 (en) * 2015-12-18 2018-01-23 Ricoh Co., Ltd. Candidate list generation
US20170185670A1 (en) * 2015-12-28 2017-06-29 Google Inc. Generating labels for images associated with a user
KR101725501B1 (ko) 2016-07-13 2017-04-13 한동대학교 산학협력단 문자 인식 방법 및 장치
CN106445995A (zh) * 2016-07-18 2017-02-22 腾讯科技(深圳)有限公司 图片的分类方法和装置
US9928448B1 (en) * 2016-09-23 2018-03-27 International Business Machines Corporation Image classification utilizing semantic relationships in a classification hierarchy
EP3552168A4 (en) * 2016-12-06 2020-01-01 eBay, Inc. ANCHORED SEARCH
KR102399673B1 (ko) * 2017-06-01 2022-05-19 삼성전자주식회사 어휘 트리에 기반하여 객체를 인식하는 방법 및 장치
CN111295669A (zh) * 2017-06-16 2020-06-16 马克波尔公司 图像处理系统
WO2019046463A1 (en) * 2017-08-29 2019-03-07 Zhoa Tiancheng SYSTEM AND METHOD FOR THE DEFINITION OF DIALOGUE INTENTIONS AND THE CONSTRUCTION OF INTENTION RECOGNITION MODELS WITHOUT PRIOR KNOWLEDGE
US10909166B1 (en) * 2017-11-03 2021-02-02 Shutterstock, Inc. Reverse search with manual composition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130055029A (ko) * 2009-04-14 2013-05-27 퀄컴 인코포레이티드 모바일 디바이스들을 이용한 이미지 인식을 위한 시스템 및 방법
US20160162731A1 (en) * 2012-06-14 2016-06-09 The Board Of Trustees Of The Leland Stanford Junior University Method and System for Optimizing Accuracy-Specificity Trade-offs in Large Scale Visual Recognition
US9588990B1 (en) * 2013-01-02 2017-03-07 Google Inc. Performing image similarity operations using semantic classification
KR20160023164A (ko) * 2014-08-21 2016-03-03 삼성전자주식회사 콘텐츠 분류 방법 및 전자 장치
US20160094774A1 (en) * 2014-09-29 2016-03-31 Yahoo! Inc. Mobile device image acquisition using objects of interest recognition

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3694220A4 *

Also Published As

Publication number Publication date
KR102387767B1 (ko) 2022-04-19
EP3694220A1 (en) 2020-08-12
US20210182558A1 (en) 2021-06-17
CN111434118B (zh) 2022-10-21
EP3694220A4 (en) 2020-08-12
CN111434118A (zh) 2020-07-17
US11678012B2 (en) 2023-06-13
KR20190053481A (ko) 2019-05-20

Similar Documents

Publication Publication Date Title
WO2019093599A1 (ko) 사용자 관심 정보 생성 장치 및 그 방법
WO2018212494A1 (ko) 객체를 식별하는 방법 및 디바이스
WO2020027540A1 (en) Apparatus and method for personalized natural language understanding
WO2019031714A1 (ko) 객체를 인식하는 방법 및 장치
WO2019156332A1 (ko) 증강현실용 인공지능 캐릭터의 제작 장치 및 이를 이용한 서비스 시스템
WO2019125054A1 (en) Method for content search and electronic device therefor
CN113704388A (zh) 多任务预训练模型的训练方法、装置、电子设备和介质
WO2020204535A1 (ko) 머신 러닝 기반의 사용자 맞춤형 특허 문헌 자동 분류 방법, 장치 및 시스템
WO2019231130A1 (ko) 전자 장치 및 그의 제어방법
WO2020262788A1 (en) System and method for natural language understanding
WO2020190103A1 (en) Method and system for providing personalized multimodal objects in real time
EP3652925A1 (en) Device and method for recommending contact information
WO2021107449A1 (ko) 음역 전환 신조어를 이용한 지식 그래프 기반 마케팅 정보 분석 서비스 제공 방법 및 그 장치
EP3953869A1 (en) Learning method of ai model and electronic apparatus
WO2012046906A1 (ko) 다중 자원을 통합한 지식베이스를 이용하여 연구 주체간의 상관관계가 표시된 자원검색 정보 제공 장치 및 방법
CN111798259A (zh) 应用推荐方法、装置、存储介质及电子设备
WO2022197136A1 (en) System and method for enhancing machine learning model for audio/video understanding using gated multi-level attention and temporal adversarial training
WO2018164435A1 (en) Electronic apparatus, method for controlling the same, and non-transitory computer readable recording medium
WO2021107445A1 (ko) 지식 그래프 및 국가별 음역 전환 기반 신조어 정보 서비스 제공 방법 및 그 장치
CN111639234B (zh) 用于挖掘核心实体关注点的方法和装置
CN113052025A (zh) 图像融合模型的训练方法、图像融合方法及电子设备
WO2021080033A1 (ko) 음성 분석 방법 및 장치
WO2020141907A1 (ko) 키워드에 기초하여 이미지를 생성하는 이미지 생성 장치 및 이미지 생성 방법
EP3577583A1 (en) Electronic apparatus, method for controlling the same, and non-transitory computer readable recording medium
CN114299295A (zh) 一种数据处理方法及相关装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18877211

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018877211

Country of ref document: EP

Effective date: 20200506