WO2024101625A1 - 계층적 모델을 이용한 객체 식별 방법 및 장치 - Google Patents

계층적 모델을 이용한 객체 식별 방법 및 장치 Download PDF

Info

Publication number
WO2024101625A1
WO2024101625A1 PCT/KR2023/013394 KR2023013394W WO2024101625A1 WO 2024101625 A1 WO2024101625 A1 WO 2024101625A1 KR 2023013394 W KR2023013394 W KR 2023013394W WO 2024101625 A1 WO2024101625 A1 WO 2024101625A1
Authority
WO
WIPO (PCT)
Prior art keywords
area
model
identification device
management server
type information
Prior art date
Application number
PCT/KR2023/013394
Other languages
English (en)
French (fr)
Inventor
김대훈
류제윤
Original Assignee
주식회사 누비랩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 누비랩 filed Critical 주식회사 누비랩
Priority to EP23804888.8A priority Critical patent/EP4394704A1/en
Publication of WO2024101625A1 publication Critical patent/WO2024101625A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/68Food, e.g. fruit or vegetables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/22Cropping

Definitions

  • the present invention relates to an object identification method and device.
  • the user in order to identify the object actually consumed, the user must input object information using a mobile terminal or input device.
  • the user photographs the object by executing an object-related application or a general photographing mode running on the mobile terminal.
  • the user has to search for the captured object image in the object-related application and re-enter object information about it.
  • the user when shooting in normal shooting mode, the user has to find the captured object image in the album, upload the found object image to the object-related application, and find the uploaded object image again to enter object information. Therefore, because object photography and object identification are inconvenient because they are separate operations, the frequency of uploading object information drastically decreases after the user captures several object images.
  • Embodiments of the present invention seek to provide an object identification method and device using a hierarchical model to increase object identification speed by identifying an object area in an object identification device and identifying object type information in an object management server.
  • Embodiments of the present invention use a hierarchical model to quickly determine an object located in an object image by classifying object categories step by step and identifying object type information using an object area extraction model and an object type inference model.
  • the purpose is to provide an object identification method and device.
  • the object identification device detects an object area where an object is located in an object image based on a learned object area extraction model, and the detected cutting out an object area;
  • An object identification method using a hierarchical model may be provided, including the step of the object management server identifying object type information located in an object area cut out by the object identification device based on an object type inference model.
  • the step of cutting out the detected object area is to extract the object area using a box surrounding the object or a pixel occupied by the object in the object image based on the learned object area extraction model. It can be detected.
  • the object area can be inferred by extracting the first feature point through the first image encoder of the learned object region extraction model and extracting the feature point region from the extracted first feature point. there is.
  • the method further includes the step of classifying, by the object identification device, categories of object types located in the cut object area step by step, wherein the step of identifying the object type information includes the object management server classifying the categories and Object type information can be identified using the corresponding object type inference model.
  • the object identification device may step by step classify the categories of objects located in the cut object area from the highest major category to the lowest minor category.
  • the object management server may identify the object type information using an object type inference model corresponding to the lowest subcategory, which is the classified category.
  • the object management server may determine the object type information to be one of a plurality of classes included in the classified lowest subcategory.
  • the object management server extracts a second feature point through a second image encoder of an object type inference model corresponding to the classified category, and transmits the extracted second feature point to a feature point decoder. You can infer object type information by entering it.
  • an object area in which an object is located is detected in an object image based on a learned object area extraction model, and the detected object area is cutting out; and identifying object type information located in the cut object area based on an object type inference model.
  • An object identification method using a hierarchical model may be provided.
  • an object area in which an object is located is detected in an object image based on a learned object area extraction model, and the detected object area is cutting out; and identifying object type information located in the cut object area based on an object type inference model.
  • An object identification method using a hierarchical model may be provided.
  • an object identification system includes: an object identification device that detects an object area where an object is located in an object image based on a learned object area extraction model and cuts out the detected object area; and an object management server that identifies object type information located in an object area cut out by the object identification device based on an object type inference model.
  • An object identification system using a hierarchical model may be provided.
  • the object identification device may detect an object area in the object image based on the learned object area extraction model using a box surrounding the object or a pixel occupied by the object.
  • the object identification device may extract a first feature point through a first image encoder of the learned object region extraction model, and extract a feature point region from the extracted first feature point to infer an object region.
  • the object identification device classifies categories of object types located in the cut object area step by step, and the object management server uses an object type inference model corresponding to the classified category to provide object type information. can be identified.
  • the object identification device may classify the categories of objects located in the cut-out object area sequentially from the highest major category to the lowest minor category.
  • the object management server may identify object type information using an object type inference model corresponding to the lowest subcategory, which is the classified category.
  • the object management server may determine the object type information to be one of a plurality of classes included in the classified lowest subcategory.
  • the object management server may extract a second feature point through a second image encoder of an object type inference model corresponding to the classified category, and input the extracted second feature point into a feature point decoder to infer object type information. there is.
  • an object identification device includes: a memory storing one or more programs; and a processor that executes the one or more stored programs, wherein the processor detects an object area where an object is located in an object image based on a learned object area extraction model, cuts out the detected object area, and types the object.
  • An object identification device using a hierarchical model may be provided that identifies object type information located in the cut object area using an inference model.
  • an object management server includes: a memory for storing one or more programs; and a processor that executes the one or more stored programs, wherein the processor detects an object area where an object is located in an object image based on a learned object area extraction model, cuts out the detected object area, and types the object.
  • An object management server using a hierarchical model may be provided that identifies object type information located in the cut object area using an inference model.
  • the disclosed technology can have the following effects. However, since it does not mean that a specific embodiment must include all of the following effects or only the following effects, the scope of rights of the disclosed technology should not be understood as being limited thereby.
  • Embodiments of the present invention can increase the object identification speed by identifying the object area in the object identification device and identifying object type information in the object management server.
  • Embodiments of the present invention can quickly determine an object located in an object image by classifying object categories step by step and identifying object type information using an object area extraction model and an object type inference model.
  • Embodiments of the present invention can increase the efficiency of object identification operations by adjusting the categories to be classified in consideration of real-time at the time of classification, resource status or computational load of the object identification device, etc.
  • Embodiments of the present invention can improve object identification time and object identification accuracy by quickly performing object category classification operations or object information determination operations, which are difficult to perform by the object identification device alone, by dividing them with the object management server.
  • Figure 1 is a diagram showing the configuration of an object identification system using a hierarchical model according to an embodiment of the present invention.
  • Figure 2 is a flowchart showing an object identification method using a hierarchical model according to an embodiment of the present invention.
  • Figure 3 is a diagram showing an object area inference model used in an embodiment of the present invention.
  • Figure 4 is a diagram showing an object type inference model used in an embodiment of the present invention.
  • Figure 5 is a flowchart showing an object identification method using a hierarchical model according to an embodiment of the present invention.
  • 6 to 9 are diagrams showing examples of object identification operations using a hierarchical model according to an embodiment of the present invention.
  • Figure 10 is a diagram showing the operation of an object identification method using a hierarchical model in conjunction with an object management server according to an embodiment of the present invention.
  • the terms used in the present invention are only used to describe specific embodiments and are not intended to limit the present invention.
  • the terms used in the present invention are general terms that are currently widely used as much as possible while considering the function in the present invention, but this may vary depending on the intention of a person skilled in the art, precedents, or the emergence of new technology.
  • Figure 1 is a diagram showing the configuration of an object identification system using a hierarchical model according to an embodiment of the present invention.
  • the object identification system 10 may include an object identification device 100 and an object management server 200 that communicates with the object identification device 100.
  • the object identification device 100 may detect an object area where an object is located in an object image based on a learned object area extraction model and cut out the detected object area. And the object identification device 100 may transmit the cut-out object area to the object management server 200.
  • the object management server 200 may identify object type information located in the object area cut out by the object identification device 100 based on the object type inference model.
  • the operation of identifying object type information may be performed in the object management server 200 rather than in the object identification device 100.
  • the object management server 200 may be implemented as a cloud server.
  • both the operation of detecting the object area and the operation of identifying object type information may be performed in the object identification device 100.
  • the object identification device 100 can cut out only the object (food) area from the original image and transmit, for example, only 200KB to the object management server 200 in the cloud.
  • the mobile terminal only performs the operation of detecting the object area, and may also perform the operation of identifying object type information in the cloud.
  • both the operation of detecting the object area and the operation of identifying object type information may be performed in the mobile terminal.
  • the subject of the operation of detecting the object area and the operation of identifying the object type information is the data capacity to be transmitted to the object management server 200, the hardware performance of the object identification device 100, the object management server 200 and the object identification device. (100) It may be determined based on at least one of the communication speed between the objects, the size of the object area extraction model or the object type inference model, and the identification accuracy of the object type information. For example, in cases where the data capacity is lower than the preset threshold, the hardware performance is high, the communication speed is low, the model size is small, and the accuracy is high, the object identification device 100 detects the object area and object type. It may be advantageous to perform an operation that identifies information.
  • the object identification device 100 performs an operation of detecting the object area and detects the object. It may be advantageous for the management server 200 to perform an operation to identify object type information. At this time, the object identification device 100 may convert the detected object area and transmit it to the object management server 200 instead of cutting the detected object area. For example, the object identification device 100 converts the detected object area into a thumbnail with a lower resolution and quickly sends it to the object management server 200, or converts the extension or file format when sending a file containing the object area. It can be sent to the object management server 200.
  • the object identification device 100 may include a communication module 110, a camera 120, a display 130, a memory 140, and a processor 150.
  • the object management server 200 may include a communication module 210, memory 220, and processor 230.
  • the object identification system 10 may be implemented with more components than the illustrated components, or the object identification system 10 may be implemented with fewer components.
  • the communication module 110 may include one or more modules that enable communication between the object identification device 100 and wireless communication devices, or between the object identification device 100 and the object management server 200. Additionally, the communication module 110 may include one or more modules that connect the object identification device 100 to one or more networks.
  • the camera 120 can capture images or videos according to user manipulation.
  • Camera 120 may be comprised of a single camera, multiple cameras, a single image sensor, or multiple image sensors.
  • the camera 120 may be comprised of at least one of at least one 2D camera, at least one 3D camera, at least one stereo camera, and at least one image sensor.
  • the camera 120 can capture an image or video of an object before or after a meal according to the user's manipulation.
  • the display 130 can implement a touch screen by forming a layered structure or being integrated with the touch sensor.
  • This touch screen can provide an input interface between the object identification device 100 and the user, and at the same time, an output interface between the object identification device 100 and the user.
  • the memory 140 may store data supporting various functions of the object identification device 100.
  • the memory 140 may store one or more programs running on the object identification device 100, a plurality of application programs or applications, data for operation of the object identification device 100, and commands. . At least some of these application programs may be downloaded from the object management server 200 through wireless communication. Additionally, at least some of these application programs may exist for the basic functions of the object identification device 100. Meanwhile, the application program is stored in the memory 140, installed on the object identification device 100, and driven by the processor 150 to perform the operation (or function) of the object identification device 100. .
  • the processor 150 may generally control the overall operation of the object identification device 100.
  • the processor 150 can provide or process appropriate information or functions to the user by processing signals, data, information, etc. input or output through the components described above or by running an application program stored in the memory 140.
  • the processor 150 executes one or more programs stored in the memory 140 to detect the object area where the object is located in the object image based on the learned object area extraction model and crop the detected object area. and identify object type information located in the cut object area based on the object type inference model.
  • the processor 150 may detect the object area using a box surrounding the object or a pixel occupied by the object in the object image based on a learned object area extraction model. there is.
  • the processor 150 may extract the first feature point through the first image encoder of the learned object region extraction model, and extract the feature point region from the extracted first feature point to infer the object region.
  • the processor 150 detects the object area where the object is located in the object image based on a learned object area extraction model, cuts out the detected object area, and classifies the categories of object types located in the cut-out object area step by step. , and object type information can be identified using the object type inference model corresponding to the classified category.
  • the processor 150 may classify the categories of objects located in the cut object area sequentially from the highest major category to the lowest minor category.
  • the processor 150 may identify object type information using an object type inference model corresponding to the lowest subcategory, which is a classified category.
  • the processor 150 may determine object type information as one class among a plurality of classes included in the classified lowest subcategory.
  • the processor 150 extracts a second feature point through a second image encoder of an object type inference model corresponding to the classified category, and inputs the extracted second feature point to a feature point decoder to obtain object type information. can be inferred.
  • the object identification device 100 further includes a communication module 210 that communicates with the object management server 200, and the processor 150 controls the cut object area and the classified object area through the communication module 210.
  • the category of the object type can be transmitted to the object management server 200 to request object type identification, and the object type information determined using the object type inference model corresponding to the classified category can be received from the object management server 200. there is.
  • the processor 150 may control at least some of the components examined with FIG. 1 in order to run an application program stored in the memory 140. Furthermore, the processor 150 may operate at least two of the components included in the object identification device 100 in combination with each other in order to run the application program. Here, a detailed description of the processor 150 will be provided later.
  • the communication module 210 may include one or more modules that enable communication between the object management server 200 and wireless communication devices, or between the object management server 200 and the object identification device 100. Additionally, the communication module 210 may include one or more modules that connect the object management server 200 to one or more networks.
  • the memory 220 may store data supporting various functions of the object management server 200.
  • the memory 220 may store one or more programs running on the object management server 200, multiple application programs or applications, data for operation of the object management server 200, and commands. . At least some of these application programs may be downloaded to the object management server 200 through an external communication network through wireless communication. Additionally, at least some of these application programs may exist for the basic functions of the object management server 200. Meanwhile, the application program is stored in the memory 220, installed on the object management server 200, and driven by the processor 230 to perform the operation (or function) of the object management server 200. .
  • the processor 230 may generally control the overall operation of the object management server 200.
  • the processor 230 can provide or process appropriate information or functions to the user by processing signals, data, information, etc. input or output through the components described above, or by running an application program stored in the memory 220.
  • the processor 230 may execute one or more programs related to determining object information from an object image in conjunction with the object identification device 100 stored in the memory 220. For example, the processor 230 gradually classifies the remaining categories not classified by the object identification device 100 among the categories of objects located in the cut object area, and rectifies the objects using an object type inference model corresponding to the classified category. information can be determined.
  • Object identification system 10 may include fewer or more components than those shown in FIG. 1 .
  • Figure 2 is a flowchart showing an object identification method using a hierarchical model according to an embodiment of the present invention.
  • step S101 the object identification device 100 using a hierarchical model according to an embodiment of the present invention selects the object area where the object is located in the object image based on the learned object area extraction model. Detect and cut out the detected object area. Subsequently, the object identification device 100 transmits the detected object area to the object management server 200.
  • step S102 the object management server 200 identifies object type information located in the cut object area based on the object type inference model.
  • the object identification device 100 detects the object area where the object is located in the object image based on the object area extraction model, and the object management server 200 includes an object type inference model.
  • the artificial intelligence (AI) model is a one-stage model that classifies the class of the object by cutting out the object found by the top model and a model that can find the upper category without immediately identifying the detailed class of the object.
  • an artificial intelligence system can be created that combines a model (A) to find food and a model (B) to cut out the found food and classify what kind of food it is.
  • the model (A) does not need to learn more about this food image. Therefore, in the embodiment of the present invention, only the data that requires a model (B) for food classification (e.g., bracken bracken, stir-fried anchovies, seasoned bellflower root) can be labeled and cut out to proceed with learning.
  • the object identification device 100 since the object identification device 100 according to an embodiment of the present invention operates through a model that learned several foods as one class called 'food', it uses a model that learned the overall characteristics of food to create a new You can have the advantage of being able to predict that food is food even when you see it.
  • embodiments of the present invention can be applied not only to the food domain but also to the autonomous driving domain. If you group the transportation objects that the car must recognize into categories (e.g., cars, bicycles, tillers, etc.) and then classify them into detailed categories, if you have a model that captures the car well enough, you can reduce the cost of labeling the car and spend more on labeling the tiller. A lot of resources can be used. Therefore, efficient labeling and fast model development can be achieved.
  • the embodiment of the present invention can increase the possibility of recognizing a tractor as a 'means of transportation' even when seeing it for the first time.
  • Figure 3 is a diagram showing an object area inference model used in an embodiment of the present invention.
  • the object identification device 100 can detect the object area where the object is located in the object image based on the object area inference model 300.
  • the object area inference model 300 running in the object identification device 100 performs a first encoding operation by inserting the input object image into the first encoder 310.
  • the object area inference model 300 extracts feature points for the object image through a first encoding operation.
  • the object area inference model 300 may have a structure in which a plurality of first encoders 310 and a plurality of feature point extraction blocks 320 are sequentially connected.
  • the object area inference model 300 extracts a feature point area using a plurality of extracted feature points (330) and infers the object region from the object image using the extracted feature point region (340).
  • the object area inference model 300 cuts out the inferred object area and outputs the cut out object area.
  • Figure 4 is a diagram showing an object type inference model used in an embodiment of the present invention.
  • the object identification device 100 can identify object type information using the object type inference model 400 corresponding to the classified category.
  • the object type inference model 400 running in the object identification device 100 performs a second encoding operation by inserting the input cropped object area image into the second encoder 410.
  • the object type inference model 400 extracts feature points for the cropped object area image through a second encoding operation (420).
  • the object type inference model 400 unlike the object area inference model 300, may include one second encoder 410 and a feature point decoder 430.
  • the object type inference model 400 inputs the feature points for the extracted cut-out object area into the feature point decoder 430 to perform dynamic feature point decoding.
  • the object type inference model 400 infers the object type located in the cut object area using the feature point decoding result (440).
  • the object type inference model 400 outputs the inferred object type.
  • the object location determination (e.g., box or pixel) operation and the object type determination operation occur simultaneously in one model.
  • the object identification device 100 detects the object area where the object is located in the object image based on the object area inference model 300 and provides object type information based on the object type inference model 400. can be identified. That is, the object identification device 100 includes an object area inference model 300 that finds an object in an object image and an object type inference model 400 that analyzes the type of object found in the object image.
  • the object identification device 100 may classify categories of object types located in the cut object area and analyze the object types. Alternatively, the object identification device 100 may analyze the object type without classifying the category of the object type located in the cut-out object area.
  • the learning data in each model can be separated.
  • object images are collected to create training data. And when there are new objects and previously known objects in the object image, they must be labeled even if they are known objects. If labeling is not provided, the object model may forget about the object. Conversely, when the object model is separated, as in one embodiment of the present invention, only new objects can be labeled. Since only the corresponding area where the object area is located is cut out and learned from the object image, the object identification device 100 does not need to label known objects.
  • the object model 300 and the object type inference model 400 are separated, recognition performance can be improved for new objects that may appear in object images. If you use the object model as a model, there is a high possibility that you will not be able to recognize new objects because you will only find objects you already know. On the contrary, in the case of separating the object model as in one embodiment of the present invention, the object model is an object model that learns feature points of objects from object images by looking at various objects. Accordingly, the object area inference model 300 can recognize and detect that an object is seen even when it appears for the first time in an object image, even if the object type is not accurately recognized.
  • Figure 5 is a flowchart showing an object identification method using a hierarchical model according to an embodiment of the present invention.
  • the object identification apparatus 100 using a hierarchical model selects an object area where at least one object is located in the object image based on an object area extraction model. Detect.
  • step S302 the object identification device 100 cuts out the detected object area and classifies the categories of objects located in the cut out object area.
  • step S303 the object identification device 100 determines the object using an object type inference model corresponding to the classified category.
  • 6 to 9 are diagrams showing examples of object identification operations using a hierarchical model according to an embodiment of the present invention.
  • the object identification device 100 may determine object information through the operations shown in FIGS. 6 to 9 to distinguish which object is present in the object image.
  • the object identification device 100 may receive an object image 510.
  • This object image 510 may be an original image including the object 511.
  • the object image 510 may be an object image captured through a camera provided in the object identification device 100 or an object image currently displayed on the screen by capturing an object through the camera.
  • the object image 510 may include at least one object 511.
  • the object image 510 may contain an object 511 such as tableware or a plate.
  • the object identification device 100 can determine which area the object 511 is in the object image 510 based on the learned object area extraction model 300.
  • the object identification device 100 may detect an object area 512 where an object is located and an area other than the object where something other than the object is located in the object image 510.
  • the object identification device 100 may find a box surrounding the object 511 in the object image 510 based on the learned object area extraction model 300.
  • the object identification device 100 may detect the object area 512 using a box surrounding the object.
  • the object identification device 100 may detect the remaining area other than the box surrounding the object 511 as an area other than the object.
  • the object identification device 100 may detect an edge surrounding an object and detect an area connecting the detected edges as the object area.
  • the object identification device 100 may find a pixel occupied by the object 511 in the object image 510 based on the learned object area extraction model 300.
  • the object identification device 100 may detect the object area 512 using pixels occupied by the object.
  • the object identification device 100 may detect the remaining area other than the pixel occupied by the object as an area other than the object.
  • the object area detection operation for a box or pixel in the object image 510 is as follows.
  • the object identification device 100 first receives an object image. And the object identification device 100 may extract a feature map for the object image from the object image through a convolution neural network. Subsequently, the object identification device 100 may extract an object area containing object features from the extracted feature map.
  • the object identification device 100 may cut out the object area detected in FIG. 6 and classify the category of the object 511 located in the cut out object area 513.
  • the object identification device 100 may crop the box containing the object area 512 detected in FIG. 6 to cut out the object area 512.
  • the object identification device 100 may classify the object 511 included in the cut object area 513 by gradually descending the object category from the highest category. For example, the object identification device 100 may classify the object into a specific major category among a plurality of major categories corresponding to the highest category. For example, if the object included in the cut object area is Korean food, the object identification device 100 may classify it into a category corresponding to the comprehensive scope of Korean food. The object identification device 100 can find the category of the corresponding object from a comprehensive range such as rice, soup, rice bowls, noodles, kimchi, and desserts. In FIG. 8 , the object identification device 100 may determine that the object included in each cropped object area is a rice type and classify it into the rice category. If the top category containing the object in question is Korean, Japanese, Chinese, or Western food, you can find the corresponding object category among the top categories.
  • the object category is not limited to a specific category, and the object identification device 100 can classify the object sequentially from the highest category that can encompass the object downward.
  • the object identification device 100 primarily classifies the major category for the object area and The middle classification for the object area can be classified secondarily, and the subclassification for the object area among the classified middle classifications can be classified thirdly.
  • the object identification device 100 first classifies the category of the object 511 for all objects included in the object area 512 in the object image 510 and corresponds to the classified category.
  • the object information 514 can be finally determined using the object type inference model 400.
  • the object identification device 100 may determine the object information 514 to be millet rice using a rice object inference model corresponding to the rice type.
  • the object identification device 100 uses a rice object inference model corresponding to a type of rice, that is, an object model that can distinguish whether rice, black rice, or black bean rice belongs to a lower category among rice types. You can decide what to eat.
  • the object identification device 100 may ultimately determine that the object included in the object area is millet rice using a rice object inference model corresponding to the type of rice.
  • the object identification device 100 determines object information using the same object identification method for each object included in the object area detected in the object image 510 to accurately determine which object is in the object image. It can be determined. For example, the object identification device 100 may finally determine object information as millet rice, spinach miso soup, braised beef quail, kimchi pancake, radish radish, tangerine, etc. for each object included in the object plate. At this time, the object identification device 100 determines the object category down to the lowest category, and selects the type of object type inference model 400 from among the determined object categories, such as a rice object inference model, a soup object inference model, and a side dish object inference model. Each can be used to determine object information corresponding to the lowest object category.
  • object identification device 100 determines object information using the same object identification method for each object included in the object area detected in the object image 510 to accurately determine which object is in the object image. It can be determined. For example, the object identification device 100 may finally determine object information as millet rice,
  • Figure 10 is a diagram showing the operation of an object identification method using a hierarchical model in conjunction with an object management server according to an embodiment of the present invention.
  • the object category is not hierarchically limited to a specific number of layers.
  • an object category may be classified into only two hierarchies, that is, a major category and a middle category, or it may be classified into three layers, that is, a major category, a middle category, and a small category.
  • Object categories can be classified into categories containing a natural number of layers, so they are not limited to a specific layer.
  • the object identification device 100 may preset a category hierarchy that must be classified in advance among all category classification operations. Alternatively, the object identification device 100 may adjust the category to be classified in consideration of real-time at the time of classification, device resource status, computational load, etc. Correspondingly, because the object management server 200 has higher classification performance and more available resources than the object identification device 100, the object identification device 100 performs operations that are less efficient in terms of time or accuracy, thereby The results may be transmitted to the identification device 100.
  • the object management server 200 may perform this operation on behalf of the object identification device 100. Through this, the object management server 200 can improve identification time or identification accuracy by performing operations that are difficult for the object identification device 100 to perform alone.
  • the object identification device 100 detects an object area where at least one object is located in an object image based on an object area extraction model.
  • step S302 the object identification device 100 cuts out the detected object area and first classifies the categories of objects located in the cut out object area into specific major categories.
  • step S303 the object identification device 100 secondarily classifies the object category of the object area image into a specific major classification using specific major classification information.
  • step S304 the object identification device 100 thirdly classifies the object category of the object area image into specific sub-categories using specific mid-category information.
  • step S305 the object identification device 100 transmits the cropped object area image and the classified major, medium, and small classification information.
  • step S306 the object management server 200 determines object type information of the object area image using an object type inference model corresponding to specific subcategory information.
  • step S307 the object management server 200 transmits the determined object information to the object identification device 100.
  • step S308 the object identification device 100 verifies object type information for each object included in the object image using the received object type information.
  • the example of the object identification operation in FIG. 10 is an example in which the object identification device 100 performs the category classification operation and the object information determination operation is performed by the object management server 200.
  • the subject performing each step may not be fixed.
  • the number of objects included in the object image, the size or capacity of the object image, the time required for object information included in the object image, the communication status between the object identification device 100 and the object management server 200, the object identification device Depending on the state of the object model stored in 100), the subject of the step-by-step category classification operation and object information identification operation may vary.
  • a non-transitory computer-readable storage medium for storing instructions that, when executed by a processor, cause the processor to execute a method, wherein an object identification device locates an object in an object image based on a learned object area extraction model. Detecting an object area and cutting out the detected object area;
  • a non-transitory computer-readable storage medium may be provided, including the step of the object management server identifying object type information located in an object area cut out by the object identification device based on an object type inference model.
  • the various embodiments described above are implemented as software including instructions stored in a machine-readable storage media (e.g., a computer). It can be.
  • the device is a device capable of calling instructions stored from a storage medium and operating according to the called instructions, and may include an electronic device (eg, electronic device A) according to the disclosed embodiments.
  • the processor may perform the function corresponding to the instruction directly or using other components under the control of the processor.
  • Instructions may contain code generated or executed by a compiler or interpreter.
  • a storage medium that can be read by a device may be provided in the form of a non-transitory storage medium.
  • 'non-transitory' only means that the storage medium does not contain signals and is tangible, and does not distinguish whether the data is stored semi-permanently or temporarily in the storage medium.
  • the method according to the various embodiments described above may be provided and included in a computer program product.
  • Computer program products are commodities and can be traded between sellers and buyers.
  • the computer program product may be distributed on a machine-readable storage medium (e.g. compact disc read only memory (CD-ROM)) or online through an application store (e.g. Play StoreTM).
  • an application store e.g. Play StoreTM
  • at least a portion of the computer program product may be at least temporarily stored or created temporarily in a storage medium such as the memory of a manufacturer's server, an application store server, or a relay server.
  • the various embodiments described above are stored in a recording medium that can be read by a computer or similar device using software, hardware, or a combination thereof. It can be implemented in . In some cases, embodiments described herein may be implemented in a processor itself. According to software implementation, embodiments such as procedures and functions described in this specification may be implemented as separate software modules. Each of the software modules may perform one or more functions and operations described herein.
  • Non-transitory computer-readable medium refers to a medium that stores data semi-permanently and can be read by a device, rather than a medium that stores data for a short period of time, such as registers, caches, and memories.
  • Specific examples of non-transitory computer-readable media may include CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM, etc.
  • each component e.g., module or program
  • each component may be composed of a single or multiple entities, and some of the sub-components described above may be omitted, or other sub-components may be omitted. Sub-components may be further included in various embodiments.
  • some components e.g., modules or programs
  • operations performed by a module, program, or other component may be executed sequentially, in parallel, iteratively, or heuristically, or at least some operations may be executed in a different order, omitted, or other operations may be added. It can be.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 계층적 모델을 이용한 객체 식별 방법 및 장치에 관한 것으로, 본 발명의 일 실시예에 따른 계층적 모델을 이용한 객체 식별 방법은, 객체 식별 장치가 학습된 객체 영역 추출 모델을 기반으로 객체 이미지에서 객체가 위치한 객체 영역을 검출하고, 상기 검출된 객체 영역을 잘라내는 단계; 및 객체 관리 서버가 객체 종류 추론 모델을 기반으로 상기 객체 식별 장치에서 잘라낸 객체 영역에 위치한 객체 종류 정보를 식별하는 단계를 포함한다.

Description

계층적 모델을 이용한 객체 식별 방법 및 장치
본 발명은 객체 식별 방법 및 장치에 관한 것이다.
최근 들어 건강에 대한 관심이 높아지고 있으나 반면에 과체중이나 비만으로 고통받는 사람들도 점차 증가하고 있다. 이러한 과체중이나 비만은 당뇨, 고혈압 등 각종 질환의 원인이 되는 심각한 문제이다.
따라서, 이와 같은 과체중이나 비만을 해결하기 위해서는 자신의 식습관을 분석하는 것이 선행되어야 한다. 일반적으로 본인의 호불호 객체에 대해 알고 있지만 실제로 섭취하는 객체의 종류와 횟수를 기억하지는 못한다. 따라서 자신의 식습관을 분석하기 위해 실제로 섭취하는 객체를 파악하고, 파악한 객체에 대한 정보에 따라 개인의 식습관을 분석할 필요가 있다.
하지만, 현재 공개된 대부분의 기술들은 카메라를 통해 촬영된 객체 이미지를 단순 이미지 검색하는데 그치고 있기 때문에 그 정확도가 현저하게 떨어진다. 또한, 이미지 검색에서 객체 종류 식별의 정확도가 떨어지다 보니 칼로리 계산 등과 같은 다음 단계들에서는 더 큰 오차가 발생한다는 문제점이 있다.
일례로, 실제로 섭취하는 객체를 파악하기 위해서 사용자가 모바일 단말이나 입력 장치를 이용하여 객체 정보를 입력하여야 한다. 여기서, 사용자는 모바일 단말에 실행된 객체 관련 애플리케이션이나 일반 촬영 모드를 실행하여 객체를 촬영한다. 이때, 사용자는 객체 관련 애플리케이션에서 촬영된 객체 이미지를 검색하고 다시 이에 대한 객체 정보를 입력하여야 하는 불편함이 있다. 또는 일반 촬영 모드로 촬영한 경우, 사용자는 앨범에서 촬영한 객체 이미지를 찾고, 찾은 객체 이미지를 객체 관련 애플리케이션에 올리고, 올린 객체 이미지를 다시 찾아서 객체 정보를 입력해야 하는 불편함이 있다. 따라서 객체 촬영과 객체 식별이 별도의 동작으로 이루어져서 불편하기 때문에, 사용자는 몇 개의 객체 이미지를 촬영한 후에는 객체 정보를 올리는 빈도가 급격히 낮아지게 된다.
만약, 사용자가 객체를 촬영만 하고 나중에 객체 정보를 입력하게 되는 경우가 발생할 수 있다. 객체 이미지를 촬영한 기간이 오래 경과된 경우, 사용자는 촬영 때 입력하고자 했던 객체 정보를 기억하지 못해 객체 정보를 기록하지 못하거나, 잘못된 객체 정보를 올려서 식습관 분석에서 오류가 발생할 수 있다. 또한, 사용자가 촬영된 객체 이미지에 대해 여러 가지의 객체 정보를 입력하길 원해도, 애플리케이션마다 설정된 몇 가지 고정된 객체 정보만 입력할 수밖에 없다. 이러한 경우, 객체 정보의 개수가 제한되어 사용자 식습관 분석이 정확히 이루어 지지 않을 수 있다. 이와 같이, 사용자의 불편이 가중됨으로써 객체 식별을 통해 일례로 개인의 식습관을 분석하는 서비스에 대한 만족도가 저하되고 있는 실정이다.
본 발명의 실시예들은 객체 식별 장치에서 객체 영역을 식별하고, 객체 관리 서버에서 객체 종류 정보를 식별함으로써, 객체 식별 속도를 증가시키기 위한, 계층적 모델을 이용한 객체 식별 방법 및 장치를 제공하고자 한다.
본 발명의 실시예들은 객체 영역 추출 모델과 객체 종류 추론 모델을 이용하여 객체의 카테고리를 단계적으로 분류하고 객체 종류 정보를 식별함으로써, 객체 이미지에서 위치한 객체를 신속하게 결정하기 위한, 계층적 모델을 이용한 객체 식별 방법 및 장치를 제공하고자 한다.
다만, 본 발명의 해결하고자 하는 과제는 이에 한정되는 것이 아니며, 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위의 환경에서도 다양하게 확장될 수 있을 것이다.
본 발명의 일 실시예에 따르면, 객체 식별 시스템에 의해 수행되는 객체 식별 방법에 있어서, 객체 식별 장치가 학습된 객체 영역 추출 모델을 기반으로 객체 이미지에서 객체가 위치한 객체 영역을 검출하고, 상기 검출된 객체 영역을 잘라내는 단계; 및 객체 관리 서버가 객체 종류 추론 모델을 기반으로 상기 객체 식별 장치에서 잘라낸 객체 영역에 위치한 객체 종류 정보를 식별하는 단계를 포함하는, 계층적 모델을 이용한 객체 식별 방법이 제공될 수 있다.
상기 검출된 객체 영역을 잘라내는 단계는, 상기 학습된 객체 영역 추출 모델을 기반으로 상기 객체 이미지에서 상기 객체를 둘러싸고 있는 박스(Box) 또는 상기 객체가 차지하고 있는 픽셀(Pixel)을 이용하여 객체 영역을 검출할 수 있다.
상기 검출된 객체 영역을 잘라내는 단계는, 상기 학습된 객체 영역 추출 모델의 제1 이미지 인코더를 통해 제1 특징점을 추출하고, 상기 추출된 제1 특징점으로부터 특징점 영역을 추출하여 객체 영역을 추론할 수 있다.
상기 방법은, 상기 객체 식별 장치가 상기 잘라낸 객체 영역에 위치한 객체 종류의 카테고리를 단계적으로 분류하는 단계를 더 포함하고, 상기 객체 종류 정보를 식별하는 단계는, 상기 객체 관리 서버가 상기 분류된 카테고리와 대응되는 객체 종류 추론 모델을 이용하여 객체 종류 정보를 식별할 수 있다.
상기 객체 종류의 카테고리를 단계적으로 분류하는 단계는, 상기 객체 식별 장치가 상기 잘라낸 객체 영역에 위치한 객체의 카테고리를 최상위 대분류부터 순차적으로 최하위 소분류까지 단계적으로 분류할 수 있다.
상기 객체 종류 정보를 식별하는 단계는, 상기 객체 관리 서버가 상기 분류된 카테고리인 최하위 소분류와 대응되는 객체 종류 추론 모델을 이용하여 객체 종류 정보를 식별할 수 있다.
상기 객체 종류 정보를 식별하는 단계는, 상기 객체 관리 서버가 상기 객체 종류 정보를 상기 분류된 최하위 소분류에 포함된 복수의 클래스 중에서 어느 하나의 클래스로 판별할 수 있다.
상기 객체 종류 정보를 식별하는 단계는, 상기 객체 관리 서버가 상기 분류된 카테고리와 대응되는 객체 종류 추론 모델의 제2 이미지 인코더를 통해 제2 특징점을 추출하고, 상기 추출된 제2 특징점을 특징점 디코더에 입력시켜 객체 종류 정보를 추론할 수 있다.
한편, 본 발명의 다른 실시예에 따르면, 객체 식별 장치에 의해 수행되는 객체 식별 방법에 있어서, 학습된 객체 영역 추출 모델을 기반으로 객체 이미지에서 객체가 위치한 객체 영역을 검출하고, 상기 검출된 객체 영역을 잘라내는 단계; 및 객체 종류 추론 모델을 기반으로 상기 잘라낸 객체 영역에 위치한 객체 종류 정보를 식별하는 단계를 포함하는, 계층적 모델을 이용한 객체 식별 방법이 제공될 수 있다.
한편, 본 발명의 다른 실시예에 따르면, 객체 관리 서버에 의해 수행되는 객체 식별 방법에 있어서, 학습된 객체 영역 추출 모델을 기반으로 객체 이미지에서 객체가 위치한 객체 영역을 검출하고, 상기 검출된 객체 영역을 잘라내는 단계; 및 객체 종류 추론 모델을 기반으로 상기 잘라낸 객체 영역에 위치한 객체 종류 정보를 식별하는 단계를 포함하는, 계층적 모델을 이용한 객체 식별 방법이 제공될 수 있다.
한편, 본 발명의 다른 실시예에 따르면, 객체 식별 시스템에 있어서, 학습된 객체 영역 추출 모델을 기반으로 객체 이미지에서 객체가 위치한 객체 영역을 검출하고, 상기 검출된 객체 영역을 잘라내는 객체 식별 장치; 및 객체 종류 추론 모델을 기반으로 상기 객체 식별 장치에서 잘라낸 객체 영역에 위치한 객체 종류 정보를 식별하는 객체 관리 서버를 포함하는, 계층적 모델을 이용한 객체 식별 시스템이 제공될 수 있다.
상기 객체 식별 장치는, 상기 학습된 객체 영역 추출 모델을 기반으로 상기 객체 이미지에서 상기 객체를 둘러싸고 있는 박스(Box) 또는 상기 객체가 차지하고 있는 픽셀(Pixel)을 이용하여 객체 영역을 검출할 수 있다.
상기 객체 식별 장치는, 상기 학습된 객체 영역 추출 모델의 제1 이미지 인코더를 통해 제1 특징점을 추출하고, 상기 추출된 제1 특징점으로부터 특징점 영역을 추출하여 객체 영역을 추론할 수 있다.
상기 객체 식별 장치는, 상기 객체 식별 장치가 상기 잘라낸 객체 영역에 위치한 객체 종류의 카테고리를 단계적으로 분류하고, 상기 객체 관리 서버는, 상기 분류된 카테고리와 대응되는 객체 종류 추론 모델을 이용하여 객체 종류 정보를 식별할 수 있다.
상기 객체 식별 장치는, 상기 잘라낸 객체 영역에 위치한 객체의 카테고리를 최상위 대분류부터 순차적으로 최하위 소분류까지 단계적으로 분류할 수 있다.
상기 객체 관리 서버는, 상기 분류된 카테고리인 최하위 소분류와 대응되는 객체 종류 추론 모델을 이용하여 객체 종류 정보를 식별할 수 있다.
상기 객체 관리 서버는, 상기 객체 종류 정보를 상기 분류된 최하위 소분류에 포함된 복수의 클래스 중에서 어느 하나의 클래스로 판별할 수 있다.
상기 객체 관리 서버는, 상기 분류된 카테고리와 대응되는 객체 종류 추론 모델의 제2 이미지 인코더를 통해 제2 특징점을 추출하고, 상기 추출된 제2 특징점을 특징점 디코더에 입력시켜 객체 종류 정보를 추론할 수 있다.
한편, 본 발명의 다른 실시예에 따르면, 객체 식별 장치에 있어서, 하나 이상의 프로그램을 저장하는 메모리; 및 상기 저장된 하나 이상의 프로그램을 실행하는 프로세서를 포함하고, 상기 프로세서는, 학습된 객체 영역 추출 모델을 기반으로 객체 이미지에서 객체가 위치한 객체 영역을 검출하고, 상기 검출된 객체 영역을 잘라내고, 객체 종류 추론 모델을 이용하여 상기 잘라낸 객체 영역에 위치한 객체 종류 정보를 식별하는, 계층적 모델을 이용한 객체 식별 장치가 제공될 수 있다.
한편, 본 발명의 다른 실시예에 따르면, 객체 관리 서버에 있어서, 하나 이상의 프로그램을 저장하는 메모리; 및 상기 저장된 하나 이상의 프로그램을 실행하는 프로세서를 포함하고, 상기 프로세서는, 학습된 객체 영역 추출 모델을 기반으로 객체 이미지에서 객체가 위치한 객체 영역을 검출하고, 상기 검출된 객체 영역을 잘라내고, 객체 종류 추론 모델을 이용하여 상기 잘라낸 객체 영역에 위치한 객체 종류 정보를 식별하는, 계층적 모델을 이용한 객체 관리 서버가 제공될 수 있다.
개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
본 발명의 실시예들은 객체 식별 장치에서 객체 영역을 식별하고, 객체 관리 서버에서 객체 종류 정보를 식별함으로써, 객체 식별 속도를 증가시킬 수 있다.
본 발명의 실시예들은 객체 영역 추출 모델과 객체 종류 추론 모델을 이용하여 객체의 카테고리를 단계적으로 분류하고 객체 종류 정보를 식별함으로써, 객체 이미지에서 위치한 객체를 신속하게 결정할 수 있다.
본 발명의 실시예들은 분류 시점의 실시간성이나 객체 식별 장치의 자원 상태나 연산 부하 등을 고려하여 분류해야 하는 카테고리를 조정함으로써, 객체 식별 동작의 효율성을 증가시킬 수 있다.
본 발명의 실시예들은 객체 식별 장치 혼자서 수행하기 곤란한 객체 카테고리 분류 동작이나 객체 정보 결정 동작을 객체 관리 서버와 나누어 신속하게 수행함으로써, 객체 식별 시간이나 객체 식별 정확성을 향상시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 계층적 모델을 이용한 객체 식별 시스템의 구성을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 계층적 모델을 이용한 객체 식별 방법을 나타낸 흐름도이다.
도 3은 본 발명의 일 실시예에 사용되는 객체 영역 추론 모델을 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 사용되는 객체 종류 추론 모델을 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 계층적 모델을 이용한 객체 식별 방법을 나타낸 흐름도이다.
도 6 내지 도 9는 본 발명의 일 실시예에 따른 계층적 모델을 이용한 객체 식별 동작의 예시를 나타낸 도면이다.
도 10은 본 발명의 일 실시예에 따른 계층적 모델을 이용한 객체 식별 방법이 객체 관리 서버와 연동하는 동작을 나타낸 도면이다.
본 발명은 다양한 변환을 가할 수 있고 여러가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 구체적으로 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 기술적 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해될 수 있다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들이 용어들에 의해 한정되는 것은 아니다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 발명에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 본 발명에서 사용한 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나 이는 당 분야에 종사하는 기술자의 의도, 판례, 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 발명에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하, 본 발명의 실시예들을 첨부 도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 본 발명의 일 실시예에 따른 계층적 모델을 이용한 객체 식별 시스템의 구성을 나타낸 도면이다.
먼저, 도 1을 참조하면, 본 발명에 따른 객체 식별 시스템(10)은 객체 식별 장치(100) 및 객체 식별 장치(100)와 통신하는 객체 관리 서버(200)를 포함할 수 있다.
객체 식별 장치(100)는 학습된 객체 영역 추출 모델을 기반으로 객체 이미지에서 객체가 위치한 객체 영역을 검출하고, 검출된 객체 영역을 잘라낼 수 있다. 그리고 객체 식별 장치(100)는 잘라낸 객체 영역을 객체 관리 서버(200)에 전송할 수 있다.
객체 관리 서버(200)는 객체 종류 추론 모델을 기반으로 객체 식별 장치(100)에서 잘라낸 객체 영역에 위치한 객체 종류 정보를 식별할 수 있다.
이와 같이, 객체 종류 정보를 식별하는 동작은 객체 식별 장치(100)에서 수행하지 않고 객체 관리 서버(200)에서 수행될 수 있다. 여기서, 객체 관리 서버(200)는 클라우드 서버로 구현될 수 있다. 또는, 객체 영역을 검출하는 동작과 객체 종류 정보를 식별하는 동작은 객체 식별 장치(100)에서 모두 수행될 수 있다.
이는 객체 영역 검출 및 객체 종류 식별 동작의 속도를 높이기 위한 것이다. 예를 들어, 사용자가 객체 식별 장치(100)가 포함된 모바일 단말에서 객체(음식)를 사진을 촬영했을 때 촬영한 원본 이미지 파일이 4MB인데, 원본 이미지 파일 4MB을 클라우드에 있는 객체 관리 서버(200)에 전송하면 너무 용량이 크게 된다. 그러므로, 객체 식별 장치(100)는 원본 이미지에서 객체(음식) 영역만 잘라내서 예를 들어 200KB만 클라우드에 있는 객체 관리 서버(200)로 전송할 수 있다. 이와 같이, 모바일 단말에서는 객체 영역을 검출하는 동작만 수행하고, 클라우드에서 객체 종류 정보를 식별하는 동작을 수행할 수도 있다. 또는, 모바일 단말에서 객체 영역을 검출하는 동작과 객체 종류 정보를 식별하는 동작을 모두 수행할 수도 있다.
여기서, 객체 영역을 검출하는 동작과 객체 종류 정보를 식별하는 동작의 주체는 객체 관리 서버(200)로 전송할 데이터 용량, 객체 식별 장치(100)의 하드웨어 성능, 객체 관리 서버(200)와 객체 식별 장치(100) 간의 통신 속도, 객체 영역 추출 모델 또는 객체 종류 추론 모델의 크기 및 객체 종류 정보의 식별 정확도 중에서 적어도 하나를 기반으로 결정될 수 있다. 예를 들어, 기설정된 임계치 보다 데이터 용량이 낮고, 하드웨어 성능이 높고, 통신 속도가 낮고, 모델의 크기가 작고, 정확도가 높은 경우에서는 객체 식별 장치(100)가 객체 영역을 검출하는 동작과 객체 종류 정보를 식별하는 동작을 수행하는 것이 유리할 수 있다. 반대로, 기설정된 임계치 보다 데이터 용량이 높고, 하드웨어 성능이 낮고, 통신 속도가 높고, 모델의 크기가 크고, 정확도가 낮은 경우에서는 객체 식별 장치(100)가 객체 영역을 검출하는 동작을 수행하고, 객체 관리 서버(200)가 객체 종류 정보를 식별하는 동작을 수행하는 것이 유리할 수 있다. 이때, 객체 식별 장치(100)는 검출된 객체 영역을 잘라내는 동작 대신에 검출된 객체 영역을 변환하여 객체 관리 서버(200)에 전송할 수 있다. 예를 들면, 객체 식별 장치(100)는 검출된 객체 영역의 해상도를 낮게 썸네일로 변환해서 객체 관리 서버(200)에 빨리 보내거나, 객체 영역이 포함된 파일을 보낼 때 확장자나 파일 형식을 변환하여 객체 관리 서버(200)에 보낼 수 있다.
한편, 도 1에 도시된 바와 같이, 객체 식별 장치(100)는 통신 모듈(110), 카메라(120), 디스플레이(130), 메모리(140) 및 프로세서(150)를 포함할 수 있다. 객체 관리 서버(200)는 통신 모듈(210), 메모리(220) 및 프로세서(230)를 포함할 수 있다.
그러나 도시된 구성요소 모두가 필수 구성요소인 것은 아니다. 도시된 구성요소보다 많은 구성요소에 의해 객체 식별 시스템(10)이 구현될 수도 있고, 그보다 적은 구성요소에 의해서도 객체 식별 시스템(10)이 구현될 수 있다.
이하, 도 1의 객체 식별 시스템(10)의 각 구성요소들의 구체적인 구성 및 동작을 설명한다.
먼저, 객체 식별 장치(100)의 각 구성요소들의 구체적인 구성 및 동작을 설명한다.
통신 모듈(110)은 객체 식별 장치(100)와 무선 통신 장치들 사이, 또는 객체 식별 장치(100)와 객체 관리 서버(200) 사이의 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 또한, 통신 모듈(110)은 객체 식별 장치(100)를 하나 이상의 네트워크에 연결하는 하나 이상의 모듈을 포함 할 수 있다.
카메라(120)는 사용자의 조작에 따라 이미지 또는 동영상을 촬영할 수 있다. 카메라(120)는 단일 카메라, 복수의 카메라, 단일 이미지 센서, 또는 복수의 이미지 센서로 이루어질 수 있다. 카메라(120)는 적어도 하나의 2D 카메라, 적어도 하나의 3D 카메라, 적어도 하나의 스테레오 카메라, 적어도 하나의 이미지 센서 중에서 적어도 하나로 구성될 수 있다. 여기서, 카메라(120)는 사용자의 조작에 따라 식사 전후에 객체를 이미지 또는 동영상으로 촬영할 수 있다.
디스플레이(130)는 터치 센서와 상호 레이어 구조를 이루거나 일체형으로 형성됨으로써, 터치 스크린을 구현할 수 있다. 이러한 터치 스크린은, 객체 식별 장치(100)와 사용자 사이의 입력 인터페이스를 제공함과 동시에, 객체 식별 장치(100)와 사용자 사이의 출력 인터페이스를 제공할 수 있다.
메모리(140)는 객체 식별 장치(100)의 다양한 기능을 지원하는 데이터를 저장할 수 있다. 메모리(140)는 객체 식별 장치(100)에서 구동되는 하나 이상의 프로그램, 다수의 응용 프로그램(application program) 또는 애플리케이션(application), 객체 식별 장치(100)의 동작을 위한 데이터들, 명령어들을 저장할 수 있다. 이러한 응용 프로그램 중 적어도 일부는, 무선 통신을 통해 객체 관리 서버(200)로부터 다운로드 될 수 있다. 또한, 이러한 응용 프로그램 중 적어도 일부는, 객체 식별 장치(100)의 기본적인 기능을 위하여 존재할 수 있다. 한편, 응용 프로그램은, 메모리(140)에 저장되고, 객체 식별 장치(100) 상에 설치되어, 프로세서(150)에 의하여 객체 식별 장치(100)의 동작(또는 기능)을 수행하도록 구동될 수 있다.
프로세서(150)는 상기 응용 프로그램과 관련된 동작 외에도, 통상적으로 객체 식별 장치(100)의 전반적인 동작을 제어할 수 있다. 프로세서(150)는 위에서 살펴본 구성요소들을 통해 입력 또는 출력되는 신호, 데이터, 정보 등을 처리하거나 메모리(140)에 저장된 응용 프로그램을 구동함으로써, 사용자에게 적절한 정보 또는 기능을 제공 또는 처리할 수 있다.
일 실시예에서, 프로세서(150)는 메모리(140)에 저장된 하나 이상의 프로그램을 실행함으로써, 학습된 객체 영역 추출 모델을 기반으로 객체 이미지에서 객체가 위치한 객체 영역을 검출하고, 검출된 객체 영역을 잘라내고, 객체 종류 추론 모델을 기반으로 상기 잘라낸 객체 영역에 위치한 객체 종류 정보를 식별한다.
실시예들에 따르면, 프로세서(150)는 학습된 객체 영역 추출 모델을 기반으로 객체 이미지에서 상기 객체를 둘러싸고 있는 박스(Box) 또는 객체가 차지하고 있는 픽셀(Pixel)을 이용하여 객체 영역을 검출할 수 있다.
실시예들에 따르면, 프로세서(150)는 학습된 객체 영역 추출 모델의 제1 이미지 인코더를 통해 제1 특징점을 추출하고, 추출된 제1 특징점으로부터 특징점 영역을 추출하여 객체 영역을 추론할 수 있다.
실시예들에 따르면, 프로세서(150)는 학습된 객체 영역 추출 모델을 기반으로 객체 이미지에서 객체가 위치한 객체 영역을 검출하고, 검출된 객체 영역을 잘라내고 잘라낸 객체 영역에 위치한 객체 종류의 카테고리를 단계적으로 분류하고, 분류된 카테고리와 대응되는 객체 종류 추론 모델을 이용하여 객체 종류 정보를 식별할 수 있다.
실시예들에 따르면, 프로세서(150)는 잘라낸 객체 영역에 위치한 객체의 카테고리를 최상위 대분류부터 순차적으로 최하위 소분류까지 단계적으로 분류할 수 있다.
실시예들에 따르면, 프로세서(150)는 분류된 카테고리인 최하위 소분류와 대응되는 객체 종류 추론 모델을 이용하여 객체 종류 정보를 식별할 수 있다.
실시예들에 따르면, 프로세서(150)는 객체 종류 정보를 상기 분류된 최하위 소분류에 포함된 복수의 클래스 중에서 어느 하나의 클래스로 판별할 수 있다.
실시예들에 따르면, 프로세서(150)는 분류된 카테고리와 대응되는 객체 종류 추론 모델의 제2 이미지 인코더를 통해 제2 특징점을 추출하고, 추출된 제2 특징점을 특징점 디코더를 입력시켜 객체 종류 정보를 추론 할 수 있다.
실시예들에 따르면, 객체 식별 장치(100)는 객체 관리 서버(200)와 통신하는 통신 모듈(210)을 더 포함하고, 프로세서(150)는 통신 모듈(210)을 통해 잘라낸 객체 영역 및 분류된 객체 종류의 카테고리를 객체 관리 서버(200)로 전송하여 객체 종류 식별을 요청하고, 객체 관리 서버(200)로부터 분류된 카테고리와 대응되는 객체 종류 추론 모델을 이용하여 판별된 객체 종류 정보를 수신할 수 있다.
또한, 프로세서(150)는 메모리(140)에 저장된 응용 프로그램을 구동하기 위하여, 도 1과 함께 살펴본 구성요소들 중 적어도 일부를 제어할 수 있다. 나 아가, 프로세서(150)는 상기 응용 프로그램의 구동을 위하여, 객체 식별 장치(100)에 포함된 구성요소들 중 적어도 둘 이상을 서로 조합하여 동작시킬 수 있다. 여기서, 프로세서(150)에 대한 상세한 설명은 후술하기로 한다.
한편, 다음으로, 객체 관리 서버(200)의 각 구성요소들의 구체적인 구성 및 동작을 설명한다.
통신 모듈(210)은 객체 관리 서버(200)와 무선 통신 장치들 사이, 또는 객체 관리 서버(200)와 객체 식별 장치(100) 사이의 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 또한, 통신 모듈(210)은 객체 관리 서버(200)를 하나 이상의 네트워크에 연결하는 하나 이상의 모듈을 포함 할 수 있다.
메모리(220)는 객체 관리 서버(200)의 다양한 기능을 지원하는 데이터를 저장할 수 있다. 메모리(220)는 객체 관리 서버(200)에서 구동되는 하나 이상의 프로그램, 다수의 응용 프로그램(application program) 또는 애플리케이션(application), 객체 관리 서버(200)의 동작을 위한 데이터들, 명령어들을 저장할 수 있다. 이러한 응용 프로그램 중 적어도 일부는, 무선 통신을 통해 외부 통신망을 통해 객체 관리 서버(200)로 다운로드될 수 있다. 또한, 이러한 응용 프로그램 중 적어도 일부는, 객체 관리 서버(200)의 기본적인 기능을 위하여 존재할 수 있다. 한편, 응용 프로그램은, 메모리(220)에 저장되고, 객체 관리 서버(200) 상에 설치되어, 프로세서(230)에 의하여 객체 관리 서버(200)의 동작(또는 기능)을 수행하도록 구동될 수 있다.
프로세서(230)는 상기 응용 프로그램과 관련된 동작 외에도, 통상적으로 객체 관리 서버(200)의 전반적인 동작을 제어할 수 있다. 프로세서(230)는 위에서 살펴본 구성요소들을 통해 입력 또는 출력되는 신호, 데이터, 정보 등을 처리하거나 메모리(220)에 저장된 응용 프로그램을 구동함으로써, 사용자에게 적절한 정보 또는 기능을 제공 또는 처리할 수 있다.
일 실시예에서, 프로세서(230)는 메모리(220)에 저장된 객체 식별 장치(100)와 연동하여 객체 이미지에서 객체 정보를 결정하는 동작과 관련된 하나 이상의 프로그램을 실행할 수 있다. 일례로, 프로세서(230)는 잘라낸 객체 영역에 위치한 객체의 카테고리 중에서 객체 식별 장치(100)에서 분류하지 않은 나머지 카테고리를 단계적으로 분류하고, 분류된 카테고리와 대응되는 객체 종류 추론 모델을 이용하여 객체 정류 정보를 결정할 수 있다.
이상, 도 1을 참조하여, 본 발명에 따른 객체 식별 시스템(10)의 구성에 대해 상세히 설명하였다. 객체 식별 시스템(10)은 도 1에 도시된 구성요소보다 더 적은 수의 구성요소나 더 많은 구성요소를 포함할 수도 있다.
이하, 도 2 내지 도 6을 참조하여, 본 발명의 다양한 실시예들에 따른 객체 식별 방법에 대해서 설명하도록 한다.
도 2는 본 발명의 일 실시예에 따른 계층적 모델을 이용한 객체 식별 방법을 나타낸 흐름도이다.
도 2에 도시된 바와 같이, 단계 S101에서, 본 발명의 일 실시예에 따른 계층적 모델을 이용한 객체 식별 장치(100)는 학습된 객체 영역 추출 모델을 기반으로 객체 이미지에서 객체가 위치한 객체 영역을 검출하고, 검출된 객체 영역을 잘라낸다. 이어서, 객체 식별 장치(100)는 검출된 객체 영역을 객체 관리 서버(200)에 전송한다.
단계 S102에서, 객체 관리 서버(200)는 객체 종류 추론 모델을 기반으로 잘라낸 객체 영역에 위치한 객체 종류 정보를 식별한다.
이와 같이, 본 발명의 일 실시예에 따른 객체 식별 장치(100)는 객체 영역 추출 모델을 기반으로 객체 이미지에서 객체가 위치한 객체 영역을 검출하고, 객체 관리 서버(200)는 객체 종류 추론 모델이 포함된 계층적 모델을 이용하여 계층적으로 객체를 분류한다. 이러한 계층적 객체 분류의 이점을 설명하기로 한다. 즉, 인공지능(AI) 모델을 하나의 스테이지(one-stage)로 바로 객체의 세부 클래스를 파악하지 않고, 상위 카테고리를 찾을 수 있는 모델과 상위 모델이 찾은 객체를 잘라내어 객체의 클래스를 분류하는 모델을 이용하여 시스템을 구성했을 때 이점은 아래와 같다.
일례로, 음식의 경우 모델을 학습하기 위해 음식 이미지들을 수집하게 된다. 이때, 음식의 경우 쌀밥, 배추김치, 깍두기 등이 상대적으로 훨씬 많이 출현하고, 도라지 무침, 고사리 나물, 멸치볶음 등의 음식은 낮은 빈도로 출현하게 된다. 그러면, 쌀밥, 배추김치, 깍두기, 도라지 무침, 고사리 나물, 멸치볶음 등이 포함된 음식 이미지가 있을 때, 하나의 스테이지(one-stage) 모델을 만들기 위한 학습 데이터는 모든 음식을 라벨링 해주어야 한다
하지만, 본 발명의 실시예와 같이, 음식을 찾는 모델(A)과 찾은 음식을 잘라내어 어떤 음식인지 분류하는 모델(B) 두개를 조합한 인공지능 시스템을 만들 수 있다. 본 발명의 실시예는 음식 이미지에서 모든 음식을 다 찾는다면 모델(A)은 이 음식 이미지에 대해서는 더 학습하지 않아도 된다. 따라서, 본 발명의 실시예는 음식 분류를 위한 모델(B)이 필요한 데이터(예: 고사리 나물, 멸치볶음, 도라지 무침)만 라벨링을 해주고 잘라내어 학습을 진행해도 된다.
추가적인 이점으로는, 하나의 스테이지(one-stage) 모델의 경우에 한번도 보지 못한 음식의 경우에는 전혀 인식을 못하는 경우도 발생할 수 있다.
그러나 본 발명의 실시예에 따른 객체 식별 장치(100)는 여러 음식을 '음식' 이라는 하나의 클래스로 학습한 모델을 통해 동작하기 때문에, 음식이라는 전반적인(overall) 특징을 학습한 모델을 이용하여 새로운 음식을 보았을 때도 음식이라는 것을 예측할 수 있는 장점을 가질 수 있다.
더 나아가, 본 발명의 실시예는 음식 도메인뿐만 아니라 자율주행 도메인에도 적용될 수 있다. 자동차가 인지해야 할 이동수단 대상을 카테고리로 묶고(예컨대, 자동차, 자전거, 경운기 등), 이후 세부 카테고리를 분류한다면 자동차를 충분히 잘 잡는 모델이 있을 때는 자동차를 라벨링하는 비용을 줄이고 경운기를 라벨링 하는데 더 리소스를 많이 쓸 수 있다. 따라서 효율적인 라벨링 및 빠른 모델 개발이 될 수 있다. 또한, 본 발명의 실시예가 트랙터를 처음 보는 경우에도 '이동수단'이라는 것으로 인지할 가능성을 증가시킬 수 있다.
도 3은 본 발명의 일 실시예에 사용되는 객체 영역 추론 모델을 나타낸 도면이다.
도 3에 도시된 바와 같이, 객체 식별 장치(100)는 객체 영역 추론 모델(300)을 기본으로 객체 이미지에서 객체가 위치한 객체 영역을 검출할 수 있다.
객체 식별 장치(100)에서 실행되는 객체 영역 추론 모델(300)은 입력된 객체 이미지를 제1 인코더(310)에 넣어 제1 인코딩 동작을 수행한다. 객체 영역 추론 모델(300)은 제1 인코딩 동작을 통해 객체 이미지에 대한 특징점을 추출한다. 여기서, 객체 영역 추론 모델(300)은 복수의 제1 인코더(310)와 복수의 특징점 추출 블록(320)이 차례대로 연결되어 있는 구조를 가질 수 있다.
그리고 객체 영역 추론 모델(300)은 추출된 복수의 특징점을 이용하여 특징점 영역을 추출하고(330), 추출된 특징점 영역을 이용하여 객체 이미지에서 객체 영역을 추론한다(340).
이후, 객체 영역 추론 모델(300)은 추론된 객체 영역을 잘라내어 잘라낸 객체 영역을 출력한다.
도 4는 본 발명의 일 실시예에 사용되는 객체 종류 추론 모델을 나타낸 도면이다.
도 4에 도시된 바와 같이, 객체 식별 장치(100)는 분류된 카테고리와 대응되는 객체 종류 추론 모델(400)을 이용하여 객체 종류 정보를 식별할 수 있다.
객체 식별 장치(100)에서 실행되는 객체 종류 추론 모델(400)은 입력된 잘라낸 객체 영역 이미지를 제2 인코더(410)에 넣어 제2 인코딩 동작을 수행한다. 객체 종류 추론 모델(400)은 제2 인코딩 동작을 통해 잘라낸 객체 영역 이미지에 대한 특징점을 추출한다(420). 여기서, 객체 종류 추론 모델(400)은 객체 영역 추론 모델(300)과 다르게 하나의 제2 인코더(410)와 특징점 디코더(430)를 포함할 수 있다.
그리고 객체 종류 추론 모델(400)은 추출된 잘라낸 객체 영역에 대한 특징점을 특징점 디코더(430)에 입력시켜 특징점 디코딩 동적을 수행한다. 이어서, 객체 종류 추론 모델(400)은 특징점 디코딩 결과를 이용하여 잘라낸 객체 영역에 위치한 객체 종류를 추론한다(440).
이후, 객체 종류 추론 모델(400)은 추론된 객체 종류를 출력한다.
한편, 일반적인 인공지능(AI) 기법에서 객체를 분석하는 경우 객체 위치 판별(예컨대, 박스 또는 픽셀) 동작과, 객체 종류 판별 동작이 하나의 모델에서 동시에 일어나게 된다.
본 발명의 일 실시예에 따른 객체 식별 장치(100)는 객체 영역 추론 모델(300)을 기반으로 객체 이미지에서 객체가 위치한 객체 영역을 검출하고, 객체 종류 추론 모델(400)을 기반으로 객체 종류 정보를 식별할 수 있다. 즉, 객체 식별 장치(100)는 객체 이미지에서 객체를 찾는 객체 영역 추론 모델(300)과 객체 이미지에서 찾은 객체의 종류를 분석하는 객체 종류 추론 모델(400)을 포함한다.
여기서, 객체 식별 장치(100)는 잘라낸 객체 영역에 위치한 객체 종류의 카테고리를 분류하고 객체 종류를 분석할 수 있다. 또는, 객체 식별 장치(100)는 잘라낸 객체 영역에 위치한 객체 종류의 카테고리를 분류하지 않고 객체 종류를 분석할 수 있다.
이와 같이 객체 영역 추론 모델(300)과 객체 종류 추론 모델(400)을 분리하는 경우 아래와 같은 장점을 얻게 될 수 있다.
첫째, 객체 영역 추론 모델(300)과 객체 종류 추론 모델(400)이 분리되어 있기 때문에, 각 모델에서의 학습 데이터가 분리될 수 있다. 객체 모델을 하나의 모델로 사용하는 경우, 학습 데이터를 만들기 위해 객체 이미지를 수집한다. 그리고 객체 이미지 안에 있는 신규 객체와 이전에 알고 있는 객체가 있을 때 알고 있는 객체이더라도 라벨링해주어야 한다. 만약, 라벨링을 해주지 않는 경우 객체 모델이 그 객체에 대해 망각하게 될 수 있다. 반대로, 본 발명의 일 실시예와 같이 객체 모델을 분리하는 경우는 신규 객체만 라벨링해줄 수 있다. 객체 이미지에서 객체 영역이 위치한 해당 영역만 잘라내어 학습하기 때문에, 객체 식별 장치(100)는 알고 있는 객체에 대해 라벨링하지 않아도 된다.
둘째, 객체 영역 추론 모델(300)과 객체 종류 추론 모델(400)이 분리되어 있기 때문에, 객체 이미지에 나타날 수 있는 신규 객체에 대해 인식 성능이 상승될 수 있다. 객체 모델을 하나의 모델로 사용하는 경우는 자신이 알고 있는 객체만 찾기 때문에 신규 객체를 인지하지 못할 가능성 높다. 반대로, 본 발명의 일 실시예와 같이 객체 모델을 분리하는 경우는 여러 가지 객체들을 보고 객체 이미지에서 객체이라는 특징점을 학습한 객체 모델이다. 따라서, 객체 영역 추론 모델(300)은 객체 이미지에서 처음 보는 객체가 나타난 경우에도 객체 종류를 정확히 인식하지 못해도 객체이라는 것을 인지하고 감지할 수 있다.
도 5는 본 발명의 일 실시예에 따른 계층적 모델을 이용한 객체 식별 방법을 나타낸 흐름도이다.
도 5에 도시된 바와 같이, 단계 S301에서, 본 발명의 일 실시예에 따른 계층적 모델을 이용한 객체 식별 장치(100)는 객체 영역 추출 모델을 기반으로 객체 이미지에서 적어도 하나의 객체가 위치한 객체 영역을 검출한다.
단계 S302에서, 객체 식별 장치(100)는 검출 객체 영역을 잘라내고 잘라낸 객체 영역에 위치한 객체의 카테고리를 분류한다.
단계 S303에서, 객체 식별 장치(100)는 분류된 카테고리와 대응되는 객체 종류 추론 모델을 이용하여 객체를 결정한다.
도 6 내지 도 9는 본 발명의 일 실시예에 따른 계층적 모델을 이용한 객체 식별 동작의 예시를 나타낸 도면이다.
객체 식별 장치(100)는 객체 이미지에서 어떤 객체가 있는지 구별하기 위해 도 6 내지 도 9에 도시된 동작을 통해 객체 정보를 결정할 수 있다.
도 6에 도시된 바와 같이, 객체 식별 장치(100)는 객체 이미지(510)를 수신할 수 있다. 이러한 객체 이미지(510)는 객체(511)가 포함된 원본 이미지일 수 있다. 객체 이미지(510)는 객체 식별 장치(100)에 구비된 카메라릍 통해 촬영된 객체 이미지 또는 현재 카메라를 통해 객체를 촬영하여 화면에 디스플레이되고 있는 객체 이미지일 수 있다. 객체 이미지(510)에는 적어도 하나의 객체(511)가 포함될 수 있다. 객체 이미지(510)에는 식기나 식판 등에 객체(511)가 담겨있을 수 있다.
도 7에 도시된 바와 같이, 객체 식별 장치(100)는 학습된 객체 영역 추출 모델(300)을 기반으로 객체 이미지(510)에서 객체(511)가 어느 영역에 있는지 확인할 수 있다. 객체 식별 장치(100)는 객체 이미지(510)에서 객체가 있는 객체 영역(512)과 객체 이외의 다른 것이 위치한 객체 이외의 영역을 검출할 수 있다.
일례로, 객체 식별 장치(100)는 학습된 객체 영역 추출 모델(300)을 기반으로 객체 이미지(510)에서 객체(511)를 둘러싸고 있는 박스(box)를 찾을 수 있다. 객체 식별 장치(100)는 객체를 둘러싸고 있는 박스를 이용하여 객체 영역(512)을 검출할 수 있다. 객체 식별 장치(100)는 객체(511)를 둘러싸고 있는 박스 이외의 나머지 영역을 객체 이외의 영역으로 검출할 수 있다. 또는, 객체 식별 장치(100)는 객체를 둘러싸고 있는 에지(Edge)를 검출하고 검출된 에지를 연결한 영역을 객체 영역으로 검출할 수 있다.
다른예로, 객체 식별 장치(100)는 학습된 객체 영역 추출 모델(300)을 기반으로 객체 이미지(510)에서 객체(511)가 차지하고 있는 픽셀(pixel)을 찾을 수 있다. 객체 식별 장치(100)는 객체가 차지하고 있는 픽셀을 이용하여 객체 영역(512)을 검출할 수 있다. 객체 식별 장치(100)는 객체가 차지하고 있는 픽셀 이외의 나머지 영역을 객체 이외의 영역으로 검출할 수 있다.
객체 이미지(510)에서 박스 또는 픽셀에 대한 객체 영역 검출 동작을 살펴보면 다음과 같다. 객체 식별 장치(100)는 우선 객체 이미지를 입력받는다. 그리고 객체 식별 장치(100)는 객체 이미지에서 컨볼루션 신경망(convolution neural network)을 통해 객체 이미지에 대한 특징맵을 추출할 수 있다. 이어서, 객체 식별 장치(100)는 추출된 특징맵에서 객체 특징이 있는 객체 영역을 추출할 수 있다.
도 8에 도시된 바와 같이, 객체 식별 장치(100)는 도 6에서 검출된 객체 영역을 잘라내고 잘라낸 객체 영역(513)에 위치한 객체(511)의 카테고리를 분류할 수 있다. 여기서, 객체 식별 장치(100)는 도 6에서 검출된 객체 영역(512)이 포함된 박스(box)를 크롭(crop)하여 객체 영역(512)을 잘라낼 수 있다.
이때, 객체 식별 장치(100)는 잘라낸 객체 영역(513)에 포함된 객체(511)에 대해 객체의 카테고리를 최상위 카테고리부터 단계적으로 하향하여 분류할 수 있다. 일례로, 객체 식별 장치(100)는 최상위 카테고리에 해당하는 복수의 대분류 중에서 특정 대분류로 객체의 카테고리를 분류할 수 있다. 예를 들어, 객체 식별 장치(100)는 잘라낸 객체 영역에 포함된 객체가 한식인 경우 한식의 포괄적인 범위에 해당하는 카테고리로 분류할 수 있다. 객체 식별 장치(100)는 밥, 국, 덮밥, 면, 김치류, 디저트류 등의 포괄적인 범위 중에서 해당 객체의 카테고리를 찾을 수 있다. 도 8에서, 객체 식별 장치(100)는 각각의 크롭된 객체 영역에 포함된 객체가 밥 종류로 판별되어 밥의 카테고리로 분류를 진행할 수 있다. 해당 객체가 포함된 최상위 카테고리가 한식, 일식, 중식, 양식인 경우 최상위 카테고리 중에서 해당 객체 카테고리를 찾을 수 있다.
객체 카테고리는 특정 카테고리로 한정되지 않으며, 객체 식별 장치(100)는 객체를 최우선으로 포괄할 수 있는 최상위 카테고리부터 순차적으로 하향하여 분류할 수 있다. 여기서, 객체 식별 장치(100)는 객체의 최상위 카테고리가 대분류, 차상위 카테고리가 중분류, 최하위 카테고리가 소분류인 경우, 객체 식별 장치(100)는 객체 영역에 대한 대분류를 1차적으로 분류하고, 분류된 대분류 중에서 객체 영역에 대한 중분류를 2차적으로 분류하고, 분류된 중분류 중에서 객체 영역에 대한 소분류를 3차적으로 분류할 수 있다.
도 9에 도시된 바와 같이, 객체 식별 장치(100)는 객체 이미지(510)에서 객체 영역(512)에 포함된 객체 전체에 대해 우선적으로 객체(511)의 카테고리를 분류하고, 분류된 카테고리와 대응되는 객체 종류 추론 모델(400)을 이용하여 객체 정보(514)를 최종적으로 결정할 수 있다. 객체 식별 장치(100)는 객체 영역(512)의 카테고리를 밥 종류로 분류한 경우, 밥 종류에 대응되는 밥 객체 추론 모델을 이용하여 객체 정보(514)를 기장밥으로 결정할 수 있다. 예를 들면, 객체 식별 장치(100)는 밥 종류에 대응되는 밥 객체 추론 모델 즉, 밥 종류 중에서 하위 분류에 속하는 쌀밥, 흑미밥, 또는 검정콩밥인지 등을 구별해줄 수 있는 객체 모델을 이용하여 특정 밥을 결정할 수 있다. 도 8에서는 객체 식별 장치(100)는 밥 종류에 대응되는 밥 객체 추론 모델을 이용하여 객체 영역에 포함된 객체를 최종적으로 기장밥으로 결정할 수 있다.
이후, 객체 식별 장치(100)는 객체 이미지(510)에서 검출된 객체 영역에 포함된 각각의 객체에 대해 동일한 객체 식별 방법으로 객체 정보의 결정 동작을 진행을 하여 객체 이미지 내 어떤 객체가 있는지를 정확하게 판별할 수 있다. 예를 들면, 객체 식별 장치(100)는 객체 식판에 포함된 각각의 객체에 대해 기장밥, 시금치 된장국, 쇠고기 메추라기 장조림, 김치전, 깍두기, 귤 등으로 객체 정보를 최종적으로 결정할 수 있다. 이때, 객체 식별 장치(100)는 객체 카테고리를 최하위 카테고리까지 결정하고, 결정된 객체의 카테고리 중에서 객체 종류 추론 모델(400)의 종류 예컨대, 밥 객체 추론 모델, 국 객체 추론 모델, 반찬 객체 추론 모델 등을 각각 이용하여 최하위 객체 카테고리에 해당하는 객체 정보를 결정할 수 있다.
도 10은 본 발명의 일 실시예에 따른 계층적 모델을 이용한 객체 식별 방법이 객체 관리 서버와 연동하는 동작을 나타낸 도면이다.
객체 이미지에서 잘라낸 객체 영역에 포함된 객체가 최상위 카테고리부터 최하위 카테고리까지 대분류, 중분류, 소분류로 구분되어 있는 경우에 객체 식별 장치(100)와 객체 관리 서버(200)와의 연동 동작을 통해 객체를 식별하는 동작이 도 7에 도시되어 있다. 여기서, 객체 카테고리는 계층적으로 특정 개수의 계층으로 한정되지 않는다. 예컨대, 객체 카테고리는 2개의 계층 즉, 대분류, 중분류로만 분류될 수 있거나, 3개의 계층 즉, 대분류, 중분류, 소분류로 분류될 수 있다. 객체 카테고리는 자연수 n개의 계층이 포함된 카테고리로 분류될 수 있어 특정 계층으로 한정되지 않는다.
이때, 객체 식별 장치(100)는 전체 카테고리 분류 동작 중에서 미리 분류해야 하는 카테고리 계층이 미리 설정될 수 있다. 또는, 객체 식별 장치(100)는 분류 시점의 실시간성이나 장치 자원 상태나 연산 부하 등을 고려하여 분류해야 하는 카테고리가 조정될 수 있다. 이와 대응하여, 객체 관리 서버(200)는 객체 식별 장치(100)에 비해 분류 성능이 높고 가용 가능한 자원이 많기 때문에, 객체 식별 장치(100)에서 시간적 또는 정확성 측면에서 효율이 낮은 동작을 수행하여 객체 식별 장치(100)에 해당 결과를 전송할 수 있다.
예컨대, 객체 이미지에서 객체 영역을 잘라내고, 잘라낸 객체 영역에 대한 대분류, 중분류, 소분류에 대한 분류 동작은 시간 또는 부하가 적게 걸리는 반면, 특정 객체 정보를 결정하는 동작은 연산량이 많이 필요하고 정확성이 낮아질 때, 객체 관리 서버(200)가 이러한 동작을 객체 식별 장치(100) 대신하여 수행할 수 있다. 이를 통해, 객체 관리 서버(200)는 객체 식별 장치(100) 혼자서 수행하기 곤란한 동작을 수행하여 식별 시간이나 식별 정확성을 향상시킬 수 있다.
도 10에 도시된 바와 같이, 단계 S301에서, 객체 식별 장치(100)는 객체 영역 추출 모델을 기반으로 객체 이미지에서 적어도 하나의 객체가 위치한 객체 영역을 검출한다.
단계 S302에서, 객체 식별 장치(100)는 검출 객체 영역을 잘라내고 잘라낸 객체 영역에 위치한 객체의 카테고리를 특정 대분류로 1차로 분류한다.
단계 S303에서, 객체 식별 장치(100)는 특정 대분류 정보를 이용하여 객체 영역 이미지의 객체 카테고리를 특정 중분류로 2차로 분류한다.
단계 S304에서, 객체 식별 장치(100)는 특정 중분류 정보를 이용하여 객체 영역 이미지의 객체 카테고리를 특정 소분류로 3차로 분류한다.
단계 S305에서, 객체 식별 장치(100)는 잘라낸 객체 영역 이미지 및 분류된 대분류, 중분류, 소분류 정보를 전송한다.
단계 S306에서, 객체 관리 서버(200)는 특정 소분류 정보와 대응되는 객체 종류 추론 모델을 이용하여 객체 영역 이미지의 객체 종류 정보를 결정한다.
단계 S307에서, 객체 관리 서버(200)는 결정된 객체 정보를 객체 식별 장치(100)에 전송한다.
단계 S308에서, 객체 식별 장치(100)는 수신된 객체 종류 정보를 이용하여 객체 이미지에 포함된 각 객체에 대해 객체 종류 정보를 확인한다.
이와 같이, 도 10의 객체 식별 동작 예시는 카테고리 분류 동작은 객체 식별 장치(100)가 수행하고, 객체 정보 결정 동작은 객체 관리 서버(200)가 수행하는 예시이다. 여기서, 각 단계를 수행하는 주체가 고정적이지 않을 수 있다. 예컨대, 객체 이미지에 포함된 객체의 개수, 객체 이미지의 크기나 용량, 객체 이미지에 포함된 객체 정보를 필요한 시간, 객체 식별 장치(100)와 객체 관리 서버(200) 간의 통신 상태, 객체 식별 장치(100)에 저장된 객체 모델의 상태 등에 따라 단계별 카테고리 분류 동작과 객체 정보 식별 동작의 주체가 달라질 수 있다.
한편, 프로세서에 의해 실행될 때, 상기 프로세서로 하여금 방법을 실행하게 하는 명령어들을 저장하기 위한 비일시적 컴퓨터 판독가능 저장 매체로서, 객체 식별 장치가 학습된 객체 영역 추출 모델을 기반으로 객체 이미지에서 객체가 위치한 객체 영역을 검출하고, 상기 검출된 객체 영역을 잘라내는 단계; 및 객체 관리 서버가 객체 종류 추론 모델을 기반으로 상기 객체 식별 장치에서 잘라낸 객체 영역에 위치한 객체 종류 정보를 식별하는 단계를 포함하는, 비일시적 컴퓨터 판독 가능한 저장 매체가 제공될 수 있다.
한편, 본 발명의 일 실시예에 따르면, 이상에서 설명된 다양한 실시예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media)에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시예들에 따른 전자 장치(예: 전자 장치(A))를 포함할 수 있다. 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 프로세서의 제어 하에 다른 구성요소들을 이용하여 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.
또한, 본 발명의 일 실시예에 따르면, 이상에서 설명된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
또한, 본 발명의 일 실시예에 따르면, 이상에서 설명된 다양한 실시예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다. 일부 경우에 있어 본 명세서에서 설명되는 실시예들이 프로세서 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 동작을 수행할 수 있다.
한편, 상술한 다양한 실시예들에 따른 기기의 프로세싱 동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium)에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시예에 따른 기기에서의 처리 동작을 특정 기기가 수행하도록 한다. 비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.
또한, 상술한 다양한 실시예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
[부호의 설명]
10: 객체 식별 시스템
100: 객체 식별 장치
110: 통신 모듈
120: 카메라
130: 디스플레이
140: 메모리
150: 프로세서
200: 객체 관리 서버
210: 통신 모듈
220: 메모리
230: 프로세서

Claims (20)

  1. 객체 식별 시스템에 의해 수행되는 객체 식별 방법에 있어서,
    객체 식별 장치가 학습된 객체 영역 추출 모델을 기반으로 객체 이미지에서 객체가 위치한 객체 영역을 검출하고, 상기 검출된 객체 영역을 잘라내는 단계; 및
    객체 관리 서버가 객체 종류 추론 모델을 기반으로 상기 객체 식별 장치에서 잘라낸 객체 영역에 위치한 객체 종류 정보를 식별하는 단계를 포함하는, 계층적 모델을 이용한 객체 식별 방법.
  2. 제1항에 있어서,
    상기 검출된 객체 영역을 잘라내는 단계는,
    상기 학습된 객체 영역 추출 모델을 기반으로 상기 객체 이미지에서 상기 객체를 둘러싸고 있는 박스(Box) 또는 상기 객체가 차지하고 있는 픽셀(Pixel)을 이용하여 객체 영역을 검출하는, 계층적 모델을 이용한 객체 식별 방법.
  3. 제1항에 있어서,
    상기 검출된 객체 영역을 잘라내는 단계는,
    상기 학습된 객체 영역 추출 모델의 제1 이미지 인코더를 통해 제1 특징점을 추출하고, 상기 추출된 제1 특징점으로부터 특징점 영역을 추출하여 객체 영역을 추론하는, 계층적 모델을 이용한 객체 식별 방법.
  4. 제1항에 있어서,
    상기 객체 식별 장치가 상기 잘라낸 객체 영역에 위치한 객체 종류의 카테고리를 단계적으로 분류하는 단계를 더 포함하고,
    상기 객체 종류 정보를 식별하는 단계는, 상기 객체 관리 서버가 상기 분류된 카테고리와 대응되는 객체 종류 추론 모델을 이용하여 객체 종류 정보를 식별하는, 계층적 모델을 이용한 객체 식별 방법.
  5. 제4항에 있어서,
    상기 객체 종류의 카테고리를 단계적으로 분류하는 단계는,
    상기 객체 식별 장치가 상기 잘라낸 객체 영역에 위치한 객체의 카테고리를 최상위 대분류부터 순차적으로 최하위 소분류까지 단계적으로 분류하는, 계층적 모델을 이용한 객체 식별 방법.
  6. 제5항에 있어서,
    상기 객체 종류 정보를 식별하는 단계는,
    상기 객체 관리 서버가 상기 분류된 카테고리인 최하위 소분류와 대응되는 객체 종류 추론 모델을 이용하여 객체 종류 정보를 식별하는, 계층적 모델을 이용한 객체 식별 방법.
  7. 제5항에 있어서,
    상기 객체 종류 정보를 식별하는 단계는,
    상기 객체 관리 서버가 상기 객체 종류 정보를 상기 분류된 최하위 소분류에 포함된 복수의 클래스 중에서 어느 하나의 클래스로 판별하는, 계층적 모델을 이용한 객체 식별 방법.
  8. 제4항에 있어서,
    상기 객체 종류 정보를 식별하는 단계는,
    상기 객체 관리 서버가 상기 분류된 카테고리와 대응되는 객체 종류 추론 모델의 제2 이미지 인코더를 통해 제2 특징점을 추출하고, 상기 추출된 제2 특징점을 특징점 디코더에 입력시켜 객체 종류 정보를 추론하는, 계층적 모델을 이용한 객체 식별 방법.
  9. 객체 식별 장치에 의해 수행되는 객체 식별 방법에 있어서,
    학습된 객체 영역 추출 모델을 기반으로 객체 이미지에서 객체가 위치한 객체 영역을 검출하고, 상기 검출된 객체 영역을 잘라내는 단계; 및
    객체 종류 추론 모델을 기반으로 상기 잘라낸 객체 영역에 위치한 객체 종류 정보를 식별하는 단계를 포함하는, 계층적 모델을 이용한 객체 식별 방법.
  10. 객체 관리 서버에 의해 수행되는 객체 식별 방법에 있어서,
    학습된 객체 영역 추출 모델을 기반으로 객체 이미지에서 객체가 위치한 객체 영역을 검출하고, 상기 검출된 객체 영역을 잘라내는 단계; 및
    객체 종류 추론 모델을 기반으로 상기 잘라낸 객체 영역에 위치한 객체 종류 정보를 식별하는 단계를 포함하는, 계층적 모델을 이용한 객체 식별 방법.
  11. 객체 식별 시스템에 있어서,
    학습된 객체 영역 추출 모델을 기반으로 객체 이미지에서 객체가 위치한 객체 영역을 검출하고, 상기 검출된 객체 영역을 잘라내는 객체 식별 장치; 및
    객체 종류 추론 모델을 기반으로 상기 객체 식별 장치에서 잘라낸 객체 영역에 위치한 객체 종류 정보를 식별하는 객체 관리 서버를 포함하는, 계층적 모델을 이용한 객체 식별 시스템.
  12. 제11에 있어서,
    상기 객체 식별 장치는,
    상기 학습된 객체 영역 추출 모델을 기반으로 상기 객체 이미지에서 상기 객체를 둘러싸고 있는 박스(Box) 또는 상기 객체가 차지하고 있는 픽셀(Pixel)을 이용하여 객체 영역을 검출하는, 계층적 모델을 이용한 객체 식별 시스템.
  13. 제11에 있어서,
    상기 객체 식별 장치는,
    상기 학습된 객체 영역 추출 모델의 제1 이미지 인코더를 통해 제1 특징점을 추출하고, 상기 추출된 제1 특징점으로부터 특징점 영역을 추출하여 객체 영역을 추론하는, 계층적 모델을 이용한 객체 식별 시스템.
  14. 제11에 있어서,
    상기 객체 식별 장치는, 상기 객체 식별 장치가 상기 잘라낸 객체 영역에 위치한 객체 종류의 카테고리를 단계적으로 분류하고,
    상기 객체 관리 서버는, 상기 분류된 카테고리와 대응되는 객체 종류 추론 모델을 이용하여 객체 종류 정보를 식별하는, 계층적 모델을 이용한 객체 식별 시스템.
  15. 제14항에 있어서,
    상기 객체 식별 장치는,
    상기 잘라낸 객체 영역에 위치한 객체의 카테고리를 최상위 대분류부터 순차적으로 최하위 소분류까지 단계적으로 분류하는, 계층적 모델을 이용한 객체 식별 시스템.
  16. 제15항에 있어서,
    상기 객체 관리 서버는,
    상기 분류된 카테고리인 최하위 소분류와 대응되는 객체 종류 추론 모델을 이용하여 객체 종류 정보를 식별하는, 계층적 모델을 이용한 객체 식별 시스템.
  17. 제15항에 있어서,
    상기 객체 관리 서버는,
    상기 객체 종류 정보를 상기 분류된 최하위 소분류에 포함된 복수의 클래스 중에서 어느 하나의 클래스로 판별하는, 계층적 모델을 이용한 객체 식별 시스템.
  18. 제14항에 있어서,
    상기 객체 관리 서버는,
    상기 분류된 카테고리와 대응되는 객체 종류 추론 모델의 제2 이미지 인코더를 통해 제2 특징점을 추출하고, 상기 추출된 제2 특징점을 특징점 디코더에 입력시켜 객체 종류 정보를 추론하는, 계층적 모델을 이용한 객체 식별 시스템.
  19. 객체 식별 장치에 있어서,
    하나 이상의 프로그램을 저장하는 메모리; 및
    상기 저장된 하나 이상의 프로그램을 실행하는 프로세서를 포함하고,
    상기 프로세서는,
    학습된 객체 영역 추출 모델을 기반으로 객체 이미지에서 객체가 위치한 객체 영역을 검출하고, 상기 검출된 객체 영역을 잘라내고,
    객체 종류 추론 모델을 이용하여 상기 잘라낸 객체 영역에 위치한 객체 종류 정보를 식별하는, 계층적 모델을 이용한 객체 식별 장치.
  20. 객체 관리 서버에 있어서,
    하나 이상의 프로그램을 저장하는 메모리; 및
    상기 저장된 하나 이상의 프로그램을 실행하는 프로세서를 포함하고,
    상기 프로세서는,
    학습된 객체 영역 추출 모델을 기반으로 객체 이미지에서 객체가 위치한 객체 영역을 검출하고, 상기 검출된 객체 영역을 잘라내고,
    객체 종류 추론 모델을 이용하여 상기 잘라낸 객체 영역에 위치한 객체 종류 정보를 식별하는, 계층적 모델을 이용한 객체 관리 서버.
PCT/KR2023/013394 2022-11-09 2023-09-07 계층적 모델을 이용한 객체 식별 방법 및 장치 WO2024101625A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP23804888.8A EP4394704A1 (en) 2022-11-09 2023-09-07 Object identification method and device using hierarchical model

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2022-0148837 2022-11-09
KR1020220148837A KR20240067618A (ko) 2022-11-09 2022-11-09 계층적 모델을 이용한 객체 식별 방법 및 장치

Publications (1)

Publication Number Publication Date
WO2024101625A1 true WO2024101625A1 (ko) 2024-05-16

Family

ID=91033177

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/013394 WO2024101625A1 (ko) 2022-11-09 2023-09-07 계층적 모델을 이용한 객체 식별 방법 및 장치

Country Status (3)

Country Link
EP (1) EP4394704A1 (ko)
KR (1) KR20240067618A (ko)
WO (1) WO2024101625A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101882743B1 (ko) * 2017-04-17 2018-08-30 인하대학교 산학협력단 콘볼루션 신경망 기반-계층적 특징 모델링을 이용한 효율적인 객체 검출 방법
KR102110766B1 (ko) * 2017-03-30 2020-05-14 한국전자통신연구원 음식 적합도에 기초한 요리 정보 제공 방법 및 장치
KR20210013216A (ko) * 2018-09-06 2021-02-03 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 멀티 레벨 타겟 분류 및 교통 표지 검출 방법 및 장치, 기기, 매체
KR20220024238A (ko) * 2015-11-25 2022-03-03 삼성전자주식회사 사용자 단말 장치 및 그 제어 방법
KR102433391B1 (ko) * 2016-01-14 2022-08-17 한국전자통신연구원 음식 검색 서비스 제공 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220024238A (ko) * 2015-11-25 2022-03-03 삼성전자주식회사 사용자 단말 장치 및 그 제어 방법
KR102433391B1 (ko) * 2016-01-14 2022-08-17 한국전자통신연구원 음식 검색 서비스 제공 장치 및 방법
KR102110766B1 (ko) * 2017-03-30 2020-05-14 한국전자통신연구원 음식 적합도에 기초한 요리 정보 제공 방법 및 장치
KR101882743B1 (ko) * 2017-04-17 2018-08-30 인하대학교 산학협력단 콘볼루션 신경망 기반-계층적 특징 모델링을 이용한 효율적인 객체 검출 방법
KR20210013216A (ko) * 2018-09-06 2021-02-03 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 멀티 레벨 타겟 분류 및 교통 표지 검출 방법 및 장치, 기기, 매체

Also Published As

Publication number Publication date
EP4394704A1 (en) 2024-07-03
KR20240067618A (ko) 2024-05-17

Similar Documents

Publication Publication Date Title
WO2016171341A1 (ko) 클라우드 기반 병리 분석 시스템 및 방법
US7663643B2 (en) Electronic album display system, an electronic album display method, and a machine readable medium storing thereon a computer program for displaying an electronic album
JP4167221B2 (ja) 無線ハンドヘルド装置用の画像案内モデルベースト・ポイント&クリック・インターフェイス
WO2017034220A1 (en) Method of automatically focusing on region of interest by an electronic device
WO2015034269A1 (ko) 영상 처리 방법 및 장치
WO2019225964A1 (en) System and method for fast object detection
CN111061898A (zh) 图像处理方法、装置、计算机设备及存储介质
WO2021187776A1 (en) Methods and systems for grouping of media based on similarities between features of the media
JP2006236218A (ja) 電子アルバム表示システム、電子アルバム表示方法、及び電子アルバム表示プログラム
WO2018131875A1 (en) Display apparatus and method for providing service thereof
WO2020017875A1 (en) Electronic apparatus, method for processing image and computer-readable recording medium
CN112333467A (zh) 一种用于检测视频的关键帧的方法、系统和介质
WO2019143137A1 (ko) 영상 전처리 방법, 장치 및 컴퓨터 프로그램
WO2012137994A1 (ko) 영상인식장치 및 그 영상 감시방법
US11348254B2 (en) Visual search method, computer device, and storage medium
WO2018043923A1 (ko) 디스플레이장치 및 그 제어방법
WO2024101625A1 (ko) 계층적 모델을 이용한 객체 식별 방법 및 장치
US11335044B2 (en) Display system of a wearable terminal, display method of the wearable terminal, and program
WO2018164435A1 (en) Electronic apparatus, method for controlling the same, and non-transitory computer readable recording medium
CN113569613A (zh) 图像处理方法、装置、图像处理设备及存储介质
WO2018080204A1 (ko) 영상처리장치, 영상처리방법 및 컴퓨터 판독가능 기록 매체
JP2020009162A (ja) 画像処理装置、画像処理方法およびプログラム
WO2023158205A1 (ko) Ai 기반 객체인식을 통한 감시 카메라 영상의 노이즈 제거
EP3577583A1 (en) Electronic apparatus, method for controlling the same, and non-transitory computer readable recording medium
JP5193944B2 (ja) 画像処理方法

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2023804888

Country of ref document: EP

Effective date: 20231115

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23804888

Country of ref document: EP

Kind code of ref document: A1