WO2022025568A1 - 멀티 태스크 러닝을 이용하여 상품의 속성을 인식하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체 - Google Patents

멀티 태스크 러닝을 이용하여 상품의 속성을 인식하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체 Download PDF

Info

Publication number
WO2022025568A1
WO2022025568A1 PCT/KR2021/009650 KR2021009650W WO2022025568A1 WO 2022025568 A1 WO2022025568 A1 WO 2022025568A1 KR 2021009650 W KR2021009650 W KR 2021009650W WO 2022025568 A1 WO2022025568 A1 WO 2022025568A1
Authority
WO
WIPO (PCT)
Prior art keywords
product
recognition model
attribute recognition
task
product attribute
Prior art date
Application number
PCT/KR2021/009650
Other languages
English (en)
French (fr)
Inventor
전재영
박준철
장윤훈
최형원
Original Assignee
옴니어스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020200174715A external-priority patent/KR102584289B1/ko
Application filed by 옴니어스 주식회사 filed Critical 옴니어스 주식회사
Publication of WO2022025568A1 publication Critical patent/WO2022025568A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism

Definitions

  • the present invention relates to a method, a system, and a non-transitory computer-readable recording medium for recognizing the properties of a product using multi-task learning (MTL).
  • MTL multi-task learning
  • the communication unit the query image receiving step of receiving the query image from the user device; a candidate region extraction step in which a candidate region detection unit applies the query image to a pre-learned object detection model to extract one or more candidate regions in which a product is estimated to exist in the inquiry image; a feature extraction step in which a feature extraction unit applies a candidate image, which is an image within the one or more candidate regions, to a pre-learned feature extraction model to extract features for each attribute of the candidate image; a search step of searching a product image database for product images similar to the candidate image based on the extracted feature by the search unit; and, in the feature extraction model, a lower layer consists of a unified network, and an upper layer
  • the layer has a structure composed of a plurality of classification networks separated by the attribute, and the plurality of classification networks include a coarse feature having a resolution lower than a specific resolution for each
  • the inventor(s) may increase both the learning efficiency and the recognition accuracy of the product attribute recognition model by determining a task group including two or more tasks for the product attribute recognition model to learn together with reference to the correlation between the tasks.
  • the present invention determines two or more tasks as a task group for the product attribute recognition model to learn together with reference to the correlation between the tasks, and a parameter or pre-processing process (parameter) commonly applied to learning for the task group ( preprocessing) and apply the set parameters or preprocessing process to train the product attribute recognition model for the task group above, so that both the learning efficiency and the recognition accuracy of the product attribute recognition model can be increased do.
  • a parameter or pre-processing process commonly applied to learning for the task group ( preprocessing) and apply the set parameters or preprocessing process to train the product attribute recognition model for the task group above, so that both the learning efficiency and the recognition accuracy of the product attribute recognition model can be increased do.
  • Another object of the present invention is to increase the search accuracy for product-related content or products by using an output derived from an embedding layer of a product attribute recognition model as a search clue.
  • a representative configuration of the present invention for achieving the above object is as follows.
  • the product property recognition model learns two or more tasks with reference to the correlation between the tasks. Determining as a task group, setting a parameter or preprocessing to be commonly applied to learning for the task group, and applying the set parameter or preprocessing process to the task group.
  • a method comprising the step of training the product attribute recognition model for
  • the product attribute recognition model learns two or more tasks with reference to the correlation between tasks.
  • a task manager that determines as a task group, and a parameter or preprocessing to be commonly applied to learning for the task group, and applying the set parameter or preprocessing process to the task group.
  • a system including a model learning management unit for learning the product attribute recognition model with respect to.
  • the product attribute recognition model learns together, two or more tasks that can help each other (that is, the task of recognizing the attribute of a product) can be learned together, so that the product attribute recognition model learns the tasks one by one It is possible to increase the recognition accuracy of the product attribute recognition model compared to the case of
  • the output derived from the embedding layer of the product attribute recognition model performing multi-task learning can be utilized as a search clue, it is possible to increase the search performance for product-related content or products.
  • FIG. 1 is a diagram showing a schematic configuration of an overall system for recognizing the properties of a product using multi-task learning (MTL) according to an embodiment of the present invention.
  • MTL multi-task learning
  • FIG. 2 is a diagram illustrating in detail the internal configuration of a product attribute recognition system according to an embodiment of the present invention.
  • FIG. 3 is a diagram conceptually illustrating the configuration of a product attribute recognition model for recognizing product attributes using single task learning according to the prior art.
  • FIG. 4 is a diagram conceptually illustrating the configuration of a product attribute recognition model for recognizing product attributes using multi-task learning according to an embodiment of the present invention.
  • 5 and 6 are diagrams showing the advantageous effect that can be achieved in the case of recognizing the property of a product using multi-task learning as an experimental result according to an embodiment of the present invention.
  • FIG. 1 is a diagram showing a schematic configuration of an overall system for recognizing attributes of a product using multi-task learning according to an embodiment of the present invention.
  • the entire system may include a communication network 100 , a product attribute recognition system 200 , and a device 300 .
  • the communication network 100 may be configured regardless of communication aspects such as wired communication or wireless communication, and includes a local area network (LAN), a metropolitan area network (MAN) ), a wide area network (WAN), etc. may be configured as various communication networks.
  • the communication network 100 as used herein may be a well-known Internet or World Wide Web (WWW).
  • WWW World Wide Web
  • the communication network 100 is not necessarily limited thereto, and may include a known wired/wireless data communication network, a known telephone network, or a known wired/wireless television communication network in at least a part thereof.
  • the communication network 100 is a wireless data communication network, such as Wi-Fi communication, WiFi-Direct communication, Long Term Evolution (LTE) communication, 5G communication, Bluetooth communication (eg, A conventional communication method such as Bluetooth Low Energy (BLE) communication), infrared communication, or ultrasonic communication may be implemented in at least a part thereof.
  • Wi-Fi communication such as Wi-Fi communication, WiFi-Direct communication, Long Term Evolution (LTE) communication, 5G communication, Bluetooth communication (eg, A conventional communication method such as Bluetooth Low Energy (BLE) communication), infrared communication, or ultrasonic communication may be implemented in at least a part thereof.
  • the product attribute recognition system 200 may perform communication with a device 300 to be described later through the communication network 100, and refer to the correlation between the tasks to perform two or more tasks determines as a task group for the product attribute recognition model to learn together, sets parameters or preprocessing that are commonly applied to learning for the task group, and sets the parameters or preprocessing process set above can be applied to train the product attribute recognition model for the above task group.
  • the device 300 is a digital device including a function to enable communication after accessing the product attribute recognition system 200 through the communication network 100 , a smartphone, a tablet Any portable digital device equipped with a memory means, such as a PC, and equipped with a microprocessor, capable of computing, may be adopted as the device 300 according to the present invention.
  • the device 300 may include an application for supporting the function according to the present invention.
  • Such an application may be downloaded from the product attribute recognition system 200 or an external application distribution server (not shown).
  • an attribute related to a product may mean a characteristic or property of a corresponding product that may be determined for each of a plurality of attribute classifications that may be variously defined.
  • a plurality of attribute classifications for a certain fashion product a category, an item, a body length, an arm length, a neckline, a shape, and a feel of a material It can be assumed that (texture), print (print), style (style), detail (detail), color (color), etc.
  • address Information such as "Slip Dress”, “Knee Length”, “Sleeveless”, “V-neck”, “A-line”, “Silk”, “Tie-Die”, “Casual”, “None”, “Orange, White”, etc. It may be determined as an attribute related to a fashion product.
  • FIG. 2 is a diagram illustrating in detail the internal configuration of the product attribute recognition system 200 according to an embodiment of the present invention.
  • the product attribute recognition system 200 may be a digital device having a memory means and a microprocessor mounted therein to have arithmetic capability.
  • the product attribute recognition system 200 may be a server system.
  • the product attribute recognition system 200 may be configured to include a task management unit 210 , a model learning management unit 220 , an attribute recognition management unit 230 , a communication unit 240 , and a control unit 250 .
  • the task management unit 210, the model learning management unit 220, the attribute recognition management unit 230, the communication unit 240 and the control unit 250 at least some of which communicate with an external system. It may be a program module.
  • Such a program module may be included in the product attribute recognition system 200 in the form of an operating system, an application program module, or other program modules, and may be physically stored in various known storage devices.
  • such a program module may be stored in a remote storage device capable of communicating with the product attribute recognition system 200 .
  • a program module includes, but is not limited to, routines, subroutines, programs, objects, components, data structures, etc. that perform specific tasks or execute specific abstract data types according to the present invention.
  • the product attribute recognition system 200 may be used as the device 300 or the server (not shown) as needed. It will be apparent to those skilled in the art that it may be implemented within an external system (not shown) or implemented within an external system (not shown).
  • the task management unit 210 is a function of determining two or more tasks as a task group to be learned together by a product attribute recognition model to be described later with reference to the correlation between the tasks. can be performed. Specifically, according to an embodiment of the present invention, the task management unit 210 may determine, as a task group, two or more tasks that can help each other when a product attribute recognition model, which will be described later, is studied together.
  • a task means a task to be performed by a product attribute recognition model to be described later.
  • at least one product related to a product from product-related content (product image, etc.) It can mean recognizing an attribute.
  • the correlation between tasks is to be specified based on a pattern appearing in the area where the product attribute recognition model extracts information from product-related content when the product attribute recognition model performs the task.
  • the product attribute recognition model needs to extract information from the local area of the product image, or the possibility that it is at a predetermined level or more
  • the task may be determined as a first task group by grouping the task, and the product attribute recognition model should focus on extracting information from the global area of the product image, or group two or more tasks that are more than a preset level to enable the second task You can decide as a group.
  • the product attribute recognition model uses the product attribute recognition model to recognize the attributes of the product. Since information on the global region of the image needs to be extracted with focus, two or more tasks corresponding to this may be grouped as one task group for the product attribute recognition model to learn together.
  • the task management unit 210 refers to the macro average F1 score calculated from the product attribute recognition model learned based on the task group grouped as above,
  • the task group and the configuration of the task group may be determined in a direction that can maximize the performance (accuracy, recall, etc.) of the product attribute recognition model.
  • the task management unit 210 may determine a combination that can best train the product attribute recognition model among the above various combinations, and according to the determined combination, the product attribute It is possible to finally determine the combination of task groups to be applied to the training of the recognition model.
  • the task management unit 210 in a plurality of product attribute recognition models each learned according to a plurality of combinations (first combination, second combination, and third combination) related to the task group , can measure the macro average F1 score by task (ie, by attribute classification).
  • the task management unit 210 the individual value of the macro average F1 score for each task measured in the product attribute recognition model according to the second combination above is the first combination, the above is not lower than the individual values measured in the product attribute recognition model according to the third combination of or single task learning, and the average value of the macro average F1 score for each task measured in the product attribute recognition model according to the second combination is above higher than the average value measured in the product attribute recognition model according to the first combination of and the above third combination.
  • the above second combination is the combination that can best train the product attribute recognition model, and according to the second combination determined in this way, the combination of the corresponding task group is multi-task learning for the product attribute recognition model It can be finally determined as a combination of task groups to be applied to the base learning.
  • the criteria or method for determining two or more tasks as a task group for the product attribute recognition model to learn together according to the present invention are not necessarily limited to the above-listed embodiments, and achieve the object of the present invention Note that it can be changed as much as possible to the extent possible.
  • the method for evaluating the performance of the product attribute recognition model and the method for determining the combination of the task group according to the present invention are not necessarily limited to the above-listed embodiments, and within the scope capable of achieving the object of the present invention Please note that this is subject to change.
  • the model learning management unit 220 may perform a function of setting a parameter or preprocessing to be commonly applied to learning for the task group determined as above. have.
  • the aspect ratio of the product image is Pre-processing of the product image while being fixed (ie, maintained) (for example, resizing the product image so that the length in the longitudinal direction becomes a specific length while maintaining the aspect ratio of the product image), and the resizing product Pre-processing of randomly cropping the image to a preset size) may be performed.
  • the product attribute recognition model can pre-process the product image in a direction suitable for extracting meaningful information from the local area.
  • the horizontal-vertical of the product image Pre-processing of product images without fixed ratio (for example, resizing the product image to a specific size without considering the aspect ratio of the product image, and randomizing the resized product image to a preset size) preprocessing of random cropping) can be performed.
  • the product attribute recognition model can pre-process the product image in a direction suitable for extracting meaningful information from the global domain.
  • the model learning management unit 220 may perform a function of learning the product attribute recognition model for the task group by applying the parameter or pre-processing process set as above.
  • FIG. 3 is a diagram conceptually illustrating the configuration of a product attribute recognition model for recognizing product attributes using single task learning (STL) according to the prior art.
  • models 310, 320, 330 suitable for a single task can be determined for each of several types of tasks, and several As a plurality of models for each type of task are all combined, a product attribute recognition model can be implemented.
  • FIG. 4 is a diagram conceptually illustrating a configuration of a product attribute recognition model for recognizing product attributes using multi-task learning (MTL) according to an embodiment of the present invention.
  • MTL multi-task learning
  • the present invention for recognizing the properties of a product using multi-task learning, when learning together among several types of tasks, two that can help each other (or increase recognition accuracy)
  • the above tasks may be determined as a task group, and models 410, 420, 430 including parameters or preprocessing processes that are commonly applied to learning for this task group may be determined, and when there are two or more task groups As the models for each of these task groups are combined, a product attribute recognition model can be implemented.
  • a feature output derived from an embedding layer 440 connected to a feature extractor for each task group is utilized as a search clue, so that product-related content or Search performance for a product may be improved.
  • 5 and 6 are diagrams showing the advantageous effect that can be achieved in the case of recognizing the property of a product using multi-task learning as an experimental result according to an embodiment of the present invention.
  • FIGS. 5 and 6 are a single task learning-based product attribute recognition model (510, 610) according to the prior art and a multi-task learning-based product attribute recognition model (520, 620, 630, 640, 650) according to the present invention.
  • the results of an experiment to evaluate the performance of recognizing product attributes are presented as a graph.
  • a multi-task learning-based product attribute recognition model 520 in various attribute classifications such as detail, material, print, length, and item. It can be confirmed that the recognition accuracy (ie, classification accuracy) is higher than the recognition accuracy (ie, classification accuracy) of the single task learning-based product attribute recognition model 510 .
  • the feature output of the embedding layer before the linear layer in the multi-task learning-based product attribute recognition model 620 , 630 , 640 , 650 is utilized.
  • the search accuracy is improved compared to a case where a search is performed using the recognition result of the product attribute recognition model based on single task learning.
  • the attribute recognition management unit 230 recognizes the attribute of a product included in the target product-related content using the product attribute recognition model in which learning is performed based on multi-task learning as described above. function can be performed.
  • the communication unit 240 may perform a function of enabling data transmission/reception to and from the task management unit 210 , the model learning management unit 220 , and the attribute recognition management unit 230 . have.
  • control unit 250 performs a function of controlling the flow of data between the task management unit 210 , the model learning management unit 220 , the attribute recognition management unit 230 , and the communication unit 240 .
  • the control unit 240 controls the data flow to/from the outside of the product attribute recognition system 200 or the data flow between each component of the product attribute recognition system 200, so that the task management unit 210 , the model learning management unit 220 , the attribute recognition management unit 230 , and the communication unit 240 may be controlled to perform their own functions, respectively.
  • the embodiments according to the present invention described above may be implemented in the form of program instructions that can be executed through various computer components and recorded in a computer-readable recording medium.
  • the computer-readable recording medium may include program instructions, data files, data structures, etc. alone or in combination.
  • the program instructions recorded on the computer-readable recording medium may be specially designed and configured for the present invention or may be known and used by those skilled in the computer software field.
  • Examples of the computer-readable recording medium include hard disks, magnetic media such as floppy disks and magnetic tapes, optical recording media such as CD-ROMs and DVDs, and magneto-optical media such as floppy disks. medium), and hardware devices specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like.
  • Examples of program instructions include not only machine language codes such as those generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.
  • a hardware device may be converted into one or more software modules to perform processing in accordance with the present invention, and vice versa.

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Primary Health Care (AREA)
  • Human Resources & Organizations (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 일 태양에 따르면, 멀티 태스크 러닝(Multi Task Learning; MTL)을 이용하여 상품의 속성을 인식하는 방법으로서, 태스크 사이의 상관 관계를 참조하여 둘 이상의 태스크를 상품 속성 인식 모델이 함께 학습할 태스크 그룹(task group)으로서 결정하는 단계, 상기 태스크 그룹에 대한 학습에 공통적으로 적용될 파라미터(parameter) 또는 전처리 프로세스(preprocessing)를 설정하는 단계, 및 상기 설정되는 파라미터 또는 전처리 프로세스를 적용하여 상기 태스크 그룹에 대하여 상기 상품 속성 인식 모델을 학습시키는 단계를 포함하는 방법이 제공된다.

Description

멀티 태스크 러닝을 이용하여 상품의 속성을 인식하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
본 발명은 멀티 태스크 러닝(Multi Task Learning; MTL)을 이용하여 상품의 속성을 인식하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체에 관한 것이다.
전체 소매 판매 시장에서 온라인 시장이 차지하는 점유율이 급격하게 증가함에 따라, 온라인에서 상품을 판매하는 데에 도움을 줄 수 있는 기술에 대한 관심이 높아지고 있다.
특히, 온라인에서 제공될 수 있는 상품 관련 콘텐츠(상품 이미지 등)로부터 상품의 속성에 관한 정보를 인식할 수 있는 기술의 필요성이 높아지고 있다. 상품 관련 콘텐츠로부터 상품의 속성에 관한 정보를 인식하게 되면, 그 인식된 속성에 관한 정보를 활용하여 상품 관련 콘텐츠에 키워드 또는 식별자를 부여하거나 상품 관련 콘텐츠가 소비자 또는 시스템에 의해 검색되도록 함으로써, 상품 관련 콘텐츠를 소비자에게 시의적절하게 제공할 수 있기 때문이다.
이에 관한, 종래 기술의 일 예로서, 한국등록특허공보 제1801846호에 개시된 기술을 예로 들 수 있는데, 이에 따르면, 통신부가, 사용자 장치로부터 질의 영상을 수신하는 질의 영상 수신 단계; 후보 영역 검출부가 상기 질의 영상을 기학습된 물체 검출 모델에 적용하여, 상기 질의 영상에서 상품이 존재할 것으로 추정되는 하나 이상의 후보 영역을 추출하는 후보 영역 추출 단계; 특징 추출부가 상기 하나 이상의 후보 영역 내의 영상인 후보 영상을 기 학습된 특징 추출 모델에 적용하여, 상기 후보 영상에 대하여 속성별로 특징을 추출하는 특징 추출 단계; 검색부가 추출된 상기 특징에 기초하여, 상기 후보 영상과 유사한 상품 영상들을 상품 영상 데이터베이스에서 검색하는 검색 단계;를 포함하고, 상기 특징 추출 모델은, 하위 계층이 단일망(unified network)으로 구성되고, 상위 계층이 상기 속성별로 분리된 복수의 분류망으로 구성된 구조를 가지며, 상기 복수의 분류망은, 상기 속성별로 특정 해상도보다 낮은 해상도를 가지는 저해상도 특징(coarse feature) 및 상기 특정 해상도 이상의 해상도를 가지는 고해상도 특징(fine feature)으로 기학습되는, 상품 영상 검색 방법이 제공됩니다.
특히, 최근에는 상품 관련 콘텐츠의 양이 방대해지고 종류가 다양해짐에 따라 상품 관련 콘텐츠로부터 상품의 속성에 관한 정보를 더 빠르고 정확하게 인식할 수 있는 기술의 필요성이 높아지고 있다.
이에 본 발명자(들)는, 태스크 사이의 상관 관계를 참조하여 상품 속성 인식 모델이 함께 학습할 둘 이상의 태스크를 포함하는 태스크 그룹을 결정함으로써, 상품 속성 인식 모델의 학습 효율성 및 인식 정확도를 모두 높일 수 있는 기술을 제안하는 바이다.
본 발명은 태스크 사이의 상관 관계를 참조하여 둘 이상의 태스크를 상품 속성 인식 모델이 함께 학습할 태스크 그룹(task group)으로서 결정하고, 태스크 그룹에 대한 학습에 공통적으로 적용될 파라미터(parameter) 또는 전처리 프로세스(preprocessing)를 설정하고, 위의 설정되는 파라미터 또는 전처리 프로세스를 적용하여 위의 태스크 그룹에 대하여 상품 속성 인식 모델을 학습시킴으로써, 상품 속성 인식 모델의 학습 효율성 및 인식 정확도를 모두 높일 수 있도록 하는 것을 목적으로 한다.
또한, 본 발명은, 상품 속성 인식 모델의 임베딩 레이어(embedding layer)에서 도출되는 출력을 검색 단서로서 활용함으로써, 상품 관련 콘텐츠 또는 상품에 대한 검색 정확도를 높이는 것을 또 다른 목적으로 한다.
상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.
본 발명의 일 태양에 따르면, 멀티 태스크 러닝(Multi Task Learning; MTL)을 이용하여 상품의 속성을 인식하는 방법으로서, 태스크 사이의 상관 관계를 참조하여 둘 이상의 태스크를 상품 속성 인식 모델이 함께 학습할 태스크 그룹(task group)으로서 결정하는 단계, 상기 태스크 그룹에 대한 학습에 공통적으로 적용될 파라미터(parameter) 또는 전처리 프로세스(preprocessing)를 설정하는 단계, 및 상기 설정되는 파라미터 또는 전처리 프로세스를 적용하여 상기 태스크 그룹에 대하여 상기 상품 속성 인식 모델을 학습시키는 단계를 포함하는 방법이 제공된다.
본 발명의 다른 태양에 따르면, 멀티 태스크 러닝(Multi Task Learning; MTL)을 이용하여 상품의 속성을 인식하는 시스템으로서, 태스크 사이의 상관 관계를 참조하여 둘 이상의 태스크를 상품 속성 인식 모델이 함께 학습할 태스크 그룹(task group)으로서 결정하는 태스크 관리부, 및 상기 태스크 그룹에 대한 학습에 공통적으로 적용될 파라미터(parameter) 또는 전처리 프로세스(preprocessing)를 설정하고, 상기 설정되는 파라미터 또는 전처리 프로세스를 적용하여 상기 태스크 그룹에 대하여 상기 상품 속성 인식 모델을 학습시키는 모델 학습 관리부를 포함하는 시스템이 제공된다.
이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 비일시성의 컴퓨터 판독 가능한 기록 매체가 더 제공된다.
본 발명에 의하면, 상품 속성 인식 모델이 함께 학습했을 때 서로 도움이 될 수 있는 둘 이상의 태스크(즉, 상품의 속성을 인식하는 태스크)를 함께 학습할 수 있으므로, 상품 속성 인식 모델이 태스크를 하나씩 학습하는 경우에 비하여 상품 속성 인식 모델의 인식 정확도를 높일 수 있게 된다.
또한, 본 발명에 의하면, 태스크 그룹에 대하여 공통적으로 적용되는 파라미터 또는 전처리 프로세스를 설정할 수 있으므로, 상품 속성 인식 모델의 학습 효율성을 높일 수 있게 된다.
또한, 본 발명에 의하면, 멀티 태스크 러닝을 수행하는 상품 속성 인식 모델의 임베딩 레이어에서 도출되는 출력을 검색 단서로서 활용할 수 있으므로, 상품 관련 콘텐츠 또는 상품에 대한 검색 성능을 높일 수 있게 된다.
도 1은 본 발명의 일 실시예에 따라 멀티 태스크 러닝(Multi Task Learning; MTL)을 이용하여 상품의 속성을 인식하기 위한 전체 시스템의 개략적인 구성을 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 상품 속성 인식 시스템의 내부 구성을 상세하게 도시하는 도면이다.
도 3은 종래 기술에 따라 싱글 태스크 러닝을 이용하여 상품의 속성을 인식하는 상품 속성 인식 모델의 구성을 개념적으로 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따라 멀티 태스크 러닝을 이용하여 상품의 속성을 인식하는 상품 속성 인식 모델의 구성을 개념적으로 나타내는 도면이다.
도 5 및 도 6은 본 발명의 일 실시예에 따라 멀티 태스크 러닝을 이용하여 상품의 속성을 인식하는 경우에 달성될 수 있는 유리한 효과를 실험 결과로서 나타내는 도면이다.
<부호의 설명>
100: 통신망
200: 상품 속성 인식 시스템
210: 태스크 관리부
220: 모델 학습 관리부
230: 속성 인식 관리부
240: 통신부
250: 제어부
300: 디바이스
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.
이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 바람직한 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
전체 시스템의 구성
도 1은 본 발명의 일 실시예에 따라 멀티 태스크 러닝을 이용하여 상품의 속성을 인식하기 위한 전체 시스템의 개략적인 구성을 나타내는 도면이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 전체 시스템은 통신망(100), 상품 속성 인식 시스템(200) 및 디바이스(300)를 포함할 수 있다.
먼저, 본 발명의 일 실시예에 따른 통신망(100)은 유선 통신이나 무선 통신과 같은 통신 양태를 가리지 않고 구성될 수 있으며, 근거리 통신망(LAN; Local Area Network), 도시권 통신망(MAN; Metropolitan Area Network), 광역 통신망(WAN; Wide Area Network) 등 다양한 통신망으로 구성될 수 있다. 바람직하게는, 본 명세서에서 말하는 통신망(100)은 공지의 인터넷 또는 월드와이드웹(WWW; World Wide Web)일 수 있다. 그러나, 통신망(100)은, 굳이 이에 국한될 필요 없이, 공지의 유무선 데이터 통신망, 공지의 전화망 또는 공지의 유무선 텔레비전 통신망을 그 적어도 일부에 있어서 포함할 수도 있다.
예를 들면, 통신망(100)은 무선 데이터 통신망으로서, 와이파이(WiFi) 통신, 와이파이 다이렉트(WiFi-Direct) 통신, 롱텀 에볼루션(LTE; Long Term Evolution) 통신, 5G 통신, 블루투스 통신(예를 들면, 저전력 블루투스(BLE; Bluetooth Low Energy) 통신), 적외선 통신, 초음파 통신 등과 같은 종래의 통신 방식을 적어도 그 일부분에 있어서 구현하는 것일 수 있다.
다음으로, 본 발명의 일 실시예에 따른 상품 속성 인식 시스템(200)은 통신망(100)을 통하여 후술할 디바이스(300)와의 통신을 수행할 수 있고, 태스크 사이의 상관 관계를 참조하여 둘 이상의 태스크를 상품 속성 인식 모델이 함께 학습할 태스크 그룹(task group)으로서 결정하고, 태스크 그룹에 대한 학습에 공통적으로 적용될 파라미터(parameter) 또는 전처리 프로세스(preprocessing)를 설정하고, 위의 설정되는 파라미터 또는 전처리 프로세스를 적용하여 위의 태스크 그룹에 대하여 상품 속성 인식 모델을 학습시키는 기능을 수행할 수 있다.
본 발명에 따른 상품 속성 인식 시스템(200)의 구성과 기능에 관하여는 이하의 상세한 설명을 통하여 자세하게 알아보기로 한다.
다음으로, 본 발명의 일 실시예에 따라 디바이스(300)는 통신망(100)을 통해 상품 속성 인식 시스템(200)에 접속한 후 통신할 수 있도록 하는 기능을 포함하는 디지털 기기로서, 스마트폰, 태블릿 PC 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 휴대 가능한 디지털 기기라면 얼마든지 본 발명에 따른 디바이스(300)로서 채택될 수 있다.
한편, 본 발명의 일 실시예에 따르면, 디바이스(300)에는, 본 발명에 따른 기능이 지원되기 위한 애플리케이션이 포함되어 있을 수 있다. 이와 같은 애플리케이션은 상품 속성 인식 시스템(200) 또는 외부의 애플리케이션 배포 서버(미도시됨)로부터 다운로드된 것일 수 있다.
상품 속성 인식 시스템의 구성
본 명세서에서, 상품에 관한 속성(attribute)은, 다양하게 정의될 수 있는 복수의 속성 분류 각각에 대하여 결정될 수 있는 해당 상품의 특징이나 성질을 의미할 수 있다. 일 예로서, 어떤 패션 상품에 대하여 복수의 속성 분류로서, 카테고리(category), 아이템(item), 기장(body length), 소매기장(arm length), 넥라인(neckline), 셰이프(shape), 소재감(texture), 프린트(print), 스타일(style), 디테일(detail), 색상(color) 등이 정의되는 경우를 가정할 수 있고, 이러한 경우에 위의 복수의 속성 분류 각각에 대하여 "드레스", "슬립드레스", "무릎 길이", "민소매", "브이넥", "A라인", "실크", "타이다이", "캐주얼", "없음", "오렌지, 화이트" 등의 정보가 해당 패션 상품에 관한 속성으로서 결정될 수 있다.
이하에서는, 본 발명의 구현을 위하여 중요한 기능을 수행하는 상품 속성 인식 시스템(200)의 내부 구성과 각 구성요소의 기능에 대하여 살펴보기로 한다.
도 2는 본 발명의 일 실시예에 따른 상품 속성 인식 시스템(200)의 내부 구성을 상세하게 도시하는 도면이다.
본 발명의 일 실시예에 따른 상품 속성 인식 시스템(200)은 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기일 수 있다. 이러한 상품 속성 인식 시스템(200)은 서버 시스템일 수 있다. 도 2에 도시된 바와 같이, 상품 속성 인식 시스템(200)은 태스크 관리부(210), 모델 학습 관리부(220), 속성 인식 관리부(230), 통신부(240) 및 제어부(250)를 포함하여 구성될 수 있다. 본 발명의 일 실시예에 따르면, 태스크 관리부(210), 모델 학습 관리부(220), 속성 인식 관리부(230), 통신부(240) 및 제어부(250)는 그 중 적어도 일부가 외부의 시스템과 통신하는 프로그램 모듈일 수 있다. 이러한 프로그램 모듈은 운영 시스템, 응용 프로그램 모듈 또는 기타 프로그램 모듈의 형태로 상품 속성 인식 시스템(200)에 포함될 수 있고, 물리적으로는 여러 가지 공지의 기억 장치에 저장될 수 있다. 또한, 이러한 프로그램 모듈은 상품 속성 인식 시스템(200)과 통신 가능한 원격 기억 장치에 저장될 수도 있다. 한편, 이러한 프로그램 모듈은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 추상 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.
한편, 상품 속성 인식 시스템(200)에 관하여 위와 같이 설명되었으나, 이러한 설명은 예시적인 것이고, 상품 속성 인식 시스템(200)의 구성요소 또는 기능 중 적어도 일부가 필요에 따라 디바이스(300) 또는 서버(미도시됨) 내에서 실현되거나 외부 시스템(미도시됨) 내에 포함될 수도 있음은 당업자에게 자명하다.
먼저, 본 발명의 일 실시예에 따르면, 태스크 관리부(210)는, 태스크 사이의 상관 관계를 참조하여 둘 이상의 태스크를 후술할 상품 속성 인식 모델이 함께 학습할 태스크 그룹(task group)으로서 결정하는 기능을 수행할 수 있다. 구체적으로, 본 발명의 일 실시예에 따르면, 태스크 관리부(210)는, 후술할 상품 속성 인식 모델이 함께 학습했을 때 서로 도움이 될 수 있는 둘 이상의 태스크를 태스크 그룹으로서 결정할 수 있다.
여기서, 본 발명의 일 실시예에 따르면, 태스크(task)는 후술할 상품 속성 인식 모델이 수행할 과제를 의미하는 것으로서, 구체적으로는, 상품 관련 콘텐츠(상품 이미지 등)로부터 상품에 관한 적어도 하나의 속성을 인식하는 것을 의미할 수 있다.
구체적으로, 본 발명의 일 실시예에 따르면, 태스크 사이의 상관 관계는 상품 속성 인식 모델이 태스크를 수행함에 있어서 상품 속성 인식 모델이 상품 관련 콘텐츠에서 정보를 추출하는 영역에서 나타나는 패턴에 기초하여 특정될 수 있다.
보다 더 구체적으로, 본 발명의 일 실시예에 따른 태스크 관리부(210)는, 상품 속성 인식 모델이 상품 이미지의 로컬(local) 영역으로부터 정보를 중점적으로 추출해야 하거나 그럴 가능성이 기설정된 수준 이상인 둘 이상의 태스크를 그룹핑하여 제1 태스크 그룹으로서 결정할 수 있고, 상품 속성 인식 모델이 상품 이미지의 글로벌(global) 영역으로부터 정보를 중점적으로 추출해야 하거나 그럴 가능성이 기설정된 수준 이상인 둘 이상의 태스크를 그룹핑하여 제2 태스크 그룹으로서 결정할 수 있다.
예를 들면, 상품의 속성 분류 중 아이템(item), 기장(body length), 소매기장(arm length), 넥라인(neckline), 디테일(detail) 등의 속성 분류에 대한 속성을 인식하는 태스크에 있어서, 상품 속성 인식 모델이 상품의 속성을 인식하기 위하여 상품 이미지의 로컬 영역에 대한 정보를 중점적으로 추출해야 하므로, 이에 해당하는 둘 이상의 태스크가 상품 속성 인식 모델이 함께 학습할 하나의 태스크 그룹으로서 그룹핑될 수 있다.
다른 예를 들면, 상품의 속성 분류 중 소재감(texture), 프린트/패턴(print/pattern) 등의 속성 분류에 대한 속성을 인식하는 태스크에 있어서, 상품 속성 인식 모델이 상품의 속성을 인식하기 위해 상품 이미지의 글로벌 영역에 대한 정보를 중점적으로 추출해야 하므로, 이에 해당하는 둘 이상의 태스크가 상품 속성 인식 모델이 함께 학습할 하나의 태스크 그룹으로서 그룹핑될 수 있다.
나아가, 본 발명의 일 실시예에 따르면, 태스크 관리부(210)는, 위와 같이 그룹핑되는 태스크 그룹에 기초하여 학습되는 상품 속성 인식 모델에서 산출되는 매크로 평균 F1 스코어(macro average F1 score)를 참조하여, 상품 속성 인식 모델의 성능(정확도, 재현율 등)을 가장 높일 수 있는 방향으로 태스크 그룹 및 태스크 그룹의 조합(configuration)을 결정할 수 있다.
예를 들면, 상품의 속성을 인식하는 태스크로서 7가지 속성 분류(아이템, 기장, 소매기장, 넥라인, 디테일, 소재감 및 프린트) 각각에 대하여 상품의 속성을 인식하는 7가지 태스크가 존재하는 경우를 가정할 수 있다.
그리고, 먼저, 태스크 그룹의 제1 조합에 해당하는 경우로서, 아이템, 기장, 소매기장, 넥라인, 디테일, 소재감 및 프린트를 각각 인식하는 7가지 태스크를 하나의 태스크 그룹으로 그룹핑함으로써, 상품 속성 인식 모델이 이 태스크 그룹에 대하여 멀티 태스크 러닝 기반으로 학습하는 경우를 상정할 수 있다.
다음으로, 태스크 그룹의 제2 조합에 해당하는 경우로서, 아이템, 기장, 소매기장, 넥라인 및 디테일을 각각 인식하는 5가지 태스크를 하나의 태스크 그룹으로 그룹핑하고, 소재감 및 프린트를 각각 인식하는 2가지 태스크를 다른 하나의 태스크 그룹으로 그룹핑함으로써, 상품 속성 인식 모델이 위의 두 태스크 그룹에 대하여 멀티 태스크 러닝 기반으로 학습하는 경우를 상정할 수 있다.
다음으로, 태스크 그룹의 제3 조합에 해당하는 경우로서, 아이템, 기장 및 소매기장을 각각 인식하는 3가지 태스크를 하나의 태스크 그룹으로 그룹핑하고, 넥라인 및 디테일을 각각 인식하는 2가지 태스크를 다른 하나의 태스크 그룹으로 그룹핑하고, 소재감 및 프린트를 각각 인식하는 2가지 태스크를 또 다른 하나의 태스크 그룹으로 그룹핑함으로써, 상품 속성 인식 모델이 위의 세 태스크 그룹에 대하여 멀티 태스크 러닝 기반으로 학습하는 경우를 상정할 수 있다.
이러한 경우에, 본 발명의 일 실시예에 따른 태스크 관리부(210)는, 위의 다양한 조합 중 상품 속성 인식 모델을 가장 우수하게 학습시킬 수 있는 조합을 결정할 수 있고, 이렇게 결정되는 조합에 따라 상품 속성 인식 모델의 학습에 적용될 태스크 그룹의 조합을 최종적으로 결정할 수 있다.
구체적으로, 본 발명의 일 실시예에 따른 태스크 관리부(210)는, 태스크 그룹에 관한 복수의 조합(제1 조합, 제2 조합 및 제3 조합)에 따라 각각 학습된 복수의 상품 속성 인식 모델에서, 태스크별(즉, 속성 분류별) 매크로 평균 F1 스코어를 측정할 수 있다.
나아가, 본 발명의 일 실시예에 따른 태스크 관리부(210)는, 위의 제2 조합에 따른 상품 속성 인식 모델에서 측정되는 각 태스크에 대한 매크로 평균 F1 스코어의 개별값이 위의 제1 조합, 위의 제3 조합 또는 싱글 태스크 러닝에 따른 상품 속성 인식 모델에서 측정되는 개별값에 비하여 낮지 않고, 위의 제2 조합에 따른 상품 속성 인식 모델에서 측정되는 각 태스크에 대한 매크로 평균 F1 스코어의 평균값이 위의 제1 조합 및 위의 제3 조합에 따른 상품 속성 인식 모델에서 측정되는 평균값보다 높은 경우에. 위의 제2 조합이 상품 속성 인식 모델을 가장 우수하게 학습시킬 수 있는 조합이라고 결정할 수 있고, 이렇게 결정되는 위의 제2 조합에 따라 해당하는 태스크 그룹의 조합을 상품 속성 인식 모델에 대한 멀티 태스크 러닝 기반의 학습에 적용될 태스크 그룹의 조합으로서 최종적으로 결정할 수 있다.
다만, 본 발명에 따라 둘 이상의 태스크를 상품 속성 인식 모델이 함께 학습할 태스크 그룹(task group)으로서 결정하기 위한 기준 또는 방법이 반드시 상기 열거된 실시예에 한정되는 것은 아니며, 본 발명의 목적을 달성할 수 있는 범위 내에서 얼마든지 변경될 수 있음을 밝혀 둔다.
또한, 본 발명에 따라 상품 속성 인식 모델의 성능을 평가하는 방법과 태스크 그룹의 조합을 결정하는 방법이 반드시 상기 열거된 실시예에 한정되는 것은 아니며, 본 발명의 목적을 달성할 수 있는 범위 내에서 얼마든지 변경될 수 있음을 밝혀 둔다.
다음으로, 본 발명의 일 실시예에 따르면, 모델 학습 관리부(220)는 위와 같이 결정되는 태스크 그룹에 대한 학습에 공통적으로 적용될 파라미터(parameter) 또는 전처리 프로세스(preprocessing)를 설정하는 기능을 수행할 수 있다.
본 발명의 일 실시예에 따르면, 상품 속성 인식 모델이 상품의 속성을 인식하기 위하여 상품 이미지의 로컬 영역에 대한 정보를 중점적으로 추출하게 하는 제1 태스크 그룹에 대하여는, 상품 이미지의 가로-세로 비율이 고정된(즉, 유지된) 채로 상품 이미지에 대한 전처리(예를 들면, 상품 이미지의 가로-세로 비율을 유지하면서 긴 방향의 길이가 특정 길이가 되도록 상품 이미지를 리사이징(resizing)하고 그 리사이징된 상품 이미지를 기설정된 사이즈로 랜덤 크롭(random crop)하는 전처리)가 수행되도록 할 수 있다. 이렇게 함으로써, 상품 속성 인식 모델이 로컬 영역으로부터 의미 있는 정보를 추출하기에 적합한 방향으로 상품 이미지를 전처리할 수 있게 된다.
또한, 본 발명의 일 실시예에 따르면, 상품 속성 인식 모델이 상품의 속성을 인식하기 위하여 상품 이미지의 글로벌 영역에 대한 정보를 중점적으로 추출하게 하는 제2 태스크 그룹에 대하여는, 상품 이미지의 가로-세로 비율이 고정되지 않은 채로 상품 이미지에 대한 전처리(예를 들면, 상품 이미지의 가로-세로 비율을 고려하지 않은 채로 특정 크기로 상품 이미지를 리사이징(resizing)하고 그 리사이징된 상품 이미지를 기설정된 사이즈로 랜덤 크롭(random crop)하는 전처리)가 수행되도록 할 수 있다. 이렇게 함으로써, 상품 속성 인식 모델이 글로벌 영역으로부터 의미 있는 정보를 추출하기에 적합한 방향으로 상품 이미지를 전처리할 수 있게 된다.
또한, 본 발명의 일 실시예에 따르면, 모델 학습 관리부(220)는 위와 같이 설정되는 파라미터 또는 전처리 프로세스를 적용하여 태스크 그룹에 대하여 상품 속성 인식 모델을 학습시키는 기능을 수행할 수 있다.
도 3은 종래 기술에 따라 싱글 태스크 러닝(Single Task Learning; STL)을 이용하여 상품의 속성을 인식하는 상품 속성 인식 모델의 구성을 개념적으로 나타내는 도면이다.
도 3에 도시된 바와 같이, 싱글 태스크 러닝을 이용하여 상품의 속성을 인식하는 종래 기술에 따르면, 여러 종류의 태스크 각각에 대하여 싱글 태스크에 적합한 모델(310, 320, 330)이 결정될 수 있고, 여러 종류의 태스크 각각에 대한 복수의 모델이 모두 조합됨에 따라 상품 속성 인식 모델이 구현될 수 있게 된다.
도 3을 참조하면, 싱글 태스크 러닝에 기반한 상품 속성 인식 모델에서는, 상품 속성 인식 모델이 학습해야 하는 태스크의 종류가 늘어남에 따라 상품 속성 인식 모델이 수반하는 파라미터(parameter)의 수와 추론 시간(inference time)이 선형적으로 증가하게 되는 한계가 존재한다.
도 4는 본 발명의 일 실시예에 따라 멀티 태스크 러닝(Multi Task Learning; MTL)을 이용하여 상품의 속성을 인식하는 상품 속성 인식 모델의 구성을 개념적으로 나타내는 도면이다.
도 4에 도시된 바와 같이, 멀티 태스크 러닝을 이용하여 상품의 속성을 인식하는 본 발명에 따르면, 여러 종류의 태스크 중 함께 학습했을 때 서로 도움이 될 수 있는(또는 인식 정확도를 높일 수 있는) 둘 이상의 태스크를 태스크 그룹으로서 결정될 수 있고, 이 태스크 그룹에 대한 학습에 공통적으로 적용될(shared) 파라미터 또는 전처리 프로세스를 포함하는 모델(410, 420, 430)이 결정될 수 있으며, 태스크 그룹이 둘 이상인 경우에 이들 태스크 그룹 각각에 대한 모델이 조합됨에 따라 상품 속성 인식 모델이 구현될 수 있게 된다.
도 4를 참조하면, 본 발명에 따른 멀티 태스크 러닝에 기반한 상품 속성 인식 모델에서는, 상품 속성 인식 모델이 함께 학습했을 때 서로 도움이 될 수 있는 둘 이상의 태스크(즉, 태스크 그룹)를 공유된 파라미터를 이용하여 함께 학습함으로써 학습 정확도가 높아질 수 있고, 태스크 그룹에 특화된 전처리 프로세스를 이용하여 모델 성능이 최적화될 수 있으며, 파라미터 공유(sharing)을 통해 상품 속성 인식 모델이 수반하는 파라미터(parameter)의 수 및 추론 시간(inference time)이 감소될 수 있게 된다.
또한, 도 4를 참조하면, 각 태스크 그룹에 대한 특징 추출기(feature extractor)와 연결된 임베딩 레이어(embedding layer)(440)에서 도출되는 특징 출력(feature output)이 검색 단서로서 활용됨으로써, 상품 관련 콘텐츠 또는 상품에 대한 검색 성능이 향상될 수 있게 된다.
도 5 및 도 6은 본 발명의 일 실시예에 따라 멀티 태스크 러닝을 이용하여 상품의 속성을 인식하는 경우에 달성될 수 있는 유리한 효과를 실험 결과로서 나타내는 도면이다.
구체적으로, 도 5 및 도 6은 종래 기술에 따른 싱글 태스크 러닝 기반 상품 속성 인식 모델(510, 610)과 본 발명에 따른 멀티 태스크 러닝 기반 상품 속성 인식 모델(520, 620, 630, 640, 650)에 대하여 상품 속성을 인식하는 성능을 평가하는 실험을 수행한 결과를 그래프로서 나타낸 것이다.
먼저, 도 5를 참조하면, 디테일(detail), 재료(material), 프린트(print), 기장(length), 아이템(item) 등 다양한 속성 분류에 있어서 멀티 태스크 러닝 기반 상품 속성 인식 모델(520)의 인식 정확도(즉, 분류 정확도)가 싱글 태스크 러닝 기반 상품 속성 인식 모델(510)의 인식 정확도(즉, 분류 정확도)보다 높게 나타난 것을 확인할 수 있다.
다음으로, 도 6을 참조하면, 멀티 태스크 러닝 기반 상품 속성 인식 모델(620, 630, 640, 650)에서 리니어 레이어(linear layer) 이전의 임베딩 레이어(embedding layer)의 특징 출력(feature output)을 활용하여 유사 상품 또는 유사 상품 관련 콘텐츠를 검색한 경우에, 싱글 태스크 러닝 기반 상품 속성 인식 모델의 인식 결과를 활용하여 검색한 경우에 비하여, 검색 정확도가 향상된 것을 확인할 수 있다.
한편, 본 발명의 일 실시예에 따르면, 속성 인식 관리부(230)는, 위와 같이 멀티 태스크 러닝에 기반하여 학습이 수행된 상품 속성 인식 모델을 이용하여 타겟 상품 관련 콘텐츠에 포함된 상품의 속성을 인식하는 기능을 수행할 수 있다.
다음으로, 본 발명의 일 실시예에 따른 통신부(240)는 태스크 관리부(210), 모델 학습 관리부(220) 및 속성 인식 관리부(230)로부터의/로의 데이터 송수신이 가능하도록 하는 기능을 수행할 수 있다.
마지막으로, 본 발명의 일 실시예에 따른 제어부(250)는 태스크 관리부(210), 모델 학습 관리부(220), 속성 인식 관리부(230) 및 통신부(240) 간의 데이터의 흐름을 제어하는 기능을 수행할 수 있다. 즉, 본 발명에 따른 제어부(240)는 상품 속성 인식 시스템(200)의 외부로부터의/로의 데이터 흐름 또는 상품 속성 인식 시스템(200)의 각 구성요소 간의 데이터 흐름을 제어함으로써, 태스크 관리부(210), 모델 학습 관리부(220), 속성 인식 관리부(230) 및 통신부(240)에서 각각 고유 기능을 수행하도록 제어할 수 있다.
이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항과 한정된 실시예 및 도면에 의하여 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위하여 제공된 것일 뿐, 본 발명이 상기 실시예에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정과 변경을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims (15)

  1. 멀티 태스크 러닝(Multi Task Learning; MTL)을 이용하여 상품의 속성을 인식하는 방법으로서,
    태스크 사이의 상관 관계를 참조하여 둘 이상의 태스크를 상품 속성 인식 모델이 함께 학습할 태스크 그룹(task group)으로서 결정하는 단계,
    상기 태스크 그룹에 대한 학습에 공통적으로 적용될 파라미터(parameter) 또는 전처리 프로세스(preprocessing)를 설정하는 단계, 및
    상기 설정되는 파라미터 또는 전처리 프로세스를 적용하여 상기 태스크 그룹에 대하여 상기 상품 속성 인식 모델을 학습시키는 단계를 포함하는
    방법.
  2. 제1항에 있어서,
    상기 태스크는 상품 관련 콘텐츠로부터 상품에 관한 적어도 하나의 속성을 인식하는 것을 의미하는
    방법.
  3. 제1항 및 제2항 중 어느 한 항에 있어서,
    상기 상관 관계는, 상기 상품 속성 인식 모델이 태스크를 수행함에 있어서 상기 상품 속성 인식 모델이 상품 관련 콘텐츠에서 정보를 추출하는 영역에서 나타나는 패턴에 기초하여 특정되는
    방법.
  4. 제3항에 있어서,
    상기 결정 단계에서, 상기 상품 속성 인식 모델이 상품 관련 이미지의 로컬(local) 영역으로부터 정보를 추출하게 하는 둘 이상의 태스크를 포함하는 제1 태스크 그룹과 상기 상품 속성 인식 모델이 상품 관련 이미지의 글로벌(global) 영역으로부터 정보를 추출하게 하는 둘 이상의 태스크를 포함하는 제2 태스크 그룹을 결정하는
    방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 결정 단계에서, 상품 속성 인식 모델에서 측정되는 매크로 평균 F1 스코어(macro average F1 score)를 참조하여, 상품 속성 인식 모델의 성능이 최대화되는 방향으로 상기 태스크 그룹 및 상기 태스크 그룹의 조합을 결정하는
    방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 상품 속성 인식 모델에서 임베딩 레이어(embedding layer)의 특징 출력(feature output)이 획득되고, 상기 획득되는 특징 출력은 상품 관련 콘텐츠 또는 상품을 검색할 단서로서 활용되는
    방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 학습이 수행된 상품 속성 인식 모델을 이용하여 타겟 상품 관련 콘텐츠에 포함된 상품의 속성을 인식하는 단계를 더 포함하는
    방법.
  8. 제1항 내지 제7항 중 어느 한 항에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 비일시성의 컴퓨터 판독 가능 기록 매체.
  9. 멀티 태스크 러닝(Multi Task Learning; MTL)을 이용하여 상품의 속성을 인식하는 시스템으로서,
    태스크 사이의 상관 관계를 참조하여 둘 이상의 태스크를 상품 속성 인식 모델이 함께 학습할 태스크 그룹(task group)으로서 결정하는 태스크 관리부, 및
    상기 태스크 그룹에 대한 학습에 공통적으로 적용될 파라미터(parameter) 또는 전처리 프로세스(preprocessing)를 설정하고, 상기 설정되는 파라미터 또는 전처리 프로세스를 적용하여 상기 태스크 그룹에 대하여 상기 상품 속성 인식 모델을 학습시키는 모델 학습 관리부를 포함하는
    시스템.
  10. 제9항에 있어서,
    상기 태스크는 상품 관련 콘텐츠로부터 상품에 관한 적어도 하나의 속성을 인식하는 것을 의미하는
    시스템.
  11. 제9항 및 제10항 중 어느 한 항에 있어서,
    상기 상관 관계는, 상기 상품 속성 인식 모델이 태스크를 수행함에 있어서 상기 상품 속성 인식 모델이 상품 관련 콘텐츠에서 정보를 추출하는 영역에서 나타나는 패턴에 기초하여 특정되는
    시스템.
  12. 제11항에 있어서,
    상기 태스크 관리부는, 상기 상품 속성 인식 모델이 상품 관련 이미지의 로컬(local) 영역으로부터 정보를 추출하게 하는 둘 이상의 태스크를 포함하는 제1 태스크 그룹과 상기 상품 속성 인식 모델이 상품 관련 이미지의 글로벌(global) 영역으로부터 정보를 추출하게 하는 둘 이상의 태스크를 포함하는 제2 태스크 그룹을 결정하는
    시스템.
  13. 제9항 내지 제12항 중 어느 한 항에 있어서,
    상기 태스크 관리부는, 상품 속성 인식 모델에서 측정되는 매크로 평균 F1 스코어(macro average F1 score)를 참조하여, 상품 속성 인식 모델의 성능이 최대화되는 방향으로 상기 태스크 그룹 및 상기 태스크 그룹의 조합을 결정하는
    시스템.
  14. 제9항 내지 제13항 중 어느 한 항에 있어서,
    상기 상품 속성 인식 모델에서 임베딩 레이어(embedding layer)의 특징 출력(feature output)이 획득되고, 상기 획득되는 특징 출력은 상품 관련 콘텐츠 또는 상품을 검색할 단서로서 활용되는
    시스템.
  15. 제9항 내지 제14항 중 어느 한 항에 있어서,
    상기 학습이 수행된 상품 속성 인식 모델을 이용하여 타겟 상품 관련 콘텐츠에 포함된 상품의 속성을 인식하는 속성 인식 관리부를 더 포함하는
    시스템.
PCT/KR2021/009650 2020-07-27 2021-07-26 멀티 태스크 러닝을 이용하여 상품의 속성을 인식하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체 WO2022025568A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2020-0093352 2020-07-27
KR20200093352 2020-07-27
KR10-2020-0174715 2020-12-14
KR1020200174715A KR102584289B1 (ko) 2020-07-27 2020-12-14 멀티 태스크 러닝을 이용하여 상품의 속성을 인식하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체

Publications (1)

Publication Number Publication Date
WO2022025568A1 true WO2022025568A1 (ko) 2022-02-03

Family

ID=80036541

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/009650 WO2022025568A1 (ko) 2020-07-27 2021-07-26 멀티 태스크 러닝을 이용하여 상품의 속성을 인식하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체

Country Status (1)

Country Link
WO (1) WO2022025568A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170026264A (ko) * 2015-08-26 2017-03-08 옴니어스 주식회사 상품 영상 검색 및 시스템
KR20190085464A (ko) * 2018-01-10 2019-07-18 삼성전자주식회사 이미지 처리 방법 및 이를 수행하는 장치들
KR20190134933A (ko) * 2018-05-18 2019-12-05 오드컨셉 주식회사 이미지 내 객체의 대표 특성을 추출하는 방법, 장치 및 컴퓨터 프로그램
KR20190140031A (ko) * 2017-07-20 2019-12-18 베이징 싼콰이 온라인 테크놀로지 컴퍼니, 리미티드 이미지 특성의 획득
US20200090048A1 (en) * 2017-05-19 2020-03-19 Deepmind Technologies Limited Multi-task neural network systems with task-specific policies and a shared policy

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170026264A (ko) * 2015-08-26 2017-03-08 옴니어스 주식회사 상품 영상 검색 및 시스템
US20200090048A1 (en) * 2017-05-19 2020-03-19 Deepmind Technologies Limited Multi-task neural network systems with task-specific policies and a shared policy
KR20190140031A (ko) * 2017-07-20 2019-12-18 베이징 싼콰이 온라인 테크놀로지 컴퍼니, 리미티드 이미지 특성의 획득
KR20190085464A (ko) * 2018-01-10 2019-07-18 삼성전자주식회사 이미지 처리 방법 및 이를 수행하는 장치들
KR20190134933A (ko) * 2018-05-18 2019-12-05 오드컨셉 주식회사 이미지 내 객체의 대표 특성을 추출하는 방법, 장치 및 컴퓨터 프로그램

Similar Documents

Publication Publication Date Title
WO2014092446A1 (ko) 객체 기반 영상 검색시스템 및 검색방법
US11663502B2 (en) Information processing apparatus and rule generation method
Ke et al. Human interaction prediction using deep temporal features
CN112232293A (zh) 图像处理模型训练、图像处理方法及相关设备
WO2019033571A1 (zh) 面部特征点检测方法、装置及存储介质
WO2020122456A1 (ko) 이미지와 텍스트간 유사도 매칭 시스템 및 방법
CN106909870A (zh) 人脸图像的检索方法及装置
WO2012108623A1 (ko) 이미지 데이터베이스에 신규 이미지 및 이에 대한 정보를 추가하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
WO2011045920A1 (ja) 色彩解析装置、色彩解析方法、及び色彩解析プログラム
CN114998934B (zh) 基于多模态智能感知和融合的换衣行人重识别和检索方法
WO2018043990A1 (ko) 영상 검색 정보 제공 방법, 장치 및 컴퓨터 프로그램
WO2019098418A1 (ko) 뉴럴 네트워크 학습 방법 및 디바이스
WO2019093599A1 (ko) 사용자 관심 정보 생성 장치 및 그 방법
CN111242019A (zh) 视频内容的检测方法、装置、电子设备以及存储介质
WO2019143137A1 (ko) 영상 전처리 방법, 장치 및 컴퓨터 프로그램
CN106169065A (zh) 一种信息处理方法及电子设备
Masood et al. Scene recognition from image using convolutional neural network
CN112200844A (zh) 生成图像的方法、装置、电子设备及介质
CN114267049A (zh) 基于yolov5的多任务目标检测识别方法和网络结构
WO2022025568A1 (ko) 멀티 태스크 러닝을 이용하여 상품의 속성을 인식하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
Ahmad et al. Embedded deep vision in smart cameras for multi-view objects representation and retrieval
CN107239787A (zh) 一种利用多来源数据具有隐私保护功能的图象分类方法
Huo et al. A part-based and feature fusion method for clothing classification
KR20220013881A (ko) 멀티 태스크 러닝을 이용하여 상품의 속성을 인식하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
Gülbaş et al. Deep features and extreme learning machines based apparel classification

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21849581

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 19/06/2023)

122 Ep: pct application non-entry in european phase

Ref document number: 21849581

Country of ref document: EP

Kind code of ref document: A1