KR102633937B1 - Electronic device and method for obtain attribute information related to object using the same - Google Patents
Electronic device and method for obtain attribute information related to object using the same Download PDFInfo
- Publication number
- KR102633937B1 KR102633937B1 KR1020230087498A KR20230087498A KR102633937B1 KR 102633937 B1 KR102633937 B1 KR 102633937B1 KR 1020230087498 A KR1020230087498 A KR 1020230087498A KR 20230087498 A KR20230087498 A KR 20230087498A KR 102633937 B1 KR102633937 B1 KR 102633937B1
- Authority
- KR
- South Korea
- Prior art keywords
- loss function
- color information
- task
- attribute information
- loss
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 24
- 230000006870 function Effects 0.000 claims abstract description 112
- 238000010586 diagram Methods 0.000 description 9
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 6
- 239000003086 colorant Substances 0.000 description 6
- 230000033001 locomotion Effects 0.000 description 6
- 229910052709 silver Inorganic materials 0.000 description 6
- 239000004332 silver Substances 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000003190 augmentative effect Effects 0.000 description 3
- 238000013434 data augmentation Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 206010068829 Overconfidence Diseases 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000029305 taxis Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
본 발명의 다양한 실시예들에 따르면, 전자 장치는, 메모리 및 프로세서를 포함하고, 상기 프로세서는, 멀티태스크 모델을 이용하여 오브젝트와 관련된 복수의 속성 정보들을 나타내는 복수의 태스크들 중 색상 정보와 관련된 적어도 하나의 태스크의 학습을 수행하고, 상기 색상 정보와 관련된 적어도 하나의 태스크에 제1 손실 함수를 적용하고, 기 정의된 대표 색상 정보들에 기반하여, 상기 오브젝트의 실제 색상 정보와 상기 학습에 의해 예측된 상기 오브젝트의 예측 색상 정보 간의 제1 손실 값을 산출하고, 상기 산출된 제1 손실 값과 지정된 가중치 값에 기반하여, 손실 가중치를 산출하고, 및 상기 제1 손실 함수가 적용된 적어도 하나의 태스크에 상기 산출된 손실 가중치를 적용하여, 상기 색상 정보와 관련된 손실 함수 값을 조정할 수 있다.
본 문서에 개시된 다양한 실시예들 이외의 다른 다양한 실시예들이 가능할 수 있다.According to various embodiments of the present invention, an electronic device includes a memory and a processor, wherein the processor performs at least one task related to color information among a plurality of tasks representing a plurality of attribute information related to an object using a multi-task model. Perform learning of one task, apply a first loss function to at least one task related to the color information, and make predictions based on the actual color information of the object and the learning based on predefined representative color information. Calculate a first loss value between the predicted color information of the object, calculate a loss weight based on the calculated first loss value and a specified weight value, and perform at least one task to which the first loss function is applied. By applying the calculated loss weight, the loss function value related to the color information can be adjusted.
Various other embodiments other than those disclosed in this document may be possible.
Description
본 발명의 실시예들은 전자 장치 및 이를 이용한 오브젝트와 관련된 속성 정보를 획득하는 방법에 관한 것이다.Embodiments of the present invention relate to a method of obtaining attribute information related to an electronic device and an object using the same.
최근 영상 촬영 기능의 사용 증가에 따라, 영상 처리 기술에 관한 다양한 연구가 진행되고 있다. 예를 들어, 영상 처리 기술은, 영상을 목적에 따라 분석하는 기술을 의미할 수 있다.Recently, with the increase in the use of image capture functions, various studies on image processing technology are being conducted. For example, image processing technology may refer to technology that analyzes images according to purpose.
하나의 예로, 전자 장치는 카메라를 통해 획득되는 영상을 인공 지능 모델을 이용하여 처리할 수 있다. 인공 지능 모델은, 예를 들어, 머신 러닝(machine learning)에 의해 학습된 학습 모델을 포함할 수 있다. 예를 들어, 머신 러닝은 수집된 빅 데이터를 분석하여 스스로 학습하고, 의사 결정을 내리는 기술일 수 있다. 전자 장치는 전술한 머신 러닝을 이용하여, 영상에서 이동 수단(예: 차량)과 같은 오브젝트를 검출하고, 검출된 이동 수단과 관련된 복수의 속성 정보들 예를 들어, 이동 수단의 타입, 이동 수단의 색상과 같은 속성 정보들을 획득할 수 있다.As an example, an electronic device can process images acquired through a camera using an artificial intelligence model. The artificial intelligence model may include a learning model learned by, for example, machine learning. For example, machine learning can be a technology that analyzes collected big data to learn on its own and make decisions. The electronic device uses the above-described machine learning to detect an object, such as a means of transportation (e.g., a vehicle), in an image, and collects a plurality of attribute information related to the detected means of transportation, such as the type of the means of transportation and the type of the means of transportation. Attribute information such as color can be obtained.
상술한 정보는 본 발명에 대한 이해를 돕기 위한 목적으로 하는 배경 기술(related art)로 제공될 수 있다. 상술한 내용 중 어느 것도 본 발명과 관련된 종래 기술(prior art)로서 적용될 수 있는지에 대하여 어떠한 주장이나 결정이 제기되지 않는다.The above information may be provided as background art for the purpose of facilitating understanding of the present invention. No claim or decision is made as to whether any of the foregoing can be applied as prior art to the present invention.
하지만, 검출된 이동 수단과 관련된 복수의 속성 정보들 중 특히, 색상과 같은 속성 정보를 획득하는 경우, 기 정의된 색상 정보, 예를 들어, RGB 값에 기반한 기 정의된 색상 정보만이 획득될 수 있다.However, when obtaining attribute information such as color among a plurality of attribute information related to the detected means of transportation, only predefined color information, for example, predefined color information based on RGB values, can be obtained. there is.
본 발명의 일 실시예에 따른 전자 장치는, 오브젝트 예를 들어, 이동 수단의 색상 정보와 관련된 속성 정보를 나타내는 태스크를 학습하는 경우, 이동 수단의 실제 색상과 예측 색상 간의 차이에 기반하여, 손실 가중치를 산출할 수 있다. 전자 장치는, 산출된 손실 가중치를 이용하여 색상 정보와 관련된 손실 함수 값을 조정하고, 조정된 손실 함수 값을 이용하여 이동 수단과 관련된 색상 정보를 획득하기 위한 멀티태스크 모델을 학습할 수 있다.When learning a task representing attribute information related to the color information of an object, for example, a means of transportation, the electronic device according to an embodiment of the present invention sets a loss weight based on the difference between the actual color of the means of transportation and the predicted color. can be calculated. The electronic device may adjust the loss function value related to color information using the calculated loss weight and learn a multi-task model for acquiring color information related to the means of transportation using the adjusted loss function value.
본 발명의 일 실시예에 따른 전자 장치는, 메모리 및 프로세서를 포함하고, 상기 프로세서는, 멀티태스크 모델을 이용하여 오브젝트와 관련된 복수의 속성 정보들을 나타내는 복수의 태스크들 중 색상 정보와 관련된 적어도 하나의 태스크의 학습을 수행하고, 상기 색상 정보와 관련된 적어도 하나의 태스크에 제1 손실 함수를 적용하고, 기 정의된 대표 색상 정보들에 기반하여, 상기 오브젝트의 실제 색상 정보와 상기 학습에 의해 예측된 상기 오브젝트의 예측 색상 정보 간의 제1 손실 값을 산출하고, 상기 산출된 제1 손실 값과 지정된 가중치 값에 기반하여, 손실 가중치를 산출하고, 및 상기 제1 손실 함수가 적용된 적어도 하나의 태스크에 상기 산출된 손실 가중치를 적용하여, 상기 색상 정보와 관련된 손실 함수 값을 조정할 수 있다.An electronic device according to an embodiment of the present invention includes a memory and a processor, wherein the processor performs at least one task related to color information among a plurality of tasks representing a plurality of attribute information related to an object using a multi-task model. Perform learning of a task, apply a first loss function to at least one task related to the color information, and based on predefined representative color information, determine the actual color information of the object and the color predicted by the learning. Calculating a first loss value between the predicted color information of an object, calculating a loss weight based on the calculated first loss value and a specified weight value, and calculating the first loss function for at least one task to which the first loss function is applied. By applying the loss weight, the loss function value related to the color information can be adjusted.
본 발명의 일 실시예에 따른 전자 장치의 오브젝트와 관련된 속성 정보를 획득하는 방법은, 멀티태스크 모델을 이용하여 오브젝트와 관련된 복수의 속성 정보들을 나타내는 복수의 태스크들 중 색상 정보와 관련된 적어도 하나의 태스크의 학습을 수행하는 동작, 상기 색상 정보와 관련된 적어도 하나의 태스크에 제1 손실 함수를 적용하는 동작, 기 정의된 대표 색상 정보들에 기반하여, 상기 오브젝트의 실제 색상 정보와 상기 학습에 의해 예측된 상기 오브젝트의 예측 색상 정보 간의 제1 손실 값을 산출하는 동작, 상기 산출된 제1 손실 값과 지정된 가중치 값에 기반하여, 손실 가중치를 산출하는 동작, 및 상기 제1 손실 함수가 적용된 적어도 하나의 태스크에 상기 산출된 손실 가중치를 적용하여, 상기 색상 정보와 관련된 손실 함수 값을 조정하는 동작을 포함할 수 있다.A method of obtaining attribute information related to an object of an electronic device according to an embodiment of the present invention includes at least one task related to color information among a plurality of tasks representing a plurality of attribute information related to the object using a multi-task model. An operation of performing learning, an operation of applying a first loss function to at least one task related to the color information, based on predefined representative color information, the actual color information of the object and the predicted by the learning An operation of calculating a first loss value between the predicted color information of the object, an operation of calculating a loss weight based on the calculated first loss value and a specified weight value, and at least one task to which the first loss function is applied It may include an operation of adjusting a loss function value related to the color information by applying the calculated loss weight.
본 발명의 일 실시예에 따른 전자 장치는, 오브젝트 예를 들어, 이동 수단의 실제 색상과 예측 색상 간의 차이에 기반한 손실 가중치를 이용하여 이동 수단의 색상 정보를 획득하기 위한 멀티태스크 모델을 학습함에 따라, 이동 수단의 실제 색상과 가까운 색상 정보를 획득할 수 있다. 이에 따라, 일 예로, 방범 환경에서, 용의자의 이동 수단을 추적하는 경우, 전술한 방법에 의해 이동 수단의 실제 색상과 가까운 색상 정보를 획득할 수 있어, 용의자를 추적함에 있어서 추적 시간을 단축시킬 뿐만 아니라 용의자의 정확한 추적이 가능할 수 있다.The electronic device according to an embodiment of the present invention learns a multi-task model for obtaining color information of an object, for example, a means of transportation using a loss weight based on the difference between the actual color of the means of transportation and the predicted color. , color information close to the actual color of the means of transportation can be obtained. Accordingly, for example, when tracking a suspect's means of transportation in a crime prevention environment, color information close to the actual color of the means of transportation can be obtained by the above-described method, which not only shortens the tracking time when tracking the suspect. However, it may be possible to accurately track the suspect.
도 1은, 본 발명의 일 실시예에 따른, 전자 장치를 도시한 블록도이다.
도 2는, 본 발명의 일 실시예에 따른, 오브젝트와 관련된 속성 정보들을 획득하기 위한 멀티태스크 모델을 학습하는 방법을 설명하기 위한 흐름도이다.
도 3은, 본 발명의 일 실시예에 따른, 오브젝트와 관련된 속성 정보들 중 색상 정보를 학습하는 방법을 설명하기 위한 도면이다.
도 4는, 본 발명의 일 실시예에 따른, 복수의 태스크들의 학습 데이터를 증강하는 방법을 설명하기 위한 도면이다.
도 5는, 본 발명의 일 실시예에 따른, 오브젝트와 관련된 속성 정보들을 획득하는 방법을 설명하기 위한 흐름도이다.
도 6은, 본 발명의 일 실시예에 따른, 오브젝트와 관련된 속성 정보들을 획득하는 방법을 설명하기 위한 도면이다.1 is a block diagram illustrating an electronic device according to an embodiment of the present invention.
Figure 2 is a flowchart illustrating a method of learning a multi-task model to obtain attribute information related to an object, according to an embodiment of the present invention.
Figure 3 is a diagram for explaining a method of learning color information among attribute information related to an object, according to an embodiment of the present invention.
Figure 4 is a diagram for explaining a method of augmenting learning data of a plurality of tasks according to an embodiment of the present invention.
Figure 5 is a flowchart illustrating a method of obtaining attribute information related to an object, according to an embodiment of the present invention.
Figure 6 is a diagram for explaining a method of obtaining attribute information related to an object according to an embodiment of the present invention.
이하에서는 도면을 참조하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 여기에서 설명하는 실시예에 한정되지 않는다. 도면의 설명과 관련하여, 동일하거나 유사한 구성요소에 대해서는 동일하거나 유사한 참조 부호가 사용될 수 있다. 또한, 도면 및 관련된 설명에서는, 잘 알려진 기능 및 구성에 대한 설명이 명확성과 간결성을 위해 생략될 수 있다.Hereinafter, with reference to the drawings, embodiments of the present invention will be described in detail so that those skilled in the art can easily implement the present invention. However, the present invention may be implemented in many different forms and is not limited to the embodiments described herein. In relation to the description of the drawings, identical or similar reference numerals may be used for identical or similar components. Additionally, in the drawings and related descriptions, descriptions of well-known functions and configurations may be omitted for clarity and brevity.
도 1은, 본 발명의 일 실시예에 따른, 전자 장치(101)를 도시한 블록도이다.Figure 1 is a block diagram showing an
도 1을 참조하면, 전자 장치(101)는 카메라(110), 메모리(120), 및/또는 프로세서(130)를 포함할 수 있다. 도 1에 도시된 구성요소들은 전자 장치(101)에 포함된 구성요소들의 일부에 대한 것으로, 전자 장치(101)는 도 1에 도시된 구성요소들 외 다양한 구성요소들(예: 통신 회로 및/또는 디스플레이)을 더 포함할 수 있다.Referring to FIG. 1 , the
본 발명의 일 실시예에 따르면, 카메라(110)는 촬영되는 영상(예: 정지 영상 및/또는 동영상)을 획득할 수 있다. 카메라(110)는 하나 이상의 렌즈들, 이미지 센서들, 이미지 시그널 프로세서들, 또는 플래시들을 포함할 수 있다. 일 실시예에 따르면, 카메라(110)는 스피드 돔 카메라(SPEED DOME camera) 및 전 방위 영역을 촬영할 수 있는 적어도 하나의 카메라를 포함할 수 있다. 하지만 이에 한정하는 것은 아니다.According to an embodiment of the present invention, the
본 발명의 일 실시예에 따르면, 메모리(120)는 프로세서(130)의 처리 및 제어를 위한 프로그램, 운영 체제(operating system, OS), 다양한 어플리케이션, 및/또는 입/출력 데이터를 저장하는 기능을 수행하며, 전자 장치(101)의 전반적인 동작을 제어하는 프로그램을 저장할 수 있다. 메모리(120)는 프로세서(130)에 의해 수행될 수 있는 다양한 인스트럭션들(instructions)을 저장할 수 있다.According to one embodiment of the present invention, the
일 실시예에서, 메모리(120)는 프로세서(130)가 멀티태스크 모델에 기반하여, 태스크의 학습을 수행하도록 제어하는 하나 이상의 인스트럭션들 및/또는 프로그램을 저장할 수 있다. 메모리(120)는 프로세서(130)가 카메라(110)를 통해 획득되는 이미지 프레임들로부터 적어도 하나의 오브젝트와 관련된 적어도 하나의 속성 정보를 획득하기 위한 인스트럭션들 및/또는 프로그램을 저장할 수 있다.In one embodiment, the
본 발명의 일 실시예에 따르면, 프로세서(130)는 마이크로 컨트롤러 유닛(micro controller unit, MCU)을 포함할 수 있고, 운영 체제(OS) 또는 임베디드 소프트웨어 프로그램을 구동하여 프로세서(130)에 연결된 다수의 하드웨어 구성요소들을 제어할 수 있다. 프로세서(130)는, 예를 들어, 메모리(120)에 저장된 인스트럭션들에 따라 다수의 하드웨어 구성요소들을 제어할 수 있다.According to one embodiment of the present invention, the
다양한 실시예들에서, 프로세서(130)는 신경망 모델을 포함할 수 있다. 프로세서(130)는 인공 지능 모델의 처리에 특화된 하드웨어 구조 및/또는 소프트웨어 구조를 포함할 수 있다. 인공 지능 모델은 기계 학습을 통해 생성될 수 있다. 기계 학습은, 예를 들어, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning), 또는 강화 학습(reinforcement learning)을 포함할 수 있으나, 전술한 예에 한정되지 않는다. 인공 지능 모델은, 복수의 인공 신경망 레이어들을 포함할 수 있다. 인공 신경망은 심층 신경망(DNN: deep neural network), CNN(convolutional neural network), RNN(recurrent neural network), RBM(restricted boltzmann machine), DBN(deep belief network), BRDNN(bidirectional recurrent deep neural network), 심층 Q-네트워크(deep Q-networks), 또는 상기 중 둘 이상의 조합 중 하나일 수 있으나, 전술한 예에 한정되지 않는다.In various embodiments,
일 실시예에서, 프로세서(130)는 메모리(120)에 저장된 하나 이상의 인스트럭션들(instructions)을 실행함으로써, 멀티태스크 모델을 이용하여 태스크의 학습을 수행하기 위한 전반적인 동작들, 및/또는 카메라(110)를 통해 획득되는 이미지 프레임들로부터 적어도 하나의 오브젝트와 관련된 적어도 하나의 속성 정보를 획득하기 위한 전반적인 동작들을 제어할 수 있다.In one embodiment, the
예를 들어, 프로세서(130)는 오브젝트와 관련된 복수의 속성 정보들을 나타내는 복수의 태스크들을 특성에 기반하여 분류할 수 있다. 예를 들어, 오브젝트는 이동 수단을 포함할 수 있다. 하지만 이에 한정하는 것은 아니다. 일 실시예에서, 오브젝트 예를 들어, 이동 수단과 관련된 복수의 속성 정보들은, 오브젝트의 색상 정보(예: 적색(R, red) 값, 녹색(G, green) 값, 및 청색(B, blue) 값)와 관련된 제1 속성 정보, 오브젝트의 타입과 관련된 제2 속성 정보 내지 제 14 속성 정보(예: 승용차(예: 세단형)와 관련된 제2 속성 정보, SUV와 관련된 제3 속성 정보, 승합차(예: 밴)와 관련된 제4 속성 정보, 택시와 관련된 제5 속성 정보, 경차와 관련된 제6 속성 정보, 트럭과 관련된 제7 속성 정보, 버스와 관련된 제8 속성 정보, 구급차(예: 앰블런스)와 관련된 제9 속성 정보, 소방차와 관련된 제10 속성 정보, 경찰차와 관련된 제11 속성 정보, 자전거와 관련된 제12 속성 정보, 오토바이와 관련된 제13 속성 정보, 오브젝트 미검출과 관련된 제14 속성 정보), 및 이미지에서 오브젝트가 잘려 있는지 여부와 관련된 제15 속성 정보를 포함할 수 있다. 프로세서(130)는 오브젝트와 관련된 복수의 속성 정보들 나타내는 복수의 태스크들을 라벨링(예: 매핑)할 수 있다. For example, the
일 실시예에서, 프로세서(130)는 오브젝트와 관련된 각 속성 정보를 나타내는 각 태스크의 특성을 확인하고, 이에 기반하여, 태스크들을 분류할 수 있다. 예를 들어, 각 태스크는 적어도 하나의 출력 노드를 가질 수 있다. 이 경우, 각 태스크의 특성은, 각 태스크가 가지는 출력 노드의 개수를 포함할 수 있다. 예를 들어, 복수의 태스크들 중 제1 태스크는, 오브젝트(예: 이동 수단)의 색상 정보 예를 들어, 기 정의된 대표 색상 정보들을 획득하기 위한 태스크로, 9개의 출력 노드를 가질 수 있다. 예를 들어, 기 정의된 대표 색상 정보들은, 청색, 녹색, 검은색, 은색, 적색, 흰색, 주황색, 노란색, 및 라이트 분홍색을 포함할 수 있다. 하지만 이에 한정하는 것은 아니다. 다른 예를 들어, 복수의 태스크들 중 제2 태스크 내지 제 14 태스크는 오브젝트(예: 이동 수단)의 타입을 획득하기 위한 태스크들로, 제1 태스크 내지 제14 태스크 각각은 1개의 출력 노드를 가질 수 있다. 또 다른 예를 들어, 복수의 태스크들 중 제15 태스크는, 오브젝트(예: 이동 수단)가 잘려 있는지 여부를 확인하기 위한 태스크로, 1개의 출력 노드를 가질 수 있다.In one embodiment, the
일 실시예에서, 오브젝트와 관련된 복수의 속성 정보들(예: 제1 속성 정보 내지 제15 속성 정보)을 획득(또는 예측)하기 위한 모델은, 0~1 사이의 출력 값을 가지는 시그모이드(sigmoid) 함수를 이용할 수 있다.In one embodiment, a model for acquiring (or predicting) a plurality of attribute information (e.g., first to fifteenth attribute information) related to an object includes a sigmoid (or prediction) having an output value between 0 and 1. You can use the sigmoid) function.
일 실시예에서, 프로세서(130)는 복수의 태스크들 중 제1 특성을 가지는 적어도 하나의 태스크를 제1 손실 함수(loss function) 및 제2 손실 함수를 이용하여 학습할 수 있다. 예를 들어, 프로세서(130)는 제1 특성을 가지는 적어도 하나의 태스크, 예를 들어, 9개의 출력 노드를 가지는 적어도 하나의 태스크(예: 제1 태스크)를 제1 손실 함수 및 제2 손실 함수를 이용하여 학습할 수 있다. 제1 손실 함수는 이진 교차 엔트로피(BCE; binary cross entropy) 손실 함수를 포함할 수 있다. 제2 손실 함수는 평균 절대 오차(MAE; mean absolute error) 손실 함수를 포함할 수 있다.In one embodiment, the
일 실시예에서, 프로세서(130)는 기 정의된 대표 색상 정보들에 기반하여, 오브젝트의 실제 색상 정보와 학습에 의해 예측된 오브젝트의 예측 색상 정보 간의 제1 손실 값을 산출할 수 있다. 예를 들어, 기 정의된 대표 색상 정보들은 색상 임베딩 값들로 정의될 수 있다. 프로세서(130)는 정의된 색상 임베딩 값들에 기반하여, 오브젝트의 실제 색상 정보와 학습에 의해 예측된 오브젝트의 예측 색상 정보 간의 제1 손실 값을 산출할 수 있다. 프로세서(130)는 산출된 제1 손실 값과 지정된 가중치 값에 기반하여, 손실 가중치를 산출할 수 있다. 프로세서(130)는 산출된 제1 손실 값과 지정된 가중치 값을 합하여, 손실 가중치를 산출할 수 있다. 예를 들어, 지정된 가중치 값은, 1.0일 수 있다. 하지만 이에 한정하는 것은 아니다.In one embodiment, the
일 실시예에서, 프로세서(130)는 제1 손실 함수가 적용된 적어도 하나의 태스크에 산출된 손실 가중치를 적용하여, 색상 정보와 관련된 제1 손실 함수 값을 조정할 수 있다. 조정된 제1 손실 함수 값은, 제1 손실 함수 및 제2 손실 함수를 이용한 제1 특성을 가지는 적어도 하나의 태스크의 학습에 의해 산출된 값으로 이용될 수 있다.In one embodiment, the
일 실시예에서, 프로세서(130)는 복수의 태스크들 중 제2 특성을 가지는 적어도 하나의 다른 태스크에 제1 손실 함수를 이용하여 학습할 수 있다. 예를 들어, 프로세서(130)는 제2 특성을 가지는 적어도 하나의 다른 태스크, 예를 들어, 1개의 출력 노드를 가지는 적어도 하나의 태스크(예: 제2 태스크 내지 제15 태스크)를 제1 손실 함수를 이용하여 학습할 수 있다. 프로세서(130)는 학습 결과에 기반하여, 제2 손실 함수 값을 조정할 수 있다. 조정된 제2 손실 함수 값은, 멀티태스크 모델을 학습하는 데 이용될 수 있다.In one embodiment, the
도 2는, 본 발명의 일 실시예에 따른, 오브젝트와 관련된 속성 정보들을 획득하기 위한 멀티태스크 모델을 학습하는 방법을 설명하기 위한 흐름도이다.Figure 2 is a flowchart illustrating a method of learning a multi-task model to obtain attribute information related to an object, according to an embodiment of the present invention.
이하 실시예에서 각 동작들은 순차적으로 수행될 수도 있으나, 반드시 순차적으로 수행되는 것은 아니다. 예를 들어, 각 동작들의 순서가 변경될 수도 있으며, 적어도 두 동작들이 병렬적으로 수행될 수도 있다.In the following embodiments, each operation may be performed sequentially, but is not necessarily performed sequentially. For example, the order of each operation may be changed, and at least two operations may be performed in parallel.
일 실시예에 따르면, 205동작 내지 220동작은 전자 장치(예: 도 1의 전자 장치(101))의 프로세서(예: 도 1의 프로세서(130))에서 수행되는 것으로 이해될 수 있다.According to one embodiment,
일 실시예에서, 미도시 되었으나, 후술하는 205동작 내지 220동작은, 오브젝트와 관련된 이미지를 이용하여 수행될 수 있다. 예를 들어, 오브젝트와 관련된 이미지는, 메모리(예: 도 1의 메모리(120))에 저장된 오브젝트와 관련된 이미지 및/또는 카메라(예: 도 1의 카메라(110))를 통해 획득되는 이미지를 포함할 수 있다.In one embodiment,
도 2를 참조하면, 프로세서(130)는 205동작에서, 오브젝트와 관련된 복수의 속성 정보들을 나타내는 복수의 태스크들을 특성에 기반하여 분류할 수 있다.Referring to FIG. 2, in
일 실시예에서, 오브젝트는 이동 수단을 포함할 수 있다. 하지만 이에 한정하는 것은 아니다. 이하 실시예에서 오브젝트는 이동 수단으로 가정하여 설명하도록 한다.In one embodiment, the object may include a means of movement. However, it is not limited to this. In the following embodiments, the object will be described assuming that it is a means of movement.
일 실시예에서, 오브젝트 예를 들어, 이동 수단과 관련된 복수의 속성 정보들은, 오브젝트의 색상 정보(예: 적색(R, red) 값, 녹색(G, green) 값, 및 청색(B, blue) 값)와 관련된 제1 속성 정보, 오브젝트의 타입과 관련된 제2 속성 정보 내지 제 14 속성 정보(예: 승용차(예: 세단형)와 관련된 제2 속성 정보, SUV와 관련된 제3 속성 정보, 승합차(예: 밴)와 관련된 제4 속성 정보, 택시와 관련된 제5 속성 정보, 경차와 관련된 제6 속성 정보, 트럭과 관련된 제7 속성 정보, 버스와 관련된 제8 속성 정보, 구급차(예: 앰블런스)와 관련된 제9 속성 정보, 소방차와 관련된 제10 속성 정보, 경찰차와 관련된 제11 속성 정보, 자전거와 관련된 제12 속성 정보, 오토바이와 관련된 제13 속성 정보, 오브젝트 미검출과 관련된 제14 속성 정보), 및 이미지에서 오브젝트가 잘려 있는지 여부와 관련된 제15 속성 정보를 포함할 수 있다.In one embodiment, a plurality of attribute information related to an object, for example, a means of transportation, includes color information of the object (e.g., red (R) value, green (G, green) value, and blue (B) value), second to fourteenth attribute information related to the type of object (e.g., second attribute information related to a passenger car (e.g., sedan), third attribute information related to SUV, van ( For example: 4th attribute information related to a van, 5th attribute information related to a taxi, 6th attribute information related to a light vehicle, 7th attribute information related to a truck, 8th attribute information related to a bus, ambulance (e.g. an ambulance) and 9th attribute information related, 10th attribute information related to fire trucks, 11th attribute information related to police cars, 12th attribute information related to bicycles, 13th attribute information related to motorcycles, 14th attribute information related to object non-detection), and It may include a 15th attribute information related to whether an object is cut out of the image.
다양한 실시예들에서, 오브젝트와 관련된 복수의 속성 정보들은 15개의 속성 정보들을 포함하는 것으로 설명하였으나, 이에 한정하는 것은 아니다. 예를 들어, 오브젝트와 관련된 복수의 속성 정보들은, 15개 미만의 속성 정보들 또는 15개를 초과하는 속성 정보들을 포함할 수도 있다.In various embodiments, the plurality of attribute information related to an object has been described as including 15 pieces of attribute information, but is not limited thereto. For example, the plurality of attribute information related to an object may include less than 15 pieces of attribute information or more than 15 pieces of attribute information.
일 실시예에서, 프로세서(130)는 오브젝트와 관련된 복수의 속성 정보들 나타내는 복수의 태스크들을 라벨링(예: 매핑)할 수 있다. 예를 들어, 프로세서(130)는 제1 속성 정보를 나타내는 제1 태스크를 제1 라벨로 라벨링할 수 있다. 프로세서(130)는 제2 속성 정보를 나타내는 제2 태스크를 제2 라벨로 라벨링할 수 있다. 프로세서(130)는 제3 속성 정보를 나타내는 제3 태스크를 제3 라벨로 라벨링할 수 있다. 프로세서(130)는 제4 속성 정보를 나타내는 제4 태스크를 제4 라벨로 라벨링할 수 있다. 프로세서(130)는 제5 속성 정보를 나타내는 제5 태스크를 제5 라벨로 라벨링할 수 있다. 프로세서(130)는 제6 속성 정보를 나타내는 제6 태스크를 제6 라벨로 라벨링할 수 있다. 프로세서(130)는 제7 속성 정보를 나타내는 제7 태스크를 제7 라벨로 라벨링할 수 있다. 프로세서(130)는 제8 속성 정보를 나타내는 제8 태스크를 제8 라벨로 라벨링할 수 있다. 프로세서(130)는 제9 속성 정보를 나타내는 제9 태스크를 제9 라벨로 라벨링할 수 있다. 프로세서(130)는 제10 속성 정보를 나타내는 제10 태스크를 제10 라벨로 라벨링할 수 있다. 프로세서(130)는 제11 속성 정보를 나타내는 제11 태스크를 제11 라벨로 라벨링할 수 있다. 프로세서(130)는 제12 속성 정보를 나타내는 제12 태스크를 제12 라벨로 라벨링할 수 있다. 프로세서(130)는 제13 속성 정보를 나타내는 제13 태스크를 제13 라벨로 라벨링할 수 있다. 프로세서(130)는 제14 속성 정보를 나타내는 제14 태스크를 제14 라벨로 라벨링할 수 있다. 프로세서(130)는 제15 태스크를 제15 라벨로 라벨링할 수 있다.In one embodiment, the
일 실시예에서, 프로세서(130)는 오브젝트와 관련된 각 속성 정보를 나타내는 각 태스크의 특성을 확인하고, 이에 기반하여, 태스크들을 분류할 수 있다. 예를 들어, 각 태스크는 적어도 하나의 출력 노드를 가질 수 있다. 이 경우, 각 태스크의 특성은, 각 태스크가 가지는 출력 노드의 개수를 포함할 수 있다. 하지만 이에 한정하는 것은 아니다.In one embodiment, the
일 실시예에서, 복수의 태스크들 중 제1 태스크는, 오브젝트(예: 이동 수단)의 색상 정보 예를 들어, 기 정의된 대표 색상 정보 예를 들어, 청색, 녹색, 검은색, 은색, 적색, 흰색, 주황색, 노란색, 및 라이트 분홍색을 획득하기 위한 태스크로, 9개의 출력 노드를 가질 수 있다. 전술한 기 정의된 대표 색상 정보는 하나의 실시예로, 이에 한정하는 것은 아니다. In one embodiment, the first task among the plurality of tasks includes color information of an object (e.g., a means of transportation), such as predefined representative color information, such as blue, green, black, silver, red, This task is for obtaining white, orange, yellow, and light pink colors and can have 9 output nodes. The previously defined representative color information described above is an example and is not limited thereto.
일 실시예에서, 복수의 태스크들 중 제2 태스크 내지 제 14 태스크는 오브젝트(예: 이동 수단)의 타입을 획득하기 위한 태스크들로, 제1 태스크 내지 제14 태스크 각각은 1개의 출력 노드를 가질 수 있다.In one embodiment, the second to fourteenth tasks among the plurality of tasks are tasks for obtaining the type of an object (e.g., a means of transportation), and each of the first to fourteenth tasks has one output node. You can.
일 실시예에서, 복수의 태스크들 중 제15 태스크는, 오브젝트(예: 이동 수단)가 잘려 있는지 여부를 확인하기 위한 태스크로, 1개의 출력 노드를 가질 수 있다.In one embodiment, the 15th task among the plurality of tasks is a task for checking whether an object (eg, a means of transportation) is cut, and may have one output node.
이에 따라, 오브젝트(예: 이동 수단)와 관련된 복수의 속성 정보들(예: 제1 속성 정보 내지 제15 속성 정보)을 획득(또는 예측)하기 위한 모델의 최종 출력 레이어의 출력 노드의 개수는 24개일 수 있다.Accordingly, the number of output nodes of the final output layer of the model for acquiring (or predicting) a plurality of attribute information (e.g., first to fifteenth attribute information) related to an object (e.g., means of transportation) is 24. It could be a dog.
일 실시예에서, 오브젝트와 관련된 복수의 속성 정보들(예: 제1 속성 정보 내지 제15 속성 정보)을 획득(또는 예측)하기 위한 모델은, 0~1 사이의 출력 값을 가지는 시그모이드(sigmoid) 함수를 이용할 수 있다.In one embodiment, a model for acquiring (or predicting) a plurality of attribute information (e.g., first to fifteenth attribute information) related to an object includes a sigmoid (or prediction) having an output value between 0 and 1. You can use the sigmoid) function.
일 실시예에서, 프로세서(130)는 210동작에서, 복수의 태스크들 중 제1 특성을 가지는 적어도 하나의 태스크를 제1 손실 함수 및 제2 손실 함수를 이용하여 학습할 수 있다. 예를 들어, 프로세서(130)는 제1 특성을 가지는 적어도 하나의 태스크, 예를 들어, 9개의 출력 노드를 가지는 적어도 하나의 태스크(예: 제1 태스크)를 제1 손실 함수 및 제2 손실 함수를 이용하여 학습할 수 있다.In one embodiment, the
일 실시예에서, 제1 손실 함수는 이진 교차 엔트로피(BCE; binary cross entropy) 손실 함수를 포함할 수 있다. 제2 손실 함수는 평균 절대 오차(MAE; mean absolute error) 손실 함수를 포함할 수 있다. 예를 들어, 프로세서(130)는 복수의 태스크들 중 제1 특성(예: 9개의 출력 노드)을 가지는 제1 태스크와 관련된 9개의 출력 노드들에 이진 교차 엔트로피 및 평균 절대 오차 손실 함수(예: )를 적용할 수 있다.In one embodiment, the first loss function may include a binary cross entropy (BCE) loss function. The second loss function may include a mean absolute error (MAE) loss function. For example, the
일 실시예에서, 프로세서(130)는 215동작에서, 복수의 태스크들 중 제2 특성을 가지는 적어도 하나의 다른 태스크에 제1 손실 함수를 이용하여 학습할 수 있다. 예를 들어, 프로세서(130)는 제2 특성을 가지는 적어도 하나의 다른 태스크, 예를 들어, 1개의 출력 노드를 가지는 적어도 하나의 태스크(예: 제2 태스크 내지 제15 태스크)를 제1 손실 함수를 이용하여 학습할 수 있다.In one embodiment, the
일 실시예에서, 제1 손실 함수는 이진 교차 엔트로피(BCE; binary cross entropy) 손실 함수를 포함할 수 있다. 예를 들어, 프로세서(130)는 복수의 태스크들 중 제1 특성(예: 1개의 출력 노드)을 가지는 제2 태스크 내지 제15 태스크와 관련된 14개의 출력 노드들에 이진 교차 엔트로피 손실 함수(예: 제2 태스크 내지 제14 태스크 각각과 관련된 출력 노드에 적용한 이진 교차 엔트로피 손실 함수(예: ), 제15 태스크와 관련된 출력 노드에 적용한 이진 교차 엔트로피 손실 함수(예: )를 적용할 수 있다.In one embodiment, the first loss function may include a binary cross entropy (BCE) loss function. For example, the
다양한 실시예들에 따른 전술한 제1 손실 함수로 기재된 이진 교차 엔트로피 손실 함수 및 제2 손실 함수로 기재된 평균 절대 오차 손실 함수는, 하나의 예로, 이에 한정하는 것은 아니다.The binary cross entropy loss function described above as the first loss function and the average absolute error loss function described as the second loss function according to various embodiments are an example and are not limited thereto.
일 실시예에서, 전술한 복수의 태스크들과 관련된 24개의 출력 노드들에 손실 함수를 적용한 최종 손실 함수는, 하기 <수학식 1>과 같을 수 있다. 예를 들어, 프로세서(130)는 각 태스크의 특성에 따라 각 태스크의 출력 노드들(예: 24개의 출력 노드들)에 상이한 손실 함수(예: 이진 교차 엔트로피 손실 함수 및/또는 평균 절대 오차 손실 함수)를 적용하고, 손실 함수가 적용된 각 출력 노드들을 합하여, 최종 손실 함수로 결정할 수 있다.In one embodiment, the final loss function obtained by applying the loss function to 24 output nodes related to the plurality of tasks described above may be expressed as Equation 1 below. For example, the
일 실시예에서, 프로세서(130)는 220동작에서, 학습 결과에 기반하여, 손실 함수 값을 조정할 수 있다. 예를 들어, 프로세서(130)는 전술한 <수학식 1>에 기반하여 손실 함수 값(Loss)을 산출할 수 있다. 산출된 손실 함수 값(Loss)은, 전술한 210동작 및 215동작을 반복 수행함으로써, 조정(예: 최적의 손실 함수 값으로 조정)될 수 있다. 미도시 되었으나, 조정된 손실 함수 값은, 멀티태스크 모델을 학습하는 데 이용될 수 있다. 예를 들어, 프로세서(130)는 역전파(back-propagation)를 통해 조정된 손실 함수 값을 멀티태스크 모델에 적용함으로써, 멀티태스크 모델을 학습할 수 있다.In one embodiment, the
도 3은, 본 발명의 일 실시예에 따른, 오브젝트와 관련된 속성 정보들 중 색상 정보를 학습하는 방법을 설명하기 위한 도면이다.Figure 3 is a diagram for explaining a method of learning color information among attribute information related to an object, according to an embodiment of the present invention.
일 실시예에 따른 도 3은, 도 2의 210동작을 구체화한 도면이다.FIG. 3 according to one embodiment is a
이하 실시예에서 각 동작들은 순차적으로 수행될 수도 있으나, 반드시 순차적으로 수행되는 것은 아니다. 예를 들어, 각 동작들의 순서가 변경될 수도 있으며, 적어도 두 동작들이 병렬적으로 수행될 수도 있다.In the following embodiments, each operation may be performed sequentially, but is not necessarily performed sequentially. For example, the order of each operation may be changed, and at least two operations may be performed in parallel.
일 실시예에 따르면, 305동작 내지 325동작은 전자 장치(예: 도 1의 전자 장치(101))의 프로세서(예: 도 1의 프로세서(130))에서 수행되는 것으로 이해될 수 있다.According to one embodiment,
일 실시예에서, 미도시 되었으나, 후술하는 305동작 내지 325동작은, 오브젝트와 관련된 이미지를 이용하여 수행될 수 있다. 예를 들어, 오브젝트와 관련된 이미지는, 메모리(예: 도 1의 메모리(120))에 저장된 오브젝트와 관련된 이미지 및/또는 카메라(예: 도 1의 카메라(110))를 통해 획득되는 오브젝트와 관련된 이미지를 포함할 수 있다. 일 실시예에서, 오브젝트는 이동 수단을 포함할 수 있다. 하지만 이에 한정하는 것은 아니다.In one embodiment,
도 3을 참조하면, 프로세서(130)는 305동작에서, 멀티태스크 모델을 이용하여 오브젝트와 관련된 복수의 속성 정보들을 나타내는 복수의 태스크들 중 색상 정보와 관련된 적어도 하나의 태스크의 학습을 수행할 수 있다. 예를 들어, 도 2에서 살펴본 바와 같이, 색상 정보와 관련된 적어도 하나의 태스크는, 기 정의된 대표 색상 정보들 예를 들어, 청색(blue), 녹색(green), 검은색(black), 은색(silver), 적색(red), 흰색(white), 주황색(orange), 노란색(yellow), 및 라이트 분홍색(light pink)에 대한 9개의 출력 노드를 가질 수 있다. 이에 따라, 색상 정보와 관련된 적어도 하나의 태스크는 제1 특성을 가지는 태스크일 수 있다.Referring to FIG. 3, in
일 실시예에서, 프로세서(130)는 310동작에서, 색상 정보와 관련된 적어도 하나의 태스크에 제1 손실 함수를 적용할 수 있다. 예를 들어, 제1 손실 함수는, 이진 교차 엔트로피(BCE; binary cross entropy) 손실 함수를 포함할 수 있다.In one embodiment, the
일 실시예에서, 프로세서(130)는 315동작에서, 기 정의된 대표 색상 정보들에 기반하여, 오브젝트의 실제 색상 정보와 학습(예: 305동작의 학습)에 의해 예측된 오브젝트의 예측 색상 정보 간의 제1 손실 값을 산출할 수 있다.In one embodiment, in
일 실시예에서, 기 정의된 대표 색상 정보들(예: 청색(blue), 녹색(green), 검은색(black), 은색(silver), 적색(red), 흰색(white), 주황색(orange), 노란색(yellow), 및 라이트 분홍색(light pink))은, 하기 <표 1>과 같이, 색상 임베딩 값들로 정의될 수 있다.In one embodiment, predefined representative color information (e.g., blue, green, black, silver, red, white, orange) , yellow, and light pink) can be defined by color embedding values, as shown in Table 1 below.
{0, 0, 255}, // blue
{20, 180, 60}, // green
{0, 0, 0}, // black
{130, 130, 130}, // silver
{255, 0, 0}, // red
{255, 255, 255}, // white
{255, 100, 0}, // orange
{255, 255, 0}, // yellow
{255, 224, 239} // light pink
}EMB[9][3] = {
{0, 0, 255}, // blue
{20, 180, 60}, // green
{0, 0, 0}, // black
{130, 130, 130}, // silver
{255, 0, 0}, // red
{255, 255, 255}, // white
{255, 100, 0}, // orange
{255, 255, 0}, // yellow
{255, 224, 239} // light pink
}
일 실시예에서, <표 1>과 같이, 기 정의된 대표 색상 정보들을 색상 임베딩 값들로 정의하는 것은, 색상 간의 거리(예: 색상 간의 차이)를 가중치로 한 시그모이드(sigmoid) 함수를 이용하여 유사한 색상 정보의 신뢰도(confidence)를 골고루 분포시키고 과신뢰를 방지하기 위한 것일 수 있다.In one embodiment, as shown in <Table 1>, defining predefined representative color information as color embedding values uses a sigmoid function with the distance between colors (e.g., difference between colors) as a weight. This may be to evenly distribute the confidence of similar color information and prevent overconfidence.
일 실시예에서, 산출된 오브젝트의 실제 색상 정보와 학습에 의해 예측된 오브젝트의 예측 색상 정보 간의 제1 손실 값은, 하기 <표 2>와 같을 수 있다.In one embodiment, the first loss value between the calculated actual color information of the object and the predicted color information of the object predicted by learning may be as shown in <Table 2> below.
일 실시예에서, 프로세서(130)는 320동작에서, 산출된 제1 손실 값과 지정된 가중치 값에 기반하여, 손실 가중치를 산출할 수 있다. 예를 들어, 프로세서(130)는 산출된 제1 손실 값과 지정된 가중치 값을 합하여 손실 가중치를 산출할 수 있다. 예를 들어, 지정된 가중치 값은, 1.0일 수 있다. 하지만 이에 한정하는 것은 아니다.In one embodiment, the
일 실시예에서, 프로세서(130)는 325동작에서, 제1 손실 함수가 적용된 적어도 하나의 태스크에 산출된 손실 가중치를 적용하여, 색상 정보와 관련된 손실 함수 값을 조정할 수 있다. 예를 들어, 프로세서(130)는 하기 <수학식 2>에 기반하여 오브젝트와 관련된 색상 정보(예: 제1 속성 정보)에 대한 손실 함수 값(Loss)을 산출할 수 있다. 손실 함수 값(Loss)은, 전술한 305동작 및 325동작을 반복 수행함으로써, 조정(예: 최적의 손실 함수 값으로 조정)될 수 있다. 일 실시예에서, 조정된 손실 함수 값은, 전술한 도 2의 210동작의 제1 손실 함수 및 제2 손실 함수를 이용한 학습에 의해 산출된 값으로 이용될 수 있다.In one embodiment, the
다양한 실시예들에서, 제1 손실 함수에 320동작에 의해 산출된 손실 가중치를 적용하여 오브젝트와 관련된 색상 정보를 학습(또는 훈련)함으로써, 제1 손실 함수만을 이용하여 색상 정보를 학습하는 것보다, 색상 정보에 대한 학습을 유연하게 할 수 있다. 예를 들어, 모델이 제1 손실 함수만을 이용하여 색상 정보를 학습하는 경우, 실제 색상이 검은색인 오브젝트에 대해 색상이 흰색인 오브젝트로 예측한 경우와 색상이 회색인 오브젝트로 예측한 경우의 손실 함수 값은 동일할 수 있다. 본 발명의 실시예들에서, 제1 손실 함수에 320동작에 의해 산출된 손실 가중치를 적용하여 색상 정보를 학습하는 경우, 모델이 실제 색상이 검은색인 오브젝트에 대해 색상이 흰색인 오브젝트로 예측한 경우의 손실 함수 값은 색상이 회색인 오브젝트로 예측한 경우의 손실 함수 값보다 높을 수 있다. 즉, 실제 색상인 검은색과 가까운 색상인 회색의 오브젝트로 예측한 경우 흰색의 오브젝트로 예측한 경우보다 낮은 손실 함수 값이 산출될 수 있으며, 이에 따라, 오브젝트의 실제 색상과 가까운 색상은 오브젝트의 실제 색상과 먼 색상에 비해 상대적으로 큰 모델의 신뢰도(confidence)를 획득할 수 있다. In various embodiments, by applying the loss weight calculated by
도 4는, 본 발명의 일 실시예에 따른, 복수의 태스크들의 학습 데이터를 증강하는 방법을 설명하기 위한 도면이다.Figure 4 is a diagram for explaining a method of augmenting learning data of a plurality of tasks according to an embodiment of the present invention.
다양한 실시예들에 따른 후술하는 도 4의 동작은, 전술한 도 2의 210동작 및 220동작의 각 태스크의 학습을 수행하며 수행되거나, 및/또는 220동작의 손실 함수 값을 조정한 후 수행될 수 있다. 하지만 이에 한정하는 것은 아니다.The operation of FIG. 4 described later according to various embodiments may be performed while learning each task of
도 4를 참조하면, 전자 장치(예: 도 1의 전자 장치(101))의 프로세서(예: 도 1의 프로세서(130))는 제1 오브젝트 이미지(예: 변형을 가하지 않은 오브젝트 이미지)를 변경한 제2 오브젝트 이미지(예: 변형이 가해진 오브젝트 이미지)를 생성하여, 학습 데이터를 증강시킬 수 있다. Referring to FIG. 4, a processor (e.g.,
일 실시예에서, 프로세서(130)는 제1 오브젝트 이미지를 획득하는 카메라의 특성, 촬영 시간, 촬영 시점에 발생할 수 있는 변수들을 학습할 수 있다. 예를 들어, 프로세서(130)는 제1 오브젝트 이미지에 대하여 실제로 발생할 수 있는 변수를 반영하는 데이터 증강 알고리즘을 통해 학습 데이터의 수량을 증가시킬 수 있다. 예를 들어, 프로세서(130)는 제1 오브젝트 이미지에 촬영 시점에 발생할 수 있는 변수를 반영할 수 있다. 일 실시예에 따른 촬영 시점에 발생할 수 있는 변수는, 다른 자동차, 가로등, 간판, 및/또는 전깃줄과 같이 오브젝트를 가릴 수 있는 오브젝트와 관련된 변수일 수 있다. 변수에 따라, 오브젝트와 관련된 적어도 하나의 속성 정보를 잘못 획득하는 경우가 발생할 수 있다. 예를 들어, 변수에 의해 오브젝트와 관련된 색상보다 주변 환경 색상에 집중하게 될 수 있으며, 이에 따라, 오브젝트와 관련된 복수의 속성 정보들 중 색상 값과 관련된 제15 속성 정보가 잘못 획득될 수 있다.In one embodiment, the
본 발명의 일 실시예에서, 프로세서(130)는 참조번호 <410>, <430>, 및 <450>에 도시된 바와 같이 제1 오브젝트 이미지(411, 431, 451)(예: 변형을 가하지 않은 오브젝트 이미지)에 무작위의 색상과 두께를 가진 선을 긋는 것과 같은 변형(413, 415, 433, 435, 453, 455)을 가하고, 변형이 가해진 이미지를 제2 오브젝트 이미지로 생성할 수 있다. 프로세서(130)는 생성된 제2 오브젝트 이미지에 기반하여, 오브젝트와 관련된 각 속성 정보를 학습할 수 있다.In one embodiment of the present invention, the
일 실시예에 따른 도 4에서 변수를 반영하는 데이터 증강 알고리즘을 통해 학습 데이터의 수량을 증가시키는 데이터 증강을 이용하여, 제15 속성 정보와 관련된 태스크를 학습함으로써, 오브젝트와 관련된 색상 정보(예: 제15 속성 정보)를 정확하게 획득할 수 있다.4 according to an embodiment, by using data augmentation to increase the quantity of learning data through a data augmentation algorithm reflecting the variable, and learning a task related to the fifteenth attribute information, color information (e.g., color information related to the object) 15 attribute information) can be obtained accurately.
도 5는, 본 발명의 일 실시예에 따른, 오브젝트와 관련된 속성 정보들을 획득하는 방법을 설명하기 위한 흐름도이다.Figure 5 is a flowchart illustrating a method of obtaining attribute information related to an object, according to an embodiment of the present invention.
이하 실시예에서 각 동작들은 순차적으로 수행될 수도 있으나, 반드시 순차적으로 수행되는 것은 아니다. 예를 들어, 각 동작들의 순서가 변경될 수도 있으며, 적어도 두 동작들이 병렬적으로 수행될 수도 있다.In the following embodiments, each operation may be performed sequentially, but is not necessarily performed sequentially. For example, the order of each operation may be changed, and at least two operations may be performed in parallel.
일 실시예에 따르면, 510동작 및 520동작은 전자 장치(예: 도 1의 전자 장치(101))의 프로세서(예: 도 1의 프로세서(130))에서 수행되는 것으로 이해될 수 있다.According to one embodiment,
도 5를 참조하면, 프로세서(130)는 510동작에서, 카메라(예: 도 1의 카메라(110))를 통해 획득되는 이미지 프레임들로부터 적어도 하나의 오브젝트를 검출할 수 있다.Referring to FIG. 5, the
일 실시예에서, 적어도 하나의 오브젝트는 적어도 하나의 이동 수단을 포함할 수 있다. 일 실시예에서, 프로세서(130)는 이미지 프레임들에서 검출된 적어도 하나의 오브젝트를 포함하는 영역을 크롭(crop)할 수 있다. 프로세서(130)는 크롭된 적어도 하나의 오브젝트를 포함하는 영역을 하나의 이미지로 생성하여, 후술하는 520동작을 수행할 수 있다. 하지만 이에 한정하는 것은 아니다.In one embodiment, at least one object may include at least one means of movement. In one embodiment, the
일 실시예에서, 프로세서(130)는 520동작에서, 멀티태스크 모델에 기반하여, 검출된 적어도 하나의 오브젝트 각각과 관련된 적어도 하나의 속성 정보를 획득할 수 있다.In one embodiment, the
일 실시예에서, 프로세서(130)는 전술한 도 2 및/또는 도 3의 동작들에 의해 학습된 멀티태스크 모델을 이용하여 이미지에 포함된 적어도 하나의 오브젝트 각각과 관련된 적어도 하나의 속성 정보를 획득할 수 있다. 예를 들어, 오브젝트와 관련된 적어도 하나의 속성 정보는, 오브젝트의 색상 정보(예: 적색(R, red) 값, 녹색(G, green) 값, 및 청색(B, blue) 값)와 관련된 제1 속성 정보, 오브젝트의 타입과 관련된 제2 속성 정보 내지 제 14 속성 정보(예: 승용차(예: 세단형)와 관련된 제2 속성 정보, SUV와 관련된 제3 속성 정보, 승합차(예: 밴)와 관련된 제4 속성 정보, 택시와 관련된 제5 속성 정보, 경차와 관련된 제6 속성 정보, 트럭과 관련된 제7 속성 정보, 버스와 관련된 제8 속성 정보, 구급차(예: 앰블런스)와 관련된 제9 속성 정보, 소방차와 관련된 제10 속성 정보, 경찰차와 관련된 제11 속성 정보, 자전거와 관련된 제12 속성 정보, 오토바이와 관련된 제13 속성 정보, 오브젝트 미검출과 관련된 제14 속성 정보), 및 이미지에서 오브젝트가 잘려 있는지 여부와 관련된 제15 속성 정보를 포함할 수 있다.In one embodiment, the
도 6은, 본 발명의 일 실시예에 따른, 오브젝트와 관련된 속성 정보들을 획득하는 방법을 설명하기 위한 도면이다.Figure 6 is a diagram for explaining a method of obtaining attribute information related to an object according to an embodiment of the present invention.
도 6을 참조하면, 전자 장치(예: 도 1의 전자 장치(101))의 프로세서(예: 도 1의 프로세서(130))는, 카메라(예: 도 1의 카메라(110))를 통해 적어도 하나의 이동 수단을 포함하는 이미지 프레임들을 획득할 수 있다. 프로세서(130)는 이미지 프레임들에서 검출된 적어도 하나의 오브젝트를 포함하는 영역을 크롭하고, 크롭된 적어도 하나의 오브젝트를 포함하는 영역을 하나의 이미지(예: 참조번호 <610>의 제1 이미지(611), 참조번호 <630>의 제2 이미지(631), 참조번호 <650>의 제3 이미지(651))로 생성할 수 있다.Referring to FIG. 6, the processor (e.g.,
일 실시예에서, 프로세서(130)는 멀티태스크 모델에 기반하여, 검출된 적어도 하나의 오브젝트 각각과 관련된 적어도 하나의 속성 정보를 획득할 수 있다.In one embodiment, the
일 실시예에서, 오브젝트의 색상 정보와 관련하여 살펴보면, 프로세서(130)는 <표 1>에 따른 기 정의된 대표 색상들에 대한 색상 임베딩 값들에 기반하여, 시그모이드(sigmoid)에 의해 산출된 각 대표 색상의 신뢰도(confidence)를 가중치로 하여, 최종 색상 정보를 획득할 수 있다. 예를 들어, 녹색에 대한 신뢰도가 0.7이고, 블랙에 대한 신뢰도가 0.3이고, 나머지 색상들에 대한 신뢰도가 0에 가까운 경우, 프로세서(130)는 “{0, 1.0, 0} * 0.7 + {0.0, 0.0, 0.0} * 0.3”을 기반으로 산출된 “{0.2, 1.0, 0.2}”를 최종 색상 정보로서 획득할 수 있다. In one embodiment, looking at the color information of the object, the
예를 들어, 참조번호 <610>을 참조하면, 프로세서(130)는 멀티태스크 모델에 기반하여, 제1 이미지(611)로부터 이동 수단의 타입 예를 들어, SUV(예: 제3 속성 정보)(613)와 색상 정보(예: 제1 속성 정보)(615)(예: 검은색에 대한 신뢰도: 0.20, 회색에 대한 신뢰도: 0.8)를 획득할 수 있다.For example, referring to reference numeral <610>, the
다른 예를 들어, 참조번호 <630>을 참조하면, 프로세서(130)는 멀티태스크 모델에 기반하여, 제2 이미지(631)로부터 이동 수단의 타입인 승용차(예: 세단형)(예: 제2 속성 정보)(633)와 색상 정보인 밝은 회색(예: 제1 속성 정보)(635)(예: 흰색에 대한 신뢰도: 0.20, 회색에 대한 신뢰도: 0.8)을 획득할 수 있다.For another example, referring to reference numeral <630>, the
또 다른 예를 들어, 참조번호 <650>을 참조하면, 프로세서(130)는 멀티태스크 모델에 기반하여, 제3 이미지(651)로부터 이동 수단의 타입인 트럭(예: 제7 속성 정보)(653)과 색상 정보인 밝은 노란색(예: 제1 속성 정보)(655)(예: 흰색에 대한 신뢰도: 0.3, 노란색에 대한 신뢰도: 0.7)을 획득할 수 있다.As another example, referring to reference numeral <650>, the
본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술적 특징들을 특정한 실시예들로 한정하려는 것이 아니며, 해당 실시예의 다양한 변경, 균등물, 또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 또는 관련된 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 아이템에 대응하는 명사의 단수 형은 관련된 문맥상 명백하게 다르게 지시하지 않는 한, 상기 아이템 한 개 또는 복수 개를 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및 B 중 적어도 하나", "A 또는 B 중 적어도 하나", "A, B 또는 C", "A, B 및 C 중 적어도 하나", 및 "A, B, 또는 C 중 적어도 하나"와 같은 문구들 각각은 그 문구들 중 해당하는 문구에 함께 나열된 항목들 중 어느 하나, 또는 그들의 모든 가능한 조합을 포함할 수 있다. "제1", "제2", 또는 "첫째" 또는 "둘째"와 같은 용어들은 단순히 해당 구성요소를 다른 해당 구성요소와 구분하기 위해 사용될 수 있으며, 해당 구성요소들을 다른 측면(예: 중요성 또는 순서)에서 한정하지 않는다. The various embodiments of this document and the terms used herein are not intended to limit the technical features described in this document to specific embodiments, and should be understood to include various changes, equivalents, or replacements of the embodiments. In connection with the description of the drawings, similar reference numbers may be used for similar or related components. The singular form of a noun corresponding to an item may include one or more of the above items, unless the relevant context clearly indicates otherwise. As used herein, “A or B”, “at least one of A and B”, “at least one of A or B”, “A, B or C”, “at least one of A, B and C”, and “A Each of phrases such as “at least one of , B, or C” may include any one of the items listed together in the corresponding phrase, or any possible combination thereof. Terms such as "first", "second", or "first" or "second" may be used simply to distinguish one element from another, and may be used to distinguish such elements in other respects, such as importance or order) is not limited.
본 문서의 다양한 실시예들은 기기(machine)(예: 전자 장치(101)) 의해 읽을 수 있는 저장 매체(storage medium)(예: 메모리(120))에 저장된 하나 이상의 명령어들을 포함하는 소프트웨어로서 구현될 수 있다. 예를 들면, 기기(예: 전자 장치(101))의 프로세서(예: 프로세서(130))는, 저장 매체로부터 저장된 하나 이상의 명령어들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 기기가 상기 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 상기 하나 이상의 명령어들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장 매체의 형태로 제공될 수 있다. 여기서, ‘비일시적’은 저장 매체가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장 매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.Various embodiments of this document may be implemented as software including one or more instructions stored in a storage medium (e.g., memory 120) that can be read by a machine (e.g., electronic device 101). You can. For example, a processor (e.g., processor 130) of a device (e.g., electronic device 101) may call at least one command among one or more commands stored from a storage medium and execute it. This allows the device to be operated to perform at least one function according to the at least one instruction called. The one or more instructions may include code generated by a compiler or code that can be executed by an interpreter. A storage medium that can be read by a device may be provided in the form of a non-transitory storage medium. Here, 'non-transitory' only means that the storage medium is a tangible device and does not contain signals (e.g. electromagnetic waves), and this term refers to cases where data is semi-permanently stored in the storage medium. There is no distinction between temporary storage cases.
일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory(CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두 개의 사용자 장치들(예: 스마트 폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.According to one embodiment, methods according to various embodiments disclosed in this document may be provided and included in a computer program product. Computer program products are commodities and can be traded between sellers and buyers. The computer program product may be distributed in the form of a machine-readable storage medium (e.g. compact disc read only memory (CD-ROM)) or via an application store (e.g. Play Store TM ) or on two user devices (e.g. It can be distributed (e.g. downloaded or uploaded) directly between smart phones) or online. In the case of online distribution, at least a portion of the computer program product may be at least temporarily stored or temporarily created in a machine-readable storage medium, such as the memory of a manufacturer's server, an application store's server, or a relay server.
다양한 실시예들에 따르면, 상기 기술한 구성요소들의 각각의 구성요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있으며, 복수의 개체 중 일부는 다른 구성요소에 분리 배치될 수도 있다. 다양한 실시예들에 따르면, 전술한 해당 구성요소들 중 하나 이상의 구성요소들 또는 동작들이 생략되거나, 또는 하나 이상의 다른 구성요소들 또는 동작들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성요소들(예: 모듈 또는 프로그램)은 하나의 구성요소로 통합될 수 있다. 이런 경우, 통합된 구성요소는 상기 복수의 구성요소들 각각의 구성요소의 하나 이상의 기능들을 상기 통합 이전에 상기 복수의 구성요소들 중 해당 구성요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성요소에 의해 수행되는 동작들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 상기 동작들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 동작들이 추가될 수 있다.According to various embodiments, each component (e.g., module or program) of the above-described components may include a single or plural entity, and some of the plurality of entities may be separately placed in other components. there is. According to various embodiments, one or more of the components or operations described above may be omitted, or one or more other components or operations may be added. Alternatively or additionally, multiple components (eg, modules or programs) may be integrated into a single component. In this case, the integrated component may perform one or more functions of each component of the plurality of components in the same or similar manner as those performed by the corresponding component of the plurality of components prior to the integration. . According to various embodiments, operations performed by a module, program, or other component may be executed sequentially, in parallel, iteratively, or heuristically, or one or more of the operations may be executed in a different order, or omitted. Alternatively, one or more other operations may be added.
101: 전자 장치 110: 카메라
120: 메모리 130: 프로세서101: Electronic device 110: Camera
120: memory 130: processor
Claims (20)
메모리; 및
프로세서를 포함하고,
상기 프로세서는,
멀티태스크 모델을 이용하여 오브젝트와 관련된 복수의 속성 정보들을 나타내는 복수의 태스크들 중 색상 정보와 관련된 적어도 하나의 태스크의 학습을 수행하고,
상기 학습이 수행된 색상 정보와 관련된 적어도 하나의 태스크에 BCE(binary cross entropy) 손실 함수를 적용하고,
기 정의된 대표 색상 정보들에 대한 색상 임베딩 값들에 기반하여, 상기 기 정의된 대표 색상 정보들 중 상기 오브젝트의 실제 색상 정보에 대응하는 색상 임베딩 값과 상기 학습에 의해 예측된 상기 오브젝트의 예측 색상 정보에 대응하는 색상 임베딩 값 간의 차이와 관련된 제1 손실 값을 산출하고, 상기 산출된 제1 손실 값에 지정된 가중치 값을 적용하여 상기 색상 정보와 관련된 손실 가중치를 산출하는 MAE(mean absolute error) 손실 함수를 적용하고,
상기 BCE 손실 함수를 적용하여 산출된 상기 색상 정보와 관련된 제2 손실 값 및 상기 MAE 손실 함수를 적용하여 산출된 상기 색상 정보와 관련된 손실 가중치에 기반하여, 상기 색상 정보와 관련된 최종 손실 함수를 생성하고, 및
역전파(back-propagation)를 통해 상기 생성된 최종 손실 함수를 상기 멀티태스크 모델에 적용하는 전자 장치.In electronic devices,
Memory; and
Includes a processor,
The processor,
Perform learning of at least one task related to color information among a plurality of tasks representing a plurality of attribute information related to an object using a multi-task model,
Applying a binary cross entropy (BCE) loss function to at least one task related to the color information for which the learning was performed,
Based on the color embedding values for the predefined representative color information, a color embedding value corresponding to the actual color information of the object among the predefined representative color information and predicted color information of the object predicted by the learning. A mean absolute error (MAE) loss function that calculates a first loss value related to the difference between the corresponding color embedding values, and calculates a loss weight related to the color information by applying a specified weight value to the calculated first loss value. Apply ,
Generating a final loss function related to the color information based on a second loss value related to the color information calculated by applying the BCE loss function and a loss weight related to the color information calculated by applying the MAE loss function; , and
An electronic device that applies the generated final loss function to the multi-task model through back-propagation.
상기 지정된 가중치 값은, 1.0인 전자 장치.According to claim 1,
The electronic device where the specified weight value is 1.0.
상기 프로세서는,
상기 복수의 태스크들 중 상기 색상 정보와 관련된 태스크를 제외한 적어도 하나의 다른 태스크에 상기 BCE 손실 함수를 이용하여 학습하고, 및
상기 생성된 최종 손실 함수와 상기 BCE 손실 함수를 이용하여 학습된 적어도 하나의 다른 태스크에 기반하여, 상기 복수의 태스크들에 대한 제3 손실 함수를 생성하는 전자 장치.According to claim 1,
The processor,
Learning at least one task other than the task related to color information among the plurality of tasks using the BCE loss function, and
An electronic device that generates a third loss function for the plurality of tasks based on the generated final loss function and at least one other task learned using the BCE loss function.
상기 프로세서는,
상기 오브젝트와 관련된 복수의 속성 정보들을 나타내는 복수의 태스크들을 특성에 기반하여 분류하고,
상기 복수의 태스크들 각각은, 적어도 하나의 출력 노드를 포함하고, 및
상기 특성은, 상기 복수의 태스크들 각각에 포함된 출력 노드의 개수를 포함하는 전자 장치.According to claim 5,
The processor,
Classifying a plurality of tasks representing a plurality of attribute information related to the object based on characteristics,
Each of the plurality of tasks includes at least one output node, and
The characteristic includes the number of output nodes included in each of the plurality of tasks.
상기 프로세서는,
상기 역전파(back-propagation)를 통해 상기 생성된 제3 손실 함수를 상기 멀티태스크 모델에 적용하여, 상기 복수의 태스크들을 학습하는 전자 장치.According to claim 5,
The processor,
An electronic device that learns the plurality of tasks by applying the third loss function generated through the back-propagation to the multi-task model.
카메라를 더 포함하고,
상기 프로세서는,
상기 카메라를 통해 획득된 이미지 프레임들로부터 적어도 하나의 오브젝트를 검출하고, 및
상기 멀티태스크 모델을 이용하여, 상기 검출된 적어도 하나의 오브젝트 각각과 관련된 적어도 하나의 속성 정보를 획득하는 전자 장치.According to clause 9,
Contains more cameras,
The processor,
detecting at least one object from image frames obtained through the camera, and
An electronic device that obtains at least one attribute information related to each of the at least one detected object using the multi-task model.
멀티태스크 모델을 이용하여 오브젝트와 관련된 복수의 속성 정보들을 나타내는 복수의 태스크들 중 색상 정보와 관련된 태스크의 학습을 수행하는 동작;
상기 학습이 수행된 색상 정보와 관련된 태스크에 BCE(binary cross entropy) 손실 함수를 적용하는 동작;
기 정의된 대표 색상 정보들에 대한 색상 임베딩 값들에 기반하여, 상기 기 정의된 대표 색상 정보들 중 상기 오브젝트의 실제 색상 정보에 대응하는 색상 임베딩 값과 상기 학습에 의해 예측된 상기 오브젝트의 예측 색상 정보에 대응하는 색상 임베딩 값 간의 차이와 관련된 제1 손실 값을 산출하고, 상기 산출된 제1 손실 값에 지정된 가중치 값을 적용하여 상기 색상 정보와 관련된 손실 가중치를 산출하는 MAE(mean absolute error) 손실 함수를 적용하는 동작;
상기 BCE 손실 함수를 적용하여 산출된 상기 색상 정보와 관련된 제2 손실 값 및 상기 MAE 손실 함수를 적용하여 산출된 상기 색상 정보와 관련된 손실 가중치에 기반하여, 상기 색상 정보와 관련된 최종 손실 함수 값을 생성하는 동작; 및
역전파(back-propagation)를 통해 상기 생성된 최종 손실 함수를 상기 멀티태스크 모델에 적용하는 동작을 포함하는 방법.In a method of obtaining attribute information related to an object of an electronic device,
An operation of performing learning of a task related to color information among a plurality of tasks representing a plurality of attribute information related to an object using a multi-task model;
An operation of applying a binary cross entropy (BCE) loss function to a task related to the learned color information;
Based on color embedding values for predefined representative color information, a color embedding value corresponding to actual color information of the object among the predefined representative color information and predicted color information of the object predicted by the learning. A mean absolute error (MAE) loss function that calculates a first loss value related to the difference between the corresponding color embedding values, and calculates a loss weight related to the color information by applying a specified weight value to the calculated first loss value. The action of applying;
Based on the second loss value related to the color information calculated by applying the BCE loss function and the loss weight related to the color information calculated by applying the MAE loss function, a final loss function value related to the color information is generated. action; and
A method comprising applying the generated final loss function to the multi-task model through back-propagation.
상기 지정된 가중치 값은, 1.0인 방법.According to claim 11,
The method where the specified weight value is 1.0.
상기 복수의 태스크들 중 상기 색상 정보와 관련된 태스크를 제외한 적어도 하나의 다른 태스크에 상기 BCE 손실 함수를 이용하여 학습하는 동작; 및
상기 생성된 최종 손실 함수와 상기 BCE 손실 함수를 이용하여 학습된 적어도 하나의 다른 태스크에 기반하여, 상기 복수의 태스크들에 대한 제3 손실 함수를 생성하는 동작을 더 포함하는 방법.According to claim 11,
Learning at least one task other than the task related to color information among the plurality of tasks using the BCE loss function; and
The method further includes generating a third loss function for the plurality of tasks based on the generated final loss function and at least one other task learned using the BCE loss function.
상기 오브젝트와 관련된 복수의 속성 정보들을 나타내는 복수의 태스크들을 특성에 기반하여 분류하는 동작을 더 포함하고,
상기 복수의 태스크들 각각은, 적어도 하나의 출력 노드를 포함하고, 및
상기 특성은, 상기 복수의 태스크들 각각에 포함된 출력 노드의 개수를 포함하는 방법.According to claim 15,
Further comprising classifying a plurality of tasks representing a plurality of attribute information related to the object based on characteristics,
Each of the plurality of tasks includes at least one output node, and
The characteristic includes the number of output nodes included in each of the plurality of tasks.
상기 역전파(back-propagation)를 통해 상기 생성된 제3 손실 함수를 상기 멀티태스크 모델에 적용하여, 상기 복수의 태스크들을 학습하는 방법을 더 포함하는 방법.According to claim 15,
The method further includes a method of learning the plurality of tasks by applying the generated third loss function to the multi-task model through the back-propagation.
카메라를 통해 획득된 이미지 프레임들로부터 적어도 하나의 오브젝트를 검출하는 동작; 및
상기 멀티태스크 모델을 이용하여, 상기 검출된 적어도 하나의 오브젝트 각각과 관련된 적어도 하나의 속성 정보를 획득하는 동작을 더 포함하는 방법.According to claim 19,
An operation of detecting at least one object from image frames obtained through a camera; and
The method further includes obtaining at least one attribute information related to each of the at least one detected object using the multi-task model.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020230087498A KR102633937B1 (en) | 2023-07-06 | 2023-07-06 | Electronic device and method for obtain attribute information related to object using the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020230087498A KR102633937B1 (en) | 2023-07-06 | 2023-07-06 | Electronic device and method for obtain attribute information related to object using the same |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102633937B1 true KR102633937B1 (en) | 2024-02-07 |
Family
ID=89872988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020230087498A KR102633937B1 (en) | 2023-07-06 | 2023-07-06 | Electronic device and method for obtain attribute information related to object using the same |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102633937B1 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220058189A (en) * | 2020-10-30 | 2022-05-09 | 삼성전자주식회사 | Method and apparatus for classifying using neural network |
KR20220151098A (en) * | 2021-05-05 | 2022-11-14 | 모셔널 에이디 엘엘씨 | End-to-end system training using fused images |
KR20230068989A (en) * | 2021-11-11 | 2023-05-18 | 삼성전자주식회사 | Method and electronic device for performing learning of multi-task model |
KR20230070224A (en) | 2020-09-23 | 2023-05-22 | 유브이아이 엘티디. | vehicle image analysis |
-
2023
- 2023-07-06 KR KR1020230087498A patent/KR102633937B1/en active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230070224A (en) | 2020-09-23 | 2023-05-22 | 유브이아이 엘티디. | vehicle image analysis |
KR20220058189A (en) * | 2020-10-30 | 2022-05-09 | 삼성전자주식회사 | Method and apparatus for classifying using neural network |
KR20220151098A (en) * | 2021-05-05 | 2022-11-14 | 모셔널 에이디 엘엘씨 | End-to-end system training using fused images |
KR20230068989A (en) * | 2021-11-11 | 2023-05-18 | 삼성전자주식회사 | Method and electronic device for performing learning of multi-task model |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109584248B (en) | Infrared target instance segmentation method based on feature fusion and dense connection network | |
US10691952B2 (en) | Adapting to appearance variations when tracking a target object in video sequence | |
EP3289529B1 (en) | Reducing image resolution in deep convolutional networks | |
CN107533669B (en) | Filter specificity as a training criterion for neural networks | |
US10510146B2 (en) | Neural network for image processing | |
US10083378B2 (en) | Automatic detection of objects in video images | |
CN113468978B (en) | Fine granularity car body color classification method, device and equipment based on deep learning | |
KR20190069457A (en) | IMAGE BASED VEHICLES LOSS EVALUATION METHOD, DEVICE AND SYSTEM, | |
CN113158738B (en) | Port environment target detection method, system, terminal and readable storage medium based on attention mechanism | |
Ali et al. | Improved YOLOv4 for aerial object detection | |
CN111368972A (en) | Convolution layer quantization method and device thereof | |
CN111105030A (en) | Activation zero bypass and weight pruning in neural networks for vehicle perception systems | |
US20220301099A1 (en) | Systems and methods for generating object detection labels using foveated image magnification for autonomous driving | |
CN113469933A (en) | Generative antagonistic network model for small road object detection | |
CN116721378A (en) | Anti-collision method based on image recognition | |
Huang et al. | Small target detection model in aerial images based on TCA-YOLOv5m | |
KR102633937B1 (en) | Electronic device and method for obtain attribute information related to object using the same | |
CA3131758A1 (en) | Image processing system | |
CN112714916A (en) | Machine learning system, method of creating machine learning system, computer program, and apparatus | |
CN114118129A (en) | Method for detecting urban lighting facilities | |
CN113728355A (en) | Image processing method and device | |
US11514530B2 (en) | Image processing system using convolutional neural networks | |
Gankhuyag et al. | A Lightweight Traffic Police Action Recognition Deep Learning Network for Edge Device | |
Shipu et al. | TrafficNN: CNN-based road traffic conditions classification | |
Oztel | Vision-based road segmentation for intelligent vehicles using deep convolutional neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |