KR102513089B1 - 소프트 라벨링을 이용한 딥 러닝 훈련 방법 및 장치 - Google Patents

소프트 라벨링을 이용한 딥 러닝 훈련 방법 및 장치 Download PDF

Info

Publication number
KR102513089B1
KR102513089B1 KR1020170073081A KR20170073081A KR102513089B1 KR 102513089 B1 KR102513089 B1 KR 102513089B1 KR 1020170073081 A KR1020170073081 A KR 1020170073081A KR 20170073081 A KR20170073081 A KR 20170073081A KR 102513089 B1 KR102513089 B1 KR 102513089B1
Authority
KR
South Korea
Prior art keywords
bounding box
class
label
detection
soft
Prior art date
Application number
KR1020170073081A
Other languages
English (en)
Other versions
KR20180073424A (ko
Inventor
모스타파 엘-카미
샨쯔 두
이정원
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of KR20180073424A publication Critical patent/KR20180073424A/ko
Application granted granted Critical
Publication of KR102513089B1 publication Critical patent/KR102513089B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/16Hidden Markov models [HMM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

본 발명에는, 영역 기반 딥 러닝 모델을 이용한 객체 탐지 장치 및 방법, 그리고 이를 이용한 칩셋 제조 방법 및 장치 검사 방법이 제공된다.
상기 영역 기반 딥 러닝 모델을 이용한 객체 탐지 방법은, RPN(region proposal network)을 이용하여, 신뢰 수준(confidence level)들을 할당(assign)함으로써 RoI(region of interest)들을 식별하고, 상기 RoI들의 상기 할당된 신뢰 수준들을 이용하여, 각 RoI에 대해, 다운스트림 분류기(downstream classifier)에 의해 할당된 배경 점수(background score)를 증가(boost)시키고, 소프트맥스 함수(softmax function)에서 상기 점수들을 이용하여, 각 객체 클래스(object class)에 대한 최종 클래스 확률(class probability)들을 계산하는 것을 포함한다.

Description

소프트 라벨링을 이용한 딥 러닝 훈련 방법 및 장치{A METHOD AND AN APPARATUS FOR DEEP LEARNING NETWORKS TRAINING USING SOFT-LABELLING}
본 발명은 일반적으로 딥 뉴럴 네트워크에 관련되고, 조금 더 구체적으로 딥 러닝 분류 네트워크를 훈련하는 시스템 및 방법에 관한 것이다.
머신 러닝 기술(machine learning technology)은 지속적으로 발전하고 있으며, 웹 검색(web searchs), 콘텐츠 필터링(content filtering), 상품 구매 웹사이트의 자동 추천(automated recommendations), 자동화 된 게임(automated game playing), 객체 탐지(object detection), 이미지 분류(image classification), 스피치 인식(speech recognition), 기계 번역(machine translations), 약물 검색(drub discovery), 및 유전학(genomics)에서 현대 사회의 많은 측면을 지원하게 되었다. 머신 러닝 분야의 최신 기술은 딥 뉴럴 네트웍스(deep neural networks) 라 할 수 있다. 이 딥 뉴럴 네트웍스는 다양한 수준의 추출을 통해 데이터의 표현을 배우는 다중 처리 레이어(multiple processing layer)로 구성된 컴퓨팅 모델을 이용한다. 따라서, “딥 러닝(deep learning)”, “딥 네트웍스(deep networks)” 등의 용어는 [LeCun, Yann, Yoshua Bengio, and Geoffrey Hinton. “Deep learning.” Nature, vol. 521, pp. 436-444 (28 May 2015)]를 참조한다.
객체 탐지 및 분류에 대한 머신 러닝의 첫번째 단계는 훈련(training)이다. 예를 들어, 사람, 애완 동물, 차, 및 집의 이미지에 대한 많은 데이터 세트들을 이용하여 이미지에 관한 훈련이 수행된다. 여기에서, 각각의 이미지 또는 각각의 이미지내의 일부분은 이와 대응하는 카테고리 또는 클래스로 라벨링(labelling)된다. 공개적으로 이용가능한 많은 수의 데이터 세트들이 존재한다. 이미지와 관련된 이러한 훈련은 두개의 파트(part) 또는 단계(stage)로 분리될 수 있다: (1) 탐지, 여기에서 후보/탐지된 박스(candidate/detected box)는 이미지내에서 탐지된다. 후보/탐지된 박스는 보통 객체/클래스의 신뢰 레벨(confidence level)에 기초하지만, 단지 임의의 그룹일 수도 있다. (2) 분류, 여기에서 라벨은 "실측(ground-truth)" 박스와 탐지 박스의 중첩에 기초한 탐지 박스로 할당된다. 여기에서, "실측" 박스는 이미 객체/클래스를 포함하고 있는 것으로 알려진 데이터 세트의 이미지 박스를 의미한다.
본 발명이 해결하고자 하는 기술적 과제는 소프트 라벨링을 이용한 딥 러닝 훈련 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 다른 기술적 과제는, 소프트 라벨링을 이용한 딥 러닝 훈련 장치를 제공하는 것이다.
본 발명이 해결하고자 하는 기술적 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 해당 기술분야의 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기 기술적 과제를 해결하기 위한 본 발명의 몇몇 실시예들에 따르면, 분류(classification)를 위해 후보 유닛(candidate unit)을 수신하고, 소프트 라벨링(soft labelling)에 의해 상기 후보 유닛을 분류하는 것을 포함하되, 상기 소프트 라벨링은 0 내지 1의 범위에서 복수의 가능한 값들을 포함하는 적어도 하나의 라벨(label)을 제공하는 딥 러닝 훈련(deep learning training) 방법이 제공된다.
상기 기술적 과제를 해결하기 위한 본 발명의 몇몇 실시예들에 따르면, 하나 이상의 비일시적 컴퓨터 판독가능한 매체(non-transitory computer-readable media), 및 적어도 하나의 프로세서(processor)를 포함하되, 상기 적어도 하나의 프로세서는 상기 하나 이상의 비일시적 컴퓨터 판독가능한 매체에 저장된 명령(instruction)을 실행할 때, 분류(classification)를 위해 후보 유닛(candidate unit)을 수신하고, 소프트 라벨링(soft labelling)에 의해 상기 후보 유닛을 분류하되, 상기 소프트 라벨링은 0 내지 1의 범위에서 복수의 가능한 값들을 포함하는 적어도 하나의 라벨(label)을 제공하는 딥 러닝 훈련(deep learning training) 장치가 제공된다.
상기 기술적 과제를 해결하기 위한 본 발명의 몇몇 실시예들에 따르면, 딥 러닝 훈련이 가능한 칩셋을 제조하는 것은, 적어도 하나의 프로세서(processor)를 제공하고, 명령(instruction)을 저장하는 하나 이상의 비일시적 컴퓨터 판독가능한 매체를 제공하는 것을 포함하되, 상기 적어도 하나의 프로세서는 상기 하나 이상의 비일시적 컴퓨터 판독가능한 매체에 상기 저장된 명령을 실행할 때, 분류(classification)를 위해 후보 유닛(candidate unit)를 수신하고, 소프트 라벨링(soft labelling)에 의해 상기 후보 유닛을 분류하되, 상기 소프트 라벨링은 0 내지 1의 범위에서 복수의 가능한 값들을 포함하는 적어도 하나의 라벨(label)을 제공하는 것을 포함하는 딥 러닝 훈련 가능한 칩셋 제조 방법이 제공된다.
상기 기술적 과제를 해결하기 위한 본 발명의 몇몇 실시예들에 따르면, 장치가 적어도 하나의 프로세서를 가지는지 테스트하고, 상기 장치가 명령(instruction)을 저장하는 하나 이상의 비일시적 컴퓨터 판독가능한 매체를 가지는지 테스트하는 것을 포함하되, 상기 적어도 하나의 프로세서는 상기 하나 이상의 비일시적 컴퓨터 판독가능한 매체에 저장된 명령(instruction)을 실행할 때, 분류(classification)를 위해 후보 유닛(candidate unit)을 수신하고, 소프트 라벨링(soft labelling)에 의해 상기 후보 유닛을 분류하되, 상기 소프트 라벨링은 0 내지 1의 범위에서 복수의 가능한 값들을 포함하는 적어도 하나의 라벨(label)을 제공하는 딥 러닝 훈련 장치 테스트 방법이 제공된다.
도 1은, 본 발명의 몇몇 실시예들에 따른 분류 단계(classification stage)에서, 클래스/객체A 에 대한 탐지 박스와 실측 박스의 예시를 설명하는 도면이다.
도 2는, 본 발명의 몇몇 실시예들에 따른 탐지 박스와 실측 박스를 이용한 소프트 라벨링 할당(soft labelling assignment)의 예시를 설명하는 도면이다.
도 3은, 본 발명의 몇몇 실시예들에 따른 다양한 클래스가 있는 경우(즉, 다양한 실측 박스가 있는 경우)의 소프트 라벨링 할당 방식의 예시를 설명하는 도면이다.
도 4는 본 발명의 몇몇 실시예들에 따른 일반적인 딥 러닝 훈련 방법을 설명하는 순서도이다.
도 5는 본 발명의 몇몇 실시예들에 따른 딥 러닝 훈련 장치를 설명하는 예시적인 도면이다.
도 6은 본 발명의 몇몇 실시예들에 따른 장치를 제조하고 테스트하는것에 관한 예시적인 순서도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 도면에서 표시된 구성요소의 크기 및 상대적인 크기는 설명의 명료성을 위해 과장된 것일 수 있다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭하며, "및/또는"은 언급된 아이템들의 각각 및 하나 이상의 모든 조합을 포함한다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.
비록 제1, 제2 등이 다양한 소자나 구성요소들을 서술하기 위해서 사용되나, 이들 소자나 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 소자나 구성요소를 다른 소자나 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 소자나 구성요소는 본 발명의 기술적 사상 내에서 제2 소자나 구성요소 일 수도 있음은 물론이다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
본 명세서에서, 저자 및 일자에 의해 다양한 문헌이 참조된다. 이들 문헌의 내용은 그 전체로서 본명세서에 참고문헌으로 인용되어 있다.
본 명세서에서 사용된 용어 "박스(box or boxes)" 는 용어 "경계 박스(bounding box or bounding boxes)"와 혼용될 수 있다.
본 명세서는 디지털 이미지를 획득하고(acquiring), 처리하고(processing), 분석하고(analyzing), 이해하는 것(understanting)을 적용하는 방법을 고려한다. 예를 들어, 이미지 또는 이미지의 일부분에 속해 있는 객체의 객체 탐지(object detection), 객체 인식(object recognition), 및 객체 분류(object classification)가 사용될 수 있다.
본 발명의 몇몇 실시예들은 훈련 과정 동안 더 큰 효율 및 정확성을 갖는 "소프트 라벨링(soft labelling)"을 제공한다. 소프트 라벨링에 관한 내용은 아래에서 조금 더 구체적으로 설명하도록 한다.
일반적으로, 이미지에 관한 라벨링(labelling)은, 하나 이상의 클래스/객체/카테고리를 이러한 클래스/객체/카테고리에 대한 하나 이상의 실측 경계 박스(ground-truth bounding box)와의 중첩에 기초하여, 탐지 후보 경계 박스로 할당하기 위해 사용될 수 있다.
도 1은, 분류 단계(classification stage)에서, 클래스/객체A 에 대한 탐지 박스(detection box, 110)와 실측 박스(ground-truth box, 120)의 예시를 설명하는 도면이다. 탐지 박스(110)는 영역 A BBd 을 포함할 수 있고, 실측 박스(120)는 영역 A BBg 을 포함할 수 있다. 통상적으로 분류 단계에서, 수학식 1에 따라, 클래스/객체 A에 대한 탐지 박스(110)의 라벨(label)이 결정될 수 있다.
[수학식 1]
Figure 112017055536837-pat00001
여기에서, A BBd A BBg 는 도 1에 격자 무늬로 표시된 영역으로 도시된 바와 같이, 탐지 박스(110)와 실측 박스(120)의 중첩 영역(area of overlap, 115)일 수 있다. 또한, A BBd A BBg 는 탐지 박스(110) 영역과 실측 박스(120) 영역의 합 영역(union of area)일 수 있다. 달리 말해서, A BBd A BBg 는 탐지 박스(110)와 실측 박스(120)의 모든 합계에 격자 무늬로 표시된 영역(115)을 뺀 것과 같을 수 있다.
수학식 1에 따르면, 클래스/객체 A에 대한 탐지 박스(110)의 라벨은 단순한 이진 값(binary value)일 수 있다. 여기에서, 탐지 박스(110)와 실측 박스(120)가 절반 초과로 중첩되면 라벨은 1일 수 있다. 또한, 탐지 박스(110)와 실측 박스(120)가 절반 이하로 중첩되면 라벨은 0일 수 있다. 예를 들어, 도 1에서, 클래스/객체 A에 대한 탐지 박스(110)의 라벨은 중첩되는 영역이 절반 이하이기 때문에 0일 수 있다.
이러한 라벨은 머신(machine)의 오류를 판별하고 정정하는 것의 일부로서 사용될 수 있다. 일반적으로, 훈련하는 동안, 머신은 머신의 조정가능한 내부 파라미터(parameter)를 수정함으로써, 목적 함수(objective function)로부터 계산되는 오류를 감소시킬 수 있다. 이 경우, 알고 있는 실측 박스에 관하여 탐지 박스 라벨을 생성함으로써, 목적 함수는 오류(또는 거리)를 측정하는 수단이 될 수 있다. 종종 가중치(weights)라 불리는 머신의 조정가능한 내부 파라미터가 머신의 입력-출력 함수를 정의할 수 있다. 전형적인 딥 러닝 시스템(deep learning system)에서는, 이러한 조정가능한 가중치/파라미터들이 수 억 개 존재할 수 있고, 머신을 훈련하는 수 억 개의 라벨링된 예시들이 존재할 수 있다.
따라서, 훈련 과정 동안 라벨링하는 것은 딥 러닝 머신/네트웍스의 효율(efficiency)과 정확도(accuracy)에 영향을 끼칠 수 있다.
위에서 설명하였듯이, 각각의 클래스/객체/카테고리에 대한 각각의 탐지 후보 경계 박스에 대한 통상적인 라벨링은 1이나 0중 하나일 수 있다. 그러나 하드 라벨링(hard labelling)은, 훈련 중 머신의 조정가능한 내부 파라미터를 결정하는 것과 관련하여, 정밀도(precision)의 손실이 있을 수 있다.
본 명세서에서, "하드 라벨링"은 이산적인(discrete) 이진 라벨링(binary labelling), 즉, 1이나 0으로 라벨링 하는 것을 의미한다.
훈련하는 동안, 라벨 t 및 관측된 특성(observed feature) z 가 주어졌을 때의 파라미터 θ 의 우도(likelihood)를 최대화하는 것은 오류 ε 를 최소화하는 것과 동일할 수 있다. 즉, 음의 로그-우도 함수(negative log-likelihood)를 최소화하는 것은 수학식 2에 보여지는 바와 같을 수 있다.
[수학식 2]
Figure 112017055536837-pat00002
여기에서, C 는 클래스들의 전체 개수이고, t i 는 클래스 i 의 라벨이고, y i 는 관측된 특성(observed feature) z 가 주어졌을 때의 클래스 i 의 소프트맥스 확률(softmax probability)일 수 있다. 여기에서 i = 1, 2, … , C 이다. 예를 들어, 관측된 특성 z 가 주어졌을때의 클래스 c 의 소프트맥스 확률 y c (즉, P( t = c | z ))는 수학식 3을 이용하여 계산될 수 있다.
[수학식 3]
Figure 112017055536837-pat00003
그러나, 하드 라벨링으로 훈련하는 경우, 클래스 c 가 입력 특성 z 에 관한 실측 라벨링에 따른 참 클래스(true class)이면, t c 는 오직 1이고, 아닌 경우 0이다. 예를 들어, 상기 수학식 1을 살펴본다. 이는 참 클래스(true class) c 에 대해서, 단지 소프트맥스 함수만이 수학식 2의 합에 기여하는 것을 의미할 수 있다.
본 발명의 몇몇 실시예들에 따르면, 라벨은 이진(binary)이 아닌, 0 에서 1 사이 임의의 값을 가질 수 있다. 달리 말하면 t c 는 [0,1] 사이의 부동소수값(float value)이 될 수 있다. 본 명세서에서 이를 "소프트 라벨링(soft labelling)"으로 지칭하도록 한다. 이러한 방법으로 수학식 2에서의 손실은 (크고 작은) 모든 클래스들로부터 모든 소프트맥스 확률의 가중치가 부여된 합으로서 계산될 수 있다. 본 발명의 몇몇 실시예들에 따라, 몇가지 구체적인 할당 기술에 대해 설명할 것이나, 본 발명의 기술분야에서 통상의 지식을 가진 자는 이해할 수 있듯이, 소프트 라벨링에서 0과 1 사이의 부동소수값을 할당하기 위한 가능한 옵션(option)들은 사실상 제한이 없다.
소프트 라벨링을 이용한 할당 방식의 몇몇 예시를 논의하기 전에, 소프트 라벨링이 여전히 적절한 역-전파(back-propagation)를 수행하는 것을 허용하는지 확인해야 한다. 수학식 2의 로그-우도 함수(log-likelihood function)
Figure 112017055536837-pat00004
또한 크로스 엔트로피 오류 함수(cross entropy error function)
Figure 112017055536837-pat00005
일수 있다. 클래스 i 에 대해 역-전파를 수행할 때, 소프트맥스(softmax)가 관측된 입력 z i 에 관한 크로스 엔트로피 비용 함수(cross entropy cost function)의 도함수
Figure 112017055536837-pat00006
는 수학식 4와 같이 계산될 수 있다.
[수학식 4]
Figure 112017055536837-pat00007
그러므로, 본 발명의 기술분야의 통상의 지식을 가진자는 이해할 수 있는 바와 같이,
Figure 112017055536837-pat00008
이면 수학식 4를 만족할 수 있다. 즉, 동일한 입력 특성에 대한 모든 클래스에 걸친 라벨의 합이 1이면, 하드 라벨링과 소프트 라벨링 둘 다 참이 될 수 있다. 달리 말해서, 라벨의 합이 1이기 때문에, 수학식 4는 소프트 라벨링에 대해 여전히 만족한다.
도 2는 본 발명의 몇몇 실시예들에 따른, 탐지 박스(210)와 실측 박스(220)를 이용한 소프트 라벨링 할당의 예시를 설명하는 도면이다.
도 2에서, 탐지 박스(210)는 영역 A BBd 을 포함할 수 있고, 실측 박스(220)는 영역 A BBg 을 포함할 수 있다. 영역 A BBd A BBg 는 격자 무늬로 표시된 영역 (215)에서 교차할 수 있다. 도 2에서는, "A"와 "배경(background)" 두 개의 클래스가 존재할 수 있다. 그러므로, 탐지 박스(210)는 두 개의 라벨이 필요할 수 있다. "A"에 대한 라벨과 "배경"에 대한 라벨을 각각 L a L bg 라고 한다. 클래스/객체 A에 대한 탐지 박스(210)의 라벨과 클래스/객체 배경에 대한 탐지 박스(210)의 라벨은 수학식 5a 및 수학식 5b를 따라 결정될 수 있다.
[수학식 5a]
Figure 112017055536837-pat00009
[수학식 5b]
L bg = 1 - L A =
Figure 112017055536837-pat00010
여기에서, A BBd A BBg 는 도 2에 격자 무늬로 표시된 영역(215)에서 볼 수 있듯이, 탐지 박스(210)와 실측 박스(220)의 교차/중첩 영역일 수 있다. 그러므로, 수학식 5a에서 라벨 L A 는 탐지 박스(210)의 영역에 의해 정규화된(normalized) 두 개의 박스의 교차 영역(215)과 같을 수 있다. 반면, 라벨 L bg 는 정규화된 나머지 부분, 즉, 1에서 클래스 A에 대한 소프트 라벨 L A 를 뺀 것과 같을 수 있다. 소프트 라벨링 방법은 L A + L bg = 1 이라는 제약이 존재한다.
본 발명의 몇몇 실시예들에 따른 다른 소프트 라벨링 할당에서, 문턱 값(threshold value)은 0, 1, 및 탐지 박스의 교차 영역 대 탐지 박스의 전체 영역의 비율에 의해 결정되는 가변 값(variable value)을 선택하는데 이용될 수 있다. 조금 더 구체적으로, 도 2의 박스를 예로 들면, 클래스/객체 A에 대한 탐지 박스(210)의 라벨과 클래스/객체 배경에 대한 탐지 박스(210)의 라벨은 수학식 6a와 수학식 6b에 따라 결정될 수 있다.
[수학식 6a]
Figure 112017055536837-pat00011
[수학식 6b]
L bg = 1 - L A
여기에서, 교차 영역이 문턱 b 보다 크면, L A = 1 일 수 있고, 교차 영역이 문턱 a 보다 작으면 L A = 0 일 수 있다. 이 외의 경우에는, L A 는 교차 영역의 정규화된 값일 수 있다. 교차 영역의 정규화된 값은 교차 영역에서 탐지 박스의 전체 영역을 나눈 값일 수 있다. 이러한 소프트 라벨링 방식은 0과 1을 영역의 범위로 할당하기 때문에, 이는 소프트 라벨링과 하드 라벨링의 조합, 즉 "하이브리드" 라벨링 방식이라 할 수 있다. 그러나, 0과 1이 다른 라벨에도 할당될 수 있을지라도, [0,1]의 값의 범위를 사용하는 임의의 라벨 할당 방식은 소프트 라벨링일 수 있다.
도 3은, 본 발명의 몇몇 실시예들에 따른 다중 클래스(multiple classes)가 있는 경우(즉, 다양한 실측 박스가 있는 경우)의 소프트 라벨링 할당 방식의 예시를 설명하는 도면이다.
달리 말해서, 도 2에서는 단지 클래스 A와 디폴트(default) 클래스인 배경이 있는 경우를 고려하였으나, 도 3에서는 디폴트 클래스인 배경뿐만 아니라 클래스 A와 클래스 B가 있는 경우를 고려할 수 있다.
도 3에서, 탐지 박스(310)는 영역 A BBd 를 포함할 수 있고, 클래스 A에 대한 실측 박스(320)는 영역 A BBg _A 를 포함할 수 있고, 클래스 B에 대한 실측 박스(330)는 영역 A BBg _B 를 포함할 수 있다. 세 개의 박스가 교차하는 영역은 격자 무늬의 영역(345)으로 나타내었다.
또한, 단지 탐지 박스(310)와 클래스 A에 대한 실측 박스(320)가 교차하는 영역은 Γ 모양을 좌우 반전시킨 모양으로 표현되어 있고, 가로선이 그어진 영역(325)이다. 또한, 단지 탐지 박스(310)와 클래스 B에 대한 실측 박스(330)가 교차하는 영역은 L 모양으로 표현되어 있고, 세로선이 그어진 영역(335)이다.
그러므로, 탐지 박스(310)와 클래스 A에 대한 실측 박스(320)가 중첩되는 전체 영역은, 격자 무늬로 표시된 영역(345)과 가로선이 그어진 영역(325) 둘 다 포함된다(= A BBd A BBg _A ). 또한, 탐지 박스(310)와 클래스 B에 대한 실측 박스(330)가 중첩되는 전체 영역은, 격자 무늬로 표시된 영역(345)과 세로선이 그어진 영역(335) 둘 다 포함된다(= A BBd A BBg _B ). 격자 무늬로 표시된 영역(345)은 세 개의 박스 모두 중첩되는 영역일 뿐만아니라, 두 개의 실측 박스가 중첩되는 영역이다. 그러므로, A BBd A BBg _A A BBg _ B = A BBg _A A BBg _ B 가 성립한다.
본 발명의 몇몇 실시예들에 따르면, 클래스/객체 A에 대한 탐지 박스(310)의 라벨( L A ), 클래스/객체 B에 대한 탐지 박스(310)의 라벨( L B ), 및 배경에 대한 탐지 박스(310)의 라벨( L bg )은 수학식 7a 내지 수학식 7c에 따라 결정될 수 있다.
[수학식 7a]
Figure 112017055536837-pat00012
[수학식 7b]
Figure 112017055536837-pat00013
[수학식 7c]
L bg = 1 - L A - L B
따라서, 정규화되기 전에(즉, 탐지 박스(310)의 전체 영역으로 나누기 전에), 클래스 A에 대한 실측 박스(320)와 클래스 B에 대한 실측 박스(330)의 중첩/교차 영역(= A BBg _A A BBg _B )의 절반이 수학식 7a의 탐지 박스(310)와 클래스 A에 대한 실측 박스(320)의 교차/중첩 영역( A BBd A BBg _A )에서 감산된다.
또한, 정규화되기 전에(즉, 탐지 박스(310)의 전체 영역으로 나누기 전에), 클래스 A에 대한 실측 박스(320)와 클래스 B에 대한 실측 박스(330)의 중첩/교차 영역(= A BBg_A A BBg _B )의 절반이 수학식 7b의 탐지 박스(310)와 클래스 B에 대한 실측 박스(330)의 교차/중첩 영역( A BBd A BBg _B )에서 감산된다.
달리 말해서, 라벨을 할당할 때, 실측 박스들의 중첩 영역은 분할되어 할당된다고 볼 수 있다.
본 발명의 몇몇 실시예들에 따르면, (이전의 탐지 단계로부터) 중첩 영역은 가장 높은 신뢰 점수(confidence score)를 갖는 클래스로 할당될 수 있다. 예를 들어, 탐지 박스(310)가 클래스 A에 대해 더 높은 신뢰 점수를 가지고 있다면, 클래스/객체 A에 대한 탐지 박스(310)의 라벨( L A ), 클래스/객체 B에 대한 탐지 박스(310)의 라벨( L B ), 및 배경에 대한 탐지 박스(310)의 라벨( L bg )은 수학식 8a 내지 수학식 8c에 따라 결정될 수 있다.
[수학식 8a]
Figure 112017055536837-pat00014
[수학식 8b]
Figure 112017055536837-pat00015
[수학식 8c]
Figure 112017055536837-pat00016
도 3, 수학식 7a 내지 수학식 7c, 및 수학식 8a 내지 수학식 8c를 참조하여 앞서 설명된 두 가지 할당 방식 모두 임의의 개수의 클래스들로 일반화 될 수 있다.
본 발명의 몇몇 실시예들에 따르면, 객체 후보 생성기(object candidate generator)로 사용되는 싱글 샷 디텍터(single shot detector: SSD)와 같은 주요한 객체 탐지 프레임워크 및 객체 분류 프레임워크를 이용하여, 탐지 박스가 생성될 수 있다. 후보 탐지(candidate detection)는 이차 분류 네트워크(secondary classification network)에 의해 더 분류되어 관심 클래스(class of interest)에 속하게 될 수 있다. 프레임워크와 같은 좀더 상세한 내용에 관해서는 "Du et al., Fused DNN : A deep neural network fusion approach to fast and robust pedestrian detection, arXiv:1610.034466v1 (11 Oct. 2016)"를 참조할 수 있다. 이러한 프레임워크에서, 주요한 프레임워크로부터의 후보 객체 탐지는 실측 박스와 중첩되어 객체의 종류/타입으로 라벨링할 수 있다. 본 발명의 몇몇 실시예에 따르면, 이차 분류 네트워크는, 앞서 언급한 바와 같이, 각 클래스의 상대적인 중첩 영역들을 이용하는 소프트 라벨에 의해 훈련될 수 있다.
이와 대조적으로, 통상적인 하드 라벨은 두 박스의 교차 영역(교집합)이 두 박스의 합 영역(합집합)의 50%를 초과하는지 여부에 따라 생성될 수 있다(수학식 1). 그리고 이는 단지 하나의 클래스와 디폴트 배경 클래스에만 적용이 가능할 수 있다.
ETH와 INRIA 데이터 세트를 사용하여 딥 러닝 머신(죽, ResNet와 GoogleNet)이 이미지에서 보행자(pedestrian)를 탐지하도록 훈련한 실험/시뮬레이션에서, 앞서 언급한 수학식 6a 및 수학식 6b와 같은 문턱(threshold)/경계(boundary)를 사용한 소프트 라벨링 기술이 적용되었다. ETH와 INRIA 데이터 세트는 " Ess et al., A mobile vision system for robust multi-person tracking, in IEEE Conference on Computer Vision and Pattern Recognition (CVPR'08), IEEE Press, June 2008"에서 정의될 수 있다.
구체적으로, 중첩에 대한 하위 문턱(lower threshold)이 0.3이고, 중첩에 대한 상위 문턱(upper threshold)은 0.7일 수 있다. 정규화된 중첩 영역이 하위 문턱보다 작으면 0이 할당될 수 있고, 상위 문턱보다 크면 1이 할당될 수 있다. 가변 값들이 라벨로 할당될 수 있는 범위 0.3 내지 0.7 사이에서, 사용될 수 있는 특정 수학식, 예를 들어, 수학식 5a, 수학식 6a, 수학식 7a, 및 수학식 7b 등, 에 따라 특정 값을 가질수 있다. 또 다른 실험/시뮬레이션에서 문턱 값은 0.4와 0.6이 사용되었다.
후보 경계 박스(candidate bounding box)와 실측 경계 박스(ground-truth bounding box) 사이의 중첩 비율은 라벨을 할당하는데 사용될 수 있다. 소프트 라벨링 방법은 각 후보 경계 박스에 보행자(즉, 객체)가 있는지 여부를 보여줄 뿐만 아니라, (보행자를 포함하는) 각 후보 경계 박스에서 보행자가 얼마나 많은 영역을 차지하는지를 보여줄 수 있다. 이는 특히 중첩 비율이 대략 0.5이고, 하드 라벨링 방법이 경계선상에 있는 경우에 유용할 수 있다. 보행자 미탐지율 성능을 비교해보면, ETH 데이터 세트에서, 하드 라벨링 방법으로 달성가능한 보행자 미탐지율 33%에서, 하이브리드 소프트-하드 라벨링(hybrid soft-hard labelling) 방법의 보행자 미탐지율은 30.4%로 그 성능이 증가하였다.
본 발명의 몇몇 실시예들에 따른 소프트 라벨링은 영역 기반 콘볼루션 뉴럴 네트워크(region-based convolutional neural networks: R-CNN)와 같은 멀티-태스크 딥 러닝(multi-task deep learning)에 적용될 수 있다. "Ren et al., Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, arXiv:1506.01497v3 (06 Jan. 2016)"를 참조하도록 한다.
이러한 네트워크에서, 영역 제안 네트워크(region proposal networks: RPN)은 객체/객체 부존재 탐지 (object detection/no object detection)를 제공할 수 있다. 이러한 탐지는 관심 영역(region of interest: ROI) 분류 레이어에 의해 k 개의 클래스 중 하나로 더 분류될 수 있다. 본 발명의 몇몇 실시예들에 따른 소프트 라벨링을 적용할 때, 소프트 라벨은 RPN의 탐지 출력으로부터 생성될 수 있다. 다중 레벨(multiple level)의 문턱 값의 사용을 포함하는 어떠한 소프트 라벨링 할당 방식도 사용될 수 있다. 두 개의 티어(tier)에서 0과 1이 할당되었다면, 이를 소프트 라벨링과 하드 라벨링의 조합을 포함하는 "하이브리드"방식이라 부를 수 있을 것이다. 그러나 본 명세서에서 사용되는 용어의 의미에 따라 "소프트" 라벨링 방식이라 부르는 것이 더 적절할 수 있다. 멀티-태스크 딥 러닝에서 참 클래스(true class)에만 대응되는 탐지로부터 그래디언트(gradients)를 역-전파(back propagation)하는 하드 라벨링과 비교했을때, 소프트 라벨링이 더 뛰어난 정밀도와 정확도를 제공할 수 있다.
본 발명의 몇몇 실시예들에 따르면, 탐지(detection)와 분류(classification) 두 개의 단계가 가정될 수 있다. 탐지 단계는, 분류 단계에서 상대적인 중첩 비율이 소프트 라벨을 할당하는데 이용되는, 클래스/객체 탐지 박스와 클래스/객체 실측 박스를 생성할 수 있다. 그러므로, 분류 단계는 확률의 합이 1인 각 탐지 후보에 대한 각 클래스의 선험적 확률(priori probability)을 결정하기 위한 것으로 보여질 수 있다. 그러나, 일반적으로, 소프트 라벨링 기술은 조금 더 넓게 적용가능할 수 있고, 탐지 단계를 요구하지 않을 수 있다.
넓게 말해서, 본 발명의 몇몇 실시예들에 따른 소프트 라벨링은 입력 특성(input feature)에 기초한 분류에 대한 선험적 확률(priori probability)을 생성하는 메커니즘(mechanism)으로서 사용될 수 있다. 이러한 선험적 확률을 생성하여 구현되는 특정 방법은, 본 발명의 기술분야의 통상의 지식을 가진자가 이해할 수 있는 바와 같이, 다양하게 변형되어 실시될 수 있다.
비-탐지(non-detection) 프레임워크에서의 분류와 관련하여, 소프트 라벨은, 예를 들어, 구별되는 탐지 단계 없이 각 클래스에 대한 선험적 확률을 제공할 수 있는, 비-딥 러닝 빠른 분류 시스템(non-deep learning fast classification system)에서 사용하는 것과 같은 이차 분류 메커니즘(secondary classification mechanism)이나 다른 부수적인 정보(side information)를 이용하여 추출되고 할당될 수 있다. 부수적인 정보는 관측되는 객체가 직접적으로 제공하지 않는, 탐지 객체에 관한 임의의 정보일 수 있다.
예를 들어, 자동 스피치 처리(automatic speech processing)를 위한 음향 모델링(acoustic modelling)에 관한 음성 분류 시스템(phone classification system)은 본 발명의 몇몇 실시예들에 따른 소프트 라벨링을 이용할 수 있다. "음성(phone)"은 "음소(phoneme)"와 유사하지만, 추상적이지는 않다. "음성(phone)"은 그 소리가 단어의 의미에 크리티컬(critical)한지 여부와 관계 없이 구별되는 음성일 수 있다. 또한, "음성(phone)"은 관련 언어에 상관 없이 구별되는 음성일 수 있다. 반면, "음소(phoneme)"는 의미와 연관되고, 오직 특정 언어와 결함되어 사용될 수 있다. 간단히 말해서, "음성(phone)"은 인간의 목소리가 만든 "소리"의 단위일 수 있다.
그러므로, 음성(phone) 분류 시스템과 이미지 분류 시스템간의 한가지 중요한 차이는, 음향 레벨에서 음성(phone) 분류에 대한 실측(groud-truth)이 없는 것일 수 있다. 그러나, 대신에 단어 레벨이나 글자 레벨에서만 실측이 존재할 수 있다. 따라서, 다른 메카니즘이 사용되어, 훈련 세트에서 각 입력 특성 요소(input feature element)들의 각 클래스에 대한 소프트 라벨을 생성하는데 이용되는 예비 분류(preliminary classification)를 제공할 수 있다.
음향 모델 분류(acoustic model classification)에서, 음성(phone)과 가장 잘 매칭되었을 때, 각 입력 음향 특성(input acoustic feature)은 보통 1이 라벨링될 수 있다. 그렇지 않은 경우, 0이 라벨링 될 수 있다. 정렬(alignment)이라고 불리는 과정에서, 은닉 마르코프 모델(hidden Markov model: HMM), 가우시안 혼합 모델(Gaussian mixture model: HMM), 또는 다른 간단한 뉴럴 네트워크와 같은 간단한 메카니즘으로부터의 분류 점수에 대한 하드 결정 디코딩(hard decision decoding)은 이러한 이진 라벨링(binary labelling)을 생성할 수 있다.
본 발명의 몇몇 실시예들에 따라, 하드 결정 디코딩에 기초하는 하드 결정 라벨링 대신에, 간단한 모델/메카니즘으로부터의 분류 점수로부터 직접적으로 소프트 라벨이 생성될 수 있다. 예를 들어, 간단한 모델/메카니즘은 위에서 언급한 은닉 마르코프 모델(hidden Markov model: HMM), 가우시안 혼합 모델(Gaussian mixture model: HMM), 또는 간단한 미리 훈련된 뉴럴 네트워크일 수 있다.
그렇지 않으면, 소프트 라벨은 입력 음향 특성 프레임(input acoustic feature frame)에 관한 리스트 디코더(list decoder)로부터 추출될 수 있다. 리스트 디코더는 가장 개연성있는(most probable) 음성(phone) 시퀀스 리스트를 제공할 수 있다. 반면, 비-리스트 디코더(non-list decoder)는 단지 가장 그럴듯한(most plausible) 음성(phone) 시퀀스 리스트를 제공할 수 있다. 음향 특성 프레임은 관측된 말소리(speech)의 음향 특성의 시간 윈도우(temporal window)에 대응할 수 있다. 각 정렬된 입력 음향 특성에 대응하는 각 가능한 음성(phone)에 대한 소프트 라벨이 추출되어, L 개의 가장 좋은 경로가 선택될 수 있다.
본 발명의 몇몇 실시예들에서, 최대 우도 디코딩(maximum likelihood decoding)이 소프트 라벨을 추출하기 위해 사용될 수 있다. 입력 특성 벡터 F 가 주어지면, T 는 음성(phone) p 의 격자(trellis)를 통한 모든 가능한 경로의 세트일 수 있다. 달리 말해서, T 는 입력 음향 특성 벡터 F 에 대한 모든 가능한 정렬된 음성(phone) p 의 시퀀스 S i 의 세트일 수 있다. 시퀀스 S i 에서 분류될 k 번째 프레임에 대한 소프트 라벨은, 수학식 9에 보여지듯이, S i,k 가 가능한 음성(phone) p 중 하나로 분류될 수 있는 확률일 수 있다.
[수학식 9]
Figure 112017055536837-pat00017
상기 수학식 9로부터, 이러한 소프트 라벨링 방식은, 앞서 수학식 4에서 언급한 모든 클래스들에 걸친 합은 1이라는 라벨 기준(label criterion) 또한 만족시킬 수 있다는 것을 보여줄 수 있다. 달리 말해서, C 가 모든 가능한 음성(phone)의 세트이라면,
Figure 112017055536837-pat00018
를 만족할 수 있다.
입력 음향 특성 벡터 F가 주어졌을 때, i 번째 가능한 시퀀스 S i 의 확률 P ( S i | F )는 경로의 집합 메트릭(aggregated metric)으로부터 계산될 수 있다.
거리 메트릭(distance metric)이 사용되는 경우, 여기에서 i 번째 가능한 시퀀스 S i 는 길이 N 을 가질 수 있고, 수학식 10a 에서 보여지듯이, 제곱 거리 메트릭으로 간주될 수 있는 M i 가 결정될 수 있다.
[수학식 10a]
Figure 112017055536837-pat00019
[수학식 10b]
Figure 112017055536837-pat00020
본 발명의 기술분야에서 통상의 지식을 가진자가 이해하고 있듯이, 포워드-백워드 알고리즘(forward-backward algorithm)은 지수적인 복잡성(exponential complexity) 없이 최대 사후(maximum a posteriori: MAP) 솔루션 P ( S i,k = p | F ) 을 추정하기위해 사용될 수 있다.
비-MAP 디코더를 사용하여 L -베스트 시퀀스( L -best sequence)만 출력하는 L -베스트 디코더( L -best decoder)나 리스트 디코딩 방식이 시용되는 경우, 수학식 9에서의 합계를 L -베스트 시퀀스에만 제한함으로써, 복잡도가 훨씬 더 많이 감소될 수 있다. 수학적인 관점에서, T L 이 리스트 디코더로부터 출력되는 크기 L 의 시퀀스를 갖는 T 의 서브 세트(subset)나 L -베스트 디코더에 대응하면, ( T L 내에 있는) 시퀀스 S i 에서 k 번째 프레임에 대한 소프트 라벨은, 수학식 11에서 볼 수 있듯이, S i,k 가 가능한 음성(phone) p 중 하나로 분류될 확률일 수 있다.
[수학식 11]
Figure 112017055536837-pat00021
본 발명의 몇몇 실시예에서 설명한 바와 같이, 본 명세서에서 설명된 소프트 라벨링 기술은, 분류 단계에서 탐지 경계 박스와 실측 경계 박스 사이의 교차 영역에 기초한 이미지 라벨링을 포함하여, 많은 새로운 양상을 가질 수 있다. 소프트 라벨링은, 매우 넓은 다양한 가능한 할당 방식을 제공할 수 있다. 예를 들어, 0 또는 1의 라벨 값은, 탐지 경계 박스와 실측 경계 박스 사이의 교차 영역에 기초하여(예를 들어, 수학식 6a), 0 내지 1사이의 가변 라벨 값과 함께 사용될 수 있다. 비록 때때로 "하이브리드" 또는 하드 라벨링 및 소프트 라벨링의 조합으로 불리지만, 이러한 할당 방식은 본 명세서에서 "소프트 라벨링"이라는 용어에 포함된다.
위에서 설명한 바와 같이, 여러 일반적인 데이터세트를 사용하여 객체 탐지를 수행할 때, 소프트 라벨링이 하드 라벨링보다 더 나은 성능을 가지는 실험적인 결과를 볼 수 있다.
다중 실측 경계 박스(multiple ground-truth bounding boxes)가 각각의 다른 탐지 경계 박스의 내부에서 중첩될 때, 많은 방법들이 본 발명의 몇몇 실시예들에 따라 사용되어, 라벨 값들의 총 합계가 1이 되도록 할 수 있다. 본 명세서에서는 클래스 간의 중첩 영역을 나누는 것(수학식 7a 내지 수학식 7c)과 탐지 단계로부터 가장 높은 신뢰 점수를 갖는 클래스에 중첩 영역의 전부를 할당하는 것(수학식 8a 내지 수학식 8c)의 두 가지 예시들이 설명되었다. 그러나, 본 발명의 기술분야에서 통상의 지식을 가진자라면 많은 다른 방법들을 사용하여, 라벨 할당 방식에서 다중 클래스와 탐지 경계 박스의 중첩을 다루어, 확률(라벨 값)의 총합이 1이 되도록 하는 것을 생각해 낼 수 있을 것이다.
게다가, 본 발명의 몇몇 실시예들로 설명한 소프트 라벨링 기술은 이미지 분석 및/또는 탐지 및 분류 단계를 갖는 딥 러닝 시스템에 한정되지 않는다. 앞서 설명 하였듯이, 탐지 단계가 없는 이미지 분석과 같은 방법으로, 소프트 라벨링 기술은 음향 모델링(acoustic modelling) 및 목소리 인식(voice recognition)이 적용되는 딥 러닝 머신/시스템에 사용될 수 있다.
이러한 예시들은 단순히 예시적인 것일 뿐이며, 본 발명의 기술분야에서 통상의 지식을 가진자라면, 본 발명의 몇몇 실시예에 따른 소프트 라벨링 기술을 이용하고 응용하여 딥 러닝 머신/시스템을 훈련시킬 수 있을 것이다.
도 4는 본 발명의 몇몇 실시예들에 따른 일반적인 딥 러닝 훈련 방법을 설명하는 순서도이다.
분류를 위한 후보 유닛이 수신된다(410). 이미지에 대한 딥 러닝 머신에서는, 탐지 단계는 후보 탐지 경계 박스를 생성한다. 이때, 탐지 단계는 보통 신뢰 점수 역시 생성한다. 소리에 대한 딥 러닝 머신에서는, 입력 오디오 특성의 음성(phone)이 수신된다.
후보 유닛은 적어도 하나의 라벨이 0 과 1 사이에서 가능한 값의 범위를 갖는 소프트 라벨링에 의해 분류된다(420). 이미지에 대한 딥 러닝 머신에서는, 분류 단계는, 적어도 부분적으로는 탐지 경계 박스와 클래스에 대한 실측 경계 박스의 중첩에 기초하여, 탐지 경계 박스에 대해 이 클래스의 소프트 라벨을 생성한다. 소리에 대한 딥 러닝 머신에서는, 입력 오디오 특성의 음성(phone)에 대한 소프트 라벨은, 확률 모델(probability model) 및/또는, 예를 들어, 은닉 마르코프 모델(hidden Markov Model: HMM), 가우시안 혼합 모델(Gaussian mixture model: GMM), 상대적으로 간단한 미리 훈련된 뉴럴 네트워크, 최대 우도 디코딩(maximum likelihood decoding), 거리 메트릭(distance metric), 소프트 출력 디코딩 알고리즘(soft output decoding algorithm), 또는 리스트 디코딩(list decoding) 방식과 같은 뉴럴 네트워크를 이용하여 생성된 분류 점수로부터 직접 생성될 수 있다.
앞서 언급한 바와 같이, 본 발명의 몇몇 실시예들에 따른 소프트 라벨링 할당 방식은 단지 하나의 라벨에서만 0과 1사이의 값의 영역을 갖는 반면, 하나 이상의 다른 라벨은 그 값으로 단지 0 또는 1의 값을 갖는 방식을 포함할 수 있다. 그리고 이러한 방식도 또한 "하이브리드"방식으로 부를수 있을 것이다. (하드 라벨은 단지 0 또는 1인 반면, 소프트 라벨은 0 에서 1사이의 값의 영역을 가질수 있다.)
도 5는 본 발명의 몇몇 실시예들에 따른 딥 러닝 훈련 장치를 설명하는 예시적인 도면이다. 장치(500)는 적어도 하나의 프로세서(processor, 510)와 하나 이상의 비일시적 컴퓨터 판독가능한 매체(non-transitory computer-readable media, 520)를 포함할 수 있다. 적어도 하나의 프로세서(510)는 하나 이상의 비일시적 컴퓨터 판독가능한 매체(520)에 저장된 명령을 실행할 때, 분류를 위해 후보 유닛을 수신하고, 소프트 라벨링에 의해 후보 유닛을 분류하되, 소프트 라벨링은 적어도 0 과 1 사이의 범위에서 복수의 가능한 값들을 포함하는 하나의 라벨을 제공할 수 있다. 게다가, 하나 이상의 비일시적 컴퓨터 판독가능한 매체(520)는 적어도 하나의 프로세서(510)가 위에서 열거된 단계들을 실행하도록 하는 명령들을 저장할 수 있다.
도 6은 본 발명의 몇몇 실시예들에 따른 장치를 제조하고 테스트하는것에 관한 예시적인 순서도이다.
적어도 하나의 프로세서와 하나 이상의 비일시적 컴퓨터 판독가능한 매체를 포함하는 딥 러닝 훈련이 가능한 장치(이 경우, 칩셋(chipset))가 제조될 수 있다(650). 적어도 하나의 프로세서는 하나 이상의 비일시적 컴퓨터 판독가능한 매체에 저장된 명령을 실행할 때, 분류를 위해 후보 유닛을 수신하고, 소프트 라벨링에 의해 후보 유닛을 분류하되, 소프트 라벨링은 적어도 0 과 1 사이의 범위에서 복수의 가능한 값들을 포함하는 하나의 라벨을 제공할 수 있다. 하나 이상의 비일시적 컴퓨터 판독가능한 매체는 적어도 하나의 프로세서가 위에서 열거된 단계들을 실행하도록 하는 명령들을 저장할 수 있다.
장치(이 경우, 칩셋(chipset))가 테스트된다. 테스트는 장치가 하나 이상의 비일시적 컴퓨터 판독가능한 매체(520)에 저장된 명령을 실행할 때, 분류를 위해 후보 유닛을 수신하고, 소프트 라벨링에 의해 후보 유닛을 분류하되, 소프트 라벨링은 적어도 0 과 1 사이의 범위에서 복수의 가능한 값들을 포함하는 하나의 라벨을 제공하는 적어도 하나의 프로세서를 갖는지 검사하고, 장치가 적어도 하나의 프로세서가 하나 이상의 비일시적 컴퓨터 판독가능한 매체(520)에 저장된 명령을 실행할 때, 분류를 위해 후보 유닛을 수신하고, 소프트 라벨링에 의해 후보 유닛을 분류하되, 소프트 라벨링은 적어도 0 과 1 사이의 범위에서 복수의 가능한 값들을 포함하는 하나의 라벨을 제공하기 위한 명령을 저장하는 하나 이상의 비일시적 컴퓨터 판독 가능한 매체를 갖는지 검사하는 것을 포함한다(660).
본 발명의 몇몇 실시예들에 따라, 본 발명의 기술분야에서 통상의 지식을 가진 자라면 이해할 수 있듯이, 앞서 언급한 단계들 및/또는 동작들은 특정 실시예 및/또는 구현예에 따라, 상이한 사건(epoches) 등에 대해 다른 순서 또는 병렬로, 또는 동시에 발생할 수있다. 상이한 실시예들은 다른 순서 또는 상이한 방법 또는 수단에 의해 동작을 수행할 수 있다. 본 발명의 기술분야에서 통상의 지식을 가진 자가 이해할 수 있는 바와 같이, 일부 도면은 수행된 동작의 간략화된 표현이고, 본 명세서의 설명은 개요를 간략화한 것이며, 실제 구현은 훨씬 더 복잡하고, 더 많은 단계 및/또는 구성요소를 요구하며, 또한 특정 구현의 요구 사항에 따라 달라진다. 표현을 단순화한 것은, 본 발명의 기술분야에서 통상의 지식을 가진자가 이러한 도면들을 알고 이해할 수 있고, 본 설명에 관련이 없거나 및/또는 도움이 되지 않기 때문에, 다른 필수 단계를 나타내지 않는다.
유사하게, 일부 도면들은 단지 관련된 구성요소만 보여주는 간략화된 블록도이고, 이러한 관련된 구성요소들 중 일부는, 본 발명의 기술분야에서 통상의 지식을 가진 자들은 이해할수 있는 바와 같이, 실제 하드웨어보다 해당 분야에서 잘 알려진 기능 및/또는 구동을 표현할 뿐이다. 이러한 경우에, 구성요소/모듈들의 일부/전부는 다양한 방법 및/또는 조합으로 실행되거나 공급될 수 있고, 부분적으로 펌웨어 및/또는 하드웨어로 실행되거나 공급될 수 있다.
이는 적어도 하나 이상의, 응용 주문형 집적 회로(application-specific integrated circuits; ASICs), 표준 집적 회로(standard integrated circuits), 마이크로컨트롤러(microcontrollers) 및/또는 임베디드 컨트롤러(embedded controllers)를 포함하고 적절한 명령을 수행하는 컨트롤러, 필드 프로그래머블 게이트 어레이(field-programmable gate arrays; FPGAs), 컴플랙스 프로그래머블 논리 디바이스(complex programmable logic devices; CPLDs), 및 이와 비슷한 구성요소/모듈과 같은 펌웨어 및/또는 하드웨어를 포함할 수 있으나, 이에 한정되지 않는다. 또한 이 시스템 구성요소들 및/또는 데이터 구조들의 전부/일부는, 컴퓨터 판독 가능한 매체 및/또는 하나 이상의 관련된 컴퓨팅 시스템 또는 장치들을 적어도 설명된 기술들의 일부를 수행하게 하기 위해 실행하거나, 달리 사용하거나 제공하도록 가능하게 하거나 설정하기 위하여, 컨텐츠로(예컨대, 실행 가능하거나 다른 기계 판독가능한 소프트웨어 명령어 또는 구조화된 데이터) 비일시성의 컴퓨터 판독 가능한 매체에(예컨대, 하드디스크, 메모리, 컴퓨터 네트워크, 셀룰러 무선 네트워크 또는 다른 데이터 전송 매체, DVD 또는 플래쉬 메모리 장치 같은, 적절한 드라이브나 적절한 연결을 통해 판독되는 휴대용 매체) 저장될 수 있다.
하나 이상의 프로세서, 단순한 마이크로 컨트롤러, 컨트롤러, 및 그러한 것들은, 단독이든 혹은 다중 처리 장치이든, 본 발명의 실시예를 구현하기 위해 비일시성의 컴퓨터 판독 가능한 매체에 저장된 명령의 시퀀스(sequence)를 실행 하기 위해 사용될 수 있다. 일부 실시예에서, 하드-와이어드 회로(hard-wired circuitry)가 소프트웨어 명령어들 대신에 또는 소프트웨어 명령어들과 조합되어 사용될 수 있다. 그러므로 본 발명의 실시예들은 임의의 하드웨어 회로, 펌웨어, 및/또는 소프트웨어의 특정 조합에 한정되지 않는다.
여기에서 사용된 용어 "컴퓨터 판독 가능한 매체"는 프로세서에 실행을 위해 제공될 수 있는 명령을 저장하는 임의의 매체를 지칭한다. 그러한 매체는 비휘발성 매체 또는 휘발성의 매체를 포함할 수 있으나 이에 한정되지는 않는, 다양한 형태로 존재할 수 있다. 비일시성의 컴퓨터 판독 가능한 매체의 일반적인 형태는 예컨대, 플로피 디스크(floppy disk), 플렉서블 디스크(flexible disk), 하드 디스크(hard disk), 마그네틱 테이프(magnetic tape) 또는 임의의 다른 마그네틱 매체, CD-ROM, 임의의 다른 광학적 매체, 펀치 카드(punch card), 페이퍼 테이프(paper tape), 임의의 다른 홀 패턴을 가진 물리적 매체, RAM, PROM, EPROM, FLASH-EPROM, 임의의 다른 메모리 칩(memory chip) 또는 카트리지(cartridge), 또는 프로세서에 의해 실행될 수 있는 명령들을 저장 할 수 있는 임의의 다른 매체일 수 있다.
본 발명의 몇몇 실시예는 적어도 부분적으로 휴대용 장치(portable device)에서 실행될 수 있다. 여기에서 사용된 "휴대용 장치" 및/또는 "모바일 장치"는, 무선 신호들을 수신할 수 있는 능력을 가지고 있는, 임의의 휴대가능한 또는 이동가능한 전자 장치를 지칭할 수 있다. 이는 멀티미디어 플레이어(multimedia player), 통신 장치(communication device), 컴퓨팅 장치(computing device), 또는 네비게이팅 장치(navigating device) 등을 포함할 수 있으나, 이에 한정되지는 않는다. 그러므로, 모바일 장치는 사용자 단말(user equipment; UE), 랩탑(laptop), 태블릿 컴퓨터(tablet computer), PDA(Portable Digital Assistant), mp3 플레이어(mp3 player), 핸드헬드 PC(handheld PC), IMD(Instant Messaging Device), 셀룰러 전화기(cellular telephone), GNSS 수신기(Global Navigational Satellite System receiver), 시계(watch), 또는 인간이 입을 수 있거나 옮길 수 있는 임의의 이러한 장치들을 포함할 수 있으나, 이에 한정되지는 않는다.
본 발명의 몇몇 실시예들은, 본 발명의 기술분야에서 통상의 지식을 가진 자들이 이해하고 있듯이, 마이크로 칩(microchip), 실리콘 칩(silicon chip), 컴퓨터 칩(computer chip), 또는 단지 칩(chip)으로도 불리우는 집적 회로(integrated circuit; IC)에서 실행될 수 있다. 예컨대, 이러한 IC는 브로드밴드(broadband) 및/또는 베이스밴드(baseband) 모뎀 칩(modem chip)일 수 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였으나, 본 발명은 상기 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 제조될 수 있으며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
510: 프로세서(processor)
520: 비일시적 컴퓨터 판독가능한 매체(non-transitory computer-readable media)

Claims (20)

  1. 컴퓨팅 장치에 의해 수행되는 딥 러닝 훈련 방법에 있어서,
    상기 컴퓨팅 장치는
    분류(classification)를 위해 후보 유닛(candidate unit)을 수신하고,
    소프트 라벨링(soft labelling)에 의해 상기 후보 유닛을 분류하는 것을 포함하되,
    상기 후보 유닛은 탐지 경계 박스(detection bounding box)이고,
    상기 소프트 라벨링은 0내지 1의 범위에서 복수 가능한 값들을 포함하는 적어도 하나의 라벨을 제공하고,
    상기 소프트 라벨링은 클래스에 대한 실측 경계 박스(ground-truth bounding box)와 상기 탐지 경계 박스의 중첩 영역에 기초하여, 상기 탐지 경계 박스에 상기 클래스의 라벨을 제공하는 것을 포함하고,
    상기 클래스의 상기 라벨을 제공하는 것은,
    상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값이 제1 문턱 값 미만이면, 상기 클래스의 상기 라벨을 0으로 할당하고,
    상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값이 제2 문턱 값을 초과하면, 상기 클래스의 상기 라벨을 1로 할당하고,
    상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값이 상기 제1 문턱 값이거나, 상기 제2 문턱 값이거나, 상기 제1 문턱 값과 상기 제2 문턱 값 사이의 값이면, 상기 클래스의 상기 라벨을 상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값으로 할당하는 것을 포함하는, 딥 러닝 훈련(deep learning training) 방법.
  2. 제 1항에 있어서,
    상기 후보 유닛은 이미지 내의 탐지 경계 박스(detection bounding box)이거나, 입력 오디오 특성의 음성(phones of an input audio feature) 내의 탐지 경계 박스(detection bounding box)인 딥 러닝 훈련 방법.
  3. 삭제
  4. 제 1항에 있어서,
    상기 클래스의 상기 라벨을 제공하는 것은,
    상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역을 이용하여 값이 유도되는 상기 클래스의 상기 라벨을 할당하는 것을 포함하는 딥 러닝 훈련 방법.
  5. 제 1항에 있어서,
    상기 클래스의 상기 라벨을 제공하는 것은,
    상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역과 관련된 비율로부터 값이 유도되는 상기 클래스의 상기 라벨을 할당하는 것을 포함하는 딥 러닝 훈련 방법.
  6. 제 5항에 있어서,
    상기 클래스의 상기 라벨을 할당하는 것은,
    상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역, 대 상기 탐지 경계 박스의 전체 영역에 대한 비율을 계산하는 것을 포함하는 딥 러닝 훈련 방법.
  7. 삭제
  8. 삭제
  9. 제 1항에 있어서,
    상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값은,
    상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역, 대 상기 탐지 경계 박스의 전체 영역의 비율인 딥 러닝 훈련 방법.
  10. 제 1항에 있어서,
    상기 탐지 경계 박스에 상기 클래스의 상기 라벨을 제공하는 것은,
    상기 탐지 경계 박스에 제공되는 탐지 단계(detection stage)에 의해 제공되는 하나 이상의 신뢰 레벨(confidence level)에 기초하는 딥 러닝 훈련 방법.
  11. 제 1항에 있어서,
    상기 탐지 경계 박스에 상기 클래스의 상기 라벨을 제공하는 것은,
    제1 클래스에 대한 실측 경계 박스와 상기 탐지 경계 박스의 중첩 영역에 기초하여, 상기 탐지 경계 박스에 제1 클래스의 라벨을 제공하고,
    제2 클래스에 대한 실측 경계 박스와 상기 탐지 경계 박스의 중첩 영역에 기초하여, 상기 탐지 경계 박스에 제2 클래스의 라벨을 제공하는 것을 포함하는 딥 러닝 훈련 방법.
  12. 제 11항에 있어서,
    상기 탐지 경계 박스, 상기 제1 클래스에 대한 상기 실측 경계 박스, 및 상기 제2 클래스에 대한 상기 실측 경계 박스의 중첩 영역이 존재하고,
    상기 제1 클래스의 상기 라벨 및 상기 제2 클래스의 상기 라벨은, 상기 탐지 경계 박스와 상기 제1 클래스에 대한 상기 실측 경계 박스와 상기 제2 클래스에 대한 상기 실측 경계 박스의 중첩 영역에 기초하는 딥 러닝 훈련 방법.
  13. 제 1항에 있어서,
    상기 후보 유닛은 입력 오디오 특성의 음성(phone)이고,
    상기 소프트 라벨링은,
    확률 모델(probability model) 또는 뉴럴 네트워크(neural network)로부터의 분류 점수 (classification socre)로부터 소프트 라벨(soft label)을 직접적으로 생성하는 것을 포함하는 딥 러닝 훈련 방법
  14. 제 1항에 있어서,
    상기 후보 유닛은 입력 오디오 특성의 음성(phone)이고,
    상기 소프트 라벨링은,
    은닉 마르코프 모델(hidden Markov Model: HMM), 가우시안 혼합 모델(Gaussian mixture model: GMM), 또는 미리 훈련된 뉴럴 네트워크로부터의 분류 스코어로부터 소프트 라벨을 직접적으로 생성하는 것을 포함하는 딥 러닝 훈련 방법.
  15. 제 1항에 있어서,
    상기 후보 유닛은 입력 오디오 특성의 음성(phone)이고,
    상기 소프트 라벨링은,
    최대 우도 디코딩(maximum likelihood decoding), 거리 메트릭(distance metric), 소프트 출력 디코딩 알고리즘(soft output decoding algorithm), 또는 리스트 디코딩(list decoding) 방식을 이용하여 소프트 라벨을 생성하는 것을 포함하는 딥 러닝 훈련 방법.
  16. 하나 이상의 비일시적 컴퓨터 판독가능한 매체(non-transitory computer-readable media); 및
    적어도 하나의 프로세서(processor)를 포함하되,
    상기 적어도 하나의 프로세서는 상기 하나 이상의 비일시적 컴퓨터 판독가능한 매체에 저장된 명령(instruction)을 실행할 때,
    분류(classification)를 위해 후보 유닛(candidate unit)을 수신하고,
    소프트 라벨링(soft labelling)에 의해 상기 후보 유닛을 분류하되,
    상기 후보 유닛은 탐지 경계 박스(detection bounding box)이고,
    상기 소프트 라벨링은 0 내지 1의 범위에서 복수의 가능한 값들을 포함하는 적어도 하나의 라벨(label)을 제공하고,
    상기 소프트 라벨링은
    클래스에 대한 실측 경계 박스(ground-truth bounding box)와 상기 탐지 경계 박스의 중첩 영역에 기초하여, 상기 탐지 경계 박스에 상기 클래스의 라벨을 제공하는 것을 포함하고,
    상기 클래스의 상기 라벨을 제공하는 것은,
    상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값이 제1 문턱 값 미만이면, 상기 클래스의 상기 라벨을 0으로 할당하고,
    상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값이 제2 문턱 값을 초과하면, 상기 클래스의 상기 라벨을 1로 할당하고,
    상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값이 상기 제1 문턱 값이거나, 상기 제2 문턱 값이거나, 상기 제1 문턱 값과 상기 제2 문턱 값 사이의 값이면, 상기 클래스의 상기 라벨을 상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값으로 할당하는 것을 포함하는 딥 러닝 훈련(deep learning training) 장치.
  17. 삭제
  18. 제 16항에 있어서,
    상기 후보 유닛은 입력 오디오 특성의 음성(phone)이고,
    상기 소프트 라벨링은,
    확률 모델(probability model) 또는 뉴럴 네트워크(neural network)로부터의 분류 스코어(classification socre)로부터 소프트 라벨(soft label)을 직접적으로 생성하는 것을 포함하는 딥 러닝 훈련 장치.
  19. 딥 러닝 훈련이 가능한 칩셋을 제조하는 것은,
    적어도 하나의 프로세서(processor)를 제공하고,
    명령(instruction)을 저장하는 하나 이상의 비일시적 컴퓨터 판독가능한 매체를 제공하는 것을 포함하되,
    상기 적어도 하나의 프로세서는 상기 하나 이상의 비일시적 컴퓨터 판독가능한 매체에 상기 저장된 명령을 실행할 때,
    분류(classification)를 위해 후보 유닛(candidate unit)를 수신하고,
    소프트 라벨링(soft labelling)에 의해 상기 후보 유닛을 분류하되,
    상기 후보 유닛은 탐지 경계 박스(detection bounding box)이고,
    상기 소프트 라벨링은
    클래스에 대한 실측 경계 박스(ground-truth bounding box)와 상기 탐지 경계 박스의 중첩(overlap) 영역에 기초하여, 상기 탐지 경계 박스에 상기 클래스의 라벨을 제공하는 것을 포함하고,
    상기 클래스의 상기 라벨을 제공하는 것은,
    상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값이 제1 문턱 값 미만이면, 상기 클래스의 상기 라벨을 0으로 할당하고,
    상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값이 제2 문턱 값을 초과하면, 상기 클래스의 상기 라벨을 1로 할당하고,
    상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값이 상기 제1 문턱 값이거나, 상기 제2 문턱 값이거나, 상기 제1 문턱 값과 상기 제2 문턱 값 사이의 값이면, 상기 클래스의 상기 라벨을 상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값으로 할당하는 것을 포함하는 딥 러닝 훈련 가능한 칩셋 제조 방법.
  20. 장치가 적어도 하나의 프로세서를 가지는지 테스트하고,
    상기 장치가 명령(instruction)을 저장하는 하나 이상의 비일시적 컴퓨터 판독가능한 매체를 가지는지 테스트하는 것을 포함하되,
    상기 적어도 하나의 프로세서는 상기 하나 이상의 비일시적 컴퓨터 판독가능한 매체에 저장된 명령(instruction)을 실행할 때,
    분류(classification)를 위해 후보 유닛(candidate unit)을 수신하고, 상기 후보 유닛은 탐지 경계 박스(detection bounding box)이고,
    소프트 라벨링(soft labelling)에 의해 상기 후보 유닛을 분류하되, 상기 소프트 라벨링은 0 내지 1의 범위에서 복수의 가능한 값들을 포함하는 적어도 하나의 라벨(label)을 제공하고,
    상기 소프트 라벨링은 클래스에 대한 실측 경계 박스(ground-truth bounding box)와 상기 탐지 경계 박스의 중첩(overlap) 영역에 기초하여, 상기 탐지 경계 박스에 상기 클래스의 라벨을 제공하는 것을 포함하고,
    상기 클래스의 상기 라벨을 제공하는 것은,
    상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값이 제1 문턱 값 미만이면, 상기 클래스의 상기 라벨을 0으로 할당하고,
    상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값이 제2 문턱 값을 초과하면, 상기 클래스의 상기 라벨을 1로 할당하고,
    상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값이 상기 제1 문턱 값이거나, 상기 제2 문턱 값이거나, 상기 제1 문턱 값과 상기 제2 문턱 값 사이의 값이면, 상기 클래스의 상기 라벨을 상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값으로 할당하는 것을 포함하는 딥 러닝 훈련 장치 테스트 방법.
KR1020170073081A 2016-12-22 2017-06-12 소프트 라벨링을 이용한 딥 러닝 훈련 방법 및 장치 KR102513089B1 (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201662438177P 2016-12-22 2016-12-22
US62/438,177 2016-12-22
US201662438795P 2016-12-23 2016-12-23
US62/438,795 2016-12-23
US15/588,223 US11205120B2 (en) 2016-12-22 2017-05-05 System and method for training deep learning classification networks
US15/588,223 2017-05-05

Publications (2)

Publication Number Publication Date
KR20180073424A KR20180073424A (ko) 2018-07-02
KR102513089B1 true KR102513089B1 (ko) 2023-03-22

Family

ID=62629871

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170073081A KR102513089B1 (ko) 2016-12-22 2017-06-12 소프트 라벨링을 이용한 딥 러닝 훈련 방법 및 장치

Country Status (4)

Country Link
US (2) US11205120B2 (ko)
KR (1) KR102513089B1 (ko)
CN (1) CN108229649B (ko)
TW (1) TWI754660B (ko)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10970753B2 (en) * 2017-06-01 2021-04-06 Walmart Apollo, Llc Systems and methods for matching products in the absence of unique identifiers
GB2568083B (en) 2017-11-03 2021-06-02 Imagination Tech Ltd Histogram-based per-layer data format selection for hardware implementation of deep neutral network
GB2568084B (en) 2017-11-03 2022-01-12 Imagination Tech Ltd Error allocation format selection for hardware implementation of deep neural network
CN109034245B (zh) * 2018-07-27 2021-02-05 燕山大学 一种利用特征图融合的目标检测方法
CN109308484A (zh) * 2018-08-01 2019-02-05 清华大学 航空发动机多类故障最小风险诊断方法及装置
CN109188410B (zh) * 2018-08-27 2020-12-25 清华大学 一种非视距场景下的距离校准方法、装置及设备
JP2020046883A (ja) * 2018-09-18 2020-03-26 株式会社東芝 分類装置、分類方法およびプログラム
TWI709188B (zh) * 2018-09-27 2020-11-01 財團法人工業技術研究院 基於機率融合的分類器、分類方法及分類系統
US10503966B1 (en) * 2018-10-11 2019-12-10 Tindei Network Technology (Shanghai) Co., Ltd. Binocular pedestrian detection system having dual-stream deep learning neural network and the methods of using the same
WO2020081170A1 (en) * 2018-10-20 2020-04-23 The Nordam Group Llc Neural vending machine
CN112970037B (zh) * 2018-11-06 2024-02-02 创惟科技股份有限公司 用于实施神经网络应用的多芯片系统、适用于多芯片系统的数据处理方法、和非暂时性计算机可读介质
CN109635668B (zh) * 2018-11-16 2021-04-06 华中师范大学 基于软标签集成卷积神经网络的人脸表情识别方法及系统
US11436825B2 (en) 2018-12-14 2022-09-06 Samsung Electronics Co., Ltd. Method and apparatus for determining target object in image based on interactive input
KR102168541B1 (ko) * 2018-12-20 2020-10-21 주식회사 마인즈랩 제1 신경망을 이용한 제2 신경망 학습 방법 및 컴퓨터 프로그램
CN111507362B (zh) * 2019-01-30 2023-12-19 中强光电股份有限公司 神经网络的训练方法、基于神经网络的分类方法及其装置
US10915795B2 (en) * 2019-02-05 2021-02-09 International Business Machines Corporation Image object recognition through multimodal conversation templates
US10956682B2 (en) 2019-02-05 2021-03-23 International Business Machines Corporation Image object disambiguation resolution using learner model based conversation templates
CN110135456A (zh) * 2019-04-08 2019-08-16 图麟信息科技(上海)有限公司 一种目标检测模型的训练方法及装置
CN110032450B (zh) * 2019-04-17 2021-04-20 中山大学 一种基于固态盘扩展内存的大规模深度学习方法及系统
CN110047506B (zh) * 2019-04-19 2021-08-20 杭州电子科技大学 一种基于卷积神经网络和多核学习svm的关键音频检测方法
TWI746987B (zh) * 2019-05-29 2021-11-21 奇景光電股份有限公司 卷積神經網路系統
US11055540B2 (en) * 2019-06-28 2021-07-06 Baidu Usa Llc Method for determining anchor boxes for training neural network object detection models for autonomous driving
TWI710762B (zh) * 2019-07-31 2020-11-21 由田新技股份有限公司 基於影像的分類系統
CN110472640B (zh) * 2019-08-15 2022-03-15 山东浪潮科学研究院有限公司 一种目标检测模型预测框处理方法及装置
CN110659600B (zh) * 2019-09-19 2022-04-29 北京百度网讯科技有限公司 物体检测方法、装置及设备
CN110909688B (zh) * 2019-11-26 2020-07-28 南京甄视智能科技有限公司 人脸检测小模型优化训练方法、人脸检测方法及计算机系统
US20210158147A1 (en) * 2019-11-26 2021-05-27 International Business Machines Corporation Training approach determination for large deep learning models
LU101763B1 (en) * 2020-05-04 2021-11-05 Microsoft Technology Licensing Llc Microsegment secure speech transcription
US10885388B1 (en) * 2020-08-04 2021-01-05 Superb Ai Co., Ltd. Method for generating training data to be used for training deep learning network capable of analyzing images and auto labeling device using the same
CN112509583B (zh) * 2020-11-27 2023-07-18 贵州电网有限责任公司 一种基于调度操作票系统的辅助监督方法及系统
KR102582431B1 (ko) * 2021-07-13 2023-09-26 (주)블루컴 차량 식별 학습 데이터 생성 방법 및 이를 이용한 차량 식별 학습 데이터 생성 시스템
US20230174110A1 (en) * 2021-12-03 2023-06-08 Zoox, Inc. Vehicle perception system with temporal tracker
CN114627891A (zh) * 2022-05-16 2022-06-14 山东捷瑞信息技术产业研究院有限公司 一种动圈扬声器质量检测方法和装置
KR102540873B1 (ko) * 2022-12-15 2023-06-07 주식회사 에이모 노이즈 레이블을 필터링하는 방법 및 장치
CN117609881B (zh) * 2023-11-29 2024-04-30 阿童木(广州)智能科技有限公司 一种基于人工智能的金属重叠检测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005352997A (ja) * 2004-06-14 2005-12-22 Central Res Inst Of Electric Power Ind 事例データベースの構築方法、判別装置の学習方法、データ判別支援装置、データ判別支援プログラム
JP2015184908A (ja) 2014-03-24 2015-10-22 東芝アルパイン・オートモティブテクノロジー株式会社 画像処理装置および画像処理プログラム
US20160070986A1 (en) * 2014-09-04 2016-03-10 Xerox Corporation Domain adaptation for image classification with class priors

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7747372B2 (en) * 2007-07-03 2010-06-29 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and methods for user control of vehicular transmission shift points
US8503767B2 (en) * 2009-09-16 2013-08-06 Microsoft Corporation Textual attribute-based image categorization and search
WO2014205231A1 (en) 2013-06-19 2014-12-24 The Regents Of The University Of Michigan Deep learning framework for generic object detection
US8995739B2 (en) * 2013-08-21 2015-03-31 Seiko Epson Corporation Ultrasound image object boundary localization by intensity histogram classification using relationships among boundaries
US9373059B1 (en) 2014-05-05 2016-06-21 Atomwise Inc. Systems and methods for applying a convolutional network to spatial data
US9536293B2 (en) 2014-07-30 2017-01-03 Adobe Systems Incorporated Image assessment using deep convolutional neural networks
US9536167B2 (en) 2014-12-10 2017-01-03 Ricoh Co., Ltd. Realogram scene analysis of images: multiples for scene analysis
US9818048B2 (en) 2015-01-19 2017-11-14 Ebay Inc. Fine-grained categorization
US10115215B2 (en) 2015-04-17 2018-10-30 Monotype Imaging Inc. Pairing fonts for presentation
CN107851192B (zh) 2015-05-13 2023-04-14 北京市商汤科技开发有限公司 用于检测人脸部分及人脸的设备和方法
US9443320B1 (en) 2015-05-18 2016-09-13 Xerox Corporation Multi-object tracking with generic object proposals
US9858496B2 (en) * 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images
CN105975915B (zh) * 2016-04-28 2019-05-21 大连理工大学 一种基于多任务卷积神经网络的前方车辆参数识别方法
CN106203506B (zh) * 2016-07-11 2019-06-21 上海凌科智能科技有限公司 一种基于深度学习技术的行人检测方法
US20210209412A1 (en) * 2020-01-02 2021-07-08 International Business Machines Corporation Labeling data using automated weak supervision

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005352997A (ja) * 2004-06-14 2005-12-22 Central Res Inst Of Electric Power Ind 事例データベースの構築方法、判別装置の学習方法、データ判別支援装置、データ判別支援プログラム
JP2015184908A (ja) 2014-03-24 2015-10-22 東芝アルパイン・オートモティブテクノロジー株式会社 画像処理装置および画像処理プログラム
US20160070986A1 (en) * 2014-09-04 2016-03-10 Xerox Corporation Domain adaptation for image classification with class priors

Also Published As

Publication number Publication date
US20180181881A1 (en) 2018-06-28
KR20180073424A (ko) 2018-07-02
CN108229649B (zh) 2023-12-05
TW201824098A (zh) 2018-07-01
CN108229649A (zh) 2018-06-29
US20220083861A1 (en) 2022-03-17
TWI754660B (zh) 2022-02-11
US11205120B2 (en) 2021-12-21

Similar Documents

Publication Publication Date Title
KR102513089B1 (ko) 소프트 라벨링을 이용한 딥 러닝 훈련 방법 및 장치
KR102341459B1 (ko) 영역 기반 딥 러닝 모델을 이용한 객체 탐지 장치 및 방법, 그리고 이를 이용한 칩셋 제조 방법
CN111476284B (zh) 图像识别模型训练及图像识别方法、装置、电子设备
CN107688821B (zh) 基于视觉显著性与语义属性跨模态图像自然语言描述方法
CN107209861B (zh) 使用否定数据优化多类别多媒体数据分类
CN106294344B (zh) 视频检索方法和装置
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
US8761510B2 (en) Object-centric spatial pooling for image classification
US10043057B2 (en) Accelerating object detection
US11449706B2 (en) Information processing method and information processing system
CN113361593B (zh) 生成图像分类模型的方法、路侧设备及云控平台
US20230113643A1 (en) Leveraging unsupervised meta-learning to boost few-shot action recognition
CN113627229B (zh) 目标检测方法、系统、设备以及计算机存储介质
US10991365B2 (en) Automated speech recognition confidence classifier
KR20200131185A (ko) 검증 뉴럴 네트워크를 이용한 분류 결과 검증 방법, 분류 결과 학습 방법 및 상기 방법을 수행하는 컴퓨팅 장치
CN116152576B (zh) 图像处理方法、装置、设备及存储介质
CN113870863A (zh) 声纹识别方法及装置、存储介质及电子设备
CN117635998A (zh) 用于多标签半监督分类的基于百分位数的伪标签选择
US20230130662A1 (en) Method and apparatus for analyzing multimodal data
CN116109907A (zh) 目标检测方法、装置、电子设备及存储介质
WO2021233389A1 (zh) 增强深度学习模型鲁棒性的方法及装置
CN114022938A (zh) 视素识别的方法、装置、设备和存储介质
Li et al. A Fast Postprocessing Algorithm for the Overlapping Problem in Wafer Map Detection
CN110555338A (zh) 对象识别方法和装置、神经网络生成方法和装置
CN112990145B (zh) 一种基于组稀疏年龄估计方法及电子设备

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant