KR102513089B1

KR102513089B1 - 소프트 라벨링을 이용한 딥 러닝 훈련 방법 및 장치

Info

Publication number: KR102513089B1
Application number: KR1020170073081A
Authority: KR
Inventors: 모스타파 엘-카미; 샨쯔 두; 이정원
Original assignee: 삼성전자주식회사
Priority date: 2016-12-22
Filing date: 2017-06-12
Publication date: 2023-03-22
Also published as: US20180181881A1; KR20180073424A; CN108229649B; TW201824098A; CN108229649A; US20220083861A1; TWI754660B; US11205120B2

Abstract

본 발명에는, 영역 기반 딥 러닝 모델을 이용한 객체 탐지 장치 및 방법, 그리고 이를 이용한 칩셋 제조 방법 및 장치 검사 방법이 제공된다.
상기 영역 기반 딥 러닝 모델을 이용한 객체 탐지 방법은, RPN(region proposal network)을 이용하여, 신뢰 수준(confidence level)들을 할당(assign)함으로써 RoI(region of interest)들을 식별하고, 상기 RoI들의 상기 할당된 신뢰 수준들을 이용하여, 각 RoI에 대해, 다운스트림 분류기(downstream classifier)에 의해 할당된 배경 점수(background score)를 증가(boost)시키고, 소프트맥스 함수(softmax function)에서 상기 점수들을 이용하여, 각 객체 클래스(object class)에 대한 최종 클래스 확률(class probability)들을 계산하는 것을 포함한다.

Description

소프트 라벨링을 이용한 딥 러닝 훈련 방법 및 장치{A METHOD AND AN APPARATUS FOR DEEP LEARNING NETWORKS TRAINING USING SOFT-LABELLING}

본 발명은 일반적으로 딥 뉴럴 네트워크에 관련되고, 조금 더 구체적으로 딥 러닝 분류 네트워크를 훈련하는 시스템 및 방법에 관한 것이다.

머신 러닝 기술(machine learning technology)은 지속적으로 발전하고 있으며, 웹 검색(web searchs), 콘텐츠 필터링(content filtering), 상품 구매 웹사이트의 자동 추천(automated recommendations), 자동화 된 게임(automated game playing), 객체 탐지(object detection), 이미지 분류(image classification), 스피치 인식(speech recognition), 기계 번역(machine translations), 약물 검색(drub discovery), 및 유전학(genomics)에서 현대 사회의 많은 측면을 지원하게 되었다. 머신 러닝 분야의 최신 기술은 딥 뉴럴 네트웍스(deep neural networks) 라 할 수 있다. 이 딥 뉴럴 네트웍스는 다양한 수준의 추출을 통해 데이터의 표현을 배우는 다중 처리 레이어(multiple processing layer)로 구성된 컴퓨팅 모델을 이용한다. 따라서, “딥 러닝(deep learning)”, “딥 네트웍스(deep networks)” 등의 용어는 [LeCun, Yann, Yoshua Bengio, and Geoffrey Hinton. “Deep learning.” Nature, vol. 521, pp. 436-444 (28 May 2015)]를 참조한다.

객체 탐지 및 분류에 대한 머신 러닝의 첫번째 단계는 훈련(training)이다. 예를 들어, 사람, 애완 동물, 차, 및 집의 이미지에 대한 많은 데이터 세트들을 이용하여 이미지에 관한 훈련이 수행된다. 여기에서, 각각의 이미지 또는 각각의 이미지내의 일부분은 이와 대응하는 카테고리 또는 클래스로 라벨링(labelling)된다. 공개적으로 이용가능한 많은 수의 데이터 세트들이 존재한다. 이미지와 관련된 이러한 훈련은 두개의 파트(part) 또는 단계(stage)로 분리될 수 있다: (1) 탐지, 여기에서 후보/탐지된 박스(candidate/detected box)는 이미지내에서 탐지된다. 후보/탐지된 박스는 보통 객체/클래스의 신뢰 레벨(confidence level)에 기초하지만, 단지 임의의 그룹일 수도 있다. (2) 분류, 여기에서 라벨은 "실측(ground-truth)" 박스와 탐지 박스의 중첩에 기초한 탐지 박스로 할당된다. 여기에서, "실측" 박스는 이미 객체/클래스를 포함하고 있는 것으로 알려진 데이터 세트의 이미지 박스를 의미한다.

본 발명이 해결하고자 하는 기술적 과제는 소프트 라벨링을 이용한 딥 러닝 훈련 방법을 제공하는 것이다.

본 발명이 해결하고자 하는 다른 기술적 과제는, 소프트 라벨링을 이용한 딥 러닝 훈련 장치를 제공하는 것이다.

본 발명이 해결하고자 하는 기술적 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 해당 기술분야의 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

상기 기술적 과제를 해결하기 위한 본 발명의 몇몇 실시예들에 따르면, 분류(classification)를 위해 후보 유닛(candidate unit)을 수신하고, 소프트 라벨링(soft labelling)에 의해 상기 후보 유닛을 분류하는 것을 포함하되, 상기 소프트 라벨링은 0 내지 1의 범위에서 복수의 가능한 값들을 포함하는 적어도 하나의 라벨(label)을 제공하는 딥 러닝 훈련(deep learning training) 방법이 제공된다.

상기 기술적 과제를 해결하기 위한 본 발명의 몇몇 실시예들에 따르면, 하나 이상의 비일시적 컴퓨터 판독가능한 매체(non-transitory computer-readable media), 및 적어도 하나의 프로세서(processor)를 포함하되, 상기 적어도 하나의 프로세서는 상기 하나 이상의 비일시적 컴퓨터 판독가능한 매체에 저장된 명령(instruction)을 실행할 때, 분류(classification)를 위해 후보 유닛(candidate unit)을 수신하고, 소프트 라벨링(soft labelling)에 의해 상기 후보 유닛을 분류하되, 상기 소프트 라벨링은 0 내지 1의 범위에서 복수의 가능한 값들을 포함하는 적어도 하나의 라벨(label)을 제공하는 딥 러닝 훈련(deep learning training) 장치가 제공된다.

상기 기술적 과제를 해결하기 위한 본 발명의 몇몇 실시예들에 따르면, 딥 러닝 훈련이 가능한 칩셋을 제조하는 것은, 적어도 하나의 프로세서(processor)를 제공하고, 명령(instruction)을 저장하는 하나 이상의 비일시적 컴퓨터 판독가능한 매체를 제공하는 것을 포함하되, 상기 적어도 하나의 프로세서는 상기 하나 이상의 비일시적 컴퓨터 판독가능한 매체에 상기 저장된 명령을 실행할 때, 분류(classification)를 위해 후보 유닛(candidate unit)를 수신하고, 소프트 라벨링(soft labelling)에 의해 상기 후보 유닛을 분류하되, 상기 소프트 라벨링은 0 내지 1의 범위에서 복수의 가능한 값들을 포함하는 적어도 하나의 라벨(label)을 제공하는 것을 포함하는 딥 러닝 훈련 가능한 칩셋 제조 방법이 제공된다.

상기 기술적 과제를 해결하기 위한 본 발명의 몇몇 실시예들에 따르면, 장치가 적어도 하나의 프로세서를 가지는지 테스트하고, 상기 장치가 명령(instruction)을 저장하는 하나 이상의 비일시적 컴퓨터 판독가능한 매체를 가지는지 테스트하는 것을 포함하되, 상기 적어도 하나의 프로세서는 상기 하나 이상의 비일시적 컴퓨터 판독가능한 매체에 저장된 명령(instruction)을 실행할 때, 분류(classification)를 위해 후보 유닛(candidate unit)을 수신하고, 소프트 라벨링(soft labelling)에 의해 상기 후보 유닛을 분류하되, 상기 소프트 라벨링은 0 내지 1의 범위에서 복수의 가능한 값들을 포함하는 적어도 하나의 라벨(label)을 제공하는 딥 러닝 훈련 장치 테스트 방법이 제공된다.

도 1은, 본 발명의 몇몇 실시예들에 따른 분류 단계(classification stage)에서, 클래스/객체A 에 대한 탐지 박스와 실측 박스의 예시를 설명하는 도면이다.
도 2는, 본 발명의 몇몇 실시예들에 따른 탐지 박스와 실측 박스를 이용한 소프트 라벨링 할당(soft labelling assignment)의 예시를 설명하는 도면이다.
도 3은, 본 발명의 몇몇 실시예들에 따른 다양한 클래스가 있는 경우(즉, 다양한 실측 박스가 있는 경우)의 소프트 라벨링 할당 방식의 예시를 설명하는 도면이다.
도 4는 본 발명의 몇몇 실시예들에 따른 일반적인 딥 러닝 훈련 방법을 설명하는 순서도이다.
도 5는 본 발명의 몇몇 실시예들에 따른 딥 러닝 훈련 장치를 설명하는 예시적인 도면이다.
도 6은 본 발명의 몇몇 실시예들에 따른 장치를 제조하고 테스트하는것에 관한 예시적인 순서도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 도면에서 표시된 구성요소의 크기 및 상대적인 크기는 설명의 명료성을 위해 과장된 것일 수 있다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭하며, "및/또는"은 언급된 아이템들의 각각 및 하나 이상의 모든 조합을 포함한다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.

비록 제1, 제2 등이 다양한 소자나 구성요소들을 서술하기 위해서 사용되나, 이들 소자나 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 소자나 구성요소를 다른 소자나 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 소자나 구성요소는 본 발명의 기술적 사상 내에서 제2 소자나 구성요소 일 수도 있음은 물론이다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

본 명세서에서, 저자 및 일자에 의해 다양한 문헌이 참조된다. 이들 문헌의 내용은 그 전체로서 본명세서에 참고문헌으로 인용되어 있다.

본 명세서에서 사용된 용어 "박스(box or boxes)" 는 용어 "경계 박스(bounding box or bounding boxes)"와 혼용될 수 있다.

본 명세서는 디지털 이미지를 획득하고(acquiring), 처리하고(processing), 분석하고(analyzing), 이해하는 것(understanting)을 적용하는 방법을 고려한다. 예를 들어, 이미지 또는 이미지의 일부분에 속해 있는 객체의 객체 탐지(object detection), 객체 인식(object recognition), 및 객체 분류(object classification)가 사용될 수 있다.

본 발명의 몇몇 실시예들은 훈련 과정 동안 더 큰 효율 및 정확성을 갖는 "소프트 라벨링(soft labelling)"을 제공한다. 소프트 라벨링에 관한 내용은 아래에서 조금 더 구체적으로 설명하도록 한다.

일반적으로, 이미지에 관한 라벨링(labelling)은, 하나 이상의 클래스/객체/카테고리를 이러한 클래스/객체/카테고리에 대한 하나 이상의 실측 경계 박스(ground-truth bounding box)와의 중첩에 기초하여, 탐지 후보 경계 박스로 할당하기 위해 사용될 수 있다.

도 1은, 분류 단계(classification stage)에서, 클래스/객체A 에 대한 탐지 박스(detection box, 110)와 실측 박스(ground-truth box, 120)의 예시를 설명하는 도면이다. 탐지 박스(110)는 영역 A _BBd 을 포함할 수 있고, 실측 박스(120)는 영역 A _BBg 을 포함할 수 있다. 통상적으로 분류 단계에서, 수학식 1에 따라, 클래스/객체 A에 대한 탐지 박스(110)의 라벨(label)이 결정될 수 있다.

[수학식 1]

여기에서, A _BBd ∩ A _BBg 는 도 1에 격자 무늬로 표시된 영역으로 도시된 바와 같이, 탐지 박스(110)와 실측 박스(120)의 중첩 영역(area of overlap, 115)일 수 있다. 또한, A _BBd ∪ A _BBg 는 탐지 박스(110) 영역과 실측 박스(120) 영역의 합 영역(union of area)일 수 있다. 달리 말해서, A _BBd ∪ A _BBg 는 탐지 박스(110)와 실측 박스(120)의 모든 합계에 격자 무늬로 표시된 영역(115)을 뺀 것과 같을 수 있다.

수학식 1에 따르면, 클래스/객체 A에 대한 탐지 박스(110)의 라벨은 단순한 이진 값(binary value)일 수 있다. 여기에서, 탐지 박스(110)와 실측 박스(120)가 절반 초과로 중첩되면 라벨은 1일 수 있다. 또한, 탐지 박스(110)와 실측 박스(120)가 절반 이하로 중첩되면 라벨은 0일 수 있다. 예를 들어, 도 1에서, 클래스/객체 A에 대한 탐지 박스(110)의 라벨은 중첩되는 영역이 절반 이하이기 때문에 0일 수 있다.

이러한 라벨은 머신(machine)의 오류를 판별하고 정정하는 것의 일부로서 사용될 수 있다. 일반적으로, 훈련하는 동안, 머신은 머신의 조정가능한 내부 파라미터(parameter)를 수정함으로써, 목적 함수(objective function)로부터 계산되는 오류를 감소시킬 수 있다. 이 경우, 알고 있는 실측 박스에 관하여 탐지 박스 라벨을 생성함으로써, 목적 함수는 오류(또는 거리)를 측정하는 수단이 될 수 있다. 종종 가중치(weights)라 불리는 머신의 조정가능한 내부 파라미터가 머신의 입력-출력 함수를 정의할 수 있다. 전형적인 딥 러닝 시스템(deep learning system)에서는, 이러한 조정가능한 가중치/파라미터들이 수 억 개 존재할 수 있고, 머신을 훈련하는 수 억 개의 라벨링된 예시들이 존재할 수 있다.

따라서, 훈련 과정 동안 라벨링하는 것은 딥 러닝 머신/네트웍스의 효율(efficiency)과 정확도(accuracy)에 영향을 끼칠 수 있다.

위에서 설명하였듯이, 각각의 클래스/객체/카테고리에 대한 각각의 탐지 후보 경계 박스에 대한 통상적인 라벨링은 1이나 0중 하나일 수 있다. 그러나 하드 라벨링(hard labelling)은, 훈련 중 머신의 조정가능한 내부 파라미터를 결정하는 것과 관련하여, 정밀도(precision)의 손실이 있을 수 있다.

본 명세서에서, "하드 라벨링"은 이산적인(discrete) 이진 라벨링(binary labelling), 즉, 1이나 0으로 라벨링 하는 것을 의미한다.

훈련하는 동안, 라벨 t 및 관측된 특성(observed feature) z 가 주어졌을 때의 파라미터 θ 의 우도(likelihood)를 최대화하는 것은 오류 ε 를 최소화하는 것과 동일할 수 있다. 즉, 음의 로그-우도 함수(negative log-likelihood)를 최소화하는 것은 수학식 2에 보여지는 바와 같을 수 있다.

[수학식 2]

여기에서, C 는 클래스들의 전체 개수이고, t _i 는 클래스 i 의 라벨이고, y _i 는 관측된 특성(observed feature) z 가 주어졌을 때의 클래스 i 의 소프트맥스 확률(softmax probability)일 수 있다. 여기에서 i = 1, 2, … , C 이다. 예를 들어, 관측된 특성 z 가 주어졌을때의 클래스 c 의 소프트맥스 확률 y _c (즉, P( t = c | z ))는 수학식 3을 이용하여 계산될 수 있다.

[수학식 3]

그러나, 하드 라벨링으로 훈련하는 경우, 클래스 c 가 입력 특성 z 에 관한 실측 라벨링에 따른 참 클래스(true class)이면, t _c 는 오직 1이고, 아닌 경우 0이다. 예를 들어, 상기 수학식 1을 살펴본다. 이는 참 클래스(true class) c 에 대해서, 단지 소프트맥스 함수만이 수학식 2의 합에 기여하는 것을 의미할 수 있다.

본 발명의 몇몇 실시예들에 따르면, 라벨은 이진(binary)이 아닌, 0 에서 1 사이 임의의 값을 가질 수 있다. 달리 말하면 t _c 는 [0,1] 사이의 부동소수값(float value)이 될 수 있다. 본 명세서에서 이를 "소프트 라벨링(soft labelling)"으로 지칭하도록 한다. 이러한 방법으로 수학식 2에서의 손실은 (크고 작은) 모든 클래스들로부터 모든 소프트맥스 확률의 가중치가 부여된 합으로서 계산될 수 있다. 본 발명의 몇몇 실시예들에 따라, 몇가지 구체적인 할당 기술에 대해 설명할 것이나, 본 발명의 기술분야에서 통상의 지식을 가진 자는 이해할 수 있듯이, 소프트 라벨링에서 0과 1 사이의 부동소수값을 할당하기 위한 가능한 옵션(option)들은 사실상 제한이 없다.

소프트 라벨링을 이용한 할당 방식의 몇몇 예시를 논의하기 전에, 소프트 라벨링이 여전히 적절한 역-전파(back-propagation)를 수행하는 것을 허용하는지 확인해야 한다. 수학식 2의 로그-우도 함수(log-likelihood function)

또한 크로스 엔트로피 오류 함수(cross entropy error function)

일수 있다. 클래스 i 에 대해 역-전파를 수행할 때, 소프트맥스(softmax)가 관측된 입력 z _i 에 관한 크로스 엔트로피 비용 함수(cross entropy cost function)의 도함수

는 수학식 4와 같이 계산될 수 있다.

[수학식 4]

그러므로, 본 발명의 기술분야의 통상의 지식을 가진자는 이해할 수 있는 바와 같이,

이면 수학식 4를 만족할 수 있다. 즉, 동일한 입력 특성에 대한 모든 클래스에 걸친 라벨의 합이 1이면, 하드 라벨링과 소프트 라벨링 둘 다 참이 될 수 있다. 달리 말해서, 라벨의 합이 1이기 때문에, 수학식 4는 소프트 라벨링에 대해 여전히 만족한다.

도 2는 본 발명의 몇몇 실시예들에 따른, 탐지 박스(210)와 실측 박스(220)를 이용한 소프트 라벨링 할당의 예시를 설명하는 도면이다.

도 2에서, 탐지 박스(210)는 영역 A _BBd 을 포함할 수 있고, 실측 박스(220)는 영역 A _BBg 을 포함할 수 있다. 영역 A _BBd 와 A _BBg 는 격자 무늬로 표시된 영역 (215)에서 교차할 수 있다. 도 2에서는, "A"와 "배경(background)" 두 개의 클래스가 존재할 수 있다. 그러므로, 탐지 박스(210)는 두 개의 라벨이 필요할 수 있다. "A"에 대한 라벨과 "배경"에 대한 라벨을 각각 L _a 와 L _bg 라고 한다. 클래스/객체 A에 대한 탐지 박스(210)의 라벨과 클래스/객체 배경에 대한 탐지 박스(210)의 라벨은 수학식 5a 및 수학식 5b를 따라 결정될 수 있다.

[수학식 5a]

[수학식 5b]

L _bg = 1 - L _A =

여기에서, A _BBd ∩ A _BBg 는 도 2에 격자 무늬로 표시된 영역(215)에서 볼 수 있듯이, 탐지 박스(210)와 실측 박스(220)의 교차/중첩 영역일 수 있다. 그러므로, 수학식 5a에서 라벨 L _A 는 탐지 박스(210)의 영역에 의해 정규화된(normalized) 두 개의 박스의 교차 영역(215)과 같을 수 있다. 반면, 라벨 L _bg 는 정규화된 나머지 부분, 즉, 1에서 클래스 A에 대한 소프트 라벨 L _A 를 뺀 것과 같을 수 있다. 소프트 라벨링 방법은 L _A + L _bg = 1 이라는 제약이 존재한다.

본 발명의 몇몇 실시예들에 따른 다른 소프트 라벨링 할당에서, 문턱 값(threshold value)은 0, 1, 및 탐지 박스의 교차 영역 대 탐지 박스의 전체 영역의 비율에 의해 결정되는 가변 값(variable value)을 선택하는데 이용될 수 있다. 조금 더 구체적으로, 도 2의 박스를 예로 들면, 클래스/객체 A에 대한 탐지 박스(210)의 라벨과 클래스/객체 배경에 대한 탐지 박스(210)의 라벨은 수학식 6a와 수학식 6b에 따라 결정될 수 있다.

[수학식 6a]

[수학식 6b]

L _bg = 1 - L _A

여기에서, 교차 영역이 문턱 b 보다 크면, L _A = 1 일 수 있고, 교차 영역이 문턱 a 보다 작으면 L _A = 0 일 수 있다. 이 외의 경우에는, L _A 는 교차 영역의 정규화된 값일 수 있다. 교차 영역의 정규화된 값은 교차 영역에서 탐지 박스의 전체 영역을 나눈 값일 수 있다. 이러한 소프트 라벨링 방식은 0과 1을 영역의 범위로 할당하기 때문에, 이는 소프트 라벨링과 하드 라벨링의 조합, 즉 "하이브리드" 라벨링 방식이라 할 수 있다. 그러나, 0과 1이 다른 라벨에도 할당될 수 있을지라도, [0,1]의 값의 범위를 사용하는 임의의 라벨 할당 방식은 소프트 라벨링일 수 있다.

도 3은, 본 발명의 몇몇 실시예들에 따른 다중 클래스(multiple classes)가 있는 경우(즉, 다양한 실측 박스가 있는 경우)의 소프트 라벨링 할당 방식의 예시를 설명하는 도면이다.

달리 말해서, 도 2에서는 단지 클래스 A와 디폴트(default) 클래스인 배경이 있는 경우를 고려하였으나, 도 3에서는 디폴트 클래스인 배경뿐만 아니라 클래스 A와 클래스 B가 있는 경우를 고려할 수 있다.

도 3에서, 탐지 박스(310)는 영역 A _BBd 를 포함할 수 있고, 클래스 A에 대한 실측 박스(320)는 영역 A _BBg _{_A} 를 포함할 수 있고, 클래스 B에 대한 실측 박스(330)는 영역 A _BBg _{_B} 를 포함할 수 있다. 세 개의 박스가 교차하는 영역은 격자 무늬의 영역(345)으로 나타내었다.

또한, 단지 탐지 박스(310)와 클래스 A에 대한 실측 박스(320)가 교차하는 영역은 Γ 모양을 좌우 반전시킨 모양으로 표현되어 있고, 가로선이 그어진 영역(325)이다. 또한, 단지 탐지 박스(310)와 클래스 B에 대한 실측 박스(330)가 교차하는 영역은 L 모양으로 표현되어 있고, 세로선이 그어진 영역(335)이다.

그러므로, 탐지 박스(310)와 클래스 A에 대한 실측 박스(320)가 중첩되는 전체 영역은, 격자 무늬로 표시된 영역(345)과 가로선이 그어진 영역(325) 둘 다 포함된다(= A _BBd ∩ A _BBg _{_A} ). 또한, 탐지 박스(310)와 클래스 B에 대한 실측 박스(330)가 중첩되는 전체 영역은, 격자 무늬로 표시된 영역(345)과 세로선이 그어진 영역(335) 둘 다 포함된다(= A _BBd ∩ A _BBg _{_B} ). 격자 무늬로 표시된 영역(345)은 세 개의 박스 모두 중첩되는 영역일 뿐만아니라, 두 개의 실측 박스가 중첩되는 영역이다. 그러므로, A _BBd ∩ A _BBg _{_A} ∩ A _BBg _{_} _B = A _BBg _{_A} ∩ A _BBg _{_} _B 가 성립한다.

본 발명의 몇몇 실시예들에 따르면, 클래스/객체 A에 대한 탐지 박스(310)의 라벨( L _A ), 클래스/객체 B에 대한 탐지 박스(310)의 라벨( L _B ), 및 배경에 대한 탐지 박스(310)의 라벨( L _bg )은 수학식 7a 내지 수학식 7c에 따라 결정될 수 있다.

[수학식 7a]

[수학식 7b]

[수학식 7c]

L _bg = 1 - L _A - L _B

따라서, 정규화되기 전에(즉, 탐지 박스(310)의 전체 영역으로 나누기 전에), 클래스 A에 대한 실측 박스(320)와 클래스 B에 대한 실측 박스(330)의 중첩/교차 영역(= A _BBg _{_A} ∩ A _BBg _{_B} )의 절반이 수학식 7a의 탐지 박스(310)와 클래스 A에 대한 실측 박스(320)의 교차/중첩 영역( A _BBd ∩ A _BBg _{_A} )에서 감산된다.

또한, 정규화되기 전에(즉, 탐지 박스(310)의 전체 영역으로 나누기 전에), 클래스 A에 대한 실측 박스(320)와 클래스 B에 대한 실측 박스(330)의 중첩/교차 영역(= A _{BBg_A} ∩ A _BBg _{_B} )의 절반이 수학식 7b의 탐지 박스(310)와 클래스 B에 대한 실측 박스(330)의 교차/중첩 영역( A _BBd ∩ A _BBg _{_B} )에서 감산된다.

달리 말해서, 라벨을 할당할 때, 실측 박스들의 중첩 영역은 분할되어 할당된다고 볼 수 있다.

본 발명의 몇몇 실시예들에 따르면, (이전의 탐지 단계로부터) 중첩 영역은 가장 높은 신뢰 점수(confidence score)를 갖는 클래스로 할당될 수 있다. 예를 들어, 탐지 박스(310)가 클래스 A에 대해 더 높은 신뢰 점수를 가지고 있다면, 클래스/객체 A에 대한 탐지 박스(310)의 라벨( L _A ), 클래스/객체 B에 대한 탐지 박스(310)의 라벨( L _B ), 및 배경에 대한 탐지 박스(310)의 라벨( L _bg )은 수학식 8a 내지 수학식 8c에 따라 결정될 수 있다.

[수학식 8a]

[수학식 8b]

[수학식 8c]

도 3, 수학식 7a 내지 수학식 7c, 및 수학식 8a 내지 수학식 8c를 참조하여 앞서 설명된 두 가지 할당 방식 모두 임의의 개수의 클래스들로 일반화 될 수 있다.

본 발명의 몇몇 실시예들에 따르면, 객체 후보 생성기(object candidate generator)로 사용되는 싱글 샷 디텍터(single shot detector: SSD)와 같은 주요한 객체 탐지 프레임워크 및 객체 분류 프레임워크를 이용하여, 탐지 박스가 생성될 수 있다. 후보 탐지(candidate detection)는 이차 분류 네트워크(secondary classification network)에 의해 더 분류되어 관심 클래스(class of interest)에 속하게 될 수 있다. 프레임워크와 같은 좀더 상세한 내용에 관해서는 "Du et al., Fused DNN : A deep neural network fusion approach to fast and robust pedestrian detection, arXiv:1610.034466v1 (11 Oct. 2016)"를 참조할 수 있다. 이러한 프레임워크에서, 주요한 프레임워크로부터의 후보 객체 탐지는 실측 박스와 중첩되어 객체의 종류/타입으로 라벨링할 수 있다. 본 발명의 몇몇 실시예에 따르면, 이차 분류 네트워크는, 앞서 언급한 바와 같이, 각 클래스의 상대적인 중첩 영역들을 이용하는 소프트 라벨에 의해 훈련될 수 있다.

이와 대조적으로, 통상적인 하드 라벨은 두 박스의 교차 영역(교집합)이 두 박스의 합 영역(합집합)의 50%를 초과하는지 여부에 따라 생성될 수 있다(수학식 1). 그리고 이는 단지 하나의 클래스와 디폴트 배경 클래스에만 적용이 가능할 수 있다.

ETH와 INRIA 데이터 세트를 사용하여 딥 러닝 머신(죽, ResNet와 GoogleNet)이 이미지에서 보행자(pedestrian)를 탐지하도록 훈련한 실험/시뮬레이션에서, 앞서 언급한 수학식 6a 및 수학식 6b와 같은 문턱(threshold)/경계(boundary)를 사용한 소프트 라벨링 기술이 적용되었다. ETH와 INRIA 데이터 세트는 " Ess et al., A mobile vision system for robust multi-person tracking, in IEEE Conference on Computer Vision and Pattern Recognition (CVPR'08), IEEE Press, June 2008"에서 정의될 수 있다.

구체적으로, 중첩에 대한 하위 문턱(lower threshold)이 0.3이고, 중첩에 대한 상위 문턱(upper threshold)은 0.7일 수 있다. 정규화된 중첩 영역이 하위 문턱보다 작으면 0이 할당될 수 있고, 상위 문턱보다 크면 1이 할당될 수 있다. 가변 값들이 라벨로 할당될 수 있는 범위 0.3 내지 0.7 사이에서, 사용될 수 있는 특정 수학식, 예를 들어, 수학식 5a, 수학식 6a, 수학식 7a, 및 수학식 7b 등, 에 따라 특정 값을 가질수 있다. 또 다른 실험/시뮬레이션에서 문턱 값은 0.4와 0.6이 사용되었다.

후보 경계 박스(candidate bounding box)와 실측 경계 박스(ground-truth bounding box) 사이의 중첩 비율은 라벨을 할당하는데 사용될 수 있다. 소프트 라벨링 방법은 각 후보 경계 박스에 보행자(즉, 객체)가 있는지 여부를 보여줄 뿐만 아니라, (보행자를 포함하는) 각 후보 경계 박스에서 보행자가 얼마나 많은 영역을 차지하는지를 보여줄 수 있다. 이는 특히 중첩 비율이 대략 0.5이고, 하드 라벨링 방법이 경계선상에 있는 경우에 유용할 수 있다. 보행자 미탐지율 성능을 비교해보면, ETH 데이터 세트에서, 하드 라벨링 방법으로 달성가능한 보행자 미탐지율 33%에서, 하이브리드 소프트-하드 라벨링(hybrid soft-hard labelling) 방법의 보행자 미탐지율은 30.4%로 그 성능이 증가하였다.

본 발명의 몇몇 실시예들에 따른 소프트 라벨링은 영역 기반 콘볼루션 뉴럴 네트워크(region-based convolutional neural networks: R-CNN)와 같은 멀티-태스크 딥 러닝(multi-task deep learning)에 적용될 수 있다. "Ren et al., Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, arXiv:1506.01497v3 (06 Jan. 2016)"를 참조하도록 한다.

이러한 네트워크에서, 영역 제안 네트워크(region proposal networks: RPN)은 객체/객체 부존재 탐지 (object detection/no object detection)를 제공할 수 있다. 이러한 탐지는 관심 영역(region of interest: ROI) 분류 레이어에 의해 k 개의 클래스 중 하나로 더 분류될 수 있다. 본 발명의 몇몇 실시예들에 따른 소프트 라벨링을 적용할 때, 소프트 라벨은 RPN의 탐지 출력으로부터 생성될 수 있다. 다중 레벨(multiple level)의 문턱 값의 사용을 포함하는 어떠한 소프트 라벨링 할당 방식도 사용될 수 있다. 두 개의 티어(tier)에서 0과 1이 할당되었다면, 이를 소프트 라벨링과 하드 라벨링의 조합을 포함하는 "하이브리드"방식이라 부를 수 있을 것이다. 그러나 본 명세서에서 사용되는 용어의 의미에 따라 "소프트" 라벨링 방식이라 부르는 것이 더 적절할 수 있다. 멀티-태스크 딥 러닝에서 참 클래스(true class)에만 대응되는 탐지로부터 그래디언트(gradients)를 역-전파(back propagation)하는 하드 라벨링과 비교했을때, 소프트 라벨링이 더 뛰어난 정밀도와 정확도를 제공할 수 있다.

본 발명의 몇몇 실시예들에 따르면, 탐지(detection)와 분류(classification) 두 개의 단계가 가정될 수 있다. 탐지 단계는, 분류 단계에서 상대적인 중첩 비율이 소프트 라벨을 할당하는데 이용되는, 클래스/객체 탐지 박스와 클래스/객체 실측 박스를 생성할 수 있다. 그러므로, 분류 단계는 확률의 합이 1인 각 탐지 후보에 대한 각 클래스의 선험적 확률(priori probability)을 결정하기 위한 것으로 보여질 수 있다. 그러나, 일반적으로, 소프트 라벨링 기술은 조금 더 넓게 적용가능할 수 있고, 탐지 단계를 요구하지 않을 수 있다.

넓게 말해서, 본 발명의 몇몇 실시예들에 따른 소프트 라벨링은 입력 특성(input feature)에 기초한 분류에 대한 선험적 확률(priori probability)을 생성하는 메커니즘(mechanism)으로서 사용될 수 있다. 이러한 선험적 확률을 생성하여 구현되는 특정 방법은, 본 발명의 기술분야의 통상의 지식을 가진자가 이해할 수 있는 바와 같이, 다양하게 변형되어 실시될 수 있다.

비-탐지(non-detection) 프레임워크에서의 분류와 관련하여, 소프트 라벨은, 예를 들어, 구별되는 탐지 단계 없이 각 클래스에 대한 선험적 확률을 제공할 수 있는, 비-딥 러닝 빠른 분류 시스템(non-deep learning fast classification system)에서 사용하는 것과 같은 이차 분류 메커니즘(secondary classification mechanism)이나 다른 부수적인 정보(side information)를 이용하여 추출되고 할당될 수 있다. 부수적인 정보는 관측되는 객체가 직접적으로 제공하지 않는, 탐지 객체에 관한 임의의 정보일 수 있다.

예를 들어, 자동 스피치 처리(automatic speech processing)를 위한 음향 모델링(acoustic modelling)에 관한 음성 분류 시스템(phone classification system)은 본 발명의 몇몇 실시예들에 따른 소프트 라벨링을 이용할 수 있다. "음성(phone)"은 "음소(phoneme)"와 유사하지만, 추상적이지는 않다. "음성(phone)"은 그 소리가 단어의 의미에 크리티컬(critical)한지 여부와 관계 없이 구별되는 음성일 수 있다. 또한, "음성(phone)"은 관련 언어에 상관 없이 구별되는 음성일 수 있다. 반면, "음소(phoneme)"는 의미와 연관되고, 오직 특정 언어와 결함되어 사용될 수 있다. 간단히 말해서, "음성(phone)"은 인간의 목소리가 만든 "소리"의 단위일 수 있다.

그러므로, 음성(phone) 분류 시스템과 이미지 분류 시스템간의 한가지 중요한 차이는, 음향 레벨에서 음성(phone) 분류에 대한 실측(groud-truth)이 없는 것일 수 있다. 그러나, 대신에 단어 레벨이나 글자 레벨에서만 실측이 존재할 수 있다. 따라서, 다른 메카니즘이 사용되어, 훈련 세트에서 각 입력 특성 요소(input feature element)들의 각 클래스에 대한 소프트 라벨을 생성하는데 이용되는 예비 분류(preliminary classification)를 제공할 수 있다.

음향 모델 분류(acoustic model classification)에서, 음성(phone)과 가장 잘 매칭되었을 때, 각 입력 음향 특성(input acoustic feature)은 보통 1이 라벨링될 수 있다. 그렇지 않은 경우, 0이 라벨링 될 수 있다. 정렬(alignment)이라고 불리는 과정에서, 은닉 마르코프 모델(hidden Markov model: HMM), 가우시안 혼합 모델(Gaussian mixture model: HMM), 또는 다른 간단한 뉴럴 네트워크와 같은 간단한 메카니즘으로부터의 분류 점수에 대한 하드 결정 디코딩(hard decision decoding)은 이러한 이진 라벨링(binary labelling)을 생성할 수 있다.

본 발명의 몇몇 실시예들에 따라, 하드 결정 디코딩에 기초하는 하드 결정 라벨링 대신에, 간단한 모델/메카니즘으로부터의 분류 점수로부터 직접적으로 소프트 라벨이 생성될 수 있다. 예를 들어, 간단한 모델/메카니즘은 위에서 언급한 은닉 마르코프 모델(hidden Markov model: HMM), 가우시안 혼합 모델(Gaussian mixture model: HMM), 또는 간단한 미리 훈련된 뉴럴 네트워크일 수 있다.

그렇지 않으면, 소프트 라벨은 입력 음향 특성 프레임(input acoustic feature frame)에 관한 리스트 디코더(list decoder)로부터 추출될 수 있다. 리스트 디코더는 가장 개연성있는(most probable) 음성(phone) 시퀀스 리스트를 제공할 수 있다. 반면, 비-리스트 디코더(non-list decoder)는 단지 가장 그럴듯한(most plausible) 음성(phone) 시퀀스 리스트를 제공할 수 있다. 음향 특성 프레임은 관측된 말소리(speech)의 음향 특성의 시간 윈도우(temporal window)에 대응할 수 있다. 각　정렬된　입력　음향　특성에　대응하는　각　가능한　음성(phone)에　대한　소프트 라벨이 추출되어, L 개의 가장 좋은 경로가 선택될 수 있다.

본 발명의 몇몇 실시예들에서, 최대 우도 디코딩(maximum likelihood decoding)이 소프트 라벨을 추출하기 위해 사용될 수 있다. 입력 특성 벡터 F 가 주어지면, T 는 음성(phone) p 의 격자(trellis)를 통한 모든 가능한 경로의 세트일 수 있다. 달리 말해서, T 는 입력 음향 특성 벡터 F 에 대한 모든 가능한 정렬된 음성(phone) p 의 시퀀스 S _i 의 세트일 수 있다. 시퀀스 S _i 에서 분류될 k 번째 프레임에 대한 소프트 라벨은, 수학식 9에 보여지듯이, S _i,k 가 가능한 음성(phone) p 중 하나로 분류될 수 있는 확률일 수 있다.

［수학식　９］

상기 수학식 9로부터, 이러한 소프트 라벨링 방식은, 앞서 수학식 4에서 언급한 모든 클래스들에 걸친 합은 1이라는 라벨 기준(label criterion) 또한 만족시킬 수 있다는 것을 보여줄 수 있다. 달리 말해서, C 가 모든 가능한 음성(phone)의 세트이라면,

를 만족할 수 있다.

입력 음향 특성 벡터 F가 주어졌을 때, i 번째 가능한 시퀀스 S _i 의 확률 P ( S _i | F )는 경로의 집합 메트릭(aggregated metric)으로부터 계산될 수 있다.

거리 메트릭(distance metric)이 사용되는 경우, 여기에서 i 번째 가능한 시퀀스 S _i 는 길이 N 을 가질 수 있고, 수학식 10a 에서 보여지듯이, 제곱 거리 메트릭으로 간주될 수 있는 M _i 가 결정될 수 있다.

[수학식 10a]

[수학식 10b]

본 발명의 기술분야에서 통상의 지식을 가진자가 이해하고 있듯이, 포워드-백워드 알고리즘(forward-backward algorithm)은 지수적인 복잡성(exponential complexity) 없이 최대 사후(maximum a posteriori: MAP) 솔루션 P ( S _i,k = p | F ) 을 추정하기위해 사용될 수 있다.

비-MAP 디코더를 사용하여 L -베스트 시퀀스( L -best sequence)만 출력하는 L -베스트 디코더( L -best decoder)나 리스트 디코딩 방식이 시용되는 경우, 수학식 9에서의 합계를 L -베스트 시퀀스에만 제한함으로써, 복잡도가 훨씬 더 많이 감소될 수 있다. 수학적인 관점에서, T _L 이 리스트 디코더로부터 출력되는 크기 L 의 시퀀스를 갖는 T 의 서브 세트(subset)나 L -베스트 디코더에 대응하면, ( T _L 내에 있는) 시퀀스 S _i 에서 k 번째 프레임에 대한 소프트 라벨은, 수학식 11에서 볼 수 있듯이, S _i,k 가 가능한 음성(phone) p 중 하나로 분류될 확률일 수 있다.

[수학식 11]

본 발명의 몇몇 실시예에서 설명한 바와 같이, 본 명세서에서 설명된 소프트 라벨링 기술은, 분류 단계에서 탐지 경계 박스와 실측 경계 박스 사이의 교차 영역에 기초한 이미지 라벨링을 포함하여, 많은 새로운 양상을 가질 수 있다. 소프트 라벨링은, 매우 넓은 다양한 가능한 할당 방식을 제공할 수 있다. 예를 들어, 0 또는 1의 라벨 값은, 탐지 경계 박스와 실측 경계 박스 사이의 교차 영역에 기초하여(예를 들어, 수학식 6a), 0 내지 1사이의 가변 라벨 값과 함께 사용될 수 있다. 비록 때때로 "하이브리드" 또는 하드 라벨링 및 소프트 라벨링의 조합으로 불리지만, 이러한 할당 방식은 본 명세서에서 "소프트 라벨링"이라는 용어에 포함된다.

위에서 설명한 바와 같이, 여러 일반적인 데이터세트를 사용하여 객체 탐지를 수행할 때, 소프트 라벨링이 하드 라벨링보다 더 나은 성능을 가지는 실험적인 결과를 볼 수 있다.

다중 실측 경계 박스(multiple ground-truth bounding boxes)가 각각의 다른 탐지 경계 박스의 내부에서 중첩될 때, 많은 방법들이 본 발명의 몇몇 실시예들에 따라 사용되어, 라벨 값들의 총 합계가 1이 되도록 할 수 있다. 본 명세서에서는 클래스 간의 중첩 영역을 나누는 것(수학식 7a 내지 수학식 7c)과 탐지 단계로부터 가장 높은 신뢰 점수를 갖는 클래스에 중첩 영역의 전부를 할당하는 것(수학식 8a 내지 수학식 8c)의 두 가지 예시들이 설명되었다. 그러나, 본 발명의 기술분야에서 통상의 지식을 가진자라면 많은 다른 방법들을 사용하여, 라벨 할당 방식에서 다중 클래스와 탐지 경계 박스의 중첩을 다루어, 확률(라벨 값)의 총합이 1이 되도록 하는 것을 생각해 낼 수 있을 것이다.

게다가, 본 발명의 몇몇 실시예들로 설명한 소프트 라벨링 기술은 이미지 분석 및/또는 탐지 및 분류 단계를 갖는 딥 러닝 시스템에 한정되지 않는다. 앞서 설명 하였듯이, 탐지 단계가 없는 이미지 분석과 같은 방법으로, 소프트 라벨링 기술은 음향 모델링(acoustic modelling) 및 목소리 인식(voice recognition)이 적용되는 딥 러닝 머신/시스템에 사용될 수 있다.

이러한 예시들은 단순히 예시적인 것일 뿐이며, 본 발명의 기술분야에서 통상의 지식을 가진자라면, 본 발명의 몇몇 실시예에 따른 소프트 라벨링 기술을 이용하고 응용하여 딥 러닝 머신/시스템을 훈련시킬 수 있을 것이다.

도 4는 본 발명의 몇몇 실시예들에 따른 일반적인 딥 러닝 훈련 방법을 설명하는 순서도이다.

분류를 위한 후보 유닛이 수신된다(410). 이미지에 대한 딥 러닝 머신에서는, 탐지 단계는 후보 탐지 경계 박스를 생성한다. 이때, 탐지 단계는 보통 신뢰 점수 역시 생성한다. 소리에 대한 딥 러닝 머신에서는, 입력 오디오 특성의 음성(phone)이 수신된다.

후보 유닛은 적어도 하나의 라벨이 0 과 1 사이에서 가능한 값의 범위를 갖는 소프트 라벨링에 의해 분류된다(420). 이미지에 대한 딥 러닝 머신에서는, 분류 단계는, 적어도 부분적으로는 탐지 경계 박스와 클래스에 대한 실측 경계 박스의 중첩에 기초하여, 탐지 경계 박스에 대해 이 클래스의 소프트 라벨을 생성한다. 소리에 대한 딥 러닝 머신에서는, 입력 오디오 특성의 음성(phone)에 대한 소프트 라벨은, 확률 모델(probability model) 및/또는, 예를 들어, 은닉 마르코프 모델(hidden Markov Model: HMM), 가우시안 혼합 모델(Gaussian mixture model: GMM), 상대적으로 간단한 미리 훈련된 뉴럴 네트워크, 최대 우도 디코딩(maximum likelihood decoding), 거리 메트릭(distance metric), 소프트 출력 디코딩 알고리즘(soft output decoding algorithm), 또는 리스트 디코딩(list decoding) 방식과 같은 뉴럴 네트워크를 이용하여 생성된 분류 점수로부터 직접 생성될 수 있다.

앞서 언급한 바와 같이, 본 발명의 몇몇 실시예들에 따른 소프트 라벨링 할당 방식은 단지 하나의 라벨에서만 0과 1사이의 값의 영역을 갖는 반면, 하나 이상의 다른 라벨은 그 값으로 단지 0 또는 1의 값을 갖는 방식을 포함할 수 있다. 그리고 이러한 방식도 또한 "하이브리드"방식으로 부를수 있을 것이다. (하드 라벨은 단지 0 또는 1인 반면, 소프트 라벨은 0 에서 1사이의 값의 영역을 가질수 있다.)

도 5는 본 발명의 몇몇 실시예들에 따른 딥 러닝 훈련 장치를 설명하는 예시적인 도면이다. 장치(500)는 적어도 하나의 프로세서(processor, 510)와 하나 이상의 비일시적 컴퓨터 판독가능한 매체(non-transitory computer-readable media, 520)를 포함할 수 있다. 적어도 하나의 프로세서(510)는 하나 이상의 비일시적 컴퓨터 판독가능한 매체(520)에 저장된 명령을 실행할 때, 분류를 위해 후보 유닛을 수신하고, 소프트 라벨링에 의해 후보 유닛을 분류하되, 소프트 라벨링은 적어도 0 과 1 사이의 범위에서 복수의 가능한 값들을 포함하는 하나의 라벨을 제공할 수 있다. 게다가, 하나 이상의 비일시적 컴퓨터 판독가능한 매체(520)는 적어도 하나의 프로세서(510)가 위에서 열거된 단계들을 실행하도록 하는 명령들을 저장할 수 있다.

도 6은 본 발명의 몇몇 실시예들에 따른 장치를 제조하고 테스트하는것에 관한 예시적인 순서도이다.

적어도 하나의 프로세서와 하나 이상의 비일시적 컴퓨터 판독가능한 매체를 포함하는 딥 러닝 훈련이 가능한 장치(이 경우, 칩셋(chipset))가 제조될 수 있다(650). 적어도 하나의 프로세서는 하나 이상의 비일시적 컴퓨터 판독가능한 매체에 저장된 명령을 실행할 때, 분류를 위해 후보 유닛을 수신하고, 소프트 라벨링에 의해 후보 유닛을 분류하되, 소프트 라벨링은 적어도 0 과 1 사이의 범위에서 복수의 가능한 값들을 포함하는 하나의 라벨을 제공할 수 있다. 하나 이상의 비일시적 컴퓨터 판독가능한 매체는 적어도 하나의 프로세서가 위에서 열거된 단계들을 실행하도록 하는 명령들을 저장할 수 있다.

장치(이 경우, 칩셋(chipset))가 테스트된다. 테스트는 장치가 하나 이상의 비일시적 컴퓨터 판독가능한 매체(520)에 저장된 명령을 실행할 때, 분류를 위해 후보 유닛을 수신하고, 소프트 라벨링에 의해 후보 유닛을 분류하되, 소프트 라벨링은 적어도 0 과 1 사이의 범위에서 복수의 가능한 값들을 포함하는 하나의 라벨을 제공하는 적어도 하나의 프로세서를 갖는지 검사하고, 장치가 적어도 하나의 프로세서가 하나 이상의 비일시적 컴퓨터 판독가능한 매체(520)에 저장된 명령을 실행할 때, 분류를 위해 후보 유닛을 수신하고, 소프트 라벨링에 의해 후보 유닛을 분류하되, 소프트 라벨링은 적어도 0 과 1 사이의 범위에서 복수의 가능한 값들을 포함하는 하나의 라벨을 제공하기 위한 명령을 저장하는 하나 이상의 비일시적 컴퓨터 판독 가능한 매체를 갖는지 검사하는 것을 포함한다(660).

본 발명의 몇몇 실시예들에 따라, 본 발명의 기술분야에서 통상의 지식을 가진 자라면 이해할 수 있듯이, 앞서 언급한 단계들 및/또는 동작들은 특정 실시예 및/또는 구현예에 따라, 상이한 사건(epoches) 등에 대해 다른 순서 또는 병렬로, 또는 동시에 발생할 수있다. 상이한 실시예들은 다른 순서 또는 상이한 방법 또는 수단에 의해 동작을 수행할 수 있다. 본 발명의 기술분야에서 통상의 지식을 가진 자가 이해할 수 있는 바와 같이, 일부 도면은 수행된 동작의 간략화된 표현이고, 본 명세서의 설명은 개요를 간략화한 것이며, 실제 구현은 훨씬 더 복잡하고, 더 많은 단계 및/또는 구성요소를 요구하며, 또한 특정 구현의 요구 사항에 따라 달라진다. 표현을 단순화한 것은, 본 발명의 기술분야에서 통상의 지식을 가진자가 이러한 도면들을 알고 이해할 수 있고, 본 설명에 관련이 없거나 및/또는 도움이 되지 않기 때문에, 다른 필수 단계를 나타내지 않는다.

유사하게, 일부 도면들은 단지 관련된 구성요소만 보여주는 간략화된 블록도이고, 이러한 관련된 구성요소들 중 일부는, 본 발명의 기술분야에서 통상의 지식을 가진 자들은 이해할수 있는 바와 같이, 실제 하드웨어보다 해당 분야에서 잘 알려진 기능 및/또는 구동을 표현할 뿐이다. 이러한 경우에, 구성요소/모듈들의 일부/전부는 다양한 방법 및/또는 조합으로 실행되거나 공급될 수 있고, 부분적으로 펌웨어 및/또는 하드웨어로 실행되거나 공급될 수 있다.

이는 적어도 하나 이상의, 응용 주문형 집적 회로(application-specific integrated circuits; ASICs), 표준 집적 회로(standard integrated circuits), 마이크로컨트롤러(microcontrollers) 및/또는 임베디드 컨트롤러(embedded controllers)를 포함하고 적절한 명령을 수행하는 컨트롤러, 필드 프로그래머블 게이트 어레이(field-programmable gate arrays; FPGAs), 컴플랙스 프로그래머블 논리 디바이스(complex programmable logic devices; CPLDs), 및 이와 비슷한 구성요소/모듈과 같은 펌웨어 및/또는 하드웨어를 포함할 수 있으나, 이에 한정되지 않는다. 또한 이 시스템 구성요소들 및/또는 데이터 구조들의 전부/일부는, 컴퓨터 판독 가능한 매체 및/또는 하나 이상의 관련된 컴퓨팅 시스템 또는 장치들을 적어도 설명된 기술들의 일부를 수행하게 하기 위해 실행하거나, 달리 사용하거나 제공하도록 가능하게 하거나 설정하기 위하여, 컨텐츠로(예컨대, 실행 가능하거나 다른 기계 판독가능한 소프트웨어 명령어 또는 구조화된 데이터) 비일시성의 컴퓨터 판독 가능한 매체에(예컨대, 하드디스크, 메모리, 컴퓨터 네트워크, 셀룰러 무선 네트워크 또는 다른 데이터 전송 매체, DVD 또는 플래쉬 메모리 장치 같은, 적절한 드라이브나 적절한 연결을 통해 판독되는 휴대용 매체) 저장될 수 있다.

하나 이상의 프로세서, 단순한 마이크로 컨트롤러, 컨트롤러, 및 그러한 것들은, 단독이든 혹은 다중 처리 장치이든, 본 발명의 실시예를 구현하기 위해 비일시성의 컴퓨터 판독 가능한 매체에 저장된 명령의 시퀀스(sequence)를 실행 하기 위해 사용될 수 있다. 일부 실시예에서, 하드-와이어드 회로(hard-wired circuitry)가 소프트웨어 명령어들 대신에 또는 소프트웨어 명령어들과 조합되어 사용될 수 있다. 그러므로 본 발명의 실시예들은 임의의 하드웨어 회로, 펌웨어, 및/또는 소프트웨어의 특정 조합에 한정되지 않는다.

여기에서 사용된 용어 "컴퓨터 판독 가능한 매체"는 프로세서에 실행을 위해 제공될 수 있는 명령을 저장하는 임의의 매체를 지칭한다. 그러한 매체는 비휘발성 매체 또는 휘발성의 매체를 포함할 수 있으나 이에 한정되지는 않는, 다양한 형태로 존재할 수 있다. 비일시성의 컴퓨터 판독 가능한 매체의 일반적인 형태는 예컨대, 플로피 디스크(floppy disk), 플렉서블 디스크(flexible disk), 하드 디스크(hard disk), 마그네틱 테이프(magnetic tape) 또는 임의의 다른 마그네틱 매체, CD-ROM, 임의의 다른 광학적 매체, 펀치 카드(punch card), 페이퍼 테이프(paper tape), 임의의 다른 홀 패턴을 가진 물리적 매체, RAM, PROM, EPROM, FLASH-EPROM, 임의의 다른 메모리 칩(memory chip) 또는 카트리지(cartridge), 또는 프로세서에 의해 실행될 수 있는 명령들을 저장 할 수 있는 임의의 다른 매체일 수 있다.

본 발명의 몇몇 실시예는 적어도 부분적으로 휴대용 장치(portable device)에서 실행될 수 있다. 여기에서 사용된 "휴대용 장치" 및/또는 "모바일 장치"는, 무선 신호들을 수신할 수 있는 능력을 가지고 있는, 임의의 휴대가능한 또는 이동가능한 전자 장치를 지칭할 수 있다. 이는 멀티미디어 플레이어(multimedia player), 통신 장치(communication device), 컴퓨팅 장치(computing device), 또는 네비게이팅 장치(navigating device) 등을 포함할 수 있으나, 이에 한정되지는 않는다. 그러므로, 모바일 장치는 사용자 단말(user equipment; UE), 랩탑(laptop), 태블릿 컴퓨터(tablet computer), PDA(Portable Digital Assistant), mp3 플레이어(mp3 player), 핸드헬드 PC(handheld PC), IMD(Instant Messaging Device), 셀룰러 전화기(cellular telephone), GNSS 수신기(Global Navigational Satellite System receiver), 시계(watch), 또는 인간이 입을 수 있거나 옮길 수 있는 임의의 이러한 장치들을 포함할 수 있으나, 이에 한정되지는 않는다.

본 발명의 몇몇 실시예들은, 본 발명의 기술분야에서 통상의 지식을 가진 자들이 이해하고 있듯이, 마이크로 칩(microchip), 실리콘 칩(silicon chip), 컴퓨터 칩(computer chip), 또는 단지 칩(chip)으로도 불리우는 집적 회로(integrated circuit; IC)에서 실행될 수 있다. 예컨대, 이러한 IC는 브로드밴드(broadband) 및/또는 베이스밴드(baseband) 모뎀 칩(modem chip)일 수 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였으나, 본 발명은 상기 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 제조될 수 있으며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

510: 프로세서(processor)
520: 비일시적 컴퓨터 판독가능한 매체(non-transitory computer-readable media)

Claims

컴퓨팅 장치에 의해 수행되는 딥 러닝 훈련 방법에 있어서,
상기 컴퓨팅 장치는
분류(classification)를 위해 후보 유닛(candidate unit)을 수신하고,
소프트 라벨링(soft labelling)에 의해 상기 후보 유닛을 분류하는 것을 포함하되,
상기 후보 유닛은 탐지 경계 박스(detection bounding box)이고,
상기 소프트 라벨링은 0내지 1의 범위에서 복수 가능한 값들을 포함하는 적어도 하나의 라벨을 제공하고,
상기 소프트 라벨링은 클래스에 대한 실측 경계 박스(ground-truth bounding box)와 상기 탐지 경계 박스의 중첩 영역에 기초하여, 상기 탐지 경계 박스에 상기 클래스의 라벨을 제공하는 것을 포함하고,
상기 클래스의 상기 라벨을 제공하는 것은,
상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값이 제1 문턱 값 미만이면, 상기 클래스의 상기 라벨을 0으로 할당하고,
상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값이 제2 문턱 값을 초과하면, 상기 클래스의 상기 라벨을 1로 할당하고,
상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값이 상기 제1 문턱 값이거나, 상기 제2 문턱 값이거나, 상기 제1 문턱 값과 상기 제2 문턱 값 사이의 값이면, 상기 클래스의 상기 라벨을 상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값으로 할당하는 것을 포함하는, 딥 러닝 훈련(deep learning training) 방법.
제 1항에 있어서,
상기 후보 유닛은 이미지 내의 탐지 경계 박스(detection bounding box)이거나, 입력 오디오 특성의 음성(phones of an input audio feature) 내의 탐지 경계 박스(detection bounding box)인 딥 러닝 훈련 방법.
삭제
제 1항에 있어서,
상기 클래스의 상기 라벨을 제공하는 것은,
상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역을 이용하여 값이 유도되는 상기 클래스의 상기 라벨을 할당하는 것을 포함하는 딥 러닝 훈련 방법.
제 1항에 있어서,
상기 클래스의 상기 라벨을 제공하는 것은,
상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역과 관련된 비율로부터 값이 유도되는 상기 클래스의 상기 라벨을 할당하는 것을 포함하는 딥 러닝 훈련 방법.
제 5항에 있어서,
상기 클래스의 상기 라벨을 할당하는 것은,
상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역, 대 상기 탐지 경계 박스의 전체 영역에 대한 비율을 계산하는 것을 포함하는 딥 러닝 훈련 방법.
삭제
삭제
제 1항에 있어서,
상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값은,
상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역, 대 상기 탐지 경계 박스의 전체 영역의 비율인 딥 러닝 훈련 방법.
제 1항에 있어서,
상기 탐지 경계 박스에 상기 클래스의 상기 라벨을 제공하는 것은,
상기 탐지 경계 박스에 제공되는 탐지 단계(detection stage)에 의해 제공되는 하나 이상의 신뢰 레벨(confidence level)에 기초하는 딥 러닝 훈련 방법.
제 1항에 있어서,
상기 탐지 경계 박스에 상기 클래스의 상기 라벨을 제공하는 것은,
제1 클래스에 대한 실측 경계 박스와 상기 탐지 경계 박스의 중첩 영역에 기초하여, 상기 탐지 경계 박스에 제1 클래스의 라벨을 제공하고,
제2 클래스에 대한 실측 경계 박스와 상기 탐지 경계 박스의 중첩 영역에 기초하여, 상기 탐지 경계 박스에 제2 클래스의 라벨을 제공하는 것을 포함하는 딥 러닝 훈련 방법.
제 11항에 있어서,
상기 탐지 경계 박스, 상기 제1 클래스에 대한 상기 실측 경계 박스, 및 상기 제2 클래스에 대한 상기 실측 경계 박스의 중첩 영역이 존재하고,
상기 제1 클래스의 상기 라벨 및 상기 제2 클래스의 상기 라벨은, 상기 탐지 경계 박스와 상기 제1 클래스에 대한 상기 실측 경계 박스와 상기 제2 클래스에 대한 상기 실측 경계 박스의 중첩 영역에 기초하는 딥 러닝 훈련 방법.
제 1항에 있어서,
상기 후보 유닛은 입력 오디오 특성의 음성(phone)이고,
상기 소프트 라벨링은,
확률 모델(probability model) 또는 뉴럴 네트워크(neural network)로부터의 분류 점수 (classification socre)로부터 소프트 라벨(soft label)을 직접적으로 생성하는 것을 포함하는 딥 러닝 훈련 방법
제 1항에 있어서,
상기 후보 유닛은 입력 오디오 특성의 음성(phone)이고,
상기 소프트 라벨링은,
은닉 마르코프 모델(hidden Markov Model: HMM), 가우시안 혼합 모델(Gaussian mixture model: GMM), 또는 미리 훈련된 뉴럴 네트워크로부터의 분류 스코어로부터 소프트 라벨을 직접적으로 생성하는 것을 포함하는 딥 러닝 훈련 방법.
제 1항에 있어서,
상기 후보 유닛은 입력 오디오 특성의 음성(phone)이고,
상기 소프트 라벨링은,
최대 우도 디코딩(maximum likelihood decoding), 거리 메트릭(distance metric), 소프트 출력 디코딩 알고리즘(soft output decoding algorithm), 또는 리스트 디코딩(list decoding) 방식을 이용하여 소프트 라벨을 생성하는 것을 포함하는 딥 러닝 훈련 방법.
하나 이상의 비일시적 컴퓨터 판독가능한 매체(non-transitory computer-readable media); 및
적어도 하나의 프로세서(processor)를 포함하되,
상기 적어도 하나의 프로세서는 상기 하나 이상의 비일시적 컴퓨터 판독가능한 매체에 저장된 명령(instruction)을 실행할 때,
분류(classification)를 위해 후보 유닛(candidate unit)을 수신하고,
소프트 라벨링(soft labelling)에 의해 상기 후보 유닛을 분류하되,
상기 후보 유닛은 탐지 경계 박스(detection bounding box)이고,
상기 소프트 라벨링은 0 내지 1의 범위에서 복수의 가능한 값들을 포함하는 적어도 하나의 라벨(label)을 제공하고,
상기 소프트 라벨링은
클래스에 대한 실측 경계 박스(ground-truth bounding box)와 상기 탐지 경계 박스의 중첩 영역에 기초하여, 상기 탐지 경계 박스에 상기 클래스의 라벨을 제공하는 것을 포함하고,
상기 클래스의 상기 라벨을 제공하는 것은,
상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값이 제1 문턱 값 미만이면, 상기 클래스의 상기 라벨을 0으로 할당하고,
상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값이 제2 문턱 값을 초과하면, 상기 클래스의 상기 라벨을 1로 할당하고,
상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값이 상기 제1 문턱 값이거나, 상기 제2 문턱 값이거나, 상기 제1 문턱 값과 상기 제2 문턱 값 사이의 값이면, 상기 클래스의 상기 라벨을 상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값으로 할당하는 것을 포함하는 딥 러닝 훈련(deep learning training) 장치.
삭제
제 16항에 있어서,
상기 후보 유닛은 입력 오디오 특성의 음성(phone)이고,
상기 소프트 라벨링은,
확률 모델(probability model) 또는 뉴럴 네트워크(neural network)로부터의 분류 스코어(classification socre)로부터 소프트 라벨(soft label)을 직접적으로 생성하는 것을 포함하는 딥 러닝 훈련 장치.
딥 러닝 훈련이 가능한 칩셋을 제조하는 것은,
적어도 하나의 프로세서(processor)를 제공하고,
명령(instruction)을 저장하는 하나 이상의 비일시적 컴퓨터 판독가능한 매체를 제공하는 것을 포함하되,
상기 적어도 하나의 프로세서는 상기 하나 이상의 비일시적 컴퓨터 판독가능한 매체에 상기 저장된 명령을 실행할 때,
분류(classification)를 위해 후보 유닛(candidate unit)를 수신하고,
소프트 라벨링(soft labelling)에 의해 상기 후보 유닛을 분류하되,
상기 후보 유닛은 탐지 경계 박스(detection bounding box)이고,
상기 소프트 라벨링은
클래스에 대한 실측 경계 박스(ground-truth bounding box)와 상기 탐지 경계 박스의 중첩(overlap) 영역에 기초하여, 상기 탐지 경계 박스에 상기 클래스의 라벨을 제공하는 것을 포함하고,
상기 클래스의 상기 라벨을 제공하는 것은,
상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값이 제1 문턱 값 미만이면, 상기 클래스의 상기 라벨을 0으로 할당하고,
상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값이 제2 문턱 값을 초과하면, 상기 클래스의 상기 라벨을 1로 할당하고,
상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값이 상기 제1 문턱 값이거나, 상기 제2 문턱 값이거나, 상기 제1 문턱 값과 상기 제2 문턱 값 사이의 값이면, 상기 클래스의 상기 라벨을 상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값으로 할당하는 것을 포함하는 딥 러닝 훈련 가능한 칩셋 제조 방법.
장치가 적어도 하나의 프로세서를 가지는지 테스트하고,
상기 장치가 명령(instruction)을 저장하는 하나 이상의 비일시적 컴퓨터 판독가능한 매체를 가지는지 테스트하는 것을 포함하되,
상기 적어도 하나의 프로세서는 상기 하나 이상의 비일시적 컴퓨터 판독가능한 매체에 저장된 명령(instruction)을 실행할 때,
분류(classification)를 위해 후보 유닛(candidate unit)을 수신하고, 상기 후보 유닛은 탐지 경계 박스(detection bounding box)이고,
소프트 라벨링(soft labelling)에 의해 상기 후보 유닛을 분류하되, 상기 소프트 라벨링은 0 내지 1의 범위에서 복수의 가능한 값들을 포함하는 적어도 하나의 라벨(label)을 제공하고,
상기 소프트 라벨링은 클래스에 대한 실측 경계 박스(ground-truth bounding box)와 상기 탐지 경계 박스의 중첩(overlap) 영역에 기초하여, 상기 탐지 경계 박스에 상기 클래스의 라벨을 제공하는 것을 포함하고,
상기 클래스의 상기 라벨을 제공하는 것은,
상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값이 제1 문턱 값 미만이면, 상기 클래스의 상기 라벨을 0으로 할당하고,
상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값이 제2 문턱 값을 초과하면, 상기 클래스의 상기 라벨을 1로 할당하고,
상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값이 상기 제1 문턱 값이거나, 상기 제2 문턱 값이거나, 상기 제1 문턱 값과 상기 제2 문턱 값 사이의 값이면, 상기 클래스의 상기 라벨을 상기 클래스에 대한 상기 실측 경계 박스와 상기 탐지 경계 박스의 상기 중첩 영역에 기초한 값으로 할당하는 것을 포함하는 딥 러닝 훈련 장치 테스트 방법.