KR20220046324A

KR20220046324A - 인공 신경망을 이용한 추론을 위한 트레이닝 방법, 인공 신경망을 이용한 추론 방법, 및 추론 장치

Info

Publication number: KR20220046324A
Application number: KR1020200129614A
Authority: KR
Inventors: 손민정; 장현성
Original assignee: 삼성전자주식회사
Priority date: 2020-10-07
Filing date: 2020-10-07
Publication date: 2022-04-14
Also published as: US20220108136A1; JP2022061941A; EP3982296A1; CN114298311A; US11651053B2

Abstract

일 실시예에 따른 추론 방법 및 장치는 입력 데이터를 수신하고, 입력 데이터에 반응하여 인공 신경망이 활성화되는 상태 정보에 기초하여, 입력 데이터로부터 추론된 정보를 제공하며, 인공 신경망의 적어도 일부를 이용하여 입력 데이터를 인코딩 함으로써 생성되는 임베딩 벡터는 입력 데이터 내의 제1 부분 영역을 제1 정확도로 복원하고, 입력 데이터 내의 제2 부분 영역을 제2 정확도로 복원하는 정보를 포함하며, 제1 부분 영역은 추론된 정보 및 상태 정보 중 적어도 하나에 대응하여 적응적으로 결정된다.

Description

인공 신경망을 이용한 추론을 위한 트레이닝 방법, 인공 신경망을 이용한 추론 방법, 및 추론 장치{TRAINING METHOD FOR INFERENCE USING ARTIFICIAL NEURAL NETWORK, INFERENCE METHOD USING ARTIFICIAL NEURAL NETWORK, AND INFERENCE APPARATUS THEREOF}

아래의 실시예들은 인공 신경망을 이용한 추론을 위한 트레이닝 방법, 인공 신경망을 이용한 추론 방법, 및 추론 장치에 관한 것이다.

높은 성능을 위해 다양한 분야에서 트레이닝을 통한 신경망 기반의 방법을 사용하는 것이 일반적이다. 하지만, 신경망 기반의 알고리즘 적용 시에 트레이닝의 범용성(generality)을 향상시키는 것은 중요한 문제이다. 특히, 입력 데이터(training data)에 과적합(overfitting)된 신경망 모델은 일반적인 통계치 트레이닝에 실패할 수 있다. 따라서, 제한된 입력 데이터로부터 범용성을 기대할 수 있는 트레이닝 방법이 요구된다.

전술한 배경기술은 발명자가 본원의 개시 내용을 도출하는 과정에서 보유하거나 습득한 것으로서, 반드시 본 출원 전에 일반 공중에 공개된 공지기술이라고 할 수는 없다.

일 실시예에 따르면, 인공 신경망을 이용한 추론 방법은 입력 데이터를 수신하는 단계; 및 상기 입력 데이터에 반응하여 상기 인공 신경망이 활성화(activation)되는 상태 정보에 기초하여, 상기 입력 데이터로부터 추론된 정보를 제공하는 단계를 포함하고, 상기 인공 신경망의 적어도 일부를 이용하여 상기 입력 데이터를 인코딩(encoding) 함으로써 생성되는 임베딩 벡터(embedding vector)는 상기 입력 데이터 내의 제1 부분 영역을 제1 정확도로 복원(reconstruction)하고, 상기 입력 데이터 내의 제2 부분 영역을 제2 정확도로 복원하는 정보를 포함하며, 상기 제1 부분 영역은 상기 추론된 정보 및 상기 임베딩 벡터 중 적어도 하나에 대응하여 적응적으로 결정된다.

상기 입력 데이터로부터 상기 추론된 정보를 제공하는 단계는 상기 상태 정보에 기초하여, 상기 입력 데이터에 포함된 픽셀 별로 픽셀 와이즈 정보(pixel-wise information)를 제공하는 단계; 상기 상태 정보에 기초하여, 상기 입력 데이터에서 검출된 영역을 검출 윈도우(detection window)의 형태로 제공하는 단계; 및 상기 상태 정보에 기초하여, 상기 입력 데이터로부터 분류된 클래스(class)를 제공하는 단계 중 어느 하나를 포함할 수 있다.

상기 입력 데이터는 영상 데이터 및 음성 데이터 중 어느 하나를 포함할 수 있다.

상기 입력 데이터가 영상 데이터인 경우, 상기 제1 부분 영역은 상기 영상 데이터 내 상기 추론된 정보에 대응하는 관심 공간 영역을 포함할 수 있다.

상기 입력 데이터가 음성 데이터인 경우, 상기 제1 부분 영역은 상기 음성 데이터 내 상기 추론된 정보에 대응하는 관심 시간 구간을 포함할 수 있다.

상기 인공 신경망이 픽셀 와이즈 정보 또는 검출 윈도우를 추론하도록 설계된 경우, 상기 제1 부분 영역은 상기 추론된 정보에 대응하는 부분 영역으로 적응적으로 결정될 수 있다.

상기 인공 신경망이 클래스를 추론하도록 설계된 경우, 상기 제1 부분 영역은 상기 임베딩 벡터에 대응하는 부분 영역으로 적응적으로 결정될 수 있다.

상기 제1 정확도는 상기 제2 정확도 보다 높은 값을 가질 수 있다.

일 실시예에 따르면, 인공 신경망의 트레이닝 방법은 정답 레이블을 포함하는 트레이닝 데이터를 수신하는 단계; 상기 트레이닝 데이터를 인코딩함으로써 상기 트레이닝 데이터에 대응하는 임베딩 벡터를 추출하는 단계; 상기 인공 신경망의 추론 정보를 생성하는 제1 디코더를 이용하여 상기 임베딩 벡터를 디코딩하는 단계; 상기 트레이닝 데이터의 복원 정보를 생성하는 제2 디코더를 이용하여 상기 임베딩 벡터를 디코딩하는 단계; 상기 추론 정보와 상기 정답 레이블 간의 차이에 기초하여 제1 로스를 계산하는 단계; 상기 트레이닝 데이터 내, 상기 정답 레이블 및 상기 임베딩 벡터 중 적어도 하나에 대응하는 제1 부분 영역을 결정하는 단계; 상기 제1 부분 영역에 따른 상기 복원 정보와 상기 트레이닝 데이터 간의 차이에 기초하여 제2 로스를 계산하는 단계; 및 상기 제1 로스 및 상기 제2 로스에 기초하여 상기 인공 신경망을 트레이닝하는 단계를 포함한다.

상기 인공 신경망을 트레이닝하는 단계는 상기 제1 로스 및 상기 제2 로스에 기초하여, 상기 제1 부분 영역을 제1 정확도로 복원하고, 상기 트레이닝 데이터 내의 제2 부분 영역을 제2 정확도로 복원하도록 상기 인공 신경망을 트레이닝하는 단계를 포함할 수 있다.

상기 제1 부분 영역을 결정하는 단계는 상기 인공 신경망이 픽셀 와이즈 정보 또는 검출 윈도우를 추론하도록 상기 트레이닝 데이터 내, 상기 정답 레이블에 대응하는 부분 영역을 상기 제1 부분 영역을 결정하는 단계를 포함할 수 있다.

상기 제1 부분 영역을 결정하는 단계는 상기 인공 신경망이 클래스를 추론하도록 상기 임베딩 벡터에 대응하는 부분 영역을 상기 제1 부분 영역으로 결정하는 단계를 포함할 수 있다.

상기 인공 신경망을 트레이닝하는 단계는 상기 제1 로스 및 상기 제2 로스에 기초하여, 상기 트레이닝 데이터에 포함된 픽셀 별로 픽셀 와이즈 정보(pixel-wise information)를 제공하도록 상기 인공 신경망을 트레이닝하는 단계를 포함할 수 있다.

상기 인공 신경망을 트레이닝하는 단계는 상기 제1 로스 및 상기 제2 로스에 기초하여, 상기 트레이닝 데이터에서 검출된 영역을 검출 윈도우 형태로 제공하도록 상기 인공 신경망을 트레이닝하는 단계를 포함할 수 있다.

상기 인공 신경망을 트레이닝하는 단계는 상기 제1 로스 및 상기 제2 로스에 기초하여, 상기 트레이닝 데이터로부터 분류된 클래스(class)를 제공하도록 상기 인공 신경망을 트레이닝하는 단계를 포함할 수 있다.

상기 트레이닝 데이터는 영상 데이터 및 음성 데이터 중 어느 하나를 포함할 수 있다.

상기 트레이닝 데이터가 영상 데이터인 경우, 상기 제1 부분 영역은 상기 트레이닝 데이터 내에서 복원된 관심 공간 영역을 포함할 수 있다.

상기 트레이닝 데이터가 음성 데이터인 경우, 상기 제1 부분 영역은 상기 트레이닝 데이터 내에서 복원된 관심 시간 구간을 포함할 수 있다.

일 실시예에 따르면, 인공 신경망을 이용한 추론 장치는 입력 데이터를 수신하는 통신 인터페이스; 및 상기 입력 데이터에 반응하여 상기 인공 신경망이 활성화되는 상태 정보에 기초하여, 상기 입력 데이터로부터 추론된 정보를 제공하는 프로세서를 포함하고, 상기 인공 신경망의 적어도 일부를 이용하여 상기 입력 데이터를 인코딩 함으로써 생성되는 임베딩 벡터는 상기 입력 데이터 내의 제1 부분 영역을 제1 정확도로 복원하고, 상기 입력 데이터 내의 제2 부분 영역을 제2 정확도로 복원하는 정보를 포함하며, 상기 제1 부분 영역은 상기 추론된 정보 및 상기 임베딩 벡터 중 적어도 하나에 대응하여 적응적으로 결정된다.

상기 프로세서는 상기 상태 정보에 기초하여, 상기 입력 데이터에 포함된 픽셀 별로 픽셀 와이즈 정보를 제공하거나, 상기 상태 정보에 기초하여, 상기 입력 데이터에서 검출된 영역을 검출 윈도우의 형태로 제공하거나, 또는 상기 상태 정보에 기초하여, 상기 입력 데이터로부터 분류된 클래스를 제공할 수 있다.

상기 추론 장치는 HUD(Head Up Display) 장치, 3D 디지털 정보 디스플레이(Digital Information Display, DID), 내비게이션 장치, 3D 모바일 기기, 및 스마트 차량 중 적어도 하나를 포함할 수 있다.

도 1은 일 실시예에 따른 트레이닝 장치에서 범용성을 높이는 방법을 설명하기 위한 도면.
도 2는 일 실시예에 따른 추론 방법을 나타낸 흐름도.
도 3은 일 실시예에 따른 트레이닝 방법을 나타낸 흐름도.
도 4는 일 실시예에 따른 트레이닝 장치의 구성을 도시한 도면.
도 5는 도 4에 도시된 트레이닝 장치의 트레이닝 과정을 나타낸 흐름도.
도 6은 다른 실시예에 따른 트레이닝 장치의 구성을 도시한 도면.
도 7은 도 6에 도시된 트레이닝 장치의 트레이닝 과정을 나타내 흐름도.
도 8은 또 다른 실시예에 따른 트레이닝 장치의 구성을 도시한 도면.
도 9는 도 8에 도시된 트레이닝 장치의 트레이닝 과정을 나타낸 흐름도.
도 10은 일 실시예에 따른 추론 장치의 블록도.

이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.

실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

또한, 실시 예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.

어느 하나의 실시 예에 포함된 구성요소와, 공통적인 기능을 포함하는 구성요소는, 다른 실시 예에서 동일한 명칭을 사용하여 설명하기로 한다. 반대되는 기재가 없는 이상, 어느 하나의 실시 예에 기재한 설명은 다른 실시 예에도 적용될 수 있으며, 중복되는 범위에서 구체적인 설명은 생략하기로 한다..

도 1은 일 실시예에 따른 트레이닝 장치에서 범용성을 높이는 방법을 설명하기 위한 도면이다. 도 1을 참조하면, 일 실시예에 따른 인공 신경망을 이용한 추론을 위한 트레이닝 장치(100)의 구성의 일 예시가 도시된다.

일 실시예에 따른 트레이닝 장치(100)는 예를 들어, 인코더(Encoder; E)(110)를 통해 특징(Feature)(또는 코드(Code))를 생성하고, 제1 디코더(Decoder)(D₁)(120)를 통해 인코딩된 특징에 대한 추론을 수행하도록 구성된 신경망(130)에 적응적 오토 인코딩을 위한 제2 디코더(D₂)(140)를 더 포함하는 형태로 구성될 수 있다.

인코더(E)(110)는 트레이닝 데이터(X)에 대응하는 특징 벡터(feature vector) 또는 코드(code)를 생성할 수 있다. 제1 디코더(D₁)(120)는 인코더(E)(110)에 의해 생성된 특징 벡터 또는 코드를 디코딩 함으로써 트레이닝 데이터의 레이블을 추론할 수 있다. 이때, 인코더(110)와 제1 디코더(120)는 제1 디코더(D₁)(120)에 의해 추론된 트레이닝 데이터의 레이블(D₁(E(X))과 정답 데이터(y) 간의 차이를 최소화하도록 하는 제1 손실(loss)에 의해 트레이닝될 수 있다.

또한, 제2 디코더(D₂)(140)는 인코더(E)(110)에 의해 생성된 특징 벡터 또는 코드를 디코딩 함으로써 트레이닝 데이터를 복원할 수 있다. 인코더(110)와 제2 디코더(140)는 제2 디코더(D₂)(140)에 의해 복원된 트레이닝 데이터(D₂(E(x))와 트레이닝 데이터(x) 간의 차이를 최소화하도록 하는 제2 손실에 의해 트레이닝될 수 있다.

제2 디코더(D₂)(140)는 트레이닝 데이터(X)에 대응하는 전체 영역이 아닌, 트레이닝 데이터(X)의 일부 영역(예를 들어, 중요 부분 r(y))을 복원하도록 적응적으로 가이드 또는 제한될 수 있다. 이 경우, 트레이닝 장치(100)는 제2 디코더(D₂)(140)에 의해 복원된 중요 영역과 트레이닝 데이터(x) 간의 차이를 최소화하도록 정의되는 제2 손실에 의해 트레이닝될 수 있다. 이로 인하여 제2 디코더(D₂)(140)는 입력 데이터 내 중요 영역에 해당하지 않는 부분 대비 중요 영역에 해당하는 부분에 대하여 높은 정확도로 복원을 할 수 있다. 여기서, 정확도는 복원 정확도를 의미하며, '유사도'라고도 표현할 수 있다.

여기서, 중요 부분은 트레이닝 데이터(X)의 지역적 중요도(Local Importance)에 따라 적응적으로 결정될 수 있다. 중요 부분은 트레이닝 데이터(X) 전체 중 일부에 해당하는 중요 부분을 마스킹(masking)하는 역할을 수행할 수 있다.

예를 들어, 트레이닝 데이터가 영상 데이터인 경우, 중요 부분은 공간적 중요도(Spatial Importance)에 따라 결정될 수 있다. 트레이닝 데이터가 영상 데이터인 경우, 중요 부분은 예를 들어, 해당 영상 데이터에서 사용자의 관심 영역(Region Of Interest; ROI)에 해당할 수 있다. 또는, 예를 들어, 트레이닝 데이터가 음성 데이터인 경우, 중요 부분은 시간적 중요도(Temporal Importance)에 따라 결정될 수 있다. 트레이닝 데이터가 음성 데이터인 경우, 중요 부분은 예를 들어, 해당 음성 데이터에서 주 화자가 발화하는 시간 구간인 관심 시간 구간에 해당할 수 있다.

일 실시예에서 중요 부분(예를 들어, 관심 영역)은 다음과 같은 방법들을 통해 정의(또는 설정)될 수 있다. 관심 영역은 예를 들어, 픽셀 와이즈 정보(Pixel-Wise Information)에 기초한 타겟 영상(Target image)의 각 픽셀 값에 의해 정의될 수 있으며, r(y)로 표기될 수 있다. 여기서, 타겟 영상은 '정답 영상(Ground truth image)'이라고도 부를 수 있다. 관심 영역은 예를 들어, 검출 윈도우(detection window)를 이용하여 검출되는 타겟 영상의 위치 정보에 의해 정의될 수 있다.

또는, 다른 실시예에서, 관심 영역은 예를 들어, 후술하는 특징 활성화(feature activation) 영역의 분류(Classification)를 통해 정의될 수 있다. 이 경우, 관심 영역은 r(E(x))라고 표기될 수 있다.

일 실시예에서는 제2 디코더(D₂)(140)에 의해 추가적으로 정의되는 제2 손실 값에 의해, 트레이닝 데이터(X) 전체를 복원하는 것에 비해 인공 신경망에 주어지는 부하를 상대적으로 감소시키는 한편, 트레이닝 데이터(X)의 중요 영역에서의 보편성(generality)을 향상시킬 수 있다. 또한, 일 실시예에서는 제2 디코더(D₂)(140)에 의한 복원 영역을 제한함으로써 신경망의 추가적인 오버 헤드(overhead)를 최소화하여 학습 성능 하락을 방지할 수 있다. 그 결과, 일 실시예에 따르면, 다량의 입력 데이터를 이용하지 않고도 인공 신경망의 과적합(Overfitting)을 방지하고, 인공 신경망의 전반적인 성능을 향상시킬 수 있다.

일 실시예에 따른 트레이닝 장치(100)는 트레이닝 데이터(x)에 비해 차원(Dimension)이 줄어든 특징 또는 코드를 생성한 후, 이를 다시 복원하는 과정을 통해 데이터의 차원을 축소하고(Dimension Reduction), 노이즈(Noise) 등과 같은 아티팩트(Artifact)의 발생을 감소시킬 수 있다. 또한, 인코더(110)와 제2 디코더(140)로 구성되는 오토 인코더는 일반적으로 의미 있는 특징을 생성할 뿐만 아니라, 지도 학습(Supervised Learning)에 해당하면서도 트레이닝하고자 하는 대상(Target)에 해당하는 결과 데이터가 트레이닝 데이터와 동일하기 때문에 이를 획득하기 위한 추가 노력을 필요로 하지 않으며, 트레이닝되는 특징의 범용성(generality)을 향상시킬 수 있다.

도 2는 일 실시예에 따른 추론 방법을 나타낸 흐름도이다. 도 2를 참조하면, 일 실시예에 따른 추론 장치는 입력 데이터를 수신한다(210). 입력 데이터는 예를 들어, 영상 데이터 및 음성 데이터 등을 포함할 수 있으며, 반드시 이에 한정되지는 않는다. 추론 장치는 예를 들어, 통신 인터페이스(도 10의 1010 참조)를 통해 입력 데이터를 수신할 수 있다.

추론 장치는 단계(210)에서 수신한 입력 데이터에 반응하여 인공 신경망이 활성화(activation)되는 상태 정보에 기초하여, 입력 데이터로부터 추론된 정보를 제공한다(220).

여기서, '상태 정보'는 예를 들어, 인공 신경망을 구성하는 노드들의 내부 상태를 나타내는 정보에 해당할 수 있다. 이때, 노드들의 내부 상태에는 신경망의 피드백 구조에 의해 이전 시점에서 처리된 정보들이 축적된 정보(예를 들어, 공간 정보(spatial information) 및/또는 시간 정보(temporal information))가 내제될 수 있다. 상태 정보는 예를 들어, 히든 스테이트 벡터와 같은 벡터 형태의 정보일 수 있다. 상태 정보는 '히든 스테이트 정보(hidden state information)'라고도 부를 수 있다.

상태 정보는 예를 들어, 특징 활성화(Feature Activation) 영역들의 조합에 해당할 수 있다. 예를 들어, 컨볼루션 신경망(Convolutional Neural Network; CNN)에 영상이 입력된 경우, 차선, 차량, 보행자 등을 필터링하는 여러 개의 필터들을 거쳐 특징 맵(feature map)이 생성될 수 있다.

일 실시예에 따른 추론 장치에서 인공 신경망의 적어도 일부를 이용하여 입력 데이터를 인코딩(encoding) 함으로써 생성된 임베딩 벡터(embedding vector)는 입력 데이터 내의 제1 부분 영역을 제1 정확도로 복원(reconstruction)하고, 입력 데이터 내의 제2 부분 영역을 제2 정확도로 복원하는 정보를 포함한다. 예를 들어, 제1 정확도는 제2 정확도 보다 높은 값을 가질 수 있다. 이때, 인공 신경망의 적어도 일부는 예를 들어, 인공 신경망에서 인코더로 동작하는 일부 레이어에 해당할 수 있다.

입력 데이터 내의 제1 부분 영역은 인공 신경망에 의해 입력 데이터로부터 출력되는 추론된 정보, 추론 과정에서 인공 신경망의 내부에서 생성되는 상태 정보, 또는 이들의 조합에 대응하여 적응적으로 결정된다.

인공 신경망이 픽셀 와이즈 정보 또는 검출 윈도우를 추론하도록 설계된 경우, 입력 데이터 내의 제1 부분 영역은 인공 신경망에 의해 추론된 정보에 따라 적응적으로 결정될 수 있다. 예를 들어, 인공 신경망이 픽셀 와이즈 정보 또는 검출 윈도우를 추론하도록 설계된 경우, 입력 데이터 내의 제1 부분 영역은 인공 신경망에서 추론된 정보(예를 들어, 픽셀 와이즈 정보 또는 검출 윈도우)에 대응하는 부분 영역으로 적응적으로 결정될 수 있다.

또는 인공 신경망이 클래스를 추론하도록 설계된 경우, 입력 데이터 내의 제1 부분 영역은 인공 신경망의 인코더에 의해 생성된 임베딩 벡터에 따라 적응적으로 결정될 수 있다. 예를 들어, 인공 신경망이 클래스를 추론하도록 설계된 경우, 입력 데이터 내의 제1 부분 영역은 인코더에 의해 생성된 임베딩 벡터에 대응하는 부분 영역으로 적응적으로 결정될 수 있다. 보다 구체적으로, 여러 개의 필터들을 사용함으로써 채널 또한 여러 개가 생성되고, 인공 신경망은 각 채널마다 큰 값이 나오는 영역들(다시 말해, 특징이 활성화되는 특징 활성화 영역들)을 선택할 수 있다. 인공 신경망은 각 채널마다 큰 값이 나오는 영역들 중 중첩되는 영역들을 조합하여 관심 영역으로 설정할 수 있다. 상태 정보는 예를 들어, 후술하는 관심 영역(ROI)을 반영한 픽셀-와이즈 맵(Pixel-Wise Map) r(E(x))에 대응될 수 있다.

제1 부분 영역은 입력 데이터 내의 관심 영역에 해당하고, 제2 부분 영역은 입력 데이터 내에서 관심 영역을 제외한 나머지 영역에 해당할 수 있다. 예를 들어, 입력 데이터가 영상 데이터인 경우, 제1 부분 영역은 영상 데이터 내 추론된 정보에 대응하는 관심 공간 영역을 포함할 수 있다. 또는 입력 데이터가 음성 데이터인 경우, 제1 부분 영역은 음성 데이터 내 추론된 정보에 대응하는 관심 시간 구간을 포함할 수 있다.

추론 과정에서 이용되는 구성은 아니지만, 임베딩 벡터에 내재된 정보는 학습 과정에서 이용되는 제2 디코더를 이용하여 확인될 수 있다. 제2 디코더는 임베딩 벡터로부터 제1 부분 영역에 대응하여 제2 부분 영역 대비 높은 정확도로 입력 데이터를 복원할 수 있다.

단계(220)에서, 추론 장치는 예를 들어, 인공 신경망이 활성화 되는 상태 정보에 기초하여, 입력 데이터에 포함된 픽셀 별로 픽셀 와이즈 정보(pixel-wise information)를 제공하거나, 입력 데이터에서 검출된 영역을 검출 윈도우(detection window)의 형태로 제공하거나, 입력 데이터로부터 분류된 클래스(class)를 제공할 수 있다. 단계(220)에서, 입력 데이터로부터 추론된 정보는 예를 들어, 차선, 차량 보행자 등과 같이 관심 영역에 해당하는 영역, 및/또는 관심 화자의 음성 구간 등에 해당할 수 있다.

일 실시예에 따른 추론 장치는 예를 들어, HUD(Head Up Display) 장치, 3D 디지털 정보 디스플레이(Digital Information Display, DID), 내비게이션 장치, 3D 모바일 기기, 및 스마트 차량 등을 포함할 수 있으며, 반드시 이에 한정되지는 않는다.

도 3은 일 실시예에 따른 트레이닝 방법을 나타낸 흐름도이다. 도 3을 참조하면, 일 실시예에 따른 트레이닝 장치는 정답 레이블을 포함하는 트레이닝 데이터를 수신한다(310). 트레이닝 데이터는 예를 들어, 영상 데이터 및 음성 데이터 중 어느 하나를 포함할 수 있으며, 반드시 이에 한정되지는 않는다.

트레이닝 장치는 단계(310)에서 수신한 트레이닝 데이터를 인코딩함으로써 트레이닝 데이터에 대응하는 임베딩 벡터를 추출한다(320).

트레이닝 장치는 인공 신경망의 추론 정보를 생성하는 제1 디코더를 이용하여 단계(320)에서 추출한 임베딩 벡터를 디코딩한다(330). 트레이닝 장치는 제1 디코더를 이용하여 임베딩 벡터를 디코딩함으로써 추론 정보를 생성할 수 있다. 트레이닝 장치는 인공 신경망의 추론 정보와 트레이닝 데이터에 포함된 정답 레이블 간의 차이에 기초하여 제1 로스를 계산한다(350).

트레이닝 장치는 단계(310)에서 수신한 트레이닝 데이터의 복원 정보를 생성하는 제2 디코더를 이용하여 단계(320)에서 추출한 임베딩 벡터를 디코딩한다(340). 트레이닝 장치는 제2 디코더를 이용하여 임베딩 벡터를 디코딩함으로써 트레이닝 데이터의 복원 정보를 생성할 수 있다.

트레이닝 장치는 트레이닝 데이터 내 정답 레이블에 대응하는 제1 부분 영역을 결정하거나, 트레이닝 데이터로 인하여 생성되는 임베딩 벡터에 대응하는 제1 부분 영역을 결정한다(360). 트레이닝 데이터가 영상 데이터인 경우, 제1 부분 영역은 트레이닝 데이터 내에서 복원된 관심 공간 영역을 포함할 수 있다. 또는, 트레이닝 데이터가 음성 데이터인 경우, 제1 부분 영역은 트레이닝 데이터 내에서 복원된 관심 시간 구간을 포함할 수 있다.

일 실시예에 따르면, 트레이닝 데이터가 영상 데이터인 경우, 트레이닝 장치는 인공 신경망이 픽셀 와이즈 정보 또는 검출 윈도우를 추론하도록, 트레이닝 데이터 내 정답 레이블에 대응하는 부분 영역을 제1 부분 영역으로 결정할 수 있다. 또는, 인공 신경망이 클래스를 추론하도록 설계된 경우, 트레이닝 영상에 대응하는 타겟 레이블을 이용하여 트레이닝이 수행될 수 있다. 이 경우, 트레이닝 영상에 대응하는 타겟 영상이 존재하지 않으므로 타겟 영상에 대응하는 픽셀 와이즈 정보를 획득할 수 없다. 따라서, 트레이닝 장치는 인코더를 통해 추출한 특징의 활성 정보(예를 들어, 임베딩 벡터)를 이용하여 인공 신경망이 관심 영역에 대응하는 클래스를 추론하도록 트레이닝할 수 있다.

단계(360)에서, 트레이닝 장치는 트레이닝 데이터 내의 제1 부분 영역을 복원할 수 있다. 트레이닝 장치는 예를 들어, 트레이닝 데이터에서 픽셀 별로 추출된 픽셀 와이즈 정보에 기초하여 특징 벡터를 적응적으로 디코딩함으로써 트레이닝 데이터 내의 제1 부분 영역을 복원할 수 있다. 트레이닝 장치가 픽셀 별로 추출된 픽셀 와이즈 정보에 기초하여 트레이닝 데이터 내의 제1 부분 영역을 복원하는 방법은 예를 들어, 아래의 도 4 내지 도 7을 참조할 수 있다.

트레이닝 장치는 예를 들어, 트레이닝 데이터에서, 검출 윈도우에 의해 검출된 영역에 기초하여 임베딩 벡터를 적응적으로 디코딩함으로써 트레이닝 데이터 내의 제1 부분 영역을 복원할 수 있다. 트레이닝 장치가 검출 윈도우에 의해 검출된 영역에 기초하여 트레이닝 데이터 내의 제1 부분 영역을 복원하는 방법은 예를 들어, 아래의 도 4 내지 도 7을 참조할 수 있다.

일 실시예에서 픽셀 와이즈 정보나 검출 윈도우 기반 방법 모두 관심 영역을 바로 정의하여 제1 부분 영역을 결정할 수 있다는 점에서 도 4 내지 도 7은 모두 픽셀 와이즈 정보 또는 검출 윈도우 기반 방법에 사용될 수 있다. 다만, 도 4 내지 도 5와 도 6 내지 도 7은 두 디코딩 네트워크들이 적어도 일부의 디코딩 레이어를 공유하는지 여부에 있어서 차이점이 있을 뿐 다른 부분은 동일하게 적용될 수 있다.

또는 트레이닝 장치는 분류기에 의해, 트레이닝 데이터로부터 분류된 클래스에 대응하는 특징 맵에 기초하여 특징 벡터를 적응적으로 디코딩함으로써 트레이닝 데이터 내의 제1 부분 영역을 복원할 수 있다. 트레이닝 장치가 트레이닝 데이터로부터 분류된 클래스에 대응하는 특징 맵에 기초하여 트레이닝 데이터 내의 제1 부분 영역을 복원하는 방법은 아래의 도 6 내지 도 9를 참조할 수 있다.

트레이닝 장치는 단계(360)에서 결정된 제1 부분 영역에 따른 복원 정보와 트레이닝 데이터 간의 차이에 기초하여 제2 로스를 계산한다(370). 전술한 것과 같이, 제1 부분 영역에 따른 복원 정보는 예를 들어, 인공 신경망이 추론한 픽셀 와이즈 정보 또는 검출 윈도우에 대응한 것일수도 있고, 또는 인공 신경망이 추론한 클래스에 대응한 것일 수도 있다.

트레이닝 장치는 단계(350)에서 계산된 제1 로스 및 단계(370)에서 계산된 제2 로스에 기초하여 인공 신경망을 트레이닝한다(380). 트레이닝 장치는 예를 들어, 제1 로스에 기초하여 제1 디코더와 인코더를 트레이닝하고, 제2 로스에 기초하여 제2 디코더와 인코더를 트레이닝할 수 있다. 이로 인하여, 인코더는 제1 부분 영역을 제1 정확도로 복원하고, 트레이닝 데이터 내의 제2 부분 영역을 제2 정확도로 복원 가능한 정보를 내재하는 임베딩 벡터를 생성하도록 트레이닝될 수 있다. 이때, 제1 정확도는 제2 정확도 보다 높은 값을 가질 수 있다.

일 실시예에 따른 트레이닝 방법은 예를 들어, 트레이닝 기반의 검출(Detection), 위치 추정(Localization), 의미론적 분할(Semantic Segmentation) 등을 위한 알고리즘 또는 소프트웨어를 전술한 추론 장치에 탑재 시에, 차후 다양한 환경에서도 범용성이 보장되도록 인공 신경망을 사전 트레이닝시키는 데에 적용될 수 있다. 또한, 일 실시예에 따른 트레이닝 방법은 온-디바이스(On-Device) 트레이닝 시에 최소한의 디바이스 데이터(Device Data)에 의해서도 과적합(Overfitting) 없이 범용성이 보장되도록 트레이닝을 수행할 수 있다.

이하, 설명의 편의를 위하여, 트레이닝 데이터가 영상 데이터인 경우를 예로 들어 설명하지만, 반드시 이에 한정되는 것은 아니다.

도 4는 일 실시예에 따른 트레이닝 장치의 구성을 도시한 도면이고, 도 5는 도 4에 도시된 트레이닝 장치의 트레이닝 과정을 나타낸 흐름도이다. 도 4를 참조하면, 일 실시예에 따른 트레이닝 장치(400)는 인코더(E)(410), 제1 디코더(D₁)(420), 및 제2 디코더(D₁)(430)를 포함할 수 있다.

일 실시예에 따른 트레이닝 장치(400)는 트레이닝 영상(x)에 대해 픽셀-와이즈(Pixel-Wise)로 값을 출력하여 타겟 영상(Target Image)을 생성하는 인코더(E)(410)와 제1 디코더(D₁)(420)로 구성된 네트워크 구조의 인공 신경망에, 제2 디코더(D₂)(430)를 추가하여 범용성을 향상시킬 수 있다.

제1 디코더(D₁)(420)는 인코더에 의해 생성된 임베딩 벡터에 대응하는 특정 정보(예를 들어, 트레이닝 데이터에 대응하는 레이블 등)를 추론할 수 있다. 제2 디코더(D₂)(430)는 트레이닝 데이터 중 일부 영역에 대응하는 정보를 복원할 수 있다.

트레이닝 장치(400)는 예를 들어, 트레이닝 영상(x)으로부터 픽셀-와이즈 정보를 추출하거나 또는 픽셀 와이즈 정보를 검출하도록 인공 신경망을 트레이닝할 수 있다.

일반적인 픽셀-와이즈 정보의 추출은 인코더-디코더로 구성된 신경망의 구조를 기본으로 하며, 트레이닝 영상을 인코더에 통과시켜 생성된 특징(feature)을 디코더에 통과시켜 최종적인 결과 영상(Result image)을 생성할 수 있다.

이하에서는, 예를 들어, 트레이닝 영상을 x, 트레이닝 영상에 대응하는 타겟 영상(또는 정답 영상)을 y, 인코더(Encoder)를 E, 제1 디코더(Decoder)를 D_1,제2 인코더를 D₂라고 표시하기로 하자.

트레이닝 장치(400)는 예를 들어, 트레이닝 영상(x)과 트레이닝 영상(x)에 대응하는 타겟 영상(또는 정답 영상)(y)으로 구성된 {Input x, Target y}의 페어를 수신할 수 있다(510). 트레이닝 장치(400)는 트레이닝 영상(x)을 인코더(E)(410)에 인가함으로써 트레이닝 영상(x)에 대응하는 임베딩 벡터 E(x)을 추출할 수 있다(520).

트레이닝 장치(400)는 임베딩 벡터 E(x)을 제1 디코더(D₁)(420)에 인가(530)함으로써 결과 영상(Result image) D₁(E(x))을 생성할 수 있다(540). 실시예에 따라서, 제1 디코더(D₁)(420)는 검출기(Detector)로 대체될 수도 있다.

트레이닝 장치(400)는 제1 디코더(420)를 통과한 결과 영상 D₁(E(x))과 타겟 영상(y)(560) 간의 차이(예를 들어, Diff(D₁(E(x)), y))에 해당하는 타겟 손실(Target Loss)을 산출할 수 있다(550).

일 실시예에서는 타겟 손실에 더하여, 적응적 복원 디코더(Adaptive Reconstruction Decoder)인 제2 디코더(D₂)(430)를 추가적으로 포함할 수 있다. 트레이닝 장치(400)는 인코더(E)(410)에 의해 생성된 임베딩 벡터 E(x)을 제2 디코더(D₂)(430)에 통과(535)시켜 복원 영상(Reconstruction Image) D₂(E(x))을 생성할 수 있다(545). 이 때, 복원 영상 D₂(E(x))에 타겟 영상(y)로부터 정의된 각 픽셀(Pixel)의 적응적 가중치(Adaptive Weight) r(y)를 곱하면, 타겟 영상(y)에서 활성화되는 중요한 정보에 대응하는 가중치를 복원 영상 D₂(E(x))에 부여하는 것과 같은 효과를 가질 수 있다. 여기서, r(y)는 예를 들어, 트레이닝 영상 중 관심 영역(Region of Interest; ROI)을 반영한 픽셀 와이즈 맵(Pixel-Wise Map)에 해당할 수 있다. r(y)는 예를 들어, 0 또는 1의 값을 갖는 이진 마스크 일 수도 있고, 또는 관심 영역의 경계 부분에서는 점진적으로 변화되는 실수 값을 갖는 가중치(또는 중요도) 일 수도 있다.

트레이닝 장치(400)는 가중치 r(y)에 의해 적응적으로 복원된 영상 D₂(E(x))·r(y)과 트레이닝 영상(x) 간의 차이(예를 들어, Diff(D₂(E(x))·r(y), x))로 정의된 복원 손실(Reconstruction Loss)을 산출할 수 있다(570). 여기서, 복원 영상 D₂(E(x))·r(y)은 트레이닝 영상(x)의 관심(ROI) 영역과 같이 트레이닝 영상(x)의 부분 영역('제1 부분 영역)에 해당할 수 있다.

트레이닝 장치(400)는 전술한 타겟 손실과 함께 복원 손실이 최소화되도록 인공 신경망을 트레이닝할 수 있다(580). 트레이닝 장치(400)는 예를 들어, 트레이닝 데이터의 전체 집합에 대한 타겟 손실과 복원 손실의 합(예를 들어, 가중합(Weighted Sum))이 최소화되도록 인공 신경망을 트레이닝할 수 있다.

도 6은 다른 실시예에 따른 트레이닝 장치의 구성을 도시한 도면이고, 도 7은 도 6에 도시된 트레이닝 장치의 트레이닝 과정을 나타내 흐름도이다. 도 6을 참조하면, 일 실시예에 따른 트레이닝 장치(600)는 인코더(E)(610), 및 디코더(D₁)(630)를 포함할 수 있다.

도 6의 실시예에 따른 디코더(630)는 도 4에서 전술한 두 개의 분리된 디코더들(제1 디코더(420) 및 제2 디코더(430)) 간에 서로 공유되는 적어도 일부 레이어일 수 있다. 트레이닝 장치(600)는 디코더(630)에 연결되는, 분류기(Classifier)(C)(633) 및 적응적 복원 디코더(Adaptive Reconstruction Decoder)(R)(636)를 더 포함할 수 있다. 예를 들어, 디코더(630)는 분류기(Classifier)(C)(633)와 연동하면서, 동시에 적응적 복원 디코더(Adaptive Reconstruction Decoder)(R)(636)와 연동할 수 있다. 실시예에 따라, 분류기(C)(633)는 도 4의 검출기로 동작할 수도 있다. 이하 설명의 편의를 위하여 분류 동작을 예를 들어 설명하나, 실시예들은 분류기(C)(633)가 검출기로 동작하는 경우에도 적용될 수 있다.

트레이닝 장치(600)는 예를 들어, 트레이닝 영상(x)과 트레이닝 영상(x)에 대응하는 타겟 레이블(또는 정답 레이블)(y)으로 구성된 {Input x, Target y}의 페어를 수신할 수 있다(710). 트레이닝 장치(600)는 트레이닝 영상(x)을 인코더(E)(610)에 인가함으로써 트레이닝 영상(x)에 대응하는 임베딩 벡터 E(x)을 추출할 수 있다(720).

트레이닝 장치(600)는 디코더(630)를 통해 임베딩 벡터 E(x)을 디코딩 (730)함으로써 결과 영상(Result image) D₁(E(x))을 생성할 수 있다(740). 이때, 트레이닝 장치(600)는 디코더(630)를 통과한 결과 영상 D₁(E(x))을 분류기(C)(633)에 통과시켜 분류된 클래스 C(D₁(E(x))를 획득할 수 있다. 트레이닝 장치(600)는 클래스 C(D₁(E(x)))와 타겟 레이블(y)(760) 간의 차이(예를 들어, Diff(C(D₁(E(x))), y)에 해당하는 타겟 손실을 산출할 수 있다(750).

또한, 트레이닝 장치(600)는 디코더(630)를 통과한 결과 영상 D₁(E(x))을 적응적 복원 디코더(R)(636)에 통과시켜 복원 영상 R(D₁(E(x)))을 생성할 수 있다(745). 이 때, 타겟 레이블(y)(760)으로부터 정의된 각 픽셀(Pixel)의 적응적 가중치 r(y)를 복원 영상 R(D₁(E(x)))에 곱하면, 타겟 레이블(y)에서 활성화되는 중요한 정보에 대응하는 가중치를 복원 영상 R(D₁(E(x)))에 부여하는 것과 같은 효과를 나타낼 수 있다. 여기서, 각 픽셀의 적응적 가중치 r(y)는 전술한 것과 같이 관심 영역(ROI)을 반영한 픽셀 와이즈 맵에 해당할 수도 있고, 또는 0 또는 1의 값을 갖는 이진 마스크, 혹은 관심 영역의 경계 부분에서는 점진적으로 변화되는 실수 값을 갖는 가중치일 수도 있다.

트레이닝 장치(600)는 가중치 r(y)에 의해 적응적으로 복원된 영상 R(D₁(E(x)))·r(y)과 트레이닝 영상(x) 간의 차이(예를 들어, Diff(R(D₁(E(x)))·r(y), x))로 정의된 복원 손실(Reconstruction Loss)을 산출할 수 있다(770). 여기서, 복원 영상 R(D₁(E(x)))·r(y)은 트레이닝 영상(x)의 관심(ROI) 영역과 같이 트레이닝 영상(x)의 부분 영역('제1 부분 영역')에 해당할 수 있다.

트레이닝 장치(600)는 전술한 타겟 손실과 함께 복원 손실이 최소화되도록 인공 신경망을 트레이닝할 수 있다(780). 트레이닝 장치(600)는 예를 들어, 전체 트레이닝 데이터 전체 집합에 대한 타겟 손실과 복원 손실의 합(예를 들어, 가중합(Weighted Sum))이 최소화되도록 인공 신경망을 트레이닝할 수 있다.

도 6의 실시예에 따른 트레이닝 장치(600)는 동일한 디코더(630)를 공유하고, 마지막 결과(예를 들어, C(D₁(E(x))) 및 R(D₁(E(x))))만을 두 가지로 나누어 생성하기 때문에 트레이닝해야 할 인공 신경망의 가중치의 수가 증가하지 않으므로 인공 신경망의 부하를 줄일 수 있다.

도 8은 또다른 실시예에 따른 트레이닝 장치의 구성을 도시한 도면이고, 도 9는 도 8에 도시된 트레이닝 장치의 트레이닝 과정을 나타낸 흐름도이다.

도 8을 참조하면, 일 실시예에 따른 트레이닝 장치(800)는 인코더(810) 및 디코더(D₂)(830)를 포함할 수 있다. 이때, 인코더(810)의 적어도 일부 레이어는 분류기(Classifier)(C)(820)로 동작할 수 있다.

트레이닝 장치(800)는 예를 들어, 트레이닝 영상(x)과 트레이닝영상(x)에 대응하는 타겟 레이블(또는 정답 레이블)(y)으로 구성된 {Input x, Target y}의 페어를 수신할 수 있다(910). 트레이닝 장치(800)는 트레이닝 영상(x)을 인코더(E)(810)에 통과시켜 트레이닝 영상(x)에 대응하는 임베딩 벡터 E(x)을 추출할 수 있다(920).

트레이닝 장치(800)는 임베딩 벡터 E(x)을 분류기(C)(820)에 통과시킴으로써 임베딩 벡터 E(x)에 대응하는 클래스 C(E(x))을 분류(classification)할 수 있다(930).

트레이닝 장치(800)는 분류된 클래스 C(E(x))와 트레이닝 영상(x)에 대응하는 타겟 레이블(또는 정답 레이블)(y)(960) 간의 차이(예를 들어, Diff(C(E(x)), y))에 해당하는 타겟 손실을 산출할 수 있다(950).

트레이닝 장치(800)는 인코더(E)(810)에서 추출된 임베딩 벡터 E(x)을 디코더(D₂)(830)에 통과(940)시켜 복원 영상 D₂(E(x))을 생성할 수 있다(945). 디코더(D₂)(830)는 예를 들어, 도 4를 통해 전술한 적응적 복원 디코더(D₂)(430)와 같이 동작할 수 있다. 이때, 트레이닝 장치(800)는 임베딩 벡터 E(x)로부터, 픽셀 와이즈 맵 r(E(x))을 정의하여 복원 영상 D₂(E(x))에 곱함으로써 관심 영역과 같은 중요한 정보에 가중치가 부여되는 것과 같은 효과를 나타낼 수 있다. 이때, 픽셀 와이즈 맵 r(E(x))은 특징 활성화 영역들의 조합에 해당하며, 관심 영역(ROI)을 반영한 것일 수 있다.

도 8 및 도 9에 따른 실시예에서는 트레이닝 영상(x)에 대응하는 타겟 레이블(또는 정답 레이블)(y)(960)을 이용하므로 타겟 영상이 존재하지 않으므로 픽셀 와이즈 정보에 기초한 가중치를 바로 정의할 수 없다. 때문에, 도 8 및 도 9의 실시예에서는 분류를 위해 추출된 특징의 활성 정보(예를 들어, 특징 활성화 영역들)를 활용하여 가중치에 해당하는 픽셀 와이즈 맵 r(E(x))를 정의할 수 있다.

트레이닝 장치(800)는 관심 영역(ROI)을 반영한 픽셀 와이즈 맵 r(E(x))에 의해 적응적으로 복원된 영상 D₂(E(x))r(E(x))과 트레이닝 영상(x) 간의 차이(예를 들어, Diff(D₂(E(x))r(E(x)), x)로 정의된 복원 손실(Reconstruction Loss)을 산출할 수 있다(970). 여기서, 적응적으로 복원된 영상 D₂(E(x))r(E(x)은 트레이닝 영상(x)의 관심(ROI) 영역과 같이 트레이닝 영상(x)의 부분 영역('제1 부분 영역')에 해당할 수 있다.

트레이닝 장치(800)는 전술한 타겟 손실과 함께 복원 손실이 최소화되도록 인공 신경망을 트레이닝할 수 있다(980). 트레이닝 장치(800)는 예를 들어, 트레이닝 데이터의 전체 집합에 대한 타겟 손실과 복원 손실의 합(예를 들어, 가중합(Weighted Sum))이 최소화되도록 인공 신경망을 트레이닝할 수 있다.

도 10은 일 실시예에 따른 추론 장치의 블록도이다. 도 10을 참조하면, 일 실시예에 따른 추론 장치(1000)는 통신 인터페이스(1010), 프로세서(1030), 및 메모리(1050)를 포함한다. 통신 인터페이스(1010), 프로세서(1030), 및 메모리(1050)는 통신 버스(1005)를 통해 서로 통신할 수 있다. 추론 장치(1000)는 예를 들어, HUD(Head Up Display) 장치, 3D 디지털 정보 디스플레이(Digital Information Display, DID), 내비게이션 장치, 3D 모바일 기기, 및 스마트 차량 등에 해당할 수 있다.

통신 인터페이스(1010)는 입력 데이터를 수신한다. 입력 데이터는 예를 들어, 영상 데이터일 수도 있고, 또는 음성 데이터일 수도 있다. 영상 데이터는 예를 들어, 차량의 주행 중에 전방 및/또는 좌우를 촬영한 주행 영상 등을 포함할 수 있으며, 반드시 이에 한정되지는 않는다. 음성 데이터는 예를 들어, 일정 시간 구간 동안 발화된 화자의 음성 등을 포함할 수 있으며, 반드시 이에 한정되지는 않는다.

프로세서(1030)는 통신 인터페이스(1010)를 통해 수신한 입력 데이터에 반응하여 인공 신경망이 활성화되는 상태 정보에 기초하여, 입력 데이터로부터 추론된 정보를 제공한다. 이때, 추론된 정보는 예를 들어, 관심 영역에 해당하는 객체를 포함하는 영상, 관심 대상에 해당하는 화자의 음성 등을 포함할 수 있다.

이때, 인공 신경망의 적어도 일부를 이용하여 입력 데이터를 인코딩 함으로써 생성되는 임베딩 벡터는 입력 데이터 내의 제1 부분 영역을 제1 정확도 로 복원하고, 입력 데이터 내의 제2 부분 영역을 제2 정확도로 복원하는 정보를 포함한다. 또한, 제1 부분 영역은 프로세서(1030)에 의해 추론된 정보 및 인공 신경망에서 활성화되는 상태 정보 중 적어도 하나에 대응하여 적응적으로 결정된다.

메모리(1050)는 예를 들어, 통신 인터페이스(1010)를 통해 수신한 입력 데이터 및/또는 프로세서(1030)에 의해 입력 데이터로부터 추론된 정보를 저장할 수 있다. 또한, 메모리(1050)는 입력 데이터에 반응하여 인공 신경망이 활성화되는 상태 정보 및/또는 프로세서(1030)가 입력 데이터를 인코딩 함으로써 생성되는 임베딩 벡터를 저장할 수 있다.

또한, 메모리(1050)는 상술한 프로세서(1030)의 처리 과정에서 생성되는 다양한 정보들을 저장할 수 있다. 이 밖에도, 메모리(1050)는 각종 데이터와 프로그램 등을 저장할 수 있다. 메모리(1050)는 휘발성 메모리 또는 비휘발성 메모리를 포함할 수 있다. 메모리(1050)는 하드 디스크 등과 같은 대용량 저장 매체를 구비하여 각종 데이터를 저장할 수 있다.

또한, 프로세서(1030)는 도 1 내지 도 9를 통해 전술한 적어도 하나의 방법 또는 적어도 하나의 방법에 대응되는 알고리즘을 수행할 수 있다. 프로세서(1030)는 목적하는 동작들(desired operations)을 실행시키기 위한 물리적인 구조를 갖는 회로를 가지는 하드웨어로 구현된 데이터 처리 장치일 수 있다. 예를 들어, 목적하는 동작들은 프로그램에 포함된 코드(code) 또는 인스트럭션들(instructions)을 포함할 수 있다. 예를 들어, 하드웨어로 구현된 데이터 처리 장치는 마이크로프로세서(microprocessor), 중앙 처리 장치(central processing unit), 프로세서 코어(processor core), 멀티-코어 프로세서(multi-core processor), 멀티프로세서(multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array)를 포함할 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.

1000: 추론 장치
1005: 통신 버스
1010: 통신 인터페이스
1030: 프로세서
1050: 메모리

Claims

인공 신경망을 이용한 추론 방법에 있어서,
입력 데이터를 수신하는 단계; 및
상기 입력 데이터에 반응하여 상기 인공 신경망이 활성화(activation)되는 상태 정보에 기초하여, 상기 입력 데이터로부터 추론된 정보를 제공하는 단계
를 포함하고,
상기 인공 신경망의 적어도 일부를 이용하여 상기 입력 데이터를 인코딩(encoding) 함으로써 생성되는 임베딩 벡터(embedding vector)는
상기 입력 데이터 내의 제1 부분 영역을 제1 정확도로 복원(reconstruction)하고, 상기 입력 데이터 내의 제2 부분 영역을 제2 정확도로 복원하는 정보를 포함하며,
상기 제1 부분 영역은 상기 추론된 정보 및 상기 임베딩 벡터 중 적어도 하나에 대응하여 적응적으로 결정되는,
추론 방법.
제1항에 있어서,
상기 입력 데이터로부터 상기 추론된 정보를 제공하는 단계는
상기 상태 정보에 기초하여, 상기 입력 데이터에 포함된 픽셀 별로 픽셀 와이즈 정보(pixel-wise information)를 제공하는 단계;
상기 상태 정보에 기초하여, 상기 입력 데이터에서 검출된 영역을 검출 윈도우(detection window)의 형태로 제공하는 단계; 및
상기 상태 정보에 기초하여, 상기 입력 데이터로부터 분류된 클래스(class)를 제공하는 단계
중 어느 하나를 포함하는,
추론 방법.
제1항에 있어서,
상기 입력 데이터는
영상 데이터 및 음성 데이터 중 어느 하나를 포함하는,
추론 방법.
제1항에 있어서,
상기 입력 데이터가 영상 데이터인 경우,
상기 제1 부분 영역은 상기 영상 데이터 내 상기 추론된 정보에 대응하는 관심 공간 영역을 포함하는,
추론 방법.
제1항에 있어서,
상기 입력 데이터가 음성 데이터인 경우,
상기 제1 부분 영역은 상기 음성 데이터 내 상기 추론된 정보에 대응하는 관심 시간 구간을 포함하는,
추론 방법.
제1항에 있어서,
상기 인공 신경망이 픽셀 와이즈 정보 또는 검출 윈도우를 추론하도록 설계된 경우,
상기 제1 부분 영역은 상기 추론된 정보에 대응하는 부분 영역으로 적응적으로 결정되는,
추론 방법.
제1항에 있어서,
상기 인공 신경망이 클래스를 추론하도록 설계된 경우,
상기 제1 부분 영역은 상기 임베딩 벡터에 대응하는 부분 영역으로 적응적으로 결정되는,
추론 방법.
제1항에 있어서,
상기 제1 정확도는
상기 제2 정확도 보다 높은 값을 가지는,
추론 방법.
인공 신경망의 트레이닝 방법에 있어서,
정답 레이블을 포함하는 트레이닝 데이터를 수신하는 단계;
상기 트레이닝 데이터를 인코딩함으로써 상기 트레이닝 데이터에 대응하는 임베딩 벡터를 추출하는 단계;
상기 인공 신경망의 추론 정보를 생성하는 제1 디코더를 이용하여 상기 임베딩 벡터를 디코딩하는 단계;
상기 트레이닝 데이터의 복원 정보를 생성하는 제2 디코더를 이용하여 상기 임베딩 벡터를 디코딩하는 단계;
상기 추론 정보와 상기 정답 레이블 간의 차이에 기초하여 제1 로스를 계산하는 단계;
상기 트레이닝 데이터 내, 상기 정답 레이블 및 상기 임베딩 벡터 중 적어도 하나에 대응하는 제1 부분 영역을 결정하는 단계;
상기 제1 부분 영역에 따른 상기 복원 정보와 상기 트레이닝 데이터 간의 차이에 기초하여 제2 로스를 계산하는 단계; 및
상기 제1 로스 및 상기 제2 로스에 기초하여 상기 인공 신경망을 트레이닝하는 단계
를 포함하는,
트레이닝 방법.
제9항에 있어서,
상기 인공 신경망을 트레이닝하는 단계는
상기 제1 로스 및 상기 제2 로스에 기초하여, 상기 제1 부분 영역을 제1 정확도로 복원하고, 상기 입력 데이터 내의 제2 부분 영역을 제2 정확도로 복원하도록 상기 인공 신경망을 트레이닝하는 단계
를 포함하는,
트레이닝 방법.
제9항에 있어서,
상기 제1 정확도는
상기 제2 정확도 보다 높은 값을 가지는,
트레이닝 방법.
제9항에 있어서,
상기 제1 부분 영역을 결정하는 단계는
상기 인공 신경망이 픽셀 와이즈 정보 또는 검출 윈도우를 추론하도록 상기 트레이닝 데이터 내, 상기 정답 레이블에 대응하는 부분 영역을 상기 제1 부분 영역을 결정하는 단계
를 포함하는,
트레이닝 방법.
제9항에 있어서,
상기 제1 부분 영역을 결정하는 단계는
상기 인공 신경망이 클래스를 추론하도록 상기 임베딩 벡터에 대응하는 부분 영역을 상기 제1 부분 영역으로 결정하는 단계
를 포함하는,
트레이닝 방법.
제9항에 있어서,
상기 인공 신경망을 트레이닝하는 단계는
상기 제1 로스 및 상기 제2 로스에 기초하여, 상기 트레이닝 데이터에 포함된 픽셀 별로 픽셀 와이즈 정보(pixel-wise information)를 제공하도록 상기 인공 신경망을 트레이닝하는 단계
를 포함하는,
트레이닝 방법.
제9항에 있어서,
상기 인공 신경망을 트레이닝하는 단계는
상기 제1 로스 및 상기 제2 로스에 기초하여, 상기 트레이닝 데이터에서 검출된 영역을 검출 윈도우 형태로 제공하도록 상기 인공 신경망을 트레이닝하는 단계
를 포함하는,
트레이닝 방법.
제9항에 있어서,
상기 인공 신경망을 트레이닝하는 단계는
상기 제1 로스 및 상기 제2 로스에 기초하여, 상기 트레이닝 데이터로부터 분류된 클래스(class)를 제공하도록 상기 인공 신경망을 트레이닝하는 단계
를 포함하는,
트레이닝 방법.
제11항에 있어서,
상기 트레이닝 데이터는
영상 데이터 및 음성 데이터 중 어느 하나를 포함하는,
트레이닝 방법.
제11항에 있어서,
상기 트레이닝 데이터가 영상 데이터인 경우,
상기 제1 부분 영역은 상기 트레이닝 데이터 내에서 복원된 관심 공간 영역을 포함하는,
트레이닝 방법.
제11항에 있어서,
상기 트레이닝 데이터가 음성 데이터인 경우,
상기 제1 부분 영역은 상기 트레이닝 데이터 내에서 복원된 관심 시간 구간을 포함하는,
트레이닝 방법.
하드웨어와 결합되어 제1항 내지 제19항 중 어느 하나의 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
인공 신경망을 이용한 추론 장치에 있어서,
입력 데이터를 수신하는 통신 인터페이스; 및
상기 입력 데이터에 반응하여 상기 인공 신경망이 활성화되는 상태 정보에 기초하여, 상기 입력 데이터로부터 추론된 정보를 제공하는 프로세서
를 포함하고,
상기 인공 신경망의 적어도 일부를 이용하여 상기 입력 데이터를 인코딩(encoding) 함으로써 생성되는 임베딩 벡터(embedding vector)는
상기 입력 데이터 내의 제1 부분 영역을 제1 정확도로 복원(reconstruction)하고, 상기 입력 데이터 내의 제2 부분 영역을 제2 정확도로 복원하는 정보를 포함하며,
상기 제1 부분 영역은 상기 추론된 정보 및 상기 임베딩 벡터 중 적어도 하나에 대응하여 적응적으로 결정되는,
추론 장치.
제21항에 있어서,
상기 프로세서는
상기 상태 정보에 기초하여, 상기 입력 데이터에 포함된 픽셀 별로 픽셀 와이즈 정보를 제공하거나,
상기 상태 정보에 기초하여, 상기 입력 데이터에서 검출된 영역을 검출 윈도우의 형태로 제공하거나, 또는
상기 상태 정보에 기초하여, 상기 입력 데이터로부터 분류된 클래스를 제공하는,
추론 장치.
제21항에 있어서,
상기 입력 데이터는
영상 데이터 및 음성 데이터 중 어느 하나를 포함하는,
추론 장치.
제21항에 있어서,
상기 입력 데이터가 영상 데이터인 경우,
상기 제1 부분 영역은 상기 영상 데이터 내 상기 추론된 정보에 대응하는 관심 공간 영역을 포함하는,
추론 장치.
제21항에 있어서,
상기 입력 데이터가 음성 데이터인 경우,
상기 제1 부분 영역은 상기 음성 데이터 내 상기 추론된 정보에 대응하는 관심 시간 구간을 포함하는,
추론 장치.
제21항에 있어서,
상기 인공 신경망이 픽셀 와이즈 정보 또는 검출 윈도우를 추론하도록 설계된 경우,
상기 제1 부분 영역은 상기 추론된 정보에 대응하는 부분 영역으로 적응적으로 결정되는,
추론 장치.
제21항에 있어서,
상기 인공 신경망이 클래스를 추론하도록 설계된 경우,
상기 제1 부분 영역은 상기 임베딩 벡터에 대응하는 부분 영역으로 적응적으로 결정되는,
추론 장치.
제21항에 있어서,
상기 제1 정확도는
상기 제2 정확도 보다 높은 값을 가지는,
추론 장치.
제21항에 있어서,
상기 추론 장치는
HUD(Head Up Display) 장치, 3D 디지털 정보 디스플레이(Digital Information Display, DID), 내비게이션 장치, 3D 모바일 기기, 및 스마트 차량 중 적어도 하나를 포함하는,
추론 장치.