KR20190113119A

KR20190113119A - 합성곱 신경망을 위한 주의집중 값 계산 방법

Info

Publication number: KR20190113119A
Application number: KR1020180035359A
Authority: KR
Inventors: 임태규; 박종찬; 우상현; 권인소
Original assignee: 삼성전자주식회사; 한국과학기술원
Priority date: 2018-03-27
Filing date: 2018-03-27
Publication date: 2019-10-08

Abstract

본 개시는 딥러닝 등의 기계 학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 인공지능(AI) 시스템 및 그 응용에 관련된 것으로, 합성곱 신경망을 위한 주의집중 값 계산 방법에 관한 것이다. 일 실시예에 따른 합성곱 신경망을 위한 주의집중 값 계산 방법은 입력 이미지의 입력 특징 맵을 입력받은 컨벌루션 레이어으로부터 중간 특징 맵을 획득하는 단계, 상기 중간 특징 맵의 채널 주의집중 값을 계산하는 단계, 상기 중간 특징 맵의 공간 주의집중 값을 계산하는 단계, 상기 채널 주의집중 값 및 상기 공간 주의집중 값을 기초로 3D 주의집중 맵을 생성하는 단계 및 상기 3D 주의집중 맵을 상기 중간 특징 맵과 결합하여 풀링 레이어에 입력되는 정제된 특징 맵을 생성하는 단계를 포함한다.

Description

합성곱 신경망을 위한 주의집중 값 계산 방법{METHOD OF CALCULATING ATTENTION FOR CONVOLUTIONAL NEURAL NETWORK}

본 개시는 합성곱 신경망을 위한 주의집중 값 계산 방법에 관한 것으로, 보다 상세하게는 특징 맵의 채널 주의집중 값 및 공간 주의집중 값을 구분하여 독립적으로 계산함으로써 합성곱 신경망의 성능을 향상시킬 수 있는 주의집중 값 계산 방법에 관한 것이다.

인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.

인공지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.

기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.

인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.

이미지의 픽셀 정보를 열 벡터로 표현하는 것과 같이, 데이터를 컴퓨터가 이해할 수 있는 형태로 표현하고, 이를 학습에 적용하기 위한 많은 연구가 진행되고 있다. 그 결과로 심층신경망(Deep Neural Network, DNN), 합성곱 신경망(Convolutional Neural Network, CNN), 심층 신뢰망(Deep Belief Network, DBN) 및 순환 신경망(Recurrent Neural Network, RNN) 등과 같은 다양한 딥 러닝 기법들이 컴퓨터 비전, 음성 인식, 자연어 처리, 음성 및 신호 처리 등 다양한 분야에 적용되고 있다.

이 중 합성곱 신경망(CNN)은 이미지 인식 분야에서 주로 활용되어 왔으며, 최근에는 뛰어난 인식 성능을 오디오 인식 등의 다른 분야에도 적용하는 연구가 진행되고 있다.

본 개시는 주의집중 값을 계산하여 합성곱 신경망의 성능을 향상시킬 수 있는 방법을 제공하는 것을 목적으로 한다. 본 개시의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 개시의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 개시의 실시예에 의해 보다 분명하게 이해될 것이다. 또한, 본 개시의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

이러한 목적을 달성하기 위한 본 개시의 일 측면은 입력 이미지의 입력 특징 맵(Input feature map)을 입력받은 컨벌루션 레이어(Convolution layer)로부터 중간 특징 맵을 획득하는 단계, 상기 중간 특징 맵의 채널 주의집중 값(Channel attention)을 계산하는 단계, 상기 중간 특징 맵의 공간 주의집중 값(Spatial attention)을 계산하는 단계, 상기 채널 주의집중 값 및 상기 공간 주의집중 값을 기초로 3D 주의집중 맵을 생성하는 단계 및 상기 3D 주의집중 맵을 상기 중간 특징 맵과 결합하여 풀링 레이어(Pooling layer)에 입력되는 정제된 특징 맵(Refined feature map)을 생성하는 단계를 포함하는 합성곱 신경망을 위한 주의집중 값 계산 방법을 제공할 수 있다.

본 개시의 일 실시예에 따르면, 상기 채널 주의집중 값을 계산하는 단계는 상기 중간 특징 맵에 전역 평균 풀링(Global Average Pooling, GAP)을 수행하여 제1 채널 벡터를 생성하는 단계, 다층 신경망(Multi-Layer Perceptron, MLP)을 이용하여 상기 제1 채널 벡터로부터 제2 채널 벡터를 생성하는 단계 및 상기 제2 채널 벡터에 배치 정규화(Batch normalization)를 수행하여, 상기 채널 주의집중 값을 획득하는 단계를 포함할 수 있다.

또한 본 개시의 일 실시예에 따르면, 상기 다층 신경망은 하나의 은닉층(Hidden layer)을 포함할 수 있다.

또한 본 개시의 일 실시예에 따르면, 상기 제2 채널 벡터를 생성하는 단계는 미리 설정된 제1 감소 비율을 사용하여 상기 제1 채널 벡터의 채널 수를 감소시키는 단계를 포함할 수 있다.

또한 본 개시의 일 실시예에 따르면, 상기 공간 주의집중 값을 계산하는 단계는 상기 중간 특징 맵에 제1 컨벌루션(Convolution)을 수행하여 제1 채널 감소 특징 맵을 생성하는 단계, 상기 제1 채널 감소 특징 맵에 확장 컨벌루션(Dilated convolution)을 수행하여 확장된 특징 맵을 생성하는 단계, 상기 확장된 특징 맵에 제2 컨벌루션을 수행하여 제2 채널 감소 특징 맵을 생성하는 단계 및 상기 제2 채널 감소 특징 맵에 배치 정규화를 수행하여 상기 공간 주의집중 값을 획득하는 단계를 포함할 수 있다.

또한 본 개시의 일 실시예에 따르면, 상기 제1 채널 감소 특징 맵을 생성하는 단계는 미리 설정된 제2 감소 비율을 사용하여 상기 중간 특징 맵의 채널 수를 감소시키는 단계를 포함할 수 있다.

또한 본 개시의 일 실시예에 따르면, 상기 제1 컨벌루션 및 상기 제2 컨벌루션은 1X1 크기의 필터를 사용할 수 있다.

또한 본 개시의 일 실시예에 따르면, 상기 확장된 특징 맵을 생성하는 단계는 미리 설정된 확장 비율을 사용하여 상기 제1 채널 감소 특징 맵에 3X3 크기의 필터를 통한 확장 컨벌루션을 수행하는 단계를 포함할 수 있다.

또한 본 개시의 일 실시예에 따르면, 상기 채널 주의집중 값 및 상기 공간 주의집중 값을 사용하여 3D 주의집중 맵을 획득하는 단계는 상기 채널 주의집중 값 및 상기 공간 주의집중 값을 결합하는 단계 및 상기 채널 주의집중 값 및 상기 공간 주의집중 값의 결합 결과에 활성 함수(Activation function)를 적용하는 단계를 포함할 수 있다.

또한 본 개시의 일 실시예에 따르면, 상기 활성 함수는 한곗값 함수(Threshold function), 시그모이드 함수(Sigmoid function), 정류 함수(Rectifier function), ReLU 함수(Rectified Linear Unit function) 및 하이퍼볼릭 탄젠트 함수(Hyperbolic tangent function) 중 어느 하나의 함수에 해당할 수 있다.

또한 본 개시의 일 실시예에 따르면, 상기 3D 주의집중 맵은 요소별 합산(Element-wise summation), 곱셈(Multiplication) 및 최대 오퍼레이션(Max operation) 중 어느 하나를 포함하는 결합 방법을 통해 상기 중간 특징 맵과 결합되어 상기 정제된 특징 맵을 생성할 수 있다.

또한 본 개시의 일 실시예에 따르면, 상기 정제된 특징 맵은 상기 컨벌루션 레이어에 입력되는 상기 입력 특징 맵으로 사용될 수 있다.

한편, 이러한 목적을 달성하기 위한 본 개시의 다른 측면은 입력 이미지의 입력 특징 맵을 입력받은 컨벌루션 레이어로부터 중간 특징 맵을 획득하고, 상기 중간 특징 맵의 채널 주의집중 값을 계산하며, 상기 중간 특징 맵의 공간 주의집중 값을 계산하고, 상기 채널 주의집중 값 및 상기 공간 주의집중 값을 기초로 3D 주의집중 맵을 생성하며, 상기 3D 주의집중 맵을 상기 중간 특징 맵과 결합하여 풀링 레이어에 입력되는 정제된 특징 맵을 생성하는 프로세서 및 상기 입력 특징 맵, 상기, 중간 특징 맵, 상기 3D 주의집중 맵 및 상기 정제된 특징 맵을 저장하는 메모리를 포함하는 합성곱 신경망을 위한 주의집중 값 계산 장치를 제공할 수 있다.

본 개시에 의하면, 합성곱 신경망에 존재하는 데이터 구간에 소프트웨어 모듈을 삽입하여 주의집중 값을 계산함으로써 효율적으로 네트워크의 성능을 향상시킬 수 있는 효과가 있다.

또한 본 개시에 의하면, 주의집중 값 계산 과정에서 채널 정보와 공간 정보를 구분하여 연산을 수행함으로써 네트워크의 정확도를 향상시킬 수 있는 효과가 있다.

도 1은 일부 실시예에 따른 프로세서의 블록도이다.
도 2는 일부 실시예에 따른 데이터 학습부의 블록도이다.
도 3은 일부 실시예에 따른 데이터 인식부의 블록도이다.
도 4는 일부 실시예에 따른 디바이스 및 서버가 서로 연동함으로써 데이터를 학습하고 인식하는 예시를 나타내는 도면이다.
도 5는 기존의 합성곱 신경망의 구조를 도시한 도면이다.
도 6은 일 실시예에 따른 주의집중 값 계산 방법을 도시한 흐름도이다.
도 7은 일 실시예에 따른 주의집중 값 계산 방법의 구조를 도시한 개념도이다.
도 8은 일 실시예에 따른 주의집중 값 계산 방법을 사용하여 채널 주의집중 값을 계산하는 과정을 도시한 흐름도이다.
도 9는 일 실시예에 따른 주의집중 값 계산 방법을 사용하여 공간 주의집중 값을 계산하는 과정을 도시한 흐름도이다.
도 10은 일 실시예에 따라 채널 주의집중 값 및 공간 주의집중 값을 구분하여 계산하고 결합하는 과정을 도시한 개념도이다.
도 11은 일 실시예에 따른 주의집중 값 계산 방법을 통해 이미지를 인식하는 과정을 나타낸 예시도이다.

전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자가 본 개시의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 개시를 설명함에 있어서 본 개시와 관련된 공지 기술에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부된 도면을 참조하여 본 발개시에 따른 바람직한 실시예를 상세히 설명하기로 한다. 도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용된다.

도 1은 일부 실시예에 따른 프로세서의 블록도이다.

도 1을 참조하면, 일부 실시예에 따른 프로세서(1300)는 데이터 학습부(1310) 및 데이터 인식부(1320)를 포함할 수 있다.

데이터 학습부(1310)는 이미지 분석, 음성 인식 및 텍스트 해석 등을 위한 기준을 학습할 수 있다. 데이터 학습부(1310)는 소정의 상황을 판단하기 위하여 어떤 데이터를 이용할 지, 데이터를 이용하여 상황을 어떻게 판단할 지에 관한 기준을 학습할 수 있다. 데이터 학습부(1310)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 후술할 데이터 인식 모델에 적용함으로써, 상황 판단을 위한 기준을 학습할 수 있다.

데이터 인식부(1320)는 데이터에 기초한 상황을 판단할 수 있다. 데이터 인식부(1320)는 학습된 데이터 인식 모델을 이용하여, 소정의 데이터로부터 상황을 인식할 수 있다. 데이터 인식부(1320)는 학습에 의한 기 설정된 기준에 따라 소정의 데이터를 획득하고, 획득된 데이터를 입력 값으로 하여 데이터 인식 모델을 이용함으로써, 소정의 데이터에 기초한 소정의 상황을 판단할 수 있다. 또한, 획득된 데이터를 입력 값으로 하여 데이터 인식 모델에 의해 출력된 결과 값은, 데이터 인식 모델을 갱신하는데 이용될 수 있다.

데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.

이 경우, 데이터 학습부(1310) 및 데이터 인식부(1320)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 학습부(1310) 및 데이터 인식부(1320) 중 하나는 전자 장치에 포함되고, 나머지 하나는 서버에 포함될 수 있다. 또한, 데이터 학습부(1310) 및 데이터 인식부(1320)는 유선 또는 무선으로 통하여, 데이터 학습부(1310)가 구축한 모델 정보를 데이터 인식부(1320)로 제공할 수도 있고, 데이터 인식부(1320)로 입력된 데이터가 추가 학습 데이터로서 데이터 학습부(1310)로 제공될 수도 있다.

한편, 데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.

도 2는 일부 실시예에 따른 데이터 학습부의 블록도이다.

도 2를 참조하면, 일부 실시예에 따른 데이터 학습부(1310)는 데이터 획득부(1310-1), 전처리부(1310-2), 학습 데이터 선택부(1310-3), 모델 학습부(1310-4) 및 모델 평가부(1310-5)를 포함할 수 있다.

데이터 획득부(1310-1)는 상황 판단에 필요한 데이터를 획득할 수 있다. 데이터 획득부(1310-1)는 상황 판단을 위한 학습을 위하여 필요한 데이터를 획득할 수 있다.

데이터 획득부(1310-1)는 이미지를 입력 받을 수 있다. 일 예로, 데이터 획득부(1310-1)는 데이터 학습부(1310)를 포함하는 전자 장치의 카메라, 또는 데이터 학습부(1310)를 포함하는 전자 장치와 통신 가능한 외부의 카메라(예로, CCTV 또는 블랙박스 등)를 통하여 이미지를 입력 받을 수 있다. 여기서, 카메라는 하나 이상의 이미지 센서(예: 전면 센서 또는 후면 센서), 렌즈, 이미지 시그널 프로세서(ISP), 또는 플래시(예: LED 또는 xenon lamp 등)를 포함할 수 있다.

전처리부(1310-2)는 상황 판단을 위한 학습에 획득된 데이터가 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(1310-2)는 후술할 모델 학습부(1310-4)가 상황 판단을 위한 학습을 위하여 획득된 데이터를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다.

학습 데이터 선택부(1310-3)는 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 선택된 데이터는 모델 학습부(1310-4)에 제공될 수 있다. 학습 데이터 선택부(1310-3)는 상황 판단을 위한 기 설정된 기준에 따라, 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 또한, 학습 데이터 선택부(1310-3)는 후술할 모델 학습부(1310-4)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다.

모델 학습부(1310-4)는 학습 데이터에 기초하여 상황을 어떻게 판단할 지에 관한 기준을 학습할 수 있다. 또한, 모델 학습부(1310-4)는 상황 판단을 위하여 어떤 학습 데이터를 이용해야 하는 지에 대한 기준을 학습할 수도 있다.

또한, 모델 학습부(1310-4)는 상황 판단에 이용되는 데이터 인식 모델을 학습 데이터를 이용하여 학습시킬 수 있다. 이 경우, 데이터 인식 모델은 미리 구축된 모델일 수 있다. 예를 들어, 데이터 인식 모델은 기본 학습 데이터(예를 들어, 샘플 이미지 등)을 입력 받아 미리 구축된 모델일 수 있다.

데이터 인식 모델은, 인식 모델의 적용 분야, 학습의 목적 또는 장치의 컴퓨터 성능 등을 고려하여 구축될 수 있다. 데이터 인식 모델은, 예를 들어, 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 예컨대, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network)과 같은 모델이 데이터 인식 모델로서 사용될 수 있으나, 이에 한정되지 않는다.

다양한 실시예에 따르면, 모델 학습부(1310-4)는 미리 구축된 데이터 인식 모델이 복수 개가 존재하는 경우, 입력된 학습 데이터와 기본 학습 데이터의 관련성이 큰 데이터 인식 모델을 학습할 데이터 인식 모델로 결정할 수 있다. 이 경우, 기본 학습 데이터는 데이터의 타입 별로 기 분류되어 있을 수 있으며, 데이터 인식 모델은 데이터의 타입 별로 미리 구축되어 있을 수 있다. 예를 들어, 기본 학습 데이터는 학습 데이터가 생성된 지역, 학습 데이터가 생성된 시간, 학습 데이터의 크기, 학습 데이터의 장르, 학습 데이터의 생성자, 학습 데이터 내의 오브젝트의 종류 등과 같은 다양한 기준으로 기 분류되어 있을 수 있다.

또한, 모델 학습부(1310-4)는, 예를 들어, 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient descent)을 포함하는 학습 알고리즘 등을 이용하여 데이터 인식 모델을 학습시킬 수 있다.

또한, 모델 학습부(1310-4)는, 예를 들어, 학습 데이터를 입력 값으로 하는 지도 학습(supervised learning) 을 통하여, 데이터 인식 모델을 학습시킬 수 있다. 또한, 모델 학습부(1310-4)는, 예를 들어, 별다른 지도없이 상황 판단을 위해 필요한 데이터의 종류를 스스로 학습함으로써, 상황 판단을 위한 기준을 발견하는 비지도 학습(unsupervised learning)을 통하여, 데이터 인식 모델을 학습시킬 수 있다. 또한, 모델 학습부(1310-4)는, 예를 들어, 학습에 따른 상황 판단의 결과가 올바른 지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 통하여, 데이터 인식 모델을 학습시킬 수 있다.

또한, 데이터 인식 모델이 학습되면, 모델 학습부(1310-4)는 학습된 데이터 인식 모델을 저장할 수 있다. 이 경우, 모델 학습부(1310-4)는 학습된 데이터 인식 모델을 데이터 인식부(1320)를 포함하는 전자 장치의 메모리에 저장할 수 있다. 또는, 모델 학습부(1310-4)는 학습된 데이터 인식 모델을 후술할 데이터 인식부(1320)를 포함하는 전자 장치의 메모리에 저장할 수 있다. 또는, 모델 학습부(1310-4)는 학습된 데이터 인식 모델을 전자 장치와 유선 또는 무선 네트워크로 연결되는 서버의 메모리에 저장할 수도 있다.

이 경우, 학습된 데이터 인식 모델이 저장되는 메모리는, 예를 들면, 전자 장치의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 함께 저장할 수도 있다. 또한, 메모리는 소프트웨어 및/또는 프로그램을 저장할 수도 있다. 프로그램은, 예를 들면, 커널, 미들웨어, 어플리케이션 프로그래밍 인터페이스(API) 및/또는 어플리케이션 프로그램(또는 "어플리케이션") 등을 포함할 수 있다.

모델 평가부(1310-5)는 데이터 인식 모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 인식 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(1310-4)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 데이터 인식 모델을 평가하기 위한 기 설정된 데이터일 수 있다.

예를 들어, 모델 평가부(1310-5)는 평가 데이터에 대한 학습된 데이터 인식 모델의 인식 결과 중에서, 인식 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정된 임계치를 초과하는 경우 소정 기준을 만족하지 못한 것으로 평가할 수 있다. 예컨대, 소정 기준이 비율 2%로 정의되는 경우, 학습된 데이터 인식 모델이 총 1000개의 평가 데이터 중의 20개를 초과하는 평가 데이터에 대하여 잘못된 인식 결과를 출력하는 경우, 모델 평가부(1310-5)는 학습된 데이터 인식 모델이 적합하지 않은 것으로 평가할 수 있다.

한편, 학습된 데이터 인식 모델이 복수 개가 존재하는 경우, 모델 평가부(1310-5)는 각각의 학습된 동영상 인식 모델에 대하여 소정 기준을 만족하는지를 평가하고, 소정 기준을 만족하는 모델을 최종 데이터 인식 모델로서 결정할 수 있다. 이 경우, 소정 기준을 만족하는 모델이 복수 개인 경우, 모델 평가부(1310-5)는 평가 점수가 높은 순으로 미리 설정된 어느 하나 또는 소정 개수의 모델을 최종 데이터 인식 모델로서 결정할 수 있다.

한편, 데이터 학습부(1310) 내의 데이터 획득부(1310-1), 전처리부(1310-2), 학습 데이터 선택부(1310-3), 모델 학습부(1310-4) 및 모델 평가부(1310-5) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(1310-1), 전처리부(1310-2), 학습 데이터 선택부(1310-3), 모델 학습부(1310-4) 및 모델 평가부(1310-5) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.

또한, 데이터 획득부(1310-1), 전처리부(1310-2), 학습 데이터 선택부(1310-3), 모델 학습부(1310-4) 및 모델 평가부(1310-5)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1310-1), 전처리부(1310-2), 학습 데이터 선택부(1310-3), 모델 학습부(1310-4) 및 모델 평가부(1310-5) 중 일부는 전자 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다.

또한, 데이터 획득부(1310-1), 전처리부(1310-2), 학습 데이터 선택부(1310-3), 모델 학습부(1310-4) 및 모델 평가부(1310-5) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1310-1), 전처리부(1310-2), 학습 데이터 선택부(1310-3), 모델 학습부(1310-4) 및 모델 평가부(1310-5) 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.

도 3은 일부 실시예에 따른 데이터 인식부의 블록도이다.

도 3을 참조하면, 일부 실시예에 따른 데이터 인식부(1320)는 데이터 획득부(1320-1), 전처리부(1320-2), 인식 데이터 선택부(1320-3), 인식 결과 제공부(1320-4) 및 모델 갱신부(1320-5)를 포함할 수 있다.

데이터 획득부(1320-1)는 상황 판단에 필요한 데이터를 획득할 수 있으며, 전처리부(1320-2)는 상황 판단을 위해 획득된 데이터가 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(1320-2)는 후술할 인식 결과 제공부(1320-4)가 상황 판단을 위하여 획득된 데이터를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다.

인식 데이터 선택부(1320-3)는 전처리된 데이터 중에서 상황 판단에 필요한 데이터를 선택할 수 있다. 선택된 데이터는 인식 결과 제공부(1320-4)에게 제공될 수 있다. 인식 데이터 선택부(1320-3)는 상황 판단을 위한 기 설정된 기준에 따라, 전처리된 데이터 중에서 일부 또는 전부를 선택할 수 있다. 또한, 인식 데이터 선택부(1320-3)는 후술할 모델 학습부(1310-4)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다.

인식 결과 제공부(1320-4)는 선택된 데이터를 데이터 인식 모델에 적용하여 상황을 판단할 수 있다. 인식 결과 제공부(1320-4)는 데이터의 인식 목적에 따른 인식 결과를 제공할 수 있다. 인식 결과 제공부(1320-4)는 인식 데이터 선택부(1320-3)에 의해 선택된 데이터를 입력 값으로 이용함으로써, 선택된 데이터를 데이터 인식 모델에 적용할 수 있다. 또한, 인식 결과는 데이터 인식 모델에 의해 결정될 수 있다.

이미지의 인식 결과는 텍스트, 음성, 동영상, 이미지 또는 명령어(예로, 어플리케이션 실행 명령어, 모듈 기능 실행 명령어 등) 등으로 제공될 수 있다. 일 예로, 인식 결과 제공부(1320-4)는 이미지에 포함된 오브젝트의 인식 결과를 제공 할 수 있다. 인식 결과는, 예로, 이미지에 포함된 오브젝트의 상태 정보, 오브젝트의 주변 상태 정보 등이 될 수 있다.

모델 갱신부(1320-5)는 인식 결과 제공부(1320-4)에 의해 제공되는 인식 결과에 대한 평가에 기초하여, 데이터 인식 모델이 갱신되도록할 수 있다. 예를 들어, 모델 갱신부(1320-5)는 인식 결과 제공부(1320-4)에 의해 제공되는 인식 결과를 모델 학습부(1310-4)에게 제공함으로써, 모델 학습부(1310-4)가 데이터 인식 모델을 갱신하도록 할 수 있다.

한편, 데이터 인식부(1320) 내의 데이터 획득부(1320-1), 전처리부(1320-2), 인식 데이터 선택부(1320-3), 인식 결과 제공부(1320-4) 및 모델 갱신부(1320-5) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(1320-1), 전처리부(1320-2), 인식 데이터 선택부(1320-3), 인식 결과 제공부(1320-4) 및 모델 갱신부(1320-5) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.

또한, 데이터 획득부(1320-1), 전처리부(1320-2), 인식 데이터 선택부(1320-3), 인식 결과 제공부(1320-4) 및 모델 갱신부(1320-5)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1320-1), 전처리부(1320-2), 인식 데이터 선택부(1320-3), 인식 결과 제공부(1320-4) 및 모델 갱신부(1320-5) 중 일부는 전자 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다.

또한, 데이터 획득부(1320-1), 전처리부(1320-2), 인식 데이터 선택부(1320-3), 인식 결과 제공부(1320-4) 및 모델 갱신부(1320-5) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1320-1), 전처리부(1320-2), 인식 데이터 선택부(1320-3), 인식 결과 제공부(1320-4) 및 모델 갱신부(1320-5) 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.

도 4는 일부 실시예에 따른 디바이스 및 서버가 서로 연동함으로써 데이터를 학습하고 인식하는 예시를 나타내는 도면이다.

도 4를 참조하면, 서버(2000)는 이미지 분석, 음성 인식 및 텍스트 해석 등을 위한 기준을 학습할 수 있으며, 디바이스(1000)는 서버(2000)에 의한 학습 결과에 기초하여 상황을 판단할 수 있다.

이 경우, 서버(2000)의 모델 학습부(2340)는 도 2에 도시된 데이터 학습부(1310)의 기능을 수행할 수 있다. 서버(2000)의 모델 학습부(2340)는 소정의 상황을 판단하기 위하여 어떤 데이터를 이용할 지, 데이터를 이용하여 상황을 어떻게 판단할 지에 관한 기준을 학습할 수 있다. 모델 학습부(2340)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 후술할 데이터 인식 모델에 적용함으로써, 상황 판단을 위한 기준을 학습할 수 있다.

또한, 디바이스(1000)의 인식 결과 제공부(1320-4)는 인식 데이터 선택부(1320-3)에 의해 선택된 데이터를 서버(2000)에 의해 생성된 데이터 인식 모델에 적용하여 상황을 판단할 수 있다. 예를 들어, 인식 결과 제공부(1320-4)는 인식 데이터 선택부(1320-3)에 의해 선택된 데이터를 서버(2000)에게 전송하고, 서버(2000)가 인식 데이터 선택부(1320-3)에 의해 선택된 데이터를 인식 모델에 적용하여 상황을 판단할 것을 요청할 수 있다. 또한, 인식 결과 제공부(1320-4)는 서버(2000)에 의해 판단된 상황에 관한 정보를 서버(2000)로부터 수신할 수 있다.

또는, 디바이스(1000)의 인식 결과 제공부(1320-4)는 서버(2000)에 의해 생성된 인식 모델을 서버(2000)로부터 수신하고, 수신된 인식 모델을 이용하여 상황을 판단할 수 있다. 이 경우, 디바이스(1000)의 인식 결과 제공부(1320-4)는 인식 데이터 선택부(1320-3)에의해 선택된 데이터를 서버(2000)로부터 수신된 데이터 인식 모델에 적용하여 상황을 판단할 수 있다.

도 5는 기존의 합성곱 신경망의 구조를 도시한 도면이다.

합성곱 신경망은 다계층 퍼셉트론(multilayer perceptrons)의 한 종류로서, 하나 또는 여러 개의 컨벌루션 레이어와 일반적인 인공 신경망 레이어들로 이루어져, 컨벌루션 레이어에서 전처리를 수행하는 구조를 가진 인공 신경망을 의미한다.

도 5를 참조하면, 일반적인 합성곱 신경망은 컨벌루션 레이어(Convolution layer)(101) 및 풀링 레이어(Pooling layer)(103)를 이용한 입력 데이터(1)의 특성 추출(11) 및 완전 연결 레이어(Fully connected layer)(105)를 이용한 입력 데이터(1)의 분류(12)에 사용될 수 있다.

컨벌루션 레이어(101)는 컨벌루션 연산을 통해 입력 데이터(1)의 의미있는 특징들을 추출하는 레이어로, 일종의 필터 연산에 해당하는 합성곱 연산을 이용한다.

보다 구체적으로, 컨벌루션 레이어(101)는 입력 데이터(1)에 특정 크기의 필터를 적용하여 다음 레이어에 전달할 새로운 데이터 데이터를 생성할 수 있으며, 이와 같은 컨벌루션 레이어(101)의 입출력 데이터는 특징 맵(Feature map)으로 지칭될 수 있다.

한편, 합성곱 신경망에 입력되는 데이터가 RGB 성분과 같이 복수의 성분을 포함하는 입력 이미지인 경우, 입력 데이터는 복수의 채널로 구성될 수 있다.

이때 컨벌루션 레이어(101)의 입출력 데이터는 2차원 이미지의 공간 성분(예를 들어, 2차원 좌표상의 위치) 이외에 채널 성분(예를 들어, RGB 각각에 대한 채도)을 포함하며, 입출력 데이터의 특징 맵은 3차원 형태로 이루어질 수 있다.

풀링 레이어(103)는 서브 샘플링(Sub-sampling)을 통하여 입력받은 데이터를 축소한다.

보다 구체적으로, 풀링 레이어(103)는 최대 풀링(Max Pooling) 및 평균 풀링(Average Pooling)과 같은 풀링 기법을 통해 데이터를 샘플링 함으로써 데이터의 크기를 축소할 수 있다.

한편, 완전 연결 레이어(105)는 컨벌루션 레이어(101) 및 풀링 레이어(103)를 통해 전달된 특징을 기초로 데이터 분류를 수행하기 위한 레이어로서, 3차원 형태의 특징 맵이 평탄화된 1차원 형태의 데이터를 입력받을 수 있다.

이와 같은 완전 연결 레이어(105)를 통과한 1차원 형태의 데이터는 활성화 함수(Activation function)를 통해 출력 신호(107)로 변환될 수 있다.

이처럼 합성곱 신경망은 컨벌루션 레이어 및 풀링 레이어를 사용하여 입력 데이터, 특히 입력 이미지에 대한 특징 맵의 3차원 형상을 유지할 수 있으므로, 입력 이미지의 화소 또는 채널 사이의 관련성에 관한 정보가 손실되는 것을 방지하여 이미지 인식률을 높일 수 있는 장점이 있다.

도 6은 일 실시예에 따른 주의집중 값 계산 방법을 도시한 흐름도이다.

도 6을 참조하면, 일 실시예에 따른 프로세서는 입력 이미지의 입력 특징 맵(Input feature map)을 입력받은 컨벌루션 레이어(Convolution layer)로부터 중간 특징 맵을 획득한다(S21).

본 개시에서 입력 특징 맵은 컨벌루션 레이어에 입력되는 데이터를, 중간 특징 맵은 컨벌루션 레이어로부터 출력되고 풀링 레이어에 입력되기 위해 컨벌루션 레이어의 컨벌루션 연산 과정을 거치는 데이터를 의미한다.

프로세서는 획득한 중간 특징 맵을 사용하여 채널 주의집중 값(Channel attention) 및 공간 주의집중 값(Spatial attention)을 계산한다(S22, S23)

일 실시예에 따른 주의집중 값은 특정 벡터에 주목하여 연산을 수행함으로써 네트워크 모델의 성능을 높이는 기법인 주의집중 기법(Attention mechanism)을 통해 산출되는 값이다.

보다 구체적으로, 주의집중 기법은 인간의 인식 프로세스를 모방하여 계층적 구조(hierarchical structure)를 가지고 있는 데이터 중 중요한 데이터에 가중치를 더해줌으로써 합성곱 신경망의 분류 성능을 높이기 위해 사용된다.

이와 같은 주의집중 기법은 상대적으로 중요한 정보를 포함하고 있는 데이터와 중요하지 않은 정보를 포함하고 있는 데이터를 구분하고 학습함으로써 합성곱 신경망 네트워크 내의 정보 흐름을 원활하게 하는 효과가 있다.

이와 같은 주의집중 기법의 사용과 관련하여, 본 개시는 컨벌루션 레이어의 입출력 데이터인 3차원 형태의 특징 맵을 사용하여 직접 3차원 형태의 주의집중 값을 획득하는 대신, 3차원 형태의 특징 맵을 기초로 공간 성분 및 채널 성분을 개별적으로 획득하는 구조를 제안한다.

즉, 본 개시의 주의집중 값 계산 방법은 컨벌루션 레이어의 입출력 데이터에 대하여 구분된 공간 성분 및 채널 성분의 주의집중 값을 각각 독립적으로 획득한 뒤, 획득된 공간 성분 및 채널 성분의 주의집중 값의 결합을 기초로 정제(refined)된 특성 맵을 생성함으로써 합성곱 신경망의 정확도를 향상시키기 위해 사용될 수 있다.

일 실시예에 따른 주의집중 값 계산 방법에서, 중간 특징 맵에 전역 평균 풀링(Global Average Pooling, GAP)을 수행하여 제1 채널 벡터를 생성하는 단계, 다층 신경망(Multi-Layer Perceptron, MLP)을 이용하여 제1 채널 벡터로부터 제2 채널 벡터를 생성하는 단계 및 제2 채널 벡터에 배치 정규화(Batch normalization)를 수행하여 채널 주의집중 값을 획득하는 단계를 통해 채널 주의집중 값이 결정될 수 있다.

이와 같은 채널 주의집중 값 계산 방법은 도 8을 통해 상세히 후술한다.

한편 일 실시예에 따른 주의집중 값 계산 방법에서, 중간 특징 맵에 제1 컨벌루션을 수행하여 제1 채널 감소 특징 맵을 생성하는 단계, 제1 채널 감소 특징 맵에 확장 컨벌루션(Dilated convolution)을 수행하여 확장된 특징 맵을 생성하는 단계, 확장된 특징 맵에 제2 컨벌루션을 수행하여 제2 채널 감소 특징 맵을 생성하는 단계 및 제2 채널 감소 특징 맵에 배치 정규화를 수행하여 공간 주의집중 값을 획득하는 단계를 통해 공간 주의집중 값이 결정될 수 있다.

이와 같은 공간 주의집중 값 계산 방법은 도 9를 통해 상세히 후술한다.

프로세서는 계산된 채널 주의집중 값 및 공간 주의집중 값을 기초로 3D 주의집중 맵을 생성한다(S24).

채널 주의집중 값 및 공간 주의집중 값을 사용하여 3D 주의집중 맵을 획득하는 방법은 채널 주의집중 값 및 공간 주의집중 값을 결합하는 단계 및 채널 주의집중 값 및 공간 주의집중 값의 결합 결과에 활성 함수(Activation function)를 적용하는 단계를 포함할 수 있다.

3D 주의집중 맵이 생성되면, 프로세서는 생성된 3D 주의집중 맵을 중간 특징 맵과 결합하여 풀링 레이어에 입력되는 정제된 특징 맵(Refined feature map)을 생성한다(S25).

정제된 특징 맵은 합성곱 신경망의 구조에 따라 새로운 컨벌루션 레이어에 입력되는 입력 특징 맵으로 재사용될 수 있다. 즉, 일 실시예에 따른 주의집중 값은 합성곱 신경망의 컨벌루션 레이어와 풀링 레이어의 데이터 연결 구간에서 획득될 수 있다.

즉, 합성곱 신경망의 복수의 컨벌루션 레이어와 풀링 레이어 사이의 데이터 연결 구간 중 하나 이상의 구간에 삽입되는 소프트웨어 모듈을 통해 주의집중 값이 획득될 수 있으며, 주의집중이 획득되는 구간은 컨벌루션 레이어와 풀링 레이어 사이의 데이터 연결 구간 중 특정 구간으로 한정되지 않는다.

도 7은 일 실시예에 따른 주의집중 값 계산 방법의 구조를 도시한 개념도이다.

도 7을 참조하면, 일 실시예에 따른 주의집중 값 계산 방법은 중간 특징 맵(31)을 기초로 채널 주의집중 값 및 공간 주의집중 값을 구분하여 독립적으로 계산한다(3).

채널 주의집중 값의 계산 과정(301)을 통해 계산된 채널 주의집중 값(321) 및 공간 주의집중 값의 계산 과정(302)을 통해 계산된 공간 주의집중 값(322)은 서로 결합되어 3D 주의집중 맵(32)이 된다.

채널 주의집중 값(321)과 공간 주의집중 값(322)의 결합으로 생성된 3D 주의집중 맵(32)은 중간 특징 맵(31)과 결합(36)되어 정제된 특징 맵을 구성한다.

이와 같이 일 실시예에 따른 주의집중 값 계산 방법에 따라 생성된 3D 주의집중 맵은 중간 특징 맵의 데이터 중 중요한 데이터에 가중치를 주어 정제된 특징 맵을 구성하므로, 상대적으로 중요한 정보를 포함하고 있는 데이터와 중요하지 않은 데이터를 포함하고 있는 데이터를 구분하여 합성곱 신경망 네트워크 내의 정보 흐름을 원할하게 하는 효과가 있다.

이하에서는 도 8 내지 도 10을 통해 일 실시예에 따른 주의집중 값 계산 방법을 통해 채널 주의집중 값 및 공간 주의집중 값을 구분하여 독립적으로 계산하는 과정을 상세히 설명한다.

도 8은 일 실시예에 따른 주의집중 값 계산 방법을 사용하여 채널 주의집중 값을 계산하는 과정을 도시한 흐름도이다.

도 8을 참조하면, 프로세서는 중간 특징 맵에 전역 평균 풀링을 수행하여 제1 채널 벡터를 생성한다(S41).

다음으로, 프로세서는 다층 신경망을 이용하여 제1 채널 벡터로부터 제2 채널 벡터를 생성한다(S42). 이때 다층 신경망은 하나의 은닉층(Hidden layer)을 포함할 수 있다.

제2 채널 벡터를 생성하는 단계는 미리 설정된 제1 감소 비율을 사용하여 제1 채널 벡터의 채널 수를 감소시키는 단계를 포함할 수 있다.

마지막으로, 프로세서는 제2 채널 벡터에 배치 정규화를 수행하여 채널 주의집중 값을 획득한다(S43).

프로세서는 배치 정규화를 통해 채널 주의집중 값 및 공간 주의집중 값의 데이터 분포를 정규화하며, 학습이 이루어질 때마다 각 주의집중 값을 정규화하여 가중치 초기 값에 대한 의존성을 감소시킴으로써 학습 속도를 개선할 수 있다.

도 9는 일 실시예에 따른 주의집중 값 계산 방법을 사용하여 공간 주의집중 값을 계산하는 과정을 도시한 흐름도이다.

도 9를 참조하면, 일 실시예에 따른 프로세서는 중간 특징 맵에 제1 컨벌루션을 수행하여 제1 채널 감소 특징 맵을 생성한다(S51).

제1 채널 감소 특징 맵을 생성하는 단계는 미리 설정된 제2 감소 비율을 사용하여 중간 특징 맵의 채널 수를 감소시키는 단계를 포함할 수 있다.

다음으로, 프로세서는 제1 채널 감소 특징 맵에 확장 컨벌루션을 수행하여 확장된 특징 맵을 생성한다(S52).

다음으로, 프로세서는 확장된 특징 맵에 제2 컨벌루션을 수행하여 제2 채널 감소 특징 맵을 생성한다(S53).

프로세서는 1X1 크기의 필터를 사용하여 제1 컨벌루션 및 제2 컨벌루션을 수행할 수 있다.

마지막으로, 프로세서는 제2 채널 감소 특징 맵에 배치 정규화를 수행하여 공간 주의집중 값을 획득한다(S54).

도 10은 일 실시예에 따라 채널 주의집중 값 및 공간 주의집중 값을 구분하여 계산하고 결합하는 과정을 도시한 개념도이다.

도 10을 참조하면, 일 실시예에 따른 프로세서는 입력 이미지의 각 채널의 특징 맵을 집계하는 채널 주의집중 값을 계산하기 위해, 높이가 H, 폭이 W, 채널 개수가 C에 해당하는 중간 특징 맵(

)(61)에 전역 평균 풀링을 수행하여 제1 채널 벡터(

)(601)를 생성한다.

이때 중간 특징 맵(

)의 높이 H는 중간 특징 맵의 C개의 채널 중 각 채널을 구성하는 2차원 특징 맵의 높이를 의미하며, 폭 W는 중간 특징 맵의 각 채널을 구성하는 2차원 특징 맵의 폭을 의미한다.

이와 같은 전역 평균 풀링 과정은 1x1 크기(높이가 1, 폭이 1)의 필터를 사용하여 중간 특징 맵(61)에 컨벌루션을 수행함으로써 중간 특징 맵(61)의 채널 수를 1x1 크기의 필터의 채널 수와 일치하도록 감소시키는 과정을 포함한다.

이때, 중간 특징 맵(61)의 채널 수가 1x1 크기의 필터의 채널 수와 일치되도록 감소되면, 채널 수가 감소된 특징 맵에 평균 풀링을 수행하는 과정을 통해 제1 채널 벡터(601)가 생성된다.

즉, 프로세서는 중간 특징 맵(61)에 1x1 크기의 필터를 사용하여 컨벌루션을 수행하고, 컨벌루션 결과에 따른 특징 맵의 각 채널에 대해 평균 풀링을 수행함으로써 제1 채널 벡터(601)를 생성할 수 있다.

제1 채널 벡터(601)가 생성되면, 프로세서는 채널 사이의 주의집중 값을 계산하기 위해 다층 신경망을 이용하여 제1 채널 벡터(601)로부터 제2 채널 벡터(602)를 생성한다. 이때 프로세서가 제2 채널 벡터(602)를 생성하기 위해 사용하는 다층 신경망은 하나의 은닉층을 포함할 수 있다.

프로세서는 파라미터 오버헤드의 발생을 방지하기 위해, 미리 설정된 제1 감소 비율 r을 사용하여 제1 채널 벡터(601)의 채널 수를 감소시킬 수 있다(

)(611).

프로세서는 제2 채널 벡터(602)에 배치 정규화를 수행하여 채널 주의집중 값을 획득한다.

이와 같은 배치 정규화는 채널 주의집중 값과 공간 주의집중 값의 결합 시, 채널 주의집중 값과 공간 주의집중 값의 각 차원의 크기를 일치시키기 위해 사용된다.

일 실시예에 따른 채널 주의집중 값의 계산 과정은 아래와 같은 식 1로 표현될 수 있다.

[식 1]

상기 식 1에서

는 높이가 1, 폭이 1, 채널 크기가 C에 해당하는 채널 주의집중 값(

)을 의미하고,

(

) 및

(

)은 다층 신경망 구조의 가중치 벡터들을,

(

) 및

(

)은 다층 신경망 구조의 바이어스들을 의미한다.

다시 도 10을 참조하면, 일 실시예에 따른 프로세서는 입력 이미지의 상이한 공간에 위치한 특징들을 강조하거나 억제 하는 공간 주의집중 값을 계산하기 위해, 중간 특징 맵(61)에 제1 컨벌루션을 수행하여 제1 채널 감소 특징 맵(602)을 생성한다.

프로세서는 중간 특징 맵(61)을 채널 차원 전체에 걸쳐 압축하기 위해 1X1 크기의 필터를 사용하는 제1 컨벌루션을 수행할 수 있다.

즉, 제1 컨벌루션은 1x1 크기의 필터를 사용하여 중간 특징 맵(61)에 컨벌루션을 수행함으로써 중간 특징 맵(61)의 채널 수를 1x1 크기의 필터의 채널 수와 일치하도록 감소시킬 수 있다.

제1 채널 감소 특징 맵(602)을 생성하는 단계는 미리 설정된 제2 감소 비율을 사용하여 중간 특징 맵(61)의 채널 수를 감소시키는 단계를 포함할 수 있다.

전술한 것과 같이, 채널 주의집중 값을 계산하는 과정에서 프로세서는 오버헤드의 발생을 방지하기 위해 미리 설정된 제1 감소 비율 r을 사용하여 제1 채널 벡터(601)의 채널 수를 감소시킬 수 있다. 이때, 프로세서는 연산의 단순화를 위해 제1 감소 비율 r과 동일한 비율인 제2 감소 비율 r을 사용하여 제1 채널 감소 특징 맵(602)을 생성할 수 있다(

).

다음으로, 프로세서는 중간 특징 맵(61)의 문맥 정보를 효과적으로 활용하기 위해, 제1 채널 감소 특징 맵(602)에 확장 컨벌루션을 수행하여 확장된 특징 맵(612)을 생성한다.

이때 프로세서는 미리 설정된 확장 비율 d를 사용하여 제1 채널 감소 특징 맵(602)에 3X3 크기(높이가 3, 폭이 3)의 필터를 통한 확장 컨벌루션을 수행할 수 있다.

다음으로, 프로세서는 확장된 특징 맵(612)에 1X1 크기의 필터를 사용하는 제2 컨벌루션을 수행하여 제2 채널 감소 특징 맵(622)을 생성한다(

).

이처럼 일 실시예에 따른 프로세서는 공간 차원에서 한 개의 1x1 컨벌루션, 두 개의 3x3 컨벌루션 및 한 개의 1x1 컨벌루션을 순서대로 적용하는 병목 구조(bottleneck architecture), 즉 특징 맵에 포함된 데이터의 양을 순차적으로 감소 및 증가시키는 구조를 사용함으로써, 파라미터의 개수 및 연산 오버헤드를 감소시킬 수 있다.

마지막으로, 프로세서는 제2 채널 감소 특징 맵(622)에 배치 정규화를 수행하여 공간 주의집중 값을 획득한다.

이와 같은 배치 정규화는 공간 주의집중 값과 채널 주의집중 값의 결합 시, 공간 주의집중 값과 채널 주의집중 값의 각 차원의 크기를 일치시키기 위해 사용된다.

일 실시예에 따른 공간 주의집중 값의 계산 과정은 아래와 같은 식 2로 표현될 수 있다.

[식 2]

상기 식 2에서

는 높이가 H, 폭이 W, 채널크기가 1에 해당하는 공간 주의집중 값(

)을 의미하고,

및

은 1X1 컨벌루션을,

및

는 3X3 컨벌루션을 의미한다.

다시 도 10을 참조하면, 일 실시예에 따른 프로세서는 계산된 채널 주의집중 값 및 공간 주의집중 값을 기초로 3D 주의집중 맵(62)을 생성한다.

프로세서는 채널 주의집중 값 및 공간 주의집중 값을 사용하여 3D 주의집중 맵(62)을 획득하기 위해, 채널 주의집중 값 및 공간 주의집중 값의 결합(64) 결과에 활성 함수를 적용할 수 있다(65).

이때 프로세서가 사용하는 활성 함수는 한곗값 함수, 시그모이드 함수, 정류 함수, ReLU 함수 및 하이퍼볼릭 탄젠트 함수 중 어느 하나의 함수에 해당할 수 있다.

일 실시예에 따른 3D 주의집중 맵의 계산 과정은 아래와 같은 식 3로 표현될 수 있다.

[식 3]

상기 식 3에서

는 채널 주의집중 값을,

는 공간 주의집중 값을,

는 3D 주의집중 맵(62)을 의미하고,

는 활성 함수 중 시그모이드 함수를 의미한다.

3D 주의집중 맵(62)이 생성되면, 프로세서는 생성된 3D 주의집중 맵(62)을 중간 특징 맵(61)과 결합(66, 67)하여 풀링 레이어에 입력되는 정제된 특징 맵(Refined feature map)을 생성한다.

이때 프로세서는 3D 주의집중 맵(62)을 요소별 합산(Element-wise summation), 곱셈(Multiplication) 및 최대 오퍼레이션(Max operation) 중 어느 하나를 포함하는 결합 방법을 통해 중간 특징 맵(61)과 결합하여 정제된 특징 맵을 생성한다.

일 실시예에 따른 정제된 특징 맵의 생성 과정은 아래와 같은 식 4로 표현될 수 있다.

[식 4]

상기 식 4에서

는 3D 주의집중 값을,

는 중간 특징 맵(61)을,

는 정제된 중간 특징 맵을 의미하고,

는 결합 방법 중 요소별 합산을 의미한다.

정제된 특징 맵은 합성곱 신경망의 구조에 따라 새로운 컨벌루션 레이어에 입력되는 입력 특징 맵으로 재사용될 수 있다.

이와 같은 주의집중 값 계산의 수행은 합성곱 신경망의 복수의 컨벌루션 레이어와 풀링 레이어 사이 구간 중 하나 이상의 데이터 연결 구간에 삽입되는 소프트웨어 모듈을 통해 이루어질 수 있으며, 주의집중 값 계산 방법이 수행되는 컨벌루션 레이어와 풀링 레이어 사이의 데이터 연결 구간은 특정 구간으로 한정되지 않는다.

도 11은 일 실시예에 따른 주의집중 값 계산 방법을 통해 이미지를 인식하는 과정을 나타낸 예시도이다.

전술한 것과 같이, 일 실시예에 따른 프로세서는 3D 주의집중 맵을 중간 특징 맵과 결합하여 풀링 레이어에 입력되는 정제된 특징 맵을 생성하고, 정제된 특징 맵은 합성곱 신경망의 구조에 따라 새로운 컨벌루션 레이어에 입력되는 입력 특징 맵으로 재사용될 수 있다.

도 1 및 도 11을 참조하면, 일 실시예에 따른 프로세서(1300)에 포함된 데이터 학습부(1310)는 입력 이미지(71), 즉 고양이를 촬영한 사진에 해당하는 이미지를 제1 컨벌루션 레이어(701)를 통해 중간 특징 맵으로 변환하며, 제1 컨벌루션 레이어(701)에서 출력된 중간 특징 맵을 풀링 레이어(703)에 입력할 수 있다.

이때, 데이터 학습부(1310)는 제1 컨벌루션 레이어(701)와 풀링 레이어(703) 사이 구간에 소프트웨어 모듈(72)을 삽입하여, 제1 컨벌루션 레이어(701)에서 출력되는 중간 특징 맵을 기초로 3D 주의집중 맵을 생성하고, 생성된 3D 주의집중 맵을 중간 특징 맵과 결합함으로써 정제된 특징 맵을 생성하고 출력한다.

일 실시예에서, 이와 같은 소프트웨어 모듈(72)은 컨벌루션 레이어와 풀링 레이어 사이 구간에 삽입되고, 특징 맵에 포함된 데이터의 양이 순차적으로 감소 및 증가되는 구조를 사용하므로, 병목 주의집중 모듈, 즉 BAM(Bottleneck Attention Module)로 지칭될 수 있다.

일 실시예에 따른 프로세서(1300)에 포함된 데이터 인식부(1320)는 정제된 특징 맵을 사용하여 데이터의 인식 목적에 따른 인식 결과를 제공할 수 있다.

중간 특징 맵의 이미지(721)와 정제된 특징 맵의 이미지(723)를 비교하면, 정제된 특징 맵의 이미지(723)는 3D 주의집중 맵의 이미지(722)에 의해 인식 목표 대상(77)에 해당하는 고양이와 상대적으로 중요하지 않은 대상에 해당하는 배경 사이의 경계가 보다 뚜렷하게 구분되도록 변환된 것을 알 수 있다.

따라서, 데이터 인식부(1320)는 인식 목표 대상(77)이 강조된 정제된 특징 맵을 사용하여 데이터 인식을 수행함으로써, 보다 정확한 인식 결과를 제공할 수 있다.

다시 도 11을 참조하면, 풀링 레이어(703)에 입력된 정제된 특징 맵은 샘플링 이후 합성곱 신경망의 구조에 따라 새로운 제2 컨벌루션 레이어(705)에 입력되는 입력 특징 맵으로 재사용될 수 있다.

이처럼 풀링 레이어는 소프트웨어 모듈을 통해 정제된 특징 맵을 사용하여 서브 샘플링을 수행하여 다음 컨벌루션 레이어에 입력되는 특징 맵을 생성하거나 입력 데이터의 분류에 사용되는 완전 연결 레이어를 생성할 수 있으므로, 합성곱 신경망의 인식 정확도는 인식 목표 대상에 대한 주의집중을 통해 상대적으로 향상될 수 있다.

전술한 개시는, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

Claims

입력 이미지의 입력 특징 맵(Input feature map)을 입력받은 컨벌루션 레이어(Convolutional layer)로부터 중간 특징 맵을 획득하는 단계;
상기 중간 특징 맵의 채널 주의집중 값(Channel attention)을 계산하는 단계;
상기 중간 특징 맵의 공간 주의집중 값(Spatial attention)을 계산하는 단계;
상기 채널 주의집중 값 및 상기 공간 주의집중 값을 기초로 3D 주의집중 맵을 생성하는 단계; 및
상기 3D 주의집중 맵을 상기 중간 특징 맵과 결합하여 풀링 레이어(Pooling layer)에 입력되는 정제된 특징 맵(Refined feature map)을 생성하는 단계를 포함하는
합성곱 신경망을 위한 주의집중 값 계산 방법.
제1항에 있어서,
상기 채널 주의집중 값을 계산하는 단계는
상기 중간 특징 맵에 전역 평균 풀링(Global Average Pooling, GAP)을 수행하여 제1 채널 벡터를 생성하는 단계;
다층 신경망(Multi-Layer Perceptron, MLP)을 이용하여 상기 제1 채널 벡터로부터 제2 채널 벡터를 생성하는 단계; 및
상기 제2 채널 벡터에 배치 정규화(Batch normalization)를 수행하여, 상기 채널 주의집중 값을 획득하는 단계;를 포함하는
합성곱 신경망을 위한 주의집중 값 계산 방법.
제2항에 있어서,
상기 다층 신경망은
하나의 은닉층(Hidden layer)을 포함하는
합성곱 신경망을 위한 주의집중 값 계산 방법.
제2항에 있어서,
상기 제2 채널 벡터를 생성하는 단계는
미리 설정된 제1 감소 비율을 사용하여 상기 제1 채널 벡터의 채널 수를 감소시키는 단계를 포함하는
합성곱 신경망을 위한 주의집중 값 계산 방법.
제1항에 있어서,
상기 공간 주의집중 값을 계산하는 단계는
상기 중간 특징 맵에 제1 컨벌루션(Convolution)을 수행하여 제1 채널 감소 특징 맵을 생성하는 단계;
상기 제1 채널 감소 특징 맵에 확장 컨벌루션(Dilated convolution)을 수행하여 확장된 특징 맵을 생성하는 단계;
상기 확장된 특징 맵에 제2 컨벌루션을 수행하여 제2 채널 감소 특징 맵을 생성하는 단계; 및
상기 제2 채널 감소 특징 맵에 배치 정규화를 수행하여 상기 공간 주의집중 값을 획득하는 단계;를 포함하는
합성곱 신경망을 위한 주의집중 값 계산 방법.
제5항에 있어서,
상기 제1 채널 감소 특징 맵을 생성하는 단계는
미리 설정된 제2 감소 비율을 사용하여 상기 중간 특징 맵의 채널 수를 감소시키는 단계를 포함하는
합성곱 신경망을 위한 주의집중 값 계산 방법.
제5항에 있어서,
상기 제1 컨벌루션 및 상기 제2 컨벌루션은 1X1 크기의 필터를 사용하는
합성곱 신경망을 위한 주의집중 값 계산 방법.
제5항에 있어서,
상기 확장된 특징 맵을 생성하는 단계는
미리 설정된 확장 비율을 사용하여 상기 제1 채널 감소 특징 맵에 3X3 크기의 필터를 통한 확장 컨벌루션을 수행하는 단계를 포함하는
합성곱 신경망을 위한 주의집중 값 계산 방법.
제1항에 있어서,
상기 채널 주의집중 값 및 상기 공간 주의집중 값을 사용하여 3D 주의집중 맵을 획득하는 단계는
상기 채널 주의집중 값 및 상기 공간 주의집중 값을 결합하는 단계; 및
상기 채널 주의집중 값 및 상기 공간 주의집중 값의 결합 결과에 활성 함수(Activation function)를 적용하는 단계;를 포함하는
합성곱 신경망을 위한 주의집중 값 계산 방법.
제9항에 있어서,
상기 활성 함수는
한곗값 함수(Threshold function), 시그모이드 함수(Sigmoid function), 정류 함수(Rectifier function), ReLU 함수(Rectified Linear Unit function) 및 하이퍼볼릭 탄젠트 함수(Hyperbolic tangent function) 중 어느 하나의 함수에 해당하는
합성곱 신경망을 위한 주의집중 값 계산 방법.
제1항에 있어서,
상기 3D 주의집중 맵은
요소별 합산(Element-wise summation), 곱셈(Multiplication) 및 최대 오퍼레이션(Max operation) 중 어느 하나를 포함하는 결합 방법을 통해 상기 중간 특징 맵과 결합되어 상기 정제된 특징 맵을 생성하는
합성곱 신경망을 위한 주의집중 값 계산 방법.
제1항에 있어서,
상기 정제된 특징 맵은 상기 컨벌루션 레이어에 입력되는 상기 입력 특징 맵으로 사용될 수 있는
합성곱 신경망을 위한 주의집중 값 계산 방법.
입력 이미지의 입력 특징 맵(Input feature map)을 입력받은 컨벌루션 레이어(Convolutional layer)로부터 중간 특징 맵을 획득하고, 상기 중간 특징 맵의 채널 주의집중 값(Channel attention)을 계산하며, 상기 중간 특징 맵의 공간 주의집중 값(Spatial attention)을 계산하고, 상기 채널 주의집중 값 및 상기 공간 주의집중 값을 기초로 3D 주의집중 맵을 생성하며, 상기 3D 주의집중 맵을 상기 중간 특징 맵과 결합하여 풀링 레이어(Pooling layer)에 입력되는 정제된 특징 맵(Refined feature map)을 생성하는 프로세서; 및
상기 입력 특징 맵, 상기, 중간 특징 맵, 상기 3D 주의집중 맵 및 상기 정제된 특징 맵을 사용하는 데이터 인식 모델을 저장하는 메모리;를 포함하는
합성곱 신경망을 위한 주의집중 값 계산 장치.