KR101903437B1

KR101903437B1 - 딥 레지듀얼 러닝 기반 눈 개폐 분류 장치 및 방법

Info

Publication number: KR101903437B1
Application number: KR1020170083250A
Authority: KR
Inventors: 박강령; 김기완
Original assignee: 동국대학교 산학협력단
Priority date: 2017-06-30
Filing date: 2017-06-30
Publication date: 2018-10-04

Abstract

본 발명은 눈의 개폐 여부를 판단하는 기술에 관한 것으로서, 구체적으로는 눈 영상을 딥 레지듀얼 러닝(Deep Residual Learning) 기술을 기반으로 뜬 눈인 또는 감은 눈으로 분류하는 장치 및 방법에 관한 것이다. 본 발명의 실시 예에 따르면, 다양한 눈 영상들을 학습한 딥 레지듀얼 러닝 기반 회선 신경망 모델을 이용하여 입력된 눈 영상의 개폐 여부를 정확하게 분류할 수 있다.

Description

딥 레지듀얼 러닝 기반 눈 개폐 분류 장치 및 방법{DEVICE AND METHOD FOR CLASSIFYING OPEN AND CLOSE EYES BASED ON DEEP RESIDUAL LEARNING}

본 발명은 눈의 개폐 여부를 판단하는 기술에 관한 것으로서, 구체적으로는 눈 영상을 머신 러닝의 한 분야인 딥 레지듀얼 러닝(Deep Residual Learning)을 이용하여 뜬 눈 또는 감은 눈으로 분류하는 장치 및 방법에 관한 것이다.

눈 깜빡임 횟수는 피로도나 졸림에 대해 감지 시스템이 운전자에게 주의를 주기 위하여 한 요소로 연구되어 왔다. 또한, 눈 피로도는 사람들이 피곤할 때 평상시보다 더 눈을 깜빡인다는 가정하에 디스플레이 분야에서 측정되고는 했다. 눈 깜빡임 횟수 또는 눈 피로도를 정확하게 감지하기 위해서는 눈 개폐 분류를 정확하게 하는 것이 필요하다.

본 발명의 배경 기술은 대한민국 공개특허 제2001-0057239호(2001.07.04 공개, 비디오 시퀀스 내에서 눈 깜박임 정보를 이용한 얼굴 영역 검출 시스템 및 그 방법)에 개시되어 있다.

본 발명은 다양한 눈 영상들을 학습한 딥 레지듀얼 러닝(Deep Residual Learning) 기반 회선 신경망(CNN; Convolutional Neural Network)모델을 이용하여 입력된 눈 영상을 뜬 눈 또는 감은 눈으로 분류하는 눈 개폐 분류 장치 및 방법을 제공하기 위한 것이다.

본 발명의 일 실시예에 따르면, 눈 개폐 분류 장치는 카메라를 이용하여 촬영한 컬러 눈 영상을 입력받는 눈 영상 입력부, 입력된 눈 영상의 크기를 전처리하고, 전처리된 눈 영상을 평균 차감(Mean Subtraction) 기법을 이용하여 정규화하는 눈 영상 정규화부 및 정규화된 눈 영상을 기 학습한 딥 레지듀얼 러닝 기반 회선 신경망 모델을 이용하여 뜬 눈 또는 감은 눈으로 분류하는 눈 영상 분류부를 포함할 수 있다.

본 발명의 일 실시예에 따르면, 눈 개폐 분류 방법은 카메라를 이용하여 촬영한 컬러 눈 영상을 입력받는 단계, 입력된 컬러 눈 영상의 크기를 전처리하고, 전처리된 눈 영상을 평균 차감(Mean Subtraction) 기법을 이용하여 정규화하는 단계, 기 학습한 딥 레지듀얼 러닝 기반 회선 신경망 모델을 이용하여 전처리한 영상의 눈 개폐 특징 정보를 추출하는 단계, 상기 눈 개폐 특징 정보가 뜬 눈일 확률과 감은 눈일 확률을 산출하는 단계 및 상기 뜬 눈일 확률과 상기 감은 눈일 확률의 차이를 설정한 임계값과 비교하여 뜬 눈 또는 감은 눈으로 분류하는 단계를 포함할 수 있다.

본 발명의 실시 예에 따르면, 눈 개폐 분류 장치는 다양한 눈 영상들을 학습한 딥 레지듀얼 러닝(Deep Residual Learning)기반 회선 신경망(CNN; Convolutional Neural Network)모델을 이용하여 입력된 눈 영상을 뜬 눈 또는 감은 눈으로 정확하게 분류할 수 있다.

또한, 눈 개폐 분류 장치는 눈 영상을 정확하게 분류하여 운전자의 졸음 감지, 감시환경에서의 CCTV 영상에 대한 눈 개폐 분류, 생리학적 상태 분석 또는 눈의 피로 측정과 같은 다양한 분야에서 활용될 수 있다.

도 1 내지 도 4는 본 발명의 일 실시 예에 따른 눈 개폐 분류 장치를 설명하기 위한 도면들.
도 5 내지 도 7은 본 발명의 일 실시 예에 따른 눈 개폐 분류 방법을 설명하기 위한 도면들.
도 8 내지 도 10은 본 발명의 일 실시 예에 따른 딥 레지듀얼 기반 회선 신경망 학습을 통한 눈 개폐 분류 방법의 분류 결과를 나타낸 도면들.
도 11 및 도 12는 본 발명의 일 실시 예에 따른 눈 개폐 분류 장치와 기존에 연구된 회선 신경망 모델 기반 방법, 퍼지 시스템 기반 방법 및 기울기 방향성 히스토그램 방법을 이용하여 분류 성능 비교 결과.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서 및 청구항에서 사용되는 단수 표현은, 달리 언급하지 않는 한 일반적으로 "하나 이상"을 의미하는 것으로 해석되어야 한다.

이하, 본 발명의 바람직한 실시 예를 첨부도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면 번호를 부여하고 이에 대해 중복되는 설명은 생략하기로 한다.

도 1 내지 도 4는 본 발명의 일 실시 예에 따른 눈 개폐 분류 장치를 설명하기 위한 도면들이다.

도 1을 참조하면, 눈 개폐 분류 장치(10)는 눈 영상 입력부(100), 눈 영상 정규화부(200), 눈 영상 분류부(300)를 포함한다.

눈 영상 입력부(100)는 카메라를 이용하여 촬영한 컬러 눈 영상을 입력받는다.

눈 영상 정규화부(200)는 입력된 눈 영상의 크기를 전처리하고, 전처리된 눈 영상을 평균 차감(Mean Subtraction) 기법을 이용하여 정규화한다. 여기서 평균 차감 기법은 데이터의 모든 특징(feature) 각각에 대해서 평균값만큼 차감하는 방법이다. 예를 들면, 영상 정규화부(300)는 입력된 눈 영상을 224×224×3 픽셀 크기로 전처리하고, 전처리된 입력 영상과 동일한 크기로 전처리된 복수의 학습 영상의 평균 영상을 생성한다. 그 후, 입력된 눈 영상에서 각각의 픽셀값과 대응되는 평균 영상의 픽셀값을 차감함으로써 정규화된 영상을 생성할 수 있다.

눈 영상 분류부(300)는 정규화된 영상을 기 학습한 딥 레지듀얼 러닝 기반 회선 신경망 모델을 이용하여 뜬 눈 또는 감은 눈으로 분류한다.

도 2를 참조하면, 눈 영상 분류부(300)는 이미지 입력 레이어(310), 특징 추출 레이어(320), 분류 레이어(330)를 포함한다.

이미지 입력 레이어(310)는 정규화된 눈 영상을 입력받는다. 이때, 정규화된 눈 영상은 224(height)×224(width)×3(channel) 픽셀 크기의 컬러 영상 일 수 있다.

특징 추출 레이어(320)는 입력된 눈 영상에 기 학습된 딥 레지듀얼 러닝 기반 회선 신경망 모델을 적용하여 특징을 추출한다. 특징 추출 레이어(320)는 (1)적어도 하나의 콘볼루션 레이어(Convolution Layer)를 포함하는 5개의 콘볼루션 레이어 그룹을 포함할 수 있고, (2)각각의 콘볼루션 레이어 그룹은 숏컷(Shortcut) 레이어 또는 병목(Bottleneck) 레이어와 함께 하고, (3)맥스 풀링(Max pooling) 레이어, (4)에버리지 풀(Average pool) 레이어, (5)풀 커넥티드(Full Connected) 레이어, (6)소프트맥스(Softmax) 레이어를 포함할 수 있다.

도 3을 참조하면, (b) 제1 콘볼루션 레이어 그룹은 하나의 콘볼루션 레이어를 이용하여 224×224×3 픽셀 크기의 이미지에서 7×7×3 크기의 필터 64개를 2픽셀 간격(stride)으로 3패딩(padding)씩 상하좌우 방향으로 이동함으로써, 112×112×64 크기의 눈 개폐 특징맵을 추출한다. 여기서, 눈 개폐 특징맵의 크기는 입력 높이(또는 너비) × 필터 높이(또는 너비) + 2 × 패딩)/스트라이드 +1 의 식을 이용하여 산출할 수 있다.

(c) 맥스 풀 레이어는 제1 콘볼루션 레이어에서 출력된 눈 개폐 특징맵에 3×3 크기의 필터를 2픽셀 간격으로 이동하여 필터가 적용되는 영역 중에서 가장 큰 픽셀 값을 추출하여 56×56×64 픽셀 크기로 다운 샘플링된 눈 개폐 특징맵을 출력한다.

(d) 제2 콘볼루션 레이어 그룹은 4개의 콘볼루션 레이어를 포함한다. 제1 콘볼루션 레이어는 맥스 풀 레이어를 통해 출력된 56×56×64 픽셀 크기의 이미지에서 1×1×64 크기의 필터 64개를 1픽셀 간격으로 이동하여 1차 콘볼루션을 수행하고, 제2 콘볼루션 레이어는 3×3×64 크기의 필터 64개를 1픽셀 간격으로 3패딩(padding)씩 상하좌우 방향으로 이동하여 2차 콘볼루션을 수행한다. 제3 콘볼루션 레이어는 2차 콘볼루션을 통해 출력된 눈 개폐 특징맵에 1×1×64 크기의 필터256개를 1픽셀 간격으로 이동하여 3차 콘볼루션을 수행하고, 56×56×64 픽셀 크기의 눈 개폐 특징맵을 출력한다. 제4 콘볼루션 레이어(숏컷 레이어)는 1 내지 3차 콘볼루션과는 별도로, 맥스 풀 레이어를 통해 출력된 56×56×64 픽셀 크기의 눈 개폐 특징맵에서 1×1×64 크기의 필터 256개를 1픽셀 간격으로 이동하여 4차 콘볼루션을 수행한다. 제2 콘볼루션 레이어 그룹은 3차 콘볼루션을 통해 출력된 눈 개폐 특징맵과 4차 콘볼루션을 통해 출력된 눈 개폐 특징맵의 요소별(element-wise)정보를 결합한다. 이러한 과정을 숏컷 커넥션(Shortcut Connection)이라 칭한다. 숏컷 커넥션은 연산량이 증가되지는 않지만, 몇 개의 레이어를 건너 뛰면서 입력과 출력이 연결 되기 때문에 분류 정확도를 향상시킬 수 있다. 제2 콘볼루션 레이어 그룹은 상술한 과정을 3회 반복(iterations)한다. 예를 들면, 제2 콘볼루션 레이어 그룹은 1회차 콘볼루션 수행 결과를 2회차 콘볼루션 입력값으로 활용하고, 2회차 콘볼루션 출력값을 3회차 콘볼루션 입력값으로 활용할 수 있다. 최종적으로 3회차 콘볼루션 출력값은 제 3 콘볼루션 레이어 그룹의 1차 콘볼루션 수행을 위한 입력으로 활용할 수 있다.

(e) 제3 콘볼루션 레이어 그룹은 4개의 콘볼루션 레이어를 포함한다. 제1 콘볼루션 레이어는 제2 콘볼루션 레이어 그룹을 통해 출력된 56×56×256 픽셀 크기의 눈 개폐 특징맵에서 1×1×256 크기의 필터 128개를 2(또는 1)픽셀 간격으로 이동하여 1차 콘볼루션을 수행하고, 제2 콘볼루션 레이어는 3×3×128 크기의 필터128개를 1픽셀 간격으로 1패딩(padding)씩 상하좌우 방향으로 이동함으로써 2차 콘볼루션을 수행한다. 여기서 2차 콘볼루션에서 사용된 레이어를 병목 레이어라 칭한다. 3차 콘볼루션 레이어는 2차 콘볼루션을 통해 출력된 눈 개폐 특징맵에서 1×1×128 크기의 필터 512개를 1픽셀 간격으로 이동하여 3차 콘볼루션을 수행하고, 28×28×512 픽셀 크기의 눈 개폐 특징맵을 출력한다. 상술한 바와 같이 1 내지 3차 콘볼루션은 1차 콘볼루션에서 1×1 크기의 필터를 이용하여 차원을 축소하고, 2차 콘볼루션에서 3×3 크기의 필터를 이용하여 콘볼루션을 수행한 후, 3차 콘볼루션에서 1×1 크기의 필터를 이용하여 다시 차원을 확대시키는 병목(Bottleneck) 구조로 구성되어 연산량을 절감할 수 있다. 제4 콘볼루션 레이어(숏컷 레이어)는 1 내지 3차 콘볼루션과는 별도로, 제2 콘볼루션 레이어 그룹을 통해 출력된 56×56×256 픽셀 크기의 눈 개폐 특징맵에서 1×1×256 크기의 필터 512개를 2픽셀 간격으로 이동하여 4차 콘볼루션을 수행한다. 제3 콘볼루션 레이어 그룹은 3차 콘볼루션을 통해 출력된 눈 개폐 특징맵과 4차 콘볼루션을 통해 출력된 눈 개폐 특징맵의 요소별(element-wise)정보를 결합한다. 이러한 과정을 숏컷 커넥션(Shortcut Connection)이라 칭한다. 제3 콘볼루션 레이어 그룹은 상술한 과정을 4회 반복(iterations)한다.

도 4를 참조하면, 눈 개폐 분류 장치(10)는 제2 콘볼루션 레이어 그룹의 3차 콘볼루션 레이어(410)의 출력과 4차 콘볼루션 레이어(420)의 출력을 결합하고, 결합된 출력값(430)을 제3 콘볼루션 레이어 그룹의 1차 콘볼루션 레이어(440)와 4차 콘볼루션 레이어(450)의 입력으로 이용한다. 제3 콘볼루션 레이어 그룹의 2차 콘볼루션 레이어(460)는 1차 콘볼루션 레이어(440)의 출력값 차원을 축소하여 3차 콘볼루션 레이어(470)의 입력으로 이용한다. 눈 개폐 분류 장치(10)는 제3 콘볼루션 레이어 그룹의 3차 콘볼루션 레이어(470)의 출력과 4차 콘볼루션 레이어(450)의 출력을 결합하고, 결합된 출력값을 다음 콘볼루션 레이어 그룹으로 입력한다. 이때, 눈 개폐 분류 장치(10)는 4차 콘볼루션(420 및 450) 레이어를 통해 출력된 정보가 분류 성능을 저하시키지 않는다고 판단 될 경우에, 3차 콘볼루션(430 및 470)을 통해 출력된 정보에 대한 가중치는 고려하지 않고 결합함으로써 다른 레이어와 유사하지 않게 학습이 가능하여 눈 개폐 분류 성능을 향상시킬 수 있다.

(f) 제4 콘볼루션 레이어 그룹은 4개의 콘볼루션 레이어를 포함한다. 제1 콘볼루션 레이어는 제3 콘볼루션 레이어 그룹을 통해 출력된 28×28×512 픽셀 크기의 눈 개폐 특징맵에서 1×1×256 크기의 필터 256개를 2(또는 1)픽셀 간격으로 이동하여 1차 콘볼루션을 수행하고, 제2 콘볼루션 레이어는 3×3×256 크기의 필터 256개를 1픽셀 간격으로 1패딩(padding)씩 상하좌우 방향으로 이동함으로써 2차 콘볼루션을 수행한다. 여기서 2차 콘볼루션에서 사용된 레이어를 병목 레이어라 칭한다. 제3 콘볼루션 레이어는 2차 콘볼루션을 통해 출력된 눈 개폐 특징맵에서 1×1×256 크기의 필터 1024개를 1픽셀 간격으로 이동하여 3차 콘볼루션을 수행하고, 14×14×1024 픽셀 크기의 눈 개폐 특징맵을 출력한다. 제4 콘볼루션 레이어(숏컷 레이어)는 1 내지 3차 콘볼루션과는 별도로, 제3 콘볼루션 레이어 그룹을 통해 출력된 28×28×512 픽셀 크기의 눈 개폐 특징맵에서 1×1×512크기의 필터 1024개를 2픽셀 간격으로 이동하여 4차 콘볼루션을 수행한다. 제4 콘볼루션 레이어 그룹은 3차 콘볼루션을 통해 출력된 눈 개폐 특징맵과 4차 콘볼루션을 통해 출력된 눈 개폐 특징맵의 요소별(element-wise)정보를 결합한다. 이러한 과정을 숏컷 커넥션(Shortcut Connection)이라 칭한다. 제4 콘볼루션 레이어 그룹은 상술한 과정을 6회 반복(iterations)한다.

(g) 제5 콘볼루션 레이어 그룹은 4개의 콘볼루션 레이어를 포함한다. 제1 콘볼루션 레이어는 제4 콘볼루션 레이어 그룹을 통해 출력된 14×14×1024 픽셀 크기의 눈 개폐 특징맵에서 1×1×1024 크기의 필터 512개를 2(또는 1)픽셀 간격으로 이동하여 1차 콘볼루션을 수행하고, 제2 콘볼루션 레이어는 3×3×512 크기의 필터512개를 1픽셀 간격으로 1패딩(padding)씩 상하좌우 방향으로 이동함으로써 2차 콘볼루션을 수행한다. 여기서 2차 콘볼루션에서 사용된 레이어를 병목 레이어라 칭한다. 제3 콘볼루션 레이어는 2차 콘볼루션을 통해 출력된 눈 개폐 특징맵에서 1×1×512 크기의 필터 2048개를 1픽셀 간격으로 이동하여 3차 콘볼루션을 수행하고, 7×7×2048 픽셀 크기의 눈 개폐 특징맵을 출력한다. 제4 콘볼루션 레이어(숏컷 레이어)는 1 내지 3차 콘볼루션과는 별도로, 제4 콘볼루션 레이어 그룹을 통해 출력된 14×14×1024 픽셀 크기의 눈 개폐 특징맵에서 1×1×1024 크기의 필터 2048개를 2픽셀 간격으로 이동하여 4차 콘볼루션을 수행한다. 제 5 콘볼루션 레이어 그룹은 3차 콘볼루션을 통해 출력된 눈 개폐 특징맵과 4차 콘볼루션을 통해 출력된 눈 개폐 특징맵의 요소별(element-wise)정보를 결합한다. 이러한 과정을 숏컷 커넥션(Shortcut Connection)이라 칭한다. 제 5 콘볼루션 레이어 그룹은 상술한 과정을 3회 반복(iterations)한다.

또한, 특징 추출 레이어(320)는 모든 콘볼루션 레이어들에 일괄 정규화(batch normalization) 레이어 및 교정 선형 유닛(Rectified Linear Unit); 이하 ‘ReLU’) 레이어를 적용한다. 여기서 교정 선형 유닛 레이어는 식(1)을 이용하여 이전 콘볼루션 레이어의 연산 결과에 대한 대체값을 출력할 수 있다. 식(1)에서 x 와 y 는 입력값과 출력값이다.

(h) 에버리지 풀(Average pool) 레이어는 제5 콘볼루션 레이어 그룹을 통해 출력된 눈 개폐 특징맵에서 7×7 크기의 필터 1개를 1픽셀씩 이동하면서 평균 값을 추출하여 1×1×2048 픽셀 크기의 눈 개폐 특징맵을 출력한다.

(i) 풀 커넥티드(Full Connected) 레이어는 에버리지 풀 레이어와 연결되어 2048 및 2 노드들을 입력 및 출력으로 각각 가지며, 2048×2만큼의 가중치들(weights)을 이용하여 눈 개폐 특징맵을 축소한다.

(j) 소프트맥스(Softmax) 레이어는 식(2)를 이용하여 풀 커넥티드 레이어를 통해 출력된 눈 개폐 특징맵이 뜬 눈일 확률과 감은 눈일 확률을 산출한다.

식(2)에서 z는 출력 노드의 배열, j는 j번째 클래스에 속할 확률이다. 식(2)는 j번째 요소의 값을 전체 요소를 합한 값으로 나누어 0 ~ 1 사이의 값을 가지게 되는 확률 값을 산출할 수 있다.

분류 레이어(330)는 식(3)을 이용하여 특징 추출 레이어(320)의 출력값에 의해 입력된 눈 영상을 뜬 눈 또는 감은 눈으로 분류한다.

식(3)에서

는 뜬 눈 클래스,

는 감은 눈 클래스,

는 뜬 눈일 확률

과 감은 눈일 확률

이다. 분류 레이어(330)는

-

값이 임계값보다 높은 경우 뜬 눈으로 결정하고, 그렇지 않은 경우는 감은 눈으로 결정한다.

도 5 내지 도 7은 본 발명의 일 실시 예에 따른 눈 개폐 분류 방법을 설명하기 위한 도면들이다.

도 5를 참조하면, 단계 S510에서 눈 개폐 분류 장치(10)는 카메라를 이용하여 촬영한 컬러 눈 영상이 입력된다.

단계 S520에서 눈 개폐 분류 장치(10)는 입력된 눈 영상의 크기와 픽셀값을 전처리한다. 예를 들면, 눈 개폐 분류 장치(10)는 입력된 눈 영상을 224×224×3 픽셀 크기로 전처리하고, 동일한 크기로 전처리된 복수의 학습 영상의 평균 영상을 생성한다. 그 후, 전처리된 눈 영상에서 각각의 픽셀값과 대응되는 평균 영상의 픽셀값을 차감함으로써 정규화된 영상을 생성할 수 있다.

단계 S530에서 눈 개폐 분류 장치(10)는 기 학습한 딥 레지듀얼 러닝 기반 회선 신경망 모델을 이용하여 전처리한 영상의 눈 개폐 특징 정보를 추출한다.

단계 S540에서 눈 개폐 분류 장치(10)는 눈 개폐 특징 정보가 뜬 눈일 확률과 감은 눈일 확률을 산출한다.

단계 S550에서 눈 개폐 분류 장치(10)는 뜬 눈일 확률과 감은 눈일 확률의 차이를 설정한 임계값과 비교하여 뜬 눈 또는 감은 눈으로 분류한다.

도 6을 참조하면, 눈 개폐 분류 장치(10)는 데이터 세트를 뜬 눈에 해당하는 영상과 감은 눈에 해당하는 영상으로 분류하여 총 610,050개의 데이터들을 이용하여 학습 및 검증을 수행하였다. 전체 데이터 세트에서 DB1은 실내에서 사람이 TV를 시청하는 환경을 조성하여 카메라와 실험자의 거리가 2~2.5m일때의 영상을 취득하였다. 영상 취득에 사용된 카메라는 Logitech C600 웹 카메라이며, 줌렌즈(zoom lens)가 부착되었다. 취득된 영상은 1600×1200 픽셀의 해상도이고, 얼굴 검출 및 눈 검출을 거쳐 얻어진 눈 영상을 실험에 활용하였다. DB2은 공개적으로 제공되는 ZJU Eyeblink Database를 이용하여, 320×240 픽셀의 해상도의 80개의 비디오 클립(video clips) 으로부터 눈 검출 후 얻어진 영상들로 이루어졌다. 학습 및 검증에 사용된 데이터는 40×40 픽셀 크기로 전처리된 눈 영상에서 36×36 픽셀 크기의 크롭 마스크(crop mask)를 25번 적용하여 크롭된 눈 영상을 좌우반전시킴으로써, 1장의 원본 데이터(original database)로부터 총 50장으로 확장된 데이터(augmented database)를 얻을 수 있다.

도 7을 참조하면, 눈 개폐 분류 장치(10)는 학습 및 검증 데이터들을 두 개의 그룹으로 나누어 2차 교차 검증(cross validation)를 수행하였으며, 총 610,050개의 데이터 세트 중에 305,000개의 이미지를 학습에 사용하고, 6,101개의 이미지를 검증에 사용하였다. 눈 개폐 분류 장치(10)는 학습 데이터를 이용하여 딥 레지듀얼 기반 회선 신경망 모델을 학습시켰으며, 학습 방법은 앞서 도 2 및 도 3을 참조하여 설명한 방법과 같다.

도 8 및 도 9는 본 발명의 일 실시 예에 따른 딥 레지듀얼 기반 회선 신경망 학습을 통한 눈 개폐 분류 방법의 분류 결과를 나타낸 도면들이다.

도 8에서 그래프 y 축은 분류 학습 정확도를 나타내며 x 축은 학습 에폭(Training epoch)을 나타낸다. 여기서, 학습 에폭(Training epoch)은 학습할 데이터가 1만장이라 가정하면, 10 에폭은 10만장을 학습하는 것을 의미한다. 도 8에서 (a)는 1차 교차 검증을 수행한 그래프이고, (b)는 2차 교차 검증을 수행한 그래프이다. (a) 와 (b)의 그래프 모두 훈련이 계속될수록 점차 0으로 수렴하고, 정확도는 100%로 수렴하는 것을 확인할 수 있다.

도 9 및 도 10은 에폭(epoch) 변화에 따른 눈 개폐 분류 장치(10)의 분류 성능이다. 도 9에서 #of epochs은 에폭 수를 나타내며, 에폭 변화에 따라 추계적 경사 강하/훈련 세트에서 하나의 샘플(mini-batch)만을 반복적으로 업데이트하게 된다. Type 1 error는 감은 눈을 뜬 눈으로 분류한 경우의 에러이며, Type 2 error는 뜬 눈을 감은 눈으로 분류한 경우의 에러이다. Equal error rate(EER)는 type 1 error와 type 2 error의 차이가 최소가 되는 경우의 두 값을 합하여 둘로 나눈 값이다. 20 에폭과 30에폭의 경우에 EER이 0.23663% 로 가장 좋은 성능을 보였다. 도 9에서 에폭별 분류 에러값을 ROC(receiver operating characteristic) 곡선으로 표현하면 도 10과 같다.

도 11 및 도 12는 본 발명의 일 실시예에 따른 눈 개폐 분류 장치(10)와 기존에 연구된 회선 신경망(CNN; Convolutional Neural Network) 모델 기반 방법, 퍼지 시스템 기반 방법, 기울기 방향성 히스토그램 방법을 이용하여 분류 성능을 비교한 결과이다. 회선 신경망 모델 기반 방법들은 잘 알려진 AlexNet 모델과 GoogLeNet 모델 및 VGG-16 구조를 가지는 VGG face 모델을 미세 조정(fine tuning)하여 비교에 활용하였다. 퍼지 시스템 기반 방법(Fuzzy system-based method)의 경우는 퍼지 시스템을 통해 영상을 분할(segmentation)하고, 이진화 눈 영상의 세로 길이에 대한 표준편차를 기준으로 눈 개폐 분류를 수행한다. 기울기 방향성 히스토그램(histogram of oriented gradient)방법은 눈 영상의 특징을 추출 후 서포트 벡터 머신(support vector machine)으로 분류를 수행한다. 도 11을 참조하면, 기존에 연구된 방법들의 EER 보다 본 발명의 눈 개폐 분류 장치(10)의 EER이 더 작다는 것을 확인할 수 있다. 도 11에서 검증(testing)을 수행한 결과를 ROC(receiver operating characteristic) 곡선으로 표현하면 도 12와 같다.

일반적으로 ResNet 구조는 AlexNet, VGG-16, 19 등으로 대표되는 기존의 회선 신경망 구조와 비교 시 훨씬 더 깊은(deep) 구조를 가진다. 신경망 이론에서는 이미 은닉층(hidden layer)의 깊이가 깊을수록 다차원의 분류가 가능한 것이 입증된 바 있다. 대부분의 회선 신경망 구조는 레이어에 따라 학습이 되는 정보가 다르다. 예를 들어 첫번째 콘볼루션 레이어(convolutional layer)의 필터들은 다양한 방향의 엣지 정보나 컬러 정보와 같은 저차원의 특징을 추출할 수 있도록 학습이 되고, 그 이후의 콘볼루션 레이어는 분류하고자 하는 클래스들을 잘 분류할 수 있는 조합으로 가중치(weights)나 바이어스(biases)가 학습 될 수 있다. 결과값에 따라 피드백을 줘 논리구조를 재생산하는 오차 역-전파(back-propagation)를 이용한 학습 시 레이어가 깊고 비선형성(non-linearity)이 적절하게 적용될 경우, 깊이(depth) 별 가중치와 바이어스는 다른 레이어와 유사하지 않게 학습이 가능하며 눈 개폐 분류 성능에 좋은 영향을 끼친다.

본 발명의 기반인 레지듀얼 러닝(Residual learning)은 숏컷 레이어(shortcut layer)를 이용하여 원래의(original) 정보가 병목 레이어(bottleneck layer)를 거친 정보와 함께 사용된다. 레지듀얼 러닝은 숏컷(shortcut) 레이어를 통해 전달 된 정보가 분류 성능을 저하 시키지 않고 분류에 적합하다고 판단될 경우에, 다른 한쪽 측 병목(bottleneck) 구조를 통해 전달되는 정보에 대한 가중치는 고려하지 않음으로써, 회선 신경망의 학습 완성도를 높일 수 있다. 또한, 레지듀얼 러닝 기반 회선 신경망은 비록 레이어의 깊이가 깊지만 학습해야 할 파라미터 수는 기존의 회선 신경망에 비해 큰 차이가 없다. 또한, 병목 구조를 사용하여 채널(channel)을 감소한 후 업샘플링(upsampling)을 하기 때문에 연산에 필요한 메모리 할당을 적게 할 수 있고, 이러한 단계에서 처리 시간을 단축할 수 있다.

이러한 레지듀얼 러닝을 통한 본 발명의 눈 개폐 분류 장치(10)는 고주파 정보와 저주파 정보가 함께 사용되어 기존의 눈 개폐 분류 방법들보다 훈련 및 검증 정확도가 높고, 또한 처리 속도가 빠르다.

표 1은 본 발명의 일 실시예에 따른 눈 개폐 분류 장치(10)의 평균 연산 속도이다. 실험은16 GB RAM 및 NVIDIA GeForce GTX 1070 그래픽카드가 포함된 3.33 GHz Intel® Core™ i7-975 CPU 환경에서 진행하였다. 실험에 사용된 모든 학습 및 검증 알고리즘은 Windows Caffe(version 1)를 사용하였다. 실험 결과, 1장의 눈 영상의 개폐 분류를 수행하는데 35.41 ms가 소요되었다.

Method	Average processing time
Proposed method	35.41

본 발명의 실시 예에 따른 눈 개폐 분류 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 또한 상술한 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드 뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이제까지 본 발명에 대하여 그 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

10: 눈 개폐 분류 장치
100: 눈 영상 입력부
200: 눈 영상 전처리부
300: 눈 영상 분류부

Claims

삭제
삭제
눈 개폐 분류 장치에 있어서,
카메라를 이용하여 촬영한 컬러 눈 영상을 입력받는 눈 영상 입력부;
입력된 눈 영상의 크기를 전처리하고, 전처리된 눈 영상을 평균 차감(Mean Subtraction) 기법을 이용하여 정규화하는 눈 영상 정규화부 및
정규화된 눈 영상을 기 학습한 딥 레지듀얼 러닝 기반 회선 신경망 모델을 이용하여 뜬 눈 또는 감은 눈으로 분류하는 눈 영상 분류부를 포함하되,
상기 눈 영상 분류부는
정규화된 눈 영상을 입력받는 이미지 입력 레이어;
입력된 눈 영상에 기 학습된 딥 레지듀얼 러닝 기반 회선 신경망 모델을 적용하여 눈 개폐 특징을 추출하는 특징 추출 레이어 및
상기 특징 추출 레이어에서 추출한 눈 개폐 특징 의해 입력된 눈 영상을 뜬 눈 또는 감은 눈으로 분류하는 분류 레이어를 포함하는 것을 특징으로 하는 눈 개폐 분류 장치.
제3항에 있어서,
상기 특징 추출 레이어는
적어도 하나의 콘볼루션 레이어(Convolution Layer)를 포함하는 5개의 콘볼루션 레이어 그룹, 맥스 풀링(Max pooling) 레이어, 에버리지 풀(Average pool) 레이어, 풀 커넥티드(Full Connected) 레이어 및 소프트맥스(Softmax) 레이어를 포함하되,
상기 콘볼루션 레이어 그룹은 적어도 하나의 숏컷(Shortcut) 레이어 또는 병목(Bottleneck) 레이어를 포함하는
눈 개폐 분류 장치.
제4항에 있어서,
상기 적어도 하나의 콘볼루션 레이어(Convolution Layer)를 포함하는 5개의 콘볼루션 레이어 그룹은
224×224×3 픽셀 크기의 이미지에서 7×7×3 크기의 필터 64개를 2픽셀 간격으로 3패딩(padding)씩 상하좌우 방향으로 이동하여 112×112×64 크기의 눈 개폐 특징맵을 추출하는 제1 콘볼루션 레이어 그룹을 포함하되,
상기 제1 콘볼루션 레이어 그룹은 상기 눈 개폐 특징맵에서 3×3 크기의 필터를 2픽셀 간격으로 이동하여 필터가 적용되는 영역 중에서 가장 큰 픽셀 값을 추출하여, 56×56×64 픽셀 크기로 다운 샘플링 된 눈 개폐 특징맵을 출력하는 맥스 풀 레이어를 더 포함하는
눈 개폐 분류 장치.
제4항에 있어서,
상기 적어도 하나의 콘볼루션 레이어(Convolution Layer)를 포함하는 5개의 콘볼루션 레이어 그룹은
맥스 풀 레이어를 통해 출력된 56×56×64 픽셀 크기의 눈 개폐 특징맵에서 1×1×64 크기의 필터 64개를 1픽셀 간격으로 이동하여 56×56×64 크기의 눈 개폐 특징맵을 추출하는 1차 콘볼루션을 수행하는 제1 콘볼루션 레이어;
상기 제1 콘볼루션 레이어에서 출력된 눈 개폐 특징맵에 3×3×64 크기의 필터 64개를 1픽셀 간격으로 3패딩(padding)씩 상하좌우 방향으로 이동하여 56×56×64크기의 눈 개폐 특징맵을 추출하는 2차 콘볼루션을 수행하는 제2 콘볼루션 레이어;
상기 제2 콘볼루션 레이어에서 출력된 눈 개폐 특징맵에 1×1×64 크기의 필터 256개를 1픽셀 간격으로 이동하여 56×56×256 픽셀 크기의 눈 개폐 특징맵을 출력하는 3차 콘볼루션을 수행하는 제3 콘볼루션 레이어; 및
상기 1 내지 3차 콘볼루션과는 별도로 상기 맥스 풀 레이어를 통해 출력된 56×56×64 픽셀 크기의 눈 개폐 특징맵에서 1×1×64 크기의 필터 256개를 1픽셀 간격으로 이동하여 56×56×256 픽셀 크기의 눈 개폐 특징맵을 추출하는 4차 콘볼루션을 수행하는 제4 콘볼루션 레이어(숏컷 레이어)로 구성된 제2 콘볼루션 레이어 그룹을 포함하는 것을 특징으로 하는 눈 개폐 분류 장치.
제6항에 있어서,
상기 3차 콘볼루션을 통해 출력된 눈 개폐 특징맵과 상기 4차 콘볼루션을 통해 출력된 눈 개폐 특징맵의 요소별(element-wise)정보를 결합하고, 상기 제2 콘볼루션 레이어 그룹에 포함된 콘볼루션 과정을 3회 반복한 결과값을 제3 콘볼루션 레이어 그룹의 1차 콘볼루션 수행을 위한 입력으로 활용하는
눈 개폐 분류 장치.
제4항에 있어서,
상기 적어도 하나의 콘볼루션 레이어(Convolution Layer)를 포함하는 5개의 콘볼루션 레이어 그룹은
상기 5개의 콘볼루션 레이어 그룹 중 제2 콘볼루션 레이어 그룹을 통해 출력된 56×56×256 픽셀 크기의 눈 개폐 특징맵에서 1×1×256 크기의 필터 128개를 2(또는 1)픽셀 간격으로 이동하여 28×28×128픽셀 크기의 눈 개폐 특징맵을 출력하는 1차 콘볼루션을 수행하는 제1 콘볼루션 레이어;
상기 제1 콘볼루션 레이어에서 출력된 눈 개폐 특징맵에 3×3×128 크기의 필터128개를 1픽셀 간격으로 1패딩(padding)씩 상하좌우 방향으로 이동하여 28×28×128픽셀 크기의 눈 개폐 특징맵을 출력하는 2차 콘볼루션을 수행하는 제2 콘볼루션 레이어(병목 레이어);
상기 제2 콘볼루션 레이어에서 출력된 눈 개폐 특징맵에 1×1×128 크기의 필터 512개를 1픽셀 간격으로 이동하여 28×28×512 픽셀 크기의 눈 개폐 특징맵을 출력하는 3차 콘볼루션을 수행하는 제3 콘볼루션 레이어 및
상기 1 내지 3차 콘볼루션과는 별도로 상기 제2 콘볼루션 레이어 그룹에서 출력된 56×56×256 픽셀 크기의 눈 개폐 특징맵에서 1×1×256 크기의 필터 512개를 2픽셀 간격으로 이동하여 28×28×512 픽셀 크기의 눈 개폐 특징맵을 출력하는 4차 콘볼루션을 수행하는 제4 콘볼루션 레이어(숏컷 레이어)로 구성된 제3 콘볼루션 레이어 그룹을 포함하는 것을 특징으로 하는 눈 개폐 분류 장치.
제8항에 있어서,
상기 3차 콘볼루션을 통해 출력된 눈 개폐 특징맵과 상기 4차 콘볼루션을 통해 출력된 눈 개폐 특징맵의 요소별(element-wise)정보를 결합하고, 상기 제3 콘볼루션 레이어 그룹에 포함된 콘볼루션 과정을 4회 반복한 결과값을 제4 콘볼루션 레이어 그룹의 1차 콘볼루션 수행을 위한 입력으로 활용하는 것을 특징으로 하는 눈 개폐 분류 장치.
제4항에 있어서,
상기 적어도 하나의 콘볼루션 레이어(Convolution Layer)를 포함하는 5개의 콘볼루션 레이어 그룹은
상기 5개의 콘볼루션 레이어 그룹 중 제3 콘볼루션 레이어 그룹을 통해 출력된 28×28×512 픽셀 크기의 눈 개폐 특징맵에서 1×1×256 크기의 필터 256개를 2(또는 1) 픽셀 간격으로 이동하여 14×14×256 픽셀 크기의 눈 개폐 특징맵을 출력하는 1차 콘볼루션을 수행하는 제1 콘볼루션 레이어;
상기 제1 콘볼루션 레이어에서 출력된 눈 개폐 특징맵에 3×3×256 크기의 필터 256개를 1픽셀 간격으로 1패딩(padding)씩 상하좌우 방향으로 이동하여 14×14×256 픽셀 크기의 눈 개폐 특징맵을 출력하는 2차 콘볼루션을 수행하는 제2 콘볼루션 레이어;
상기 제2 콘볼루션 레이어에서 출력된 눈 개폐 특징맵에 1×1×256 크기의 필터 1024개를 1픽셀 간격으로 이동하여 14×14×1024 픽셀 크기의 눈 개폐 특징맵을 출력하는 3차 콘볼루션을 수행하는 제3 콘볼루션 레이어 및
상기 1 내지 3차 콘볼루션과는 별도로 상기 제3 콘볼루션 레이어 그룹을 통해 출력된 28×28×512 픽셀 크기의 눈 개폐 특징맵에서 1×1×512 크기의 필터 1024개를 2픽셀 간격으로 이동하여 14×14×1024 픽셀 크기의 눈 개폐 특징맵을 출력하는 4차 콘볼루션을 수행하는 제4 콘볼루션 레이어로 구성된 제4 콘볼루션 레이어 그룹을 포함하는 것을 특징으로 하는 눈 개폐 분류 장치.
제10항에 있어서,
상기 3차 콘볼루션을 통해 출력된 눈 개폐 특징맵과 상기 4차 콘볼루션을 통해 출력된 눈 개폐 특징맵의 요소별(element-wise)정보를 결합하고, 상기 제4 콘볼루션 레이어 그룹에 포함된 콘볼루션 과정을 6회 반복한 결과값을 제5 콘볼루션 레이어 그룹의 1차 콘볼루션 수행을 위한 입력으로 활용하는 것을 특징으로 하는 눈 개폐 분류 장치.
제4항에 있어서,
상기 적어도 하나의 콘볼루션 레이어(Convolution Layer)를 포함하는 5개의 콘볼루션 레이어 그룹은,
상기 5개의 콘볼루션 레이어 그룹 중 제4 콘볼루션 레이어 그룹을 통해 출력된 14×14×1024 픽셀 크기의 눈 개폐 특징맵에서 1×1×1024 크기의 필터 512개를 2(또는 1)픽셀 간격으로 이동하여 1차 콘볼루션을 수행하는 제1 콘볼루션 레이어;
3×3×512 크기의 필터 512개를 1픽셀 간격으로 1패딩(padding)씩 상하좌우 방향으로 이동하여 2차 콘볼루션을 수행하는 제2 콘볼루션 레이어(병목 레이어);
1×1×512 크기의 필터 2048개를 1픽셀 간격으로 이동하여 7×7×2048 픽셀 크기의 눈 개폐 특징맵을 출력하는 3차 콘볼루션을 수행하는 제3 콘볼루션 레이어 및
상기 1 내지 3차 콘볼루션과는 별도로 상기 제4 콘볼루션 레이어 그룹을 통해 출력된 14×14×1024 픽셀 크기의 눈 개폐 특징맵에서 1×1×1024 크기의 필터 2048개를 2픽셀 간격으로 이동하여 콘볼루션을 수행하는 4차 콘볼루션을 수행하는 제4 콘볼루션 레이어(숏컷 레이어)로 구성된 제5 콘볼루션 레이어 그룹을 포함하는 것을 특징으로 하는 눈 개폐 분류 장치.
제12항에 있어서,
상기 3차 콘볼루션을 통해 출력된 눈 개폐 특징맵과 상기 4차 콘볼루션을 통해 출력된 눈 개폐 특징맵의 요소별(element-wise)정보를 결합하고, 상기 제5 콘볼루션 레이어 그룹에 포함된 콘볼루션 과정을 3회 반복한 결과값을 에버리지 풀 레이어의 입력으로 활용하는 것을 특징으로 하는 눈 개폐 분류 장치.
제7항, 제9항, 제11항 또는 제13항 중 어느 한항에 있어서,
상기 눈 개폐 분류 장치는 각각의 콘볼루션 그룹에서 상기 제4 콘볼루션 레이어를 통해 출력된 정보가 분류 성능을 저하시키지 않는다고 판단 될 경우에, 상기 제3 콘볼루션 레이어를 통해 출력된 정보에 대한 가중치는 고려하지 않고, 상기 3차 콘볼루션을 통해 출력된 눈 개폐 특징맵과 상기 4차 콘볼루션을 통해 출력된 눈 개폐 특징맵의 요소별 정보를 결합하여 회선 신경망 모델을 학습하는 것을 특징으로 하는 눈 개폐 분류 장치.
제3항에 있어서,
상기 특징 추출 레이어는
완전 연결 레이어에 일괄 정규화(Batch Normalization) 레이어 또는 교정 선형 유닛(Rectified Linear Unit)를 더 포함하는
눈 개폐 분류 장치.
제4항에 있어서,
상기 에버리지 풀 레이어는 제5 콘볼루션 레이어 그룹을 통해 출력된 눈 개폐 특징맵에서 7×7 크기의 필터 1개를 1픽셀씩 이동하면서 평균값을 추출하여 1×1×2048 픽셀 크기의 눈 개폐 특징맵을 출력하고,
상기 풀 커넥티드 레이어는 상기 에버리지 풀 레이어와 연결되어 2048 및 2 노드들을 입력 및 출력으로 각각 가지며, 2048×2만큼의 가중치들(weights)을 이용하여 눈 개폐 특징맵을 축소하고,
상기 소프트맥스(Softmax) 레이어는 상기 풀 커넥티드 레이어를 통해 출력된 눈 개폐 특징맵이 뜬 눈일 확률과 감은 눈일 확률을 산출하는
눈 개폐 분류 장치.
삭제
눈 개폐 분류 방법에 있어서,
카메라를 이용하여 촬영한 컬러 눈 영상을 입력받는 단계;
입력된 컬러 눈 영상의 크기를 전처리하고, 전처리된 눈 영상을 평균 차감(Mean Subtraction) 기법을 이용하여 정규화하는 단계;
기 학습한 딥 레지듀얼 러닝 기반 회선 신경망 모델을 이용하여 전처리한 영상의 눈 개폐 특징 정보를 추출하는 단계;
상기 눈 개폐 특징 정보가 뜬 눈일 확률과 감은 눈일 확률을 산출하는 단계 및
상기 뜬 눈일 확률과 상기 감은 눈일 확률의 차이를 설정한 임계값과 비교하여 뜬 눈 또는 감은 눈으로 분류하는 단계를 포함하되,
상기 딥 레지듀얼 러닝 기반 회선 신경망 모델은
적어도 하나의 콘볼루션 레이어(Convolution Layer)를 포함하는 5개의 콘볼루션 레이어 그룹, 맥스 풀링(Max pooling) 레이어, 에버리지 풀(Average pool) 레이어, 풀 커넥티드(Full Connected) 레이어, 소프트맥스(Softmax) 레이어를 포함하되,
상기 콘볼루션 레이어 그룹은 적어도 하나의 숏컷(Shortcut) 레이어 또는 병목(Bottleneck) 레이어를 포함하는 것을 특징으로 하는 눈 개폐 분류 방법.
제18항의 눈 개폐 분류 방법을 실행하고 컴퓨터가 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램.