KR101910158B1 - 회선 신경망 기반 눈 개폐 분류 장치 및 방법 - Google Patents

회선 신경망 기반 눈 개폐 분류 장치 및 방법 Download PDF

Info

Publication number
KR101910158B1
KR101910158B1 KR1020160167635A KR20160167635A KR101910158B1 KR 101910158 B1 KR101910158 B1 KR 101910158B1 KR 1020160167635 A KR1020160167635 A KR 1020160167635A KR 20160167635 A KR20160167635 A KR 20160167635A KR 101910158 B1 KR101910158 B1 KR 101910158B1
Authority
KR
South Korea
Prior art keywords
eye
eye opening
image
closing
unit
Prior art date
Application number
KR1020160167635A
Other languages
English (en)
Other versions
KR20180066610A (ko
Inventor
박강령
김기완
Original Assignee
동국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 동국대학교 산학협력단 filed Critical 동국대학교 산학협력단
Priority to KR1020160167635A priority Critical patent/KR101910158B1/ko
Publication of KR20180066610A publication Critical patent/KR20180066610A/ko
Application granted granted Critical
Publication of KR101910158B1 publication Critical patent/KR101910158B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N99/005
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Ophthalmology & Optometry (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 회선 신경망 기반 눈 개폐 분류 장치 및 방법에 관한 것으로, 구체적으로는 회선 신경망 기술(CNN; Convolutional Neural Network)을 통해 눈 영상을 분석하여 뜬 눈인지 감은 눈인지에 대한 분류를 수행하는 장치 및 방법에 관한 것이다. 본 발명의 실시 예에 따르면, 눈 개폐 영상을 학습한 회선 신경망 구조의 필터(filter)와 가중치(weight) 값들을 이용하여 입력한 눈 영상이 뜬 눈인지 감은 눈인지를 정확하게 분류할 수 있다.

Description

회선 신경망 기반 눈 개폐 분류 장치 및 방법{DEVICE AND METHOD FOR CLASSIFYING OPEN AND CLOSE EYES BASED ON CONVOLUTIONAL NEURAL NETWORK}
본 발명은 회선 신경망 기반 눈 개폐 분류 장치 및 방법에 관한 것으로, 구체적으로는 회선 신경망 기술(CNN; Convolutional Neural Network)을 통해 눈 영상을 분석하여 뜬 눈인지 감은 눈인지에 대한 분류를 수행하는 장치 및 방법에 관한 것이다.
눈 깜빡임 분류 방법은 크게 비 영상기반, 비디오기반, 단일 영상 기반(비학습기반), 단일 영상 기반(학습기반)의 4가지로 카테고리화 할 수 있다.
비 영상기반 방법은 신호에 대한 수학적 분석을 이용해 눈 개폐 분류가 가능한 장점이 있다. 하지만, 비 영상기반 방법은 사용자의 몸에 센서를 부착해야 하므로 사용자의 행동에 제약이 있을 수 있다는 단점이 존재한다.
영상 기반 방법들은 여러 영상으로부터 특징을 추출하기 때문에 정확도가 높다는 장점이 있다. 하지만, 영상 기반 방법들은 여러 영상으로부터 눈 개폐 분류에 필요한 특징을 추출해야 하므로 연산량이 많아 시간이 오래 걸리는 단점이 있다.
단일영상기반(비학습기반) 방법은 별도의 훈련 절차를 거치지 않고 하나의 영상에서 눈 개폐분류를 수행할 수 있는 것이다. 하지만, 단일영상기반(비학습기반) 방법은 하나의 영상에서 눈 개폐 분류에 필요한 정보를 얻기 때문에 알고리즘에서 중요하게 작용하는 특징 추출에 실패할 경우 성능에 악영향을 미칠 수 있다.
단일영상기반(학습기반) 방법은 비디오기반 방법보다 연산 시간이 적게 소요되는 장점이 있다. 하지만, 단일영상기반(학습기반) 방법은 실행환경이 딥러닝 라이브러리와 OS 그리고 장비에 종속되는 단점이 있다.
본 발명의 배경기술은 대한민국 공개특허공보 제10-2016-0088224호(2016.07.25)에 개시되어 있다.
본 발명은 딥러닝 방식 중 하나인 회선 신경망 구조를 이용하여 학습 된 필터(filter)와 가중치(weight) 값들을 이용하여 입력한 눈 영상이 뜬 눈인지 감은 눈인지에 대한 분류를 수행하는 눈 개폐 분류 장치 및 방법을 제공하기 위한 것이다.
본 발명의 일 측면에 따르면, 눈 개폐 분류 장치가 제공된다.
본 발명의 일 실시 예에 따른 눈 개폐 분류 장치는 카메라로부터 취득한 컬러 눈 영상을 입력하는 눈 영상 입력부, 학습 된 회선 신경망(Convolutional Neural Network)구조의 필터(filter)와 가중치(weight)를 이용하여 상기 눈 영상에서 눈 개폐 특징을 추출하고, 추출된 눈 개폐 특징을 학습하여 눈의 개폐 여부를 판별하는 눈 개폐 분류부 및 회선 신경망 구조를 변경하여 눈 개폐 특징을 학습하고, 역전파 알고리즘을 이용하여 상기 회선 신경망 구조의 필터와 가중치를 갱신하는 눈 영상 학습부를 포함할 수 있다.
본 발명의 다른 일 측면에 따르면, 눈 개폐 분류 방법 및 이를 실행하는 컴퓨터 프로그램이 제공된다.
본 발명의 일 실시 예에 따른 눈 개폐 분류 방법 및 이를 실행하는 컴퓨터 프로그램은 눈 개폐 분류 방법에 있어서, 학습 된 회선 신경망 구조를 로드하는 단계, 카메라로부터 취득한 컬러 눈 영상을 입력하는 단계, 상기 학습 된 회선 신경망 구조를 이용하여 상기 눈 영상에서 눈 개폐 특징 정보를 추출하는 단계, 상기 눈 개폐 특징 정보가 눈을 뜬 영상에 속할 확률과 눈을 감은 영상에 속할 확률을 산출하는 단계, 상기 눈을 뜬 영상에 속할 확률과 상기 눈을 감은 영상에 속할 확률의 차이를 설정한 임계값과 비교하여 입력된 눈 영상이 눈을 뜬 영상인지, 눈을 감은 영상인지 분류하는 단계를 포함할 수 있다.
본 발명의 실시 예에 따르면, 딥러닝(Deep Learning)기반으로 눈 개폐 영상을 학습한 필터(filter)와 가중치(weight) 값들을 이용하여 입력한 눈 영상이 뜬 눈인지 감은 눈인지를 정확하게 분류할 수 있다.
또한, 본 발명의 실시 예에 따르면, 정확하게 눈 영상을 분류하여 운전자의 졸음 감지, 감시환경에서의 CCTV 영상에 대한 눈 개폐분류, 생리학적 상태 분석 또는 눈의 피로 측정과 같은 다양한 분야에서 활용될 수 있다.
도 1은 본 발명의 일 실시 예에 따른 눈 개폐 분류 시스템을 설명하기 위한 도면.
도 2 내지 도 4는 본 발명의 일 실시 예에 따른 눈 개폐 분류 장치를 설명하기 위한 도면들.
도 5 내지 도 6은 본 발명의 일 실시 예에 따른 눈 개폐 분류 방법을 설명하기 위한 도면들.
도 7 내지 도 17은 본 발명의 일 실시 예에 따른 눈 개폐 분류 장치의 성능을 설명하기 위한 도면들.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서 및 청구항에서 사용되는 단수 표현은, 달리 언급하지 않는 한 일반적으로 "하나 이상"을 의미하는 것으로 해석되어야 한다.
이하, 본 발명의 바람직한 실시 예를 첨부도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 본 발명의 일 실시 예에 따른 눈 개폐 분류 시스템을 설명하기 위한 도면이다.
도 1을 참조하면, 눈 개폐 분류 시스템은 영상 촬영 장치(10), 눈 개폐 분류 장치(20)를 포함한다.
영상 촬영 장치(10)는 카메라로부터 취득한 컬러 눈 영상을 취득한다. 영상 촬영 장치(10)는 예를 들면, CCD, CMOS 디지털 카메라, 웹 카메라 일 수 있다.
눈 개폐 분류 장치(20)는 딥러닝(Deep Learning)기반으로 눈 영상에서 학습한 필터(filter)와 가중치(weight) 값들을 이용하여 입력한 눈 영상이 뜬 눈인지 감은 눈인지를 정확하게 분류한다. 눈 개폐 분류 장치(20)는 이하 도 2 내지 도 4에서 더욱 상세히 설명하기로 한다.
도 2 내지 4는 본 발명의 일 실시 예에 따른 눈 개폐 분류 장치를 설명하기 위한 도면들이다.
도 2를 참조하면, 눈 개폐 분류 장치(20)는 눈 영상 입력부(100), 눈 개폐 분류부(200), 눈 개폐 특징 학습부(300)를 포함한다.
눈 영상 입력부(100)는 카메라로부터 취득한 컬러 눈 영상을 입력한다.
눈 개폐 분류부(200)는 눈 영상에서 학습 된 회선 신경망(Convolutional Neural Network)구조의 필터(filter)와 가중치(weight)를 이용하여 눈 개폐 특징을 추출하고, 추출된 눈 개폐 특징을 학습하여 입력된 눈 영상이 눈을 뜬 영상인지 감은 영상인지 분류한다.
눈 개폐 특징 학습부(300)는 회선 신경망 구조를 변경하여 눈 개폐 특징을 학습하고, 역전파 알고리즘을 이용하여 상기 회선 신경망 구조의 필터와 가중치를 갱신한다. 갱신된 회선 신경망 구조의 필터와 가중치는 눈 개폐 분류부(200)에서 사용된다.
도 3을 참조하면, 눈 개폐 분류부(200)는 콘볼루션 레이어 연산부(210), 교정 선형 유닛 레이어 연산부(220), 지역 정규화 레이어 연산부(230), 풀링 레이어 연산부(240), 완전 연결 레이어 연산부(250), 소프트맥스 레이어 연산부(260), 분류 레이어 연산부(270)를 포함한다.
콘볼루션 레이어 연산부(210)는 입력된 눈 영상에서 학습 된 회선 신경망 구조의 필터와 가중치를 적용하여, 2차원 콘볼루션 수행을 통해 눈 개폐 특징을 추출한다. 콘볼루션 레이어 연산부(210)는 필터 크기에 따라 결과 영상의 픽셀 값에 반영될 범위가 달라진다. 콘볼루션 레이어 연산부(210)는 수직 및 수평 방향에 대한 스트라이드(stride)와 패딩(padding) 옵션에 따라서 2차 콘볼루션 수행의 이동범위와 결과 영상의 가로 및 세로 사이즈도 달라질 수 있다. 따라서, 콘볼루션 레이어 연산부(210)는 필터 사이즈, 스트라이드, 패딩, 필터 개수를 고려하여 연산을 수행한다. 콘볼루션 레이어 연산부(210)는 필터의 계수를 고정된 값을 사용하지 않으며, 학습 과정에서 학습된 값을 사용한다.
교정 선형 유닛 레이어 연산부(220)는 이전 콘볼루션 레이어 연산 결과를 수학식 1을 이용하여 모든 픽셀들의 대체값을 출력한다.
Figure 112016120977715-pat00001
지역 정규화 레이어 연산부(230)는 교정 선형 유닛 레이어 연산 결과를 수학식 2를 이용하여 정규화한다.
Figure 112016120977715-pat00002
수학식 2에서
Figure 112016120977715-pat00003
는 정규화된 결과값,
Figure 112016120977715-pat00004
,
Figure 112016120977715-pat00005
Figure 112016120977715-pat00006
는 하이퍼파라메터,
Figure 112016120977715-pat00007
는 입력된 레이어의 i번째 채널의 요소 좌표(x, y), n은 인접 채널, N은 이전 레이어의 채널 수를 의미하고,
Figure 112016120977715-pat00008
는 1,
Figure 112016120977715-pat00009
는 0.0001,
Figure 112016120977715-pat00010
는 0.75, n은 5로 설정한다.
풀링 레이어 연산부(240)는 지역 정규화 레이어 연산 결과에서 3×3 크기의 필터를 수직 및 수평 방향으로 2 픽셀씩 이동하여 관심 영역에서 최댓값을 추출한다.
완전 연결 레이어 연산부(250)는 이전 레이어 연산 결과를 1차원 행렬이 되도록 복수의 노드로 연결하여 눈 개폐 특징을 축소한다.
소프트맥스 레이어 연산부(260)는 수학식 3을 이용하여 축소된 눈 개폐 특징이 눈을 감은 영상일 확률과 눈을 뜬 영상일 확률을 산출한다.
Figure 112016120977715-pat00011
수학식 3에서 z는 현재 레이어, j는 j번째 class에 속할 확률이다. 소프트맥스 레이어 연산 결과는 j번째 요소의 값을 전체 요소를 합한 값으로 나누어 얻어지고, 0 ~ 1 사이의 값을 가지게 된다. 이렇게 산출된 확률 값은 눈 개패 분류를 수행하는 척도가 된다.
분류 레이어 연산부(270)는 수학식 4 및 수학식 5를 이용하여 소프트맥스 레이어 연산 결과에서 가장 높은 확률 값을 가지는 노드를 선택한다.
Figure 112016120977715-pat00012
수학식 4에서 C1는 눈을 뜬 영상의 클래스, C2는 눈을 감을 영상의 클래스,
Figure 112016120977715-pat00013
는 C1에 속할 확률,
Figure 112016120977715-pat00014
는 C2에 속할 확률을 의미한다.
Figure 112016120977715-pat00015
수학식 5에서 threshold는 -1에서 1 사이의 실수 값 중 하나이다.
도 4를 참조하면, 본 발명의 일 실시 예에 따른 눈 개패 분류 장치(20)는 콘볼루션 레이어, 교정 선형 유닛 레이어, 지역 정규화 레이어, 풀링 레이어, 완전 연결 레이어, 소프트맥스 레이어를 포함하는 회선 신경망 구조를 이용하여 눈 영상의 눈 개폐 특징을 추출하고, 추출된 특징을 분류한다.
도 4에서 CONV1, CONV2는 회선 신경망 구조에서 콘볼루션 레이어(210), ReLU1, ReLU2, ReLU3, ReLU4, ReLU5는 교정 선형 유닛 레이어(220), NORM1, NORM2는 지역 정규화 레이어(230), POOL1, POOL2는 풀링 레이어(240), FC1, FC2, FC3, FC4는 완전 연결 레이어(250), Softmax layer는 소프트맥스 레이어(260)를 의미한다.
여기서, CONV1은 입력 영상에 적용되는 필터 사이즈를 가로 3, 세로 3, 채널 3으로 설정하고, 이러한 필터를 128개 사용하여 구성할 수 있다.
CONV2는 POOL1에 적용되는 필터 사이즈를 가로 3, 세로 3, 채널 128로 설정하고, 이러한 필터를 256개 사용하여 구성할 수 있다.
ReLU1, ReLU2, ReLU3, ReLU4, ReLU5는 활성화 함수를 의미하며, 이전 콘볼루션 레이어의 모든 픽셀들을 상기 수학식 1을 이용하여 출력된 값으로 대체한다.
NORM1은 ReLU1을 상기 수학식 2를 이용하여 출력된 값으로 대체한다.
NORM2는 ReLU2를 상기 수학식 2를 이용하여 출력된 값으로 대체한다.
POOL1은 NORM1의 17×17×128 픽셀사이즈의 정보에 대해 3×3 크기의 필터를 적용하여 수직 및 수평 방향으로 탐색 시, 2 픽셀 간격으로 이동하여 관심 영역에서의 최대값을 추출한다.
FC1, FC2, FC3, FC4는 전후 레이어에서 모든 값을 노드로 연결하여 눈 개폐 특징을 1차원 행렬로 연결한다.
Softmax layer는 상기 수학식 3을 이용하여 FC4의 각각의 노드에 대해 정규화를 수행한다. 정규화된 출력 노드 값은 모두 더했을 때 1이 된다. Softmax layer는 정규화를 수행한 확률값 중 최댓값을 갖는 노드를 선택한다. 선택된 노드는 상기 수학식 4를 이용하여 출력된 결괏값으로 눈 개폐 분류 결과를 얻을 수 있다. 이때 수학식 5를 이용하여 임계값을 조정하여 다른 분류결과를 얻을 수 있다. 여기서 임계값은 -1에서 1까지의 값들 중 선택하여 사용할 수 있다.
도 5 내지 도 6은 본 발명의 일 실시 예에 따른 눈 개폐 분류 방법을 설명하기 위한 도면들이다.
도 5를 참조하면, 눈 개폐 분류 방법은 학습 된 회선 신경망 구조를 로드하는 단계(S510), 카메라로부터 취득한 컬러 눈 영상을 입력하는 단계(S520), 상기 학습 된 회선 신경망 구조를 이용하여 상기 눈 영상에서 눈 개폐 특징 정보를 추출하는 단계(S530), 상기 눈 개폐 특징 정보가 눈을 뜬 영상에 속할 확률과 눈을 감은 영상에 속할 확률을 산출하는 단계(S540), 상기 눈을 뜬 영상에 속할 확률과 상기 눈을 감은 영상에 속할 확률의 차이를 설정한 임계값과 비교하여 입력된 눈 영상이 눈을 뜬 영상인지, 눈을 감은 영상인지 분류하는 단계(S550), 분류할 영상 확인 단계 (S560)를 포함한다.
단계 S510에서 눈 개폐 분류 장치(20)는 학습 된 회선 신경망 구조를 로드(load)한다.
단계 S520에서 눈 개폐 분류 장치(20)는 카메라로부터 취득한 컬러 눈 영상을 입력한다.
단계 S530에서 눈 개폐 분류 장치(20)는 학습 된 회선 신경망 구조의 필터와 가중치를 이용하여 입력한 눈 영상에서 눈 개폐 특징 정보를 추출한다.
단계 S540에서 눈 개폐 분류 장치(20)는 상기 눈 개폐 특징 정보가 눈을 뜬 영상에 속할 확률과 눈을 감은 영상에 속할 확률을 산출한다.
단계 S550에서 눈 개폐 분류 장치(20)는 눈을 뜬 영상에 속할 확률과 상기 눈을 감은 영상에 속할 확률의 차이를 설정한 임계값과 비교하여 입력된 눈 영상이 눈을 뜬 영상인지, 눈을 감은 영상인지 분류한다.
단계 S560에서 눈 개폐 분류 장치(20)는 추가로 분류할 영상이 존재할 시, 최초 로드된 가중치와 필터를 이용하여 단계 530에서 단계 550를 반복 수행한다.
도 6을 참조하면, 단계 S530에서 눈 개폐 분류 장치(20)는 콘볼루션 레이어 연산, 교정 선형 유닛 레이어 연산, 지역 정규화 레이어 연산, 풀링 레이어 연산, 완전 연결 레이어 연산 및 소프트맥스 레이어 연산을 이용하여 입력된 눈 영상에서 눈 개폐 특징을 추출하고, 추출한 눈 개폐 특징을 분류할 수 있다.
단계 S531에서 눈 개폐 분류 장치(20)는 입력된 눈 영상에서 학습 된 회선 신경망 구조의 필터와 가중치를 적용하여, 2차원 콘볼루션 수행을 통해 눈 개폐 특징을 추출하는 콘볼루션 레이어 연산을 수행한다. 눈 개폐 분류 장치(20)는 예를 들면, 3×3 크기의 128개의 필터를 수직 및 수평 방향으로 2 픽셀씩 이동하여 제1 콘볼루션 레이어 연산을 수행할 수 있다.
단계 S532에서 눈 개폐 분류 장치(20)는 이전 콘볼루션 레이어 연산 결과에 활성화 함수를 적용하는 교정 선형 유닛 레이어 연산을 수행한다. 이때, 눈 개폐 분류 장치(20)는 상기 수학식 1을 이용하여 이전 콘볼루션 레이어에서 모든 픽셀들의 대체값을 출력한다.
단계 S533에서 눈 개폐 분류 장치(20)는 교정 선형 유닛 레이어 연산 결과를 상기 수학식 2를 이용하여 정규화하는 지역 정규화 레이어 연산을 수행한다.
단계 S534에서 눈 개폐 분류 장치(20)는 지역 정규화 레이어 연산 결과에서 설정된 필터를 적용하여 관심 영역에서 최댓값을 추출하는 풀링 레이어 연산을 수행한다. 눈 개폐 분류 장치(20)는 예를 들면, 3×3 크기의 필터를 수직 및 수평 방향으로 2 픽셀씩 이동하여 관심 영역에서 최댓값을 추출하여 제1 풀링 레이어 연산을 수행할 수 있다.
단계 S535에서 눈 개폐 분류 장치(20)는 설정된 콘볼루션 개수만큼 단계 532 내지 단계 534를 반복한다. 눈 개폐 분류 장치(20)는 예를 들면, 풀링 레이어 연산 결과에서 3×3 크기의 256개의 필터를 수직 및 수평방향으로 1 픽셀 간격으로 이동 및 2 픽셀 간격으로 패딩(padding)하여 제2 콘볼루션 레이어 연산을 수행할 수 있다. 제2 콘볼루션 레이어 연산 결과에서 3×3 크기의 필터를 수직 및 수평 방향으로 2 픽셀씩 이동하여 관심 영역에서 최댓값을 추출하여 제2 풀링 레이어 연산을 수행할 수 있다.
단계 S536에서 눈 개폐 분류 장치(20)는 이전 레이어 연산 결과를 1차원 행렬이 되도록 복수의 노드로 연결하여 눈 개폐 특징을 축소하는 완전 연결 레이어 연산을 수행한다.
단계 S537에서 눈 개폐 분류 장치(20)는 완전 연결 레이어 연산 결과에서 지역 정규화 레이어 연산을 추가로 수행할 수 있다.
단계 S538에서 눈 개폐 분류 장치(20)는 설정된 완전 연결 레이어의 수만큼 단계 S536 내지 단계 S537을 반복한다.
단계 S539에서 눈 개폐 분류 장치(20)는 완전 연결 레이어 연산 결과에서 상기 수학식 3을 이용하여 각각의 노드를 정규화하여, 눈을 뜬 영상일 확률 및 눈을 감은 영상일 확률을 출력하는 소프트맥스 레이어 연산을 수행한다.
도 7 내지 도 12는 본 발명의 일 실시 예에 따른 눈 개폐 분류 장치의 성능을 설명하기 위한 도면들이다.
도 7을 참조하면, 본 발명의 일 실시 예에 따른 눈 개폐 분류 장치의 성능을 평가하기 위해, 실내에서 사람이 TV를 시청하는 환경을 조성하여 카메라와 실험자의 거리가 2~2.5m일 때의 영상을 취득하여, 6336장의 눈을 뜬 영상과 6294장의 눈을 감은 영상 데이터베이스를 실험에 활용하였다.
도 8 참조하면, 눈 개폐 분류 장치(20)는 오픈 데이터베이스(ZJU Eyeblink Database)에서 제공하는 80개의 비디오 클립스(video clips)로부터 영상을 취득하여, 4891장의 눈을 뜬 영상과 485장의 눈을 감은 영상 데이터베이스를 추가하여 실험에 활용하였다.
도 9를 참조하면, 눈 개폐 분류 장치(20)는 도 7 및 도 8에서 취득한 40 × 40 픽셀 해상도의 눈 영상에서 크롭 마스크(crop mask)의 적용 범위를 이동하여 확장된 데이터베이스를 취득하고, 이를 이용하여 학습 및 검증을 수행하였다. 확장된 데이터베이스는 347,650장의 눈을 뜬 영상과 262,400장의 눈을 감은 영상을 포함하여 총 610,050장으로 구성된다.
도 10을 참조하면, 눈 개폐 분류 장치(20)는 확장된 영상 데이터베이스를 305,050장의 제1 데이터베이스와 305,000장의 제2 데이터베이스로 분류하고, 두 개의 데이터베이스를 이용하여 교차 검증(cross validation)을 수행하였을 때, 0.89487%의 EER 성능을 보인다.
도 10에서 #number of epochs은 학습 에폭(Training epoch) 수를 나타낸다. 여기서, 학습 에폭(Training epoch)은 학습할 데이터가 1만장이라 가정하면, 10만장을 학습하는 것을 의미한다.
도 10에서 Type 1 error는 눈을 감은 영상을 눈을 뜬 영상으로 분류한 경우의 에러이며, Type 2 error는 눈을 뜬 영상을 눈을 감은 영상으로 분류한 경우의 에러이다. Equal error rate(EER)는 type 1 error와 type 2 error의 차이가 최소가 되는 경우의 두 값을 합하여 둘로 나눈 값이다.
도 11을 참조하면, 눈 개폐 분류 장치(20)의 분류 성능은 도 10의 성능 결과를 ROC(receiver operating characteristic)커버로 표현하였을 때, EER이 1% 정도에 분포하는 것을 확인할 수 있다.
도 12를 참조하면, 눈 개폐 분류 장치(20)는 입력된 눈 영상에서 학습 된 회선 신경망 구조의 콘볼루션 레이어 연산을 수행하여 (a) 내지 (f)와 같이 경계, 코너를 강조하고 저주파 필터링 된 특징을 추출할 수 있다. 이러한 특징을 이용하여 눈 개폐 여부를 판단할 수 있다.
도 13 내지 도 17을 참조하면, 눈 개폐 분류 장치(20)는 고정 필터 회선 신경망(fixed filter CNN)의 구조를 이용하여 눈 개폐를 분류한 경우보다 높은 성능을 보인다.
도 13은 다중 퍼셉트론(MLP; Multilayer perceptron)과 고정 필터 기반 콘볼루션 레이어(convolution layer)를 결합한 고정 필터 회선 신경망의 구조이다.
도 14를 참조하면, 고정 필터 회선 신경망의 구조를 이용한 눈 개폐 분류 결과는 도 10에서 실험한 방법과 동일하게 교차 검증(cross validation)을 수행하였을 때, 2.64463%의 EER 성능을 보인다.
도 14에서 Batch#은 여러 트레이닝 파라메터 조합에 대한 결과를 번호, # of hidden layer은 다중 퍼셉트론 트레이닝 시 사용된 은닉 계층(hidden layer)의 숫자, IK 은 입력 영상의 컬러모델, pooling layer은 풀링 기법에 따른 파라메터, input value normalization은 영상 정규화 여부, Class 1 val/Class 2 val은 클래스 라벨, EER 은 성능을 나타낸다.
도 15를 참조하면, 고정 필터 회선 신경망의 구조를 이용한 눈 개폐 분류는 도 13의 성능 결과를 ROC커버로 표현하였을 때, EER이 3% 정도에 분포하는 것을 확인할 수 있다.
도 16 내지 도 17을 참조하면, 눈 개폐 분류 장치(20)는 고정 필터 회선 신경망(fixed filter CNN)의 구조를 이용하여 눈 개폐를 분류한 경우보다 정확하게 눈을 감은 영상과 눈을 뜬 영상을 분류할 수 있다.
도 16은 고정 필터 회선 신경망(fixed filter CNN)의 구조를 이용하여 눈 영상을 분류한 에러 영상 모음이다. 도 16에서는 눈을 뜬 영상을 눈을 감은 영상으로 분류하는 경향을 보인다.
도 17은 본 발명의 따른 회선 신경망 구조를 이용하여 눈 영상을 분류한 에러 영상 모음이다. 도 17에서는 눈을 뜬 영상을 눈을 감은 영상으로 분류하는 경향이 보이지 않는 것을 확인할 수 있다.
본 발명의 실시 예에 따른 눈 개폐 분류 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 또한 상술한 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이제까지 본 발명에 대하여 그 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
20: 눈 개폐 분류 장치
100: 눈 영상 입력부
200: 눈 개폐 분류부
300: 눈 영상 학습부

Claims (11)

  1. 눈 개폐 분류 장치에 있어서,
    카메라로부터 취득한 컬러 눈 영상을 입력하는 눈 영상 입력부; 및
    상기 눈 영상에서 학습 된 회선 신경망(Convolutional Neural Network)구조의 필터(filter)와 가중치(weight)를 이용하여 눈 개폐 특징을 추출하고, 추출된 눈 개폐 특징을 학습하여 눈의 개폐 여부를 분류하는 눈 개폐 분류부; 및
    회선 신경망 구조를 변경하여 눈 개폐 특징을 학습하고, 역전파 알고리즘을 이용하여 상기 회선 신경망 구조의 필터와 가중치를 갱신하는 눈 영상 학습부를 포함하고,
    상기 눈 개폐 분류부는
    상기 눈 영상 학습부에서 학습 된 회선 신경망 구조의 필터와 가중치를 입력된 눈 영상에 적용하여 2차원 콘볼루션 수행을 통해 눈 개폐 특징을 추출하는 콘볼루션 레이어 연산부;
    이전 콘볼루션 레이어 연산 결과를 활성화 함수를 이용하여 모든 픽셀들의 대체값을 출력하는 교정 선형 유닛 레이어 연산부; 및
    결과값을 정규화하는 지역 정규화 레이어 연산부를 더 포함하되,
    상기 콘볼루션 레이어 연산부는
    3×3 크기의 128개의 필터를 수직 및 수평 방향으로 2 픽셀씩 이동하여 제1 콘볼루션 레이어 연산을 수행하고,
    3×3 크기의 256개의 필터를 수직 및 수평방향으로 1 픽셀씩 이동 및 2 픽셀 간격으로 패딩(padding)하여 제2 콘볼루션 레이어 연산을 수행하며,
    상기 지역 정규화 레이어 연산부는 상기 교정 선형 유닛 레이어 연산부의 연산 결과를 아래의 수학식 2를 통해 정규화 하고,
    [수학식 2]
    Figure 112018502359434-pat00042

    수학식 2에서
    Figure 112018502359434-pat00043
    는 정규화된 결과값,
    Figure 112018502359434-pat00044
    ,
    Figure 112018502359434-pat00045
    Figure 112018502359434-pat00046
    는 하이퍼파라메터,
    Figure 112018502359434-pat00047
    는 입력된 레이어의 i번째 채널의 요소 좌표(x, y), n은 인접 채널, N은 이전 레이어의 채널 수를 의미하고, 상기
    Figure 112018502359434-pat00048
    는 1, 상기
    Figure 112018502359434-pat00049
    는 0.0001, 상기
    Figure 112018502359434-pat00050
    는 0.75, 상기 n은 5로 설정하며, 상기 i, x, y 및 N은 정수인 눈 개폐 분류 장치.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 눈 개폐 분류부는
    상기 눈 개폐 특징에 설정된 필터를 적용하여 관심 영역에서 최댓값을 추출하는 풀링 레이어 연산부를 더 포함하되,
    상기 풀링 레이어 연산부는
    3×3 크기의 필터를 수직 및 수평 방향으로 탐색 시, 2 픽셀 간격으로 이동하여 관심 영역에서 최대값을 추출하는 눈 개폐 분류 장치.
  5. 제4항에 있어서,
    상기 눈 개폐 분류부는
    풀링 레이어 연산을 통해 추출한 최댓값을 복수의 노드로 연결하여 눈 개폐 특징을 축소하는 완전 연결 레이어 연산부를 더 포함하는 눈 개폐 분류 장치.
  6. 제5항에 있어서,
    상기 눈 개폐 분류부는
    축소된 눈 개폐 특징이 눈을 감은 영상일 확률과 눈을 뜬 영상일 확률을 산출하는 소프트맥스 레이어 연산부를 더 포함하는 눈 개폐 분류 장치.
  7. 제6항에 있어서,
    상기 눈 개폐 분류부는
    소프트맥스 레이어 연산의 결과값들 중에서 확률이 가장 높은 노드를 설정한 임계값을 기준으로 최종 분류 결과를 선택하는 분류 레이어 연산부를 더 포함하되,
    상기 임계값은 -1에서 1 사이의 실수 값 중 하나로 설정하는 눈 개폐 분류 장치.
  8. 눈 개폐 분류 장치에서 눈의 개폐를 분류하기 위한 눈 개폐 분류 방법에 있어서,
    상기 눈 개폐 분류 장치가 학습 된 회선 신경망 구조를 로드하는 단계;
    눈 영상 입력부에 카메라로부터 취득한 컬러 눈 영상을 입력하는 단계;
    눈 개폐 분류뷰가 상기 학습 된 회선 신경망 구조를 이용하여 상기 눈 영상에서 눈 개폐 특징 정보를 추출하는 단계;
    상기 눈 개폐 분류부가 상기 눈 개폐 특징 정보를 이용하여 상기 눈 개폐 특징 정보가 눈을 뜬 영상에 속할 확률과 눈을 감은 영상에 속할 확률을 산출하는 단계;
    상기 눈 개폐 분류부가 상기 눈을 뜬 영상에 속할 확률과 상기 눈을 감은 영상에 속할 확률의 차이를 설정한 임계값과 비교하여 입력된 눈 영상이 눈을 뜬 영상인지, 눈을 감은 영상인지 분류하는 단계를 포함하고,
    상기 학습된 회선 신경망 구조를 이용하여 상기 눈 영상에서 눈 개폐 특징 정보를 추출하는 단계는,
    콘볼루션 레이어 연산부가 입력된 상기 눈 영상에 미리 설정된 필터를 적용하여 제1 콘볼루션 레이어 연산을 수행하는 단계;
    교정 선형 유닛 레이어 연산부가 상기 콘볼루션 레이어 연산부의 연산 결과를 이용하여 모든 픽셀에 대한 대체값을 출력하는 단계; 및
    지역 정규화 레이어 연산부에서 상기 교정 선형 유닛 레이어 연산부의 연산 결과를 아래의 수학식 2,
    [수학식 2]
    Figure 112018093356672-pat00051

    를 이용해 정규화 하는 단계;를 더 포함하고,
    상기 수학식 2에서
    Figure 112018093356672-pat00052
    는 정규화된 결과값,
    Figure 112018093356672-pat00053
    ,
    Figure 112018093356672-pat00054
    Figure 112018093356672-pat00055
    는 하이퍼파라메터,
    Figure 112018093356672-pat00056
    는 입력된 레이어의 i번째 채널의 요소 좌표(x, y), n은 인접 채널, N은 이전 레이어의 채널 수를 의미하고, 상기
    Figure 112018093356672-pat00057
    는 1, 상기
    Figure 112018093356672-pat00058
    는 0.0001, 상기
    Figure 112018093356672-pat00059
    는 0.75, 상기 n은 5로 설정하며, 상기 i, x, y 및 N은 정수인 눈 개폐 분류 방법.
  9. 제8항에 있어서,
    상기 눈 개폐 분류 장치가 학습된 회선 신경망 구조를 로드하는 단계는
    눈 영상 학습부에서 회선 신경망 구조를 변경하여 눈 개폐 특징을 학습하고, 역전파 알고리즘을 이용하여 상기 회선 신경망 구조의 필터와 가중치를 갱신한 결과를 로드하는 눈 개폐 분류 방법.
  10. 제8항에 있어서,
    상기 임계값은 -1에서 1 사이의 실수 값 중 하나로 설정하는 눈 개폐 분류 방법.
  11. 제8항 내지 제10항 중 어느 하나의 눈 개폐 분류 방법을 실행하고 컴퓨터가 판독 가능한 기록매체에 기록된 컴퓨터 프로그램.
KR1020160167635A 2016-12-09 2016-12-09 회선 신경망 기반 눈 개폐 분류 장치 및 방법 KR101910158B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160167635A KR101910158B1 (ko) 2016-12-09 2016-12-09 회선 신경망 기반 눈 개폐 분류 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160167635A KR101910158B1 (ko) 2016-12-09 2016-12-09 회선 신경망 기반 눈 개폐 분류 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20180066610A KR20180066610A (ko) 2018-06-19
KR101910158B1 true KR101910158B1 (ko) 2018-12-19

Family

ID=62790637

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160167635A KR101910158B1 (ko) 2016-12-09 2016-12-09 회선 신경망 기반 눈 개폐 분류 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101910158B1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102128158B1 (ko) * 2018-05-09 2020-06-29 연세대학교 산학협력단 시공간 주의 기반 감정 인식 장치 및 방법
KR102604016B1 (ko) 2018-10-24 2023-11-22 삼성전자주식회사 전자 장치 및 이의 제어방법
CN109711309B (zh) * 2018-12-20 2020-11-27 北京邮电大学 一种自动识别人像图片是否闭眼的方法
US11201745B2 (en) 2019-01-10 2021-12-14 International Business Machines Corporation Method and system for privacy preserving biometric authentication
KR102236469B1 (ko) * 2019-03-08 2021-04-07 동국대학교 산학협력단 운전자 부주의 측정 장치와 방법
CN110232327B (zh) * 2019-05-21 2023-04-21 浙江师范大学 一种基于梯形级联卷积神经网络的驾驶疲劳检测方法
CN110334627A (zh) * 2019-06-26 2019-10-15 深圳市微纳集成电路与系统应用研究院 对人员的行为进行检测的装置和系统
CN110491091A (zh) * 2019-09-08 2019-11-22 湖北汽车工业学院 一种商用车驾驶员疲劳状态监测预警系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009015372A (ja) * 2007-06-29 2009-01-22 Canon Inc 画像処理装置、画像処理方法、プログラム、及び記憶媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009015372A (ja) * 2007-06-29 2009-01-22 Canon Inc 画像処理装置、画像処理方法、プログラム、及び記憶媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
George, Anjith, and Aurobinda Routray. "Real-time eye gaze direction classification using convolutional neural network." SPCOM, 2016 International Conference on. IEEE, 2016.6.15.*

Also Published As

Publication number Publication date
KR20180066610A (ko) 2018-06-19

Similar Documents

Publication Publication Date Title
KR101910158B1 (ko) 회선 신경망 기반 눈 개폐 분류 장치 및 방법
AU2019101133A4 (en) Fast vehicle detection using augmented dataset based on RetinaNet
KR101607224B1 (ko) 동적 물체 분류 방법 및 장치
Damale et al. Face recognition based attendance system using machine learning algorithms
KR101991028B1 (ko) 지정맥 인식 장치 및 방법
MX2012010602A (es) Aparato para el reconocimiento de la cara y metodo para el reconocimiento de la cara.
KR101687217B1 (ko) 인터벌 타입-2 rbf 신경회로망 기반 ct 기법을 이용한 강인한 얼굴 인식 패턴 분류 방법 및 이를 실행하기 위한 시스템
KR102459487B1 (ko) 컨볼루션 신경망에 기반한 제스처 분류장치 및 방법
KR101908481B1 (ko) 보행자 검출 장치 및 방법
CN111027481A (zh) 基于人体关键点检测的行为分析方法及装置
KR101877683B1 (ko) 학습을 이용한 얼굴 인식 장치 및 방법
KR101903437B1 (ko) 딥 레지듀얼 러닝 기반 눈 개폐 분류 장치 및 방법
KR20200052429A (ko) 교사-학생 랜덤 펀을 이용한 다수의 보행자 추적 방법 및 시스템
CN107886060A (zh) 基于视频的行人自动检测与跟踪方法
JP2019023801A (ja) 画像認識装置、画像認識方法、及び画像認識プログラム
Zhao et al. Learning saliency features for face detection and recognition using multi-task network
eddine Agab et al. Dynamic hand gesture recognition based on textural features
Lin et al. Ml-capsnet meets vb-di-d: A novel distortion-tolerant baseline for perturbed object recognition
KR101658528B1 (ko) 2방향 2차원 주성분분석 알고리즘 및 다항식 방사형 기저함수 기반 신경회로망을 이용한 야간 얼굴 인식 방법
Jayasimha et al. Face Detection and its Features Extraction using Convolution Neural Network Model
Kokila et al. Efficient abnormality detection using patch-based 3D convolution with recurrent model
Ateş Pothole detection in asphalt images using convolutional neural networks
CN115720664A (zh) 物体位置估计设备、物体位置估计方法和记录介质
CN112132175A (zh) 对象分类方法、装置、电子设备及存储介质
JP7365261B2 (ja) コンピュータシステムおよびプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant