KR102184109B1 - 멀티모달 학습 기반의 운전자 상태 인식 시스템 및 그 방법 - Google Patents

멀티모달 학습 기반의 운전자 상태 인식 시스템 및 그 방법 Download PDF

Info

Publication number
KR102184109B1
KR102184109B1 KR1020180113554A KR20180113554A KR102184109B1 KR 102184109 B1 KR102184109 B1 KR 102184109B1 KR 1020180113554 A KR1020180113554 A KR 1020180113554A KR 20180113554 A KR20180113554 A KR 20180113554A KR 102184109 B1 KR102184109 B1 KR 102184109B1
Authority
KR
South Korea
Prior art keywords
driver
information
face image
data
learning
Prior art date
Application number
KR1020180113554A
Other languages
English (en)
Other versions
KR20190035558A (ko
Inventor
이규철
백문기
Original Assignee
충남대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 충남대학교산학협력단 filed Critical 충남대학교산학협력단
Publication of KR20190035558A publication Critical patent/KR20190035558A/ko
Application granted granted Critical
Publication of KR102184109B1 publication Critical patent/KR102184109B1/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/02Detecting, measuring or recording pulse, heart rate, blood pressure or blood flow; Combined pulse/heart-rate/blood pressure determination; Evaluating a cardiovascular condition not otherwise provided for, e.g. using combinations of techniques provided for in this group with electrocardiography or electroauscultation; Heart catheters for measuring blood pressure
    • A61B5/024Detecting, measuring or recording pulse rate or heart rate
    • A61B5/02416Detecting, measuring or recording pulse rate or heart rate using photoplethysmograph signals, e.g. generated by infrared radiation
    • A61B5/0402
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/24Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
    • A61B5/316Modalities, i.e. specific diagnostic methods
    • A61B5/318Heart-related electrical modalities, e.g. electrocardiography [ECG]
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7271Specific aspects of physiological measurement analysis
    • A61B5/7275Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B2562/00Details of sensors; Constructional details of sensor housings or probes; Accessories for sensors
    • A61B2562/02Details of sensors specially adapted for in-vivo measurements
    • A61B2562/0247Pressure sensors

Abstract

본 발명은 운전자의 졸음 상태를 인식하는 기술에 관한 것으로, 본 발명의 일 실시예에 따른 멀티모달 학습 기반의 운전자 상태 인식 방법은 (a) 운전자의 생체 정보 및 상기 운전자의 얼굴 이미지 정보를 수신하는 단계; (b) 상기 수신한 얼굴 이미지 정보에 대한 특징을 추출하는 단계; (c) 상기 추출한 얼굴 이미지 정보에 대한 특징 및 상기 생체 정보에 기초하여 멀티-모달 네트워크(multi-modal network)를 형성하는 단계; (d) 상기 형성된 멀티-모달 네트워크의 출력값을 기 설정된 모드의 순서와 기 설정된 시간 순서에 따라 상기 출력값을 정렬하고, 상기 출력값을 조합함으로써 대표 정보를 생성하는 단계; 및 (e) 상기 생성된 대표 정보에 기초하여 운전자의 상태를 분류하는 단계를 포함할 수 있다.

Description

멀티모달 학습 기반의 운전자 상태 인식 시스템 및 그 방법{THE SYSTEM AND THE METHOD FOR RECOGNIZING DRIVER'S CONDITION OF MULTIMODAL LEARNING}
본 발명은 기계학습을 이용하여 운전자의 졸음 상태를 인식하는 기술에 관한 것으로, 보다 상세하게는 운전자에 대하여 수집된 생체 정보 및 얼굴 이미지를 학습하여 운전자의 졸음 상태를 인식하는 시스템에 관한 것이다.
숙련된 운전자 또는 반응이 빠른 운전자일지라도 건강이상, 피로도 등의 운전자 개인의 생리적 변화에 따라 ADAS(Advanced Driver Assistance System)의 도움을 전혀 받을 수 없는 상황이 발생할 수 있다. 대표적으로, 심장질환 및 졸음이 해당되며, 두 상황 모두 운전자의 의식이 빠르게 사라지기 때문에 ADAS만으로 사고를 막을 수 없는 상황이 발생할 수 있다.
운전자 심장질환 상태 인식에 대한 연구개발은 TRL 4단계(실험실 성능평가 단계)로 볼 수 있으며, 심장박동의 전위 변화를 나타낸 심전도(electrocardiogram, ECG) 또는 혈류량의 변화를 감지하는 PPG를 측정하여 심장질환을 인식한다. ECG와 PPG 측정 모두 신체에 센서를 부착하여 심장활동을 모니터링 하는 것이 일반적이다.
ECG는 100ms 정도의 단위로 심장의 활동 전위 차이를 감지하여 기록하기 때문에 다양하고 정밀한 심장 활동정보를 도출할 수 있지만, 진동 또는 가속 등의 움직임에 민감하게 반응하기 때문에 그래프에 노이즈와 누락이 빈번하게 발생하는 문제가 있다.
PPG는 광학센서를 통해 혈류의 변화를 감지하는 방식이기 때문에 진동 또는 가속 등에 자유로우나 파형이 정밀하지 못하고 실제 심장 박동과 시간적 차이가 발생하는 문제가 있다.
따라서, 운전자의 졸음/피곤함 여부 상태를 판단하는데 생체정보뿐만 아니라, 얼굴 모니터링 방식을 상호보완하는 하이브리드 접근 방식이 필요한 실정이다.
대한민국 공개특허공보 제10-2017-0064910호(발명의 명칭: 혈류량 신호 기반 운전자 상태 판단 장치 및 방법, 공개일자: 2017년 06월 12일)
본 발명의 일 실시예는 운전자에 대한 생체 정보 및 얼굴 이미지를 수집하여 미리 생성된 기계학습 모델에 적용하여 운전자의 졸음 상태를 분류하기 위한 멀티모달 학습 기반의 운전자 상태 인식 시스템 및 그 방법을 제공한다.
본 발명이 해결하고자 하는 과제는 이상에서 언급한 과제(들)로 제한되지 않으며, 언급되지 않은 또 다른 과제(들)은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 실시예에 따른 멀티모달 학습 기반의 운전자 상태 인식 시스템은 운전자의 생체 정보 및 상기 운전자의 얼굴 이미지 정보를 수신하는 정보 수신부; 상기 수신한 생체 정보 및 얼굴 이미지 정보를 기설정된 기계학습 모델에 적용하여 학습하는 학습부; 및 상기 학습에 기초하여 상기 운전자의 상태를 분류하는 분류부를 포함할 수 있다.
본 발명의 일 실시예에 따른 멀티모달 학습 기반의 운전자 상태 인식 시스템의, 학습부는 상기 정보 수신부에서 수신한 얼굴 이미지 정보에 대한 특징을 추출하는 특징 추출부; 상기 특징 추출부에서 추출한 얼굴 이미지 정보에 대한 특징 및 상기 생체 정보에 기초하여 멀티-모달 네트워크(multi-modal network)를 형성하는 멀티-모달 네트워크 형성부; 및 상기 멀티-모달 네트워크 형성부에서 형성된 멀티-모달 네트워크의 출력값을 기 설정된 모드의 순서와 기 설정된 시간 순서에 따라 상기 출력값을 정렬하고, 상기 출력값을 조합함으로써 대표 정보를 생성하는 대표 정보 생성부를 포함할 수 있다.
본 발명의 일 실시예에 따른 상기 생체 정보는 광혈류측정 (Photoplethysmography, PPG)이고, 상기 얼굴 이미지 정보는 눈 모양 및 입 모양에 대한 정보인 것을 특징으로 할 수 있다.
본 발명의 일 실시예에 따른 기 설정된 상기 모드의 순서는 차례대로 눈 이미지 데이터, 입 이미지 데이터 및 광혈류측정(PPG) 데이터 순서이고, 상기 시간 순서는 기 설정된 제1 단위 시간으로 자른 데이터의 순서인 것을 특징으로 할 수 있다.
본 발명의 일 실시예에 따른 생체 정보 및 얼굴 이미지 정보는 기 설정된 제2 단위 시간으로 자른 데이터일 수 있다.
본 발명의 일 실시예에 따른 멀티모달 학습 기반의 운전자 상태 인식 방법은 (a) 운전자의 생체 정보 및 상기 운전자의 얼굴 이미지 정보를 수신하는 단계; (b) 상기 수신한 얼굴 이미지 정보에 대한 특징을 추출하는 단계; (c) 상기 추출한 얼굴 이미지 정보에 대한 특징 및 상기 생체 정보에 기초하여 멀티-모달 네트워크(multi-modal network)를 형성하는 단계; (d) 상기 형성된 멀티-모달 네트워크의 출력값을 기 설정된 모드의 순서와 기 설정된 시간 순서에 따라 상기 출력값을 정렬하고, 상기 출력값을 조합함으로써 대표 정보를 생성하는 단계; 및 (e) 상기 생성된 대표 정보에 기초하여 운전자의 상태를 분류하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따르면, 운전자에 대한 생체 정보 및 얼굴 이미지를 수집하여 미리 생성된 기계학습 모델에 적용하여 운전자의 졸음 상태를 분류할 수 있다.
또한, 본 발명의 일 실시예에 따르면, 운전자의 졸음 상태를 정상, 피곤함, 졸음으로 분류하는 정확도를 높일 수 있다.
도 1은 본 발명의 일 실시예에 따른 멀티모달 학습 기반의 운전자 상태 인식 방법의 순서도이다.
도 2는 본 발명의 일 실시예에 따른 멀티모달 학습 기반의 운전자 상태 인식 방법을 실시하기 위한 시스템의 구조도이다.
도 3은 본 발명의 일 실시예에 따른 멀티모달 학습 기반의 운전자 상태 인식 방법 및 그 시스템의 개념도이다.
도 4는 본 발명의 일 실시예에 따라 멀티모달 네트워크를 형성하는 과정을 나타낸다.
도 5a 내지 도 5c는 본 발명의 일 실시예에 따라 대표 정보를 생성하는 과정을 나타낸다.
도 6은 본 발명의 일 실시예에 따른 멀티모달 학습 기반의 운전자 상태 인식 시스템의 블록도이다.
도 7은 본 발명의 일 실시예에 따른 멀티모달 학습 기반의 운전자 상태 인식 방법 및 그 시스템의 효과를 확인하기 위한 실험데이터를 나타내는 표이다.
도 8은 본 발명의 일 실시예에 따른 멀티모달 학습 기반의 운전자 상태 인식 방법 및 그 시스템의 효과를 나타내는 ROC 커브이다.
도 9는 본 발명의 일 실시예에 따른 멀티모달 학습 기반의 운전자 상태 인식 방법 및 그 시스템의 정확도를 나타낸다.
본 발명의 이점 및/또는 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다.
명세서 전체에서 PPG는 광혈류측정 (Photoplethysmography) 수치를 지칭할 수 있고, 운전자의 상태는 정상, 피곤함, 졸음으로 구분되는 상태일 수 있다.
또한, 명세서 전체에서 기계학습은 딥 러닝(Deep Learning) 중 이미지 처리분야에서 CNN(Convolutional Neural Network)을 이용하였고, 분류하는 단계에서는 RNN(Recurrent Neural Network)을 사용한다.
모달리티(modality)란 영상, 음성, 텍스트 등의 데이터를 구성하는 소스를 의미하는 용어이며, 멀티모달 학습은 두 개 이상의 데이터 내의 모달리티를 이용하는 방법이다. 본 발명의 일 실시예에서는, 입 이미지 데이터, 눈 이미지 데이터, 생체 정보 데이터(예컨대, PPG)를 학습하는 것을 멀티모달 학습으로 지칭할 수 있다.
이하에서는 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 멀티모달 학습 기반의 운전자 상태 인식 방법의 순서도이다.
도 1을 참조하면, 본 발명은 운전자의 생체 정보 및 상기 운전자의 얼굴 이미지 정보를 수신하는 단계(S1100); 상기 수신한 얼굴 이미지 정보에 대한 특징을 추출하는 단계(S1200); 상기 추출한 얼굴 이미지 정보에 대한 특징 및 상기 생체 정보에 기초하여 멀티-모달 네트워크(multi-modal network)를 형성하는 단계(S1300); 상기 형성된 멀티-모달 네트워크의 출력값을 기 설정된 모드의 순서와 기 설정된 시간 순서에 따라 상기 출력값을 정렬하고, 상기 출력값을 조합함으로써 대표 정보를 생성하는 단계(S1400); 및 상기 생성된 대표 정보에 기초하여 운전자의 상태를 분류하는 단계(S1500)를 포함할 수 있다.
이하, 도 2를 참조하여 운전자의 생체 정보 및 운전자의 얼굴 이미지 정보를 수신하는 과정 대해 설명한다.
도 2는 본 발명의 일 실시예에 따른 멀티모달 학습 기반의 운전자 상태 인식 방법을 실시하기 위한 시스템의 구조도이다.
ECG, PPG 및 압력 측정 장치를 이용하여 운전자의 생체정보를 수집하고, 근적외선 카메라를 이용하여 운전자의 얼굴 이미지를 수집할 수 있다. 수집한 데이터는 실시간 통신 미들웨어인 DDS(Data Distribution Service)를 통해 운전자 상태 인식 장치로 손실 없이 실시간 전달될 수 있다. 운전자 상태 인식 장치는 수집한 데이터를 실시간으로 분석하여 운전자 상태를 3가지로 분류할 수 있다. 여기서, 3가지 운전자 상태는 정상(Normal) 상태, 피곤한 상태, 졸음이 밀려오거나 얕은 잠에 빠진 상태로 구분될 수 있다.
본 발명의 명세서에서는 생체정보에 대하여 PPG를 예로 들어 설명하나, PPG 뿐만 아니라, ECG, PPG 또는 스티어링 휠 적용 압력 등을 모두 포함할 수 있다.
수집하는 PPG 데이터는 약 500명 규모, 정상인과 환자의 비율은 1:4로 예상하며 수집된 데이터는 추후 멀티모달 학습(Multimodal Learning)에 용이하게 사용하기 위해 2차원 벡터 형태로 일괄 변환하여 저장할 수 있다.
얼굴 이미지 정보에 대한 특징을 추출하는 단계(S1200)는 운전자의 얼굴 이미지 정보에서 운전자의 눈, 입 모양을 인식함으로써 졸음 상태를 판별하는데 활용될 수 있다.
수집된 운전자의 얼굴 이미지에서 Viola & Jones Algorithm을 사용하여 얼굴 영역을 추출한다. 이 기법은 수 백 가지의 하르(haar) 피처 조합을 이용하여 물체를 탐지하며 모든 사람들의 얼굴 특징이 뚜렷하며(눈과 눈썹은 확실한 음영을 가지고 있음) 유사하게 생겼기 때문에 얼굴 탐지에서 좋은 성능을 보인다. 이 방법은 2001년 제안된 이후로 많은 발전이 이루어져 왔고 얼굴 탐지뿐만 아니라 눈, 입 등 얼굴의 특징적인 부분을 탐지하는 좋은 알고리즘으로 발전해왔다. 이러한 기법을 사용하여 얼굴 영역을 제외한 배경은 제거한다.
이미지에서 얼굴 영역을 추출하면, 하르 피처를 이용하여 adaboost를 통하여 데이터 구성에 필요한 눈과 입을 추출한다. 추출된 눈 및 입 모양에서 졸음 판단에 필요한 특징을 추출한다. 특징 추출을 위해 잡음 및 회전에 강한 Gabor 필터를 사용해 얼굴의 각도를 판별하며, 주변의 화소 차이를 통해 특징을 추출하는 LBP(Local Binary Pattern) 필터를 이용해 눈이 감긴 정도를 판별할 수 있다. 이처럼 전처리된 이미지는 CNN을 통과하여 정상, 피곤함, 졸림 상태에 대한 특징이 추출될 수 있다.
한편, 특징 추출된 데이터는 추후 멀티모달 학습에 용이하게 사용하기 위해 알파 채널을 지원하는 PNG(Portable Network Graphics) 포맷으로 일괄 변환하여 저장할 수 있다.
도 3은 본 발명의 일 실시예에 따른 멀티모달 학습 기반의 운전자 상태 인식 방법 및 그 시스템의 개념도이다.
도 3을 참조하면, 눈 모양 데이터(21,22,23), 입 모양 데이터(31,32,33) 및 PPG 데이터(41,42,43)는 3초간의 데이터를 1초 단위로 자른 데이터로써, 멀티-모달 네트워크 형성부(122)에 각각 입력된다.
다만, 눈 모양 데이터(21,22,23) 및 입 모양 데이터(31,32,33)는 특징 추출부(121)에서 CNN 기법에 따라 졸음 판단에 필요한 특징이 추출된 다음, 멀티-모달 네트워크 형성부(122)에 입력된다.
멀티-모달 네트워크 형성부(122)는 각각의 데이터에 대한 멀티-모달 네트워크(multi-modal network)를 형성함으로써 학습을 수행한다.
학습된 멀티-모달 네트워크의 출력값(50)은 대표정보 생성부(123)를 거쳐, 기 설정된 모드의 순서와 기 설정된 시간 순서에 따라 상기 출력값이 정렬/조합된다.
대표정보 생성부(123)를 통해 조합된 출력은 분류부(130)에서 운전자의 상태를 정상, 피곤함, 졸림 상태로 분류할 수 있다.
본 발명의 일 실시예에 따른 멀티모달 학습 기반의 운전자 상태 인식 방법에서는 학습 데이터를 3초간의 데이터로 사용하였는데, 3초 단위로 자른 이유는 하기 표에서와 같이 3초 단위 데이터로 하였을 때 정확도가 우수하였기 때문이다. 즉, 3초 단위 데이터를 입력으로 한 학습 결과는 1초 단위 데이터(눈, 입)에 대한 정확도보다 평균 약 5% 가량 높은 수준을 나타내었기 때문에, 본 발명의 일 실시예에서는 데이터를 3초단위로 자른 데이터를 사용하였다.
Figure 112018094503576-pat00001
도 4는 본 발명의 일 실시예에 따라 멀티모달 네트워크를 형성하는 과정을 나타내는 것으로, 도 4를 참조하여 멀티모달 네트워크를 형성함으로써 멀티-모달 학습이 이루어지는 과정을 설명한다.
특징 추출부(121)에서 추출한 얼굴 이미지 정보(입 모양 데이터, 눈 모양 데이터)에 대한 특징과 PPG 데이터(40)는 각각의 모달리티가 서로 다른 형식을 가지기 때문에 세 모달리티 간의 이질성이 존재한다. 비록 같은 이미지 데이터로 구성되어 있지만 졸음을 표현하는데 있어 세 모달리티는 서로 다른 변화를 가지기 때문이다. 이러한 문제를 해결하기 위하여 멀티 모달 네트워크에서는 세 모달리티를 재구성하는 생성 모델을 활용한다.
한편, 멀티모달 인터페이스는 크게 CAN(Controller Area Network)과 USB(Universal Serial Bus)의 두 가지 프로토콜을 준수하여 데이터를 입력 받도록 개발하였다.
CAN은 ISO-11898에 정의되는 자동차 전자장치의 실시간 통신 프로토콜로 전자장치 개발에서 검증까지 전 범위에 사용되는 표준이다. 기존의 연구들은 운전자의 ECG 및 PPG 데이터를 CAN을 통해 전송하지 않고 있어 실제 운용 측면에서 타 자동차 전자장치와 호환이 어렵고, 개발된 제품을 검증하는데 한계가 있다. 본 발명은 CAN을 준수하여 운전자의 ECG 및 PPG를 수집하는 모듈이 멀티모달 인터페이스에 포함될 수 있다.
하지만, 운전자 이미지의 경우 CAN을 준수하여 수집하는데 제약이 있다. CAN의 데이터 전송률은 1Mbps로 높은 프레임의 이미지를 전송하기에 매우 큰 제약이 있다. 상용화된 대부분의 근적외선 카메라들은 USB 표준을 준수하기 때문에, 본 발명은 USB를 준수하여 운전자의 얼굴 이미지를 수집하는 모듈을 멀티모달 인터페이스에 포함한다.
CAN과 USB 모듈이 포함된 멀티모달 인터페이스는 OMG(Object Management Group)에서 제정한 실시간 데이터 교환 프로토콜인 DDS(Data Distribution Service)를 준수하여 상위 모듈인 운전자 인식 시스템에 실시간으로 손실 없이 데이터를 전달하도록 개발할 수 있다.
세 모달리티를 재구성하는 생성 모델을 학습하기 위하여 본 연구에서는 DBM(Deep Boltzmann Machine)[8]을 사용한다. DBM은 깊게 쌓은 확률 모델로 RBM(Restricted Boltzmann Machine)으로 구성되어 있다. RBM 을 구성하고 있는 입력 레이어의 노드들은 h ∈ {0, 1}F, 히든 레이어 노드는 v ∈{0, 1}F, 두 레이어는 각 노드마다 서로 연결되어 있으며 같은 레이어안에 존재하는 노드는 연결되어 있지 않다. 이처럼 입력 레이어와 히든 레이어로 이루어져 있다. RBM의 목적은 입력 데이터를 재구성하는 비지도학습 모델이며 에너지 함수:
Figure 112018094503576-pat00002
를 기반으로 정의된다.
입력 데이터가 주어지면 각각의 웨이트 값과 바이어스 값을 통하여 히든 노드 값을 추정한다. 후에 히든 노드 값을 역으로 재구성하여 입력 데이터와 재구성 데이터의 차이를 줄여가서 입력데이터와 가장 근사한 확률 분포를 가지게 되며 입력 데이터와 같은 확률 분포를 가졌을 때 히든 레이어는 입력 데이터를 가장 잘 이해하고 있는 모델이라고 정의 할 수 있다. 이렇게 생성된 모델은 입력 데이터를 재구성하여도 비슷한 확률 분포를 가지기 때문에 입력 데이터를 대신할 수 있으며 결국 RBM은 입력 레이어와 히든 레이어의 결합 확률 분포로 나타낼 수 있으며 v는 입력 레이어, h는 히든 레이어를 나타내며 다음과 같은 수식을 가진다.
Figure 112018094503576-pat00003
이러한 RBM을 깊게 쌓아 고차원적인 데이터를 재구성하기 위한 방법이 DBM이며 깊은 층을 가진 생성모델이다. 기존의 2개의 층으로 이루어진 것보다 더 많은 층을 가지며 전체 레이어의 결합 확률 분포를 의미한다. 그래픽 모델에서 노드를 연결한 두 선은 결합 확률 분포를 의미하며 도 4와 같이 RBM을 쌓아 구성한 모델이며 연속된 RBM이므로 전체레이어의 결합 확률 분포를 나타내며 이때
Figure 112018094503576-pat00004
값은 웨이트 값이다.
Figure 112018094503576-pat00005
데이터 재구성에 있어서 전체 모델의 변수를 수정하며 학습하기 때문에 더 추상적이고 복잡한 데이터를 이해할 수 있다.
세 모달리티를 DBM을 사용하여 재구성하였으면 마지막으로 재구성된 세 모달리티를 조합해야 한다.(이하, Joint Representation, JR으로 지칭할 수 있다.)
조합하는 방식은 도 5a 내지 도 5c를 참조하여 설명한다.
도 5a를 참조하면, 멀티-모달 네트워크의 출력값(50)은 3초 동안 획득한 데이터를 1초 단위로 자른 데이터로, 1초대 눈 이미지 데이터(51), 1초대 입 이미지 데이터(52), 1초대 PPG 데이터(53), 2초대 눈 이미지 데이터(54), 2초대 입 이미지 데이터(55), 2초대 PPG 데이터(56), 3초대 눈 이미지 데이터(57), 3초대 입 이미지 데이터(58), 3초대 PPG 데이터(57)가 순차적으로 정렬되는 방식으로 조합된다. 상술한 조합 방식은 명세서 및 도면에서 Sorting 방식으로 지칭될 수 있다.
즉, 본 발명은 복수의 모달리티를 기 설정된 모드의 순서와 기 설정된 시간 순서에 따라 정렬 및 조합함으로써 대표 정보를 생성하고(S1400), 생성된 대표 정보는 분류부(130)에 입력된다.
따라서, 본 발명의 일 실시예는 모드의 순서가 순차적으로 눈, 입, PPG가 될 수 있으며, 시간 순서는 1초 단위의 데이터가 순차적으로 1초대, 2초대, 3초대 데이터일 수 있다.
즉, 본 발명의 일 실시예에서 기 설정된 제1 단위 시간은 1초이며, 기 설정된 제2 단위 시간은 3초일 수 있으나, 반드시 이에 한정되는 것은 아니다. 다만, 기 설정된 제2 단위 시간은 제1 단위 시간의 순서를 이어 합한 총 시간이다.
본 발명의 일 실시예에 따른 대표 정보는 멀티-모달 네트워크의 출력값(50)이 도 5b와 같이 각각의 데이터(51 내지 59)가 3차원으로 정렬됨으로써 생성될 수 있거나, 도 5c와 같이 행 또는 열 방향으로 이어 붙이는 방식으로 정렬됨으로써 생성될 수 있다.
따라서, 상술한 방식으로 조합되어 생성된 대표 정보는 운전자의 상태를 분류하는 분류부(130)에 입력된다. 이하, 분류부(130)에서 운전자의 상태를 정상, 피곤함, 졸림 3가지 상태로 분류하는 과정을 설명한다.
졸음은 시간 축을 가지는 특징으로 지속적인 변화를 관찰하여 파악할 수 있다. 이러한 특성 때문에 본 발명에서는 운전자 상태 분류를 위하여 RNN(Recurrent Neural Network)을 사용한다. RNN 은 과거에 입력 받았던 데이터를 동시에 고려하는 딥 러닝네트워크로 인간이 머릿속에 기억을 저장하고 있듯이 히든 레이어에서 기억을 가지고 있지만 모든 것을 기억할 수 없으므로 일정 상황에 맞게 과거에 입력 받았던 데이터는 사라진다. 현재 입력 데이터와 이전 입력 데이터를 모두 고려하는
Figure 112018094503576-pat00006
수식을 가지며 이때
Figure 112018094503576-pat00007
는 현재 상태를 의미한다. 이처럼 t값을 고려하는 타임스탬프 파라미터를 조정하여 일정 시간동안 입력 데이터의 지속적인 관찰이 가능하다.
데이터 전처리를 통해 특징 데이터 값은 세로축 y로 기존 데이터의 가로축과 세로축을 곱한 크기를 가진다. 그 다음 졸음 판단을 하기 위해 필요한 시간만큼을 x축으로 쌓는다. 이로 인해 x축은 시간 t축이 되며 t 값 하나가 이미지 데이터 하나를 표현한다.
운전자 이미지 데이터를 학습하는 줄기는 CNN(Convolutional Neural Network) 방식이다. CNN은 하위 계층부터 상위 계층으로 올라가면서 더 구체적인 특징 맵(feature map)을 구성하며, 2차원이나 음성 신호를 분류하는데 뛰어난 성능을 보인다. 본 발명은 1000개의 사진 중 85% 가량을 정확히 분류한 Alexnet 모델을 사용할 예정이며, 연구개발을 진행하여 AlexNet의 특정 계층으로부터 c차원의 특징 벡터를 추출해 활용할 계획이다.
멀티모달 딥 러닝(Multimodal Deep Learning)은 여러 모달리티를 이용하여 심층적인 기계 학습을 수행하는 것을 의미한다. CNN을 통해 추출한 c차원의 특징 벡터를 MFCC를 통해 추출한 a, b차원의 특징 벡터를 이용하여 단일 뉴럴 네트워크 학습을 통해 각각 d차원의 벡터로 변환할 수 있다. 그리고, 중간 단계에서 각각 변환한 3종류의 d차원의 벡터를 합하여 하나의 d 차원 특징 벡터로 만들고, 이에 대한 soft-max 값을 산출해 입력 데이터에 대한 최종 분류를 수행할 수 있다.
도 6은 본 발명의 일 실시예에 따른 멀티모달 학습 기반의 운전자 상태 인식 시스템의 블록도이다.
본 발명의 일 실시예에 따른 멀티모달 학습 기반의 운전자 상태 인식 시스템(100)은 운전자의 생체 정보 및 상기 운전자의 얼굴 이미지 정보를 수신하는 정보 수신부(110); 상기 수신한 생체 정보 및 얼굴 이미지 정보를 기설정된 기계학습 모델에 적용하여 학습하는 학습부(120); 및 상기 학습에 기초하여 상기 운전자의 상태를 분류하는 분류부(130)를 포함할 수 있다.
본 발명의 일 실시예에 따른 멀티모달 학습 기반의 운전자 상태 인식 시스템의, 학습부(120)는 상기 정보 수신부(110)에서 수신한 얼굴 이미지 정보에 대한 특징을 추출하는 특징 추출부(121); 상기 특징 추출부(121)에서 추출한 얼굴 이미지 정보에 대한 특징 및 상기 생체 정보에 기초하여 멀티-모달 네트워크(multi-modal network)를 형성하는 멀티-모달 네트워크 형성부(122); 및 상기 멀티-모달 네트워크 형성부(122)에서 형성된 멀티-모달 네트워크의 출력값을 기 설정된 모드의 순서와 기 설정된 시간 순서에 따라 상기 출력값을 정렬하고, 상기 출력값을 조합함으로써 대표 정보를 생성하는 대표 정보 생성부(123)를 포함할 수 있다.
본 발명의 일 실시예에 따른 멀티모달 학습 기반의 운전자 상태 인식 방법은 상술한 시스템(100)을 이용하는 것으로, 본 발명의 일 실시예에 따른 시스템(100)은 방법에서 설명한 내용이 동일하게 적용될 수 있다.
도 7은 본 발명의 일 실시예에 따른 멀티모달 학습 기반의 운전자 상태 인식 방법 및 그 시스템의 효과를 확인하기 위한 실험데이터를 나타내는 표이다.
본 발명의 일 실시예에 따르면 눈 및 입 데이터만 사용하는 두 모달리티(F1)의 경우와 눈, 입, PPG 데이터와 같이 세 모달리티(F2)의 경우를 각각 실험하였다.
학습 데이터 25227개의 데이터 세트를 사용하였고, 테스트 데이터는 2803개의 데이터 세트를 사용하였다.
본 발명의 일 실시예에 따른 멀티모달 학습 기반의 운전자 상태 인식 방법을 적용한 알고리즘의 정확도는, F1 및 F2의 경우 각각 90.08%, 92.8% 로 90%가 넘었다.
반면, 멀티-모달리티 조합 방식이 본 발명과 달리 Fully-connected 방식에서의 정확도는 F1 및 F2의 경우 각각 61.0%, 64.2% 로 본 발명에 따른 알고리즘의 정확도보다 현저히 낮은 것을 확인할 수 있다.
도 8은 본 발명의 일 실시예에 따른 멀티모달 학습 기반의 운전자 상태 인식 방법 및 그 시스템의 효과를 나타내는 ROC 커브이고, 도 9는 본 발명의 일 실시예에 따른 멀티모달 학습 기반의 운전자 상태 인식 방법 및 그 시스템의 정확도를 나타낸다.
ROC(Receiver Operating Characteristic) 커브(Curve)는 AUC(Area under the curve)로 표현되는데, 1에 가까울수록 높은 성능을 보여준다.
도 8을 참조하면, class 0(정상 상태)에서는 AUC가 1, class 1(피곤한 상태)에서는 AUC가 0.99로 1에 가까워 본 발명에 따른 알고리즘은 높은 성능을 가지는 것을 알 수 있다.
다만, class 2(졸음 상태)의 경우에는 AUC가 0.47로 class 0 및 class 1보다 떨어진다. 다만, 졸음 상태를 가지는 데이터 수가 다른 상태의 경우보다 극히 작고, 도 9에 도시된 바와 같이 졸음 상태를 피곤한 상태로 판단하기 때문에 class 2(졸음 상태)의 AUC가 상대적으로 낮은 것은 큰 의미를 가지지 않을 수 있다.
왜냐하면, 졸음 상태는 운전할 때 실질적으로 위험한 상태에 있는 경우에 해당하여, 운전자에게 경고를 주어야 하는 데 피곤한 상태에서 주는 경고와 졸음 상태에서 주는 경고는 비슷하며, 피곤한 상태에서 경고를 계속 주면 졸음 상태로 되지 않기 때문에 피곤한 상태(class 1)와 졸음 상태(class 2)를 구분하는 것은 실질적인 의미를 가지지 않는다고 할 수 있다.
도 9를 참조하면, 본 발명의 일 실시예에 따른 알고리즘의 정확도를 보다 구체적으로 확인할 수 있다.
class 0(정상 상태)을 정상 상태로 판단한 확률은 1794개 데이터 중에서 1793개로 99.94%, class 1(피곤한 상태)를 피곤한 상태로 판단한 확률은 전체 1368개 데이터 100%이다. 다만, class 2(졸음 상태)를 졸음 상태로 판단한 확률은 4.12%로 낮으나 대부분은 피곤한 상태로 판단하여 실질적인 효과(경고 등)에는 영향을 주지 않을 것으로 판단된다.
즉, 본 발명의 일 실시예에 따른 알고리즘에 의하면, 복수개의 모달리티를 순서대로 정렬함으로써 기계학습 모델을 생성하고 운전자의 상태를 분류함으로써 상당히 정확하게 운전자의 상태를 판단할 수 있다.
지금까지 본 발명에 따른 구체적인 실시예에 관하여 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서는 여러 가지 변형이 가능함은 물론이다. 그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허 청구의 범위뿐 아니라 이 특허 청구의 범위와 균등한 것들에 의해 정해져야 한다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.

Claims (8)

  1. 운전자의 생체 정보 및 상기 운전자의 얼굴 이미지 정보를 수신하는 정보 수신부;
    상기 수신한 생체 정보 및 얼굴 이미지 정보를 기설정된 기계학습 모델에 적용하여 학습하는 학습부; 및
    상기 학습에 기초하여 상기 운전자의 상태를 분류하는 분류부를 포함하되,
    상기 학습부는,
    상기 정보 수신부에서 수신한 얼굴 이미지 정보에 대한 특징을 추출하는 특징 추출부;
    상기 특징 추출부에서 추출한 얼굴 이미지 정보에 대한 특징 및 상기 생체 정보에 기초하여 멀티-모달 네트워크(multi-modal network)를 형성하는 멀티-모달 네트워크 형성부; 및
    상기 멀티-모달 네트워크 형성부에서 형성된 멀티-모달 네트워크의 출력값을 기 설정된 모드의 순서와 기 설정된 시간 순서에 따라 상기 출력값을 정렬하고, 상기 출력값을 조합함으로써 대표 정보를 생성하는 대표 정보 생성부를 포함하고,
    상기 멀티-모달 네트워크 형성부는 DBM(Deep Boltzmann Machine)을 이용하여 상기 얼굴 이미지 정보와 상기 생체 정보에 대한 각 모달리티를 재구성하고,
    상기 멀티-모달 네트워크의 입력값으로서 상기 생체 정보 및 상기 얼굴 이미지 정보는 3초 단위로 자른 데이터이고,
    기 설정된 상기 모드의 순서는 차례대로 눈 이미지 데이터, 입 이미지 데이터 및 광혈류측정(PPG) 데이터 순서이고, 상기 시간 순서는 1초 단위로 자른 데이터의 순서인 것을 특징으로 하는 멀티모달 학습 기반의 운전자 상태 인식 시스템.
  2. 제1항에 있어서,
    상기 생체 정보는 광혈류측정(Photoplethysmography, PPG)이고, 상기 얼굴 이미지 정보는 눈 모양 및 입 모양에 대한 정보인 것을 특징으로 하는 멀티모달 학습 기반의 운전자 상태 인식 시스템.
  3. 삭제
  4. 삭제
  5. (a) 운전자의 생체 정보 및 상기 운전자의 얼굴 이미지 정보를 수신하는 단계;
    (b) 상기 수신한 얼굴 이미지 정보에 대한 특징을 추출하는 단계;
    (c) 상기 추출한 얼굴 이미지 정보에 대한 특징 및 상기 생체 정보에 기초하여 멀티-모달 네트워크(multi-modal network)를 형성하는 단계;
    (d) 상기 형성된 멀티-모달 네트워크의 출력값을 기 설정된 모드의 순서와 기 설정된 시간 순서에 따라 상기 출력값을 정렬하고, 상기 출력값을 조합함으로써 대표 정보를 생성하는 단계; 및
    (e) 상기 생성된 대표 정보에 기초하여 운전자의 상태를 분류하는 단계를 포함하고,
    상기 (c)단계에서 DBM(Deep Boltzmann Machine)을 이용하여 상기 얼굴 이미지 정보와 상기 생체 정보에 대한 각 모달리티를 재구성하고,
    상기 멀티-모달 네트워크의 입력값으로서 상기 생체 정보 및 상기 얼굴 이미지 정보는 3초 단위로 자른 데이터이고,
    상기 (d)단계에서 기 설정된 상기 모드의 순서는 차례대로 눈 이미지 데이터, 입 이미지 데이터 및 광혈류측정(PPG) 데이터 순서이고, 상기 시간 순서는 1초 단위로 자른 데이터의 순서인 멀티모달 학습 기반의 운전자 상태 인식 방법.
  6. 제5항에 있어서,
    상기 생체 정보는 광혈류측정(Photoplethysmography, PPG)이고, 상기 얼굴 이미지 정보는 눈 모양 및 입 모양에 대한 정보인 것을 특징으로 하는 멀티모달 학습 기반의 운전자 상태 인식 방법.
  7. 삭제
  8. 삭제
KR1020180113554A 2017-09-26 2018-09-21 멀티모달 학습 기반의 운전자 상태 인식 시스템 및 그 방법 KR102184109B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20170124494 2017-09-26
KR1020170124494 2017-09-26

Publications (2)

Publication Number Publication Date
KR20190035558A KR20190035558A (ko) 2019-04-03
KR102184109B1 true KR102184109B1 (ko) 2020-11-27

Family

ID=66165730

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180113554A KR102184109B1 (ko) 2017-09-26 2018-09-21 멀티모달 학습 기반의 운전자 상태 인식 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR102184109B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230147963A (ko) 2022-04-15 2023-10-24 (주)딥인사이트 운전자 모니터링 시스템 및 이를 이용한 운전자 모니터링 방법

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102258332B1 (ko) * 2019-07-16 2021-05-31 이종명 운전자 졸음방지 경고 및 자동 통화연결 시스템
KR102543604B1 (ko) * 2020-11-12 2023-06-15 경북대학교 산학협력단 멀티모달을 이용한 운전자 피로 감지 방법, 이를 수행하기 위한 기록 매체 및 시스템
KR102507840B1 (ko) * 2020-11-18 2023-03-07 이상훈 졸음을 경고하는 모자
KR102433668B1 (ko) 2021-07-20 2022-08-18 (주)딥인사이트 운전자 모니터링 시스템 및 그 방법
KR102625827B1 (ko) * 2023-06-23 2024-01-15 주식회사 메디에이지 인공지능을 통해 노화지수를 분석하여 생체나이를 예측하는 장치 및 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009301367A (ja) * 2008-06-13 2009-12-24 Toyota Motor Corp 運転者状態推定装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101284561B1 (ko) * 2011-02-14 2013-07-11 충남대학교산학협력단 멀티 모달리티 감정인식 시스템, 감정인식 방법 및 그 기록매체
KR101806631B1 (ko) 2015-12-02 2017-12-07 현대자동차주식회사 혈류량 신호 기반 운전자 상태 판단 장치 및 방법
KR101839089B1 (ko) * 2016-06-02 2018-03-16 한국산업기술대학교산학협력단 운전자의 졸음 인식 방법 및 졸음 인식 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009301367A (ja) * 2008-06-13 2009-12-24 Toyota Motor Corp 運転者状態推定装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230147963A (ko) 2022-04-15 2023-10-24 (주)딥인사이트 운전자 모니터링 시스템 및 이를 이용한 운전자 모니터링 방법

Also Published As

Publication number Publication date
KR20190035558A (ko) 2019-04-03

Similar Documents

Publication Publication Date Title
KR102184109B1 (ko) 멀티모달 학습 기반의 운전자 상태 인식 시스템 및 그 방법
CN107491740B (zh) 一种基于面部表情分析的新生儿疼痛识别方法
Dwivedi et al. Drowsy driver detection using representation learning
Chakladar et al. A multimodal-Siamese Neural Network (mSNN) for person verification using signatures and EEG
Verma et al. A framework for driver emotion recognition using deep learning and Grassmann manifolds
Choi et al. Driver drowsiness detection based on multimodal using fusion of visual-feature and bio-signal
Ouarda et al. MLP Neural Network for face recognition based on Gabor Features and Dimensionality Reduction techniques
Presti et al. Boosting Hankel matrices for face emotion recognition and pain detection
Liu et al. A review of driver fatigue detection and its advances on the use of RGB-D camera and deep learning
Abbas et al. Hypo-driver: a multiview driver fatigue and distraction level detection system
Dipu et al. Real-time driver drowsiness detection using deep learning
CN112101096A (zh) 一种基于语音和微表情的多模态融合的自杀情绪感知方法
Alharbey et al. Fatigue state detection for tired persons in presence of driving periods
CN111079465A (zh) 一种基于三维成像分析的情绪状态综合判定方法
Ukwuoma et al. Deep learning review on drivers drowsiness detection
Shaker et al. Human Gender and Age Detection Based on Attributes of Face.
Nagaral et al. Hybrid approach for facial expression recognition using HJDLBP and LBP histogram in video sequences
Dornaika et al. Driver drowsiness detection in facial images
Gupta et al. A human emotion recognition system using supervised self-organising maps
Zhou et al. An Improved Random Forest Algorithm-Based Fatigue Recognition with Multi-Physical Feature
Gilanie et al. An Automated and Real-time Approach of Depression Detection from Facial Micro-expressions.
Chinchanikar Facial expression recognition using deep learning: A review
Manolova et al. Facial expression classification using supervised descent method combined with PCA and SVM
CN114170588A (zh) 基于眼部特征的铁路调度员不良状态识别方法
CN109214286B (zh) 基于深度神经网络多层特征融合的人脸识别方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant