KR102676918B1 - 얼굴 이미지로부터 생체신호를 추정하는 장치 - Google Patents

얼굴 이미지로부터 생체신호를 추정하는 장치 Download PDF

Info

Publication number
KR102676918B1
KR102676918B1 KR1020210188940A KR20210188940A KR102676918B1 KR 102676918 B1 KR102676918 B1 KR 102676918B1 KR 1020210188940 A KR1020210188940 A KR 1020210188940A KR 20210188940 A KR20210188940 A KR 20210188940A KR 102676918 B1 KR102676918 B1 KR 102676918B1
Authority
KR
South Korea
Prior art keywords
image
user
signal waveform
detected
processor
Prior art date
Application number
KR1020210188940A
Other languages
English (en)
Other versions
KR20230099508A (ko
Inventor
박철수
이정환
Original Assignee
광운대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 광운대학교 산학협력단 filed Critical 광운대학교 산학협력단
Priority to KR1020210188940A priority Critical patent/KR102676918B1/ko
Publication of KR20230099508A publication Critical patent/KR20230099508A/ko
Application granted granted Critical
Publication of KR102676918B1 publication Critical patent/KR102676918B1/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/02Detecting, measuring or recording pulse, heart rate, blood pressure or blood flow; Combined pulse/heart-rate/blood pressure determination; Evaluating a cardiovascular condition not otherwise provided for, e.g. using combinations of techniques provided for in this group with electrocardiography or electroauscultation; Heart catheters for measuring blood pressure
    • A61B5/024Detecting, measuring or recording pulse rate or heart rate
    • A61B5/02416Detecting, measuring or recording pulse rate or heart rate using photoplethysmograph signals, e.g. generated by infrared radiation
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/0002Remote monitoring of patients using telemetry, e.g. transmission of vital signals via a communication network
    • A61B5/0015Remote monitoring of patients using telemetry, e.g. transmission of vital signals via a communication network characterised by features of the telemetry system
    • A61B5/0022Monitoring a patient using a global network, e.g. telephone networks, internet
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/0033Features or image-related aspects of imaging apparatus classified in A61B5/00, e.g. for MRI, optical tomography or impedance tomography apparatus; arrangements of imaging apparatus in a room
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/0059Measuring for diagnostic purposes; Identification of persons using light, e.g. diagnosis by transillumination, diascopy, fluorescence
    • A61B5/0077Devices for viewing the surface of the body, e.g. camera, magnifying lens
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/02Detecting, measuring or recording pulse, heart rate, blood pressure or blood flow; Combined pulse/heart-rate/blood pressure determination; Evaluating a cardiovascular condition not otherwise provided for, e.g. using combinations of techniques provided for in this group with electrocardiography or electroauscultation; Heart catheters for measuring blood pressure
    • A61B5/0205Simultaneously evaluating both cardiovascular conditions and different types of body conditions, e.g. heart and respiratory condition
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/08Detecting, measuring or recording devices for evaluating the respiratory organs
    • A61B5/0806Detecting, measuring or recording devices for evaluating the respiratory organs by whole-body plethysmography
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/08Detecting, measuring or recording devices for evaluating the respiratory organs
    • A61B5/0816Measuring devices for examining respiratory frequency
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7271Specific aspects of physiological measurement analysis
    • A61B5/7275Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Veterinary Medicine (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Physiology (AREA)
  • Pulmonology (AREA)
  • Cardiology (AREA)
  • Psychiatry (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Child & Adolescent Psychology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Radiology & Medical Imaging (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Hematology (AREA)
  • Fuzzy Systems (AREA)
  • Developmental Disabilities (AREA)
  • Educational Technology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychology (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

본 발명에 따른 얼굴 이미지로부터 생체신호를 추정하는 장치는 사용자의 얼굴 이미지를 획득하는 얼굴 이미지 획득부; 및 상기 얼굴 이미지로부터 이마(forehead) 부위에 대한 제 1 이미지 및 볼(cheek) 부위에 대한 제 2 이미지를 검출하고, 상기 검출된 제 1 이미지 및 상기 검출된 제 2 이미지를 복소화해서 합성곱신경망(CNN)을 이용하는 학습된 소정의 Multi-task Learning 알고리즘 모델에 적용하여 상기 사용자의 PPG(Photoplethysmography) 신호 파형과 심박수 신호 파형을 출력하는 프로세서를 포함할 수 있다.

Description

얼굴 이미지로부터 생체신호를 추정하는 장치{APPARATUS FOR ESTIMATING BIOSIGNALS FROM FACE IMAGE}
본 발명은 생체신호를 추정하는 장치에 관한 것으로, 보다 자세하게는 얼굴 이미지로부터 생체신호를 추정하는 장치와 그 방법에 관한 것이다.
인간에게 정신 건강은 중요하다. 정신적 스트레스는 심장병, 당뇨병, 암 및 복통과 같은 또 다른 신체적 장애를 일으킬 수 있다. 의료 전문가의 스트레스 평가와 같은 이 방법은 전문가 평가에 따라 달라지기 때문에 스트레스를 지속적으로 모니터링하는 데 적합하지 않다. 결과적으로, 스트레스에 대해서도 지속적이고 객관적인 모니터링 방법이 필요하다.
원격 건강 모니터링 기술은 휴대전화나 온라인 건강 포털과 같은 통신 시스템에 기반을 두고 있다. 이러한 원격 건강 모니터링 기술은 COVID-19와 같은 유행병이 끝난 후에도 지속적인 환자 모니터링에 매우 인접하게 요구될 수 있다. 카메라를 이용하여 안면 비디오 스트림을 기반으로 사용자의 생리학적 신호를 측정하는데 사용된다. 이러한 기술은 전염병 뿐 아니라 영유아의 생체정보 모니터링이나 고령자 혹은 정신 건강 모니터링에도 사용될 수 있다.
또한, 의료 서비스의 패러다임은 질병 발생 후 병원에서 치료를 받는 것이 아니라 스스로 건강을 관리하고 질병을 예방하는 형식으로 변화하는 중이다. 현재 웨어러블 디바이스와 스마트 기기가 많이 사용되고 있지만, 헬스케어 웨어러블 디바이스의 구매, 착용 및 지속적인 사용의 조건을 가지고 있는 스마트 기기를 이용한 생체정보 측정은 명확한 한계가 있다. 그러하여 영상을 통한 비접촉식 생체신호 측정이 이에 대한 해답으로 제공될 수 있을 것으로 생각한다.
비침습적인 방식으로 PPG 센서로 생체신호를 센싱하여 스트레스 수치를 파악하는 연구는 존재한다. 그러나 현재 COVID-19의 대유행으로 인해 비침습적인 방식이면서 원격으로 건강을 모니터링할 수 있는 기술이 상당히 중요해졌다. 한국의 질병통제예방센터(CDCP)에서는 의료 환경에서 COVID-19의 위험을 줄이기 위해 가능하면 원격 건강 전략을 사용할 것을 권고하고 있다. 그렇기 때문에 기존의 신체에 접촉이 필요한 센서를 통한 생체 정보 모니터링 방법이 아닌 새로운 방법이 요구된다.
그러나, 아직까지 원격 건강 모니터링 기술로서 사람의 생체신호를 추정하고 스트레스 수치를 산출하기 위한 연구와 제품은 전무한 상황이다. 본원과 관련된 가장 유사한 선행기술로서는 한국공개특허 10-2021-0062535호 (2021.05.31)가 있다.
본 발명에서 이루고자 하는 기술적 과제는 얼굴 이미지로부터 생체신호를 추정하는 장치를 제공하는 데 있다.
본 발명에서 이루고자 하는 다른 기술적 과제는 얼굴 이미지로부터 생체신호를 추정하는 방법을 제공하는 데 있다.
본 발명에서 이루고자 하는 다른 기술적 과제는 얼굴 이미지로부터 생체신호를 추정하는 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 데 있다.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기의 기술적 과제를 달성하기 위한, 얼굴 이미지로부터 생체신호를 추정하는 장치는, 사용자의 얼굴 이미지를 획득하는 얼굴 이미지 획득부; 및 상기 얼굴 이미지로부터 이마(forehead) 부위에 대한 제 1 이미지 및 볼(cheek) 부위에 대한 제 2 이미지를 검출하고, 상기 검출된 제 1 이미지 및 상기 검출된 제 2 이미지를 복소화해서 합성곱신경망(CNN)을 이용하는 학습된 소정의 Multi-task Learning 알고리즘 모델에 적용하여 상기 사용자의 PPG(Photoplethysmography) 신호 파형과 심박수 신호 파형을 출력하는 프로세서를 포함할 수 있다.
상기 프로세서는 상기 산출된 PPG 신호 파형과 호흡수 신호 파형에 기초하여 상기 사용자의 스트레스 정도를 산출할 수 있다.
상기 프로세서는 상기 학습된 소정의 Multi-task Learning 알고리즘 모델에서 상기 검출된 제 1 이미지를 실수부로 상기 제 2 이미지를 허수부로하는 복소수를 구성하는 방식으로 복소 도메인으로 변환한 후 상기 CNN을 이용하여 상기 사용자의 PPG 신호 파형과 심박수 신호 파형을 출력할 수 있다.
상기 프로세서는 상기 학습된 소정의 Multi-task Learning 알고리즘 모델에서 상기 검출된 제 1 이미지를 허수부로 상기 제 2 이미지를 실수부로 하는 복소수를 구성하는 방식으로 복소 도메인으로 변환한 후 상기 CNN을 이용하여 상기 사용자의 PPG 신호 파형과 심박수 신호 파형을 출력할 수 있다.
상기 획득된 얼굴 이미지는 상기 사용자의 주변에 있는 주변광(ambient light)를 광원으로 이용하여 획득된 것일 수 있다.
상기 프로세서는 상기 사용자의 PPG 신호 파형으로부터 상기 사용자의 심박수를 산출하고 상기 호흡수 신호 파형으로부터 상기 사용자의 호흡수를 산출할 수 있다.
상기 장치는 상기 산출된 사용자의 심박수 및 호흡수에 대한 정보를 사용자 단말기 또는 서버로 전송하는 통신부를 더 포함할 수 있다.
상기의 다른 기술적 과제를 달성하기 위한, 얼굴 이미지로부터 생체신호를 추정하는 방법은, 사용자의 얼굴 이미지를 획득하는 얼굴 이미지 획득하는 단계; 상기 얼굴 이미지로부터 이마(forehead) 부위에 대한 제 1 이미지를 검출하는 단계;상기 얼굴 이미지로부터 볼(cheek) 부위에 대한 제 2 이미지를 검출하는 단계; 상기 검출된 제 1 이미지 및 상기 검출된 제 2 이미지를 복소화하는 단계; 및 상기 복소화된 데이터를 합성곱신경망(CNN)을 이용하는 학습된 소정의 Multi-task Learning 알고리즘 모델에 적용하여 상기 사용자의 PPG(Photoplethysmography) 신호 파형과 심박수 신호 파형을 출력하는 단계를 포함할 수 있다.
상기 방법은 상기 산출된 PPG 신호 파형과 심박수 신호 파형에 기초하여 상기 사용자의 스트레스 정도를 산출하는 단계를 더 포함할 수 있다.
상기 출력 단계는, 상기 학습된 소정의 Multi-task Learning 알고리즘 모델에서 상기 검출된 제 1 이미지를 실수부로 상기 제 2 이미지를 허수부로하는 복소수를 구성하는 단계; 및 상기 복소수로 구성된 데이터로 복소 도메인에서 상기 CNN을 이용하여 상기 사용자의 PPG 신호 파형과 심박수 신호 파형을 출력하는 단계를 포함할 수 있다.
상기 출력 단계는, 상기 학습된 소정의 Multi-task Learning 알고리즘 모델에서 상기 검출된 제 1 이미지를 허수부로 상기 제 2 이미지를 실수부로 하는 복소수를 구성하는 단계; 및 상기 복소수로 구성된 데이터로 복소 도메인에서 상기 CNN을 이용하여 상기 사용자의 PPG 신호 파형과 심박수 신호 파형을 출력하는 단계를 포함할 수 있다.
상기 획득된 얼굴 이미지는 상기 사용자의 주변에 있는 주변광(ambient light)를 광원으로 이용하여 획득된 것일 수 있다.
상기 방법은, 상기 사용자의 PPG 신호 파형으로부터 상기 사용자의 심박수를 산출하는 단계; 및 상기 호흡수 신호 파형으로부터 상기 사용자의 호흡수를 산출하는 단계를 포함할 수 있다.
얼굴 영상을 기반으로 고령화와 만성질환자를 PPG와 호흡수(RR)를 예측하는 방식으로 생체신호를 추정함으로써 지속적으로 모니터링하여 관리가 가능해진다.
COVID-19와 같은 전염병이 지속되는 상황에서 비접촉식으로 영상기반으로 생체신호를 추정하여 환자의 건강을 모니터링 할 수 있는 효과가 있다.
비접촉식으로 측정의 편의성을 고려한 생체신호 측정 기술이면서, 실시간으로 여러 생체정보를 동시에 측정할 수 있고, 생체정보를 이용하여 스트레스 관리나 운전 중 졸음감지나 영유아의 생체정보 모니터링 등 다양한 분야에서 제약없이 적용할 수 있다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 발명에 대한 실시예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 사상을 설명한다.
도 1은 인공신경망의 계층 구조(layer structure)를 예시한 도면이다.
도 2는 심층 신경망의 일 예를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 생체신호 추정 장치의 구성을 설명하기 위한 블록도이다.
도 4는 본 발명에 따른 생체신호 추정 장치가 학습된 소정의 MTL 알고리즘 모델의 입력 데이터를 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 얼굴 이미지로부터 생체신호를 추정하는 방법을 설명하기 위한 흐름도이다.
도 6은 검출된 이마 부위에 대한 이미지(450) 및 검출된 볼 부위에 대한 이미지(460)를 복소화에 대한 설명을 하기 위한 예시적인 도면이다.
도 7은 본 발명에 따른 Multi-task Learning 알고리즘 모델을 예시한 도면이다.
이하, 본 발명에 따른 바람직한 실시 형태를 첨부된 도면을 참조하여 상세하게 설명한다. 첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다. 이하의 상세한 설명은 본 발명의 완전한 이해를 제공하기 위해서 구체적 세부사항을 포함한다. 그러나, 당업자는 본 발명이 이러한 구체적 세부사항 없이도 실시될 수 있음을 안다.
몇몇 경우, 본 발명의 개념이 모호해지는 것을 피하기 위하여 공지의 구조 및 장치는 생략되거나, 각 구조 및 장치의 핵심기능을 중심으로 한 블록도 형식으로 도시될 수 있다. 또한, 본 명세서 전체에서 동일한 구성요소에 대해서는 동일한 도면 부호를 사용하여 설명한다.
얼굴 영상을 기반으로 PPG와 호흡수(RR)를 예측하는 행위는 접촉으로 전염되는 COVID-19 같은 질병에 안전하다. 특히 영상만 필요하여 지속적인 모니터링이 필요한 당뇨와 같은 질병의 관점에서도 매우 유리하다. 고령화와 만성질환자의 증가로 의료비 측면의 공공과 가계에 부담이 많이 되는 질병들을 언제 어디서든 생체지수 및 정보를 측정하는 기술이다.
본 발명에서는 비접촉 상태에서 얼굴의 정보만으로 생체 정보를 예측하는 알고리즘 모델을 제안하고, 이러한 생체 정보로 스트레스 정도, 각종 질환 등을 예측하는 방법을 제안하고자 한다. 일반적으로 스트레스 정도를 추정하기 위해 PPG(Photoplethysmography) 센서로부터 PPG(혹은 심박수) 신호를 이용하였다. 본 발명에서는 PPG 신호 외에 호흡수 신호를 이용한다. 본 발명에서 제안하는 알고리즘 모델은 수집된 데이터를 분석하고 스트레스 수준 등을 정확하게 추정한다.
본 발명을 설명하기에 앞서 인공 지능(AI), 머신 러닝, 딥 러닝에 대해 설명한다. 이러한 세 가지 개념의 관계를 가장 쉽게 파악하는 방법은 세 개의 동심원을 가상하면 된다. 인공 지능이 가장 큰 원이고, 그 다음이 머신 러닝이며, 현재의 인공지능 붐을 주도하는 딥 러닝이 가장 작은 원이라 할 수 있다.
인공 지능이라는 개념은 1956년 미국 다트머스 대학에 있던 존 매카시 교수가 개최한 다트머스 회의에서 처음 등장했으며, 최근 몇 년 사이 폭발적으로 성장하고 있는 중이다. 특히 2015년 이후 신속하고 강력한 병렬 처리 성능을 제공하는 GPU의 도입으로 더욱 가속화되고 있죠. 갈수록 폭발적으로 늘어나고 있는 저장 용량과 이미지, 텍스트, 매핑 데이터 등 모든 영역의 데이터가 범람하게 된 빅데이터 시대의 도래도 이러한 성장세에 큰 영향을 미쳤다.
인공 지능 - 인간의 지능을 기계로 구현
1956년 당시 인공 지능의 선구자들이 꿈꾼 것은 최종적으로 인간의 지능과 유사한 특성을 가진 복잡한 컴퓨터를 제작하는 것이었다. 이렇듯 인간의 감각, 사고력을 지닌 채 인간처럼 생각하는 인공 지능을 ‘일반 AI(General AI)’라고 하지만, 현재의 기술 발전 수준에서 만들 수 있는 인공지능은 ‘좁은 AI(Narrow AI)’의 개념에 포함된다. 좁은 AI는 소셜 미디어의 이미지 분류 서비스나 얼굴 인식 기능 등과 같이 특정 작업을 인간 이상의 능력으로 해낼 수 있는 것이 특징이다.
머신 러닝 - 인공 지능을 구현하는 구체적 접근 방식
머신 러닝은 메일함의 스팸을 자동으로 걸러주는 역할을 합니다. 한편, 머신 러닝은 기본적으로 알고리즘을 이용해 데이터를 분석하고, 분석을 통해 학습하며, 학습한 내용을 기반으로 판단이나 예측을 수행한다. 따라서 궁극적으로는 의사 결정 기준에 대한 구체적인 지침을 소프트웨어에 직접 코딩해 넣는 것이 아닌, 대량의 데이터와 알고리즘을 통해 컴퓨터 그 자체를 ‘학습’시켜 작업 수행 방법을 익히는 것을 목표로 한다. 머신 러닝은 초기 인공 지능 연구자들이 직접 제창한 개념에서 나온 것이며, 알고리즘 방식에는 의사 결정 트리 학습, 귀납 논리 프로그래밍, 클러스터링, 강화 학습, 베이즈(Bayesian) 네트워크 등이 포함된다. 그러나 이 중 어느 것도 최종 목표라 할 수 있는 일반 AI를 달성하진 못했으며, 초기의 머신 러닝 접근 방식으로는 좁은 AI 조차 완성하기 어려운 경우도 많았던 것이 사실이다.
현재 머신 러닝은 컴퓨터 비전 등의 분야에서 큰 성과를 이뤄내고 있으나, 구체적인 지침이 아니더라도 인공 지능을 구현하는 과정 전반에 일정량의 코딩 작업이 수반된다는 한계점에 봉착하였다. 가령 머신 러닝 시스템을 기반으로 정지 표지판의 이미지를 인식할 경우, 개발자는 물체의 시작과 끝 부분을 프로그램으로 식별하는 경계 감지 필터, 물체의 면을 확인하는 형상 감지, ‘S-T-O-P’와 같은 문자를 인식하는 분류기 등을 직접 코딩으로 제작해야 한다. 이처럼 머신 러닝은 ‘코딩’된 분류기로부터 이미지를 인식하고, 알고리즘을 통해 정지 표지판을 ‘학습’하는 방식으로 작동된다.
머신 러닝의 이미지 인식률은 상용화하기에 충분한 성능을 구현하지만, 안개가 끼거나 나무에 가려서 표지판이 잘 보이지 않는 특정 상황에서는 이미지 인식률이 떨어지기도 한다. 최근까지 컴퓨터 비전과 이미지 인식이 인간의 수준으로 올라오지 못한 이유는 이 같은 인식률 문제와 잦은 오류 때문이다.
딥 러닝 - 완전한 머신 러닝을 실현하는 기술
초기 머신 러닝 연구자들이 만들어 낸 또 다른 알고리즘인 인공 신경망(artificial neural network)에 영감을 준 것은 인간의 뇌가 지닌 생물학적 특성, 특히 뉴런의 연결 구조였습니다. 그러나 물리적으로 근접한 어떤 뉴런이든 상호 연결이 가능한 뇌와는 달리, 인공 신경망은 레이어 연결 및 데이터 전파 방향이 일정합니다.
예를 들어, 이미지를 수많은 타일(tile)로 잘라 신경망의 첫 번째 레이어에 입력하면, 그 뉴런들은 데이터를 다음 레이어로 전달하는 과정을 마지막 레이어에서 최종 출력이 생성될 때까지 반복합니다. 그리고 각 뉴런에는 수행하는 작업을 기준으로 입력의 정확도를 나타내는 가중치가 할당되며, 그 후 가중치를 모두 합산해 최종 출력이 결정됩니다. 정지 표지판의 경우, 팔각형 모양, 붉은 색상, 표시 문자, 크기, 움직임 여부 등 그 이미지의 특성이 잘게 잘려 뉴런에서 ‘검사’되며, 신경망의 임무는 이것이 정지 표지판인지 여부를 식별하는 것입니다. 여기서는 충분한 데이터를 바탕으로 가중치에 따라 결과를 예측하는 ‘확률 벡터(probability vector)’가 활용된다.
딥 러닝은 인공신경망에서 발전한 형태의 인공 지능으로, 뇌의 뉴런과 유사한 정보 입출력 계층을 활용해 데이터를 학습합니다. 그러나 기본적인 신경망조차 굉장한 양의 연산을 필요로 하는 탓에 딥 러닝의 상용화는 초기부터 난관에 부딪혔다. 그럼에도 불구하고 연구자들의 연구는 지속됐고, 슈퍼컴퓨터를 기반으로 딥러닝 개념을 증명하는 알고리즘을 병렬화하는데 성공했다. 그리고 병렬 연산에 최적화된 GPU의 등장은 신경망의 연산 속도를 획기적으로 가속하며 진정한 딥러닝 기반 인공 지능의 등장을 불러왔다.
신경망 네트워크는 ‘학습’ 과정에서 수많은 오답을 낼 가능성이 크다. 정지 표지판의 예로 돌아가서, 기상 상태, 밤낮의 변화에 관계 없이 항상 정답을 낼 수 있을 정도로 정밀하게 뉴런 입력의 가중치를 조정하려면 수백, 수천, 어쩌면 수백만 개의 이미지를 학습해야 할지도 모른다. 이 정도 수준의 정확도에 이르러서야 신경망이 정지 표지판을 제대로 학습했다고 볼 수 있다. 2012년, 구글과 스탠퍼드대 앤드류 응(Andrew NG) 교수는 1만6,000개의 컴퓨터로 약 10억 개 이상의 신경망으로 이뤄진 ‘심층신경망(Deep Neural Network)’을 구현했다. 이를 통해 유튜브에서 이미지 1,000만 개를 뽑아 분석한 뒤, 컴퓨터가 사람과 고양이 사진을 분류하도록 하는데 성공했습니다. 컴퓨터가 영상에 나온 고양이의 형태와 생김새를 인식하고 판단하는 과정을 스스로 학습하게 한 것이다.
딥러닝으로 훈련된 시스템의 이미지 인식 능력은 이미 인간을 앞서고 있습니다. 이 밖에도 딥러닝의 영역에는 혈액의 암세포, MRI 스캔에서의 종양 식별 능력 등이 포함된다. 구글의 알파고는 바둑의 기초를 배우고, 자신과 같은 AI를 상대로 반복적으로 대국을 벌이는 과정에서 그 신경망을 더욱 강화해 나갔다. 딥러닝의 등장으로 인해 머신 러닝의 실용성은 강화됐고, 인공 지능의 영역은 확장됐다. 딥러닝은 컴퓨터 시스템을 통해 지원 가능한 모든 방식으로 작업을 세분화한다. 운전자 없는 자동차, 더 나은 예방 의학, 더 정확한 영화 추천 등 딥러닝 기반의 기술들은 우리 일상에서 이미 사용되고 있거나, 실용화를 앞두고 있다. 딥러닝은 공상 과학에서 등장했던 일반 AI를 실현할 수 있는 잠재력을 지닌 인공 지능의 현재이자, 미래로 평가받고 있다.
이하 딥러닝에 대해 좀 더 구체적으로 살펴본다.
딥러닝이란 인간의 신경망(Neural Network) 이론을 이용한 인공신경망(Artificial Neural Network, ANN)의 일종으로, 계층 구조(Layer Structure)로 구성하면서 입력층(Input layer)과 출력층(Output layer) 사이에 하나 이상의 숨겨진 층(Hidden layer)(이하, 중간층이라 지칭함)을 갖고 있는 심층 신경망(Deep Neural Network, DNN)을 지칭하는 기계학습(Machine Learning) 모델 또는 알고리즘의 집합입니다. 간단히 말하면, 딥러닝(Deep Learning)은 심층 계층을 가진 인공신경망이라 할 수 있다.
사람의 뇌는 250억 개의 신경세포로 구성되어 있다고 추정됩니다. 뇌는 신경세포로 이루어지며, 각각의 신경세포(뉴런, Neuron)는 신경망을 구성하는 신경세포 1개를 지칭한다. 신경세포는 1개의 세포체(cell body)와 세포체의 돌기인 1개의 축삭(Axon or nurite) 및 보통 여러 개의 수상돌기(dendrite or protoplasmic process)를 포함하고 있다. 이러한 신경세포들 간의 정보 교환은 시냅스라고 부르는 신경세포 간의 접합부를 통하여 전달됩니다. 신경세포 하나만 떼어 놓고 보면 매우 단순하지만, 이러한 신경세포들이 모이면 인간의 지능을 지닐 수 있다. 수상돌기에서 다른 신경세포들이 보내는 신호를 전달받는 부분(Input)이고 축색돌기는 세포체로부터 아주 길게 뻗어가는 부분으로 다른 신경세포에 신호를 전달하는 부분(Output)이다. 신경세포들 사이의 신호를 전달해주는 축색돌기와 수상돌기 간을 연결해주는 시냅스라는 연결부가 있는데, 신경세포의 신호를 무조건 전달하는 것이 아니라, 신호 강도가 일정한 값(임계치, Threshold) 이상이 되어야 신호를 전달하는 것이다. 즉, 각 시냅스마다 연결강도가 다를 뿐만 아니라 신호를 전달할지 말지를 결정하게 되는 것이다.
인공지능의 한 분야인 인공신경망(ANN)은 생물학(통상 인간)의 뇌 구조(신경망)를 모방하여 모델링한 수학적 모델이다. 즉, 인공신경망은 이러한 생물학적 신경세포의 정보처리 및 전달 과정을 모방하여 구현한 것이다. 인간의 뇌가 문제를 해결하는 방식과 유사하게 구현한 것으로서 신경망은 각 신경세포가 독립적으로 동작하는 하기 때문에 병렬성이 뛰어나다. 또한 많은 연결선에 정보가 분산되어 있어서 몇몇 신경세포에 문제가 발생해도 전체에 큰 영향을 주지 않으므로 일정 수준의 오류에 강하고 주어진 환경에 대한 학습 능력을 갖고 있다.
심층신경망(Deep neural network)는 인공신경망의 후손이라 볼 수 있으며, 기존의 한계를 뛰어넘어서 과거에 수많은 인공 지능 기술이 실패를 겪었던 영역에 성공 사례를 거두고 인공신경망의 최신 버전이다. 생물학적 신경망을 모방하여 인공신경망을 모델링한 내용을 살펴보면 처리 단위(Processing unit) 측면에서는 생물적인 뉴런(neurons)이 노드(nodes)로, 연결성(Connections)은 시냅스(Synapse)가 가중치(weights)로 다음 표 1과 같이 모델링 되었다.
생물학적 신경망 인공신경망
세포체 노드(node)
수상돌기 입력(input)
축삭(Axon) 출력(output)
시냅스 가중치(weight)
도 1은 인공신경망의 계층 구조(layer structure)를 예시한 도면이다.
인간의 생물학적 신경세포가 하나가 아닌 다수가 연결되어 의미 있는 작업을 하듯, 인공신경망의 경우도 개별 뉴런들을 서로 시냅스를 통해 서로 연결시켜서 복수개의 계층(layer)이 서로 연결되어 각 층간의 연결 강도는 가중치로 수정(update) 가능합니다. 이와 같이 다층 구조와 연결강도로 학습과 인지를 위한 분야에 활용됩니다.
각 노드들은 가중치가 있는 링크들로 연결되어 있고, 전체 모델은 가중치를 반복적으로 조정하면서 학습을 한다. 가중치는 장기 기억을 위한 기본 수단으로서 각 노드들의 중요도를 표현한다. 간단히 이야기하면, 인공신경망은 이들 가중치를 초기하고 훈련시킬 데이터 세트로 가중치를 갱신하여 조정하여 전체 모델을 훈련시키는 것입니다. 훈련이 완료된 후에 새로운 입력값이 들어오면 적절한 출력값을 추론해 내게 된다. 인공신경망의 학습원리는 경험의 일반화로부터 지능이 형성되는 과정이라고 보면 되고 bottom-up 방식으로 이루어지게 된다. 도 1에서 중간층이 2개 이상(즉 5~10개)일 경우를 층이 깊어진다고 보고 심층신경망(Deep Neural Network)이라 하며, 이러한 심층신경망을 통해서 이루어진 학습과 추론 모델을 딥 러닝이라고 지칭할 수 있다.
인공신경망은 입력과 출력을 제외하고 하나의 중간계층(통상적으로 은닉계층, 'hidden layer'라 지칭함)을 가지고 있어도 어느 정도의 역할을 수행할 수 있지만, 문제의 복잡도가 커지면 노드의 수 또는 계층의 수를 증가시켜야 한다. 이 중에서 계층의 수를 증가시켜 다층구조 모델을 가져가는 것이 효과적인데, 효율적인 학습이 불가능하고 네트워크를 학습하기 위한 계산량이 많다는 한계로 인해 활용 범위가 제한적이다.
그러나, 위와 같이 기존의 한계점이 극복됨으로써, 인공신경망은 깊은 구조(Deep Structure)를 가져갈 수 있게 되었습니다. 이로 인해 복잡하고 표현력 높은 모델을 구축할 수 있게 되어 음성인식, 얼굴인식, 물체인식, 문자인식 등 다양한 분야에서 획기적인 결과들이 발표되고 있다.
도 2는 심층 신경망의 일 예를 도시한 도면이다.
심층 신경망(Deep Neural Network, DNN)은 입력층(input layer)과 출력층(output layer) 사이에 여러 개의 은닉층(hidden layer)들로 이뤄진 인공신경망(Artificial Neural Network, ANN)이다. 입력층(Input layer)과 출력층(Output layer) 사이에 하나 이상의 은닉계층(Hidden layer)을 갖고 있는 심층 신경망(Deep Neural Network, DNN)을 지칭하는 머신 러닝(기계학습(Machine Learning)) 모델 또는 알고리즘의 집합이다. 신경망의 연결은 입력층에서 은닉계층으로, 은닉계층에서 출력층으로 이루어진다.
심층 신경망은 일반적인 인공신경망과 마찬가지로 복잡한 비선형 관계(non-linear relationship)들을 모델링할 수 있다. 예를 들어, 물체 식별 모델을 위한 심층 신경망 구조에서는 각 물체가 영상의 기본적 요소들의 계층적 구성으로 표현될 수 있다. 이때, 추가 계층들은 점진적으로 모인 하위 계층들의 특징들을 규합시킬 수 있다. 심층 신경망의 이러한 특징은, 비슷하게 수행된 인공신경망에 비해 더 적은 수의 유닛(unit, node)들 만으로도 복잡한 데이터를 모델링할 수 있게 해준다.
이전의 심층 신경망들은 보통 앞먹임 신경망으로 설계되어 왔지만, 최근의 연구들은 심층 학습 구조들을 순환 신경망(Recurrent Neural Network, RNN)에 성공적으로 적용했다. 일례로 언어 모델링(language modeling) 분야에 심층 신경망 구조를 적용한 사례 등이 있다. 합성곱 신경망(Convolutional Neural Network, CNN)의 경우에는 컴퓨터 비전(computer vision) 분야에서 잘 적용되었을 뿐만 아니라, 각각의 성공적인 적용 사례에 대한 문서화 또한 잘 되어 있다. 더욱 최근에는 합성곱 신경망이 자동음성인식(Automatic Speech Recognition, ASR)을 위한 음향 모델링(acoustic modeling) 분야에 적용되었으며, 기존의 모델들 보다 더욱 성공적으로 적용되었다는 평가를 받고 있다. 심층 신경망은 표준 오류역전파 알고리즘으로 학습될 수 있다. 이때, 가중치(weight)들은 아래의 등식을 이용한 확률적 경사 하강법(stochastic gradient descent)을 통하여 갱신될 수 있다.
심층 신경망과 기계 학습을 사용하여 생리학적 정보를 예측하는 것이 많이 시도되고 있다. 모바일 의료 시스템의 구현에 있어 다중 작업 학습(Multi-Task Learning, MTL)은 제한된 자원으로 여러 작업을 수행하는 중요한 접근법이다. 안면 비디오 스트림에서 MTL을 사용하여 PPG 신호와 호흡수 신호를 동시에 추출한다. 본 발명에서는 비디오 스트림을 동시에 처리하는 복잡한 가치 기반 다중 작업 학습(Multi-Task Learning, MTL) 알고리즘 모델을 제안한다. 두 개의 안면 영역은 복잡한 값의 신경망 아키텍처에서 동시에 처리되는 복잡한 번호 데이터로 구성된다. 이 복잡한 프로세스를 통해 PPG 신호와 호흡수 신호를 실제 값 단일 작업 학습 알고리즘과 비교하여 보다 효율적이고 정확하게 추출할 수 있다. 이러한 접근방식은 실시간 정신적 스트레스 모니터링 시스템 및 개인화된 정신적 스트레스 평가 양식의 개발에 적용될 수 있다.
원격 측정 방법에 대해 간략히 설명한다.
생체 정보 인식 센서를 활용한 헬스 모니터링 시스템 개발: 3축 가속도 센서를 이용하여 사용자가 일상생활을 하는 과정에서 계속해서 맥박/운동정보를 수집하고 모니터링하여 의료시설 내에 있지 않고 일상적인 삶을 누리는 상황에서도 건강상태를 계속 파악할 수 있다.
생체 정보 모니터링을 위한 웨어러블 센서 유닛: 생체 정보 모니터링을 위한 웨어러블 센서 유닛은, 인체를 포함한 동적 대상체의 온도와 운동상태와 같은 생체 정보를 모니터링하기 위한 것으로, 메인 센서층과 보완 센서층으로 이루어져있는 웨어러블 센서 유닛이다.
limitations and sensitivities를 이해하기 위한 CNN 기반 remote-PPG의 분석: 딥러닝 신경망인 합성곱신경망(Convolutional Neural Network, CNN)을 기반으로 카메라 기반 vital signs monitoring 방식이다.
Impact of makeup on remote-PPG 모니터링 상에서 화장의 영향: 카메라 기반 Remote-PPG을 통해 사람의 피부에서 나오는 혈액량 맥박을 비접촉식으로 측정할 수 있다. 카메라는 피부 조직 깊숙이 침투해 혈액 맥동 정보를 전달하는 피부에서 반사되는 빛을 포착해야 하기 때문에 원격 PPG에 피부 가시성이 필수적이다. 얼굴 화장을 사용하면 피부에 침투하여 반사되는 빛의 양을 줄임으로써 이 측정 방식에 영향을 줄 수 있다.
디지털 원격 혈압관리(Digital Remote Blood Pressure Management): 혈압을 모니터링 하기 위해 이동성 혈압 모니터링 장비로서, 의사 방문을 요구하지 않고, 환자의 시간을 절약할 수 있다. 개인 건강 유지 문제와 환자의 참여도를 높일 수 있다.
고혈압을 제어하는데 도움이 되는 원격 모니터링: 원격 의료 기술로 고혈압을 앓고 있는 사람들의 수치를 낮추는데 도움이 되고, 장기적으로 심장병과 뇌졸중의 위험을 낮출 수 있기 때문에, 모니터를 통해서 원격으로 혈압의 모니터링하는 기술이다.
가시광선 및 적외선에서 원격 PPG 신호의 기원에 대한 새로운 통찰력: 원격 광혈류 검사(remote PPG)는 활력징후 모니터링에 응용할 수 있는 광학 측정 기법이다. 최근 PPG 신호의 근원으로서 혈액량 변화(BV)에 대한 이해가 생김으로써 원격 SpO2 방법론에 대한 타당성도 고려된다. 원격 PPG 시스템이 실제로 동맥 혈액을 조사한다는 것을 보여준다. 녹색 파장은 피부 동맥을 조사하는 반면 적색 IR 파장은 피하 BVV에도 도달한다. 적색 IR 진단 창은 안정적인 침투 깊이 때문에 피부가 다 다른 상황에서 SpO2 측정에 대해서도 연구되었다.
원격 광혈류 측정방식 광혈류 측정방식 심전도 측정방식
주요 원리 헤모글로빈이 적색광은 반사하고 녹색광은 흡수하는 것을 이용하는 원리 헤모글로빈이 적생광은 반사하고 녹색광은 흡수하는 것을 이용하는 원리 심전계와 같이 심장의 전기활동을 측정, 심장박동에 의해 발생된 전기 신호를 감지
측정 장치 카메라 LED, 광학센서 ECG 센서
사용 환경 카메라로 촬영 가능한 모든 신체부위 신체 말단, 손목 심장 부근
사용자 환경 부착 또는 착용 장치 없음 신체에 광원 및 센서 부착 심장 부근에 센서 장착
표 2를 참조하면, 본 발명에서 적용하고자 하는 원격 광혈류 측정 방식은 헤모글로빈이 적색광은 반사하고 녹색광은 흡수하는 원리를 이용하고, 카메라가 얼굴을 촬영한다.
이와 같이, 본 발명은 원격으로 생체 정보를 모니터링하기 위한 원격측정(Remote Measurement) 기술들에 대한 것으로, 특히 현재 COVID-19같은 전염병 같은 병이 퍼져 있어, 병원에 직접 가거나, 접촉식 센서를 지양하고 있기 때문에, 비 접속 상태에서 얼굴의 정보만으로 생체 정보를 예측하는 알고리즘 모델을 제안한다.
MTL(Multi Task Learning)은 공유된 Layer를 통해 두 가지 이상의 여러 task를 동시에 학습하여, 예측하는 모델 학습 방법이다. 연관성이 있는 task를 동시에 학습함으로써 learned representation을 공유하고, 이로써 좋은 representation을 가지고 서로의 task가 모델 학습에 도움을 줄 수 있다. 학습하면 얻은 유용한 정보가 다른 task에 좋은 영향을 주어 더 좋은 모델이 되는데 기여할 수 있다. 그리고 여러 task를 동시에 예측함으로써 overfitting에 보다 강한 generalized 된 모델로 학습되게 되고, 기존의 두 task를 각자 만들어야 했던 것에 있어서 하나의 모델로 만들어 졌기 때문에 모델을 경량화하는데도 크게 도움이 되어, 스마트폰 같은 모바일 기기에 적하기에 보다 유리하다.
도 3은 본 발명의 일 실시예에 따른 생체신호 추정 장치의 구성을 설명하기 위한 블록도이고, 도 4는 본 발명에 따른 생체신호 추정 장치가 학습된 소정의 MTL 알고리즘 모델의 입력 데이터를 설명하기 위한 도면이다.
도 3을 참조하면, 생체신호 추정 장치(300)는 프로세서(310), 얼굴 이미지 획득부(320), 통신부(330) 및 메모리(340)을 포함할 수 있다.
얼굴 이미지 획득부(320)는 사용자의 얼굴 이미지를 획득할 수 있다. 여기서, 사용자의 얼굴 이미지는 외부의 카메라를 통해 촬영된 이미지이거나 혹은 생체신호 추정 장치(300)가 사용자의 얼굴을 촬영하여 획득한 얼굴 이미지일 수 있다. 사용자의 얼굴 이미지가 외부의 카메라를 통해 촬영된 이미지인 경우 얼굴 이미지 획득부(320)는 통신부(330)로 대체될 수 있다. 그러나, 사용자의 얼굴 이미지가 생체신호 추정 장치(300)가 사용자의 얼굴을 촬영하여 획득한 얼굴 이미지라면 얼굴 이미지 획득부(320)는 생체신호 추정 장치(300)에 구비된 카메라, 촬영부 등일 수 있다. 여기서 사용자의 얼굴 이미지는 RGB 이미지일 수 있다.
도 4를 참조하면, 얼굴 이미지 획득부(320)는 사용자의 얼굴을 촬영한 오리지널 데이터(410)와 오리지널 데이터 내의 얼굴 이미지(440)를 획득할 수 있다. 프로세서(310)는 오리지널 데이터(410)를 이마 영역(420)과 볼 영역(430)으로 분리하여, 이미 영역(420)과 볼 영역(430)에서 각각 관심영역(ROI)을 검출할 수 있다. 프로세서(310)는 얼굴 이미지(440)으로부터 이마(forehead) 부위의 대한 이미지(450), 볼(cheek) 부위에 대한 이미지(460)을 검출할 수 있다(여기서, 이마 부위에 대한 이미지(450)를 제 1 이미지, 볼 부위에 대한 이미지(460)를 제 2 이미지라고 칭할 수 있음).
이러한 이미지 기반으로 광혈류의 변화를 측정하는 remote PPG(rPPG) 방식은 별도의 Light source 없이 주변광(ambient light)만을 광원으로 이용하여 생체 신호를 획득할 수 있게 한다. LED 녹색광은 피부에 전달되어 피부가 일부 흡수하고 반사하게 되어 그 변화를 측정하여 PPG와 여타 생체신호를 예측하는데 이용할 수 있다. 이러한 특성을 이용하여 이미지 프로세싱에 주요 사용된 딥러닝 네트워크인 CNN(Convolutional Neural Network)를 이용하여 얼굴 이미지를 학습하여 PPG를 예측할 수 있다. 얼굴 이미지에서 추출한 이마와 볼의 이미지의 모든 영역에 필터(커널)를 반복 적용하여 패턴을 찾아내서 학습한다. 이마와 볼을 추출한 이유는 심장으로부터 올라오는 혈액의 시간차이로 인하여 신체의 두 부위간 차이를 유의미한 정보로서 활용하여 모델을 학습하기 위해서이다. 상기 획득된 얼굴 이미지는 상기 사용자의 주변에 있는 주변광(ambient light)를 광원으로 이용하여 획득된 것이다.
도 5는 본 발명의 일 실시예에 따른 얼굴 이미지로부터 생체신호를 추정하는 방법을 설명하기 위한 흐름도이다.
도 5를 참조하면, 프로세서(310)는 얼굴 이미지 획득부(320)로부터 획득된 혹은 외부 카메라로부터 수신된 얼굴 이미지/얼굴 비디오로부터 관심영역(ROI)를 검출한다. 여기서, 관심영역(ROI)는 얼굴 이미지/얼굴 비디오에서 이마(forehead) 부위의 대한 이미지(450), 볼(cheek) 부위에 대한 이미지(460)이다. 프로세서(310)는 이마(forehead) 부위의 대한 이미지(450), 볼(cheek) 부위에 대한 이미지(460)에 대해 이미지 프로세싱을 수행할 수 있는데, 일 예로서, 프로세서(310)는 검출된 이마 부위에 대한 이미지(450) 및 검출된 볼 부위에 대한 이미지(460)를 복소화해서(혹은 복소 도메인으로 변환)하여, Multi-task Learning 모델 (혹은 CVMT 모델이라고도 칭할 수 있다)에 적용할 수 있다. 이마 부위에 대한 이미지(450) 및 검출된 볼 부위에 대한 이미지(460)를 복소 도메인으로 변환하는 사항에 대해서 이하 도 6을 참조하여 상세하게 기술한다. 도 5에서 Multi-task Learning 모델의 구체적 사항에 대해 도 5의 우측 하단부에 도시하고 있으나, 구체적 사항은 도 7을 참조하면 된다.
도 6은 검출된 이마 부위에 대한 이미지(450) 및 검출된 볼 부위에 대한 이미지(460)를 복소화에 대한 설명을 하기 위한 예시적인 도면이고, 도 7은 본 발명에 따른 Multi-task Learning 알고리즘 모델을 예시한 도면이다.
도 6 및 도 7에 도시한 바와 같이, 본 발명에 따른 Multi-task learning 알고리즘 모델은 기존의 일반적인 CNN의 성능 향상과 모델 경량화, 볼과 뺨의 정보를 적절히 잘 사용하는 것을 원하기 때문에 실수값 도메인(Real-valued domain)이 아닌 복소값 도메인(Complex valued domain으)로 변환하여 학습한다.
이마 부위에 대한 이미지(450) 및 볼 부위에 대한 이미지(460)를 복소화하여 Multi-task learning 알고리즘 모델의 입력값으로 사용한다. 도 6에 도시한 바와 같이, 프로세서(310)는 학습된 소정의 Multi-task Learning 알고리즘 모델에서 검출된 이마 부위에 대한 이미지(450)를 실수부(x)로, 볼 부위에 대한 이미지(460)를 허수부(y)로하는 복소수(z)를 구성하는 방식으로 복소 도메인으로 변환한다. 이와 달리, 프로세서(310)는 학습된 소정의 Multi-task Learning 알고리즘 모델에서 검출된 이마 부위에 대한 이미지(450)를 허수부(y)로, 볼 부위에 대한 이미지(460)를 실수부(x)로하는 복소수(z)를 구성하는 방식으로 복소 도메인으로 변환할 수도 있다.
도 7에 도시한 바와 같이, 프로세서(310)는 검출된 이마 부위에 대한 이미지(450) 및 검출된 볼 부위에 대한 이미지(460)를 복소화해서(혹은 복소 도메인으로 변환해서) 합성곱신경망(CNN)을 이용하는 학습된 소정의 Multi-task Learning 알고리즘 모델에 입력한다. 즉, 프로세서(310)는 이마(forehead) 부위의 대한 이미지(450)와 볼(cheek) 부위에 대한 이미지(460)를 함께 이용하여 복소수 도메인으로 변환한다.
기존의 실수 도메인의 딥러닝과 다르게 복소 도메인에서의 딥러닝 알고리즘모델을 설계하였는데, 복소 도메인은 위상 신호를 표현하는데 실수 도메인에 비해서 생체정보를 표현하고, 예측하는데 이점 등이 있다. Multi-task learning 알고리즘 모델은 얼굴 두 영역의 이미지(450, 460)를 복소값 CNN(complex-valued CNN) 구조를 통해 동시에 학습하여 좀더 정확한 PPG/호흡수 신호 예측을 기대할 수 있다.
프로세서(310)는 Multi-task learning 알고리즘 모델에서 CNN 기반이므로 입력된 복소화된 데이터와 CNN에 기초하여 사용자의 PPG 신호 파형과 심박수 신호 파형을 출력한다. 프로세서(310)는 산출된 PPG 신호 파형과 심박수 신호 파형에 기초하여 사용자의 스트레스 정도를 산출할 수 있다. 프로세서(310)는 산출된 사용자의 PPG 신호 파형으로부터 사용자의 심박수를 산출하고 산출된 사용자의 호흡수 신호 파형으로부터 사용자의 호흡수도 산출할 수 있다.
복소 도메인의 neural network는 딥러닝 모델의 기본 학습 방식인 Backpropagation의 속도를 2~3배 정도 향상 시킬 수 있으며, 일반적으로 필요한 가중치, 임계값 등과 같은 인자를 절반만 필요로 한다.
다음 표 3은 프로세서(310)가 본 발명에 따른 학습된 Multi-task learning 알고리즘 모델을 이용하여 PPG 신호 파형과 호흡수 신호 파형의 정확도를 예시한 표이다.
PPG RR Parameter
MAE_ppg RMSE MAE_rep RMSE
Our Model 0.6771 0.7370 0.7770 0.8357 2,097,864
Siamese Model 0.8479 1,001 0.8612 1.0000 2,272,860
표 3을 참조하면, 본 발명에 따른 학습된 Multi-task learning 알고리즘 모델(Our Model)의 PPG 신호 파형의 평균제곱오차(MAE)가 샴(Siamese) 네트워크 모델의 평균제곱오차보다 0.17 만큼 적고, 본 발명에 따른 학습된 Multi-task learning 알고리즘 모델(Our Model)의 PPG 신호 파형의 평균제곱근편차(RMSE)도 샴(Siamese) 네트워크 모델의 평균제곱근편차보다 0.27 정도 만큼 적어서, PPG 신호 파형 예측의 정확도가 샴(Siamese) 모델 보다 더 우수한 것으로 평가되었다.
또한, 본 발명에 따른 학습된 Multi-task learning 알고리즘 모델(Our Model)의 호흡수(RR) 신호 파형의 평균제곱오차(MAE)가 샴(Siamese) 네트워크 모델의 평균제곱오차보다 0.09 만큼 적고, 본 발명에 따른 학습된 Multi-task learning 알고리즘 모델(Our Model)의 호흡수(RR) 신호 파형의 평균제곱근편차(RMSE)도 샴(Siamese) 모델의 평균제곱근편차보다 0.17 정도 만큼 적어서, RR 신호 파형 예측의 정확도가 샴(Siamese) 네트워크 모델 보다 더 우수한 것으로 평가되었다.
이와 같이, 두 개의 Input과 가중치를 공유하여 학습하는 샴(Siamese) network의 모델과 비교하여 성능의 향상을 보았고, 실제로 두개의 모델을 만드는 것보다 파라미터를 줄이는데 성공한 것을 확인할 수 있다.
기존에 많이 연구되어 왔던 방법으로는 접촉식 센서나 조명이 필요하고, 단일 생체정보를 예측하는 모델에 대한 연구가 많았다. 그러나 본 발명을 통하여 얼굴 영상만을 가지고 두 가지 이상의 생체 정보를 동시에 학습하여 예측함으로써 여러 생체정보를 동시에 예측할 수 있게 된다. 또한, Multi task Learning을 사용하였기에, 두 가지 이상의 연관된 task를 더욱 효율적으로 같이 학습할 수 있고, 모델의 크기는 줄여, 모바일 디바이스 등에 적용함으로써, 사용자들이 손쉽게 접근하고, 자주 사용할 수 있도록 하였다.
기존의 일반적인 실수 도메인에서의 Single task의 CNN 모델을 통한 생체정보 예측이 주를 이루고 있는 상황에서 이 방식은 복소 도메인을 사용함으로써 학습 속도의 향상과 학습 데이터의 입력인 볼과 뺨의 정보를 적절하게 더 잘 연산하여 사용할 수 있도록 도움을 주었고, Multi task Learning을 통해서 PPG와 호흡수를 동시에 학습하고 예측함으로써 두 task의 이로운 정보를 서로 공유하여 학습하는데 도움을 주도록 하고, 두 가지 모델이 각각 만들어 지는 것보다 하나의 모델을 만듬으로써 모델 압축의 관점에서도 장점이 있다. 이처럼 모델을 개선하고 다양한 분야에 보다 제약 없게 적용이 가능 하다는게 장점과 효과라고 생각한다.
이상에서 설명된 실시예들은 본 발명의 구성요소들과 특징들이 소정 형태로 결합된 것들이다. 각 구성요소 또는 특징은 별도의 명시적 언급이 없는 한 선택적인 것으로 고려되어야 한다. 각 구성요소 또는 특징은 다른 구성요소나 특징과 결합되지 않은 형태로 실시될 수 있다. 또한, 일부 구성요소들 및/또는 특징들을 결합하여 본 발명의 실시예를 구성하는 것도 가능하다. 본 발명의 실시예들에서 설명되는 동작들의 순서는 변경될 수 있다. 어느 실시예의 일부 구성이나 특징은 다른 실시예에 포함될 수 있고, 또는 다른 실시예의 대응하는 구성 또는 특징과 교체될 수 있다. 특허청구범위에서 명시적인 인용 관계가 있지 않은 청구항들을 결합하여 실시예를 구성하거나 출원 후의 보정에 의해 새로운 청구항으로 포함시킬 수 있음은 자명하다.
본 발명에서 프로세서(110)는 하드웨어(hardware) 또는 펌웨어(firmware), 소프트웨어, 또는 이들의 결합에 의해 구현될 수 있다. 하드웨어를 이용하여 본 발명의 실시예를 구현하는 경우에는, 본 발명을 수행하도록 구성된 ASICs(application specific integrated circuits) 또는 DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays) 등이 프로세서(110)에 구비될 수 있다. 본 발명에 따른 생체신호 추정 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체로 구현될 수도 있다.
본 발명은 본 발명의 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있음은 당업자에게 자명하다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims (15)

  1. 얼굴 이미지로부터 생체신호를 추정하는 장치에 있어서,
    사용자의 얼굴 이미지를 획득하는 얼굴 이미지 획득부; 및
    상기 얼굴 이미지로부터 이마(forehead) 부위의 관심영역에 대한 제 1 이미지 및 볼(cheek) 부위의 관심영역에 대한 제 2 이미지를 검출하고,
    상기 검출된 제 1 이미지를 실수부로 상기 검출된 제 2 이미지를 허수부로 복수화하거나 상기 검출된 제 1 이미지를 허수부로 상기 검출된 제 2 이미지를 실수부로 하여 복소화하고,
    상기 복소화된 데이터를 합성곱신경망(CNN)을 이용하는 학습된 소정의 Multi-task Learning 알고리즘 모델에 적용하여 상기 사용자의 PPG(Photoplethysmography) 신호 파형과 호흡수 신호 파형을 함께 출력하는 프로세서를 포함하는, 생체신호 추정 장치.
  2. 제 1항에 있어서,
    상기 프로세서는,
    상기 산출된 PPG 신호 파형과 상기 산출된 호흡수 신호 파형에 기초하여 상기 사용자의 스트레스 정도를 산출하는, 생체신호 추정 장치.
  3. 삭제
  4. 삭제
  5. 제 1항에 있어서,
    상기 획득된 얼굴 이미지는 상기 사용자의 주변에 있는 주변광(ambient light)를 광원으로 이용하여 획득된 것인, 생체신호 추정 장치.
  6. 제 1항에 있어서,
    상기 프로세서는,
    상기 사용자의 PPG 신호 파형으로부터 상기 사용자의 심박수를 산출하고 상기 호흡수 신호 파형으로부터 상기 사용자의 호흡수를 산출하는, 생체신호 추정 장치.
  7. 제 6항에 있어서,
    상기 산출된 사용자의 심박수 및 호흡수에 대한 정보를 사용자 단말기 또는 서버로 전송하는 통신부를 더 포함하는, 생체신호 추정 장치.
  8. 생체신호 추정 장치가 얼굴 이미지로부터 생체신호를 추정하는 방법에 있어서,
    얼굴 이미지 획득부가 사용자의 얼굴 이미지를 획득하는 얼굴 이미지 획득하는 단계;
    프로세서가 상기 얼굴 이미지로부터 이마(forehead) 부위의 관심영역에 대한 제 1 이미지를 검출하는 단계;
    상기 프로세서가 상기 얼굴 이미지로부터 볼(cheek) 부위의 관심영역에 대한 제 2 이미지를 검출하는 단계;
    상기 프로세서가 상기 검출된 제 1 이미지를 실수부로 상기 검출된 제 2 이미지를 허수부로 복수화하거나 상기 검출된 제 1 이미지를 허수부로 상기 검출된 제 2 이미지를 실수부로 하여 복소화하는 단계; 및
    상기 프로세서가 상기 복소화된 데이터를 합성곱신경망(CNN)을 이용하는 학습된 소정의 Multi-task Learning 알고리즘 모델에 적용하여 상기 사용자의 PPG(Photoplethysmography) 신호 파형과 호흡수 신호 파형을 함께 출력하는 단계를 포함하는, 생체신호 추정 방법.
  9. 제 8항에 있어서,
    상기 프로세서가 상기 산출된 PPG 신호 파형과 상기 산출된 호흡수 신호 파형에 기초하여 상기 사용자의 스트레스 정도를 산출하는 단계를 더 포함하는, 생체신호 추정 방법.
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 제 8항 또는 제 9항에 기재된 생체신호 추정 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020210188940A 2021-12-27 2021-12-27 얼굴 이미지로부터 생체신호를 추정하는 장치 KR102676918B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210188940A KR102676918B1 (ko) 2021-12-27 2021-12-27 얼굴 이미지로부터 생체신호를 추정하는 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210188940A KR102676918B1 (ko) 2021-12-27 2021-12-27 얼굴 이미지로부터 생체신호를 추정하는 장치

Publications (2)

Publication Number Publication Date
KR20230099508A KR20230099508A (ko) 2023-07-04
KR102676918B1 true KR102676918B1 (ko) 2024-06-19

Family

ID=87156354

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210188940A KR102676918B1 (ko) 2021-12-27 2021-12-27 얼굴 이미지로부터 생체신호를 추정하는 장치

Country Status (1)

Country Link
KR (1) KR102676918B1 (ko)

Also Published As

Publication number Publication date
KR20230099508A (ko) 2023-07-04

Similar Documents

Publication Publication Date Title
Villarroel et al. Non-contact physiological monitoring of preterm infants in the neonatal intensive care unit
WO2022042122A1 (zh) 脑电信号的分类方法、分类模型的训练方法、装置及介质
Jayalakshmi et al. Statistical normalization and back propagation for classification
KR20210085867A (ko) 사용자의 혈압을 추정하기 위한 장치 및 방법
Dargazany et al. WearableDL: Wearable Internet‐of‐Things and Deep Learning for Big Data Analytics—Concept, Literature, and Future
CN116564561A (zh) 基于生理与情感特征的智能语音看护系统及看护方法
KR102416878B1 (ko) 심박수 측정을 위한 헬스케어 장치
Saeed et al. Model adaptation and personalization for physiological stress detection
KR102435808B1 (ko) 스트레스 지수 측정을 위한 헬스케어 장치
Mellouk et al. CNN-LSTM for automatic emotion recognition using contactless photoplythesmographic signals
Abbod et al. Survey on the use of smart and adaptive engineering systems in medicine
Bhavani et al. Stress classification and vital signs forecasting for IoT-health monitoring
KR102146973B1 (ko) 인공신경망을 이용하여 사용자의 동작 의도를 학습하는 방법 및 장치
Premalatha et al. Design and implementation of intelligent patient in-house monitoring system based on efficient XGBoost-CNN approach
CN113593693A (zh) 远程健康管理平台
KR20170135563A (ko) 웨어러블 디바이스 형태의 뉴로모픽 기기 및 상기 뉴로모픽 기기를 이용한 생체 정보 처리 방법
Doukas et al. Advanced classification and rules-based evaluation of motion, visual and biosignal data for patient fall incident detection
Choi et al. Weighted knowledge distillation of attention-LRCN for recognizing affective states from PPG signals
KR102676918B1 (ko) 얼굴 이미지로부터 생체신호를 추정하는 장치
Irshad et al. Convolutional neural network enable optoelectronic system for predicting cardiac response by analyzing auction-based optimization algorithms
Ktistakis et al. Applications of ai in healthcare and assistive technologies
KR102394615B1 (ko) 사용자의 손목에 착용가능한 혈압 측정 장치
Huang et al. Generalized camera-based infant sleep-wake monitoring in NICUs: A multi-center clinical trial
Wang et al. Personalized Modeling of Blood Pressure With Photoplethysmography: An Error-Feedback Incremental Support Vector Regression Model
KR20220135912A (ko) 헬스케어 기능을 구비한 안락 의자

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant