KR102628690B1 - 이상행동 탐지 시스템 - Google Patents

이상행동 탐지 시스템 Download PDF

Info

Publication number
KR102628690B1
KR102628690B1 KR1020230086713A KR20230086713A KR102628690B1 KR 102628690 B1 KR102628690 B1 KR 102628690B1 KR 1020230086713 A KR1020230086713 A KR 1020230086713A KR 20230086713 A KR20230086713 A KR 20230086713A KR 102628690 B1 KR102628690 B1 KR 102628690B1
Authority
KR
South Korea
Prior art keywords
image
fall
image frame
behavior
representative
Prior art date
Application number
KR1020230086713A
Other languages
English (en)
Inventor
배현재
류세열
안재주
홍상훈
배성훈
Original Assignee
주식회사 클레버러스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 클레버러스 filed Critical 주식회사 클레버러스
Priority to KR1020230086713A priority Critical patent/KR102628690B1/ko
Application granted granted Critical
Publication of KR102628690B1 publication Critical patent/KR102628690B1/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • A61B5/1116Determining posture transitions
    • A61B5/1117Fall detection
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/0033Features or image-related aspects of imaging apparatus classified in A61B5/00, e.g. for MRI, optical tomography or impedance tomography apparatus; arrangements of imaging apparatus in a room
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • A61B5/1126Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb using a particular sensing technique
    • A61B5/1128Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb using a particular sensing technique using image analysis
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/44Detecting, measuring or recording for evaluating the integumentary system, e.g. skin, hair or nails
    • A61B5/441Skin evaluation, e.g. for skin disorder diagnosis
    • A61B5/445Evaluating skin irritation or skin trauma, e.g. rash, eczema, wound, bed sore
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/20ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Molecular Biology (AREA)
  • Veterinary Medicine (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Dentistry (AREA)
  • Physiology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Dermatology (AREA)
  • Image Analysis (AREA)

Abstract

본 개시는 이상행동 탐지 시스템에 관한 것이다. 보다 구체적으로, 특정 공간을 촬영하여 획득된 영상 데이터에 대해 객체 인식을 수행하여 객체 위치 정보를 획득하고, 객체 위치 정보가 반영된 영상 데이터에 대해 행동 인식을 수행하여 영상 데이터 내 객체의 행동 정보를 획득하고, 획득된 행동 정보를 이용하여 이상행동을 탐지하는 시스템에 관한 것이다.

Description

이상행동 탐지 시스템{A SYSTEM OF DETECTING ABNORMAL ACTION}
본 개시는 이상행동 탐지 시스템에 관한 것이다. 보다 구체적으로, 대상을 촬영하여 획득된 영상 데이터와 영상 기반 딥러닝(deep learning) 모델 이용하여 낙상 또는 욕창 등의 이상행동의 발생 여부를 판단하는 시스템에 관한 것이다.
오늘날 병원 내 의료 사고 유형 중 큰 비율을 차지하는 것은 낙상 사고이다. 낙상 사고는 시간과 장소에 상관없이 언제든지 발생할 수 있으며, 특히 고령의 환자에게 낙상은 회복하기 어려운 신체적 손상이 야기할 수 있는 위험요소 중 하나이다.
이러한 낙상 사고를 감지하기 위한 연구가 꾸준히 지속되고 있으며, 관성 센서를 이용하여 대상의 갑작스러운 움직임을 감지하거나, 터치 패드를 이용하여 대상의 침대 이탈 여부를 판단하거나, 카메라를 이용하여 대상을 촬영하고 촬영된 영상을 분석하는 등의 방법이 연구 중에 있다. 관련 문헌으로는, "기계학습을 기초로 낙상 사고를 감지하는 방법 및 그를 이용한 시스템"에 관한 한국 등록특허공보 제10-2389285호, "딥러닝에 기반하여 낙상 사고를 감지하는 방법 및 그 전자장치"에 관한 한국 등록특허공보 제10-2410286호, 및 "수술영상 학습 및 학습 기반 수술동작 인식 방법 및 장치"에 관한 한국 등록특허공보 제10-2014385호가 있다.
한편, 실제로 병원 등의 기관에서 사용될 수 있을 정도로 낙상 탐지 시스템이 높은 정확도를 가지지는 못하고 있는 실정이다. 구체적으로, 낙상 사고 마다 그 형태나 상황이 다양하여 모든 형태의 낙상 사고를 감지하는 것은 쉽지 않고, 그에 따라 낙상 감지 시스템이 상용화 단계에는 이르지 못하고 있다.
본 개시에서는, 다양한 종류의 낙상 사고들을 탐지하는 데에 필수적인 데이터들을 이용하여 학습되고, 낙상 사고의 특징에 기반한 효율적인 이미지 분석 기술이 탑재되어 높은 수준의 정확도를 담보하는 낙상 탐지 시스템에 대해 서술하고자 한다.
해결하고자 하는 일 과제는, 영상 또는 이미지 분석에 특화된 딥러닝 모델을 이용하여 영상 데이터를 분석하는 낙상 탐지 시스템을 제공하는 것이다.
해결하고자 하는 일 과제는, 영상 또는 이미지 분석을 진행함에 있어, 영상 또는 이미지 내 대상의 위치 정보를 활용하는 낙상 탐지 시스템을 제공하는 것이다.
해결하고자 하는 일 과제는, 일반 낙상, 특이 낙상, 및 유사 낙상을 감지하는 낙상 탐지 시스템을 제공하는 것이다.
본 개시에서 해결하고자 하는 과제가 상술한 과제로 제한되는 것은 아니며, 언급되지 아니한 과제들은 본 개시 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
일 실시예에 따르면,행동 인식 방법에 있어서, 제1 영상 데이터를 획득하는 단계 -상기 제1 영상 데이터는 임의의 시간 구간 동안의 복수의 이미지를 포함함-; 상기 제1 영상 데이터에 포함된 N개(N은 자연수)의 이미지 프레임들 중 제1 대표 이미지 프레임을 선택하는 단계; 상기 제1 대표 이미지 프레임을 객체 인식 모델에 입력하여 상기 제1 대표 이미지 프레임에 대응하는 제1 대표 위치 정보를 획득하는 단계 -상기 제1 대표 위치 정보는 적어도 상기 제1 대표 이미지 프레임에 포함된 제1 객체의 위치에 대한 제1 위치 정보를 포함함-; 상기 제1 영상 데이터에 포함된 상기 N개의 이미지 프레임들 중 미리 설정된 개수의 이미지 프레임을 선택하는 단계; 및 상기 선택된 이미지 프레임들, 상기 제1 대표 위치 정보, 및 행동 인식 모델을 이용하여 제1 행동 정보를 획득하는 단계 -상기 제1 행동 정보는 적어도 상기 제1 객체의 행동에 대한 정보를 포함함-;를 포함하되, 상기 선택된 이미지 프레임들에는 상기 제1 대표 이미지 프레임, 상기 제1 대표 이미지 프레임보다 이른 시점의 제1 이미지 프레임 및 상기 제1 대표 이미지보다 늦은 시점의 제2 이미지 프레임이 포함되고, 상기 제1 대표 위치 정보를 획득할 때, 상기 객체 인식 모델에 상기 제1 이미지 프레임 및 상기 제2 이미지 프레임은 입력되지 않는 행동 인식 방법이 제공된다.
본 개시에 따르면, 상대적으로 적은 양의 낙상 영상 데이터를 이용하여 높은 수준의 정확도를 가지는 낙상 탐지 딥러닝 모델을 구현할 수 있다.
본 개시에 따르면, 복수의 분석 대상 이미지에서 모니터링 대상의 위치가 일괄적으로 특정되어, 짧은 시간을 특징으로 하는 낙상 사고 감지에 특화된 낙상 탐지 시스템이 제공될 수 있다.
본 개시에 따르면, 특수한 낙상 사고를 탐지하여 정확도가 높고, 낙상과 유사한 행동은 낙상으로 탐지되지 않아 오답율이 낮은 낙상 탐지 시스템이 제공될 수 있다.
본 개시에 따른 효과가 상술한 효과들로 제한되는 것은 아니며, 언급되지 아니한 효과들은 본 개시 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.
도 1은 일 실시예에 따른 이상행동 탐지 시스템의 구성을 나타내는 도면이다.
도 2는 일 실시예에 따른 이상행동 탐지 과정을 나타내는 도면이다.
도 3은 일 실시예에 따른 객체 인식 모델에서 객체 인식이 수행되는 과정을 나타내는 도면이다.
도 4는 일 실시예에 따른 행동 인식 모델에서 행동 인식이 수행되는 과정을 나타내는 도면이다.
도 5는 일 실시예에 따른 대표 위치 정보가 산출되는 과정을 나타내는 도면이다.
도 6은 일 실시예에 따른 일반 낙상 시나리오를 나타내는 도면이다.
도 7은 일 실시예에 따른 특이 낙상 시나리오 및 유사 낙상 시나리오를 나타내는 도면이다.
도 8은 일 실시예에 따른 영상 수집부의 배치 위치에 따라 획득되는 영상을 나타내는 도면이다.
도 9는 일 실시예에 따른 침상의 배치 방법에 따라 획득되는 영상을 나타내는 도면이다.
도 10은 일 실시예에 따른 데이터 증강을 위해 합성 영상을 생성하는 방법을 나타내는 도면이다.
도 11은 일 실시예에 따른 영상 수집부(1000)의 높이를 달리하여 촬영된 영상에서 객체를 인식하는 경우를 나타내는 도면이다.
도 12는 일 실시예에 따른 행동 인식 방법을 나타내는 도면이다.
도 13은 일 실시예에 따른 낙상 탐지 방법을 나타내는 도면이다.
도 14는 일 실시예에 따른 영상 기반 딥러닝 모델의 구조 및 입출력 데이터를 나타내는 도면이다.
도 15는 일 실시예에 따른 관심 영역 조정(Region of Interest align)이 수행되는 과정을 나타내는 도면이다.
도 16은 일 실시예에 따른 딥러닝 모델을 학습시켜 객체 인식 모델 및 행동 인식 모델을 생성하는 과정을 나타내는 도면이다.
도 17은 일 실시예에 따른 사용자 인터페이스를 통해 이상행동 탐지 알림이 제공되는 것을 나타내는 도면이다.
도 18은 일 실시예에 따른 관심환자 별 탐지 대상 이상행동을 설정하는 사용자 인터페이스를 나타내는 도면이다.
일 실시예에 따르면, 낙상 탐지 방법에 있어서, 제1 영상 데이터를 획득하는 단계 -상기 제1 영상 데이터는 임의의 시간 구간 동안의 복수의 이미지 프레임을 포함함-; 상기 제1 영상 데이터 중 적어도 제1 이미지 프레임 및 객체 인식 모델을 이용하여 상기 제1 이미지 프레임에 대응하는 제1 위치 정보를 획득하는 단계-상기 제1 위치 정보는 상기 제1 이미지 프레임에 포함된 제1 객체의 위치에 대한 제1-1 위치 정보를 포함함-; 및 상기 제1 영상 데이터의 둘 이상의 이미지 프레임, 상기 제1 위치 정보, 및 행동 인식 모델을 이용하여 제1 행동 정보를 획득하는 단계-상기 제1 행동 정보는 적어도 상기 제1 객체의 행동에 대한 정보를 포함함-;을 포함하고, 상기 객체 인식 모델은, 베이스 모델을 제2 학습 데이터 그룹으로 파인 튜닝(fine tuning)하여 획득되고-상기 베이스 모델은 트랜스포머(transformer) 기반의 인공지능 모델을 제1 학습 데이터 그룹으로 사전 학습하여 획득됨-, 상기 행동 인식 모델은, 상기 베이스 모델을 제3 학습 데이터 그룹으로 파인 튜닝하여 획득되되, 상기 제1 학습 데이터 그룹은 병원이 아닌 곳에서 획득된 이미지 데이터를 포함하고, 상기 제2 학습 데이터 그룹은 병원에서 발생되는 낙상 동작 및 비 낙상 동작에 관한 이미지 데이터를 포함하며, 상기 제3 학습 데이터 그룹은 병원에서 발생되는 낙상 동작 및 비 낙상 동작에 관한 이미지 데이터 및 상기 이미지 데이터에서의 객체의 위치 정보를 포함하는 낙상 탐지 방법이 제공된다.
상기 트랜스포머 기반의 인공지능 모델은 ViT(Vision Transformer)이다.
상기 행동 인식 모델은 패치 레이어(patch layer), 포지셔닝 레이어(positioning layer), 트랜스포머 인코더(transformer encoder), 및 MLP 헤드(Multilayer Perception Head)를 포함하고, 상기 객체 인식 모델로부터 획득된 상기 제1 위치 정보는 상기 트랜스포머 인코더에서 출력되는 특성 맵(feature map)에 반영된다.
상기 행동 인식 모델은, 상기 둘 이상의 이미지 프레임 각각을 복수의 패치(patch)로 분할되고, 상기 분할된 복수의 패치들을 이용하여 복수의 입력 패치들을 생성하고, 상기 분할된 패치들에 대해 포지션 임베딩(position embedding)을 수행하여 트랜스포머 인코더에 입력하도록 구성된다.
상기 객체 인식 모델은 이미지 프레임 내에서 환자의 위치를 나타내는 정보를 출력하도록 학습된다.
상기 행동 인식 모델은 적어도 낙상(fallen), 누움(lie), 낙상 중(falling) 및 눕는 중(lying) 각각에 대응하는 출력 노드를 가진다.
상기 객체 인식 모델은 이미지 프레임에 포함된 객체들의 OBB(Oriented bounding box) 데이터를 출력하도록 학습된다.
상기 제2 학습 데이터 그룹에 포함된 제2-1 학습 데이터 세트는 학습용 영상 데이터에서 선택된 제1 학습용 이미지 프레임 및 상기 제1 학습용 이미지 프레임에 포함된 객체들의 위치에 대응하는 정보를 이용하여 생성되고, 상기 제3 학습 데이터 그룹에 포함된 제3-1 학습 데이터 세트는 상기 제1 학습용 이미지 프레임, 상기 제1 학습용 이미지 프레임에 대한 상기 객체들의 위치에 관한 정보, 상기 제1 학습용 이미지 프레임에 대한 상기 객체들의 행동에 관한 정보를 이용하여 생성된다.
상기 제2 학습 데이터 그룹 및 상기 제3 학습 데이터 그룹은 어안렌즈(fisheye lens)를 통해 획득되는 영상 데이터를 포함하고, 상기 제1 학습 데이터 그룹은 병원에서 어안렌즈를 통해 획득된 영상 데이터를 포함하지 않는다.
상기 둘 이상의 이미지 프레임은 상기 제1 이미지 프레임, 상기 제1 이미지 프레임보다 이른 시점에 획득된 제2 이미지 프레임 및 상기 제1 이미지 프레임보다 늦은 시점에 획득된 제3 이미지 프레임을 포함한다.
상기 제1 행동 정보를 획득하는 단계는, 상기 제1 영상 데이터에 포함된 연속된 N개(N은 자연수)의 이미지 프레임들 중 미리 설정된 개수의 이미지 프레임을 선택하는 단계, 및 상기 선택된 이미지 프레임들, 상기 제1 위치 정보, 및 상기 행동인식 모델을 이용하여 상기 제1 행동 정보를 획득하는 단계를 포함한다.
상기 선택된 이미지 프레임들은 상기 N개의 이미지 프레임들 중 최초 이미지 프레임, 중간 이미지 프레임, 최종 이미지 프레임을 포함한다.
상기 선택된 이미지 프레임들, 상기 제1 위치 정보, 및 상기 행동인식 모델을 이용하여 상기 제1 행동 정보를 획득하는 단계는, 상기 선택된 이미지 프레임들을 가공하여 입력 데이터를 생성하는 단계를 포함하고, 상기 제1 행동 정보는 상기 가공된 입력 데이터와 상기 제1 위치 정보를 상기 행동인식 모델에 입력하여 획득된다.
상기 제1 위치 정보는 상기 제1 이미지 프레임에 포함된 제1 객체의 위치에 대한 제1-1 위치 정보 및 상기 제1 이미지 프레임에 포함된 제2 객체의 위치에 대한 제1-2 위치 정보를 포함한다.
상기 제1 영상 데이터 중 적어도 제2 이미지 프레임 및 상기 객체 인식 모델을 이용하여 상기 제2 이미지 프레임에 대응하는 제2 위치 정보를 획득하는 단계-상기 제2 위치 정보는 상기 제2 이미지 프레임에 포함된 상기 제1 객체의 위치에 대한 제2-1 정보를 포함함-;를 더 포함하고, 상기 제1 행동 정보는 상기 제1 이미지 프레임, 상기 제2 이미지 프레임, 상기 제1-1 위치 정보, 상기 제2-1 위치 정보 및 행동 인식 모델을 이용하여 획득된다.
다른 일 실시예에 따르면,행동 인식 방법에 있어서, 제1 영상 데이터를 획득하는 단계 -상기 제1 영상 데이터는 임의의 시간 구간 동안의 복수의 이미지를 포함함-; 상기 제1 영상 데이터에 포함된 N개(N은 자연수)의 이미지 프레임들 중 제1 대표 이미지 프레임을 선택하는 단계; 상기 제1 대표 이미지 프레임을 객체 인식 모델에 입력하여 상기 제1 대표 이미지 프레임에 대응하는 제1 대표 위치 정보를 획득하는 단계 -상기 제1 대표 위치 정보는 적어도 상기 제1 대표 이미지 프레임에 포함된 제1 객체의 위치에 대한 제1 위치 정보를 포함함-; 상기 제1 영상 데이터에 포함된 상기 N개의 이미지 프레임들 중 미리 설정된 개수의 이미지 프레임을 선택하는 단계; 및 상기 선택된 이미지 프레임들, 상기 제1 대표 위치 정보, 및 행동 인식 모델을 이용하여 제1 행동 정보를 획득하는 단계 -상기 제1 행동 정보는 적어도 상기 제1 객체의 행동에 대한 정보를 포함함-;를 포함하되, 상기 선택된 이미지 프레임들에는 상기 제1 대표 이미지 프레임, 상기 제1 대표 이미지 프레임보다 이른 시점의 제1 이미지 프레임 및 상기 제1 대표 이미지보다 늦은 시점의 제2 이미지 프레임이 포함되고, 상기 제1 대표 위치 정보를 획득할 때, 상기 객체 인식 모델에 상기 제1 이미지 프레임 및 상기 제2 이미지 프레임은 입력되지 않는 행동 인식 방법이 제공된다.
상기 선택된 이미지 프레임들, 상기 제1 대표 위치 정보, 및 상기 행동 인식 모델을 이용하여 상기 제1 행동 정보를 획득하는 단계는, 상기 선택된 이미지 프레임들을 이용하여 생성된 특성 맵(feature map)에 상기 제1 대표 위치 정보를 반영하는 단계를 포함한다.
상기 제1 대표 위치 정보는 상기 제1 대표 이미지 프레임에 포함된 적어도 하나의 객체의 OBB(Oriented bounding box) 데이터이다.
상기 제1 대표 이미지 프레임과 상기 제1 이미지 프레임 사이의 프레임 간격은 상기 제1 대표 이미지 프레임과 상기 제2 이미지 프레임 사이의 프레임 간격과 동일하다.
상기 제1 대표 이미지 프레임은 상기 N개의 이미지 프레임들의 중간 프레임이고, 상기 제1 이미지 프레임은 상기 N개의 이미지 프레임들의 최초 프레임이고, 상기 제2 이미지 프레임은 상기 N개의 이미지 프레임들의 최종 프레임이다.
상기 제1 이미지 프레임에서의 상기 제1 객체의 위치는 상기 제1 대표 이미지 프레임에서의 상기 제1 객체의 위치와 상이하고, 상기 제2 이미지 프레임에서의 상기 제1 객체의 위치는 상기 제1 대표 이미지 프레임에서의 상기 제1 객체의 위치와 상이하다.
상기 제1 영상 데이터에 포함된 다른 N개의 이미지 프레임들 중 제2 대표 이미지 프레임을 선택하는 단계; 상기 제2 대표 이미지 프레임을 객체 인식 모델에 입력하여 상기 제2 대표 이미지 프레임에 대응하는 제2 대표 위치 정보를 획득하는 단계; 상기 제1 영상 데이터에 포함된 상기 다른 N개의 이미지 프레임들 중 미리 설정된 개수의 이미지 프레임을 선택하는 단계; 및 상기 다른 N개의 이미지 프레임들 중 선택된 이미지 프레임들, 상기 제2 대표 위치 정보, 및 상기 행동 인식 모델을 이용하여 제2 행동 정보를 획득하는 단계;를 포함하되, 상기 N개의 이미지 프레임들과 상기 다른 N개의 이미지 프레임들은 중첩되는 이미지 프레임을 가진다.
상기 행동인식 모델은 적어도 낙상(fallen), 누움(lie), 낙상 중(falling) 및 눕는 중(lying) 각각에 대응하는 출력 노드를 가진다.
상기 행동 인식 모델은 적어도, 등이 땅에 닿은 객체를 포함하는 이미지 프레임들을 낙상으로 태깅하여 생성된 제1 학습 데이터 세트, 등이 땅에 닿지 않고 다른 신체 부위 중 머리가 땅에 닿은 객체를 포함하는 이미지 프레임들을 낙상으로 태깅하여 생성된 제2 학습 데이터 세트, 침상에 누워있는 객체를 포함하는 이미지 프레임들을 누움으로 태깅하여 생성된 제3 학습 데이터 세트, 및 간이침대에 누워있는 객체를 포함하는 이미지 프레임들을 누움으로 태깅하여 생성된 제4 학습 데이터 세트를 이용하여 학습된다.
상기 행동인식 모델은 학습 데이터 세트들을 이용하여 학습되며, 상기 학습 데이터 세트들은, 낙상으로 판단되는 학습용 영상 데이터를 낙상으로 태깅하여 생성된 학습 데이터 세트, 및 상기 학습용 영상 데이터에 대응되는 시점 전 일정 시간 이내에 있는 영상 데이터를 낙상 중으로 태깅하여 생성된 학습 데이터 세트를 포함한다.
상기 객체 인식 모델은 임의의 이미지 프레임을 입력 받아 상기 이미지 프레임 내에서 환자의 위치를 나타내는 정보를 출력하도록 학습된다.
상기 행동 인식 모델을 이용하여 획득한 하나 이상의 행동 정보 및 낙상 조건을 이용하여 낙상 여부를 판단하는 단계;를 더 포함하고, 상기 낙상 조건은, 낙상에 대응되는 행동 정보가 검출되고, 상기 낙상에 대응되는 행동 정보가 검출되기 전에 낙상 중에 대응되는 행동 정보가 검출되는 제1 조건, 및 낙상 중에 대응되는 행동 정보가 검출되고, 상기 낙상 중에 대응되는 행동 정보가 검출된 이후에 미리 설정된 시간동안 낙상에 대응되는 행동 정보가 미리 설정된 횟수 이상 검출되는 제2 조건을 포함한다.
또 다른 일 실시예에 따르면, 딥러닝 모델 기반의 행동 인식 모델을 학습시키는 모델 학습 방법에 있어서, 사람이 걸어가다가 넘어져서 등이 바닥에 닿는 학습용 영상 데이터를 낙상으로 태깅하여 생성된 제1 일반 낙상 데이터 세트, 및 사람이 병상에 누워있다가 떨어져서 등이 바닥에 닿는 학습용 영상 데이터를 낙상으로 태깅하여 생성된 제2 일반 낙상 데이터 세트를 이용해서 행동 인식 모델을 학습시키는 단계;를 포함하고, 상기 행동인식 모델은, 사람이 병상에 누워있다가 떨어지면서 등이 바닥에 닿지 않고 신체의 일부가 바닥에 닿은 학습용 영상 데이터를 낙상으로 태깅하여 생성된 제1 특이 낙상 데이터 세트, 및 사람이 휠체어를 이탈하다가 넘어지면서 등이 바닥에 닿지 않고 신체의 일부가 병상에 걸친 학습용 영상 데이터를 낙상으로 태깅하여 생성된 제2 특이 낙상 데이터 세트를 더 이용하여 학습되는 모델 학습 방법이 제공된다.
상기 행동 인식 모델은 사람이 병상에서 누워있다가 떨어져서 등이 바닥에 닿지 않고 신체의 일부가 간이 침대에 닿은 학습용 영상 데이터를 낙상으로 태깅하여 생성된 제3 특이 낙상 데이터 세트를 더 이용하여 학습된다.
상기 행동 인식 모델은 간이 침대에 사람이 누워있는 학습용 영상 데이터를 낙상이 아닌 행동으로 태깅하여 생성된 제1 유사 낙상 데이터 세트를 더 이용하여 학습된다.
상기 제1 특이 낙상 데이터 세트는 사람이 병상에서 누워있다가 떨어지면서 등이 바닥에 닿지 않고 머리만 바닥에 닿은 학습용 영상 데이터를 낙상으로 태깅하여 생성된다.
상기 제1 특이 낙상 데이터 세트는 사람이 병상에서 누워있다가 떨어지면서 등이 바닥에 닿지 않고 팔만 바닥에 닿은 학습용 영상 데이터를 낙상으로 태깅하여 생성된다.
상기 제2 특이 낙상 데이터 세트는 사람이 휠체어에 타 있다가 병상으로 이동하는 과정에서 넘어지면서 등이 바닥에 닿지 않고 상체만 병상에 걸친 학습용 영상 데이터를 낙상으로 태깅하여 생성된다.
상기 행동 인식 모델은, 낙상이 발생한 후 사람이 일어나는 과정에서 신체의 일부를 병실 내 시설에 부딪히는 학습용 영상 데이터를 이용하여 생성되는 추가 사고 데이터 세트를 더 이용하여 학습된다.
상기 행동 인식 모델은, 침상에 있는 환자가 다른 침상에 있는 환자에게 손을 뻗는 학습용 영상 데이터를 스트레칭(stretching)으로 태깅하여 생성된 낙상 전조 영상 데이터 세트를 더 이용하여 학습된다.
상기 행동 인식 모델을 학습시키기 위한 학습용 영상 데이터는 어안렌즈를 이용하여 획득된다.
상기 행동 인식 모델을 학습시키기 위한 학습용 영상 데이터는 병실을 촬영하여 획득되는 제1 영상 데이터 및 제2 영상 데이터를 포함하되, 상기 제1 영상 데이터에서 상기 병실 내 침상이 상기 병실의 입구를 기준으로 가로로 배치되고, 상기 제2 영상 데이터에서 상기 병실 내 침상이 상기 병실의 입구를 기준으로 세로로 배치된다.
상기 행동 인식 모델을 학습시키기 위한 학습용 영상 데이터는 제1 높이의 층고를 가지는 제1 병실을 촬영하여 획득되는 제3 영상 데이터 및 제2 높이의 층고를 가지는 제2 병실을 촬영하여 획득되는 제4 영상 데이터를 포함하되, 제3 영상 데이터에서의 침상의 크기는 제4 영상 데이터에서의 침상의 크기와 다르다.
상기 행동 인식 모델을 학습시키기 위한 학습용 영상 데이터는 어안렌즈를 이용하는 카메라를 이용하여 병실을 촬영한 제5 영상 데이터를 포함하되, 상기 제5 영상 데이터에서 상기 카메라의 시야(FoV: Field of View)에 대응하는 경계선에 의해 병실 내 배치된 침상의 일부가 잘려진다.
본 개시의 상술한 목적, 특징들 및 장점은 첨부된 도면과 관련된 다음의 상세한 설명을 통해 보다 분명해질 것이다. 다만, 본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시예들을 가질 수 있는 바, 이하에서는 특정 실시예들을 도면에 예시하고 이를 상세히 설명하고자 한다.
본 개시의 전체에 걸쳐서 동일한 참조번호들은 원칙적으로 동일한 구성요소들을 나타낸다. 또한, 각 실시예의 도면에 나타나는 동일한 사상의 범위 내의 기능이 동일한 구성요소는 동일한 참조부호를 사용하여 설명하며, 이에 대한 중복되는 설명은 생략하기로 한다.
본 개시의 설명 과정에서 이용되는 숫자(예를 들어, 제1, 제2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.
또한, 이하의 실시예에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.
이하의 실시예에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다.
어떤 실시예가 달리 구현 가능한 경우에 특정한 단계들은 설명되는 순서와 다르게 수행될 수도 있다. 예를 들어, 연속하여 설명되는 두 단계는 실질적으로 동시에 수행될 수도 있고, 설명되는 순서와 반대의 순서로 진행될 수 있다.
또한, 본 개시에서 서술되는 원리, 관점 및 실시예들 뿐만 아니라 특정 실시예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한 이러한 균등물들은 현재 공지된 균등물 뿐만 아니라 장래에 개발될 균등물을 포함하는 것으로 이해되어야 한다.
따라서, 예를 들어, 본 개시에서 설명되는 블록도는 본 발명의 원리를 구체화하는 예시적인 회로의 개념적인 관점을 나타내는 것으로 이해되어야 한다. 이와 유사하게, 모든 흐름도, 상태 변환도, 의사 코드 등은 컴퓨터가 판독 가능한 매체에 실질적으로 나타낼 수 있고 컴퓨터 또는 프로세서가 명백히 도시되었는지 여부를 불문하고 컴퓨터 또는 프로세서에 의해 수행되는 다양한 프로세스를 나타내는 것으로 이해되어야 한다.
프로세서 또는 이와 유사한 개념으로 표시된 기능 블록을 포함하는 도면에 도시된 다양한 소자의 기능은 전용 하드웨어 뿐만 아니라 적절한 소프트웨어와 관련하여 소프트웨어를 실행할 능력을 가진 하드웨어의 사용으로 제공될 수 있다. 프로세서에 의해 제공될 때, 상기 기능은 단일 전용 프로세서, 단일 공유 프로세서 또는 복수의 개별적 프로세서에 의해 제공될 수 있고, 이들 중 일부는 공유될 수 있다.
또한 프로세서, 제어 또는 이와 유사한 개념으로 제시되는 용어의 명확한 사용은 소프트웨어를 실행할 능력을 가진 하드웨어를 배타적으로 인용하여 해석되어서는 아니되고, 제한 없이 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 롬(ROM), 램(RAM) 및 비 휘발성 메모리를 암시적으로 포함하는 것으로 이해되어야 한다. 주지관용의 다른 하드웨어도 포함될 수 있다.
본 개시의 청구범위에서, 상세한 설명에 기재된 기능을 수행하기 위한 수단으로 표현된 구성요소는 예를 들어 상기 기능을 수행하는 회로 소자의 조합 또는 펌웨어/마이크로 코드 등을 포함하는 모든 형식의 소프트웨어를 포함하는 기능을 수행하는 모든 방법을 포함하는 것으로 의도되었으며, 상기 기능을 수행하도록 상기 소프트웨어를 실행하기 위한 적절한 회로와 결합된다. 이러한 청구범위에 의해 정의되는 본 발명은 다양하게 열거된 수단에 의해 제공되는 기능들이 결합되고 청구항이 요구하는 방식과 결합되기 때문에 상기 기능을 제공할 수 있는 어떠한 수단도 본 명세서로부터 파악되는 것과 균등한 것으로 이해되어야 한다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다.
1. 이상행동 탐지 시스템
본 개시는 이상행동 탐지 시스템에 관한 것이다. 보다 구체적으로, 대상을 촬영하여 획득된 영상 데이터를 분석하여 대상의 이상행동(abnormal action) 발생 여부를 판단하는 시스템에 관한 것이다.
이상행동이란, 일상생활에서 행동이나 반응의 방식이 일반적인 기준에서 일탈한 행동을 의미한다. 이상행동은 크게 무-맥락형 이상행동(non-contextual abnormal action) 및 맥락형 이상행동(contextual abnormal action)으로 구분된다. 무-맥락형 이상행동은 낙상, 욕창, 발작, 실신, 기절, 또는 경련과 같이 문맥과 관계없이 '이상'으로 판단이 가능한 행동을 의미한다. 맥락형 이상행동은 문맥에 따라 '이상'으로 판단되는 행동으로, 동일한 행동이라 하더라도 전후 상황에 따라 '이상'으로 판단될 수도 '이상'으로 판단되지 않을 수도 있는 행동을 의미한다.
이하에서는, 설명의 편의를 위해 이상행동 탐지 시스템으로 탐지하고자 하는 이상행동이 낙상인 경우에 대해 주로 서술하나, 본 개시의 기술적 사상이 이에 한정되는 것은 아니며, 낙상 외에 욕창이나 발작과 같은 무-맥락형 이상행동, 나아가 맥락형 이상행동음 탐지함에 있어서도 이상행동 탐지 시스템이 적용될 수 있음을 미리 밝혀둔다.
2. 이상행동 탐지 시스템 구성
이하에서는, 도 1을 참고하여 이상행동 탐지 시스템(100)에 대해 서술한다.
도 1은 일 실시예에 따른 이상행동 탐지 시스템(100)의 구성을 나타내는 도면이다.
도 1을 참고하면, 이상행동 탐지 시스템(100)은 영상 수집부(1000), 분석 서버(2000), 및 모니터링 시스템(3000)을 포함할 수 있다.
영상 수집부(1000)는 영상 데이터를 수집할 수 있다. 영상 데이터는 특정 장소를 촬영하여 획득되는 데이터로 이해될 수 있다. 예를 들어, 영상 데이터는 병원, 요양원, 주택 등의 건물 내 병실이나 침실 등의 공간을 촬영하여 획득되는 데이터일 수 있다. 영상 데이터에는 이상행동 여부를 탐지의 대상이 되는 객체가 포함될 수 있으며, 객체의 수는 한정되지 않는다.
영상 수집부(1000)는 수집된 영상 데이터를 분석 서버(2000)에 제공할 수 있다. 영상 수집부(1000)는 복수 개일 수 있으며, 각각의 영상 수집부(1000)에서 수집된 영상이 분석 서버(2000)에 제공될 수 있다.
분석 서버(2000)는 영상 데이터를 분석하여 이상행동을 탐지할 수 있다. 구체적으로, 분석 서버(2000)는 영상 데이터에 포함된 객체를 인식하고, 인식된 객체의 행동을 탐지하며, 판단된 행동을 통해 객체의 이상행동 발생 여부를 판단할 수 있다.
분석 서버(2000)는 영상 데이터 내 객체의 이상행동을 탐지하여 이상행동 탐지 정보를 생성할 수 있다.
분석 서버(2000)는 획득된 이상행동 탐지 정보를 모니터링 시스템(3000)에 제공할 수 있다.
분석 서버(2000)는 데이터를 연산 또는 처리하거나 프로그램을 로딩하여 실행하는 제어부를 포함할 수 있다. 제어부는 예시적으로 중앙 처리 장치(Central Processing Unit, CPU), 그래픽 처리 장치(Graphics Processing Unit, GPU), 디지털 신호 처리 장치(Digital Signal Processor, DSP), 상태 기계(state machine), 주문형 반도체(Application Specific Integrated Circuit, ASIC), 무선 주파수 집적 회로(Radio-Frequency Integrated Circuit, RFIC) 또는 이들의 조합일 수 있으나, 이에 한정되는 것은 아니다. 소프트웨어적으로 서버 제어부(130)는 하드웨어적인 서버 제어부(130)를 구동시키는 프로그램 형태로 제공될 수 있다.
분석 서버(2000)는 사용자 입력을 수신하는 입력부를 포함할 수 있다. 입력부는 일반적으로 사용되는 사용자 입력 장치로 구현될 수 있다. 사용자 입력 장치는 예시적으로 사용자의 터치를 감지하는 터치 센서, 음성 신호를 입력 받는 마이크, 키보드, 마우스 또는 이들의 조합일 수 있으나, 이에 한정되는 것은 아니다.
분석 서버(2000)는 정보를 출력하는 출력부를 포함할 수 있다. 출력부는 영상을 출력하는 디스플레이, 소리를 출력하는 스피커, 진동을 발생시키는 햅틱(haptic) 장치 및/또는 그 외 다양한 형태의 출력 수단으로 구현될 수 있다.
분석 서버(2000)는 분석에 필요한 각종 데이터, 프로그램 또는 어플리케이션을 저장하는 메모리를 포함할 수 있다. 메모리에 저장되는 프로그램 또는 어플리케이션은 하나 이상의 인스트럭션(instruction)을 포함할 수 있다. 메모리에는 후술하는 객체 인식 모델, 행동 인식 모델, 및 이상행동 판단 모델 등이 저장될 수 있다.
분석 서버(2000)는 데이터 송수신을 위한 통신부를 포함할 수 있다. 통신부는 예시적으로 유/무선 LAN(Local Area Network) 모듈, WAN 모듈, 이더넷 모듈, 블루투스(Bluetooth) 모듈, 지그비(Zigbee) 모듈, USB(Universal Serial Bus) 모듈, IEEE 1394 모듈, 와이파이(Wifi) 모듈, 이동 통신 모듈, 위성 통신 모듈 또는 이들의 조합일 수 있으나, 이에 한정되는 것은 아니다.
분석 서버(2000)는 컴퓨터 장치로 구현되는 고정형 단말이거나 이동형 단말일 수 있다. 일 예로, 분석 서버(2000)는 스마트폰(smart phone), 휴대폰, 태블릿 PC, 컴퓨터, 노트북 및 PDA(Personal Digital Assistants) 중 하나 이상을 포함할 수 있다.
모니터링 시스템(3000)은 이상행동 탐지에 관한 사용자 인터페이스를 제공할 수 있다. 모니터링 시스템(3000)은 이상행동을 탐지하고자 하는 대상을 관리하기 위한 시스템으로 이해될 수 있다. 예를 들어, 이상행동 탐지 시스템(100)이 병원에서 사용되는 경우, 모니터링 시스템(3000)은 환자들을 관리하기 위한 시스템으로, 환자들에 대한 정보를 출력하고 환자들을 관리하기 위한 사용자 인터페이스를 출력할 수 있다.
모니터링 시스템(3000)은 객체의 이상행동 탐지에 따른 알림을 출력할 수 있다. 구체적으로, 모니터링 시스템(3000)은 이상행동 탐지 정보에 기초한 알림을 출력할 수 있다.
모니터링 시스템(3000)은 객체의 이상행동 발생 시, 이상행동 발생 과정을 나타내는 영상을 출력할 수 있다.
모니터링 시스템(3000)은 컴퓨터 장치로 구현되는 고정형 단말이거나 이동형 단말일 수 있다. 일 예로, 모니터링 시스템(3000)은 스마트폰(smart phone), 휴대폰, 태블릿 PC, 컴퓨터, 노트북 및 PDA(Personal Digital Assistants) 중 하나 이상을 포함할 수 있다.
영상 수집부(1000), 분석 서버(2000), 및 모니터링 시스템(3000)은 중 임의의 두 구성은 네트워크를 통해 데이터 송수신이 가능하도록 직간접적으로 연결될 수 있다.
여기서, 네트워크는 통신 방식이 제한되지 않으며, 네트워크가 포함할 수 있는 통신망(예: 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식 뿐만 아니라 근거리 무선 통신 역시 포함될 수 있다.
일 예로, 네트워크는 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 부가가치 통신망(VAN: Value Added Network), 개인 근거리 무선통신(PAN: Personal Area Network), 이동 통신망(mobile radiocommunication network) 또는 위성 통신망 등과 같은 모든 종류의 유/무선 네트워크로 구현될 수 있다.
3. 시스템 동작
이하에서는, 도 2를 참고하여 이상행동 탐지 과정에 대해 서술한다.
도 2는 일 실시예에 따른 이상행동 탐지 과정을 나타내는 도면이다.
도 2를 참고하면, 이상행동 탐지 과정은 분석 서버(2000)에 포함된 객체 인식 모델(2100), 행동 인식 모델(2200), 및 이상행동 판단 모델(2300)에 의해 수행될 수 있다.
객체 인식 모델(2100), 행동 인식 모델(2200), 및 이상행동 판단 모델(2300)은 분석 서버(2000)에 저장된 프로그램으로 이해될 수 있다.
이상행동 탐지 과정은 객체를 인식하는 과정, 객체에 대응하는 행동을 인식하는 과정, 인식된 행동에 기초하여 이상행동인지 여부를 판단하는 과정으로 구분될 수 있다.
먼저, 객체 인식 모델(2100)은 영상 데이터를 입력 받고, 영상 데이터 내 객체를 인식할 수 있다. 구체적으로, 객체 인식 모델(2100)은 영상 데이터 중 대표 이미지 프레임을 입력 받고, 대표 이미지 프레임에 포함된 객체에 대응되는 대표 위치 정보를 산출할 수 있다.
영상 데이터는 일정 시간 동안 특정 장소나 사람을 촬영하여 획득된 데이터를 의미하며, 복수의 이미지 프레임으로 구성될 수 있다. 예를 들어, 영상 데이터는 1초 동안 촬영된 30개의 이미지 프레임으로 구성될 수 있다.
대표 이미지 프레임은 영상 데이터에 포함된 이미지 프레임 중 임의로 선택된 이미지 프레임을 의미할 수 있다. 예를 들어, 대표 이미지 프레임은 영상 데이터에 포함된 이미지 프레임들을 시간에 따라 나열했을 때 시작 시점, 중간 시점, 또는 종료 시점에 대응하는 이미지 프레임일 수 있다.
대표 위치 정보는 좌표 형태로 산출될 수 있다. 대표 위치 정보는 대표 이미지에 대해 산출될 수 있으며, 객체가 복수인 경우 객체마다 산출될 수 있다. 객체 인식 모델(2100)에 의해 대표 위치 정보가 산출되는 과정은 후술하도록 한다.
객체 인식 모델(2100)은 인공 신경망(artificial neural network)으로 구현될 수 있다. 예를 들어, 객체 인식 모델(2100)은 하나의 이미지 프레임을 입력 받아 위치 정보를 출력하도록 학습된 딥러닝(deep learning) 모델일 수 있다. 이 때, 객체 인식 모델(2100)을 구현함에 있어서 CNN(Convolution Neural Network), R-CNN(Regions with CNN), YOLO(You Only Look Once), 또는 ViT(Vision Transformer) 등 객체를 검출하는 데에 활용될 수 있는 딥러닝 모델이 이용될 수 있다. 객체 인식 모델(2100)을 구현하는 방법에 대해서는 후술하도록 한다.
객체 인식 모델(2100)을 통해 획득된 대표 위치 정보는 행동 인식 모델(2200)에 제공될 수 있다.
행동 인식 모델(2200)을 이용하여 행동 정보가 산출될 수 있다. 구체적으로, 행동 인식 모델(2200)은 복수 이미지 프레임을 입력 받아 복수 이미지 프레임에 포함된 객체에 대응하는 복수의 행동들에 대한 확률 값들을 출력할 수 있고, 확률 값들에 기초하여 행동 정보가 획득될 수 있다. 또는, 행동 인식 모델(2200)은 복수 이미지 프레임을 입력 받아 적어도 하나의 행동 정보를 출력할 수도 있다.
행동 정보는 객체가 취하고 있는 행동 또는 자세에 대한 정보일 수 있다. 행동 정보는 미리 설정된 탐지 대상 행동들 중 적어도 하나를 지시하는 정보이다. 예를 들어, 행동 정보는 앉은 상태(sit), 일어선 상태(stand), 넘어지는 중(falling), 또는 넘어짐(fallen) 등을 지시하는 정보이다.
한편, 행동 정보가 지시하는 행동이나 자세가 전술한 것으로 한정되는 것은 아니며, 행동 정보는 이상행동이 발생할 때 나타날 수 있는 사람의 행위, 자세, 또는 전조 증상 등을 지시할 수 있다. 이상행동 판단을 위한 행동 정보의 종류에 대해서는 후술하도록 한다.
행동 인식 모델(2200)에 입력되는 이미지 프레임 개수는 미리 설정될 수 있다. 예를 들어, 행동 인식 모델(2200)에 3개의 이미지 프레임이 입력될 수 있으나, 이에 한정되는 것은 아니다.
행동 인식 모델(2200)에 입력되는 복수의 이미지 프레임은 영상 데이터에서 임의로 선택된 이미지 프레임일 수 있다. 이 때, 영상 데이터는 객체 인식 모델(2100)에 입력되는 대표 이미지 프레임이 포함된 영상 데이터일 수 있다. 다시 말해, 제1 영상 데이터 중 대표 이미지 프레임은 객체 인식 모델(2100)로 입력되고, 제1 영상 데이터 중 복수의 이미지 프레임이 행동 인식 모델(2200)로 입력될 수 있다. 이 때, 객체 인식 모델(2100)에 입력되는 대표 이미지 프레임이 행동 인식 모델(2200)에 입력되는 복수 이미지 프레임에 포함될 수도 있다.
행동 인식 모델(2200)은 인공 신경망으로 구현될 수 있다. 예를 들어, 행동 인식 모델(2200)은 복수의 이미지 프레임을 입력 받아 복수의 행동들에 대한 확률 값을 출력하도록 학습된 딥러닝 모델일 수 있다. 행동 인식 모델(2200)을 구현함에 있어서 CNN, R-CNN, YOLO, SlowFast Networks 또는 ViT 등의 영상 분석 모델이 이용될 수 있다. 행동 인식 모델(2200)을 구현하는 방법에 대해서는 후술하도록 한다.
행동 인식 모델(2200)을 이용하여 획득된 행동 정보는 이상행동 판단 모델(2300)에 제공될 수 있다.
한편, 도 2에 도시된 바와 같이 행동 인식 모델(2200)은 객체 인식 모델(2100)의 출력 값을 이용할 수 있다. 구체적으로, 행동 인식 모델(2200)에 의해 행동 인식이 수행되는 과정에서 대표 위치 정보가 이용될 수 있다.
대표 위치 정보는 관심 영역 조정(region of interest align)에 이용될 수 있다. 예를 들어, 행동 인식 모델(2200)에 입력되는 복수의 이미지 중 대표 위치 정보에 대응되는 위치의 데이터가 가공될 수 있다. 다른 예를 들어, 행동 인식 모델(2200)에서 복수의 이미지가 입력되어 출력된 특성 맵(feature map)에서 대표 위치 정보에 대응되는 위치의 데이터가 가공될 수 있다.
이러한 관심 영역 조정은 행동 인식 모델(2200)이 입력되는 이미지 중 대표 위치 정보, 즉 객체의 위치에 대해 보다 집중적으로 분석하는 효과를 가져오며, 그에 따라 행동 인식의 정확도가 향상될 수 있다.
이상행동 판단 모델(2300)은 획득된 행동 정보에 기초하여 이상행동 발생 여부를 판단할 수 있다. 구체적으로, 이상행동 판단 모델(2300)은 획득된 행동 정보를 기초로 이상행동 탐지 정보를 출력할 수 있다.
이상행동 판단 과정은 규칙 기반(rule-base)으로 진행될 수 있다. 예를 들어, 이상행동 판단 모델(2300)이 제1 시간 구간에 대한 제1 영상 데이터의 제1 객체에 대응하는 제1 행동 정보와 제1 시간 구간 이후의 제2 시간 구간에 대한 제2 영상 데이터의 제1 객체에 대응하는 제2 행동 정보를 수신할 때, 제1 행동 정보 및 제2 행동 정보가 제1 이상행동에 대한 제1 조건을 만족하는 경우 제1 이상행동이 발생한 것으로 판단할 수 있다.
또는, 이상행동 판단 모델(2300)은 딥러닝 모델로 구현되고, 이상행동 판단 모델(2300)은 적어도 하나의 행동 정보를 입력 받아 이상행동 발생에 관한 확률 값을 출력하도록 학습될 수 있다.
이상행동 판단 모델(2300)에서 이상행동이 판단되는 방법에 대해서는 후술하도록 한다.
이하에서는, 도 3 내지 도 9를 참고하여 이상행동 탐지의 일 예로 병원에서 낙상 사고를 탐지하는 방법에 대해 서술한다.
병원의 병실 내 낙상 사고는 관찰 대상과 환경에 특수성이 있고, 그에 따라 이상행동 탐지 시스템(100)을 구현하기 위한 알고리즘과 데이터의 준비가 필요하다. 예를 들어, 병실은 일반적으로 다인실에 해당하여 복수의 침상이 배치되어 있고, 병실 내 특정 밝기의 수면등이 구비되어 있는 등 영상 데이터 수집 환경이 특수하다. 또한, 병실 내에서 발생하는 낙상 사고 시나리오 역시 병실 내 배치된 시설이나 환자의 상태에 따라 다양할 수 있다.
따라서, 병실 내 낙상 사고에 대한 학습용 영상 데이터가 다량으로 확보되거나, 특이한 낙상 시나리오에 대한 영상 데이터가 확보되거나, 병실 내 낙상 사고 탐지에 특화된 분석 알고리즘이 구현될 필요가 있으며, 그렇지 않은 경우 낙상 탐지의 정확도가 향상되는 데에는 한계가 있다.
이하에서는 낙상 탐지의 정확도 향상을 위한 영상 분석 알고리즘 및 수집되어야 하는 학습 데이터에 대해서 구체적으로 서술한다.
도 3은 일 실시예에 따른 객체 인식 모델(2100)에서 객체 인식이 수행되는 과정을 나타내는 도면이다.
먼저, 영상 데이터를 수집하는 영상 수집부(1000)는 어안렌즈(fisheye lens) 카메라를 포함할 수 있다. 어안렌즈 카메라는 약 180°의 넓은 시야각을 가지므로, 병실 내부가 모두 촬영될 수 있는 장점이 있다. 나아가, 병실 내 커튼 등의 장애물에 의해 침상의 일부가 가려지는 경우라도 어안렌즈 카메라에 의해 침상의 환자가 포착될 수 있다.
어안렌즈 카메라는 병실의 천장에 배치될 수 있다. 병실 내 배치되는 어안렌즈 카메라의 개수는 병실의 크기(넓이와 천장의 높이)에 따라 결정될 수 있다.
어안렌즈 카메라에 의해 확보되는 침상 수는 복수 개일 수 있다. 바람직하게는 4개의 침상에 대해 하나의 어안렌즈 카메라가 배치될 수 있으나, 본 개시의 기술적 사상이 이에 한정되는 것은 아니다. 다른 예를 들어, 2개의 침상에 대해 하나의 어안렌즈 카메라가 배치될 수도 있다. 또 다른 예를 들어, 하나의 침상에 대해 하나의 어안렌즈 카메라가 배치될 수도 있으며, 이 때 어안렌즈 카메라는 침상의 난간 등 침상의 일부와 연결될 수 있다.
도 3을 참고하면, 영상 데이터에 포함된 이미지는 중심에서 멀어질수록 굴절되는 형태를 가질 수 있다. 여기서, 굴절되는 부분에서의 객체 인식 정확도는 굴절되지 않은 영역에 비해 상대적으로 낮아질 수 있다. 따라서, 촬영되는 영상 데이터에 과도하게 굴절되는 부분이 배제되도록 어안렌즈 카메라의 화각(angle of view)이 결정될 수 있다. 구체적으로, 어안렌즈 카메라의 화각이 360°인 경우 영상 데이터 내 과도하게 굴절되는 상대적으로 많아져 객체 인식 정확도가 낮아질 수 있으므로, 어안렌즈 카메라의 화각은 바람직하게는 180°이하로 설정될 수 있다.
객체 인식 모델(2100)은 영상 데이터의 적어도 일부 이미지 프레임을 입력으로 획득하여, 입력된 이미지 프레임에 포함된 객체의 위치 정보를 산출할 수 있다. 예를 들어, 도 3에 도시된 바와 같이, 객체 인식 모델은 영상 데이터 중 3명의 환자가 포함되어 있는 하나의 이미지 프레임을 입력 받고, 제1 환자에 대한 제1 위치, 제2 환자에 대한 제2 위치, 및 제3 환자에 대한 제3 위치를 포함하는 위치 정보를 출력할 수 있다.
여기서, 위치 정보는 OBB(Oriented Bounding Box) 형태로 표현될 수 있다. 예를 들어, 위치 정보는 x축 중심 좌표, y축 중심 좌표, 너비, 높이, 및 회전각을 포함할 수 있다. 한편, 위치 정보가 OBB 형태로 표현되는 것으로 한정되는 것은 아니며, 위치 정보는 경계 박스(Bounding Box) 형태로 표현될 수도 있으며, 위치 정보를 표현하는 데이터 역시 꼭지점과 같은 경계의 특정 지점의 좌표들 등으로 다양할 수 있다.
한편, 객체는 환자 뿐만 아니라 보호자, 의사, 또는 간호사 등 사람을 포함할 수 있다.
객체 인식 모델(2100)은 전술한 바와 같이 CNN, R-CNN, YOLO, 또는 ViT 등 객체를 검출하는 데에 활용될 수 있는 딥러닝 모델로 구현될 수 있다. 이 때, 객체 인식 모델(2100)을 학습시키기 위해 학습 데이터 세트가 이용될 수 있으며, 학습 데이터 세트는 학습용 영상 데이터 중 선택된 이미지 프레임 및 선택된 이미지 프레임에 포함된 객체(들)의 위치 정보를 포함할 수 있다.
한편, 객체 인식 모델(2100)은 복수의 이미지 프레임을 입력 받아 위치 정보를 출력할 수도 있다. 예를 들어, 객체 인식 모델(2100)은 영상 데이터 내 복수의 이미지 프레임을 하나씩 입력 받아 복수의 이미지 프레임 각각에 대한 위치 정보를 산출하고, 산출된 위치 정보들을 취합하여(ex. 평균 값을 산출 또는 대표 값 산출 등) 하나의 위치 정보를 출력할 수 있다. 또는, 객체 인식 모델(2100)은 영상 데이터 내 복수의 이미지 프레임을 하나씩 입력 받아 획득되는 복수의 이미지 프레임 각각에 대한 위치 정보를 모두 출력할 수도 있다. 다른 예를 들어, 객체 인식 모델(2100)은 영상 데이터 내 복수의 이미지 프레임을 한 번에 입력 받아 하나의 위치 정보를 산출할 수 있다.
이처럼 위치 정보는 다양한 형태로 산출될 수 있으며, 위치 정보의 형태에 따라 후술하는 행동 인식 모델(2200)에서의 정확도가 다르게 나타날 수 있다.
도 4는 일 실시예에 따른 행동 인식 모델(2200)에서 행동 인식이 수행되는 과정을 나타내는 도면이다.
도 4를 참고하면, 행동 인식 모델(2200)은 복수의 이미지 프레임을 입력 받아 탐지 대상 행동들에 대한 확률 값을 산출하되, 그 과정에서 대표 위치 정보가 이용될 수 있다.
행동 인식 모델(2200)에 입력되는 이미지 프레임 개수는 3개일 수 있으나, 이에 한정되지 않는다. 또한, 행동 인식 모델(2200)에 입력되는 이미지 프레임은 영상 데이터 중 처음(최초) 이미지 프레임, 중간 이미지 프레임, 및 마지막(최종) 이미지 프레임일 수 있으나, 이에 한정되는 것은 아니며, 영상 데이터 중 임의로 선택된 3개의 이미지 프레임이 이용될 수도 있다.
한편, 행동 인식 모델(2200)에 입력되는 이미지 프레임 개수가 3개로 한정되는 것은 아니다. 예를 들어, 행동 인식 모델(2200)에 입력되는 이미지 프레임 개수는 8개일 수 있으며, 영상 데이터 중 임의의 8개의 이미지 프레임이 이용될 수 있다.
전술한 바와 같이, 행동 인식 모델(2100)의 출력 노드에 해당하는 탐지 대상 행동들 각각은 객체가 수행하고 있는 행동 또는 자세를 지시할 수 있다.
탐지 대상 행동들은 사람의 자세나 상태에 관한 제1 그룹, 사물에 대한 사람의 행동에 관한 제2 그룹, 및 사람에 대한 사람의 행동에 관한 제3 그룹 등으로 구분될 수 있다.
사람의 자세나 상태에 관한 제1 그룹에 속하는 행동은 기본 행동과 주요 행동으로 구분될 수 있다. 예를 들어, 기본 행동은 서 있는 상태(stand), 앉은 상태(sit), 걸음(walk), 달림/조깅(run/jog), 허리 굽힘(bend/bow), 웅크림(crouch), 무릎 꿇음(kneel), 일어남(get up), 점프(jump/leap), 흔듦(sway)을 포함할 수 있다. 주요 행동은 누움(lie), 눕는 중(lying), 수면 상태(sleep), 낙상 중(falling), 낙상(fallen), 뒤척임(toss and turn), 및 다리 끌음(drag legs) 등을 포함할 수 있다. 주요 행동은 이상상태 판단을 위한 조건에 포함되는 행동들로 이해될 수 있다. 예를 들어, 낙상 판단 조건은 '낙상 중'을 지시하는 제1 행동 정보 및 '낙상'을 지시하는 제2 행동 정보가 순차적으로 수신되는 경우로 설정될 수 있다.
사물에 대한 사람의 행동에 관한 제2 그룹은 물건을 들고 있는 상태(carry/hold), 탈 것을 타는 상태(ride), 음식물 섭취(eat), 물체에 부딪힘(hit), 물체를 던짐(throw), 흡연(smoke), 창문이나 문을 염(open), 창문이나 문을 닫음(close), 및 들어감(enter) 등을 포함할 수 있다. 제2 그룹에 속하는 행동들은 낙상으로 판단되는 조건에 포함되거나 낙상 전후 상황을 파악하기 위한 행동들인 것으로 이해될 수 있다.
사람에 대한 사람의 행동에 관한 제3 그룹은 기본 행동과 주요 행동으로 구분될 수 있다. 기본 행동은 사람과 대화함(talk), 사람을 바라봄(look), 및 사람을 잡음(grab) 등을 포함할 수 있다. 주요 행동은 몸다툼(fight), 타격(hit), 물건 건냄(give/serve), 물건 받음(receive/take), 들어올림(lift), 및 밀침(push) 등을 포함할 수 있다. 제3 그룹에 속하는 행동들은 낙상 자체로 판단되는 행동들이거나 낙상 전조 증상에 해당하는 행동들이거나 낙상 전후 상황을 파악하기 위해 감지되는 행동들로 이해될 수 있다.
한편, 제1 그룹, 제2 그룹, 및 제3 그룹에 포함되는 행동들이 전술한 용도로 활용되는 것으로 한정되는 것은 아니며, 낙상 사고 발생 여부 판단, 선조치를 위한 낙상 전조 증상 파악, 또는 낙상 이후 2차 피해 유무 판단 등에 다양하게 활용될 수 있다.
제1 그룹, 제2 그룹, 및 제3 그룹에 포함되는 행동들은 행동 인식 모델(2200)에 의해 감지될 수 있다. 또는, 행동 인식 모델(2200)은 제1 그룹에 포함되는 행동들을 인식하는 제1 행동 인식 모델, 제2 그룹에 포함되는 행동들을 인식하는 제2 행동 인식 모델, 및 제3 그룹에 포함되는 행동들을 인식하는 제3 행동 인식 모델로 구분될 수도 있다.
전술한 바와 같이, 행동 인식 모델(2200)은 CNN, R-CNN, YOLO, SlowFast Networks 또는 ViT 등의 영상 분석 딥러닝 모델을 이용하여 구현될 수 있다. 일 예로, 행동 인식 모델(2200)은 복수의 행동에 대한 확률 값을 출력할 수 있다. 이 때, 행동 인식 모델(2200)을 학습시키기 위해 학습 데이터 세트가 이용될 수 있으며, 학습 데이터 세트는 학습용 영상 데이터 중 선택된 복수의 이미지 프레임 및 선택된 이미지 프레임들에 포함된 객체(들)의 행동 정보를 포함할 수 있다. 나아가, 학습 데이터 세트는 위치 정보를 포함하거나, 위치 정보가 반영된 이미지 프레임을 포함할 수 있다.
도 4를 참고하면, 행동 인식 모델(2200)은 영상 데이터에 포함된 객체들 각각에 대해 제1 행동 내지 제n 행동(n은 자연수)에 대한 확률 값을 출력할 수 있다. 여기서, 제1 행동 내지 제n 행동 각각은 전술한 제1 그룹 내지 제3 그룹에 속하는 행동들 중 어느 하나에 대응될 수 있다.
분석 서버(2000)는 행동 인식 모델(2200)에서 출력된 확률 값들을 이용하여 행동 정보를 산출할 수 있다. 예를 들어, 분석 서버(2000)는 하나의 객체에 대해 출력된 확률 값들 중 가장 높은 k개(k는 자연수)에 대응되는 행동들을 해당 객체의 행동 정보로 획득할 수 있다. 도 4를 참고하면, 제1 객체에 대해 행동 인식 모델(2200)이 출력한 행동 정보 중 확률 값이 가장 높은 3개의 행동에 해당하는 제2 행동, 제3 행동, 및 제4 행동이 제1 객체에 대한 행동 정보로 획득될 수 있다.
전술한 확률 값들을 이용한 행동 정보 산출 과정은 행동 인식 모델(2200)에 의해 수행될 수도 있다.
한편, 행동 인식 모델(2200)은 행동들에 대한 확률 값을 출력함에 있어서 대표 위치 정보를 이용할 수 있다. 구체적으로, 행동 인식 모델(2200)에 입력되는 이미지 프레임은 복수 개이나, 이용되는 위치 정보는 하나일 수 있다. 복수의 이미지 프레임 각각에 대한 위치 정보를 산출하는 것과 비교할 때, 하나의 위치 정보를 이용하는 경우 데이터 처리량이 감소하여 낙상 탐지 속도가 향상될 수 있다. 특히, 영상 데이터가 다수의 이미지 프레임으로 구성되는 경우 대표 위치 정보를 산출하는 방법은 데이터 처리 속도가 월등히 높아질 수 있다. 나아가, 전술한 감지 대상 행동들의 경우 영상 데이터 내에서 이미지 프레임별로 위치 변화가 크지 않기 때문에 이미지 프레임 별 위치 정보를 모두 이용하지 않고 하나의 대표 위치 정보를 이용하더라도 행동 인식의 정확도가 낮아지지 않는 것으로 이해될 수 있다.
이용되는 대표 위치 정보는 다양한 방법으로 산출될 수 있다.
도 5는 일 실시예에 따른 대표 위치 정보가 산출되는 과정을 나타내는 도면이다.
영상 데이터에 대한 위치 정보는 영상 데이터에 포함된 임의의 이미지 프레임을 이용하여 획득될 수 있다. 예를 들어, 도 5를 참고하면, 영상 데이터 중 중간 이미지 프레임에 대한 제2 위치 정보가 대표 위치 정보로 획득될 수 있다. 이 때, 처음 이미지 프레임에 대해 산출된 제1 위치 정보는 제2 위치 정보와 상이할 수 있다. 또한, 마지막 이미지 프레임에 대해 산출된 제3 위치 정보는 제2 위치 정보와 상이할 수 있다.
한편, 대표 위치 정보는 복수의 이미지 프레임의 위치 정보를 이용하여 산출될 수도 있다. 예를 들어, 영상 데이터 중 처음 이미지 프레임에 대한 제1 위치 정보, 중간 이미지 프레임에 대한 제2 위치 정보, 및 마지막 이미지 프레임에 대한 제3 위치 정보들의 평균 값이 대표 위치 정보로 획득될 수 있다.
또는, 대표 위치 정보는 영상 데이터 내 모든 프레임의 위치 정보를 이용하여 산출될 수도 있다. 예를 들어, 영상 데이터에 포함된 이미지 프레임들 각각의 위치 정보를 모두 산출하고, 산출된 위치 정보들의 평균 값이 대표 위치 정보로 획득될 수 있다.
다만, 바람직하게는, 대표 위치 정보는 영상 데이터에 포함된 하나의 이미지 프레임에 대한 위치 정보일 수 있다. 아래는, 대표 위치 정보를 산출하는 방법에 따른 행동 인식 모델(2200)의 정확도를 나타내는 표이다.
No. 이용된 이미지 프레임 수 Accuracy
1 30개(모든 이미지 프레임) 76.84%
2 3개 64.26%
3 1개 80.07%
위 표 1을 참고하면, 중간 이미지 프레임의 위치 정보를 대표 위치 정보로 이용한 경우 정확도가 80.07%로 가장 높았으며, 영상 데이터 내 모든 이미지 프레임에 대해 위치 정보를 산출하고 그 평균 값을 대표 위치 정보로 이용한 경우 정확도가 76.84%이며, 영상 데이터 중 처음 이미지 프레임, 중간 이미지 프레임, 및 마지막 이미지 프레임에 대해 위치 정보를 산출하고 그 평균 값을 대표 위치 정보로 이용한 경우 정확도가 64.26%이다. 위 표 1을 고려할 때, 대표 위치 정보는 영상 데이터에 포함된 하나의 이미지 프레임, 특히 중간 이미지 프레임에 대한 위치 정보를 이용하는 것이 바람직한 것을 알 수 있다.
전술한 바와 같이, 행동 인식 모델(2200)은 낙상과 관련된 영상 데이터 또는 영상 데이터에 포함된 적어도 하나의 이미지 프레임(이하, 영상 데이터)을 포함하는 학습 데이터 세트를 이용하여 딥러닝 모델을 학습시킴으로써 획득될 수 있다.
일 예로, 행동 인식 모델(2200)은 특정 행동들에 대해 확률 값을 출력할 수 있다. 여기서, 특정 행동들은 낙상을 탐지하는 데에 필요한 행동들로, 전술한 제1 그룹 내지 제3 그룹에 포함된 행동들일 수 있다.
여기서, 확률 값 출력 대상이 되는 특정 행동들 또는 출력 노드에는 낙상 중(falling) 및 낙상(fallen)이 포함될 수 있다.
낙상 과정은 사람이 낙상한 상태, 즉 사람이 넘어진 상태와 사람이 낙상 중인 상태, 즉 사람이 넘어지고 있는 상태로 구분될 수 있다. 이러한 구분은 낙상 여부가 보다 명확히 판단되는 데에 도움이 된다. 예를 들어, 낙상만 감지된 경우 보다는 낙상 중과 낙상이 함께 감지된 경우, 또는 낙상 중이 감지된 이후 낙상이 감지된 경우가 낙상이 발생했을 확률이 더 높을 것으로 예상될 수 있다. 따라서, 낙상과 낙상 중이 별도의 행동으로 구분될 필요가 있으며, 그에 따라 행동 인식 모델(2200)의 출력 노드에는 낙상과 낙상 중이 모두 포함될 수 있다. 다만, 학습 데이터 양이 충분한 경우 낙상 상태 및 낙상 중 상태 중 어느 하나만 행동 인식 모델(2200)의 출력 노드에 포함될 수도 있다.
전술한 바와 같이 행동 인식 모델(2200)의 출력 노드에 낙상 및 낙상 중이 포함되기 위해서는, 객체의 낙상 상태를 촬영한 낙상 영상 데이터에 낙상을 태깅(tagging)하고, 객체의 낙상 도중을 촬영한 낙상 중 영상 데이터에 낙상 중을 태깅하는 작업이 수행될 수 있다. 이 때, 낙상 중 영상 데이터로 낙상 영상 데이터의 적어도 일부 이미지 프레임 또는 낙상 영상 데이터의 시작 시점으로부터 미리 설정된 시간만큼 이전의 시점을 시작 시점으로 하는 영상 데이터가 이용될 수 있다. 다시 말해, 객체가 낙상하는 영상이 촬영된 경우 영상 중 사람이 넘어진 제1 시점(ex. 신체의 일부가 바닥에 닿은 시점)을 포함하는 제1 영상 데이터에 낙상이 태깅되어 제1 학습 데이터 세트가 생성되고, 제1 시점으로부터 0.1초, 0.2초, 0.3초, 0.5초, 또는 1초 이전의 제2 시점을 포함하는 제2 영상 데이터에 낙상 중이 태깅되어 제2 학습 데이터 세트가 생성될 수 있다.
나아가, 출력 노드에는 누움(lie), 및 눕는 중(lying)이 더 포함될 수 있다. 사람이 넘어지는 자세와 눕는 자세는 그 형태가 다소 비슷한 점이 있고, 사람이 넘어진 자세와 누운 자세 역시 그 형태가 다소 비슷한 점이 있다. 이 때문에, 낙상 중과 누움은 구분될 필요가 있으며, 낙상 중과 눕는 중 역시 구분될 필요가 있다.
이상에서는 행동 인식 모델(2200)의 출력단에 필요한 출력 노드들 또는 감지되어야 하는 특정 행동들에 대해 서술하였다.
한편, 사람의 낙상 유형 또는 낙상 시나리오는 매우 다양하며, 일반 낙상 시나리오 외에도 사람에 따라 또는 장소에 따라 특수한 형태의 특이 낙상 시나리오도 존재하며, 낙상과 유사하지만 낙상에 해당하지 않는 유사 낙상 시나리오도 존재한다.
다시 말해, 행동 인식 모델(2200)의 정확도를 높이기 위해서는, 일반 낙상 시나리오 뿐만 아니라 특이 낙상 시나리오 및/또는 유사 낙상 시나리오에 대한 영상 데이터를 포함하는 학습 데이터 세트가 학습에 이용될 필요가 있다.
낙상은 기본적으로 방향에 따라 전방 낙상, 좌측 낙상, 우측 낙상, 및 후방 낙상으로 구분될 수 있다. 다만, 동일한 방향의 낙상이라 하더라도 서 있는 상태에서의 낙상, 침대에서의 낙상, 또는 휠체어에서의 낙상은 그 낙상 과정이 다른 바 서로 구분되어야 하는 낙상 시나리오이다. 즉, 동일한 방향의 낙상이라 하더라도 서 있는 상태에서의 낙상 영상 데이터, 침대에서의 낙상 영상 데이터, 및 휠체어에서의 낙상 영상 데이터가 개별적으로 수집될 필요가 있다. 나아가, 수집된 영상 데이터를 이용하여 낙상이 태깅된 학습 데이터 세트 및/또는 낙상 중이 태깅된 학습 데이터 세트가 생성될 수 있다.
이하에서는, 도 6 및 도 7을 참고하여, 낙상 탐지의 정확도를 높이기 위해 수집되어야 하는 데이터에 대해 서술한다.
도 6은 일 실시예에 따른 일반 낙상 시나리오를 나타내는 도면이다.
도 6에는, 병원이나 요양원, 가정집에서 발생할 수 있는 일반 낙상 시나리오들이 도시되어 있다.
일 예로, 도 6의 (a)는 환자가 서 있는 상태에서 병실 바닥에 넘어지는 낙상 양상을 도시하고 있다. 환자는 병실 바닥에 전방, 측방, 또는 후방으로 넘어질 수 있다. 이 때, 환자가 넘어지면서 신체 중 다리, 등, 허리, 또는 손이 먼저 바닥에 닿을 수 있다. 이러한 낙상 시나리오는 일반 낙상 시나리오에 포함되며, 학습 데이터 세트를 생성하는 데에 이용되어야 한다.
다른 예로, 도 6의 (b), 및 도 6의 (c)는 환자가 침대에서 바닥으로 떨어지는 낙상 양상을 도시하고 있다. 이러한 낙상 시나리오는 침대에서 수면 중인 환자가 뒤척이다가 낙상하는 경우, 환자가 침대에서 이탈하다가 낙상하는 경우 등을 포함하며, 낙상 형태는 후방 낙상, 전방 낙상, 또는 측방 낙상 등 다양할 수 있다. 이 때에도, 환자가 낙상하면서 신체 중 다리, 등, 또는 허리가 바닥에 먼저 닿을 수 있다. 이러한 낙상 시나리오는 일반 낙상 시나리오로 이해될 수 있으며, 학습 데이터 세트를 생성하는 데에 이용될 필요가 있다.
또 다른 예로, 도 6의 (d)는 환자가 휠체어에서 이탈할 때 넘어지는 낙상 양상을 도시하고 있다. 이는, 환자가 휠체어에서 일어나는 경우나 환자가 휠체어에서 침대나 의자로 이동하는 경우에 해당하며, 대부분 전방 낙상에 해당한다. 이 때에도, 환자가 낙상하면서 신체 중 손이나 무릎이 바닥에 먼저 닿을 수 있다. 이러한 낙상 시나리오 역시 일반 낙상 시나리오에 포함되며, 학습 데이터 세트를 생성하는 데에 이용되어야 한다.
일반 낙상 시나리오는 신체가 균형을 잃은 시점부터 신체의 일부가 바닥에 닿은 시점 또는 그 이후 신체의 일부가 일으켜지는 시점까지로 이해될 수 있다. 영상 데이터 중 낙상이 시작되는 시점의 이미지 프레임부터 낙상이 종료되는 시점의 이미지 프레임까지가 모두 낙상으로 판단될 수 있다.
도 7은 일 실시예에 따른 특이 낙상 시나리오 및 유사 낙상 시나리오를 나타내는 도면이다.
특이 낙상 시나리오는 낙상 양상이 일반적이지 않고 특수한 경우로, 특이 낙상 시나리오에 관한 학습 데이터 세트는 행동 인식 모델(2200)가 낙상을 탐지하는 정확도를 향상시키는 데에 일조한다.
특이 낙상 시나리오의 일 예로, 도 7의 (a)는 낙상 과정에서 머리가 먼저 바닥에 닿는 경우를 도시하고 있다. 병원 내 낙상의 경우 고령의 환자가 낙상하는 경우가 빈번히 발생하며, 침대에서 넘어지는 경우 침대 난간에 신체의 일부가 걸리는 양상의 낙상도 빈번하다. 이 경우 일반적인 낙상과 달리 머리가 먼저 바닥에 닿을 수 있고 머리만 바닥에 닿은 상태가 유지될 수 있다. 이러한 낙상은 등이나 허리와 같은 다른 신체 부분이 바닥에 닿는 낙상에 관한 학습 데이터만으로 학습된 모델로는 탐지하기 어려운 점이 있다. 따라서, 행동 인식 모델(2200) 학습을 위한 학습 데이터 세트에는 머리가 먼저 바닥에 닿는 낙상을 촬영하여 획득된 영상 데이터에 낙상 또는 낙상 중을 태깅하여 생성된 학습 데이터 세트가 포함될 수 있다.
한편, 도 7의 (a)는 신체의 일부가 침대에 걸쳐진, 반걸침 낙상 양상으로도 이해될 수 있다. 반걸침 낙상 양상 역시 일반 낙상 시나리오가 아닌 특이 낙상 시나리오에 포함될 수 있다. 따라서, 신체의 일부가 침대 또는 휠체어 등에 걸쳐진 낙상 과정을 촬영하여 획득된 영상 데이터를 이용하여 학습 데이터 세트가 생성될 수 있다.
다른 예로, 도 7의 (b)는 낙상 과정에서 사람이 침대 난간이나 간이 침대에 부딪히는 경우를 도시한다. 병원의 경우 일부 병실에는 보호자를 위한 간이 침대가 배치되어 있으며 환자가 침대에서 이탈하면서 간이 침대에 충돌할 수 있다. 이러한 경우도 일반 낙상 시나리오가 아닌 특이 낙상 시나리오에 해당한다. 따라서, 간이 침대에 걸려서 넘어지는 낙상 과정을 촬영한 영상 데이터 또는 침대 난간에 걸려서 넘어지는 낙상 과정을 촬영한 영상 데이터를 이용하여 학습 데이터 세트가 생성될 필요가 있다.
또 다른 예로, 도 7의 (c)는 사람이 물건을 잡다가 넘어지는 경우를 도시한다. 거동이 불편한 환자는 침대 옆 탁자의 물건을 잡으려다 넘어질 수 있으며, 이 경우에도 일반 낙상 시나리오와는 상이한 낙상 양상이 나타날 수 있다. 따라서, 사람 또는 객체가 침대 밖에 놓인 물건을 잡으려다 낙상하는 과정을 촬영한 영상 데이터를 이용하여 생성된 학습 데이터 세트가 행동 인식 모델(2200)의 학습에 이용되어야 한다.
전술한 특이 낙상 시나리오에 대한 학습 데이터 세트는 행동 인식 모델(2200)이 낙상을 비(非) 낙상으로 인식하지 않고 낙상으로 인식하는 데에 큰 영향을 미칠 수 있다.
도 7의 (d)는 유사 낙상 시나리오를 나타낸다. 구체적으로, 도 7의 (d)는 간이 침대에 보호자 등이 누워있는 경우이며, 간이 침대가 바닥으로 인식되는 경우 낙상으로 인식될 가능성이 있다. 이러한 유사 낙상 시나리오 역시 학습 데이터 세트로 이용될 필요가 있다. 구체적으로, 간이 침대에 사람이 누워 있는 상태를 촬영한 영상 데이터에 누움(lie) 또는 눕는 중(lying)을 태깅한 학습 데이터 세트가 행동 인식 모델(2200)의 학습에 이용될 수 있다.
유사 낙상 시나리오에 대한 영상 데이터를 학습 데이터 세트로 이용하는 경우 행동 인식 모델(2200)의 인식 오류(ex. 비-낙상을 낙상으로 인식하는 오류)가 줄어들 수 있다.
한편, 전술한 일반 낙상 시나리오, 특이 낙상 시나리오, 및 유사 낙상 시나리오 외에도 학습 데이터 세트에 포함될 필요가 있는 영상 데이터가 있다. 낙상 전조 시나리오 및 추가 사고 시나리오가 그것이다.
낙상 전조 시나리오는 낙상이 발생될 가능성이 높은 환경을 의미한다. 예를 들어, 환자가 옆 침대의 환자에게 물건을 전달해주기 위해 팔을 뻗다가 낙상하는 경우, 환자가 팔을 뻗는 동작이 낙상 전조 시나리오로 이해될 수 있다. 학습 데이터 세트에는 환자가 팔을 뻗는 동작을 촬영한 영상 데이터에 물건 건냄, 물건 받음, 또는 스트레칭(stretching)을 태깅하여 학습 데이터 세트를 생성할 수 있다. 이처럼 낙상이 발생될 가능성이 높은 환경에 대한 영상 데이터를 학습 데이터로 활용하는 경우 낙상 탐지의 정확도가 향상될 수 있다.
추가 사고 시나리오는 낙상 과정에서 또는 낙상 후 발생하는 2차 사고에 관한 것이다. 예를 들어, 추가 낙상 시나리오는 사람이 낙상 후 일어나다가 선반 등의 물체에 부딪히는 경우를 포함할 수 있다. 환자가 낙상 후 일어나는 과정에서 2차 충돌이 발생한 경우를 촬영한 영상 데이터에 '추가 사고'를 태깅하여 학습 데이터 세트가 생성될 수 있다.
이하에서는, 행동 인식 모델(2200)의 인식 정확도를 향상시키기 위해 영상 데이터 또는 영상 데이터에 포함된 이미지 프레임(이하, 영상 데이터)을 가공하는 방법에 대해 서술한다. 여기서, 영상 데이터 가공은 행동 인식 모델(2200)을 학습시키기 위한 학습 데이터 세트를 생성함에 있어서 학습용 영상 데이터에 행동을 태깅하기 전에 학습용 영상 데이터를 가공하는 것을 의미한다.
먼저, 영상 데이터의 색상, 명도, 채도, 또는 대비 등이 조정될 수 있다. 병실 내 조명은 환자에게 스트레스를 최대한 주지 않는 조명 조건과 진료나 간호를 위한 조명 조건을 만족할 필요가 있다. 구체적으로, 병실 내 조명의 조도는 일정 범위 내의 값을 가지며, 조명의 위치나 수면등과 같은 개인 조명에 의해 병실 내 위치 별 밝기가 달라질 수 있다. 나아가, 낙상 사고는 모든 조명이 소등되어 병실이 상대적으로 어두운 상태에서도 발생할 수 있다.
이에 따라, 행동 인식 모델(2200)을 학습시키기 위한 학습 데이터 세트를 생성함에 있어서, 영상 데이터에 대해 조명 또는 밝기를 변경시킬 수 있다. 예를 들어, 낙상과 관련된 영상 데이터의 밝기를 병실 내 조명의 밝기 범위로 가공하여 획득된 제1 가공 영상 데이터에 낙상을 태깅하여 제1 학습 데이터 세트가 생성되고, 동일한 영상 데이터의 밝기를 병실 내 수면등의 밝기 범위로 가공하여 획득된 제2 가공 영상 데이터에 낙상을 태깅하여 제2 학습 데이터 세트가 생성될 수 있다.
영상 데이터는 영상 수집부(1000)가 설치된 장소에 따라 그 형태가 다를 수 있다. 예를 들어, 제1 병실과 제2 병실은 서로 다른 평수를 가지거나 서로 다른 천장 높이를 가질 수 있다. 다른 예를 들어, 규모가 동일한 제1 병실과 제2 병실이라 하더라도 침대 배치가 다른 경우 영상 수집부(1000)에 의해 획득된 영상 데이터 내 침대 배치 역시 달라질 수 있다.
상술한 바와 같이 이상행동을 탐지하고자 하는 장소 마다 또는 영상 데이터를 수집하고자 하는 장소마다 그 규모나 물체들의 배치가 다른 경우 특정 장소에 대한 영상 데이터만으로 학습된 객체 인식 모델(2100)이나 행동 인식 모델(2200)은 다른 장소에서 이용될 때에 그 정확도에 한계가 있다.
따라서, 장소나 환경에 따라 영상 데이터의 형태가 달라지는 것을 방지하기 위해, 영상 수집부(1000)의 설정을 제어하거나 수집되는 영상 데이터를 가공하여 양식이 통일될 수 있다. 예를 들어, 영상 수집부(1000)의 시야(FoV: Field of View)에 대해 침대의 모서리가 시야의 가장자리에 닿도록 영상 수집부(1000)의 줌(zoom) 설정이 제어될 수 있다. 다른 예를 들어, 영상 데이터 내 가장자리에 침대의 모서리가 위치하도록 영상 데이터의 일부가 편집될 수 있다.
전술한 영상 데이터 표준화는 필수적인 과정은 아니며, 후술하는 바와 같이 영상 데이터는 가공되지 않고 학습 데이터로 활용될 수 있다.
도 8은 일 실시예에 따른 영상 수집부(1000)의 배치 위치에 따라 획득되는 영상을 나타내는 도면이다.
도 9는 일 실시예에 따른 침상의 배치 방법에 따라 획득되는 영상을 나타내는 도면이다.
영상 수집부(1000)가 설치되는 장소에 따라 층고가 다를 수 있다.
도 8의 (a)를 참고하면, 제1 병실의 경우 제1 높이(H1)의 층고를 가지고, 도 8의 (b)를 참고하면, 제2 병실의 경우 제1 높이(H1) 보다 낮은 제2 높이(H2)의 층고를 가질 수 있다.
층고가 달라짐에 따라 획득되는 영상 데이터 내 침대나 사람의 크기가 달라질 수 있다. 예를 들어, 층고가 낮아지면 영상 데이터 내 침대나 사람의 크기가 커질 수 있다. 나아가, 층고가 상대적으로 매우 낮으면, 도 8의 (b)에 도시된 바와 같이 침대의 모서리 부분이 잘린 상태의 영상 데이터가 획득될 수 있다. 나아가, 사람의 일부가 잘린 상태의 영상 데이터가 획득될 수 있다.
또한, 층고가 달라짐에 따라 영상 데이터 또는 영상 데이터 내 이미지 프레임에서 카메라의 시야(FoV)에 의해 정의되는 경계선과 침상 사이의 이격 거리가 달라질 수 있다.
이처럼, 층고가 달라짐에 따라 영상 데이터 내 물체나 객체의 크기가 달라질 수 있고, 각각의 환경에서 획득된 영상 데이터를 이용하여 학습 데이터 세트가 생성될 수 있다. 예를 들어, 침대의 일부가 보이지 않는 상태에서 탐지 대상 행동이 촬영된 영상 데이터에 대해 해당 탐지 대상 행동을 태깅하여 학습 데이터 세트가 생성될 수 있다. 다른 예를 들어, 객체의 일부가 보이지 않는 상태에서 탐지 대상 행동이 촬영된 영상 데이터에 해당 탐지 대상 행동을 태깅하여 학습 데이터 세트가 생성될 수 있다.
한편, 층고가 높은 상태에서 촬영된 영상 데이터를 가공하여 층고가 상대적으로 낮은 상태에 대응하는 영상 데이터를 획득할 수도 있다. 예를 들어, 도 8의 (a)에 도시된 영상 데이터를 확대하여 도 8의 (b)에 도시된 영상 데이터와 유사하게 가공할 수 있다. 다시 말해, 직접 촬영하지 않더라도 기존의 데이터를 이용하여 층고가 상대적으로 낮은 상태의 영상 데이터가 획득될 수 있다.
병실마다 침상과 같은 가구 배치가 상이할 수 있다. 도 9의 (a)를 참고하면, 제1 병실에서 침대가 가로로 배치되어 있으며, 도 9의 (b)를 참고하면, 제2 병실에서 침대가 세로로 배치되어 있다.
가구나 물건 배치가 달라짐에 따라 영상 데이터 내 객체의 행동 방향이 달라질 수 있고, 각각의 환경에서 획득된 영상 데이터를 이용하여 학습 데이터 세트가 생성될 수 있다. 예를 들어, 도 9의 (a)에 도시된 바와 같이 침상이 가로로 배치된 상태에서 탐지 대상 행동이 촬영된 영상 데이터에 대해 해당 탐지 대상 행동을 태깅하여 학습 데이터 세트가 생성될 수 있다. 다른 예를 들어, 도 9의 (b)에 도시된 바와 같이 침상이 세로로 배치된 상태에서 탐지 대상 행동이 촬영된 영상 데이터에 대해 해당 탐지 대상 행동을 태깅하여 학습 데이터 세트가 생성될 수 있다.
한편, 하나의 병실에서 촬영된 영상 데이터를 가공하여 다른 병실에서 촬영된 영상 데이터와 유사한 영상 데이터가 획득될 수 있다. 예를 들어, 도 9의 (a)에 도시된 영상 데이터를 회전시켜 도 9의 (b)에 도시된 영상 데이터와 유사하게 가공할 수 있다. 다시 말해, 직접 촬영하지 않더라도 기존의 데이터를 이용하여 가구 배치가 서로 다른 환경에 대응되는 영상 데이터가 획득될 수 있다.
상술한 바와 같이 서로 다른 규모를 가지는 병실에서 탐지 대상 행동을 촬영한 영상 데이터를 이용하여 학습 데이터를 생성하는 경우 또는 서로 다른 가구 배치를 가지는 병실에서 탐지 대상 행동을 촬영한 영상 데이터를 이용하여 학습 데이터를 생성하는 경우, 행동 인식 모델(2200)은 촬영 환경 또는 장소에 상관없이 일관된 정확도를 가질 수 있게 된다.
영상 수집부(1000)는 사용되는 렌즈의 시야에 따라 촬영 범위가 달라질 수 있다. 행동 인식 모델(2200)을 학습시키기 위한 학습 데이터 세트는 서로 다른 촬영 범위를 가지는 영상 데이터를 이용하여 생성될 수 있다. 예를 들어, 제1 시야범위에서 탐지 대상 행동을 촬영한 제1 영상 데이터에 해당 탐지 대상 행동을 태깅하여 제1 학습 데이터 세트가 생성되고, 제2 시야범위에서 탐지 대상 행동을 촬영한 제2 영상 데이터에 해당 탐지 대상 행동을 태깅하여 제2 학습 데이터 세트가 생성될 수 있다.
상술한 바와 같이 서로 다른 시야범위 또는 촬영 범위를 가지는 영상 데이터를 이용하여 학습 데이터가 생성됨에 따라, 행동 인식 모델(2200)은 영상 수집부(1000)의 종류에 상관없이 일관된 정확도를 가질 수 있다.
한편, 모델의 성능을 향상시키기 위해 다양한 환경에서 학습을 위한 영상을 획득하는 것에 더하여 데이터 증강을 통해 학습 데이터의 절대적 양을 증가시키는 것도 가능하다. 이하에서는 도 10을 참고하여 데이터를 증강하는 방법에 대해 서술한다.
도 10은 일 실시예에 따른 데이터 증강을 위해 합성 영상을 생성하는 방법을 나타내는 도면이다.
도 10을 참고하면, 제1 촬영 영상 및 제2 촬영 영상을 이용하여 합성 영상을 생성할 수 있다.
제1 촬영 영상은 이상행동 탐지 시스템(100)을 이용하여 이상행동을 탐지하고자 하는 장소에서 영상을 촬영하여 획득된 데이터이다. 제1 촬영 영상은 전술한 행동 인식 모델(2200) 학습을 위한 학습 데이터를 생성하는 데에 이용될 수 있다. 제1 촬영 영상에 포함된 이미지 프레임에는 이상행동을 탐지하고자 하는 장소에 대한 배경 이미지와 이상행동 탐지 대상이 포함될 수 있다. 한편, 제1 촬영 영상은 임의의 장소에서 영상을 촬영하여 획득될 수도 있다. 다만, 제1 촬영 영상은 임의의 장소에서 일정 높이에 카메라가 배치되고, 카메라의 렌즈가 바닥을 향하는 상태에서 촬영된 영상을 의미할 수 있다.
제2 촬영 영상은 임의의 공간에서 객체(ex. 사람)를 촬영하여 획득된 데이터이다. 제2 촬영 영상이 수집되는 임의의 공간은 인위적으로 만들어진 흰색 배경을 가질 수 있다. 따라서, 제2 촬영 영상은 흰색 배경에 객체 표시되는 형태를 가질 수 있다. 다만, 제2 촬영 영상의 배경이 흰색으로 한정되는 것은 아니다. 제2 촬영 영상에서 객체는 전술한 탐지 대상 행동을 수행할 수 있다.
한편, 제2 촬영 영상 수집을 위한 카메라는 촬영되는 공간의 중심에서 일정 높이에 배치되고, 카메라 렌즈가 공간의 바닥을 향하는 상태로 배치될 수 있다. 이에 따라, 도 10에 도시된 바와 같이 제2 촬영 영상은 실질적으로 동일한 크기를 가지는 제1 영역(S1) 내지 제4 영역(S4)으로 구분될 수 있다. 객체 인식 모델(2100) 또는 행동 인식 모델(2200)의 객체 인식 정확도를 확인하는 과정에서, 인식 정확도가 상대적으로 낮은 객체가 수집된 영상 내에서 어디에 위치하는지 확인될 수 있고, 전술한 제1 영역(S1) 내지 제4 영역(S4) 중 객체의 위치에 대응되는 영역이 특정될 수 있다. 이후, 제1 영역(S1) 내지 제4 영역(S4) 중 특정된 영역에 객체를 위치시킨 상태에서 촬영하여 제2 촬영 영상이 수집되고, 이는 합성 영상을 생성하는 데에 이용될 수 있다. 이 경우, 합성 영상에서 객체는 객체 인식 정확도가 상대적으로 낮은 영역에 위치하게 되고, 합성 영상을 학습 데이터로 이용함으로써 객체 인식 모델(2100) 또는 행동 인식 모델(2200)의 객체 인식 정확도가 향상될 수 있다.
한편, 제1 촬영 영상이 촬영되는 공간은 제2 촬영 영상이 촬영되는 공간과 서로 연관 관계가 있을 수 있다. 예를 들어, 제1 촬영 영상이 제1 바닥 면적을 가지는 병실에서, 바닥으로부터 제1 높이에 위치한 어안렌즈 카메라를 이용하여 촬영된 경우, 제2 촬영 영상은 제1 바닥 면적 보다 작은 제2 바닥 면적을 가지는 공간에서, 바닥으로부터 제1 높이에 위치한 어안렌즈 카메라를 이용하여 촬영될 수 있다.
합성 영상은 다음의 과정을 통해 생성될 수 있다.
먼저, 제1 촬영 영상으로부터 배경 이미지가 획득될 수 있다. 구체적으로, 제1 촬영 영상에 포함된 적어도 하나의 이미지 프레임을 복수의 영역으로 분할하고, 복수의 영역에 대해 객체의 존재 여부를 지시하는 객체 존재 확률 값을 산출한다. 확률 값을 산출함에 있어서 Grounding DINO(Grounding Discriminator Interpolation)와 같은 모델이 이용될 수 있다. 객체 존재 확률 값이 일정 값 이상인 영역을 경계 상자로 규정하고, 경계 상자 내 객체를 분할한다. 객체 분할은 경계 상자 내 픽셀들을 객체 또는 배경으로 분류하고, 객체로 분류된 픽셀들만 남겨 객체 마스크(또는 필터)를 생성한다. 경계 상자 내 객체를 분할함에 있어서 SAM(Segment Anything Model)과 같은 모델이 이용될 수 있다. 이미지 프레임 내 존재하는 객체별로 생성된 객체 마스크들을 연결하여 전체 객체 마스크를 생성하고, 이미지 프레임에서 전체 객체 마스크를 적용하여 객체들을 제거하고, 제거된 영역을 보간(interpolation)하여 이미지를 복원한다. 그 결과 도 10에 도시된 바와 같이 제1 촬영 영상으로부터 객체가 제거된 배경 이미지가 추출될 수 있다.
제2 촬영 영상으로부터 객체 영상 데이터가 획득될 수 있다. 객체 영상 데이터는 복수의 이미지 프레임이 포함되며, 각 이미지 프레임은 객체만을 포함할 수 있다. 제2 촬영 영상에 포함된 제1 이미지 프레임에서 전술한 SAM과 같은 모델을 이용하여 제1 이미지 프레임 내 배경에 대응되는 픽셀과 객체에 대응되는 픽셀을 구분함으로써 객체 분할이 수행되고, 객체에 대응되는 픽셀들을 이용하여 객체 마스크가 생성되며, 생성된 마스크를 이용하여 제1 이미지 프레임으로부터 제1 객체 이미지 프레임이 획득될 수 있다. 이후, 제1 이미지 프레임에서 획득된 객체 마스크를 이용하여 제2 촬영 영상에 포함된 다른 이미지 프레임에 대해서도 객체 추적 및 객체 분할이 수행될 수 있다. 결과적으로, 제2 촬영 영상으로부터 복수의 객체 이미지 프레임들이 획득될 수 있으며, 각각의 객체 이미지 프레임에는 객체만 포함될 수 있다.
복수의 객체 이미지 프레임들 및 배경 이미지를 이용하여 합성 영상이 획득될 수 있다. 합성 영상은 배경과 객체를 포함하되, 배경은 제1 촬영 영상의 배경이고, 객체는 제2 촬영 영상의 객체일 수 있다.
객체 이미지 프레임들 및 배경 이미지를 합성함에 있어서, 배율이 조절될 수 있다. 예를 들어, 배경 이미지에 대응되도록 객체 이미지 프레임들 내 객체의 크기를 늘리거나 줄일 수 있다.
상술한 합성 영상을 생성하는 방법을 이용하여 특정 장소에서 특정 이상행동이 수행되는 이미지들을 포함하는 영상들이 획득될 수 있으며, 이러한 영상들은 곧 객체 인식 모델(2100) 및 행동 인식 모델(2200)의 학습을 위한 학습 데이터로 이용될 수 있다.
이상에서는 행동 인식 모델(2200)의 학습을 위해 학습 데이터를 획득하거나 생성하는 방법에 대해 서술하였으나, 전술한 방법으로 획득되거나 생성되는 학습 데이터가 객체 인식 모델(2100)의 학습에도 이용될 수 있음은 물론이다.
한편, 객체 인식 또는 행동 인식의 정확도 향상을 위해 영상 데이터를 수집하기 위한 영상 수집부(1000)의 높이가 일정 범위로 설정될 수 있다. 이하에서 도 11을 참고하여 영상 수집부(1000)의 바람직한 높이에 대해 서술한다.
도 11은 일 실시예에 따른 영상 수집부(1000)의 높이를 달리하여 촬영된 영상에서 객체를 인식하는 경우를 나타내는 도면이다. 도 11의 (a)는 영상 수집부(1000)가 바닥을 기준으로 약 2m 50cm에 설치된 상태에서 영상을 촬영하고 객체 인식을 수행한 경우이고, 도 11의 (b)는 영상 수집부(1000)가 바닥을 기준으로 약 2m 30cm에 설치된 상태에서 영상을 촬영하고 객체 인식을 수행한 도면이며, 도 11의 (c)는 영상 수집부(1000)가 바닥을 기준으로 약 2m에 설치된 상태에서 영상을 촬영하고 객체 인식을 수행한 경우이고, 도 11의 (d)는 영상 수집부(1000)가 바닥을 기준으로 약 1m 50cm에 설치된 상태에서 영상을 촬영하고 객체 인식을 수행한 도면이다.
도 11을 참고하면, 영상 수집부(1000)의 높이가 약 2m 50cm인 경우, 약 2m 30cm인 경우, 약 2m인 경우, 그리고 약 1m 50cm인 경우 영상 내 객체들이 인식되었으나, 약 2m 50cm인 경우와 약 2m 30cm인 경우에 영상 내 객체들이 보다 명확하게 인식되었다. 구체적으로, 영상 수집부(1000)의 높이가 약 2m인 경우와 약 1m 50cm인 경우에는 객체들 중 일부(ex. 영상에서 오른쪽 위에 위치한 사람)가 일시적으로 인식되지 않았다.
전술한 바와 같이, 영상 수집부(1000)의 높이가 상대적으로 낮은 경우, 객체가 영상 내 왜곡이 상대적으로 심한 왜곡 영역에 위치할 수 있고, 이에 따라 왜곡 영역에 위치하는 객체는 객체 인식 모델(2100) 또는 행동 인식 모델(2200)에 의해 인식되지 않을 수 있다.
따라서, 영상 수집부(1000)의 설치 위치는 객체가 영상 내 왜곡 영역에 배치되지 않는 범위 내에서 결정될 필요가 있다. 예를 들어, 영상 수집부(1000)의 설치 높이는 약 2m 이상, 바람직하게는 2m 30cm 이상으로 설정될 필요가 있다. 다만, 영상 수집부(1000)의 설치 높이가 전술한 높이로 한정되는 것은 아니며, 영상이 수집되는 촬영 장소 및 촬영 장소에서 객체가 위치할 것으로 예상되는 지점을 더 고려하여 결정될 수 있다.
이하에서는, 전술한 내용을 기반으로 도 12를 참고하여 이상행동 탐지 시스템(100)에 의해 수행되는 행동 인식 방법에 대해 서술한다.
도 12는 일 실시예에 따른 행동 인식 방법을 나타내는 도면이다.
도 12를 참고하면, 행동 인식 방법은 영상 데이터를 획득하는 단계(S1100), 영상 데이터 중 대표 이미지 프레임을 선택하는 단계(S1200), 대표 이미지 프레임 및 객체 인식 모델(2100)을 이용하여 대표 위치 정보를 획득하는 단계(S1300), 영상 데이터 중 분석 대상 이미지 프레임들을 선택하는 단계(S1400), 분석 대상 이미지 프레임들 및 행동 인식 모델(2200)을 이용하여 탐지 대상 행동들에 대한 확률 값을 획득하는 단계(S1500), 및 탐지 대상 행동들에 대한 확률 값을 이용하여 행동 정보를 산출하는 단계(S1600)를 포함할 수 있다.
이하에서 각 단계에 대해 구체적으로 서술한다. 다만, 앞서 서술한 내용과 중복되는 내용에 대해서는 생략하도록 한다. 행동 인식 방법은 분석 서버(2000)의 제어부에 의해 수행될 수 있다.
먼저, 영상 수집부(1000)에 의해 영상 데이터가 획득될 수 있다(S1100). 영상 데이터는 병실과 같은 특정 장소를 촬영하여 획득되는 것으로, 미리 설정된 시간 길이를 가지며 x개(x는 자연수)의 이미지 프레임을 포함할 수 있다.
다음으로, 영상 데이터 중 대표 이미지 프레임이 선택될 수 있다(S1200). 여기서, 대표 이미지 프레임은 대표 위치 정보를 추출하기 위한 이미지를 의미할 수 있다. 대표 이미지 프레임은 영상 데이터의 중간 이미지 프레임일 수 있으나 이에 한정되지 않는다.
대표 이미지 프레임 및 객체 인식 모델(2100)을 이용하여 대표 위치 정보가 획득될 수 있다(S1300). 대표 위치 정보는 대표 이미지 프레임 내 객체의 위치 정보를 의미할 수 있다. 대표 이미지 프레임에 포함된 객체가 둘 이상인 경우, 대표 위치 정보는 각 객체의 위치에 대한 위치 정보를 포함할 수 있다. 예를 들어, 대표 이미지 프레임에 제1 객체 및 제2 객체가 포함되어 있는 경우, 대표 위치 정보는 제1 객체의 위치에 대응되는 제1-1 위치 정보 및 제2 객체의 위치에 대응되는 제1-2 위치 정보를 포함할 수 있다. 객체 인식 모델(2100)은 전술한 바와 같이 이미지 프레임을 입력 받아 이미지 프레임 내 객체의 위치에 대한 정보를 출력하도록 학습될 수 있다.
영상 데이터 중 분석 대상 이미지 프레임들이 선택될 수 있다(S1400). 분석 대상 이미지 프레임들은 행동 인식 모델(2200)에 입력되기 위한 이미지 프레임이다. 분석 대상 이미지 프레임들의 개수는 3개일 수 있다. 분석 대상 이미지 프레임들에는 영상 데이터 중 처음 이미지 프레임 및 마지막 이미지 프레임이 포함될 수 있다. 또는, 분석 대상 이미지 프레임들에는 대표 이미지 프레임 이전 시점의 제1 이미지 프레임 및 대표 이미지 프레임 이후 시점의 제2 이미지 프레임이 포함될 수 있다. 나아가, 분석 대상 이미지 프레임들에는 대표 이미지 프레임이 포함될 수 있다.
한편, 분석 대상 이미지 프레임들의 수가 3개로 한정되는 것은 아니다. 예를 들어, 분석 대상 이미지 프레임들의 수는 8개일 수 있다. 구체적으로, 분석 대상 이미지 프레임들에는 대표 이미지 프레임에 대응하는 시점 이전의 제1 이미지 프레임 내지 제3 이미지 프레임과 대표 이미지 프레임에 대응하는 시점 이후의 제4 이미지 프레임 내지 제7 이미지 프레임이 포함될 수 있다.
분석 대상 이미지 프레임들 및 행동 인식 모델(2200)을 이용하여 탐지 대상 행동들에 대한 확률 값이 획득될 수 있다(S1500). 행동 인식 모델(2200)은 복수의 이미지 프레임들 또는 복수의 이미지 프레임들을 가공한 데이터를 입력 받아 탐지 대상 행동들 각각에 대한 확률 값을 출력하도록 학습될 수 있다. 또는, 행동 인식 모델(2200)은 복수의 이미지 프레임들 또는 복수의 이미지 프레임들을 가공한 데이터를 입력 받아 적어도 하나의 탐지 대상 행동을 지시하는 행동 정보를 출력하도록 학습될 수 있다.
탐지 대상 행동들에 대한 확률 값을 이용하여 행동 정보가 산출될 수 있다(S1600). 예를 들어, 행동 정보는 탐지 대상 행동들 중 확률 값이 높은 3개의 탐지 대상 행동들을 지시할 수 있다. 다른 예를 들어, 행동 정보는 탐지 대상 행동들 중 확률 값이 가장 높은 하나의 탐지 대상 행동을 지시할 수 있다.
한편, 탐지 대상 행동들 중 일부에 대해서는 우선순위가 설정될 수 있다. 예를 들어, 탐지 대상 행동들 중 확률 값이 높은 탐지 대상 행동들에 눕는 중과 낙상 중이 포함되는 경우, 행동 정보는 눕는 중을 지시하는 정보는 포함하지 않을 수 있다.
이상행동 판단 모델(2300)은 행동 정보에 기초하여 이상행동 발생 여부를 판단할 수 있다. 이하에서는 이상행동 판단 모델(2300)이 낙상 발생 여부를 판단하는 경우에 대해 서술하나, 본 개시의 기술적 사상이 이에 한정되는 것은 아니다.
영상 수집부(1000)에서 실시간으로 획득되는 영상 데이터는 분석 서버(2000)에 전송되고, 분석 서버(2000)의 객체 인식 모델(2100) 및 행동 인식 모델(2200)은 실시간으로 영상 데이터 내 객체 인식 및 행동 인식을 수행할 수 있다. 이에 따라, 이상행동 판단 모델(2300)은 실시간으로 객체에 대한 행동 정보를 수신할 수 있다.
이상행동 판단 모델(2300)은 규칙 기반으로 낙상 발생 여부를 판단할 수 있다.
일 예로, 이상행동 판단 모델(2300)은 낙상(fallen)을 지시하는 행동 정보를 수신하는 경우 낙상이 발생한 것으로 판단할 수 있다.
다른 예로, 이상행동 판단 모델(2300)은 미리 설정된 시간 동안 낙상을 지시하는 행동 정보가 미리 설정된 횟수 이상 수신된 경우 낙상이 발생한 것으로 판단할 수 있다. 여기서, 미리 설정된 시간은 0.5초, 1초, 1.5초, 2초, 2.5초, 또는 3초일 수 있다. 또 여기서, 미리 설정된 횟수는 2회, 3회, 4회, 또는 5회일 수 있다.
또 다른 예로, 이상행동 판단 모델(2300)은 낙상 중(falling)을 지시하는 행동 정보를 수신하는 경우 낙상이 발생한 것으로 판단할 수 있다.
또 다른 예로, 이상행동 판단 모델(2300)은 미리 설정된 시간 동안 낙상 중(falling)을 지시하는 행동 정보를 미리 설정된 횟수 이상 수신하는 경우 낙상이 발생한 것으로 판단할 수 있다. 여기서, 미리 설정된 시간은 0.5초, 1초, 1.5초, 2초, 2.5초, 또는 3초일 수 있다. 또 여기서, 미리 설정된 횟수는 2회, 3회, 4회, 또는 5회일 수 있다.
또 다른 예로, 이상행동 판단 모델(2300)은 낙상 중을 지시하는 제1 행동 정보를 수신하고 낙상을 지시하는 제2 행동 정보를 수신하는 경우 낙상이 발생한 것으로 판단할 수 있다. 이 때, 제1 행동 정보 및 제2 행동 정보는 순차적으로 획득되어야 한다.
이하에서는, 전술한 내용을 기반으로 도 13을 참고하여 이상행동 탐지 시스템(100)에 의해 수행되는 낙상 탐지 방법에 대해 서술한다.
도 13은 일 실시예에 따른 낙상 탐지 방법을 나타내는 도면이다.
도 13을 참고하면, 낙상 탐지 방법은 영상 데이터를 획득하는 단계(S2100), 영상 데이터에 대해 행동 인식 방법을 수행하여 행동 정보를 획득하는 단계(S2200), 낙상 조건 만족 여부를 판단하는 단계(S2300), 및 낙상 탐지 정보를 생성하는 단계(S2400)를 포함할 수 있다.
이하에서 각 단계에 대해 구체적으로 서술한다. 다만, 앞서 서술한 내용과 중복되는 내용에 대해서는 생략하도록 한다. 낙상 탐지 방법은 분석 서버(2000)의 제어부에 의해 수행될 수 있다.
먼저, 영상 데이터가 획득될 수 있다(S2100). 본 단계는 앞서 서술한 단계 S1100과 동일한 바 생략하도록 한다.
영상 데이터에 대해 행동 인식 방법을 수행하여 행동 정보가 획득될 수 있다(S2200). 행동 인식 방법은 전술한 단계 S1200, S1300, S1400, S1500, 및 S1600을 포함할 수 있으며, 해당 내용이 그대로 적용될 수 있다.
낙상 조건 만족 여부가 판단될 수 있다(S2300). 낙상 조건 만족 여부는 이상행동 판단 모델(2300)을 이용하여 수행될 수 있으며, 행동 정보를 이용하여 전술한 규칙 기반으로 낙상 발생 여부를 판단하는 방법이 동일하게 적용될 수 있다.
낙상 조건 만족 여부를 판단하는 데에 이용되는 행동 정보는 하나의 영상 데이터에 대한 하나의 행동 정보일 수 있다.
또는, 낙상 조건 만족 여부를 판단함에 있어서 복수의 행동 정보가 이용될 수 있다. 예를 들어, 제1 시점에 획득된 제1 영상 데이터에 대해 행동 인식 방법을 수행하여 획득된 제1 행동 정보 및 제1 시점 이후의 제2 시점에 획득된 제2 영상 데이터에 대해 행동 인식 방법을 수행하여 획득된 제2 행동 정보가 낙상 조건 만족 여부를 판단하는 데에 이용될 수 있다. 다른 예를 들어, 임의의 시점에 획득된 영상 데이터 중 제1 이미지 프레임 내지 제k 이미지 프레임에 대해 행동 인식 방법을 수행하여 획득된 제1 행동 정보 및 동일한 영상 데이터 중 제k+1 이미지 프레임 내지 제n 이미지 프레임에 대해 행동 인식 방법을 수행하여 획득된 제2 행동 정보가 낙상 조건 만족 여부를 판단하는 데에 이용될 수 있다.
낙상 조건이 만족되지 않는 경우, 다시 영상 데이터가 획득될 수 있다.
낙상 조건이 만족되는 경우 낙상 탐지 정보가 생성될 수 있다(S2400). 낙상 탐지 정보는 낙상이 발생하였음을 지시하는 정보로 이해될 수 있다. 낙상 탐지 정보가 생성되는 경우, 분석 서버(2000)는 모니터링 시스템(3000)에 낙상 탐지 정보를 제공할 수 있다. 모니터링 시스템(3000)은 낙상 탐지 정보를 수신하면 알림을 제공할 수 있다.
이상에서는 낙상 탐지 방법에 대해 서술하였으나, 본 개시의 기술적 사상이 이에 한정되는 것은 아니며, 낙상 이외의 이상행동(ex. 욕창, 발작, 경련, 기절, 또는 가슴 통증 등)에 대해서도 낙상 탐지 방법과 유사한 이상행동 탐지 방법이 적용될 수 있다. 예를 들어, 단계 S2300에서 낙상 발생 대신 이상행동 발생 여부가 판단될 수 있으며, 이 때 각 이상행동을 판단하기 위한 조건들이 이용될 수 있다. 또한, 단계 S2400)에서 낙상 탐지 정보 생성 대신 이상행동 탐지 정보가 생성될 수 있다.
이하에서는, 도 14를 참고하여 객체 인식 모델(2100) 및 행동 인식 모델(2200)의 구조에 대해 서술한다.
도 14는 일 실시예에 따른 영상 기반 딥러닝 모델의 구조 및 입출력 데이터를 나타내는 도면이다.
영상 기반 딥러닝 모델에 대해서는 다방면으로 연구가 진행되고 있으며, 최근 자연어 처리 모델에서 주로 이용되는 트랜스포머(transformer)를 이용한 영상 분석 기술인 비전 트랜스포머(ViT: Vision Transformer)가 각광 받고 있다.
비전 트랜스포머는 기존의 CNN기반 SOTA(State-of-the-art) 모델 보다 성능이 좋은 것이 입증되었다. 다만, 귀납편향(inductive bias)이 상대적으로 부족하여, 일반화의 성능을 높이기 위해 상대적으로 많은 양의 학습 데이터가 필요하다.
이하에서는, 비전 트랜스포머를 이용하여 행동 인식 모델(2200)이 구현되는 경우 행동 인식 모델(2200)에 입력된 복수의 이미지 프레임이 행동들에 대한 확률 값으로 출력되는 과정에 대해 서술한다.
여기서, 복수의 이미지 프레임 수는 3개이며, 각각 제1 이미지 프레임(IF1), 제2 이미지 프레임(IF2), 및 제3 이미지 프레임(IF3)인 것으로 서술하나, 이는 설명의 편의를 위한 것으로 본 개시의 기술적 사상이 이에 한정되는 것은 아니다.
복수의 이미지 프레임들 각각은 복수의 패치(patch)로 분할될 수 있다. 예를 들어, 도 14를 참고하면, 제1 이미지 프레임(IF1) 내지 제3 이미지 프레임(IF3) 각각은 MxN(M, N은 자연수)개의 패치로 분할될 수 있다.
패치화된 복수의 이미지 프레임들 각각은 선형 투영(linear projection)되어 1차원의 벡터 데이터로 가공될 수 있다. 예를 들어, 제1 이미지 프레임(IF1)은 MxN개의 패치로 분리되고, 각 패치는 flatten된 후 일렬로 정렬될 수 있다.
일렬로 정렬된 이미지 프레임들은 패치별로 병합되어 하나의 벡터 데이터가 가공될 수 있다. 예를 들어, 제1 이미지 프레임(IF1)의 제1-1 패치가 flatten된 데이터, 제2 이미지 프레임(IF2)의 제2-1 패치가 flatten된 데이터, 및 제3 이미지 프레임(IF3)의 제3-1 패치가 flatten된 데이터가 병합되어 제1 입력 패치가 생성될 수 있다. 마찬가지로, 제1 이미지 프레임(IF1)의 제1-2 패치가 flatten된 데이터, 제2 이미지 프레임(IF2)의 제2-2 패치가 flatten된 데이터, 및 제3 이미지 프레임(IF3)의 제3-2 패치가 flatten된 데이터가 병합되어 제2 입력 패치가 생성될 수 있다.
한편, 데이터 병합은 패치화 전에 수행될 수도 있다. 예를 들어, 제1 이미지 프레임(IF1) 내지 제3 이미지 프레임(IF3)에 대해 병합이 우선적으로 수행되고, 병합된 이미지 프레임에 대해 패치화 및 선형 투영이 수행될 수도 있다.
입력 패치들은 위치 임베딩(position embedding) 과정을 거칠 수 있다. 예를 들어, 도 14를 참고하면, 제1 입력 패치에는 제1 위치 표시가 임베딩될 수 있다. 제1 위치 표시는 제1 입력 패치를 생성하는 데에 이용된 제1-1 패치, 제1-2 패치, 또는 제1-3 패치의 이미지 프레임 내 위치에 대응될 수 있다. 포지션 임베딩 기법으로 사인파형 포지션 임베딩(sinusoidal position embedding) 기법이 이용될 수 있다.
위치 표시가 임베딩된 입력 패치는 트랜스포머 인코더에 입력될 수 있다. 트랜스포머 인코더는 L개의(L은 자연수) 인코딩 셀(encoding cell)을 포함할 수 있다. 인코딩 셀은 normalization layer, multi-head attention layer, normalization layer 및 MLP(Multi-Layer Perceptron) layer을 순차적으로 포함할 수 있다. 각 인코딩 셀의 출력 값은 다음 인코딩 셀에 제공될 수 있다.
트랜스포머 인코더는 특성 맵(feature map)을 출력할 수 있다. 특성 맵은 분석 대상 이미지들이 포함하는 특징들이 내재된 데이터로 이해될 수 있다.
특성 맵은 MLP Head layer로 입력되고, MLP Head layer는 클래스(class) 별 확률 값을 출력할 수 있다. 여기서, 클래스는 출력 노드를 의미하며, 각 출력 노드가 탐지 대상 행동에 대응될 수 있다.
한편, 도 14에 도시된 바와 같이, 특성 맵이 MLP Head layer에 입력되기 앞서, 특성 맵에 대해 대표 위치 정보를 이용하여 관심 영역 조정(ROI align)이 수행될 수 있다. 관심 영역 조정은 특성 맵 중 관심 영역(ex. 객체)에 대응되는 데이터를 강조하거나, 관심 영역에 대응되는 데이터를 별도로 가공하는 작업으로 이해될 수 있다. 관심 영역 조정을 수행하는 방법에 대해서는 후술하도록 한다.
관심 영역 조정에 이용되는 대표 위치 정보는 제1 이미지 프레임(IF1) 내지 제3 이미지 프레임(IF3) 중 적어도 하나를 객체 인식 모델(2100)에 입력하여 획득될 수 있다. 또는, 대표 위치 정보는 제1 이미지 프레임(IF1) 내지 제3 이미지 프레임(IF3)이 포함된 영상 데이터 내 다른 이미지 프레임을 객체 인식 모델(2100)에 입력하여 획득될 수 있다.
관심 영역 조정은 특성 맵이 아닌 이미지 프레임에 대해서도 수행될 수 있다. 예를 들어, 분석 대상 이미지 프레임들에 대해 관심 영역 조정이 수행되어 획득되는 데이터가 패치화, 선형 투영, 및 포지션 임베딩을 거쳐 트랜스포머 인코더에 입력될 수도 있다.
이상에서는 행동 인식 모델(2200)이 비전 트랜스포머를 이용하여 구현되는 경우에 대해 서술하였으나, 객체 인식 모델(2200)도 비전 트랜스포머를 이용하여 구현될 수 있다. 객체 인식 모델(2200)의 경우 입력되는 이미지 프레임 개수가 1개일 수 있으며, 이에 따라 복수의 이미지 프레임을 병합하는 과정은 생략될 수 있다. 또한, 객체 인식 모델(2200)의 경우 MLP Head layer에서 출력되는 값은 위치 정보일 수 있으며, 관심 영역 조정 과정 역시 생략될 수 있다.
이하에서는, 도 15를 참고하여 행동 인식 과정에서 위치 정보가 반영되는 방법에 대해 서술한다.
도 15는 일 실시예에 따른 관심 영역 조정이 수행되는 과정을 나타내는 도면이다. 이하에서는, 행동 인식 모델(2200)이 비전 트랜스포머로 구성되고, 관심 영역 조정 과정이 트랜스포머의 인코더에서 출력된 특성 맵에 대해 수행되는 경우에 대해 서술한다. 구체적으로, 인코더에서 출력되는 데이터는 인코더에 입력되는 데이터와 동일하게 flatten된 상태이고, 이를 특정 데이터 포맷(ex. 행동 인식 모델(2200)에 입력되는 이미지 프레임 또는 이를 가공한 데이터 포맷 등)으로 가공한 데이터가 후술하는 특성 맵에 해당한다.
도 15를 참고하면, 관심 영역 조정은 특성 맵의 크기를 조절(resizing)하는 단계, 샘플 지점을 설정(sampling)하는 단계, 및 양선형 보간법(bilinear interpolation)을 이용하여 그리드(grid)별 특징 값을 산출하는 단계를 통해 수행될 수 있다.
먼저, 특성 맵의 특징 값들을 병합하거나 풀링(pooling)하여 특성 맵의 크기가 조절될 수 있다.
이후, 대표 위치 정보에 기반한 경계 박스를 이용하여 특성 맵으로부터 관심 영역 조정 값들이 추출될 수 있다. 경계 박스는 복수의 그리드를 포함할 수 있다. 예를 들어, 도 15를 참고하면 경계 박스는 3x3의 그리드로 구성될 수 있다. 각 그리드에는 4개의 샘플 지점이 포함될 수 있다. 경계 박스가 포함하는 그리드 수와 각 그리드에 포함되는 샘플 지점의 수가 전술한 개수로 한정되는 것은 아니다. 또한, 경계 박스는 대표 위치 정보에 따라 회전되거나 회전되지 않을 수 있다.
경계 박스의 그리드별로 양선형 보간법이 수행될 수 있다. 구체적으로, 그리드 내 각 샘플 지점을 기준으로 근방의 특징 값들에 가중치를 곱하고 선형 합을 수행하여 새로운 해당 샘플 지점에 대한 값이 산출될 수 있다.
이후, 그리드 내 샘플 지점들의 산출 값들에 대해 최대 풀링(max pooling) 또는 평균 풀링(average pooling) 등을 이용하여 그리드별로 하나의 최종 값이 산출될 수 있다.
결과적으로 관심 영역 조정을 통해 경계 박스의 그리드 수만큼의 특징 값들이 새로이 산출될 수 있다. 새롭게 산출된 관심 영역 조정 값들은 전술한 MLP Head에 입력될 수 있다. 이 때, 관심 영역 조정 값들은 MLP Head의 입력 데이터 포맷에 맞도록 가공(ex. flatten)될 수 있다.
이상에서는 객체 인식 모델(2100) 및 행동 인식 모델(2200)의 구조 및 내부 연산 과정에 대해 서술하였다.
이하에서는, 도 16을 참고하여 영상 기반 딥러닝 모델을 학습시켜 객체 인식 모델(2100) 및 행동 인식 모델(2200)을 생성하는 방법에 대해 서술한다. 이하에서는 객체 인식 모델(2100) 및 행동 인식 모델(2200)이 비전 트랜스포머 구조를 가지는 형태로 구현되는 경우에 대해 서술하도록 한다.
도 16은 일 실시예에 따른 딥러닝 모델을 학습시켜 객체 인식 모델(2100) 및 행동 인식 모델(2200)을 생성하는 과정을 나타내는 도면이다.
전술한 바와 같이, 비전 트랜스포머의 경우 귀납편향(inductive bias)이 부족하여, 많은 양의 학습 데이터를 이용하여 학습되어야 한다.
우선적으로, 딥러닝 모델을 사전학습(pre-trained)시켜 베이스 모델을 생성할 수 있다. 구체적으로, 도 16을 참고하면, 비전 트랜스포머 구조를 가지는 딥러닝 모델을 제1 학습 데이터 그룹을 이용하여 학습시켜 베이스 모델이 생성될 수 있다.
제1 학습 데이터 그룹에는 이상행동과는 관련 없는 이미지들이 포함될 수 있다. 예를 들어, 제1 학습 데이터 그룹에는 병원이 아닌 다른 장소에서 촬영된 이미지를 이용한 학습 데이터 세트가 포함될 수 있다. 다른 예를 들어, 제1 학습 데이터 그룹에는 낙상 과정이 포함되지 않은 이미지를 이용한 학습 데이터 세트가 포함될 수 있다.
제1 학습 데이터 그룹은 공개된 데이터베이스를 포함할 수 있다. 예를 들어, 제1 학습 데이터 그룹은 ImageNet 데이터베이스, COCO 데이터베이스, 및 AVA 데이터베이스 중 적어도 하나를 포함할 수 있다.
사전학습된 베이스 모델은 파인 튜닝(fine-tuning)을 통해 객체 인식 모델(2100) 또는 행동 인식 모델(2200)이 될 수 있다.
객체 인식 모델(2100)의 경우, 베이스 모델을 제2 학습 데이터 그룹으로 파인 튜닝하여 생성될 수 있다. 베이스 모델은 이미지를 입력 받아 객체 위치 정보를 출력하도록 파인 튜닝될 수 있다.
제2 학습 데이터 그룹에는 ABC(Abnormal Behavior-Centered) 데이터 셋 및 객체의 위치 정보를 이용하여 제작된 학습 데이터 세트가 포함될 수 있다. 여기서, ABC 데이터 셋은 병원에서 발생된 낙상 사고 또는 낙상 동작을 촬영하여 획득된 이미지 및 병원에서 발생된 비 낙상 동작을 촬영하여 획득된 이미지를 포함할 수 있다. 보다 구체적으로, 제2 학습 데이터 그룹에는 병원에서 발생한 낙상 동작을 촬영하여 획득된 이미지에 해당 이미지 내 객체의 위치를 태깅하여 생성된 학습 데이터 세트가 포함될 수 있다.
행동 인식 모델(2200)의 경우, 베이스 모델을 제3 학습 데이터 그룹으로 파인 튜닝하여 생성될 수 있다. 베이스 모델은 복수의 이미지와 위치 정보를 입력 받아 탐지 대상 행동들에 대한 확률 값을 출력하도록 파인 튜닝될 수 있다.
제3 학습 데이터 그룹에는 ABC 데이터 셋, 객체 위치 정보, 및 객체 행동 정보를 이용하여 제작된 학습 데이터 세트가 포함될 수 있다. 보다 구체적으로, 제3 학습 데이터 그룹에는 병원에서 발생한 낙상 동작을 촬영하여 획득된 복수의 이미지에 낙상을 태깅하여 생성된 학습 데이터 세트가 포함될 수 있다. 또는, 제3 학습 데이터 그룹에는 병원에서 발생한 낙상 동작을 촬영하여 획득된 복수의 이미지를 가공하여 트랜스포머 인코더에 입력하고, 트랜스포머 인코더에서 출력된 특성 맵에 관심 영역 조정을 통해 객체 위치 정보가 반영된 데이터에 낙상을 태깅하여 생성된 학습 데이터 세트가 포함될 수 있다.
4. 모니터링 시스템
이하에서는, 도 17 및 도 18을 참고하여 모니터링 시스템(3000)에 대해 서술한다. 설명의 편의를 위해 모니터링 시스템(3000)이 병원에서 이용되는 경우에 대해 서술하나, 본 개시의 기술적 사상이 이에 한정되는 것은 아니다.
모니터링 시스템(3000)은 간호사 스테이션이나 간호사 단말, 나아가 보호자 단말 등 환자를 관리하기 위한 장치에 탑재될 수 있다.
도 17은 일 실시예에 따른 사용자 인터페이스를 통해 이상행동 탐지 알림이 제공되는 것을 나타내는 도면이다.
전술한 바와 같이, 이상행동 탐지 시스템(100)에서 낙상 등의 이상행동이 발생한 경우 모니터링 시스템(3000)은 분석 서버(2000)로부터 이상행동 탐지 정보를 수신할 수 있다. 모니터링 시스템(3000)은 이상행동 탐지 정보 수신 시, 이에 대응하는 알림을 제공할 수 있다.
일 예로, 도 17을 참고하면 환자를 관리하기 위한 사용자 인터페이스 상에 이상행동에 관한 알림창이 출력될 수 있다. 알림창에는 이상행동이 탐지된 장소(ex. 병실 호수)와 그 위치(ex. 침대 번호), 및 이상행동의 주체(ex. 환자 이름)가 표시될 수 있다.
여기서, 장소는 이상행동이 탐지된 영상 데이터를 촬영한 영상 수집부(1000)의 고유 식별 데이터를 이용하여 획득될 수 있다.
이상행동이 탐지된 위치는, 이상행동이 탐지된 영상 데이터에 대해 객체 인식을 통해 획득된 대표 위치 정보에 기초하여 산출될 수 있다. 예를 들어, 객체 인식 모델(2100)에 입력된 이미지 프레임 내에서 대표 위치 정보와 가장 가까운 침상이 이상행동이 탐지된 위치로 결정될 수 있다. 보다 구체적으로, 영상 데이터에 포함된 적어도 하나의 이미지 프레임은 사분면으로 구분되고, 각 사분면에는 침상이 포함될 수 있으며, 각 사분면 또는 각 침상은 특정 환자를 지시할 수 있다. 이 때, 대표 위치 정보에 가장 인접한 사분면 또는 침상이 결정될 수 있고, 이에 대응하는 환자 정보가 획득될 수 있다.
이상행동의 주체는 이상행동이 탐지된 위치에 대응하는 환자 데이터를 이용하여 획득될 수 있다.
한편, 이상행동이 탐지된 경우, 분석 서버(2000) 또는 모니터링 시스템(3000)에서 탐지된 이상행동에 대한 보고서가 작성될 수 있다. 예를 들어, 분석 서버(2000)는 낙상 사고 탐지 시, 낙상 사고가 탐지된 제1 영상 데이터를 분석하여 획득된 제1 행동 정보 및 제1 영상 데이터 이전에 촬영된 제2 영상 데이터를 분석하여 획득된 제2 행동 정보를 이용하여 낙상 사고의 발생 경위가 포함된 보고서를 작성할 수 있다. 다른 예를 들어, 분석 서버(2000)는 낙상 사고 탐지 시, 낙상 사고가 탐지된 제1 영상 데이터를 분석하여 획득된 제1 행동 정보 및 제1 영상 데이터 이후에 촬영된 제2 영상 데이터를 분석하여 획득된 제2 행동 정보를 이용하여 낙상 사고 후 환자의 상태에 대한 묘사가 포함된 보고서를 작성할 수 있다.
도 18은 일 실시예에 따른 관심환자 별 탐지 대상 행동을 설정하는 사용자 인터페이스를 나타내는 도면이다.
도 18을 참고하면, 모니터링 시스템(3000)은 환자 별로 탐지 대상 행동을 지정하기 위한 인터페이스를 출력할 수 있다.
환자가 앓고 있는 증상이나 질병에 따라 주의해야 하는 행동이나 자세가 있을 수 있다. 예를 들어, 욕창을 앓고 있는 환자의 경우 같은 자세로 오랫동안 누워있는 것이 방지될 필요가 있다.
이처럼, 환자에 따라 주의해야 하는 행동이나 자세가 다를 수 있으므로, 환자에 따라 모니터링이 필요한, 또는 탐지 대상 행동이 다르게 설정될 필요가 있다.
사용자는 도 18에 도시된 인터페이스를 통해 환자별로 탐지 대상 행동을 다르게 설정할 수 있다. 예를 들어, 제1 환자에 대해서는 제1 탐지 대상 행동이 설정되고, 제2 환자에 대해서는 제1 탐지 대상 행동과 다른 제2 탐지 대상 행동이 설정될 수 있다. 이에 따라, 이상행동 탐지 시스템(100)에 의해 제1 환자의 제1 탐지 대상 행동이 감지되거나 제2 환자의 제2 탐지 대상 행동이 감지되는 경우 모니터링 시스템(3000)을 통해 알림이 제공될 수 있다. 여기서, 모니터링 시스템(3000)을 통해 제공되는 알림은 감지된 탐지 대상 행동, 해당 탐지 대상 행동에 대응되는 환자, 상기 환자에 대응되는 병실 등이 포함될 수 있다.
이상에서 실시 형태들에 설명된 특징, 구조, 효과 등은 본 발명의 적어도 하나의 실시 형태에 포함되며, 반드시 하나의 실시 형태에만 한정되는 것은 아니다. 나아가, 각 실시 형태에서 예시된 특징, 구조, 효과 등은 실시 형태들이 속하는 분야의 통상의 지식을 가지는 자에 의해 다른 실시 형태들에 대해서도 조합 또는 변형되어 실시 가능하다. 따라서 이러한 조합과 변형에 관계된 내용들은 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.
또한, 이상에서 실시 형태를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 실시 형태의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 즉, 실시 형태에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (12)

  1. 서버에 의해 수행되는 행동 인식 방법에 있어서,
    제1 영상 데이터를 획득하는 단계 -상기 제1 영상 데이터는 임의의 시간 구간 동안의 복수의 이미지 프레임을 포함함-;
    상기 제1 영상 데이터에 포함된 N개(N은 자연수)의 이미지 프레임들 중 제1 대표 이미지 프레임을 선택하는 단계;
    상기 제1 대표 이미지 프레임을 객체 인식 모델에 입력하여 상기 제1 대표 이미지 프레임에 대응하는 제1 대표 위치 정보를 획득하는 단계 -상기 제1 대표 위치 정보는 적어도 상기 제1 대표 이미지 프레임에 포함된 제1 객체의 위치에 대한 위치 정보를 포함함-;
    상기 제1 영상 데이터에 포함된 상기 N개의 이미지 프레임들 중 미리 설정된 개수의 이미지 프레임을 선택하는 단계; 및
    상기 선택된 이미지 프레임들, 상기 제1 대표 위치 정보, 및 행동 인식 모델을 이용하여 제1 행동 정보를 획득하는 단계 -상기 제1 행동 정보는 적어도 상기 제1 객체의 행동에 대한 정보를 포함함-;를 포함하되,
    상기 선택된 이미지 프레임들에는 적어도 상기 제1 대표 이미지 프레임, 상기 제1 대표 이미지 프레임보다 이른 시점의 제1 이미지 프레임 및 상기 제1 대표 이미지 프레임 보다 늦은 시점의 제2 이미지 프레임이 포함되고,
    상기 제1 행동 정보를 획득하는 단계에서,
    상기 제1 이미지 프레임에서 상기 제1 객체의 위치를 나타내는 정보 및 상기 제2 이미지 프레임에서 상기 제1 객체의 위치를 나타내는 정보는 상기 행동 인식 모델의 입력 데이터로 이용되지 않는,
    행동 인식 방법.
  2. 제1 항에 있어서,
    상기 선택된 이미지 프레임들, 상기 제1 대표 위치 정보, 및 상기 행동 인식 모델을 이용하여 상기 제1 행동 정보를 획득하는 단계는,
    상기 선택된 이미지 프레임들을 이용하여 생성된 특성 맵(feature map)에 상기 제1 대표 위치 정보를 반영하는 단계를 포함하는,
    행동 인식 방법.
  3. 제1 항에 있어서,
    상기 제1 대표 위치 정보는 상기 제1 대표 이미지 프레임에 포함된 적어도 하나의 객체의 OBB(Oriented bounding box) 데이터인,
    행동 인식 방법.
  4. 제1 항에 있어서,
    상기 제1 대표 이미지 프레임과 상기 제1 이미지 프레임 사이의 프레임 간격은 상기 제1 대표 이미지 프레임과 상기 제2 이미지 프레임 사이의 프레임 간격과 동일한,
    행동 인식 방법.
  5. 제1 항에 있어서,
    상기 제1 대표 이미지 프레임은 상기 N개의 이미지 프레임들의 중간 프레임이고,
    상기 제1 이미지 프레임은 상기 N개의 이미지 프레임들의 최초 프레임이고,
    상기 제2 이미지 프레임은 상기 N개의 이미지 프레임들의 최종 프레임인,
    행동 인식 방법.
  6. 제1 항에 있어서,
    상기 제1 이미지 프레임에서의 상기 제1 객체의 위치는 상기 제1 대표 이미지 프레임에서의 상기 제1 객체의 위치와 상이하고,
    상기 제2 이미지 프레임에서의 상기 제1 객체의 위치는 상기 제1 대표 이미지 프레임에서의 상기 제1 객체의 위치와 상이한
    행동 인식 방법.
  7. 제1 항에 있어서,
    상기 제1 영상 데이터에 포함된 다른 N개의 이미지 프레임들 중 제2 대표 이미지 프레임을 선택하는 단계;
    상기 제2 대표 이미지 프레임을 객체 인식 모델에 입력하여 상기 제2 대표 이미지 프레임에 대응하는 제2 대표 위치 정보를 획득하는 단계;
    상기 제1 영상 데이터에 포함된 상기 다른 N개의 이미지 프레임들 중 미리 설정된 개수의 이미지 프레임을 선택하는 단계; 및
    상기 다른 N개의 이미지 프레임들 중 선택된 이미지 프레임들, 상기 제2 대표 위치 정보, 및 상기 행동 인식 모델을 이용하여 제2 행동 정보를 획득하는 단계;를 포함하되,
    상기 N개의 이미지 프레임들과 상기 다른 N개의 이미지 프레임들은 중첩되는 이미지 프레임을 가지는,
    행동 인식 방법.
  8. 제1 항에 있어서,
    상기 행동인식 모델은 적어도 낙상(fallen), 누움(lie), 낙상 중(falling) 및 눕는 중(lying) 각각에 대응하는 출력 노드를 가지는,
    행동 인식 방법.
  9. 제8 항에 있어서,
    상기 행동 인식 모델은 적어도,
    등이 땅에 닿은 객체를 포함하는 이미지 프레임들을 낙상으로 태깅하여 생성된 제1 학습 데이터 세트, 등이 땅에 닿지 않고 다른 신체 부위 중 머리가 땅에 닿은 객체를 포함하는 이미지 프레임들을 낙상으로 태깅하여 생성된 제2 학습 데이터 세트, 침상에 누워있는 객체를 포함하는 이미지 프레임들을 누움으로 태깅하여 생성된 제3 학습 데이터 세트, 및 간이침대에 누워있는 객체를 포함하는 이미지 프레임들을 누움으로 태깅하여 생성된 제4 학습 데이터 세트를 이용하여 학습되는,
    행동 인식 방법.
  10. 제8 항에 있어서,
    상기 행동인식 모델은 학습 데이터 세트들을 이용하여 학습되며,
    상기 학습 데이터 세트들은,
    낙상으로 판단되는 학습용 영상 데이터를 낙상으로 태깅하여 생성된 학습 데이터 세트, 및
    상기 학습용 영상 데이터에 대응되는 시점 전 일정 시간 이내에 있는 영상 데이터를 낙상 중으로 태깅하여 생성된 학습 데이터 세트를 포함하는,
    행동 인식 방법.
  11. 제8 항에 있어서,
    상기 객체 인식 모델은 임의의 이미지 프레임을 입력 받아 상기 이미지 프레임 내에서 환자의 위치를 나타내는 정보를 출력하도록 학습된,
    행동 인식 방법.
  12. 제10 항에 있어서,
    상기 행동 인식 모델을 이용하여 획득한 하나 이상의 행동 정보 및 낙상 조건을 이용하여 낙상 여부를 판단하는 단계;를 더 포함하고,
    상기 낙상 조건은,
    낙상에 대응되는 행동 정보가 검출되고, 상기 낙상에 대응되는 행동 정보가 검출되기 전에 낙상 중에 대응되는 행동 정보가 검출되는 제1 조건, 및
    낙상 중에 대응되는 행동 정보가 검출되고, 상기 낙상 중에 대응되는 행동 정보가 검출된 이후에 미리 설정된 시간동안 낙상에 대응되는 행동 정보가 미리 설정된 횟수 이상 검출되는 제2 조건을 포함하는,
    행동 인식 방법.
KR1020230086713A 2023-07-04 2023-07-04 이상행동 탐지 시스템 KR102628690B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230086713A KR102628690B1 (ko) 2023-07-04 2023-07-04 이상행동 탐지 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230086713A KR102628690B1 (ko) 2023-07-04 2023-07-04 이상행동 탐지 시스템

Publications (1)

Publication Number Publication Date
KR102628690B1 true KR102628690B1 (ko) 2024-01-25

Family

ID=89721705

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230086713A KR102628690B1 (ko) 2023-07-04 2023-07-04 이상행동 탐지 시스템

Country Status (1)

Country Link
KR (1) KR102628690B1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102014385B1 (ko) * 2018-02-20 2019-08-26 (주)휴톰 수술영상 학습 및 학습 기반 수술동작 인식 방법 및 장치
KR102060761B1 (ko) * 2019-04-09 2019-12-30 주식회사 에이치랩 기계 학습을 활용한 rf 기반의 낙상 판단 시스템 및 그의 낙상 판단 방법
KR102389285B1 (ko) * 2021-07-12 2022-04-22 주식회사 씨앤에이아이 기계학습을 기초로 낙상 사고를 감지하는 방법 및 그를 이용한 시스템
KR102410286B1 (ko) * 2021-11-19 2022-06-22 주식회사 씨앤에이아이 딥러닝에 기반하여 낙상 사고를 감지하는 방법 및 그 전자장치
KR102511287B1 (ko) * 2022-08-05 2023-03-21 주식회사 마크애니 영상 기반 자세 예측 및 행동 검출 방법 및 장치
KR20230078087A (ko) * 2021-11-26 2023-06-02 주식회사 엘렉시 행동 인식 시스템 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102014385B1 (ko) * 2018-02-20 2019-08-26 (주)휴톰 수술영상 학습 및 학습 기반 수술동작 인식 방법 및 장치
KR102060761B1 (ko) * 2019-04-09 2019-12-30 주식회사 에이치랩 기계 학습을 활용한 rf 기반의 낙상 판단 시스템 및 그의 낙상 판단 방법
KR102389285B1 (ko) * 2021-07-12 2022-04-22 주식회사 씨앤에이아이 기계학습을 기초로 낙상 사고를 감지하는 방법 및 그를 이용한 시스템
KR102410286B1 (ko) * 2021-11-19 2022-06-22 주식회사 씨앤에이아이 딥러닝에 기반하여 낙상 사고를 감지하는 방법 및 그 전자장치
KR20230078087A (ko) * 2021-11-26 2023-06-02 주식회사 엘렉시 행동 인식 시스템 및 방법
KR102511287B1 (ko) * 2022-08-05 2023-03-21 주식회사 마크애니 영상 기반 자세 예측 및 행동 검출 방법 및 장치

Similar Documents

Publication Publication Date Title
CN111383421B (zh) 隐私保护跌倒检测方法和系统
US10095930B2 (en) System and method for home health care monitoring
US9277878B2 (en) Image processing sensor systems
US9740921B2 (en) Image processing sensor systems
Williams et al. Aging in place: fall detection and localization in a distributed smart camera network
Huang et al. Multimodal sleeping posture classification
US20020044682A1 (en) Method and apparatus for subject physical position and security determination
Shoaib et al. View-invariant fall detection for elderly in real home environment
US10229491B1 (en) Medical environment monitoring system
CN110443179B (zh) 离岗检测方法、装置以及存储介质
KR102410286B1 (ko) 딥러닝에 기반하여 낙상 사고를 감지하는 방법 및 그 전자장치
WO2019003859A1 (ja) 見守り支援システム及びその制御方法、及びプログラム
US10475206B1 (en) Medical environment event parsing system
CN114601454A (zh) 一种病人卧床姿势的监控方法
JP2017091552A (ja) 行動検知装置および行動検知方法ならびに被監視者監視装置
JP2011209794A (ja) 対象物認識システム及び該システムを利用する監視システム、見守りシステム
CN110073442A (zh) 用于检测光学图像数据和用于确定患者支承设备的侧边界的位置的设备、方法和计算机程序
CN117132949B (zh) 一种基于深度学习的全天候跌倒检测方法
JP2011198244A (ja) 対象物認識システム及び該システムを利用する監視システム、見守りシステム
KR102628690B1 (ko) 이상행동 탐지 시스템
KR102628689B1 (ko) 이상행동 탐지 시스템
WO2018235628A1 (ja) 見守り支援システム及びその制御方法、及びプログラム
JP7243725B2 (ja) 対象物体検出プログラム、および対象物体検出装置
Biswas et al. A literature review of current vision based fall detection methods
JP7347577B2 (ja) 画像処理システム、画像処理プログラム、および画像処理方法

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant