KR20220093642A - Apparatus for labeling data for early screening of developmental disabilities based on learning model and method therefor - Google Patents

Apparatus for labeling data for early screening of developmental disabilities based on learning model and method therefor Download PDF

Info

Publication number
KR20220093642A
KR20220093642A KR1020200184560A KR20200184560A KR20220093642A KR 20220093642 A KR20220093642 A KR 20220093642A KR 1020200184560 A KR1020200184560 A KR 1020200184560A KR 20200184560 A KR20200184560 A KR 20200184560A KR 20220093642 A KR20220093642 A KR 20220093642A
Authority
KR
South Korea
Prior art keywords
behavior
frames
label
examiner
learning model
Prior art date
Application number
KR1020200184560A
Other languages
Korean (ko)
Other versions
KR102488969B1 (en
Inventor
김정준
권용섭
김민규
김은수
김경호
손동섭
Original Assignee
한국로봇융합연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국로봇융합연구원 filed Critical 한국로봇융합연구원
Priority to KR1020200184560A priority Critical patent/KR102488969B1/en
Publication of KR20220093642A publication Critical patent/KR20220093642A/en
Application granted granted Critical
Publication of KR102488969B1 publication Critical patent/KR102488969B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/70ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mental therapies, e.g. psychological therapy or autogenous training
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Developmental Disabilities (AREA)
  • Psychology (AREA)
  • Social Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Physics & Mathematics (AREA)
  • Educational Technology (AREA)
  • Biophysics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

A device for labeling is provided. The device comprises: a label deriving unit which calculates the probability that the behavior of an examiner or a subject shown in each of a plurality of frames belongs to each of multiple types of behavior through a learning model which has been completed with training, when a streaming video including the plurality of frames is input, and estimates the behavior of the examiner or the subject shown in each of the plurality of frames according to the calculated probability; and a label processing unit which detects a start time and an end time of a continuous frame having the same behavior estimated by the label deriving unit, from the plurality of frames, and labels the estimated behavior in response to the detected start time and end time for the streaming video.

Description

학습모델 기반의 발달 장애 조기 선별을 위한 데이터에 대한 레이블링을 위한 장치 및 이를 위한 방법{Apparatus for labeling data for early screening of developmental disabilities based on learning model and method therefor} Apparatus for labeling data for early screening of developmental disabilities based on learning model and method therefor

본 발명은 데이터에 대한 레이블링 기술에 관한 것으로, 보다 상세하게는, 학습모델 기반의 발당 장애 조기 선별을 위한 데이터에 대한 레이블링을 위한 장치 및 이를 위한 방법에 관한 것이다. The present invention relates to a labeling technique for data, and more particularly, to an apparatus and method for labeling data for early detection of a walking disorder based on a learning model.

발달장애(Developmental Disability)는 영유아 기부터 시작하는 뇌 신경계 발달 장애들의 집합으로 언어 및 의사소통, 인지력, 사회성 등의 측면에서 이루어져야 할 발달이 심하게 지체되거나 성취되지 않은 장애를 의미한다. 발달 장애인은 지적 장애인과 자폐성 장애인으로 규정되어지는데, 국내의 경우 전체 장애인 수는 매년 감소하는 추세이나, 발달 장애로 진단 받은 사람의 일부만 장애로 등록하는 것으로 추정되므로 실제 발달 장애인은 등록된 숫자보다 훨씬 더 많을 것으로 추정되고 있다. Developmental Disability is a set of developmental disorders of the brain and nervous system starting from infancy, and refers to a disability that is severely delayed or not achieved in the aspects of language, communication, cognition, and sociality. Developmental disabilities are defined as intellectual disabilities and autistic disabilities. In Korea, the total number of people with disabilities is decreasing every year, but it is estimated that only a part of people diagnosed with developmental disabilities are registered as disabilities. It is estimated that more

자폐스펙트럼장애(ASD: Autism Spectrum Disorders)는 2세 전후에 진단이 가능하며, 이후 평생 지속되며 발달의 가장 기본적인 영역의 많은 부분에 이상을 초래하여, 아동의 독립적인 발달, 교육, 가족 삶의 질에 미치는 영향이 큰 장애라 할 수 있다. ASD에 대한 임상과 연구 측면 모두에서 조기 발견과 조기 개입은 매우 중요한 문제인데, 영유아기는 뇌의 가소성이 높은 시기여서 정상적인 형태에 가깝게 변화 할 수 있는 기회를 제공할 뿐 아니라 이차적인 신경학적 손상과 이에 따른 이차적인 심각한 행동 문제가 점차 축적 되는 것을 미리 방지 할 수 있다.Autism Spectrum Disorders (ASD) can be diagnosed around 2 years of age, lasts for a lifetime, and causes abnormalities in many of the most basic areas of development, resulting in children's independent development, education, and quality of family life. It can be considered as an obstacle that has a large impact on Early detection and early intervention are very important issues in both clinical and research aspects of ASD. Infancy and early childhood are a period of high brain plasticity, which provides an opportunity to change close to a normal form, as well as to prevent secondary neurological damage. It is possible to prevent the secondary serious behavioral problems from gradually accumulating in advance.

ASD 진단에는 직접적인 관찰, 양육자와 교사가 제공하는 정보, 성장 과정에 대한 상세한 과거력, 인지능력이나 다른 심리적인 기능에 대한 객관적/정량적 평가, 감별진단을 위한 검사, 신경학적 평가, 뇌기능 검사 등을 필요로 한다. 기존의 ASD 선별 도구들은 사용을 위한 훈련과정이 매우 오래 걸리고, 개별 전문가들의 경험과 능력에 따라 진단의 비일관성이 존재하며, 한명의 아동을 진단하는데 최소 6~7시간의 검사 시간과 투입되는 자원이 매우 방대하다. 또한, 유아/아동의 경우 진단 검사를 어디에서 누구와 시행했는지에 따라 일반적으로 일상생활에서 보이는 행동들과는 많이 상이 할 수 있다. 따라서, 인공 지능 기술의 융??복합을 위한 영유아/아동의 ASD 발견 선별검사 도구의 개발과 이를 적용한 콘텐츠 및 인지능력이나 심리적 변화에 대한 객관적이고 정량적 평가를 효율적으로 할 수 있는 AI기반 해결방안이 필요하다. 즉, 새로운 선별 검사 도구에 기반한 영유아/아동의 다중감각 데이터 수집 및 이의 자동분석을 통한 비언어적 의사소통 인지, 비정상/상동 증적 표적행동 인지, 복합정보 기반 심리예측 등 ASD 조기선별 시스템을 통한 문제 해결이 필요하다. ASD diagnosis includes direct observation, information provided by caregivers and teachers, detailed history of growth, objective/quantitative evaluation of cognitive ability or other psychological functions, tests for differential diagnosis, neurological evaluation, brain function tests, etc. in need. Existing ASD screening tools take a very long time to train for use, there is inconsistency in diagnosis depending on the experiences and abilities of individual experts, and it takes at least 6-7 hours of testing time and resources to diagnose one child. very voluminous In addition, in the case of infants/children, the behaviors generally seen in daily life may differ greatly depending on where, with whom, the diagnostic test is performed. Therefore, the development of an ASD detection screening test tool for infants/children for the convergence of artificial intelligence technology and an AI-based solution that can efficiently evaluate the contents and cognitive abilities or psychological changes to which it is applied need. In other words, problem solving through the ASD early screening system such as non-verbal communication recognition through automatic analysis of multisensory data collection and automatic analysis of infants/children based on a new screening test tool, recognition of abnormal/homologous target behavior, and psychological prediction based on complex information need.

한국공개특허 제2020-0085766호 2020년 07월 15일 공개 (명칭: 인지 기능 장애 진단 장치 및 인지 기능 장애 진단 프로그램)Korean Patent Publication No. 2020-0085766 published on July 15, 2020 (Title: Cognitive dysfunction diagnosis device and cognitive dysfunction diagnosis program)

본 발명은 학습모델 기반의 발달 장애 조기 선별을 위한 데이터에 대한 레이블링을 위한 장치 및 이를 위한 방법을 제공함에 있다. An object of the present invention is to provide an apparatus for labeling data for early screening of developmental disabilities based on a learning model and a method therefor.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 레이블링을 위한 장치는 컬러 프레임, 뎁스 프레임 및 음성을 포함하는 복수의 프레임을 포함하는 스트리밍 영상 데이터가 입력되면, 학습이 완료된 학습모델을 통해 상기 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위가 복수의 유형의 행위 각각에 속할 확률을 산출하고, 산출된 확률에 따라 상기 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위를 추정하는 레이블도출부와, 상기 복수의 프레임 중 상기 레이블도출부가 추정한 행위가 동일한 연속된 프레임의 시작 시간 및 종료 시간을 검출하고, 상기 스트리밍 영상 데이터에 대해 검출된 시작 시간 및 종료 시간에 대응하여 상기 추정된 행위를 레이블링하는 레이블처리부를 포함한다. In an apparatus for labeling according to a preferred embodiment of the present invention for achieving the object as described above, when streaming image data including a plurality of frames including a color frame, a depth frame, and a voice is input, learning is completed learning model Calculates the probability that the behavior of the inspector or examinee displayed in each of the plurality of frames belongs to each of a plurality of types of behavior through Detects a start time and an end time of consecutive frames having the same behavior estimated by the label derivation unit among the plurality of frames, and the estimated behavior corresponding to the detected start time and end time for the streaming image data It includes a label processing unit for labeling.

각 타임라인 별로 검사자 혹은 피검자의 행위의 유형을 나타내는 매뉴얼 레이블이 부여되어 있고 복수의 프레임을 포함하는 스트리밍 영상 데이터인 학습용 영상 데이터를 마련하고, 학습모델에 상기 학습용 영상 데이터의 복수의 프레임을 순차로 입력하고, 학습모델이 복수의 계층 간 가중치가 적용되는 복수의 연산을 통해 상기 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위가 복수의 유형의 행위 각각에 속할 확률을 출력값으로 산출하면, 산출된 출력값과 상기 매뉴얼 레이블과의 차이가 최소가 되도록 상기 학습모델의 가중치를 수정하는 최적화를 수행하는 모델생성부를 더 포함한다. For each timeline, a manual label indicating the type of behavior of the examiner or examinee is given, and video data for training, which is streaming video data including a plurality of frames, is prepared, and a plurality of frames of the video data for training are sequentially provided to the learning model. input, and when the learning model calculates, as an output value, the probability that the behavior of the examiner or examinee displayed in each of the plurality of frames belongs to each of the plurality of types of behavior through a plurality of operations to which a plurality of inter-layer weights are applied, the calculated output value and a model generator for performing optimization of modifying the weight of the learning model so that a difference between it and the manual label is minimized.

상기 학습모델은 스트리밍 영상의 복수의 프레임을 순차로 입력받는 입력층과, 적어도 하나의 컨벌루션계층과, 적어도 하나의 풀링계층과, 적어도 하나의 완전연결계층과, 검사자 혹은 피검자의 복수의 유형의 행위 각각에 대응하는 출력 노드를 포함하는 출력계층을 포함한다. The learning model includes an input layer that sequentially receives a plurality of frames of a streaming image, at least one convolutional layer, at least one pooling layer, at least one fully connected layer, and a plurality of types of actions of an examiner or examinee It includes an output layer including an output node corresponding to each.

상기 모델생성부는 손실함수

Figure pat00001
의 값인 손실이 최소가 되도록 학습모델의 가중치를 수정하는 최적화를 수행하며, 상기 L은 손실을 나타내고, 상기 n은 학습용 영상 데이터의 프레임의 수이고, 상기 t는 프레임의 인덱스이고, 상기 w는 학습모델이 분류할 수 있는 피검자의 행위의 수에 비례하여 증가하는 하이퍼파라미터이며, 상기 s는 검사자의 행위인지 혹은 피검자의 행위인지 여부를 구분하는 매뉴얼 레이블이고, 상기 a는 피검자의 행위의 유형을 나타내는 매뉴얼 레이블이고, 상기 e(t)는 출력값 중 검사자의 행위를 나타내는 출력노드의 출력값의 합과, 피검자의 행위를 나타내는 출력노드의 출력값의 합을 나타내며, 상기 b(t)는 출력값 중 피검자의 행위의 유형에 대응하는 출력노드 각각의 출력값을 나타내는 것을 특징으로 한다. The model generator is a loss function
Figure pat00001
Optimization is performed to correct the weight of the learning model so that the loss, which is the value of , is minimized, where L represents the loss, n is the number of frames of image data for training, t is the index of the frame, and w is the learning It is a hyperparameter that increases in proportion to the number of behaviors of the subject that the model can classify, where s is the inspector's behavior or a manual label that distinguishes whether the behavior is the subject's behavior, and a is the type of behavior of the subject. manual label, wherein e(t) represents the sum of the output values of the output nodes indicating the behavior of the examiner among the output values and the sum of the output values of the output nodes indicating the behavior of the examinee, and b(t) is the behavior of the examinee among the output values It is characterized in that it represents the output value of each output node corresponding to the type of .

상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 레이블링을 위한 방법은 레이블도출부가 컬러 프레임, 뎁스 프레임 및 음성을 포함하는 복수의 프레임을 포함하는 스트리밍 영상 데이터가 입력되면, 학습이 완료된 학습모델을 통해 상기 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위가 복수의 유형의 행위 각각에 속할 확률을 산출하는 단계와, 상기 레이블도출부가 상기 산출된 확률에 따라 상기 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위를 추정하는 단계와, 레이블처리부가 상기 복수의 프레임 중 상기 레이블도출부가 추정한 행위가 동일한 연속된 프레임의 시작 시간 및 종료 시간을 검출하는 단계와, 상기 레이블처리부가 상기 스트리밍 영상 데이터에 대해 검출된 시작 시간 및 종료 시간에 대응하여 상기 추정된 행위를 레이블링하는 단계를 포함한다. In the method for labeling according to a preferred embodiment of the present invention for achieving the object as described above, when streaming image data including a plurality of frames including a color frame, a depth frame and a voice is input to the label derivation unit, learning is Calculating a probability that an inspector or examinee's behavior shown in each of the plurality of frames through the completed learning model belongs to each of a plurality of types of behavior; estimating the behavior of an examiner or subject; detecting, by the label processing unit, start time and end time of consecutive frames having the same behavior estimated by the label derivation unit among the plurality of frames, the label processing unit detecting the streaming image; and labeling the estimated behavior corresponding to a detected start time and an end time for the data.

본 발명에 따르면 발달 장애 조기 선별을 위한 검사 시, 검사자의 질문과 피검자의 응답 행위를 학습 모델을 통해 식별하고, 이를 해당 영상에 레이블링할 수 있다. 이에 따라, ASD 발견 선별검사 도구의 개발과 이를 적용한 콘텐츠 및 인지능력이나 심리적 변화에 대한 객관적이고 정량적 평가를 효율적으로 할 수 있는 AI 기반 해결 기법의 연구에 필요한 데이터를 효율적으로 수집할 수 있다. According to the present invention, during an examination for early screening of developmental disabilities, the examiner's question and the subject's response behavior can be identified through a learning model, and the corresponding image can be labeled. Accordingly, it is possible to efficiently collect the data required for the development of the ASD detection screening test tool, the contents to which it is applied, and the study of the AI-based solution technique that can efficiently perform objective and quantitative evaluation of cognitive abilities or psychological changes.

도 1은 본 발명의 실시예에 따른 학습모델 기반의 발달 장애 조기 선별을 위한 데이터에 대한 레이블링을 위한 장치의 구성을 설명하기 위한 도면이다.
도 2는 본 발명의 실시예에 따른 학습모델 기반의 발달 장애 조기 선별을 위한 데이터에 대한 레이블링을 위한 장치의 세부 구성을 설명하기 위한 도면이다.
도 3은 본 발명의 실시예에 따른 데이터에 대한 레이블링을 위한 학습 모델의 구성을 설명하기 위한 도면이다.
도 4는 본 발명의 실시예에 따른 데이터에 대한 레이블링을 위한 학습 모델이 산출하는 데이터를 설명하기 위한 도면이다.
도 5는 본 발명의 실시예에 따른 학습모델(ML)을 학습시키기 위한 학습 데이터를 마련하는 방법을 설명하기 위한 흐름도이다.
도 6은 본 발명의 실시예에 따른 학습용 영상 데이터를 이용하여 학습 모델을 학습시키는 방법을 설명하기 위한 흐름도이다.
도 7은 본 발명의 실시예에 따른 학습모델(ML)을 이용하여 발달 장애 조기 선별을 위한 데이터에 대한 레이블링을 수행하는 방법을 설명하기 위한 흐름도이다.
1 is a diagram for explaining the configuration of an apparatus for labeling data for early screening of developmental disabilities based on a learning model according to an embodiment of the present invention.
2 is a diagram for explaining the detailed configuration of an apparatus for labeling data for early screening of developmental disabilities based on a learning model according to an embodiment of the present invention.
3 is a diagram for explaining the configuration of a learning model for labeling data according to an embodiment of the present invention.
4 is a diagram for explaining data calculated by a learning model for labeling data according to an embodiment of the present invention.
5 is a flowchart illustrating a method of preparing learning data for learning a learning model (ML) according to an embodiment of the present invention.
6 is a flowchart illustrating a method of learning a learning model using image data for training according to an embodiment of the present invention.
7 is a flowchart illustrating a method of labeling data for early screening of developmental disabilities using a learning model (ML) according to an embodiment of the present invention.

본 발명의 상세한 설명에 앞서, 이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 실시예에 불과할 뿐, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다. Prior to the detailed description of the present invention, the terms or words used in the present specification and claims described below should not be construed as being limited to their ordinary or dictionary meanings, and the inventors should develop their own inventions in the best way. It should be interpreted as meaning and concept consistent with the technical idea of the present invention based on the principle that it can be appropriately defined as a concept of a term for explanation. Therefore, the embodiments described in the present specification and the configurations shown in the drawings are only the most preferred embodiments of the present invention, and do not represent all the technical spirit of the present invention, so various equivalents that can be substituted for them at the time of the present application It should be understood that there may be water and variations.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 이때, 첨부된 도면에서 동일한 구성 요소는 가능한 동일한 부호로 나타내고 있음을 유의해야 한다. 또한, 본 발명의 요지를 흐리게 할 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략할 것이다. 마찬가지의 이유로 첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 또는 개략적으로 도시되었으며, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다. Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. In this case, it should be noted that in the accompanying drawings, the same components are denoted by the same reference numerals as much as possible. In addition, detailed descriptions of well-known functions and configurations that may obscure the gist of the present invention will be omitted. For the same reason, some components are exaggerated, omitted, or schematically illustrated in the accompanying drawings, and the size of each component does not fully reflect the actual size.

먼저, 본 발명의 실시예에 따른 학습모델 기반의 발달 장애 조기 선별을 위한 데이터에 대한 레이블링을 위한 장치에 대해서 설명하기로 한다. 도 1은 본 발명의 실시예에 따른 학습모델 기반의 발달 장애 조기 선별을 위한 데이터에 대한 레이블링을 위한 장치의 구성을 설명하기 위한 도면이다. 도 2는 본 발명의 실시예에 따른 학습모델 기반의 발달 장애 조기 선별을 위한 데이터에 대한 레이블링을 위한 장치의 세부 구성을 설명하기 위한 도면이다. First, an apparatus for labeling data for early screening of developmental disabilities based on a learning model according to an embodiment of the present invention will be described. 1 is a diagram for explaining the configuration of an apparatus for labeling data for early screening of developmental disabilities based on a learning model according to an embodiment of the present invention. 2 is a diagram for explaining the detailed configuration of an apparatus for labeling data for early screening of developmental disabilities based on a learning model according to an embodiment of the present invention.

먼저, 도 1을 참조하면, 본 발명의 실시예에 따른 레이블장치(10)는 카메라부(11), 센서부(12), 음성처리부(13), 입력부(14), 표시부(15), 저장부(16) 및 제어부(17)를 포함한다. First, referring to FIG. 1 , a label device 10 according to an embodiment of the present invention includes a camera unit 11 , a sensor unit 12 , a voice processing unit 13 , an input unit 14 , a display unit 15 , and a storage unit. It includes a unit 16 and a control unit 17 .

카메라부(11)는 복수의 컬러 프레임을 포함하는 영상을 촬영하기 위한 것이다. 카메라부(11)는 복수의 카메라를 포함한다. 복수의 카메라는 각각 서로 다른 방향에서 검사자 및 피검자를 촬영하여 복수의 컬러 프레임을 포함하는 영상을 생성할 수 있다. The camera unit 11 is for capturing an image including a plurality of color frames. The camera unit 11 includes a plurality of cameras. The plurality of cameras may generate images including a plurality of color frames by photographing the examiner and the examinee in different directions, respectively.

센서부(12)는 복수의 키넥트 센서를 포함한다. 복수의 키넥트 센서는 서로 다른 방향에서 검사자 및 피검자에 적외선을 방사하고, 이로부터 복수의 뎁스(IR depth) 프레임을 포함하는 뎁스 영상을 촬영한다. The sensor unit 12 includes a plurality of Kinect sensors. The plurality of Kinect sensors radiate infrared rays to the examiner and the subject in different directions, and capture a depth image including a plurality of IR depth frames therefrom.

음성처리부(13)은 적어도 하나의 마이크를 포함하며, 적어도 하나의 마이크를 통해 검사자 및 피검자의 음성을 수집한다. The voice processing unit 13 includes at least one microphone, and collects voices of the examiner and the examinee through the at least one microphone.

입력부(14)는 레이블장치(10)를 제어하기 위한 사용자의 조작을 입력받고 입력 신호를 생성하여 제어부(17)에 전달할 수 있다. 입력부(14)는 레이블장치(10)를 제어하기 위한 각 종 키, 버튼 등을 포함한다. The input unit 14 may receive a user's manipulation for controlling the label apparatus 10 , generate an input signal, and transmit it to the control unit 17 . The input unit 14 includes various keys and buttons for controlling the label device 10 .

표시부(15)는 화면 표시를 위한 것으로, 레이블장치(10)의 메뉴, 입력된 데이터, 기능 설정 정보 및 기타 다양한 정보를 사용자에게 시각적으로 제공할 수 있다. 표시부(15)는 액정표시장치(LCD, Liquid Crystal Display), 유기 발광 다이오드(OLED, Organic Light Emitting Diodes), 능동형 유기 발광 다이오드(AMOLED, Active Matrix Organic Light Emitting Diodes) 등으로 형성될 수 있다. 한편, 표시부(15)는 터치스크린으로 구현될 수 있다. 이러한 경우, 표시부(15)는 터치센서를 포함한다. 터치센서는 사용자의 터치 입력을 감지한다. 터치센서는 정전용량 방식(capacitive overlay), 압력식, 저항막 방식(resistive overlay), 적외선 감지 방식(infrared beam) 등의 터치 감지 센서로 구성되거나, 압력 감지 센서(pressure sensor)로 구성될 수도 있다. 상기 센서들 이외에도 물체의 접촉 또는 압력을 감지할 수 있는 모든 종류의 센서 기기가 본 발명의 터치센서로 이용될 수 있다. 터치센서는 사용자의 터치 입력을 감지하고, 터치된 위치를 나타내는 입력 좌표를 포함하는 감지 신호를 발생시켜 제어부(17)로 전송할 수 있다. The display unit 15 is for screen display, and may visually provide a menu of the label device 10, input data, function setting information, and other various information to the user. The display unit 15 may be formed of a liquid crystal display (LCD), an organic light emitting diode (OLED), an active matrix organic light emitting diode (AMOLED), or the like. Meanwhile, the display unit 15 may be implemented as a touch screen. In this case, the display unit 15 includes a touch sensor. The touch sensor detects a user's touch input. The touch sensor may be composed of a touch sensing sensor such as a capacitive overlay, a pressure type, a resistive overlay, or an infrared beam, or may be composed of a pressure sensor. . In addition to the above sensors, all types of sensor devices capable of sensing contact or pressure of an object may be used as the touch sensor of the present invention. The touch sensor may detect a user's touch input, generate a detection signal including input coordinates indicating the touched position, and transmit it to the controller 17 .

저장부(16)는 레이블장치(10)의 동작에 필요한 프로그램 및 데이터를 저장하는 역할을 수행한다. 저장부(16)는 카메라부(11)의 복수의 카메라가 촬영한 컬러 영상 및 센서부(12)의 복수의 키네틱 센서가 촬영하는 뎁스 영상, 및 음성처리부(13)이 수집하는 음성을 저장할 수 있다. 저장부(16)에 저장되는 각 종 데이터는 사용자의 조작에 따라, 삭제, 변경, 추가될 수 있다. The storage unit 16 serves to store programs and data necessary for the operation of the label device 10 . The storage unit 16 may store a color image photographed by a plurality of cameras of the camera unit 11 , a depth image photographed by a plurality of kinetic sensors of the sensor unit 12 , and a voice collected by the audio processing unit 13 . have. Each type of data stored in the storage unit 16 may be deleted, changed, or added according to a user's operation.

제어부(17)는 레이블장치(10)의 전반적인 동작 및 레이블장치(10)의 내부 블록들 간 신호 흐름을 제어하고, 데이터를 처리하는 데이터 처리 기능을 수행할 수 있다. 또한, 제어부(17)는 기본적으로, 레이블장치(10)의 각 종 기능을 제어하는 역할을 수행한다. 제어부(17)는 중앙처리장치(CPU: Central Processing Unit), 디지털신호처리기(DSP: Digital Signal Processor) 등을 예시할 수 있다. 특히, 제어부(17)는 스트리밍 영상 데이터에 대해 레이블링을 수행한다. 본 발명의 실시예에서 스트리밍 영상 데이터는 카메라부(11)의 복수의 카메라가 촬영하는 복수의 컬러 프레임을 포함하는 컬러 영상, 센서부(12)의 복수의 키넥트 센서가 촬영하는 복수의 뎁스 프레임을 포함하는 뎁스 영상 및 음성처리부(13)에 의해 수집되는 음성에서 복수의 컬러 프레임, 복수의 뎁스 프레임 및 음성을 타임라인에 따라 동기가 맞춰진 데이터이다. The control unit 17 may control the overall operation of the label apparatus 10 and the signal flow between internal blocks of the label apparatus 10 , and perform a data processing function of processing data. Also, the control unit 17 basically serves to control various functions of the label apparatus 10 . The control unit 17 may be exemplified by a central processing unit (CPU), a digital signal processor (DSP), or the like. In particular, the control unit 17 performs labeling on streaming image data. In an embodiment of the present invention, streaming image data includes a color image including a plurality of color frames photographed by a plurality of cameras of the camera unit 11 , and a plurality of depth frames photographed by a plurality of Kinect sensors of the sensor unit 12 . It is data in which a plurality of color frames, a plurality of depth frames, and audio are synchronized according to a timeline in the depth image and audio collected by the audio processing unit 13 .

도 2를 참조하면, 제어부(17)는 레이블링을 위해 데이터처리부(100), 모델생성부(200), 레이블도출부(300) 및 레이블처리부(400)를 포함한다. Referring to FIG. 2 , the control unit 17 includes a data processing unit 100 , a model generation unit 200 , a label derivation unit 300 , and a label processing unit 400 for labeling.

데이터처리부(100)는 카메라부(11), 센서부(12) 및 음성처리부(13)을 통해 복수의 컬러 프레임, 복수의 뎁스 프레임 및 음성을 수집하고, 수집되는 타임라인에 따라 복수의 컬러 프레임, 복수의 뎁스 프레임 및 음성이 동기되어 스트리밍 영상 데이터를 생성한다. 생성된 스트리밍 영상 데이터는 모델생성부(200), 레이블도출부(300) 및 레이블처리부(400)에 제공될 수 있다. The data processing unit 100 collects a plurality of color frames, a plurality of depth frames, and voices through the camera unit 11 , the sensor unit 12 , and the voice processing unit 13 , and a plurality of color frames according to the collected timeline. , a plurality of depth frames and audio are synchronized to generate streaming video data. The generated streaming image data may be provided to the model generating unit 200 , the label deriving unit 300 , and the label processing unit 400 .

모델생성부(200)는 학습모델(LM: Leaning Model)을 학습시키기 위한 것이다. 학습모델(LM: Leaning Model)은 심층신경망(Deep Neural Network)이 될 수 있다. 특히, 학습모델(LM)은 대표적으로, CNN(Convolution Neural Network)을 예시할 수 있다. 이러한 학습모델(LM)에 대해서는 아래에서 더 상세하게 설명될 것 이다. The model generating unit 200 is for learning a learning model (LM: Leaning Model). A learning model (LM) may be a deep neural network. In particular, the learning model LM may be representative of a Convolution Neural Network (CNN). This learning model (LM) will be described in more detail below.

레이블도출부(300)은 모델생성부(200)로부터 학습이 완료된 학습모델(LM)을 제공받는다. 레이블도출부(300)은 스트리밍 영상 데이터를 입력받을 수 있다. 스트리밍 영상 데이터는 컬러 프레임, 뎁스 프레임 및 프레임에 대응하는 음성을 포함하는 복수의 프레임을 포함한다. 레이블도출부(300)은 스트리밍 영상 데이터를 프레임 별로 학습모델(LM)에 입력한다. 그러면, 학습이 완료된 학습모델(LM)을 통해 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위가 복수의 유형의 행위 각각에 속할 확률을 산출한다. 그러면, 레이블도출부(300)은 학습모델(LM)이 산출된 확률에 따라 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위를 추정한다. The label deriving unit 300 is provided with the learning model LM in which learning is completed from the model generating unit 200 . The label extracting unit 300 may receive streaming image data. The streaming image data includes a color frame, a depth frame, and a plurality of frames including audio corresponding to the frame. The label derivation unit 300 inputs streaming image data to the learning model LM for each frame. Then, the probability that the behavior of the examiner or the examinee displayed in each of the plurality of frames belongs to each of the plurality of types of behavior is calculated through the learning model LM on which the learning has been completed. Then, the label derivation unit 300 estimates the behavior of the examiner or the examinee appearing in each of the plurality of frames according to the probability calculated by the learning model LM.

레이블처리부(400)은 스트리밍 영상 데이터의 복수의 프레임 중 레이블도출부(300)이 추정한 행위가 동일한 연속된 프레임의 시작 시간 및 종료 시간을 검출하고, 스트리밍 영상 데이터에 대해 검출된 시작 시간 및 종료 시간에 대응하여 상기 추정된 행위를 레이블링한다. The label processing unit 400 detects a start time and an end time of consecutive frames having the same behavior estimated by the label deriving unit 300 among a plurality of frames of streaming image data, and detects a start time and an end time for streaming image data. Label the estimated behavior corresponding to time.

다음으로, 본 발명의 실시예에 따른 데이터에 대한 레이블링을 위한 학습 모델의 구성에 대해서 설명하기로 한다. 도 3은 본 발명의 실시예에 따른 데이터에 대한 레이블링을 위한 학습 모델의 구성을 설명하기 위한 도면이다. 도 4는 본 발명의 실시예에 따른 데이터에 대한 레이블링을 위한 학습 모델이 산출하는 데이터를 설명하기 위한 도면이다. Next, a configuration of a learning model for labeling data according to an embodiment of the present invention will be described. 3 is a diagram for explaining the configuration of a learning model for labeling data according to an embodiment of the present invention. 4 is a diagram for explaining data calculated by a learning model for labeling data according to an embodiment of the present invention.

도 3을 참조하면, 학습모델(LM)은 입력층(input layer: IL), 교번으로 반복되는 적어도 한 쌍의 컨벌루션층(convolution layer: CL)과 풀링층(pooling layer: PL), 적어도 하나의 완전연결층(fully-connected layer: FL) 및 출력층(output layer: OL)을 포함한다. 도시된 바와 같이, 본 발명의 일 실시예에 따른 심층신경망(400)은 순차로 입력층(IL), 컨볼루션층(CL), 풀링층(PL), 완전연결층(FL) 및 출력층(OL)을 포함한다. Referring to FIG. 3 , the learning model LM includes an input layer (IL), at least a pair of alternately repeated convolution layers (CL) and a pooling layer (PL), at least one a fully-connected layer (FL) and an output layer (OL). As shown, the deep neural network 400 according to an embodiment of the present invention sequentially includes an input layer (IL), a convolution layer (CL), a pooling layer (PL), a fully connected layer (FL), and an output layer (OL). ) is included.

컨볼루션층(CL) 및 풀링층(PL)은 적어도 하나의 특징맵(FM: Feature Map)으로 구성된다. 특징맵(FM)은 이전 계층의 연산 결과에 대해 가중치 및 임계치를 적용한 값을 입력받고, 입력받은 값에 대한 연산을 수행한 결과로 도출된다. 이러한 가중치는 소정 크기의 가중치 행렬인 필터 혹은 커널(W)을 통해 적용된다. 본 발명의 실시예에서 컨볼루션층(CL)의 컨벌루션 연산은 제1 필터(W1)가 사용되며, 풀링층(PL)의 풀링 연산은 제2 필터(W2)가 사용된다. The convolution layer CL and the pooling layer PL include at least one feature map (FM). The feature map FM is derived as a result of receiving a value to which a weight and a threshold are applied to the operation result of the previous layer, and performing an operation on the input value. These weights are applied through a filter or kernel W that is a weight matrix of a predetermined size. In the embodiment of the present invention, the first filter W1 is used for the convolution operation of the convolutional layer CL, and the second filter W2 is used for the pooling operation of the pooling layer PL.

입력층(IL)에 스트리밍 영상 데이터의 어느 하나의 프레임(컬러 프레임, 뎁스 프레임 및 음성을 포함)이 입력되면, 컨볼루션층(CL)은 입력층(IL)에 입력된 프레임에 대해 제1 필터(W1)를 이용한 컨벌루션(convolution) 연산 및 활성화함수에 의한 연산을 수행하여 적어도 하나의 제1 특징맵(FM1)을 도출한다. 이어서, 풀링층(PL)은 컨볼루션층(CL)의 적어도 하나의 제1 특징맵(FM1)에 대해 제2 필터(W2)를 이용한 풀링(pooling 또는 sub-sampling) 연산을 수행하여 적어도 하나의 제2 특징맵(FM2)을 도출한다. When any one frame (including a color frame, a depth frame, and an audio) of streaming image data is input to the input layer IL, the convolution layer CL performs a first filter on the frame input to the input layer IL. At least one first feature map FM1 is derived by performing a convolution operation using (W1) and an operation by an activation function. Next, the pooling layer PL performs a pooling or sub-sampling operation using the second filter W2 on at least one first feature map FM1 of the convolution layer CL to obtain at least one A second feature map FM2 is derived.

완결연결층(FL)은 도 4에 도시된 바와 같이, 복수의 연산노드(F1 내지 Fm)로 이루어진다. 완결연결층(CL)의 복수의 연산노드(F1 내지 Fm)는 풀링층(PL)의 적어도 하나의 제2 특징맵(FM2)에 대해 활성화함수에 의한 연산을 통해 복수의 연산값을 산출한다. As shown in FIG. 4 , the final connection layer FL includes a plurality of operation nodes F1 to Fm. The plurality of operation nodes F1 to Fm of the final connection layer CL calculates a plurality of operation values through an operation by an activation function with respect to at least one second feature map FM2 of the pooling layer PL.

출력층(OL)은 복수의 출력노드(O1 내지 On)를 포함한다. 완결연결층(FL)의 복수의 연산노드(F1 내지 Fm) 각각은 가중치(W: weight)를 가지는 채널로 출력층(OL)의 출력노드(O1 내지 On)와 연결된다. 다른 말로, 복수의 연산노드(F1 내지 Fm)의 복수의 연산값은 가중치(W)가 적용되어 복수의 출력노드(O1 내지 On) 각각에 입력된다. 이에 따라, 출력층(OL)의 복수의 출력노드(O1 내지 On)는 완결연결층(FL)의 가중치(W)가 적용되는 복수의 연산값에 대해 활성화함수에 의한 연산을 통해 출력값을 산출한다. The output layer OL includes a plurality of output nodes O1 to On. Each of the plurality of operation nodes F1 to Fm of the final connection layer FL is connected to the output nodes O1 to On of the output layer OL through a channel having a weight (W). In other words, a weight W is applied to the plurality of operation values of the plurality of operation nodes F1 to Fm and is input to each of the plurality of output nodes O1 to On. Accordingly, the plurality of output nodes O1 to On of the output layer OL calculates an output value through an activation function operation with respect to a plurality of calculated values to which the weight W of the final connection layer FL is applied.

출력층(OL)의 복수의 출력노드(O1 내지 On) 각각은 검사자 혹은 피검자의 행위의 유형에 대응한다. 예컨대, 제1 출력노드(O1)는 검사자의 행위 중 질문에 대응하고, 제2 출력노드(O2)는 피검자의 응답 행위 중 눈맞춤에 대응하며, 제3 출력노드(O2)는 피검자의 응답 행위 중 고개 젓기에 대응하며, 제n 출력노드(On)는 피검자의 응답 행위 중 건네주기에 대응할 수 있다. 이에 따라, 예컨대, 제1 출력노드(O1)의 출력값은 프레임 내의 검사자 혹은 피검자의 행위가 검사자의 질문 행위일 확률이고, 제2 출력노드(O2)의 출력값은 프레임 내의 검사자 혹은 피검자의 행위가 피검자의 응답 행위 중 눈맞춤일 확률이며, 제3 출력노드(O2)의 출력값은 프레임 내의 검사자 혹은 피검자의 행위가 피검자의 응답 행위 중 고개 젓기일 확률이며, 제n 출력노드(On)의 출력값은 프레임 내의 검사자 혹은 피검자의 행위가 피검자의 응답 행위 중 건네주기일 확률을 나타낼 수 있다. Each of the plurality of output nodes O1 to On of the output layer OL corresponds to the type of behavior of the examiner or examinee. For example, the first output node O1 responds to a question during the examiner's actions, the second output node O2 corresponds to eye contact during the examinee's response actions, and the third output node O2 responds to the examinee's response actions. Corresponds to shaking the head, and the nth output node (On) may correspond to handing among the response actions of the subject. Accordingly, for example, the output value of the first output node O1 is the probability that the behavior of the inspector or examinee in the frame is the questioning behavior of the inspector, and the output value of the second output node O2 indicates that the behavior of the inspector or examinee in the frame is the examinee. is the probability of eye contact among the response actions of the third output node O2, the output value of the third output node O2 is the probability that the examiner or examinee’s action within the frame is a head shake among the examinee’s response actions, and the output value of the nth output node (On) is within the frame It may represent the probability that the behavior of the examiner or the examinee is handing among the response actions of the examinee.

예컨대, 복수의 출력노드(O1, O2, O3, ..., On)의 출력값이 0.026, 0.712, 0.111, ..., 0.007이면, 제1 출력노드(O1)의 출력값이 0.026이기 때문에 프레임 내의 검사자 혹은 피검자의 행위가 검사자의 질문 행위일 확률이 2%이고, 제2 출력노드(O2)의 출력값이 0.712이기 때문에 프레임 내의 검사자 혹은 피검자의 행위가 피검자의 응답 행위 중 눈맞춤일 확률이 71%이고, 제3 출력노드(O2)의 출력값이 0.111이기 때문에 검사자 혹은 피검자의 행위가 피검자의 응답 행위 중 고개 젓기일 확률이 11%이고, 제n 출력노드(On)의 출력값이 0.007이기 때문에 프레임 내의 검사자 혹은 피검자의 행위가 피검자의 응답 행위 중 건네주기일 확률이 1%임을 나타낸다. For example, if the output values of the plurality of output nodes O1, O2, O3, ..., On are 0.026, 0.712, 0.111, ..., 0.007, since the output value of the first output node O1 is 0.026, within the frame The probability that the examiner's or subject's action is the examiner's questioning action is 2%, and since the output value of the second output node (O2) is 0.712, there is a 71% probability that the examiner's or examinee's action within the frame is eye contact among the examinee's response actions. , because the output value of the third output node O2 is 0.111, the probability that the examiner’s or examinee’s action is a head shake among the examinee’s response actions is 11%, and since the output value of the nth output node (On) is 0.007, the examiner in the frame Or, it indicates that the probability that the subject's behavior is handing among the respondent's response behaviors is 1%.

이와 같이, 학습모델(ML)이 검사자 혹은 피검자의 행위가 복수의 유형의 행위 각각에 속할 확률을 산출하면, 레이블도출부(300)은 산출된 확률에 따라 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위를 추정할 수 있다. In this way, when the learning model (ML) calculates the probability that the behavior of the examiner or the examinee belongs to each of the plurality of types of behavior, the label derivation unit 300 determines the number of the examiner or the examinee appearing in each of the plurality of frames according to the calculated probability. behavior can be inferred.

예컨대, 복수의 출력노드(O1, O2, O3, ..., On)의 출력값이 0.026, 0.712, 0.111, ..., 0.007이면, 제2 출력노드(O2)의 출력값에 따라 피검자의 응답 행위 눈맞춤일 확률이 71%로 가장 높기 때문에 레이블도출부(300)은 피검자의 응답 행위 중 눈맞춤인 것으로 추정한다. For example, if the output values of the plurality of output nodes O1, O2, O3, ..., On are 0.026, 0.712, 0.111, ..., 0.007, the response behavior of the examinee according to the output value of the second output node O2 Since the probability of eye contact is the highest at 71%, the label derivation unit 300 estimates that it is eye contact among the subject's response actions.

전술한 컨벌루션층(CL), 완결연결층(FL) 및 출력층(OL)에서 사용되는 활성화함수는 시그모이드(Sigmoid), 하이퍼볼릭탄젠트(tanh: Hyperbolic tangent), ELU(Exponential Linear Unit), ReLU(Rectified Linear Unit), Leakly ReLU, Maxout, Minout, Softmax 등을 예시할 수 있다. 컨벌루션층(CL), 완결연결층(FL) 및 출력층(OL)에 이러한 활성화함수 중 어느 하나를 선택하여 적용할 수 있다. The activation functions used in the convolutional layer (CL), final connection layer (FL) and output layer (OL) described above are Sigmoid, Hyperbolic tangent (tanh), Exponential Linear Unit (ELU), and ReLU. (Rectified Linear Unit), Leakly ReLU, Maxout, Minout, Softmax, etc. can be exemplified. Any one of these activation functions may be selected and applied to the convolutional layer CL, the finite connection layer FL, and the output layer OL.

다음으로, 본 발명의 실시예에 따른 학습모델 기반의 발달 장애 조기 선별을 위한 데이터에 대한 레이블링을 위한 방법에 대해서 설명하기로 한다. 자동으로 레이블링을 수행하도록 학습모델(ML)을 학습시키기 위해서는 학습모델(ML)을 학습시키기 위한 학습 데이터를 마련해야 한다. 이에 따라, 우선, 초기 학습 데이터를 마련하는 방법에 대해서 설명하기로 한다. 도 5는 본 발명의 실시예에 따른 학습모델(ML)을 학습시키기 위한 학습 데이터를 마련하는 방법을 설명하기 위한 흐름도이다. Next, a method for labeling data for early screening of developmental disabilities based on a learning model according to an embodiment of the present invention will be described. In order to train the learning model (ML) to automatically perform labeling, it is necessary to prepare training data for training the learning model (ML). Accordingly, first, a method for preparing initial learning data will be described. 5 is a flowchart illustrating a method of preparing learning data for learning a learning model (ML) according to an embodiment of the present invention.

먼저, 검사자는 입력부(14)를 통해 예컨대, 연구번호, 나이, ADOS(Autism Diagnostic Observation Schedule) 형식, BeDevel(Behavior Development Screening for Toddler) 형식, 검사 날짜, 최종 진단 결과 등의 기본 정보를 입력할 수 있다. 그러면, 레이블장치(10) 제어부(17)의 데이터처리부(100)는 S110 단계에서 입력부(14)를 통해 이러한 기본 정보를 입력받고, 저장부(16)에 임시로 저장한다. First, the examiner can input basic information such as, for example, study number, age, ADOS (Autism Diagnostic Observation Schedule) format, BeDevel (Behavior Development Screening for Toddler) format, test date, and final diagnosis result through the input unit 14 . have. Then, the data processing unit 100 of the control unit 17 of the label apparatus 10 receives this basic information through the input unit 14 in step S110 and temporarily stores it in the storage unit 16 .

이어서, S120 단계에서 검사자의 입력에 따라 촬영이 시작되며, 검사자는 피검자에 대해 질의하고, 피검자의 행동을 관찰하는 검사가 시작된다. 즉, 검사가 진행되는 동안 데이터처리부(100)는 카메라부(11), 센서부(12) 및 음성처리부(13)을 통해 지속적으로, 카메라부(11)의 복수의 카메라가 촬영하는 복수의 컬러 프레임을 포함하는 컬러 영상, 센서부(12)의 복수의 키넥트 센서가 촬영하는 복수의 뎁스 프레임을 포함하는 뎁스 영상 및 음성처리부(13)에 의해 수집되는 음성에서 복수의 컬러 프레임, 복수의 뎁스 프레임 및 음성을 수집하고, 수집되는 타임라인에 따라 복수의 컬러 프레임, 복수의 뎁스 프레임 및 음성이 동기되어 스트리밍 영상 데이터를 생성한다. Subsequently, in step S120 , imaging is started according to the input of the examiner, the examiner makes a question about the subject, and an examination for observing the subject's behavior is started. That is, while the inspection is in progress, the data processing unit 100 continuously uses the camera unit 11 , the sensor unit 12 , and the voice processing unit 13 to continuously capture a plurality of colors captured by a plurality of cameras of the camera unit 11 . A color image including a frame, a depth image including a plurality of depth frames captured by a plurality of Kinect sensors of the sensor unit 12 , and a plurality of color frames and a plurality of depths in the voice collected by the audio processing unit 13 . Frames and audio are collected, and a plurality of color frames, a plurality of depth frames, and audio are synchronized according to the collected timeline to generate streaming image data.

다음으로, 이어서, S130 단계에서 검사가 종료되면, 검사자의 입력에 따라 촬영이 종료되며, 데이터처리부(100)는 지속적으로 수집되어 생성된 스트리밍 영상 데이터를 저장한다. Next, when the examination is finished in step S130 , the photographing is terminated according to the examiner's input, and the data processing unit 100 stores the continuously collected and generated streaming image data.

이어서, 검사자의 입력에 따라 S140 단계에서 제어부(17)의 데이터처리부(100)는 스트리밍 영상 데이터 중 적어도 일부를 재생하고, 이를 표시부(15) 및 음성처리부(13)를 통해 출력할 수 있다. 검사자는 입력부(14)를 통해 재생되는 스트리밍 영상 데이터에 매뉴얼 레이블을 부여할 수 있다. 이때, 검사자는 검사자의 질문 행위가 이루어지는 타임 라인, 피검자의 응답 행위가 이루어지는 타임라인을 구분하는 매뉴얼 레이블과, 피검자의 응답 행위가 이루어지는 타임라인의 경우, 그 응답 행위의 유형이 구분되도록 행위의 유형을 나타내는 매뉴얼 레이블을 부여할 수 있다. 이에 따라, 각 타임라인 별로 검사자 혹은 피검자의 행위의 유형을 나타내는 매뉴얼 레이블이 부여되어 있고 복수의 프레임을 포함하는 스트리밍 영상 데이터인 학습용 영상 데이터가 마련된다. 데이터처리부(100)는 S150 단계에서 이러한 학습용 영상 데이터를 저장부(16)에 저장한다. Then, according to the examiner's input, in step S140 , the data processing unit 100 of the control unit 17 may reproduce at least a portion of the streaming image data, and output it through the display unit 15 and the audio processing unit 13 . The examiner may attach a manual label to the streaming image data reproduced through the input unit 14 . At this time, the examiner determines the type of action so that the type of response is distinguished in the case of a manual label that separates the timeline for the questioning action of the examiner and the timeline for the response action of the examinee, and the timeline for the response action of the examinee A manual label indicating Accordingly, training image data, which is streaming image data including a plurality of frames and a manual label indicating the type of the examiner's or examinee's behavior, is provided for each timeline. The data processing unit 100 stores the image data for learning in the storage unit 16 in step S150 .

전술한 바와 같이, 학습용 영상 데이터가 마련되면, 학습모델(LM)을 학습시킬 수 있다. 이러한 방법에 대해 설명하기로 한다. 도 6은 본 발명의 실시예에 따른 학습용 영상 데이터를 이용하여 학습 모델을 학습시키는 방법을 설명하기 위한 흐름도이다. As described above, when the image data for learning is provided, the learning model LM may be trained. These methods will be described. 6 is a flowchart illustrating a method of learning a learning model using image data for learning according to an embodiment of the present invention.

도 6을 참조하면, 모델생성부(200)는 S210 단계에서 저장부(16)로부터 각 타임라인 별로 검사자 혹은 피검자의 행위의 유형을 나타내는 매뉴얼 레이블이 부여되어 있고 복수의 프레임을 포함하는 스트리밍 영상 데이터인 학습용 영상 데이터를 불러온다. Referring to FIG. 6 , the model generating unit 200 is provided with a manual label indicating the type of behavior of the examiner or examinee for each timeline from the storage unit 16 in step S210 and streaming image data including a plurality of frames Load image data for in-learning.

그런 다음, 모델생성부(200)는 S220 단계에서 학습모델(ML)에 학습용 영상 데이터의 복수의 프레임을 순차로 입력한다. 이에 따라, 학습모델(ML)은 S230 단계에서 복수의 프레임에 대해 복수의 계층 간 가중치가 적용되는 복수의 연산을 수행하여 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위가 복수의 유형의 행위 각각에 속할 확률을 출력값으로 산출한다. Then, the model generator 200 sequentially inputs a plurality of frames of image data for training to the learning model ML in step S220 . Accordingly, the learning model (ML) performs a plurality of operations in which a plurality of inter-layer weights are applied to a plurality of frames in step S230 so that the behavior of the examiner or the examinee displayed in each of the plurality of frames is applied to each of the plurality of types of behavior. The probability of belonging is calculated as an output value.

그러면, 모델생성부(200)는 S240 단계에서 산출된 출력값과 매뉴얼 레이블과의 차이가 최소가 되도록 학습모델의 가중치를 수정하는 최적화를 수행한다. 이때, 모델생성부(200)는 다음의 수학식 1과 같은 출력값과 매뉴얼 레이블과의 차이를 구하는 손실 함수를 이용하여 최적화를 수행한다. Then, the model generator 200 performs optimization to correct the weight of the learning model so that the difference between the output value calculated in step S240 and the manual label is minimized. At this time, the model generating unit 200 performs optimization using a loss function that obtains a difference between the output value and the manual label as shown in Equation 1 below.

Figure pat00002
Figure pat00002

여기서, L은 손실을 나타내며, n은 학습용 영상 데이터의 프레임의 수이고, t는 프레임의 인덱스이다. w는 미리 설정되는 값으로 하이퍼파라미터이며, 피검자의 행위의 수에 비례하여 증가한다. s는 검사자의 행위인지 혹은 피검자의 행위인지 여부를 구분하는 매뉴얼 레이블이고, a는 피검자의 행위의 유형을 나타내는 매뉴얼 레이블이다. e(t)는 출력값 중 검사자의 행위를 나타내는 출력노드의 출력값의 합과, 피검자의 행위를 나타내는 출력노드의 출력값의 합을 나타낸다. b(t)는 출력값 중 피검자의 행위의 유형에 대응하는 출력노드 각각의 출력값을 나타낸다. 즉, 모델생성부(200)는 수학식 1의 손실함수의 값, 즉, 손실이 최소가 되도록 학습모델의 가중치를 수정하는 최적화를 수행한다. Here, L represents a loss, n is the number of frames of image data for training, and t is an index of the frame. w is a preset value, a hyperparameter, and increases in proportion to the number of actions of the subject. s is a manual label that distinguishes whether it is the examiner's action or the examinee's action, and a is a manual label indicating the type of the examinee's action. e(t) represents the sum of the output values of the output nodes indicating the behavior of the examiner among the output values and the sum of the output values of the output nodes indicating the behavior of the examinee. b(t) represents the output value of each output node corresponding to the type of behavior of the examinee among the output values. That is, the model generator 200 performs optimization of correcting the weight of the learning model so that the value of the loss function of Equation 1, that is, the loss is minimized.

전술한 바와 같은 최적화는 서로 다른 학습용 영상 데이터를 이용하여 반복하여 수행할 수 있다. 러한 반복은 평가 지표를 통해 정확도를 산출하고, 원하는 정확도에 도달할 때까지 이루어질 수 있다. The optimization as described above may be repeatedly performed using different image data for training. These iterations may be performed until the accuracy is calculated through the evaluation index and the desired accuracy is reached.

다음으로, 전술한 바와 같은 방법에 따라 학습이 완료된 학습모델(ML)을 이용하여 발달 장애 조기 선별을 위한 데이터에 대한 레이블링을 수행하는 방법에 대해서 설명하기로 한다. 도 7은 본 발명의 실시예에 따른 학습모델(ML)을 이용하여 발달 장애 조기 선별을 위한 데이터에 대한 레이블링을 수행하는 방법을 설명하기 위한 흐름도이다. Next, a method for labeling data for early screening of developmental disabilities using a learning model (ML) that has been trained according to the method as described above will be described. 7 is a flowchart illustrating a method of labeling data for early screening of developmental disabilities using a learning model (ML) according to an embodiment of the present invention.

도 7을 참조하면, 사용자의 입력에 따라 데이터처리부(100)는 S310 단계에서 기본 정보를 입력받고, 이를 저장부(16)에 저장한다. 예컨대, 기본 정보는 연구번호, 나이, ADOS(Autism Diagnostic Observation Schedule) 형식, BeDevel(Behavior Development Screening for Toddler) 형식, 검사 날짜, 최종 진단 결과 등을 포함한다. Referring to FIG. 7 , according to a user's input, the data processing unit 100 receives basic information in step S310 and stores it in the storage unit 16 . For example, basic information includes study number, age, ADOS (Autism Diagnostic Observation Schedule) format, BeDevel (Behavior Development Screening for Toddler) format, test date, final diagnosis result, and the like.

그러면, 데이터처리부(100)는 S320 단계에서 카메라부(11), 센서부(12) 및 음성처리부(13)를 통해 지속적으로, 카메라부(11)의 복수의 카메라가 촬영하는 복수의 컬러 프레임을 포함하는 컬러 영상, 센서부(12)의 복수의 키넥트 센서가 촬영하는 복수의 뎁스 프레임을 포함하는 뎁스 영상 및 음성처리부(13)에 의해 수집되는 음성에서 복수의 컬러 프레임, 복수의 뎁스 프레임 및 음성을 수집하고, 수집되는 타임라인에 따라 복수의 컬러 프레임, 복수의 뎁스 프레임 및 음성이 동기되어 스트리밍 영상 데이터를 생성한다. 이러한 스트리밍 영상 데이터의 복수의 프레임은 순차로 레이블도출부(300)에 제공된다. Then, the data processing unit 100 continuously receives a plurality of color frames photographed by the plurality of cameras of the camera unit 11 through the camera unit 11, the sensor unit 12, and the voice processing unit 13 in step S320. a plurality of color frames, a plurality of depth frames, and a depth image including a plurality of depth frames captured by a plurality of Kinect sensors of the sensor unit 12 Audio is collected, and a plurality of color frames, a plurality of depth frames, and audio are synchronized according to the collected timeline to generate streaming video data. A plurality of frames of such streaming image data are sequentially provided to the label deriving unit 300 .

레이블도출부(300)는 S330 단계에서 복수의 프레임을 포함하는 스트리밍 영상 데이터를 프레임 별로 학습모델(LM)에 입력한다. 그러면, 학습이 완료된 학습모델(LM)을 통해 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위가 복수의 유형의 행위 각각에 속할 확률을 산출한다. The label deriving unit 300 inputs streaming image data including a plurality of frames to the learning model LM for each frame in step S330. Then, the probability that the behavior of the examiner or the examinee displayed in each of the plurality of frames belongs to each of the plurality of types of behavior is calculated through the learning model LM on which the learning has been completed.

그러면, 레이블도출부(300)는 S340 단계에서 학습모델(LM)이 산출된 확률에 따라 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위를 추정한다. 이어서, 레이블처리부(400)는 S350 단계에서 추정된 행위에 따라 해당 프레임에 개별적으로 레이블을 부여한다. 전술한 S320 단계 내지 S350 단계는 S360 단계의 판단에 따라 검사가 종료될 때까지 반복된다. Then, the label derivation unit 300 estimates the behavior of the examiner or the examinee appearing in each of the plurality of frames according to the probability calculated by the learning model LM in step S340 . Next, the label processing unit 400 individually assigns a label to the corresponding frame according to the action estimated in step S350 . Steps S320 to S350 described above are repeated until the test is finished according to the determination of step S360.

검사가 종료되면, 레이블처리부(400)는 S370 단계에서 스트리밍 영상 데이터의 복수의 프레임 중 레이블도출부(300)가 추정한 행위가 동일한 연속된 프레임의 시작 시간 및 종료 시간을 검출하고, 스트리밍 영상 데이터에 대해 검출된 시작 시간 및 종료 시간에 대응하여 추정된 행위에 대응하는 레이블을 부여한다. When the inspection is finished, the label processing unit 400 detects a start time and an end time of a continuous frame having the same behavior estimated by the label deriving unit 300 among a plurality of frames of streaming image data in step S370, and streaming image data A label corresponding to the estimated behavior is given in response to the detected start time and end time.

전술한 바와 같은 방법에 따라 발달 장애 조기 선별을 위한 검사 시, 검사자의 질문과 피검자의 응답 행위를 학습 모델을 통해 식별하고, 식별된 행위에 대응하는 레이블을 자동으로 해당 영상에 부여할 수 있다. 이로써, ASD 발견 선별검사 도구의 개발과 이를 적용한 콘텐츠 및 인지능력이나 심리적 변화에 대한 객관적이고 정량적 평가를 효율적으로 할 수 있는 AI기반 해결 기법의 연구에 필요한 데이터를 효율적으로 수집할 수 있다. According to the method as described above, when testing for early screening of developmental disabilities, the examiner's question and the subject's response behavior can be identified through the learning model, and a label corresponding to the identified behavior can be automatically assigned to the image. In this way, it is possible to efficiently collect data necessary for the development of the ASD detection screening test tool, the contents to which it is applied, and the study of the AI-based solution technique that can efficiently evaluate objective and quantitative cognitive abilities or psychological changes.

한편, 전술한 본 발명의 실시예에 따른 방법은 다양한 컴퓨터수단을 통하여 판독 가능한 프로그램 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광 기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 와이어뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 와이어를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다. Meanwhile, the method according to the embodiment of the present invention described above may be implemented in the form of a program readable by various computer means and recorded in a computer readable recording medium. Here, the recording medium may include a program command, a data file, a data structure, etc. alone or in combination. The program instructions recorded on the recording medium may be specially designed and configured for the present invention, or may be known and available to those skilled in the art of computer software. For example, the recording medium includes magnetic media such as hard disks, floppy disks and magnetic tapes, optical recording media such as CD-ROMs and DVDs, and magneto-optical media such as floppy disks ( magneto-optical media) and hardware devices specially configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions may include not only machine language wires such as those generated by a compiler, but also high-level language wires that can be executed by a computer using an interpreter or the like. Such hardware devices may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 이와 같이, 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 균등론에 따라 다양한 변화와 수정을 가할 수 있음을 이해할 것이다. Although the present invention has been described above using several preferred embodiments, these examples are illustrative and not restrictive. As such, those of ordinary skill in the art to which the present invention pertains will understand that various changes and modifications can be made in accordance with the doctrine of equivalents without departing from the spirit of the present invention and the scope of rights set forth in the appended claims.

10: 레이블장치 11: 카메라부
12: 센서부 13: 음성수집부
14: 입력부 15: 표시부
16: 저장부 17: 제어부
100: 모델생성부 200: 레이블도출부
300: 레이블처리부
10: label device 11: camera unit
12: sensor unit 13: voice collection unit
14: input unit 15: display unit
16: storage unit 17: control unit
100: model generation unit 200: label derivation unit
300: label processing unit

Claims (5)

레이블링을 위한 장치에 있어서,
컬러 프레임, 뎁스 프레임 및 음성을 포함하는 복수의 프레임을 포함하는 스트리밍 영상 데이터가 입력되면, 학습이 완료된 학습모델을 통해 상기 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위가 복수의 유형의 행위 각각에 속할 확률을 산출하고, 산출된 확률에 따라 상기 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위를 추정하는 레이블도출부; 및
상기 복수의 프레임 중 상기 레이블도출부가 추정한 행위가 동일한 연속된 프레임의 시작 시간 및 종료 시간을 검출하고, 상기 스트리밍 영상 데이터에 대해 검출된 시작 시간 및 종료 시간에 대응하여 상기 추정된 행위를 레이블링하는 레이블처리부;
를 포함하는 것을 특징으로 하는
레이블링을 위한 장치.
A device for labeling, comprising:
When streaming image data including a plurality of frames including a color frame, a depth frame, and an audio is input, the behavior of the examiner or the examinee displayed in each of the plurality of frames through the learning model on which the learning is completed is applied to each of the plurality of types of behavior a label derivation unit for calculating a probability of belonging and estimating an examiner's or subject's behavior appearing in each of the plurality of frames according to the calculated probability; and
Detecting the start time and end time of consecutive frames having the same behavior estimated by the label derivation unit among the plurality of frames, and labeling the estimated behavior in response to the detected start time and end time for the streaming image data label processing unit;
characterized in that it comprises
Device for labeling.
제1항에 있어서,
각 타임라인 별로 검사자 혹은 피검자의 행위의 유형을 나타내는 매뉴얼 레이블이 부여되어 있고 복수의 프레임을 포함하는 스트리밍 영상 데이터인 학습용 영상 데이터를 마련하고,
학습모델에 상기 학습용 영상 데이터의 복수의 프레임을 순차로 입력하고,
학습모델이 복수의 계층 간 가중치가 적용되는 복수의 연산을 통해 상기 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위가 복수의 유형의 행위 각각에 속할 확률을 출력값으로 산출하면, 산출된 출력값과 상기 매뉴얼 레이블과의 차이가 최소가 되도록 상기 학습모델의 가중치를 수정하는 최적화를 수행하는 모델생성부;
를 더 포함하는 것을 특징으로 하는
레이블링을 위한 장치.
According to claim 1,
Prepare video data for training, which is streaming video data that includes a plurality of frames and is given a manual label indicating the type of behavior of the examiner or examinee for each timeline;
A plurality of frames of the image data for training are sequentially input to the learning model,
When the learning model calculates, as an output value, the probability that an examiner or examinee's behavior displayed in each of the plurality of frames belongs to each of a plurality of types of behavior through a plurality of operations to which a plurality of inter-layer weights are applied, the calculated output value and the manual a model generator that optimizes the weight of the learning model so that the difference with the label is minimized;
characterized in that it further comprises
Device for labeling.
제2항에 있어서,
상기 학습모델은
스트리밍 영상의 복수의 프레임을 순차로 입력받는 입력층;
적어도 하나의 컨벌루션계층;
적어도 하나의 풀링계층;
적어도 하나의 완전연결계층; 및
검사자 혹은 피검자의 복수의 유형의 행위 각각에 대응하는 출력 노드를 포함하는 출력계층;
을 포함하는 것을 특징으로 하는
레이블링을 위한 장치.
3. The method of claim 2,
The learning model is
an input layer that sequentially receives a plurality of frames of a streaming image;
at least one convolutional layer;
at least one pooling layer;
at least one fully connected layer; and
an output layer including an output node corresponding to each of a plurality of types of actions of the examiner or the examinee;
characterized in that it comprises
Device for labeling.
제2항에 있어서,
상기 모델생성부는
손실함수
Figure pat00003

의 값인 손실이 최소가 되도록 학습모델의 가중치를 수정하는 최적화를 수행하며,
상기 L은 손실을 나타내고,
상기 n은 학습용 영상 데이터의 프레임의 수이고,
상기 t는 프레임의 인덱스이고,
상기 w는 학습모델이 분류할 수 있는 피검자의 행위의 수에 비례하여 증가하는 하이퍼파라미터이며,
상기 s는 검사자의 행위인지 혹은 피검자의 행위인지 여부를 구분하는 매뉴얼 레이블이고,
상기 a는 피검자의 행위의 유형을 나타내는 매뉴얼 레이블이고,
상기 e(t)는 출력값 중 검사자의 행위를 나타내는 출력노드의 출력값의 합과, 피검자의 행위를 나타내는 출력노드의 출력값의 합을 나타내며,
상기 b(t)는 출력값 중 피검자의 행위의 유형에 대응하는 출력노드 각각의 출력값을 나타내는 것을 특징으로 하는
레이블링을 위한 장치.
3. The method of claim 2,
The model generation unit
loss function
Figure pat00003

Optimization is performed to modify the weight of the learning model so that the loss, which is the value of , is minimized.
L represents the loss,
Where n is the number of frames of image data for training,
Where t is the index of the frame,
Where w is a hyperparameter that increases in proportion to the number of subject actions that the learning model can classify,
Wherein s is a manual label that distinguishes whether it is an action of an examiner or an action of a subject,
wherein a is a manual label indicating the type of behavior of the subject,
e(t) represents the sum of the output values of the output nodes indicating the behavior of the examiner among the output values and the sum of the output values of the output nodes indicating the behavior of the examinee,
wherein b(t) represents an output value of each output node corresponding to the type of behavior of the examinee among the output values
Device for labeling.
레이블링을 위한 방법에 있어서,
레이블도출부가 컬러 프레임, 뎁스 프레임 및 음성을 포함하는 복수의 프레임을 포함하는 스트리밍 영상 데이터가 입력되면, 학습이 완료된 학습모델을 통해 상기 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위가 복수의 유형의 행위 각각에 속할 확률을 산출하는 단계;
상기 레이블도출부가 상기 산출된 확률에 따라 상기 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위를 추정하는 단계;
레이블처리부가 상기 복수의 프레임 중 상기 레이블도출부가 추정한 행위가 동일한 연속된 프레임의 시작 시간 및 종료 시간을 검출하는 단계; 및
상기 레이블처리부가 상기 스트리밍 영상 데이터에 대해 검출된 시작 시간 및 종료 시간에 대응하여 상기 추정된 행위를 레이블링하는 단계;
를 포함하는 것을 특징으로 하는
레이블링을 위한 방법.
A method for labeling, comprising:
When streaming image data including a plurality of frames including a color frame, a depth frame, and an audio is input to the label derivation unit, the behavior of the examiner or the examinee displayed in each of the plurality of frames through the learning model on which the learning is completed is performed in a plurality of types. calculating a probability of belonging to each action;
estimating, by the label derivation unit, the behavior of the examiner or the examinee appearing in each of the plurality of frames according to the calculated probability;
detecting, by the label processing unit, start time and end time of consecutive frames having the same behavior estimated by the label derivation unit among the plurality of frames; and
labeling, by the label processing unit, the estimated action in response to the detected start time and end time for the streaming image data;
characterized in that it comprises
Method for labeling.
KR1020200184560A 2020-12-28 2020-12-28 Apparatus for labeling data for early screening of developmental disabilities based on learning model and method therefor KR102488969B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200184560A KR102488969B1 (en) 2020-12-28 2020-12-28 Apparatus for labeling data for early screening of developmental disabilities based on learning model and method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200184560A KR102488969B1 (en) 2020-12-28 2020-12-28 Apparatus for labeling data for early screening of developmental disabilities based on learning model and method therefor

Publications (2)

Publication Number Publication Date
KR20220093642A true KR20220093642A (en) 2022-07-05
KR102488969B1 KR102488969B1 (en) 2023-01-13

Family

ID=82402025

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200184560A KR102488969B1 (en) 2020-12-28 2020-12-28 Apparatus for labeling data for early screening of developmental disabilities based on learning model and method therefor

Country Status (1)

Country Link
KR (1) KR102488969B1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200062843A (en) * 2018-11-27 2020-06-04 에스케이텔레콤 주식회사 Apparatus for recommending contents based on facial expression, method thereof and computer recordable medium storing program to perform the method
KR20200068545A (en) * 2018-03-30 2020-06-15 네이버 주식회사 System and method for training a convolutional neural network and classifying an action performed by a subject in a video using the trained convolutional neural network
KR20200079175A (en) * 2018-12-24 2020-07-02 삼성전자주식회사 Method and apparatus for controlling ar apparatus based on action prediction
KR20200085766A (en) 2017-11-14 2020-07-15 오사카 유니버시티 Cognitive dysfunction diagnosis device and cognitive dysfunction diagnosis program
KR20200119391A (en) * 2019-03-27 2020-10-20 연세대학교 산학협력단 Apparatus and method for recognizing activity and detecting activity duration in video

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200085766A (en) 2017-11-14 2020-07-15 오사카 유니버시티 Cognitive dysfunction diagnosis device and cognitive dysfunction diagnosis program
KR20200068545A (en) * 2018-03-30 2020-06-15 네이버 주식회사 System and method for training a convolutional neural network and classifying an action performed by a subject in a video using the trained convolutional neural network
KR20200062843A (en) * 2018-11-27 2020-06-04 에스케이텔레콤 주식회사 Apparatus for recommending contents based on facial expression, method thereof and computer recordable medium storing program to perform the method
KR20200079175A (en) * 2018-12-24 2020-07-02 삼성전자주식회사 Method and apparatus for controlling ar apparatus based on action prediction
KR20200119391A (en) * 2019-03-27 2020-10-20 연세대학교 산학협력단 Apparatus and method for recognizing activity and detecting activity duration in video

Also Published As

Publication number Publication date
KR102488969B1 (en) 2023-01-13

Similar Documents

Publication Publication Date Title
US20190216333A1 (en) Thermal face image use for health estimation
US11948401B2 (en) AI-based physical function assessment system
US20200205697A1 (en) Video-based fall risk assessment system
Luo et al. Computer vision-based descriptive analytics of seniors’ daily activities for long-term health monitoring
JP6911498B2 (en) Learning devices, learning methods, and learning programs
KR102033050B1 (en) Unsupervised Learning Technique for Time Difference Model
US11321618B2 (en) Learning device, image pickup apparatus, image processing device, learning method, non-transient computer-readable recording medium for recording learning program, display control method and inference model manufacturing method
US20190362221A1 (en) Evaluating quality of a product such as a semiconductor substrate
CN112673378A (en) Purchase generator, monitoring device, method for generating push generator, and push generator generation program
CN110135242B (en) Emotion recognition device and method based on low-resolution infrared thermal imaging depth perception
US9408562B2 (en) Pet medical checkup device, pet medical checkup method, and non-transitory computer readable recording medium storing program
KR102106517B1 (en) Apparatus for analyzing emotion of examinee, method thereof and computer recordable medium storing program to perform the method
Luo et al. Integrating hypertension phenotype and genotype with hybrid non-negative matrix factorization
Hsu et al. Hierarchical Network for Facial Palsy Detection.
CN113990494A (en) Tic disorder auxiliary screening system based on video data
CN111128368B (en) Automatic autism spectrum disorder detection method and device based on video expression behavior analysis
CN113869276A (en) Lie recognition method and system based on micro-expression
CN114842957A (en) Senile dementia auxiliary diagnosis system and method based on emotion recognition
KR102488969B1 (en) Apparatus for labeling data for early screening of developmental disabilities based on learning model and method therefor
CN111528867A (en) Expression feature vector determination method for child ADHD screening and evaluating system
CN117137435A (en) Rehabilitation action recognition method and system based on multi-mode information fusion
CN111563465B (en) Animal behaviourology automatic analysis system
JP2020010804A (en) Medical image diagnosis support apparatus, program, and medical image diagnosis support method
Zhang et al. Online training for body part segmentation in infant movement videos
KR102518690B1 (en) Apparatus for purifying data for early screening of developmental disabilities based on learning model and method therefor

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant