KR102488969B1

KR102488969B1 - 학습모델 기반의 발달 장애 조기 선별을 위한 데이터에 대한 레이블링을 위한 장치 및 이를 위한 방법

Info

Publication number: KR102488969B1
Application number: KR1020200184560A
Authority: KR
Inventors: 김정준; 권용섭; 김민규; 김은수; 김경호; 손동섭
Original assignee: 한국로봇융합연구원
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2023-01-13
Also published as: KR20220093642A

Abstract

레이블링을 위한 장치가 제공된다. 상기 장치는 복수의 프레임을 포함하는 스트리밍 영상이 입력되면, 학습이 완료된 학습모델을 통해 상기 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위가 복수의 유형의 행위 각각에 속할 확률을 산출하고, 산출된 확률에 따라 상기 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위를 추정하는 레이블도출부와, 상기 복수의 프레임 중 상기 레이블도출부가 추정한 행위가 동일한 연속된 프레임의 시작 시간 및 종료 시간을 검출하고, 상기 스트리밍 영상에 대해 검출된 시작 시간 및 종료 시간에 대응하여 상기 추정된 행위를 레이블링하는 레이블처리부를 포함한다.

Description

학습모델 기반의 발달 장애 조기 선별을 위한 데이터에 대한 레이블링을 위한 장치 및 이를 위한 방법{Apparatus for labeling data for early screening of developmental disabilities based on learning model and method therefor}

본 발명은 데이터에 대한 레이블링 기술에 관한 것으로, 보다 상세하게는, 학습모델 기반의 발당 장애 조기 선별을 위한 데이터에 대한 레이블링을 위한 장치 및 이를 위한 방법에 관한 것이다.

발달장애(Developmental Disability)는 영유아 기부터 시작하는 뇌 신경계 발달 장애들의 집합으로 언어 및 의사소통, 인지력, 사회성 등의 측면에서 이루어져야 할 발달이 심하게 지체되거나 성취되지 않은 장애를 의미한다. 발달 장애인은 지적 장애인과 자폐성 장애인으로 규정되어지는데, 국내의 경우 전체 장애인 수는 매년 감소하는 추세이나, 발달 장애로 진단 받은 사람의 일부만 장애로 등록하는 것으로 추정되므로 실제 발달 장애인은 등록된 숫자보다 훨씬 더 많을 것으로 추정되고 있다.

자폐스펙트럼장애(ASD: Autism Spectrum Disorders)는 2세 전후에 진단이 가능하며, 이후 평생 지속되며 발달의 가장 기본적인 영역의 많은 부분에 이상을 초래하여, 아동의 독립적인 발달, 교육, 가족 삶의 질에 미치는 영향이 큰 장애라 할 수 있다. ASD에 대한 임상과 연구 측면 모두에서 조기 발견과 조기 개입은 매우 중요한 문제인데, 영유아기는 뇌의 가소성이 높은 시기여서 정상적인 형태에 가깝게 변화 할 수 있는 기회를 제공할 뿐 아니라 이차적인 신경학적 손상과 이에 따른 이차적인 심각한 행동 문제가 점차 축적 되는 것을 미리 방지 할 수 있다.

ASD 진단에는 직접적인 관찰, 양육자와 교사가 제공하는 정보, 성장 과정에 대한 상세한 과거력, 인지능력이나 다른 심리적인 기능에 대한 객관적/정량적 평가, 감별진단을 위한 검사, 신경학적 평가, 뇌기능 검사 등을 필요로 한다. 기존의 ASD 선별 도구들은 사용을 위한 훈련과정이 매우 오래 걸리고, 개별 전문가들의 경험과 능력에 따라 진단의 비일관성이 존재하며, 한명의 아동을 진단하는데 최소 6~7시간의 검사 시간과 투입되는 자원이 매우 방대하다. 또한, 유아/아동의 경우 진단 검사를 어디에서 누구와 시행했는지에 따라 일반적으로 일상생활에서 보이는 행동들과는 많이 상이 할 수 있다. 따라서, 인공 지능 기술의 융??복합을 위한 영유아/아동의 ASD 발견 선별검사 도구의 개발과 이를 적용한 콘텐츠 및 인지능력이나 심리적 변화에 대한 객관적이고 정량적 평가를 효율적으로 할 수 있는 AI기반 해결방안이 필요하다. 즉, 새로운 선별 검사 도구에 기반한 영유아/아동의 다중감각 데이터 수집 및 이의 자동분석을 통한 비언어적 의사소통 인지, 비정상/상동 증적 표적행동 인지, 복합정보 기반 심리예측 등 ASD 조기선별 시스템을 통한 문제 해결이 필요하다.

한국공개특허 제2020-0085766호 2020년 07월 15일 공개 (명칭: 인지 기능 장애 진단 장치 및 인지 기능 장애 진단 프로그램)

본 발명은 학습모델 기반의 발달 장애 조기 선별을 위한 데이터에 대한 레이블링을 위한 장치 및 이를 위한 방법을 제공함에 있다.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 레이블링을 위한 장치는 컬러 프레임, 뎁스 프레임 및 음성을 포함하는 복수의 프레임을 포함하는 스트리밍 영상 데이터가 입력되면, 학습이 완료된 학습모델을 통해 상기 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위가 복수의 유형의 행위 각각에 속할 확률을 산출하고, 산출된 확률에 따라 상기 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위를 추정하는 레이블도출부와, 상기 복수의 프레임 중 상기 레이블도출부가 추정한 행위가 동일한 연속된 프레임의 시작 시간 및 종료 시간을 검출하고, 상기 스트리밍 영상 데이터에 대해 검출된 시작 시간 및 종료 시간에 대응하여 상기 추정된 행위를 레이블링하는 레이블처리부를 포함한다.

각 타임라인 별로 검사자 혹은 피검자의 행위의 유형을 나타내는 매뉴얼 레이블이 부여되어 있고 복수의 프레임을 포함하는 스트리밍 영상 데이터인 학습용 영상 데이터를 마련하고, 학습모델에 상기 학습용 영상 데이터의 복수의 프레임을 순차로 입력하고, 학습모델이 복수의 계층 간 가중치가 적용되는 복수의 연산을 통해 상기 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위가 복수의 유형의 행위 각각에 속할 확률을 출력값으로 산출하면, 산출된 출력값과 상기 매뉴얼 레이블과의 차이가 최소가 되도록 상기 학습모델의 가중치를 수정하는 최적화를 수행하는 모델생성부를 더 포함한다.

상기 학습모델은 스트리밍 영상의 복수의 프레임을 순차로 입력받는 입력층과, 적어도 하나의 컨벌루션계층과, 적어도 하나의 풀링계층과, 적어도 하나의 완전연결계층과, 검사자 혹은 피검자의 복수의 유형의 행위 각각에 대응하는 출력 노드를 포함하는 출력계층을 포함한다.

상기 모델생성부는 손실함수

의 값인 손실이 최소가 되도록 학습모델의 가중치를 수정하는 최적화를 수행하며, 상기 L은 손실을 나타내고, 상기 n은 학습용 영상 데이터의 프레임의 수이고, 상기 t는 프레임의 인덱스이고, 상기 w는 학습모델이 분류할 수 있는 피검자의 행위의 수에 비례하여 증가하는 하이퍼파라미터이며, 상기 s는 검사자의 행위인지 혹은 피검자의 행위인지 여부를 구분하는 매뉴얼 레이블이고, 상기 a는 피검자의 행위의 유형을 나타내는 매뉴얼 레이블이고, 상기 e(t)는 출력값 중 검사자의 행위를 나타내는 출력노드의 출력값의 합과, 피검자의 행위를 나타내는 출력노드의 출력값의 합을 나타내며, 상기 b(t)는 출력값 중 피검자의 행위의 유형에 대응하는 출력노드 각각의 출력값을 나타내는 것을 특징으로 한다.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 레이블링을 위한 방법은 레이블도출부가 컬러 프레임, 뎁스 프레임 및 음성을 포함하는 복수의 프레임을 포함하는 스트리밍 영상 데이터가 입력되면, 학습이 완료된 학습모델을 통해 상기 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위가 복수의 유형의 행위 각각에 속할 확률을 산출하는 단계와, 상기 레이블도출부가 상기 산출된 확률에 따라 상기 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위를 추정하는 단계와, 레이블처리부가 상기 복수의 프레임 중 상기 레이블도출부가 추정한 행위가 동일한 연속된 프레임의 시작 시간 및 종료 시간을 검출하는 단계와, 상기 레이블처리부가 상기 스트리밍 영상 데이터에 대해 검출된 시작 시간 및 종료 시간에 대응하여 상기 추정된 행위를 레이블링하는 단계를 포함한다.

본 발명에 따르면 발달 장애 조기 선별을 위한 검사 시, 검사자의 질문과 피검자의 응답 행위를 학습 모델을 통해 식별하고, 이를 해당 영상에 레이블링할 수 있다. 이에 따라, ASD 발견 선별검사 도구의 개발과 이를 적용한 콘텐츠 및 인지능력이나 심리적 변화에 대한 객관적이고 정량적 평가를 효율적으로 할 수 있는 AI 기반 해결 기법의 연구에 필요한 데이터를 효율적으로 수집할 수 있다.

도 1은 본 발명의 실시예에 따른 학습모델 기반의 발달 장애 조기 선별을 위한 데이터에 대한 레이블링을 위한 장치의 구성을 설명하기 위한 도면이다.
도 2는 본 발명의 실시예에 따른 학습모델 기반의 발달 장애 조기 선별을 위한 데이터에 대한 레이블링을 위한 장치의 세부 구성을 설명하기 위한 도면이다.
도 3은 본 발명의 실시예에 따른 데이터에 대한 레이블링을 위한 학습 모델의 구성을 설명하기 위한 도면이다.
도 4는 본 발명의 실시예에 따른 데이터에 대한 레이블링을 위한 학습 모델이 산출하는 데이터를 설명하기 위한 도면이다.
도 5는 본 발명의 실시예에 따른 학습모델(ML)을 학습시키기 위한 학습 데이터를 마련하는 방법을 설명하기 위한 흐름도이다.
도 6은 본 발명의 실시예에 따른 학습용 영상 데이터를 이용하여 학습 모델을 학습시키는 방법을 설명하기 위한 흐름도이다.
도 7은 본 발명의 실시예에 따른 학습모델(ML)을 이용하여 발달 장애 조기 선별을 위한 데이터에 대한 레이블링을 수행하는 방법을 설명하기 위한 흐름도이다.

본 발명의 상세한 설명에 앞서, 이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 실시예에 불과할 뿐, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 이때, 첨부된 도면에서 동일한 구성 요소는 가능한 동일한 부호로 나타내고 있음을 유의해야 한다. 또한, 본 발명의 요지를 흐리게 할 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략할 것이다. 마찬가지의 이유로 첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 또는 개략적으로 도시되었으며, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다.

먼저, 본 발명의 실시예에 따른 학습모델 기반의 발달 장애 조기 선별을 위한 데이터에 대한 레이블링을 위한 장치에 대해서 설명하기로 한다. 도 1은 본 발명의 실시예에 따른 학습모델 기반의 발달 장애 조기 선별을 위한 데이터에 대한 레이블링을 위한 장치의 구성을 설명하기 위한 도면이다. 도 2는 본 발명의 실시예에 따른 학습모델 기반의 발달 장애 조기 선별을 위한 데이터에 대한 레이블링을 위한 장치의 세부 구성을 설명하기 위한 도면이다.

먼저, 도 1을 참조하면, 본 발명의 실시예에 따른 레이블장치(10)는 카메라부(11), 센서부(12), 음성처리부(13), 입력부(14), 표시부(15), 저장부(16) 및 제어부(17)를 포함한다.

카메라부(11)는 복수의 컬러 프레임을 포함하는 영상을 촬영하기 위한 것이다. 카메라부(11)는 복수의 카메라를 포함한다. 복수의 카메라는 각각 서로 다른 방향에서 검사자 및 피검자를 촬영하여 복수의 컬러 프레임을 포함하는 영상을 생성할 수 있다.

센서부(12)는 복수의 키넥트 센서를 포함한다. 복수의 키넥트 센서는 서로 다른 방향에서 검사자 및 피검자에 적외선을 방사하고, 이로부터 복수의 뎁스(IR depth) 프레임을 포함하는 뎁스 영상을 촬영한다.

음성처리부(13)은 적어도 하나의 마이크를 포함하며, 적어도 하나의 마이크를 통해 검사자 및 피검자의 음성을 수집한다.

입력부(14)는 레이블장치(10)를 제어하기 위한 사용자의 조작을 입력받고 입력 신호를 생성하여 제어부(17)에 전달할 수 있다. 입력부(14)는 레이블장치(10)를 제어하기 위한 각 종 키, 버튼 등을 포함한다.

표시부(15)는 화면 표시를 위한 것으로, 레이블장치(10)의 메뉴, 입력된 데이터, 기능 설정 정보 및 기타 다양한 정보를 사용자에게 시각적으로 제공할 수 있다. 표시부(15)는 액정표시장치(LCD, Liquid Crystal Display), 유기 발광 다이오드(OLED, Organic Light Emitting Diodes), 능동형 유기 발광 다이오드(AMOLED, Active Matrix Organic Light Emitting Diodes) 등으로 형성될 수 있다. 한편, 표시부(15)는 터치스크린으로 구현될 수 있다. 이러한 경우, 표시부(15)는 터치센서를 포함한다. 터치센서는 사용자의 터치 입력을 감지한다. 터치센서는 정전용량 방식(capacitive overlay), 압력식, 저항막 방식(resistive overlay), 적외선 감지 방식(infrared beam) 등의 터치 감지 센서로 구성되거나, 압력 감지 센서(pressure sensor)로 구성될 수도 있다. 상기 센서들 이외에도 물체의 접촉 또는 압력을 감지할 수 있는 모든 종류의 센서 기기가 본 발명의 터치센서로 이용될 수 있다. 터치센서는 사용자의 터치 입력을 감지하고, 터치된 위치를 나타내는 입력 좌표를 포함하는 감지 신호를 발생시켜 제어부(17)로 전송할 수 있다.

저장부(16)는 레이블장치(10)의 동작에 필요한 프로그램 및 데이터를 저장하는 역할을 수행한다. 저장부(16)는 카메라부(11)의 복수의 카메라가 촬영한 컬러 영상 및 센서부(12)의 복수의 키네틱 센서가 촬영하는 뎁스 영상, 및 음성처리부(13)이 수집하는 음성을 저장할 수 있다. 저장부(16)에 저장되는 각 종 데이터는 사용자의 조작에 따라, 삭제, 변경, 추가될 수 있다.

제어부(17)는 레이블장치(10)의 전반적인 동작 및 레이블장치(10)의 내부 블록들 간 신호 흐름을 제어하고, 데이터를 처리하는 데이터 처리 기능을 수행할 수 있다. 또한, 제어부(17)는 기본적으로, 레이블장치(10)의 각 종 기능을 제어하는 역할을 수행한다. 제어부(17)는 중앙처리장치(CPU: Central Processing Unit), 디지털신호처리기(DSP: Digital Signal Processor) 등을 예시할 수 있다. 특히, 제어부(17)는 스트리밍 영상 데이터에 대해 레이블링을 수행한다. 본 발명의 실시예에서 스트리밍 영상 데이터는 카메라부(11)의 복수의 카메라가 촬영하는 복수의 컬러 프레임을 포함하는 컬러 영상, 센서부(12)의 복수의 키넥트 센서가 촬영하는 복수의 뎁스 프레임을 포함하는 뎁스 영상 및 음성처리부(13)에 의해 수집되는 음성에서 복수의 컬러 프레임, 복수의 뎁스 프레임 및 음성을 타임라인에 따라 동기가 맞춰진 데이터이다.

도 2를 참조하면, 제어부(17)는 레이블링을 위해 데이터처리부(100), 모델생성부(200), 레이블도출부(300) 및 레이블처리부(400)를 포함한다.

데이터처리부(100)는 카메라부(11), 센서부(12) 및 음성처리부(13)을 통해 복수의 컬러 프레임, 복수의 뎁스 프레임 및 음성을 수집하고, 수집되는 타임라인에 따라 복수의 컬러 프레임, 복수의 뎁스 프레임 및 음성이 동기되어 스트리밍 영상 데이터를 생성한다. 생성된 스트리밍 영상 데이터는 모델생성부(200), 레이블도출부(300) 및 레이블처리부(400)에 제공될 수 있다.

모델생성부(200)는 학습모델(LM: Leaning Model)을 학습시키기 위한 것이다. 학습모델(LM: Leaning Model)은 심층신경망(Deep Neural Network)이 될 수 있다. 특히, 학습모델(LM)은 대표적으로, CNN(Convolution Neural Network)을 예시할 수 있다. 이러한 학습모델(LM)에 대해서는 아래에서 더 상세하게 설명될 것 이다.

레이블도출부(300)은 모델생성부(200)로부터 학습이 완료된 학습모델(LM)을 제공받는다. 레이블도출부(300)은 스트리밍 영상 데이터를 입력받을 수 있다. 스트리밍 영상 데이터는 컬러 프레임, 뎁스 프레임 및 프레임에 대응하는 음성을 포함하는 복수의 프레임을 포함한다. 레이블도출부(300)은 스트리밍 영상 데이터를 프레임 별로 학습모델(LM)에 입력한다. 그러면, 학습이 완료된 학습모델(LM)을 통해 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위가 복수의 유형의 행위 각각에 속할 확률을 산출한다. 그러면, 레이블도출부(300)은 학습모델(LM)이 산출된 확률에 따라 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위를 추정한다.

레이블처리부(400)은 스트리밍 영상 데이터의 복수의 프레임 중 레이블도출부(300)이 추정한 행위가 동일한 연속된 프레임의 시작 시간 및 종료 시간을 검출하고, 스트리밍 영상 데이터에 대해 검출된 시작 시간 및 종료 시간에 대응하여 상기 추정된 행위를 레이블링한다.

다음으로, 본 발명의 실시예에 따른 데이터에 대한 레이블링을 위한 학습 모델의 구성에 대해서 설명하기로 한다. 도 3은 본 발명의 실시예에 따른 데이터에 대한 레이블링을 위한 학습 모델의 구성을 설명하기 위한 도면이다. 도 4는 본 발명의 실시예에 따른 데이터에 대한 레이블링을 위한 학습 모델이 산출하는 데이터를 설명하기 위한 도면이다.

도 3을 참조하면, 학습모델(LM)은 입력층(input layer: IL), 교번으로 반복되는 적어도 한 쌍의 컨벌루션층(convolution layer: CL)과 풀링층(pooling layer: PL), 적어도 하나의 완전연결층(fully-connected layer: FL) 및 출력층(output layer: OL)을 포함한다. 도시된 바와 같이, 본 발명의 일 실시예에 따른 심층신경망(400)은 순차로 입력층(IL), 컨볼루션층(CL), 풀링층(PL), 완전연결층(FL) 및 출력층(OL)을 포함한다.

컨볼루션층(CL) 및 풀링층(PL)은 적어도 하나의 특징맵(FM: Feature Map)으로 구성된다. 특징맵(FM)은 이전 계층의 연산 결과에 대해 가중치 및 임계치를 적용한 값을 입력받고, 입력받은 값에 대한 연산을 수행한 결과로 도출된다. 이러한 가중치는 소정 크기의 가중치 행렬인 필터 혹은 커널(W)을 통해 적용된다. 본 발명의 실시예에서 컨볼루션층(CL)의 컨벌루션 연산은 제1 필터(W1)가 사용되며, 풀링층(PL)의 풀링 연산은 제2 필터(W2)가 사용된다.

입력층(IL)에 스트리밍 영상 데이터의 어느 하나의 프레임(컬러 프레임, 뎁스 프레임 및 음성을 포함)이 입력되면, 컨볼루션층(CL)은 입력층(IL)에 입력된 프레임에 대해 제1 필터(W1)를 이용한 컨벌루션(convolution) 연산 및 활성화함수에 의한 연산을 수행하여 적어도 하나의 제1 특징맵(FM1)을 도출한다. 이어서, 풀링층(PL)은 컨볼루션층(CL)의 적어도 하나의 제1 특징맵(FM1)에 대해 제2 필터(W2)를 이용한 풀링(pooling 또는 sub-sampling) 연산을 수행하여 적어도 하나의 제2 특징맵(FM2)을 도출한다.

완결연결층(FL)은 도 4에 도시된 바와 같이, 복수의 연산노드(F1 내지 Fm)로 이루어진다. 완결연결층(CL)의 복수의 연산노드(F1 내지 Fm)는 풀링층(PL)의 적어도 하나의 제2 특징맵(FM2)에 대해 활성화함수에 의한 연산을 통해 복수의 연산값을 산출한다.

출력층(OL)은 복수의 출력노드(O1 내지 On)를 포함한다. 완결연결층(FL)의 복수의 연산노드(F1 내지 Fm) 각각은 가중치(W: weight)를 가지는 채널로 출력층(OL)의 출력노드(O1 내지 On)와 연결된다. 다른 말로, 복수의 연산노드(F1 내지 Fm)의 복수의 연산값은 가중치(W)가 적용되어 복수의 출력노드(O1 내지 On) 각각에 입력된다. 이에 따라, 출력층(OL)의 복수의 출력노드(O1 내지 On)는 완결연결층(FL)의 가중치(W)가 적용되는 복수의 연산값에 대해 활성화함수에 의한 연산을 통해 출력값을 산출한다.

출력층(OL)의 복수의 출력노드(O1 내지 On) 각각은 검사자 혹은 피검자의 행위의 유형에 대응한다. 예컨대, 제1 출력노드(O1)는 검사자의 행위 중 질문에 대응하고, 제2 출력노드(O2)는 피검자의 응답 행위 중 눈맞춤에 대응하며, 제3 출력노드(O2)는 피검자의 응답 행위 중 고개 젓기에 대응하며, 제n 출력노드(On)는 피검자의 응답 행위 중 건네주기에 대응할 수 있다. 이에 따라, 예컨대, 제1 출력노드(O1)의 출력값은 프레임 내의 검사자 혹은 피검자의 행위가 검사자의 질문 행위일 확률이고, 제2 출력노드(O2)의 출력값은 프레임 내의 검사자 혹은 피검자의 행위가 피검자의 응답 행위 중 눈맞춤일 확률이며, 제3 출력노드(O2)의 출력값은 프레임 내의 검사자 혹은 피검자의 행위가 피검자의 응답 행위 중 고개 젓기일 확률이며, 제n 출력노드(On)의 출력값은 프레임 내의 검사자 혹은 피검자의 행위가 피검자의 응답 행위 중 건네주기일 확률을 나타낼 수 있다.

예컨대, 복수의 출력노드(O1, O2, O3, ..., On)의 출력값이 0.026, 0.712, 0.111, ..., 0.007이면, 제1 출력노드(O1)의 출력값이 0.026이기 때문에 프레임 내의 검사자 혹은 피검자의 행위가 검사자의 질문 행위일 확률이 2%이고, 제2 출력노드(O2)의 출력값이 0.712이기 때문에 프레임 내의 검사자 혹은 피검자의 행위가 피검자의 응답 행위 중 눈맞춤일 확률이 71%이고, 제3 출력노드(O2)의 출력값이 0.111이기 때문에 검사자 혹은 피검자의 행위가 피검자의 응답 행위 중 고개 젓기일 확률이 11%이고, 제n 출력노드(On)의 출력값이 0.007이기 때문에 프레임 내의 검사자 혹은 피검자의 행위가 피검자의 응답 행위 중 건네주기일 확률이 1%임을 나타낸다.

이와 같이, 학습모델(ML)이 검사자 혹은 피검자의 행위가 복수의 유형의 행위 각각에 속할 확률을 산출하면, 레이블도출부(300)은 산출된 확률에 따라 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위를 추정할 수 있다.

예컨대, 복수의 출력노드(O1, O2, O3, ..., On)의 출력값이 0.026, 0.712, 0.111, ..., 0.007이면, 제2 출력노드(O2)의 출력값에 따라 피검자의 응답 행위 눈맞춤일 확률이 71%로 가장 높기 때문에 레이블도출부(300)은 피검자의 응답 행위 중 눈맞춤인 것으로 추정한다.

전술한 컨벌루션층(CL), 완결연결층(FL) 및 출력층(OL)에서 사용되는 활성화함수는 시그모이드(Sigmoid), 하이퍼볼릭탄젠트(tanh: Hyperbolic tangent), ELU(Exponential Linear Unit), ReLU(Rectified Linear Unit), Leakly ReLU, Maxout, Minout, Softmax 등을 예시할 수 있다. 컨벌루션층(CL), 완결연결층(FL) 및 출력층(OL)에 이러한 활성화함수 중 어느 하나를 선택하여 적용할 수 있다.

다음으로, 본 발명의 실시예에 따른 학습모델 기반의 발달 장애 조기 선별을 위한 데이터에 대한 레이블링을 위한 방법에 대해서 설명하기로 한다. 자동으로 레이블링을 수행하도록 학습모델(ML)을 학습시키기 위해서는 학습모델(ML)을 학습시키기 위한 학습 데이터를 마련해야 한다. 이에 따라, 우선, 초기 학습 데이터를 마련하는 방법에 대해서 설명하기로 한다. 도 5는 본 발명의 실시예에 따른 학습모델(ML)을 학습시키기 위한 학습 데이터를 마련하는 방법을 설명하기 위한 흐름도이다.

먼저, 검사자는 입력부(14)를 통해 예컨대, 연구번호, 나이, ADOS(Autism Diagnostic Observation Schedule) 형식, BeDevel(Behavior Development Screening for Toddler) 형식, 검사 날짜, 최종 진단 결과 등의 기본 정보를 입력할 수 있다. 그러면, 레이블장치(10) 제어부(17)의 데이터처리부(100)는 S110 단계에서 입력부(14)를 통해 이러한 기본 정보를 입력받고, 저장부(16)에 임시로 저장한다.

이어서, S120 단계에서 검사자의 입력에 따라 촬영이 시작되며, 검사자는 피검자에 대해 질의하고, 피검자의 행동을 관찰하는 검사가 시작된다. 즉, 검사가 진행되는 동안 데이터처리부(100)는 카메라부(11), 센서부(12) 및 음성처리부(13)을 통해 지속적으로, 카메라부(11)의 복수의 카메라가 촬영하는 복수의 컬러 프레임을 포함하는 컬러 영상, 센서부(12)의 복수의 키넥트 센서가 촬영하는 복수의 뎁스 프레임을 포함하는 뎁스 영상 및 음성처리부(13)에 의해 수집되는 음성에서 복수의 컬러 프레임, 복수의 뎁스 프레임 및 음성을 수집하고, 수집되는 타임라인에 따라 복수의 컬러 프레임, 복수의 뎁스 프레임 및 음성이 동기되어 스트리밍 영상 데이터를 생성한다.

다음으로, 이어서, S130 단계에서 검사가 종료되면, 검사자의 입력에 따라 촬영이 종료되며, 데이터처리부(100)는 지속적으로 수집되어 생성된 스트리밍 영상 데이터를 저장한다.

이어서, 검사자의 입력에 따라 S140 단계에서 제어부(17)의 데이터처리부(100)는 스트리밍 영상 데이터 중 적어도 일부를 재생하고, 이를 표시부(15) 및 음성처리부(13)를 통해 출력할 수 있다. 검사자는 입력부(14)를 통해 재생되는 스트리밍 영상 데이터에 매뉴얼 레이블을 부여할 수 있다. 이때, 검사자는 검사자의 질문 행위가 이루어지는 타임 라인, 피검자의 응답 행위가 이루어지는 타임라인을 구분하는 매뉴얼 레이블과, 피검자의 응답 행위가 이루어지는 타임라인의 경우, 그 응답 행위의 유형이 구분되도록 행위의 유형을 나타내는 매뉴얼 레이블을 부여할 수 있다. 이에 따라, 각 타임라인 별로 검사자 혹은 피검자의 행위의 유형을 나타내는 매뉴얼 레이블이 부여되어 있고 복수의 프레임을 포함하는 스트리밍 영상 데이터인 학습용 영상 데이터가 마련된다. 데이터처리부(100)는 S150 단계에서 이러한 학습용 영상 데이터를 저장부(16)에 저장한다.

전술한 바와 같이, 학습용 영상 데이터가 마련되면, 학습모델(LM)을 학습시킬 수 있다. 이러한 방법에 대해 설명하기로 한다. 도 6은 본 발명의 실시예에 따른 학습용 영상 데이터를 이용하여 학습 모델을 학습시키는 방법을 설명하기 위한 흐름도이다.

도 6을 참조하면, 모델생성부(200)는 S210 단계에서 저장부(16)로부터 각 타임라인 별로 검사자 혹은 피검자의 행위의 유형을 나타내는 매뉴얼 레이블이 부여되어 있고 복수의 프레임을 포함하는 스트리밍 영상 데이터인 학습용 영상 데이터를 불러온다.

그런 다음, 모델생성부(200)는 S220 단계에서 학습모델(ML)에 학습용 영상 데이터의 복수의 프레임을 순차로 입력한다. 이에 따라, 학습모델(ML)은 S230 단계에서 복수의 프레임에 대해 복수의 계층 간 가중치가 적용되는 복수의 연산을 수행하여 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위가 복수의 유형의 행위 각각에 속할 확률을 출력값으로 산출한다.

그러면, 모델생성부(200)는 S240 단계에서 산출된 출력값과 매뉴얼 레이블과의 차이가 최소가 되도록 학습모델의 가중치를 수정하는 최적화를 수행한다. 이때, 모델생성부(200)는 다음의 수학식 1과 같은 출력값과 매뉴얼 레이블과의 차이를 구하는 손실 함수를 이용하여 최적화를 수행한다.

여기서, L은 손실을 나타내며, n은 학습용 영상 데이터의 프레임의 수이고, t는 프레임의 인덱스이다. w는 미리 설정되는 값으로 하이퍼파라미터이며, 피검자의 행위의 수에 비례하여 증가한다. s는 검사자의 행위인지 혹은 피검자의 행위인지 여부를 구분하는 매뉴얼 레이블이고, a는 피검자의 행위의 유형을 나타내는 매뉴얼 레이블이다. e(t)는 출력값 중 검사자의 행위를 나타내는 출력노드의 출력값의 합과, 피검자의 행위를 나타내는 출력노드의 출력값의 합을 나타낸다. b(t)는 출력값 중 피검자의 행위의 유형에 대응하는 출력노드 각각의 출력값을 나타낸다. 즉, 모델생성부(200)는 수학식 1의 손실함수의 값, 즉, 손실이 최소가 되도록 학습모델의 가중치를 수정하는 최적화를 수행한다.

전술한 바와 같은 최적화는 서로 다른 학습용 영상 데이터를 이용하여 반복하여 수행할 수 있다. 러한 반복은 평가 지표를 통해 정확도를 산출하고, 원하는 정확도에 도달할 때까지 이루어질 수 있다.

다음으로, 전술한 바와 같은 방법에 따라 학습이 완료된 학습모델(ML)을 이용하여 발달 장애 조기 선별을 위한 데이터에 대한 레이블링을 수행하는 방법에 대해서 설명하기로 한다. 도 7은 본 발명의 실시예에 따른 학습모델(ML)을 이용하여 발달 장애 조기 선별을 위한 데이터에 대한 레이블링을 수행하는 방법을 설명하기 위한 흐름도이다.

도 7을 참조하면, 사용자의 입력에 따라 데이터처리부(100)는 S310 단계에서 기본 정보를 입력받고, 이를 저장부(16)에 저장한다. 예컨대, 기본 정보는 연구번호, 나이, ADOS(Autism Diagnostic Observation Schedule) 형식, BeDevel(Behavior Development Screening for Toddler) 형식, 검사 날짜, 최종 진단 결과 등을 포함한다.

그러면, 데이터처리부(100)는 S320 단계에서 카메라부(11), 센서부(12) 및 음성처리부(13)를 통해 지속적으로, 카메라부(11)의 복수의 카메라가 촬영하는 복수의 컬러 프레임을 포함하는 컬러 영상, 센서부(12)의 복수의 키넥트 센서가 촬영하는 복수의 뎁스 프레임을 포함하는 뎁스 영상 및 음성처리부(13)에 의해 수집되는 음성에서 복수의 컬러 프레임, 복수의 뎁스 프레임 및 음성을 수집하고, 수집되는 타임라인에 따라 복수의 컬러 프레임, 복수의 뎁스 프레임 및 음성이 동기되어 스트리밍 영상 데이터를 생성한다. 이러한 스트리밍 영상 데이터의 복수의 프레임은 순차로 레이블도출부(300)에 제공된다.

레이블도출부(300)는 S330 단계에서 복수의 프레임을 포함하는 스트리밍 영상 데이터를 프레임 별로 학습모델(LM)에 입력한다. 그러면, 학습이 완료된 학습모델(LM)을 통해 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위가 복수의 유형의 행위 각각에 속할 확률을 산출한다.

그러면, 레이블도출부(300)는 S340 단계에서 학습모델(LM)이 산출된 확률에 따라 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위를 추정한다. 이어서, 레이블처리부(400)는 S350 단계에서 추정된 행위에 따라 해당 프레임에 개별적으로 레이블을 부여한다. 전술한 S320 단계 내지 S350 단계는 S360 단계의 판단에 따라 검사가 종료될 때까지 반복된다.

검사가 종료되면, 레이블처리부(400)는 S370 단계에서 스트리밍 영상 데이터의 복수의 프레임 중 레이블도출부(300)가 추정한 행위가 동일한 연속된 프레임의 시작 시간 및 종료 시간을 검출하고, 스트리밍 영상 데이터에 대해 검출된 시작 시간 및 종료 시간에 대응하여 추정된 행위에 대응하는 레이블을 부여한다.

전술한 바와 같은 방법에 따라 발달 장애 조기 선별을 위한 검사 시, 검사자의 질문과 피검자의 응답 행위를 학습 모델을 통해 식별하고, 식별된 행위에 대응하는 레이블을 자동으로 해당 영상에 부여할 수 있다. 이로써, ASD 발견 선별검사 도구의 개발과 이를 적용한 콘텐츠 및 인지능력이나 심리적 변화에 대한 객관적이고 정량적 평가를 효율적으로 할 수 있는 AI기반 해결 기법의 연구에 필요한 데이터를 효율적으로 수집할 수 있다.

한편, 전술한 본 발명의 실시예에 따른 방법은 다양한 컴퓨터수단을 통하여 판독 가능한 프로그램 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광 기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 와이어뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 와이어를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 이와 같이, 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 균등론에 따라 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.

10: 레이블장치 11: 카메라부
12: 센서부 13: 음성수집부
14: 입력부 15: 표시부
16: 저장부 17: 제어부
100: 모델생성부 200: 레이블도출부
300: 레이블처리부

Claims

레이블링을 위한 장치에 있어서,
컬러 프레임, 뎁스 프레임 및 음성을 포함하는 복수의 프레임을 포함하는 스트리밍 영상 데이터가 입력되면, 학습이 완료된 학습모델을 통해 상기 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위가 복수의 유형의 행위 각각에 속할 확률을 산출하고, 산출된 확률에 따라 상기 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위를 추정하는 레이블도출부; 및
상기 복수의 프레임 중 상기 레이블도출부가 추정한 행위가 동일한 연속된 프레임의 시작 시간 및 종료 시간을 검출하고, 상기 스트리밍 영상 데이터에 대해 검출된 시작 시간 및 종료 시간에 대응하여 상기 추정된 행위를 레이블링하는 레이블처리부;
를 포함하며,
상기 장치는
각 타임라인 별로 검사자 혹은 피검자의 행위의 유형을 나타내는 매뉴얼 레이블이 부여되어 있고 복수의 프레임을 포함하는 스트리밍 영상 데이터인 학습용 영상 데이터를 마련하고,
학습모델에 상기 학습용 영상 데이터의 복수의 프레임을 순차로 입력하고,
학습모델이 복수의 계층 간 가중치가 적용되는 복수의 연산을 통해 상기 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위가 복수의 유형의 행위 각각에 속할 확률을 출력값으로 산출하면, 산출된 출력값과 상기 매뉴얼 레이블과의 차이가 최소가 되도록 상기 학습모델의 가중치를 수정하는 최적화를 수행하는 모델생성부;
를 더 포함하며,
상기 모델생성부는
손실함수

의 값인 손실이 최소가 되도록 학습모델의 가중치를 수정하는 최적화를 수행하며,
상기 L은 손실을 나타내고,
상기 n은 학습용 영상 데이터의 프레임의 수이고,
상기 t는 프레임의 인덱스이고,
상기 w는 학습모델이 분류할 수 있는 피검자의 행위의 수에 비례하여 증가하는 하이퍼파라미터이며,
상기 s는 검사자의 행위인지 혹은 피검자의 행위인지 여부를 구분하는 매뉴얼 레이블이고,
상기 a는 피검자의 행위의 유형을 나타내는 매뉴얼 레이블이고,
상기 e(t)는 출력값 중 검사자의 행위를 나타내는 출력노드의 출력값의 합과, 피검자의 행위를 나타내는 출력노드의 출력값의 합을 나타내며,
상기 b(t)는 출력값 중 피검자의 행위의 유형에 대응하는 출력노드 각각의 출력값을 나타내는 것을 특징으로 하는
레이블링을 위한 장치.
삭제
제1항에 있어서,
상기 학습모델은
스트리밍 영상의 복수의 프레임을 순차로 입력받는 입력층;
적어도 하나의 컨벌루션계층;
적어도 하나의 풀링계층;
적어도 하나의 완전연결계층; 및
검사자 혹은 피검자의 복수의 유형의 행위 각각에 대응하는 출력 노드를 포함하는 출력계층;
을 포함하는 것을 특징으로 하는
레이블링을 위한 장치.
삭제
레이블링을 위한 방법에 있어서,
레이블도출부가 컬러 프레임, 뎁스 프레임 및 음성을 포함하는 복수의 프레임을 포함하는 스트리밍 영상 데이터가 입력되면, 학습이 완료된 학습모델을 통해 상기 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위가 복수의 유형의 행위 각각에 속할 확률을 산출하는 단계;
상기 레이블도출부가 상기 산출된 확률에 따라 상기 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위를 추정하는 단계;
레이블처리부가 상기 복수의 프레임 중 상기 레이블도출부가 추정한 행위가 동일한 연속된 프레임의 시작 시간 및 종료 시간을 검출하는 단계; 및
상기 레이블처리부가 상기 스트리밍 영상 데이터에 대해 검출된 시작 시간 및 종료 시간에 대응하여 상기 추정된 행위를 레이블링하는 단계;
를 포함하며,
상기 방법은
상기 확률을 산출하는 단계 전,
모델생성부가 각 타임라인 별로 검사자 혹은 피검자의 행위의 유형을 나타내는 매뉴얼 레이블이 부여되어 있고 복수의 프레임을 포함하는 스트리밍 영상 데이터인 학습용 영상 데이터를 마련하고,
학습모델에 상기 학습용 영상 데이터의 복수의 프레임을 순차로 입력하고,
학습모델이 복수의 계층 간 가중치가 적용되는 복수의 연산을 통해 상기 복수의 프레임 각각에 나타난 검사자 혹은 피검자의 행위가 복수의 유형의 행위 각각에 속할 확률을 출력값으로 산출하면,
산출된 출력값과 상기 매뉴얼 레이블과의 차이가 최소가 되도록 상기 학습모델의 가중치를 수정하는 최적화를 수행하는 단계;
를 더 포함하며,
상기 최적화를 수행하는 단계는
상기 모델생성부가
손실함수

의 값인 손실이 최소가 되도록 학습모델의 가중치를 수정하는 최적화를 수행하며,
상기 L은 손실을 나타내고,
상기 n은 학습용 영상 데이터의 프레임의 수이고,
상기 t는 프레임의 인덱스이고,
상기 w는 학습모델이 분류할 수 있는 피검자의 행위의 수에 비례하여 증가하는 하이퍼파라미터이며,
상기 s는 검사자의 행위인지 혹은 피검자의 행위인지 여부를 구분하는 매뉴얼 레이블이고,
상기 a는 피검자의 행위의 유형을 나타내는 매뉴얼 레이블이고,
상기 e(t)는 출력값 중 검사자의 행위를 나타내는 출력노드의 출력값의 합과, 피검자의 행위를 나타내는 출력노드의 출력값의 합을 나타내며,
상기 b(t)는 출력값 중 피검자의 행위의 유형에 대응하는 출력노드 각각의 출력값을 나타내는 것을 특징으로 하는
레이블링을 위한 방법.