KR20230030794A

KR20230030794A - 학습 모델 기반의 발달 장애 조기 선별을 위한 데이터를 정제하기 위한 장치 및 이를 위한 방법

Info

Publication number: KR20230030794A
Application number: KR1020210112889A
Authority: KR
Inventors: 김정준; 김민규; 김주현; 이만기; 김경호; 손동섭
Original assignee: 한국로봇융합연구원
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2023-03-07
Also published as: KR102518690B1

Abstract

데이터를 정제하기 위한 장치는 화상과 음성을 포함하는 스트리밍 영상을 소정 시간 단위로 분할하여 복수의 단위 영상을 생성하고, 상기 스트리밍 영상의 재생 순서에 따라 상기 복수의 단위 영상을 출력하는 데이터처리부와, 학습모델을 이용하여 상기 단위 영상의 화상 및 음성을 분석하여 상기 단위 영상의 화자를 판별하고, 판별된 화자에 따라 상기 단위 영상을 질문 부분과 응답 부분으로 분류하고, 상기 질문 부분의 단위 영상을 분석하여 질문의 종류를 분류하고, 상기 응답 부분의 단위 영상을 분석하여 상기 응답으로 수행한 반응의 범주를 분류하는 데이터판별부와, 상기 스트리밍 영상에서 대해 상기 질문 부분 및 상기 응답 부분의 재생 시간과, 상기 질문 부분의 상기 질문의 종류 및 상기 응답 부분의 상기 반응의 범주를 레이블링하여 저장하는 데이터정제부를 포함한다.

Description

학습 모델 기반의 발달 장애 조기 선별을 위한 데이터를 정제하기 위한 장치 및 이를 위한 방법{Apparatus for purifying data for early screening of developmental disabilities based on learning model and method therefor}

본 발명은 데이터를 정제하기 위한 기술에 관한 것으로, 보다 상세하게는, 학습 모델 기반의 발달 장애 조기 선별을 위한 데이터를 정제하기 위한 장치 및 이를 위한 방법에 관한 것이다.

발달장애(Developmental Disability)는 영유아 기부터 시작하는 뇌 신경계 발달 장애들의 집합으로 언어 및 의사소통, 인지력, 사회성 등의 측면에서 이루어져야 할 발달이 심하게 지체되거나 성취되지 않은 장애를 의미한다. 발달 장애인은 지적 장애인과 자폐성 장애인으로 규정되어지는데, 국내의 경우 전체 장애인 수는 매년 감소하는 추세이나, 발달 장애로 진단 받은 사람의 일부만 장애로 등록하는 것으로 추정되므로 실제 발달 장애인은 등록된 숫자보다 훨씬 더 많을 것으로 추정되고 있다.

자폐스펙트럼장애(ASD: Autism Spectrum Disorders)는 2세 전후에 진단이 가능하며, 이후 평생 지속되며 발달의 가장 기본적인 영역의 많은 부분에 이상을 초래하여, 아동의 독립적인 발달, 교육, 가족 삶의 질에 미치는 영향이 큰 장애라 할 수 있다. ASD에 대한 임상과 연구 측면 모두에서 조기 발견과 조기 개입은 매우 중요한 문제인데, 영유아기는 뇌의 가소성이 높은 시기여서 정상적인 형태에 가깝게 변화 할 수 있는 기회를 제공할 뿐 아니라 이차적인 신경학적 손상과 이에 따른 이차적인 심각한 행동 문제가 점차 축적 되는 것을 미리 방지 할 수 있다.

ASD 진단에는 직접적인 관찰, 양육자와 교사가 제공하는 정보, 성장 과정에 대한 상세한 과거력, 인지능력이나 다른 심리적인 기능에 대한 객관적/정량적 평가, 감별진단을 위한 검사, 신경학적 평가, 뇌기능 검사 등을 필요로 한다. 기존의 ASD 선별 도구들은 사용을 위한 훈련과정이 매우 오래 걸리고, 개별 전문가들의 경험과 능력에 따라 진단의 비일관성이 존재하며, 한명의 아동을 진단하는데 최소 6~7시간의 검사 시간과 투입되는 자원이 매우 방대하다. 또한, 유아/아동의 경우 진단 검사를 어디에서 누구와 시행했는지에 따라 일반적으로 일상생활에서 보이는 행동들과는 많이 상이 할 수 있다. 따라서, 인공 지능 기술의 융복합을 위한 영유아/아동의 ASD 발견 선별검사 도구의 개발과 이를 적용한 콘텐츠 및 인지능력이나 심리적 변화에 대한 객관적이고 정량적 평가를 효율적으로 할 수 있는 AI기반 해결방안이 필요하다. 즉, 새로운 선별 검사 도구에 기반한 영유아/아동의 다중감각 데이터 수집 및 이의 자동분석을 통한 비언어적 의사소통 인지, 비정상/상동 증적 표적행동 인지, 복합정보 기반 심리예측 등 ASD 조기선별 시스템을 통한 문제 해결이 필요하다.

한국공개특허 제2020-0085766호 2020년 07월 15일 공개 (명칭: 인지 기능 장애 진단 장치 및 인지 기능 장애 진단 프로그램)

본 발명은 학습 모델 기반의 발달 장애 조기 선별을 위한 데이터를 정제하기 위한 장치 및 이를 위한 방법을 제공함에 있다.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 데이터를 정제하기 위한 장치는 화상과 음성을 포함하는 스트리밍 영상을 소정 시간 단위로 분할하여 복수의 단위 영상을 생성하고, 상기 스트리밍 영상의 재생 순서에 따라 상기 복수의 단위 영상을 출력하는 데이터처리부와, 학습모델을 이용하여 상기 단위 영상의 화상 및 음성을 분석하여 상기 단위 영상의 화자를 판별하고, 판별된 화자에 따라 상기 단위 영상을 질문 부분과 응답 부분으로 분류하고, 상기 질문 부분의 단위 영상을 분석하여 질문의 종류를 분류하고, 상기 응답 부분의 단위 영상을 분석하여 상기 응답으로 수행한 반응의 범주를 분류하는 데이터판별부와, 상기 스트리밍 영상에서 대해 상기 질문 부분 및 상기 응답 부분의 재생 시간과, 상기 질문 부분의 상기 질문의 종류 및 상기 응답 부분의 상기 반응의 범주를 레이블링하여 저장하는 데이터정제부를 포함한다.

상기 학습모델은 상기 단위 영상의 화상을 입력 받고, 입력된 화상으로부터 화자가 아이일 확률과 어른일 확률을 나타내는 화상판별벡터를 산출하는 화상판별망과, 상기 단위 영상의 화상에 대응하는 음성을 입력 받고, 입력된 음성으로부터 화자가 아이일 확률과 어른일 확률을 나타내는 음성판별벡터를 산출하는 음성판별망과, 상기 화상판별벡터를 및 상기 음성판별벡터를 병합하여 화자가 아이일 확률과 어른일 확률을 나타내는 대화판별벡터를 산출하는 대화판별망을 포함한다.

상기 학습모델은 상기 대화판별벡터의 화자가 아이일 확률이 어른일 확률 보다 높은 경우, 상기 화상 및 상기 음성을 통해 나타내는 반응이 기 설정된 복수의 반응의 범주 각각에 속할 확률을 나타내는 응답판별벡터를 산출하는 응답판별망과, 상기 대화판별벡터의 화자가 어른일 확률이 아이일 확률 보다 높은 경우, 상기 음성에서 나타난 질문이 기 설정된 복수의 질문의 종류 각각에 속할 확률을 나타내는 질문판별벡터를 산출하는 질문판별망을 더 포함한다.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 데이터를 정제하기 위한 방법은 데이터처리부가 화상 및 음성을 포함하는 스트리밍 영상을 소정 시간 단위로 분할하여 복수의 단위 영상을 생성하고, 상기 스트리밍 영상의 재생 순서에 따라 상기 복수의 단위 영상을 출력하는 단계와, 데이터판별부가 학습모델을 이용하여 상기 단위 영상의 화상 및 음성을 분석하여 상기 단위 영상의 화자를 판별하고, 판별된 화자에 따라 상기 단위 영상을 질문 부분과 응답 부분으로 분류하고, 상기 질문 부분의 단위 영상을 분석하여 질문의 종류를 분류하고, 상기 응답 부분의 단위 영상을 분석하여 상기 응답으로 수행한 반응의 범주를 분류하는 단계와, 데이터정제부가 상기 스트리밍 영상에서 대해 상기 질문 부분 및 상기 응답 부분의 재생 시간과, 상기 질문 부분의 상기 질문의 종류 및 상기 응답 부분의 상기 반응의 범주를 레이블링하여 저장하는 단계를 포함한다.

상기 분류하는 단계는 상기 학습모델의 화상판별망이 상기 단위 영상의 화상을 입력 받고, 입력된 화상으로부터 화자가 아이일 확률과 어른일 확률을 나타내는 화상판별벡터를 산출하는 단계와, 상기 학습모델의 음성판별망이 상기 단위 영상의 화상에 대응하는 음성을 입력 받고, 입력된 음성으로부터 화자가 아이일 확률과 어른일 확률을 나타내는 음성판별벡터를 산출하는 단계와, 상기 학습모델의 대화판별망이 상기 화상판별벡터를 및 상기 음성판별벡터를 병합하여 화자가 아이일 확률과 어른일 확률을 나타내는 대화판별벡터를 산출하는 단계를 포함한다.

상기 분류하는 단계는 상기 대화판별벡터를 산출하는 단계 후, 상기 학습모델의 응답판별망이 상기 대화판별벡터의 화자가 아이일 확률이 어른일 확률 보다 높은 경우, 상기 화상 및 상기 음성을 통해 나타내는 반응이 기 설정된 복수의 반응의 범주 각각에 속할 확률을 나타내는 응답판별벡터를 산출하는 단계와, 상기 학습모델의 질문판별망이 상기 대화판별벡터의 화자가 어른일 확률이 아이일 확률 보다 높은 경우, 상기 음성에서 나타난 질문이 기 설정된 복수의 질문의 종류 각각에 속할 확률을 나타내는 질문판별벡터를 산출하는 단계를 더 포함한다.

본 발명에 따르면 발달 장애 조기 선별을 위한 검사 시, 검사자가 질문하는 부분의 재생 시간, 피검자가 질문에 대해 반응하는 부분의 재생 시간과, 검사자의 질문의 종류 및 피검자의 반응의 범주를 학습 모델을 통해 분류하고, 대응하는 레이블을 자동으로 해당 스트리밍 영상에 부여할 수 있다. 이로써, ASD 발견 선별검사 도구의 개발과 이를 적용한 콘텐츠 및 인지능력이나 심리적 변화에 대한 객관적이고 정량적 평가를 효율적으로 할 수 있는 AI 기반 해결 기법의 연구에 필요한 데이터를 효율적으로 수집할 수 있다.

도 1은 본 발명의 실시예에 따른 학습 모델 기반의 발달 장애 조기 선별을 위한 데이터를 정제하기 위한 장치의 구성을 설명하기 위한 도면이다.
도 2는 본 발명의 실시예에 따른 학습 모델 기반의 발달 장애 조기 선별을 위한 데이터를 정제하기 위한 장치의 세부 구성을 설명하기 위한 도면이다.
도 3은 본 발명의 실시예에 따른 학습 모델 기반의 발달 장애 조기 선별을 위한 데이터를 정제하기 위한 학습 모델의 구성을 설명하기 위한 도면이다.
도 4는 본 발명의 실시예에 따른 데이터를 정제하기 위한 학습모델(ML)을 학습시키기 방법을 설명하기 위한 흐름도이다.
도 5는 본 발명의 실시예에 따른 학습모델(ML)을 이용하여 발달 장애 조기 선별을 위한 데이터를 정제하기 위한 방법을 설명하기 위한 흐름도이다.
도 6은 본 발명의 실시예에 따른 학습모델(ML)을 이용하여 발달 장애 조기 선별을 위한 데이터를 정제하기 위한 방법을 설명하기 위한 화면 예이다.
도 7은 본 발명의 실시예에 따른 컴퓨팅 장치를 나타내는 도면이다.

본 발명의 상세한 설명에 앞서, 이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 실시예에 불과할 뿐, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 이때, 첨부된 도면에서 동일한 구성 요소는 가능한 동일한 부호로 나타내고 있음을 유의해야 한다. 또한, 본 발명의 요지를 흐리게 할 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략할 것이다. 마찬가지의 이유로 첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 또는 개략적으로 도시되었으며, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다.

먼저, 본 발명의 실시예에 따른 학습 모델 기반의 발달 장애 조기 선별을 위한 데이터를 정제하기 위한 장치에 대해서 설명하기로 한다. 도 1은 본 발명의 실시예에 따른 학습 모델 기반의 발달 장애 조기 선별을 위한 데이터를 정제하기 위한 장치의 구성을 설명하기 위한 도면이다. 도 2는 본 발명의 실시예에 따른 학습 모델 기반의 발달 장애 조기 선별을 위한 데이터를 정제하기 위한 장치의 세부 구성을 설명하기 위한 도면이다.

먼저, 도 1을 참조하면, 본 발명의 실시예에 따른 데이터정제장치(10)는 카메라부(11), 센서부(12), 입력부(14), 표시부(15), 저장부(16) 및 제어부(17)를 포함한다.

카메라부(11)는 복수의 연속된 컬러 프레임과 음성을 포함하는 컬러 영상을 촬영하기 위한 것이다. 카메라부(11)는 복수의 카메라를 포함한다. 복수의 카메라는 각각 서로 다른 방향에서 검사자 및 피검자를 촬영하여 컬러 영상을 생성할 수 있다.

센서부(12)는 복수의 키넥트 센서를 포함한다. 복수의 키넥트 센서 각각은 카메라부(11)의 복수의 카메라 각각에 대응하며, 카메라부(11)의 복수의 카메라 각각과 동일한 방향에서 검사자 및 피검자에 적외선을 방사하고, 이로부터 복수의 연속된 뎁스(IR depth) 프레임을 포함하는 뎁스 영상을 촬영한다. 이러한 뎁스 영상은 컬러 영상에 동기되어 촬영된다.

입력부(14)는 데이터정제장치(10)를 제어하기 위한 사용자의 조작을 입력받고 입력 신호를 생성하여 제어부(17)에 전달할 수 있다. 입력부(14)는 데이터정제장치(10)를 제어하기 위한 각 종 키, 버튼 등을 포함한다.

표시부(15)는 화면 표시를 위한 것으로, 데이터정제장치(10)의 메뉴, 입력된 데이터, 기능 설정 정보 및 기타 다양한 정보를 사용자에게 시각적으로 제공할 수 있다. 표시부(15)는 액정표시장치(LCD, Liquid Crystal Display), 유기 발광 다이오드(OLED, Organic Light Emitting Diodes), 능동형 유기 발광 다이오드(AMOLED, Active Matrix Organic Light Emitting Diodes) 등으로 형성될 수 있다. 한편, 표시부(15)는 터치스크린으로 구현될 수 있다. 이러한 경우, 표시부(15)는 터치센서를 포함한다. 터치센서는 사용자의 터치 입력을 감지한다. 터치센서는 정전용량 방식(capacitive overlay), 압력식, 저항막 방식(resistive overlay), 적외선 감지 방식(infrared beam) 등의 터치 감지 센서로 구성되거나, 압력 감지 센서(pressure sensor)로 구성될 수도 있다. 상기 센서들 이외에도 물체의 접촉 또는 압력을 감지할 수 있는 모든 종류의 센서 기기가 본 발명의 터치센서로 이용될 수 있다. 터치센서는 사용자의 터치 입력을 감지하고, 터치된 위치를 나타내는 입력 좌표를 포함하는 감지 신호를 발생시켜 제어부(17)로 전송할 수 있다.

저장부(16)는 데이터정제장치(10)의 동작에 필요한 프로그램 및 데이터를 저장하는 역할을 수행한다. 저장부(16)는 카메라부(11)의 복수의 카메라가 촬영한 스트리밍 영상 및 센서부(12)의 복수의 키네틱 센서가 촬영하는 뎁스 영상, 및 음성처리부(13)이 수집하는 음성을 저장할 수 있다. 저장부(16)에 저장되는 각 종 데이터는 사용자의 조작에 따라, 삭제, 변경, 추가될 수 있다.

제어부(17)는 데이터정제장치(10)의 전반적인 동작 및 데이터정제장치(10)의 내부 블록들 간 신호 흐름을 제어하고, 데이터를 처리하는 데이터 처리 기능을 수행할 수 있다. 또한, 제어부(17)는 기본적으로, 데이터정제장치(10)의 각 종 기능을 제어하는 역할을 수행한다. 제어부(17)는 중앙처리장치(CPU: Central Processing Unit), 디지털신호처리기(DSP: Digital Signal Processor) 등을 예시할 수 있다.

도 2를 참조하면, 제어부(17)는 레이블링을 위해 모델생성부(100), 데이터처리부(200), 데이터판별부(300) 및 데이터정제부(400)를 포함한다.

먼저, 모델생성부(100)는 학습모델(LM: Leaning Model)을 학습시키기 위한 것이다. 학습모델(LM: Leaning Model)은 심층신경망(Deep Neural Network)이 될 수 있다. 특히, 학습모델(LM)은 대표적으로, CNN(Convolution Neural Network)을 예시할 수 있다. 모델생성부(100)는 학습이 완료된 학습모델(LM)을 데이터판별부(300)에 제공한다. 이러한 학습모델(LM)에 대해서는 아래에서 더 상세하게 설명될 것이다.

데이터처리부(100)는 카메라부(11) 및 센서부(12)를 통해 복수의 연속된 컬러 프레임 및 음성을 포함하는 컬러 영상 및 복수의 연속된 뎁스 프레임을 포함하는 뎁스 영상을 수신하면, 복수의 연속된 컬러 프레임과 복수의 연속된 뎁스 프레임을 포함하는 화상 및 음성을 포함하는 멀티채널 형식의 스트리밍 영상을 생성한다. 또한, 데이터처리부(100)는 컬러 프레임 및 뎁스 프레임을 포함하는 화상과 음성을 포함하는 스트리밍 영상을 소정 시간 단위로 분할하여 복수의 단위 영상을 생성할 수 있다. 그리고 데이터처리부(100)는 스트리밍 영상의 재생 순서에 따라 복수의 단위 영상을 출력한다.

데이터판별부(200)는 학습모델(LM)을 이용하여 단위 영상의 화상 및 음성을 분석하여 단위 영상의 화자를 판별하고, 판별된 화자에 따라 단위 영상을 질문 부분과 응답 부분으로 분류한다. 또한, 데이터판별부(200)는 학습모델(LM)을 이용하여 질문 부분의 단위 영상을 분석하여 질문의 종류를 분류하고, 응답 부분의 단위 영상을 분석하여 응답으로 수행한 반응의 범주를 분류할 수 있다.

데이터정제부(300)는 스트리밍 영상에서 대해 질문 부분 및 응답 부분의 재생 시간과, 질문 부분의 질문의 종류 및 응답 부분의 반응의 범주를 레이블링하여 저장할 수 있다.

다음으로, 본 발명의 실시예에 따른 학습 모델 기반의 발달 장애 조기 선별을 위한 데이터를 정제하기 위한 학습 모델의 구성을 설명하기로 한다. 도 3은 본 발명의 실시예에 따른 학습 모델 기반의 발달 장애 조기 선별을 위한 데이터를 정제하기 위한 학습 모델의 구성을 설명하기 위한 도면이다.

도 3을 참조하면, 학습모델(ML)은 복수의 하부망(sub-network)으로 이루어진다. 복수의 하부망(sub-network)은 하부망(sub-network)은 화상판별망(VDN), 음성판별망(ADN), 대화판별망(CDN), 응답판별망(RDN) 및 질문판별망(QDN)을 포함한다.

복수의 하부망(sub-network) 각각은 입력층(input layer: IL), 교번으로 반복되는 적어도 한 쌍의 컨벌루션층(convolution layer: CL)과 풀링층(pooling layer: PL), 적어도 하나의 완전연결층(fully-connected layer: FL) 및 출력층(output layer: OL)을 포함한다. 복수의 하부망(sub-network) 각각은 입력값에 대해 복수의 계층 간 가중치가 적용되는 연산을 수행하여 출력값을 산출한다. 특히, 컨볼루션층(CL) 및 풀링층(PL)은 적어도 하나의 특징맵(FM: Feature Map)으로 구성된다. 특징맵(FM)은 이전 계층의 연산 결과에 대해 가중치 및 임계치를 적용한 값을 입력받고, 입력받은 값에 대한 연산을 수행한 결과로 도출된다. 이러한 가중치는 소정 크기의 가중치 행렬인 필터 혹은 커널(W)을 통해 적용된다. 본 발명의 실시예에서 컨볼루션층(CL)의 컨벌루션 연산은 제1 필터(W1)가 사용되며, 풀링층(PL)의 풀링 연산은 제2 필터(W2)가 사용된다.

입력층(IL)에 입력값(예컨대, 화상, 음성, 벡터 등)이 입력되면, 컨볼루션층(CL)은 입력층(IL)에 입력된 프레임에 대해 제1 필터(W1)를 이용한 컨벌루션(convolution) 연산 및 활성화함수에 의한 연산을 수행하여 적어도 하나의 제1 특징맵(FM1)을 도출한다. 이어서, 풀링층(PL)은 컨볼루션층(CL)의 적어도 하나의 제1 특징맵(FM1)에 대해 제2 필터(W2)를 이용한 풀링(pooling 또는 sub-sampling) 연산을 수행하여 적어도 하나의 제2 특징맵(FM2)을 도출한다.

완결연결층(FL)은 복수의 연산노드(F1 내지 Fm)로 이루어진다. 완결연결층(CL)의 복수의 연산노드(F1 내지 Fm)는 풀링층(PL)의 적어도 하나의 제2 특징맵(FM2)에 대해 활성화함수에 의한 연산을 통해 복수의 연산값을 산출한다.

출력층(OL)은 복수의 출력노드(O1 내지 On)를 포함한다. 완결연결층(FL)의 복수의 연산노드(F1 내지 Fm) 각각은 가중치(W: weight)를 가지는 채널로 출력층(OL)의 출력노드(O1 내지 On)와 연결된다. 다른 말로, 복수의 연산노드(F1 내지 Fm)의 복수의 연산값은 가중치(W)가 적용되어 복수의 출력노드(O1 내지 On) 각각에 입력된다. 이에 따라, 출력층(OL)의 복수의 출력노드(O1 내지 On)는 완결연결층(FL)의 가중치(W)가 적용되는 복수의 연산값에 대해 활성화함수에 의한 연산을 통해 출력값을 산출한다.

전술한 컨벌루션층(CL), 완결연결층(FL) 및 출력층(OL)에서 사용되는 활성화함수는 시그모이드(Sigmoid), 하이퍼볼릭탄젠트(tanh: Hyperbolic tangent), ELU(Exponential Linear Unit), ReLU(Rectified Linear Unit), Leakly ReLU, Maxout, Minout, Softmax 등을 예시할 수 있다. 컨벌루션층(CL), 완결연결층(FL) 및 출력층(OL)에 이러한 활성화함수 중 어느 하나를 선택하여 적용할 수 있다.

특히, 출력층(OL)의 복수의 출력노드(O1 내지 On) 각각은 화자가 아이일 확률과 어른일 확률이거나, 화상 및 상기 음성을 통해 나타내는 반응이 기 설정된 복수의 반응의 범주 각각에 속할 확률이거나, 음성에서 나타난 질문이 기 설정된 복수의 질문의 종류 각각에 속할 확률을 나타낸다. 일례로, 2개의 출력노드(O1, O2)가 존재하며, 제1 출력노드(O1)는 화자가 아이일 확률이고, 제2 출력노드(O2)는 화자가 어른일 확률에 대응할 수 있다. 이러한 경우, 제1 출력노드(O1)의 출력값은 화자가 아이일 확률이고, 제2 출력노드(O2)의 출력값은 화자가 어른일 확률이다. 이러한 경우, 복수의 출력노드(O1, O2)의 출력값이 0.256 및 0.744이면, 제1 출력노드(O1)의 출력값이 0.026이기 때문에 화자가 아이일 확률이 26%이고, 제2 출력노드(O2)의 출력값이 0.744이기 때문에 화자가 어른일 확률이 74%이다. 이러한 각 노드의 출력값은 노드의 수에 대응하는 원소의 수를 가지는 벡터가 될 수 있다. 이에 따라, 데이터판별부(300)는 서브망에서 출력되는 벡터에 내재된 확률에 따라 입력 데이터를 분류할 수 있다. 예컨대, 전술한 예와 동일하게, 복수의 출력노드(O1, O2)의 출력값이 0.256 및 0.744이면, 벡터는 [0.256, 0.744]이고, 이는 화자가 아이일 확률이 26%이고, 화자가 어른일 확률이 74%을 나타낸다. 화자가 어른일 확률이 74%로 26%인 화자가 아이일 확률 보다 높기 때문에 데이터판별부(300)는 입력 데이터의 화자가 어른인 것으로 분류할 수 있다.

이와 같이, 본 발명의 실시예에 따른 복수의 하부망(sub-network) 각각은 입력값에 대해 복수의 계층 간 가중치가 적용되는 연산을 수행하여 벡터를 산출한다. 즉, 화상판별망(VDN)은 단위 영상의 화상을 입력 받고, 입력된 화상으로부터 화자가 아이일 확률과 어른일 확률을 나타내는 화상판별벡터를 산출한다. 음성판별망(ADN)은 단위 영상의 화상에 대응하는 음성을 입력 받고, 입력된 음성으로부터 화자가 아이일 확률과 어른일 확률을 나타내는 음성판별벡터를 산출한다. 대화판별망(CDN)은 화상판별벡터를 및 음성판별벡터를 병합하여 화자가 아이일 확률과 어른일 확률을 나타내는 대화판별벡터를 산출한다. 응답판별망(RDN)은 대화판별벡터의 화자가 아이일 확률이 어른일 확률 보다 높은 경우, 화상 및 음성을 통해 나타내는 반응이 기 설정된 복수의 반응의 범주 각각에 속할 확률을 나타내는 응답판별벡터를 산출한다. 그리고 질문판별망(QDN)은 대화판별벡터의 화자가 어른일 확률이 아이일 확률 보다 높은 경우, 음성에서 나타난 질문이 기 설정된 복수의 질문의 종류 각각에 속할 확률을 나타내는 질문판별벡터를 산출한다.

다음으로, 본 발명의 실시예에 따른 학습 모델 기반의 발달 장애 조기 선별을 위한 데이터를 정제하기 위한 방법에 대해서 설명하기로 한다. 데이터를 정제하기 위한 방법의 구체적인 설명에 앞서, 학습모델(ML)을 학습시키기는 방법에 대해서 설명하기로 한다. 도 4는 본 발명의 실시예에 따른 데이터를 정제하기 위한 학습모델(ML)을 학습시키기 방법을 설명하기 위한 흐름도이다.

도 4를 참조하면, 모델생성부(200)는 S110 단계에서 학습 데이터를 마련한다. 여기서, 학습 데이터는 검사자와 피검사자 촬영된 화상 및 음성을 포함하는 스트리밍 영상이 소정의 시간 단위로 분할된 복수의 학습용 단위 영상과, 복수의 학습용 단위 영상에 대한 레이블을 포함한다. 특히, 레이블은 화자 레이블, 질문 레이블 및 응답 레이블을 포함한다. 화자 레이블은 학습용 단위 영상의 화자가 아이인지 혹은 어른이지 여부를 구분한다. 질문 레이블은 단위 영상이 검사자가 피검사자에게 질문하는 부분인 질문 부분인 경우, 질문의 종류가 어떤 종류의 질문인지 여부를 구분한다. 여기서, 질문의 종류는 ADOS(Autism Diagnostic Observation Schedule) 형식, BeDevel(Behavior Development Screening for Toddler) 형식을 예시할 수 있다. 응답 레이블은 단위 영상이 피검사자가 검사자의 질문에 대한 반응을 나타내는 응답 부분인 경우, 피검자의 반응의 종류가 기 설정된 복수의 반응 중 어떤 범주의 반응에 속하는지 여부를 구분한다. 여기서, 반응의 범주는 사물을 가리키기, 관습적 제스처, 괴로워하는 발성, 깨물기, 검사자와 눈맞춤, 물건 들어서 보여주기, 사물을 바라보기, 반응 없음 등을 예시할 수 있다.

모델생성부(200)는 S120 단계에서 학습데이터를 이용하여 화상판별망(VDN) 및 음성판별망(ADN) 각각을 개별적으로 학습시킨다. S120 단계에서, 모델생성부(200)는 학습용 단위 영상 중 화상을 화상판별망(VDN)에 입력하고, 화상판별망(VDN)이 입력된 화상에 대해 복수의 계층 간 학습되지 않은 가중치가 적용되는 연산을 수행하여 화자가 아이일 확률과 어른일 확률을 나타내는 화상판별벡터를 산출한다. 그러면, 모델생성부(200)는 화상판별벡터와 화자 레이블과의 차이를 나타내는 손실을 산출하고, 손실이 최소화되도록 화상판별망(VDN)의 가중치를 수정하는 최적화를 수행한다. 또한, S120 단계에서, 모델생성부(200)는 화상판별망(VDN)에 입력된 학습용 단위 영상의 화상에 대응하는 음성을 음성판별망(ADN)에 입력하고, 음성판별망(ADN)이 입력된 음성에 대해 복수의 계층 간 학습되지 않은 가중치가 적용되는 연산을 수행하여 화자가 아이일 확률과 어른일 확률을 나타내는 음성판별벡터를 산출한다. 그러면, 모델생성부(200)는 음성판별벡터와 화자 레이블과의 차이를 나타내는 손실을 산출하고, 손실이 최소화되도록 음성판별망(ADN)의 가중치를 수정하는 최적화를 수행한다.

다음으로, 모델생성부(200)는 S130 단계에서 학습데이터를 이용하여 대화판별망(CDN)을 학습시킨다. S130 단계에서, 모델생성부(200)는 학습용 단위 영상 중 화상을 화상판별망(VDN)에 입력하고, 화상판별망(VDN)에 입력된 학습용 단위 영상의 화상에 대응하는 음성을 음성판별망(ADN)에 입력한다. 그러면, 화상판별망(VDN)은 입력된 화상에 대해 복수의 계층 간 가중치가 적용되는 연산을 수행하여 화자가 아이일 확률과 어른일 확률을 나타내는 화상판별벡터를 산출하고, 음성판별망(ADN)은 입력된 음성에 대해 복수의 계층 간 가중치가 적용되는 연산을 수행하여 화자가 아이일 확률과 어른일 확률을 나타내는 음성판별벡터를 산출한다. 산출된 화상판별벡터 및 음성판별벡터는 대화판별망(CDN)에 입력되며, 대화판별망(CDN)은 화상판별벡터 및 음성판별벡터에 대해 복수의 계층 간 가중치가 적용되는 연산을 수행하여 화자가 아이일 확률과 어른일 확률을 나타내는 대화판별벡터를 산출한다. 그러면, 모델생성부(200)는 화상판별벡터와 화자 레이블과의 차이를 나타내는 제1 손실을 산출하고, 음성판별벡터와 화자 레이블과의 차이를 나타내는 제2 손실을 산출하고, 대화판별벡터와 화자 레이블과의 차이를 나타내는 제3 손실을 산출한다. 이어서, 모델생성부(200)는 제3 손실이 제1 손실 및 제2 손실 보다 작고, 제1 손실, 제2 손실 및 제3 손실이 최소가 되도록 화상판별망(VDN), 음성판별망(ADN) 및 대화판별망(CDN)의 가중치를 수정하는 최적화를 수행한다.

다음으로, 모델생성부(200)는 S140 단계에서 질문판별망(QDN)을 학습시킨다. S140 단계에서, 모델생성부(200)는 학습용 단위 영상 중 화상을 화상판별망(VDN)에 입력하고, 화상판별망(VDN)에 입력된 학습용 단위 영상의 화상에 대응하는 음성을 음성판별망(ADN)에 입력한다. 그러면, 화상판별망(VDN)은 입력된 화상에 대해 복수의 계층 간 가중치가 적용되는 연산을 수행하여 화자가 아이일 확률과 어른일 확률을 나타내는 화상판별벡터를 산출하고, 음성판별망(ADN)은 입력된 음성에 대해 복수의 계층 간 가중치가 적용되는 연산을 수행하여 화자가 아이일 확률과 어른일 확률을 나타내는 음성판별벡터를 산출한다. 산출된 화상판별벡터 및 음성판별벡터는 대화판별망(CDN)에 입력되며, 대화판별망(CDN)은 화상판별벡터 및 음성판별벡터에 대해 복수의 계층 간 가중치가 적용되는 연산을 수행하여 화자가 아이일 확률과 어른일 확률을 나타내는 대화판별벡터를 산출한다. 산출된 대화판별벡터는 질문판별망(QDN)에 입력되며, 동시에, 숏컷(SC)을 통해 음성판별망(ADN)에 입력된 음성이 질문판별망(QDN)에 입력된다. 이에 따라, 질문판별망(QDN)은 대화판별벡터 및 음성에 대해 상기 음성에서 나타난 질문이 기 설정된 복수의 질문의 종류 각각에 속할 확률을 나타내는 질문판별벡터를 산출한다. 여기서, 기 설정된 복수의 질문의 종류는 ADOS 형식 및 BeDevel 형식을 예시할 수 있다. 특히, 대화판별벡터에서 화자가 아이일 확률이 어른일 확률 보다 높은 경우, 이러한 대화판별벡터가 질문판별망(QDN)에 입력되면, 대화판별벡터는 입력되는 음성을 소거하는 역할을 수행하며, 대화판별벡터에서 화자가 어른일 확률이 아이일 확률 보다 높은 경우, 대화판별벡터가 질문판별망(QDN)에 입력되면, 입력된 음성의 변화 없이 해당 음성이 그대로 입력하도록 하는 역할을 수행한다. 따라서 질문판별망(QDN)은 화자가 어른일 확률이 아이일 확률 보다 높은 경우에만, 음성에서 나타난 질문이 기 설정된 복수의 질문의 종류 각각에 속할 확률을 나타내는 질문판별벡터를 산출할 수 있다. 이에 따라, 질문판별벡터가 산출되면, 모델생성부(200)는 질문판별벡터와 질문 레이블과의 차이를 나타내는 손실을 산출하고, 산출된 손실이 최소가 되도록 화상판별망(VDN), 음성판별망(ADN) 및 대화판별망(CDN)의 가중치를 고정한 상태에서, 질문판별망(QDN)의 가중치를 수정하는 최적화를 수행한다.

다음으로, 모델생성부(200)는 S150 단계에서 응답판별망(RDN)을 학습시킨다. S150 단계에서, 모델생성부(200)는 학습용 단위 영상 중 화상을 화상판별망(VDN)에 입력하고, 화상판별망(VDN)에 입력된 학습용 단위 영상의 화상에 대응하는 음성을 음성판별망(ADN)에 입력한다. 그러면, 화상판별망(VDN)은 입력된 화상에 대해 복수의 계층 간 가중치가 적용되는 연산을 수행하여 화자가 아이일 확률과 어른일 확률을 나타내는 화상판별벡터를 산출하고, 음성판별망(ADN)은 입력된 음성에 대해 복수의 계층 간 가중치가 적용되는 연산을 수행하여 화자가 아이일 확률과 어른일 확률을 나타내는 음성판별벡터를 산출한다. 산출된 화상판별벡터 및 음성판별벡터는 대화판별망(CDN)에 입력되며, 대화판별망(CDN)은 화상판별벡터 및 음성판별벡터에 대해 복수의 계층 간 가중치가 적용되는 연산을 수행하여 화자가 아이일 확률과 어른일 확률을 나타내는 대화판별벡터를 산출한다. 산출된 대화판별벡터는 응답판별망(RDN)에 입력되며, 동시에, 숏컷(SC)을 통해 화상판별망(VDN)에 입력된 화상 및 음성판별망(ADN)에 입력된 음성이 질문판별망(QDN)에 입력된다. 이에 따라, 응답판별망(RDN)은 대화판별벡터, 화상 및 음성에 대해 화상 및 음성에서 나타난 반응이 기 설정된 복수의 반응의 범주 각각에 속할 확률을 나타내는 응답판별벡터를 산출한다. 여기서, 기 설정된 복수의 반응의 범주는 사물을 가리키기, 관습적 제스처, 괴로워하는 발성, 깨물기, 검사자와 눈맞춤, 물건 들어서 보여주기, 사물을 바라보기, 반응 없음 등을 예시할 수 있다. 특히, 대화판별벡터에서 화자가 어른일 확률이 아이일 확률 보다 높은 경우, 이러한 대화판별벡터가 응답판별망(RDN)에 입력되면, 대화판별벡터는 입력되는 화상 및 음성을 소거하는 역할을 수행하며, 대화판별벡터에서 화자가 아이일 확률이 어른일 확률 보다 높은 경우, 대화판별벡터가 응답판별망(RDN)에 입력되면, 입력된 화상 및 음성의 변화 없이 해당 음성이 그대로 입력하도록 하는 역할을 수행한다. 따라서 응답판별망(RDN)은 화자가 아이일 확률이 어른일 확률 보다 높은 경우에만, 화상 및 음성에서 나타난 반응이 기 설정된 복수의 반응의 범주 각각에 속할 확률을 나타내는 응답판별벡터를 산출할 수 있다. 이에 따라, 응답판별벡터가 산출되면, 모델생성부(200)는 응답판별벡터와 응답 레이블과의 차이를 나타내는 손실을 산출하고, 산출된 손실이 최소가 되도록 화상판별망(VDN), 음성판별망(ADN) 및 대화판별망(CDN)의 가중치를 고정한 상태에서, 응답판별망(RDN)의 가중치를 수정하는 최적화를 수행한다.

전술한 바와 같이, 화상판별망(VDN), 음성판별망(ADN), 대화판별망(CDN) 및 질문판별망(QDN)의 학습이 완료되면, 학습모델(ML)의 학습이 완료된다.

그러면, 학습이 완료된 학습모델(ML)을 이용하여 발달 장애 조기 선별을 위한 데이터를 정제하기 위한 방법에 대해서 설명하기로 한다. 도 5는 본 발명의 실시예에 따른 학습모델(ML)을 이용하여 발달 장애 조기 선별을 위한 데이터를 정제하기 위한 방법을 설명하기 위한 흐름도이다. 도 6은 본 발명의 실시예에 따른 학습모델(ML)을 이용하여 발달 장애 조기 선별을 위한 데이터를 정제하기 위한 방법을 설명하기 위한 화면 예이다.

도 5를 참조하면, 데이터처리부(100)는 S210 단계에서 적어도 2 이상의 사람, 예컨대, 검사자 및 피검사자가 촬영된 화상 및 음성을 포함하는 스트리밍 영상이 입력되면, S220 단계에서 스트리밍 영상을 소정 시간 단위로 분할하여 복수의 단위 영상을 생성하고, 상기 스트리밍 영상의 재생 순서에 따라 상기 복수의 단위 영상을 출력한다.

데이터판별부(120)는 S230 단계에서 스트리밍 영상의 재생 순서에 따라 순차로 복수의 단위 영상을 학습모델(ML)에 입력한다. 단위 영상의 화상은 화상판별망(VDN)에 입력되고, 화상판별망(VDN)에 입력된 단위 영상의 화상에 대응하는 음성은 음성판별망(ADN)에 입력된다.

그러면, S230 단계에서 화상판별망(VDN)은 입력된 화상에 대해 복수의 계층 간 가중치가 적용되는 연산을 수행하여 화자가 아이일 확률과 어른일 확률을 나타내는 화상판별벡터를 산출하고, 음성판별망(ADN)은 입력된 음성에 대해 복수의 계층 간 가중치가 적용되는 연산을 수행하여 화자가 아이일 확률과 어른일 확률을 나타내는 음성판별벡터를 산출한다. 산출된 화상판별벡터 및 음성판별벡터는 대화판별망(CDN)에 입력되며, S240 단계에서 대화판별망(CDN)은 화상판별벡터 및 음성판별벡터에 대해 복수의 계층 간 가중치가 적용되는 연산을 수행하여 화자가 아이일 확률과 어른일 확률을 나타내는 대화판별벡터를 산출한다.

산출된 대화판별벡터는 질문판별망(QDN) 및 응답판별망(RDN) 각각에 입력되며, 숏컷(SC)을 통해 화상판별망(VDN)에 입력된 화상 및 음성판별망(ADN)에 입력된 음성이 질문판별망(QDN)에 입력되고, 숏컷(SC)을 통해 음성판별망(ADN)에 입력된 음성이 질문판별망(QDN)에 입력된다. 이에 따라, S260 단계에서 응답판별망(RDN)은 화상 및 음성에 나타난 반응이 기 설정된 복수의 반응의 범주 각각에 속할 확률을 나타내는 응답판별벡터를 산출하며, 질문판별망(QDN)은 음성에 나타난 질문이 기 설정된 복수의 질문의 종류 각각에 속할 확률을 나타내는 질문판별벡터를 산출한다.

이러한 S260 단계에 대해 보다 상세하게 설명하면, 다음과 같다. 대화판별벡터에서 화자가 어른일 확률이 아이일 확률 보다 높은 경우, 이러한 대화판별벡터가 응답판별망(RDN)에 입력되면, 대화판별벡터는 입력되는 화상 및 음성을 소거하는 역할을 수행하며, 대화판별벡터에서 화자가 아이일 확률이 어른일 확률 보다 높은 경우, 대화판별벡터가 응답판별망(RDN)에 입력되면, 입력된 화상 및 음성의 변화 없이 해당 음성이 그대로 입력하도록 하는 역할을 수행한다. 따라서 응답판별망(RDN)은 S260 단계에서 화자가 아이일 확률이 어른일 확률 보다 높은 경우에만, 화상 및 음성에서 나타난 반응이 기 설정된 복수의 반응의 범주 각각에 속할 확률을 나타내는 응답판별벡터를 산출한다. 또한, 대화판별벡터에서 화자가 아이일 확률이 어른일 확률 보다 높은 경우, 이러한 대화판별벡터가 질문판별망(QDN)에 입력되면, 대화판별벡터는 입력되는 음성을 소거하는 역할을 수행하며, 대화판별벡터에서 화자가 어른일 확률이 아이일 확률 보다 높은 경우, 대화판별벡터가 질문판별망(QDN)에 입력되면, 입력된 음성의 변화 없이 해당 음성이 그대로 입력하도록 하는 역할을 수행한다. 따라서 질문판별망(QDN)은 S260 단계에서 화자가 어른일 확률이 아이일 확률 보다 높은 경우에만, 음성에서 나타난 질문이 기 설정된 복수의 질문의 종류 각각에 속할 확률을 나타내는 질문판별벡터를 산출한다.

전술한 바와 같이, 대화판별벡터와, 응답판별벡터 및 질문판별벡터 중 어느 하나가 산출되면, 데이터판별부(300)는 S270 단계에서 대화판별벡터로부터 단위 영상의 화자를 판별하고, 판별된 화자에 따라 단위 영상을 질문 부분과 응답 부분으로 분류하고, 응답판별벡터로부터 응답으로 수행한 반응의 범주를 분류하고, 질문판별벡터로부터 질문의 종류를 분류한다.

즉, 대화판별벡터는 화자가 아이일 확률과 어른일 확률을 나타내며, 데이터판별부(300)는 화자가 어른일 확률이 아이일 확률 보다 높은 경우, 화자는 검사자인 것으로 판별할 수 있다. 데이터판별부(300)는 화자가 아이일 확률이 어른일 확률 보다 높은 경우, 화자는 피검사자인 것으로 판별할 수 있다. 또한, 데이터판별부(300)는 화자가 검사자인 것으로 판별되면, 해당 단위 영상을 질문 부분으로 분류하며, 화자가 피검사자인 것으로 판별되면, 해당 단위 영상을 응답 부분으로 분류할 수 있다.

또한, 응답판별벡터는 단위 영상에 나타난 반응이 기 설정된 복수의 반응의 범주 각각에 속할 확률을 나타낸다. 이에 따라, 데이터판별부(300)는 복수의 반응의 범주 중 가장 확률이 높은 반응의 범주를 해당 단위 영상에서 피검사자가 응답으로 수행한 반응으로 분류한다.

그리고 질문판별벡터는 단위 영상에 나타난 질문이 기 설정된 복수의 질문의 종류 각각에 속할 확률을 나타낸다. 이에 따라, 데이터판별부(300)는 복수의 질문의 종류 중 가장 확률이 높은 질문의 종류를 해당 단위 영상에서 검사자가 수행한 질문으로 분류한다.

다음으로, 데이터정제부(400)는 S280 단계에서 데이터판별부(300)가 분류한 바에 따라 도 6에 도시된 바와 같이, 스트리밍 영상에 대해 질문 부분 및 응답 부분의 재생 시간과, 질문의 종류 및 반응의 범주를 레이블링하여 이를 저장할 수 있다.

전술한 바와 같은 방법에 따라 발달 장애 조기 선별을 위한 검사 시, 검사자가 질문하는 부분의 재생 시간, 피검자가 질문에 대해 반응하는 부분의 재생 시간과, 검사자의 질문의 종류 및 피검자의 반응의 범주를 학습 모델을 통해 분류하고, 대응하는 레이블을 자동으로 해당 스트리밍 영상에 부여할 수 있다. 이로써, ASD 발견 선별검사 도구의 개발과 이를 적용한 콘텐츠 및 인지능력이나 심리적 변화에 대한 객관적이고 정량적 평가를 효율적으로 할 수 있는 AI 기반 해결 기법의 연구에 필요한 데이터를 효율적으로 수집할 수 있다.

도 7은 본 발명의 실시예에 따른 컴퓨팅 장치를 나타내는 도면이다. 도 7의 컴퓨팅 장치(TN100)는 본 명세서에서 기술된 장치, 예컨대, 데이터정제장치(10) 등이 될 수 있다.

도 7의 실시예에서, 컴퓨팅 장치(TN100)는 적어도 하나의 프로세서(TN110), 송수신 장치(TN120), 및 메모리(TN130)를 포함할 수 있다. 또한, 컴퓨팅 장치(TN100)는 저장 장치(TN140), 입력 인터페이스 장치(TN150), 출력 인터페이스 장치(TN160) 등을 더 포함할 수 있다. 컴퓨팅 장치(TN100)에 포함된 구성 요소들은 버스(bus)(TN170)에 의해 연결되어 서로 통신을 수행할 수 있다.

프로세서(TN110)는 메모리(TN130) 및 저장 장치(TN140) 중에서 적어도 하나에 저장된 프로그램 명령(program command)을 실행할 수 있다. 프로세서(TN110)는 중앙 처리 장치(CPU: central processing unit), 그래픽 처리 장치(GPU: graphics processing unit), 또는 본 발명의 실시예에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다. 프로세서(TN110)는 본 발명의 실시예와 관련하여 기술된 절차, 기능, 및 방법 등을 구현하도록 구성될 수 있다. 프로세서(TN110)는 컴퓨팅 장치(TN100)의 각 구성 요소를 제어할 수 있다.

메모리(TN130) 및 저장 장치(TN140) 각각은 프로세서(TN110)의 동작과 관련된 다양한 정보를 저장할 수 있다. 메모리(TN130) 및 저장 장치(TN140) 각각은 휘발성 저장 매체 및 비휘발성 저장 매체 중에서 적어도 하나로 구성될 수 있다. 예를 들어, 메모리(TN130)는 읽기 전용 메모리(ROM: read only memory) 및 랜덤 액세스 메모리(RAM: random access memory) 중에서 적어도 하나로 구성될 수 있다.

송수신 장치(TN120)는 유선 신호 또는 무선 신호를 송신 또는 수신할 수 있다. 송수신 장치(TN120)는 네트워크에 연결되어 통신을 수행할 수 있다.

한편, 전술한 본 발명의 실시예에 따른 방법은 다양한 컴퓨터수단을 통하여 판독 가능한 프로그램 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광 기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 와이어뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 와이어를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 이와 같이, 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 균등론에 따라 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.

10: 데이터정제장치 11: 카메라부
12: 센서부 13: 음성수집부
14: 입력부 15: 표시부
16: 저장부 17: 제어부
100: 데이터처리부 200: 모델생성부
300: 데이터판별부 400: 데이터정제부

Claims

데이터를 정제하기 위한 장치에 있어서,
화상과 음성을 포함하는 스트리밍 영상을 소정 시간 단위로 분할하여 복수의 단위 영상을 생성하고, 상기 스트리밍 영상의 재생 순서에 따라 상기 복수의 단위 영상을 출력하는 데이터처리부;
학습모델을 이용하여 상기 단위 영상의 화상 및 음성을 분석하여 상기 단위 영상의 화자를 판별하고, 판별된 화자에 따라 상기 단위 영상을 질문 부분과 응답 부분으로 분류하고, 상기 질문 부분의 단위 영상을 분석하여 질문의 종류를 분류하고, 상기 응답 부분의 단위 영상을 분석하여 상기 응답으로 수행한 반응의 범주를 분류하는 데이터판별부; 및
상기 스트리밍 영상에서 대해 상기 질문 부분 및 상기 응답 부분의 재생 시간과, 상기 질문 부분의 상기 질문의 종류 및 상기 응답 부분의 상기 반응의 범주를 레이블링하여 저장하는 데이터정제부;
를 포함하는 것을 특징으로 하는
데이터를 정제하기 위한 장치.
제1항에 있어서,
상기 학습모델은
상기 단위 영상의 화상을 입력 받고, 입력된 화상으로부터 화자가 아이일 확률과 어른일 확률을 나타내는 화상판별벡터를 산출하는 화상판별망;
상기 단위 영상의 화상에 대응하는 음성을 입력 받고, 입력된 음성으로부터 화자가 아이일 확률과 어른일 확률을 나타내는 음성판별벡터를 산출하는 음성판별망;
상기 화상판별벡터를 및 상기 음성판별벡터를 병합하여 화자가 아이일 확률과 어른일 확률을 나타내는 대화판별벡터를 산출하는 대화판별망;
을 포함하는 것을 특징으로 하는
데이터를 정제하기 위한 장치.
제2항에 있어서,
상기 학습모델은
상기 대화판별벡터의 화자가 아이일 확률이 어른일 확률 보다 높은 경우, 상기 화상 및 상기 음성을 통해 나타내는 반응이 기 설정된 복수의 반응의 범주 각각에 속할 확률을 나타내는 응답판별벡터를 산출하는 응답판별망; 및
상기 대화판별벡터의 화자가 어른일 확률이 아이일 확률 보다 높은 경우, 상기 음성에서 나타난 질문이 기 설정된 복수의 질문의 종류 각각에 속할 확률을 나타내는 질문판별벡터를 산출하는 질문판별망;
을 더 포함하는 것을 특징으로 하는
데이터를 정제하기 위한 장치.
데이터를 정제하기 위한 방법에 있어서,
데이터처리부가 화상 및 음성을 포함하는 스트리밍 영상을 소정 시간 단위로 분할하여 복수의 단위 영상을 생성하고, 상기 스트리밍 영상의 재생 순서에 따라 상기 복수의 단위 영상을 출력하는 단계;
데이터판별부가 학습모델을 이용하여 상기 단위 영상의 화상 및 음성을 분석하여 상기 단위 영상의 화자를 판별하고, 판별된 화자에 따라 상기 단위 영상을 질문 부분과 응답 부분으로 분류하고, 상기 질문 부분의 단위 영상을 분석하여 질문의 종류를 분류하고, 상기 응답 부분의 단위 영상을 분석하여 상기 응답으로 수행한 반응의 범주를 분류하는 단계; 및
데이터정제부가 상기 스트리밍 영상에서 대해 상기 질문 부분 및 상기 응답 부분의 재생 시간과, 상기 질문 부분의 상기 질문의 종류 및 상기 응답 부분의 상기 반응의 범주를 레이블링하여 저장하는 단계;
를 포함하는 것을 특징으로 하는
데이터를 정제하기 위한 방법.
제4항에 있어서,
상기 분류하는 단계는
상기 학습모델의 화상판별망이 상기 단위 영상의 화상을 입력 받고, 입력된 화상으로부터 화자가 아이일 확률과 어른일 확률을 나타내는 화상판별벡터를 산출하는 단계;
상기 학습모델의 음성판별망이 상기 단위 영상의 화상에 대응하는 음성을 입력 받고, 입력된 음성으로부터 화자가 아이일 확률과 어른일 확률을 나타내는 음성판별벡터를 산출하는 단계; 및
상기 학습모델의 대화판별망이 상기 화상판별벡터를 및 상기 음성판별벡터를 병합하여 화자가 아이일 확률과 어른일 확률을 나타내는 대화판별벡터를 산출하는 단계;
를 포함하는 것을 특징으로 하는
데이터를 정제하기 위한 방법.
제5항에 있어서,
상기 분류하는 단계는
상기 대화판별벡터를 산출하는 단계 후,
상기 학습모델의 응답판별망이 상기 대화판별벡터의 화자가 아이일 확률이 어른일 확률 보다 높은 경우, 상기 화상 및 상기 음성을 통해 나타내는 반응이 기 설정된 복수의 반응의 범주 각각에 속할 확률을 나타내는 응답판별벡터를 산출하는 단계; 및
상기 학습모델의 질문판별망이 상기 대화판별벡터의 화자가 어른일 확률이 아이일 확률 보다 높은 경우, 상기 음성에서 나타난 질문이 기 설정된 복수의 질문의 종류 각각에 속할 확률을 나타내는 질문판별벡터를 산출하는 단계;
를 더 포함하는 것을 특징으로 하는
데이터를 정제하기 위한 방법.