WO2022050719A1

WO2022050719A1 - 사용자의 치매 정도 결정 방법 및 장치

Info

Publication number: WO2022050719A1
Application number: PCT/KR2021/011848
Authority: WO
Inventors: 김형준
Original assignee: 주식회사 에이블테라퓨틱스
Priority date: 2020-09-04
Filing date: 2021-09-02
Publication date: 2022-03-10
Also published as: CN116113356A; US20230210440A1; KR102274072B1

Abstract

사용자의 치매 정도를 결정하기 위해, 사용자 단말을 통해 컨텐츠를 출력하고, 사용자 단말의 마이크를 통해 획득된 컨텐츠에 대한 사용자의 음성을 수신하며, 음성을 시각화함으로써 스펙트로그램 이미지를 생성하고, 스펙트로그램 이미지에 기초하여 콘볼루션 신경망(CNN) 및 심층 신경망(DNN)을 통해 사용자의 치매 정도를 결정한다.

Description

사용자의 치매 정도 결정 방법 및 장치

기술 분야는 사용자의 치매 정도를 결정하는 기술에 관한 것으로, 특히 사용자의 음성에 기초하여 사용자의 치매 정도를 결정하는 장치 및 방법에 관한 것이다.

치매는 사회 고령화와 함께 노년기 삶의 가장 심각한 질환으로 지난 10년간 급격한 증가세를 보이고 있으며 사회·경제적 비용도 급증하는 추세이다. 또한 환자가 독립적으로 생활할 수 없고, 실종, 자살 등 본인의 삶 뿐만 아니라 돌보는 가족에게도 큰 고통을 주는 질환이다. 치매는 조기진단과 적절한 치료로 추가적인 인지기능의 저하를 막거나 늦출 수 있으나 이 질환의 기존 조기진단에는 문제점이 있다. 기존에는 병원 등 전문의료기관을 방문해야 하므로, 건망증이 심해졌다고 느끼고 내원하는 환자 중 이미 경도인지장애(MCI) 또는 알츠하이머병(AD)으로 진행된 사람이 많고, 진단을 위한 신경인지기능검사(SNSB-II, CERAD-K 등)는 충분한 경험과 노하우를 갖춘 의료진을 통해야 높은 신뢰도를 기대할 수 있으며, 자기공명검사(MRI)나 단일광자방출촬영(SPECT), 양전자단층촬영(PET), 뇌척수액검사 등은 진단 비용이 고가일 뿐만 아니라 진단을 받는 환자의 불편도 크다.

일 실시예는 사용자의 치매 정도를 결정하는 장치 및 방법을 제공할 수 있다.

일 실시예는 사용자의 음성에 기초하여 사용자의 치매 정도를 결정하는 장치 및 방법을 제공할 수 있다.

일 측면에 따른, 전자 장치에 의해 수행되는, 사용자의 치매 정도를 결정하는 방법은, 사용자 단말을 통해 사용자의 치매 정도를 결정하기 위해 미리 제작된 제1 컨텐츠를 출력하는 단계, 상기 사용자 단말의 마이크를 통해 획득된 상기 제1 컨텐츠에 대한 상기 사용자의 제1 음성을 수신하는 단계, 상기 사용자 단말을 통해 미리 제작된 제2 컨텐츠를 출력하는 단계, 상기 마이크를 통해 획득된 상기 제2 컨텐츠에 대한 상기 사용자의 제2 음성을 수신하는 단계, 상기 제1 음성의 적어도 하나의 특성을 시각화함으로써 제1 스펙트로그램(spectrogram) 이미지를 생성하는 단계, 상기 제2 음성의 적어도 하나의 특성을 시각화함으로써 제2 스펙트로그램 이미지를 생성하는 단계, 상기 제1 스펙트로그램 이미지를 미리 갱신된 제1 콘볼루션 신경망(convolutional neural network: CNN)에 입력함으로써 상기 제1 음성에 대한 미리 설정된 개수의 제1 특징들을 생성하는 단계, 상기 제2 스펙트로그램 이미지를 미리 갱신된 제2 CNN에 입력함으로써 상기 제2 음성에 대한 미리 설정된 개수의 제2 특징들을 생성하는 단계, 상기 제1 특징들 및 상기 제2 특징들 중 미리 설정된 개수의 타겟 특징들을 결정하는 단계, 및 상기 타겟 특징들을 미리 갱신된 심층 신경망(deep neural network: DNN)에 입력함으로써 상기 사용자의 치매 정도를 결정하는 단계를 포함하고, 상기 결정된 치매 정도가 상기 사용자 단말을 통해 출력된다.

상기 제1 컨텐츠는 상기 제1 음성을 수신하기 위한 지시(instruction)를 포함할 수 있다.

상기 제1 컨텐츠는 사용자가 문장을 따라 말하도록 하는 컨텐츠, 출력되는 이미지의 명칭을 맞추는 컨텐츠, 출력되는 이미지를 설명하는 컨텐츠, 및 언어의 유창성을 위한 컨텐츠, 숫자 연산을 위한 컨텐츠, 이야기 말하기(story telling)를 유도하는 컨텐츠 중 하나일 수 있다.

상기 제1 음성의 적어도 하나의 특성을 시각화함으로써 제1 스펙트로그램 이미지를 생성하는 단계는, 리브로사 툴(librosa tool)을 통해 상기 제1 음성에 대한 상기 제1 스펙트로그램 이미지를 생성하는 단계를 포함할 수 있다.

상기 제1 스펙트로그램 이미지의 크기 및 상기 제2 스펙트로그램 이미지의 크기는 서로 동일할 수 있다.

상기 제1 CNN은 VGG16 모델에 기초하여 미리 갱신될 수 있다.

상기 제1 CNN은 입력 레이어 및 5개의 콘볼루션 레이어 블록들을 포함하고, 풀리 커넥티드 레이어(fully connected layer) 및 소프트맥스(softmax)를 포함하지 않음으로써 상기 제1 스펙트로그램 이미지에 대한 상기 제1 특징들을 생성할 수 있다.

상기 치매 정도 결정 방법은, 상기 제1 CNN을 갱신하는 단계를 더 포함할 수 있다.

상기 제1 CNN을 갱신하는 단계는, 상기 제1 컨텐츠에 대한 테스트 사용자의 제1 테스트 음성을 수신하는 단계, 상기 제1 테스트 음성의 적어도 하나의 특성을 시각화함으로써 제1 테스트 스펙트로그램 이미지를 생성하는 단계 - 상기 제1 테스트 스펙트로그램 이미지에는 상기 테스트 사용자의 GT(ground truth) 치매 정도가 라벨링됨 -, 상기 제1 테스트 스펙트로그램 이미지를 완전한 제1 CNN에 입력함으로써 상기 테스트 사용자에 대한 제1 테스트 치매 정도를 결정하는 단계 - 상기 완전한 제1 CNN은 입력 레이어, 하나 이상의 콘볼루션 레이어들 블록들, 풀리 커넥티드 레이어 및 소프트맥스를 포함함 -, 및 상기 제1 테스트 치매 정도 및 상기 GT 치매 정도에 기초하여 상기 완전한 제1 CNN을 갱신하는 단계를 포함하고, 상기 제1 CNN은 상기 갱신된 완전한 제1 CNN의 레이어들 중 상기 입력 레이어 및 상기 하나 이상의 콘볼루션 레이어 블록들만을 포함할 수 있다.

상기 치매 정도 결정 방법은, 상기 제1 CNN 및 상기 제2 CNN을 포함하는 복수의 CNN들의 갱신이 완료된 후, 상기 DNN을 갱신하는 단계를 더 포함할 수 있다.

상기 DNN을 갱신하는 단계는, 제1 테스트 스펙트로그램 이미지에 기초하여 생성된 미리 설정된 개수의 제1 테스트 특징들 및 제2 테스트 스펙트로그램 이미지에 기초하여 생성된 미리 설정된 개수의 제2 테스트 특징들 중 미리 설정된 개수의 테스트 타겟 특징들을 결정하는 단계 - 상기 테스트 타겟 특징들에는 상기 테스트 사용자의 GT 치매 정도가 라벨링됨 -, 상기 테스트 타겟 특징들을 상기 DNN에 입력함으로써 상기 테스트 사용자의 제2 테스트 치매 정도를 결정하는 단계, 및 상기 제2 테스트 치매 정도 및 상기 GT 치매 정도에 기초하여 상기 DNN을 갱신하는 단계를 포함할 수 있다.

상기 DNN을 갱신하는 단계는, K-폴드 교차 검증 방법을 통해 상기 테스트 타겟 특징들을 검증하는 단계 - 상기 K는 2 이상의 자연수임 -를 더 포함하고, 상기 테스트 타겟 특징들이 검증되지 않은 경우, 상기 제1 CNN 및 상기 제2 CNN이 재갱신될 수 있다.

상기 K-폴드 교차 검증 방법을 통해 상기 테스트 타겟 특징들을 검증하는 단계는, 테스트 타겟 특징들의 세트들을 상기 K 개의 그룹들로 나누는 단계, 상기 K 개의 그룹들에 기초하여 K개의 초기 DNN들을 각각 갱신함으로써 K개의 테스트 DNN들을 생성하는 단계, 및 상기 K개의 테스트 DNN들의 정확도에 기초하여 상기 테스트 타겟 특징들을 검증하는 단계를 포함할 수 있다.

다른 일 측면에 따른, 사용자의 치매 정도를 결정하는 전자 장치는, 사용자의 치매 정도를 결정하는 프로그램이 기록된 메모리, 및 상기 프로그램을 수행하는 프로세서를 포함하고, 상기 프로그램은, 사용자 단말을 통해 사용자의 치매 정도를 결정하기 위해 미리 제작된 제1 컨텐츠를 출력하는 단계, 상기 사용자 단말의 마이크를 통해 획득된 상기 제1 컨텐츠에 대한 상기 사용자의 제1 음성을 수신하는 단계, 상기 사용자 단말을 통해 미리 제작된 제2 컨텐츠를 출력하는 단계, 상기 마이크를 통해 획득된 상기 제2 컨텐츠에 대한 상기 사용자의 제2 음성을 수신하는 단계, 상기 제1 음성의 적어도 하나의 특성을 시각화함으로써 제1 스펙트로그램(spectrogram) 이미지를 생성하는 단계, 상기 제2 음성의 적어도 하나의 특성을 시각화함으로써 제2 스펙트로그램 이미지를 생성하는 단계, 상기 제1 스펙트로그램 이미지를 미리 갱신된 제1 콘볼루션 신경망(convolutional neural network: CNN)에 입력함으로써 상기 제1 음성에 대한 미리 설정된 개수의 제1 특징들을 생성하는 단계, 상기 제2 스펙트로그램 이미지를 미리 갱신된 제2 CNN에 입력함으로써 상기 제2 음성에 대한 미리 설정된 개수의 제2 특징들을 생성하는 단계, 상기 제1 특징들 및 상기 제2 특징들 중 미리 설정된 개수의 타겟 특징들을 결정하는 단계, 및 상기 타겟 특징들을 미리 갱신된 심층 신경망(deep neural network: DNN)에 입력함으로써 상기 사용자의 치매 정도를 결정하는 단계를 수행하고, 상기 결정된 치매 정도가 상기 사용자 단말을 통해 출력된다.

또 다른 일 측면에 따른, 전자 장치에 의해 수행되는, 사용자의 치매 정도를 결정하기 위해 사용되는 콘볼루션 신경망(convolutional neural network: CNN)을 갱신하는 방법은, 사용자 단말을 통해 사용자의 치매 정도를 결정하기 위해 미리 제작된 제1 컨텐츠를 출력하는 단계, 상기 제1 컨텐츠에 대한 테스트 사용자의 제1 테스트 음성을 수신하는 단계, 상기 제1 테스트 음성의 적어도 하나의 특성을 시각화함으로써 제1 테스트 스펙트로그램 이미지를 생성하는 단계 - 상기 제1 테스트 스펙트로그램 이미지에는 상기 테스트 사용자의 GT(ground truth) 치매 정도가 라벨링됨 -, 상기 제1 테스트 스펙트로그램 이미지를 완전한 CNN에 입력함으로써 상기 테스트 사용자에 대한 테스트 치매 정도를 결정하는 단계 - 상기 완전한 CNN은 입력 레이어, 하나 이상의 콘볼루션 레이어 블록들, 풀리 커넥티드 레이어 및 소프트맥스를 포함함 -, 및 상기 테스트 치매 정도 및 상기 GT 치매 정도에 기초하여 상기 완전한 CNN을 갱신하는 단계를 포함하고, 상기 CNN은 상기 갱신된 완전한 CNN의 레이어들 중 상기 입력 레이어 및 상기 하나 이상의 콘볼루션 레이어 블록들만을 포함한다.

또 다른 일 측면에 따른, 사용자의 치매 정도를 결정하기 위해 사용되는 콘볼루션 신경망(convolutional neural network: CNN)을 갱신하는 전자 장치는, 상기 CNN을 갱신하는 프로그램이 기록된 메모리, 및 상기 프로그램을 수행하는 프로세서를 포함하고, 상기 프로그램은, 사용자 단말을 통해 사용자의 치매 정도를 결정하기 위해 미리 제작된 제1 컨텐츠를 출력하는 단계, 상기 제1 컨텐츠에 대한 테스트 사용자의 제1 테스트 음성을 수신하는 단계, 상기 제1 테스트 음성의 적어도 하나의 특성을 시각화함으로써 제1 테스트 스펙트로그램 이미지를 생성하는 단계 - 상기 제1 테스트 스펙트로그램 이미지에는 상기 테스트 사용자의 GT(ground truth) 치매 정도가 라벨링됨 -, 상기 제1 테스트 스펙트로그램 이미지를 완전한 CNN에 입력함으로써 상기 테스트 사용자에 대한 테스트 치매 정도를 결정하는 단계 - 상기 완전한 CNN은 입력 레이어, 하나 이상의 콘볼루션 레이어 블록들, 풀리 커넥티드 레이어 및 소프트맥스를 포함함 -, 및 상기 테스트 치매 정도 및 상기 GT 치매 정도에 기초하여 상기 완전한 CNN을 갱신하는 단계를 수행하고, 상기 CNN은 상기 갱신된 완전한 CNN의 레이어들 중 상기 입력 레이어 및 상기 하나 이상의 콘볼루션 레이어 블록들만을 포함한다.

사용자의 치매 정도를 결정하는 장치 및 방법이 제공될 수 있다.

사용자의 음성에 기초하여 사용자의 치매 정도를 결정하는 장치 및 방법이 제공될 수 있다.

도 1은 일 예에 따른 사용자의 치매 정도를 결정하는 시스템의 구성도이다.

도 2는 일 예에 따른 사용자의 치매 정도를 결정하기 위해 사용자 단말에 출력되는 영상들을 도시한다.

도 3은 일 실시예에 따른 사용자의 치매 정도를 결정하는 전자 장치의 구성도이다.

도 4는 일 실시예에 따른 사용자의 치매 정도를 결정하는 방법의 흐름도이다.

도 5는 일 예에 따른 미리 제작된 컨텐츠를 도시한다.

도 6는 다른 일 예에 따른 미리 제작된 컨텐츠를 도시한다.

도 7은 일 예에 따른 음성에 대해 생성된 스펙트로그램 이미지를 도시한다.

도 8은 일 예에 따른 사용자의 치매 정도를 결정할 수 있는 완전한 CNN 및 부분 CNN을 도시한다.

도 9는 일 예에 따른 복수의 음성들 각각에 대해 생성된 특징들 및 이에 기초하여 결정된 타겟 특징들을 도시한다.

도 10은 일 예에 따른 사용자의 치매 정도를 결정하는 DNN을 도시한다.

도 11은 일 예에 따른 치매 정도의 결정의 정확도를 높이기 위해 수행되는 2 단계의 분류들을 도시한다.

도 12는 일 예에 따른 완전한 CNN을 갱신하는 방법의 흐름도이다.

도 13은 일 예에 따른 DNN을 갱신하는 방법의 흐름도이다.

도 14는 일 예에 따른 테스트 타겟 특징들을 결정하는 방법의 흐름도이다.

도 15는 일 예에 따른 서브 특징들을 선별하는 방법의 흐름도이다.

도 16은 일 예에 따른 테스트 타겟 특징들을 검증하는 방법의 흐름도이다.

도 17은 일 예에 따른 타겟 특징들을 검증하기 위한 K-폴드 교차 검증 방법을 도시한다.

이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

아래 설명하는 실시예들에는 다양한 변경이 가해질 수 있다. 아래 설명하는 실시예들은 실시 형태에 대해 한정하려는 것이 아니며, 이들에 대한 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

실시예에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 실시예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

일 측면에 따르면, 사용자의 치매 정도를 결정하는 시스템은 사용자의 치매 정도를 결정하는 전자 장치(110), 컨텐츠를 출력하는 사용자 단말(120), 및 의료 기관의 모니터링 단말(130)을 포함할 수 있다. 예를 들어, 전자 장치(110)는 서버일 수 있다.

전자 장치(110)는 사용자 단말(120)로 사용자의 치매 정도를 결정할 수 있도록 미리 제작된 컨텐츠를 제공할 수 있다. 예를 들어, 컨텐츠는 사용자로부터 음성을 획득하기 위한 컨텐츠일 수 있다. 컨텐츠에 대해 아래에서 도 5 및 6을 참조하여 상세하게 설명된다.

사용자 단말(120)은 전자 장치(110)와 오프라인 또는 온라인으로 연결되어 서로 통신할 수 있다. 전자 장치(110)는 사용자 단말(120)로 컨텐츠를 제공하고, 사용자 단말(120)은 디스플레이를 통해 컨텐츠를 사용자에게 출력한다. 사용자 단말(120)은 마이크를 통해 컨텐츠에 대한 리액션으로서의 사용자의 음성을 획득할 수 있고, 획득된 음성을 전자 장치(110)로 전송한다.

전자 장치(110)는 획득된 사용자의 음성에 기초하여 사용자의 치매 정도를 결정하고, 결정된 치매 정도를 사용자 단말(120)로 전송할 수 있다.

사용자 단말(120)은 태블릿, 스마트 폰과 같은 모바일 단말일 수 있다. 사용자 단말(120)이 모바일 단말인 경우, 사용자는 시간 및 장소의 제약을 받지 않으며, 저렴한 비용으로 치매 정도를 측정할 수 있다.

전자 장치(110)는 사용자의 음성 및 치매 정도를 모니터링 단말(130)로 전송할 수 있다. 예를 들어, 모니터링 단말(130)의 사용자는 의사일 수 있고, 의사는 전송된 정보들에 기초하여 사용자에게 제공되는 컨텐츠의 내용을 조정할 수 있다.

아래에서, 사용자의 치매 정도를 결정하는 방법에 대해 도 2 내지 도 17을 참조하여 상세하게 설명된다.

아래의 영상들(210 내지 240)은 치매 정도를 결정하기 위한 어플리케이션의 영상들일 수 있다. 예를 들어, 전자 장치(110)의 사용자는 어플리케이션을 제작하여 배포할 수 있고, 사용자는 사용자 단말(120)을 통해 어플리케이션을 실행할 수 있다.

제1 영상(210)은 어플리케이션의 시작 화면이다.

제2 영상(220)은 어플리케이션이 지원하는 기능들을 나타낸다

제3 영상(230)은 사용자에게 제공되는 컨텐츠의 일 예이다. 사용자에게 복수의 컨텐츠들이 제공될 수 있다.

제4 영상(240)은 결정된 사용자의 치매 정도를 나타낸다. 예를 들어, 사용자의 치매 정도로서 결정된 정상, 경도인지장애(MCI) 또는 알츠하이머병(AD)가 출력될 수 있다. 개별적인 질병에 대한 주의 정도 이외에도 종합적인 판단이 함께 출력될 수도 있다.

전자 장치(300)는 통신부(310), 프로세서(320) 및 메모리(330)를 포함한다. 예를 들어, 전자 장치(300)는 도 1을 참조하여 전술된 전자 장치(110)일 수 있다.

통신부(310)는 프로세서(320) 및 메모리(330)와 연결되어 데이터를 송수신한다. 통신부(310)는 외부의 다른 장치와 연결되어 데이터를 송수신할 수 있다. 이하에서 "A"를 송수신한다라는 표현은 "A를 나타내는 정보(information) 또는 데이터"를 송수신하는 것을 나타낼 수 있다.

통신부(310)는 전자 장치(300) 내의 회로망(circuitry)으로 구현될 수 있다. 예를 들어, 통신부(310)는 내부 버스(internal bus) 및 외부 버스(external bus)를 포함할 수 있다. 다른 예로, 통신부(310)는 전자 장치(300)와 외부의 장치를 연결하는 요소일 수 있다. 통신부(310)는 인터페이스(interface)일 수 있다. 통신부(310)는 외부의 장치로부터 데이터를 수신하여, 프로세서(320) 및 메모리(330)에 데이터를 전송할 수 있다.

프로세서(320)는 통신부(310)가 수신한 데이터 및 메모리(330)에 저장된 데이터를 처리한다. "프로세서"는 목적하는 동작들(desired operations)을 실행시키기 위한 물리적인 구조를 갖는 회로를 가지는 하드웨어로 구현된 데이터 처리 장치일 수 있다. 예를 들어, 목적하는 동작들은 프로그램에 포함된 코드(code) 또는 인스트럭션들(instructions)을 포함할 수 있다. 예를 들어, 하드웨어로 구현된 데이터 처리 장치는 마이크로프로세서(microprocessor), 중앙 처리 장치(central processing unit), 프로세서 코어(processor core), 멀티-코어 프로세서(multi-core processor), 멀티프로세서(multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array)를 포함할 수 있다.

프로세서(320)는 메모리(예를 들어, 메모리(330))에 저장된 컴퓨터로 읽을 수 있는 코드(예를 들어, 소프트웨어) 및 프로세서(320)에 의해 유발된 인스트럭션들을 실행한다.

메모리(330)는 통신부(310)가 수신한 데이터 및 프로세서(320)가 처리한 데이터를 저장한다. 예를 들어, 메모리(330)는 프로그램(또는 어플리케이션, 소프트웨어)을 저장할 수 있다. 저장되는 프로그램은 사용자의 치매 정도를 결정할 수 있도록 코딩되어 프로세서(320)에 의해 실행 가능한 신텍스(syntax)들의 집합일 수 있다.

일 측면에 따르면, 메모리(330)는 하나 이상의 휘발성 메모리, 비휘발성 메모리 및 RAM(Random Access Memory), 플래시 메모리, 하드 디스크 드라이브 및 광학 디스크 드라이브를 포함할 수 있다.

메모리(330)는 전자 장치(300)를 동작 시키는 명령어 세트(예를 들어, 소프트웨어)를 저장한다. 전자 장치(300)를 동작 시키는 명령어 세트는 프로세서(320)에 의해 실행된다.

통신부(310), 프로세서(320) 및 메모리(330)에 대해, 아래에서 도 4 내지 도 17을 참조하여 상세히 설명된다.

아래의 단계들(410 내지 450)은 도 3을 참조하여 전술된 전자 장치(300)에 의해 수행된다.

단계(410)에서, 전자 장치(300)는 사용자 단말(예를 들어, 사용자 단말(120))을 통해 사용자의 치매 정도를 결정하기 위해 미리 제작된 컨텐츠를 출력한다. 컨텐츠가 사용자 단말에 출력되고, 사용자는 컨텐츠에 대한 리액션을 수행한다. 사용자 단말은 마이크를 이용하여 상기의 리액션으로서의 음성을 생성할 수 있다. 생성된 음성은 데이터 파일 형태일 수 있다.

사용자에게 복수의 컨텐츠들이 제공되고, 복수의 컨텐츠들 각각에 대한 음성이 생성될 수 있다. 일 예에 따른 복수의 컨텐츠들은 아래의 [표 1]을 이용하여 설명된다.

음성 태스크	지시들(instructions)
Step 1.문자 따라 말하기	지금부터, 제가 말하는 문장을, 잘 듣고, 그대로 따라해 주세요 각 문장이 끝난 뒤, 삐~ 소리가 나면, 시작하세요 마당에, 장미꽃이, 피었다
Step 2.문자 따라 말하기	이번에도, 제가 말하는 문장을, 잘 듣고, 그대로 따라해 주세요 각 문장이 끝난 뒤, 삐~ 소리가 나면, 시작하세요 어제는, 비가 와서, 집에, 있었다
Step 3.문자 따라 말하기	이번에도, 제가 말하는 문장을, 잘 듣고, 그대로 따라해 주세요 각 문장이 끝난 뒤, 삐~ 소리가 나면, 시작하세요 낮말은 새가 듣고, 밤말은 쥐가 듣는다.
Step 4.이름대기	다음에는, 보여지는 동물의 이름을, 말씀하시는 것입니다 삐~ 소리가 나면, 보여지는 동물의 이름을, 차례로 말씀해 주세요
Step 5.그림설명	다음에 보여드리는, 그림을 보시고, 그림에 대해서, 1분 동안, 최대한 자세하게, 설명해 주세요 장소가 어디인지, 어떤 것들이 있는지, 동물이나 사람들은, 무엇을 하고 있는지, 등에 대해서, 최대한 자세하게 설명해 주세요 삐 소리가 나면 시작하세요
Step 6.언어유창성(음소형)	다음은, 제시되는 글자로 시작하는 단어를, 말하는 것입니다 예를 들어, 기역,이라는 글자를 보여드리면, 기역으로 시작하는 단어를, 최대한 많이, 말씀해주세요 가방, 고양이, 국수 같은 단어를 말씀하시면 됩니다 기역으로 시작하는 단어 중에, 또, 다른 것은 없습니까? 지금부터는 다른 글자, 즉, 니은으로 시작하는 단어를, 말씀해 보세요 1분의 시간을 드리겠습니다, 니은으로, 시작하는 단어를, 최대한 많이 말씀해 보세요, 준비되셨습니까? 삐 소리가 나면 시작하세요
Step 7.언어유창성(의미형)	제가 어떤 종류를 말씀 드리면 되도록 빨리 그 종류에 속하는 것들의 이름을 말씀해 주세요. 예를 들어 제가 ‘동물 종류’라고 말하면 개, 고양이, 사자 등의 이름을 말씀하시면 됩니다. 동물 종류에 속하는 것 중에 또 다른 것은 없습니까? 지금부터는 다른 종류, 즉, 과일에 속하는 것들의 이름을, 모두 말씀해 보세요 1분의 시간을 드리겠습니다, 1분 동안 생각나는 과일의 이름을, 모두 말씀해 보세요, 준비되셨습니까? 삐 소리가 나면 시작하세요
Step 8.숫자빼기	지금부터는 간단한 계산문제입니다, 100에서 3을 빼면, 얼마입니까? 100에서 3을 빼면, 97입니다. 자, 그러면 거기서, 또 3을 빼주세요 97에서 3을 빼게 되니까, 답은 94입니다. 그렇게 계속해서 3을 빼시는 겁니다. 100에서 시작해서, 계속해서 3을 빼주세요, 준비되셨습니까? 삐 소리가 나면 시작하세요
Step 9.이야기하기(긍정적)	지금까지 살아 오면서, 가장 기뻤던 일은, 무엇이었습니까? 살아오면서 가장 기뻤던 일에 대해서, 1분동안 최대한 자세하게, 말씀해 주세요 삐 소리가 나면 시작하세요
Step 10.이야기하기(부정적)	지금까지 살아 오면서, 가장 슬펐던 일은, 무엇이었습니까? 살아오면서 가장 슬펐던 일에 대해서, 1분동안 최대한 자세하게, 말씀해 주세요 삐 소리가 나면 시작하세요
Step 11.이야기하기(삽화)	어제 하루 동안, 무슨 일이 있었습니까? 어제 하루 동안 있었던 일에 대해서, 1분 동안, 최대한 자세하게, 말씀해 주세요 삐 소리가 나면 시작하세요

단계(420)에서, 전자 장치(300)는 사용자 단말의 마이크를 통해 획득된 컨텐츠에 대한 사용자의 음성을 수신한다. 복수의 컨텐츠들이 제공된 경우, 복수의 음성들이 수신될 수 있다.

복수의 컨텐츠들이 제작된 경우, 단계들(410 및 420)이 반복적으로 수행될 수 있다. 단계들(410 및 420)이 반복적으로 수행됨으로써 복수의 컨텐츠들 각각에 대한 음성들이 수신된다. 예를 들어, 복수의 컨텐츠들이 제1 컨텐츠 내지 제11 컨텐츠를 포함하는 경우, 이들에 대응하는 제1 음성 내지 제11 음성이 수신된다.

단계(430)에서, 전자 장치(300)는 수신된 음성의 적어도 하나의 특성을 시각화함으로써 음성에 대한 스펙트로그램(spectrogram) 이미지를 생성한다. 예를 들어, 전자 장치(300)는 리브로사 툴(librosa tool)을 통해 음성에 대한 스펙트로그램 이미지를 생성할 수 있다. 스펙트로그램 이미지는 멜(mel)-스펙트로그램 이미지일 수 있다.

예를 들어, 제1 음성 내지 제11 음성 각각에 대한 제1 스펙트로그램 이미지 내지 제11 스펙트로그램 이미지가 생성될 수 있다. 스펙트로그램 이미지에 대해 아래에서 도 7을 참조하여 상세히 설명된다.

단계(440)에서, 전자 장치(300)는 스펙트로그램 이미지를 스펙트로그램 이미지에 대응하는 미리 갱신된 콘볼루션 신경망(convolutional neural network: CNN)에 입력함으로써 음성에 대한 미리 설정된 개수의 특징들을 생성한다. 특징들을 생성하기 위해 사용되는 CNN은 컨텐츠에 따라 달라질 수 있다. 예를 들어, 컨텐츠가 11개인 경우, 11개의 컨텐츠들 각각에 대응하는 CNN들이 존재하고, 11개의 CNN들은 CNN 세트로 명명될 수 있다. 이하에서, 용어 "갱신"은 용어 "훈련"의 의미를 포함할 수 있고, 상호 교환적으로 사용될 수 있다.

일 측면에 따르면, CNN은 VGG16 모델에 기초하여 미리 갱신될 수 있다. CNN은 입력 레이어, 하나 이상의 콘볼루션 레이어들 블록들, 풀리 커넥티드 레이어(fully connected layer) 및 소프트맥스(softmax)를 포함하는 완전한 CNN의 일부일 수 있다. 예를 들어, CNN은 입력 레이어 및 하나 이상의 콘볼루션 레이어들 블록들을 포함하고, 풀리 커넥티드 레이어 및 소프트맥스를 포함하지 않을 수 있다. CNN이 풀리 커넥티드 레이어 및 소프트맥스를 포함하지 않음으로써 입력된 스펙트로그램 이미지에 대한 결과로서 치매 정도가 아닌, 치매 정도를 계산하기 위해 사용되는 미리 설정된 개수의 특징들이 출력될 수 있다. 완전한 CNN 및 부분 CNN에 대해 도 8을 참조하여 상세히 설명된다.

예를 들어, 전자 장치(300)는 제1 스펙트로그램 이미지를 미리 갱신된 제1 CNN에 입력함으로써 제1 음성에 대한 미리 설정된 개수의 제1 특징들을 생성하고, 제2 스펙트로그램 이미지를 미리 갱신된 제2 CNN에 입력함으로써 제2 음성에 대한 미리 설정된 개수의 제2 특징들을 생성할 수 있다. 구체적인 예로, 11개의 음성들이 수신되고, 하나의 음성에 대해 4608개의 특징들이 생성되는 경우, 총 50688개의 특징들이 생성될 수 있다.

단계(450)에서, 전자 장치(300)는 복수의 음성들에 대한 특징들 중 타겟 특징들을 결정한다. 결정된 타겟 특징들은 치매 진단을 위한 마커들일 수 있다. 구체적인 예로, 총 50688개의 특징들 중 10개의 특징들이 결정될 수 있다. 타겟 특징들로 결정되는 특징들은 마커로서 미리 결정될 수 있다. 마커는 아래에서 도 12 내지 도 16을 참조하여 설명되는 CNN을 갱신하는 단계 및 심층 신경망(deep neural network: DNN)을 갱신하는 단계를 통해 사전에 결정될 수 있다.

단계(460)에서, 전자 장치(300)는 타겟 특징들을 미리 갱신된 DNN에 입력함으로써 사용자의 치매 정도를 결정한다. 예를 들어, 결정된 치매 정도는 정상 또는 비정상이 수 있다. 비정상은 경도인지장애(MCI) 또는 알츠하이머병(AD)을 포함할 수 있다. 사용자의 치매 정도를 더욱 정확히 결정하기 위해, 두 단계들의 분류가 수행될 수 있다. 아래에서 도 11을 참조하여 치매 정도의 결정의 정확도를 높이기 위해 수행되는 2 단계의 분류들이 설명된다.

단계(470)에서, 전자 장치(300)는 사용자 단말을 통해 결정된 치매 정도를 출력한다.

도 5는 일 예에 따른 미리 제작된 컨텐츠를 도시한다.

예를 들어, 사용자에게 제공되는 컨텐츠(500)는 출력되는 이미지들(520, 530, 540)의 명칭을 맞추는 컨텐츠일 수 있다. 컨텐츠(500)는 이미지들(520, 530, 540) 이외에 컨텐츠(500)에 대한 사용자의 음성을 위한 지시(instruction)(510)를 포함할 수 있다. 지시(510)는 텍스트로 표시될 수 있고, 또는 음성으로도 출력될 수 있다. 사용자는 이미지들(520, 530, 540)의 명칭을 말함으로써 음성을 생성할 수 있다.

도 6는 다른 일 예에 따른 미리 제작된 컨텐츠를 도시한다.

도 5의 예와 다른 예로, 사용자에게 제공되는 컨텐츠(600)는 출력되는 이미지(620)를 설명하는 컨텐츠일 수 있다. 컨텐츠(600)는 이미지(620) 이외에 컨텐츠(600)에 대한 사용자의 음성을 위한 지시(610)를 포함할 수 있다. 지시(610)는 텍스트로 표시될 수 있고, 또는 음성으로도 출력될 수 있다. 사용자는 이미지(620)의 상황을 설명 또는 묘사함으로써 음성을 생성할 수 있다.

일 측면에 따르면, 전자 장치(300)는 리브로사 툴을 통해 음성에 대한 스펙트로그램 이미지(700)를 생성할 수 있다. 스펙트로그램 이미지(700)의 가로 축은 시간 축이고, 세로 축은 주파수 축일 수 있다. 스펙트로그램 이미지(700)는 시간 축과 주파수 축의 변화에 따라 진폭의 차이를 인쇄 농도/표시 색상의 차이로 나타낸다. 변화되는 진폭 차이의 크기에 기초하여 해당 위치의 표시 색상이 결정될 수 있다. 예를 들어, 진폭 차이의 크기에 대한 표시 색상의 범례(710)가 스펙트로그램 이미지(700)와 함께 출력될 수 있다. 결정된 색상을 표시하기 위해 해당 좌표의 픽셀의 R, G, B 채널들의 값들이 결정될 수 있다.

복수의 음성들에 각각에 대한 복수의 스펙트로그램 이미지들이 생성될 수 있다. 예를 들어, 제1 음성에 대해 제1 스펙트로그램 이미지가 생성되고, 제2 음성에 대해 제2 스펙트로그램 이미지가 생성될 수 있다. 개별 음성의 총 시간에 따라 스펙트로그램 이미지의 시간 축 및 주파수 축의 스케일이 달라질 수 있으나, 생성되는 스펙트로그램 이미지의 크기는 서로 동일할 수 있다. 예를 들어, 제1 스펙트로그램 이미지의 크기 및 제2 스펙트로그램 이미지의 크기는 100x100으로 서로 동일할 수 있다.

일 측면에 따른, 완전한 CNN(800)은 입력 레이어(810), 제1 콘볼루션 레이어 블록(820), 제2 콘볼루션 레이어 블록(830), 제3 콘볼루션 레이어 블록(840), 제4 콘볼루션 레이어 블록(850), 제5 콘볼루션 레이어 블록(860), 풀리 커넥티드 레이어(870) 및 소프트맥스(880)를 포함한다. 콘볼루션 레이어 블록은 하나 이상의 콘볼루션 레이어들 및 풀링 레이어를 포함할 수 있다.

완전한 CNN(800)은 아래에서 도 12을 참조하여 후술될 완전한 CNN 갱신 방법을 통해 갱신된 완전한 CNN일 수 있다. 컨텐츠 별로 상이한 완전한 CNN들이 미리 갱신될 수 있다.

부분 CNN(805)는 입력 레이어(810), 제1 콘볼루션 레이어 블록(820), 제2 콘볼루션 레이어 블록(830), 제3 콘볼루션 레이어 블록(840), 제4 콘볼루션 레이어 블록(850), 제5 콘볼루션 레이어 블록(860)만을 포함하고, 풀리 커넥티드 레이어(870) 및 소프트맥스(880)를 포함하지 않을 수 있다. 즉, 부분 CNN(805)는 완전한 CNN(800)의 갱신이 종료된 후, 완전한 CNN(800)에서 풀리 커넥티드 레이어(870) 및 소프트맥스(880)를 제거한 CNN일 수 있다. 예를 들어, 도 3을 참조하여 전술된 단계(440)에서 사용되는 CNN은 부분 CNN(805)일 수 있다.

부분 CNN(805)은 풀리 커넥티드 레이어(870)를 포함하지 않으므로 스펙트로그램 이미지에 대한 다양한 특징들을 출력할 수 있다.

일 측면에 따르면, 타겟 음성에 대응하는 타겟 CNN을 통해 타겟 음성에 대한 미리 결정된 개수의 특징들이 생성된다. 예를 들어, 미리 결정된 개수의 특징들은 4608개일 수 있다. 복수의 음성들의 개수가 n개인 경우, 생성되는 전체 특징들(900)의 개수는 4608 x n개일 수 있다.

전체 특징들(900) 중 미리 설정된 개수의 타겟 특징들(910)이 결정된다. 결정된 타겟 특징들(910)은 치매 정도의 결정을 위해 미리 설정된 마커일 수 있다. 마커로서 타겟 특징들(910)을 미리 결정하는 방법에 대해, 아래에서 도 13의 단계(1310)를 참조하여 상세히 설명된다.

일 측면에 따르면, 사용자의 치매 정도를 결정하는 DNN은 입력 레이어(1010), 하나 이상의 히든 레이어들(1020, 1030, 1040) 및 출력 레이어(1050)를 포함할 수 있다. 예를 들어, DNN은 도 13을 참조하여 후술될 DNN을 갱신하는 방법을 통해 갱신된 DNN일 수 있다.

DNN은 타겟 특징들(910)의 입력에 대해 출력으로서 사용자의 치매 정도를 출력할 수 있다. DNN은 미리 설정된 복수의 치매 정도들 중 어느 하나를 출력할 수 있다. 예를 들어, 미리 설정된 복수의 치매 정도들은 결정된 정상, 경도인지장애(MCI) 및 알츠하이머병(AD)을 포함할 수 있다.

하나의 모델을 통해 복수의 치매 정도들 중 어느 하나를 결정하는 방법 보다는, 복수의 모델들을 통해 단계적으로 치매 정도를 결정하는 방법이 치매 정도의 결정의 정확도를 높일 수 있다.

예를 들어, 하나의 모델을 통해 정상, 경도인지장애(MCI) 및 알츠하이머병(AD) 중 어느 하나를 결정하는 방법 보다는, 분류 1단계에서 정상 또는 비정상(경도인지장애(MCI) 및 알츠하이머병(AD))을 결정하고, 분류 2단계에서 경도인지장애(MCI) 또는 알츠하이머병(AD)을 결정할 수 있다.

상기의 방법을 사용하기 위해서는, 분류 1단계에서 사용되는 제1 CNN 세트 및 제1 DNN과, 분류 2단계에서 사용되는 제2 CNN 세트 및 제2 DNN이 각각 미리 준비된다.

예를 들어, 분류 1단계를 위해 단계들(410 내지 460)이 수행되고, 분류 1단계를 통해 사용자의 치매 정도가 비정상으로 결정된 경우, 분류 2단계를 위해 단계들(440 내지 470)이 수행될 수 있다. 분류 1단계를 통해 사용자의 치매 정도가 정상으로 결정된 경우, 분류 2단계는 수행되지 않을 수 있다. 분류 1단계를 위해 사용되는 제1 CNN 세트 및 제1 DNN과 분류 2단계를 위해 사용되는 제2 CNN 세트 및 제2 DNN는 각각 서로 상이하다.

일 측면에 따르면, 도 4를 참조하여 전술된 단계(410)가 수행되기 전에 아래의 단계(1200)가 선행적으로 수행된다. 단계(1200)는 완전한 CNN을 갱신하기 위한 방법에 관한 것으로서, 아래의 단계들(1210 내지 1250)을 포함할 수 있다.

단계(1210)에서, 전자 장치(300)는 테스트 사용자에게 사용자의 치매 정도를 결정하기 위해 미리 제작된 컨텐츠를 출력한다. 예를 들어, 전자 장치(300)는 테스트 사용자의 사용자 단말을 통해 컨텐츠를 출력할 수 있다.

테스트 사용자는 의사의 전문 진단을 통해 치매 정도가 결정된 사람일 수 있다. 예를 들어, 테스트 사용자는 정상이거나, 경도인지장애(MCI)이거나 또는 알츠하이머병(AD)일 수 있다.

단계(1220)에서, 전자 장치(300)는 사용자 단말의 마이크를 통해 획득된 컨텐츠에 대한 테스트 사용자의 테스트 음성을 수신한다. 복수의 컨텐츠들이 제공된 경우, 복수의 테스트 음성들이 수신될 수 있다.

단계(1230)에서, 전자 장치(300)는 수신된 테스트 음성의 적어도 하나의 특성을 시각화함으로써 테스트 음성에 대한 테스트 스펙트로그램 이미지를 생성한다. 테스트 스펙트로그램 이미지에는 테스트 사용자의 GT(ground truth) 치매 정도가 라벨링될 수 있다.

단계(1240)에서, 전자 장치(300)는 테스트 스펙트로그램 이미지를 완전한 CNN에 입력함으로써 테스트 사용자에 대한 테스트 치매 정도를 결정한다. 완전한 CNN은 입력 레이어, 하나 이상의 콘볼루션 레이어들 블록들, 풀리 커넥티드 레이어 및 소프트맥스를 포함한다. 예를 들어, 완전한 CNN의 초기 버전은 VGG16 모델일 수 있다.

완전한 CNN이 풀리 커넥티드 레이어 및 소프트맥스를 포함하고 있으므로, 완전한 CNN은 테스트 치매 정도를 결정할 수 있다. 예를 들어, 결정된 테스트 치매 정도는 정상, 경도인지장애(MCI) 및 알츠하이머병(AD)을 포함할 수 있다.

일 측면에 따르면, 제1 컨텐츠에 대응하는 제1 완전한 CNN은 제1 테스트 스펙트로그램 이미지만을 기초하여 테스트 사용자의 테스트 치매 정도를 결정하고, 제2 컨텐츠에 대응하는 제2 완전한 CNN은 제2 테스트 스펙트로그램 이미지만을 기초하여 테스트 사용자의 테스트 치매 정도를 결정할 수 있다.

단계(1250)에서, 전자 장치(300)는 테스트 치매 정도 및 GT 치매 정도에 기초하여 완전한 CNN을 갱신한다. 예를 들어, 테스트 치매 정도 및 GT 치매 정도에 차이가 있는 경우, 완전한 CNN을 갱신하기 위해 상기의 차이를 에러 값으로 하는 역-전파(back-propagation)가 수행될 수 있다. 완전한 CNN을 갱신하는 방법은 지도 학습(supervised learning)일 수 있다.

도 8의 일 실시예에서, 완전한 CNN(800)이 입력 레이어(810), 제1 콘볼루션 레이어 블록(820), 제2 콘볼루션 레이어 블록(830), 제3 콘볼루션 레이어 블록(840), 제4 콘볼루션 레이어 블록(850), 제5 콘볼루션 레이어 블록(860), 풀리 커넥티드 레이어(870) 및 소프트맥스(880)를 포함하는 경우, 제3 내지 제5 콘볼루션 레이어 블록들(840, 850, 860)만이 갱신되고, 나머지 레이어들은 갱신되지 않을 수 있다.

일 측면에 따르면, 많은 수의 테스트 사용자들을 통해 완전한 CNN이 반복적으로 갱신될 수 있고, 갱신된 완전한 CNN의 출력 정확도가 미리 설정된 임계 값 이상이 되는 경우 완전한 CNN의 갱신이 종료될 수 있다.

일 측면에 따르면, 도 11을 참조하여 전술된 방법과 같이 복수의 모델들을 통해 단계적으로 치매 정도를 결정하는 경우, 각 분류 단계에서 사용되는 제1 완전한 CNN 세트 및 제2 완전한 CNN 세트가 각 분류 단계에 맞도록 개별적으로 갱신될 수 있다. 예를 들어, 제1 완전한 CNN 세트는 정상 또는 비정상(경도인지장애(MCI) 및 알츠하이머병(AD))을 결정하도록 갱신되고, 제2 완전한 CNN 세트는 경도인지장애(MCI) 또는 알츠하이머병(AD)을 결정하도록 갱신될 수 있다.

단계(440)에서 사용되는 CNN은 완전한 CNN의 갱신이 완료된 후, 완전한 CNN에서 풀리 커넥티드 레이어 및 소프트맥스를 제거한 신경망일 수 있다. 즉, 단계(440)에서 사용되는 CNN은 해당 스펙트로그램 이미지의 특징 추출기로서 사용될 수 있다.

도 13은 일 예에 따른 DNN을 갱신하는 방법의 흐름도이다.

일 측면에 따르면, 아래의 단계(1300)는 DNN을 갱신하기 위한 방법에 관한 것으로서, 도 12를 참조하여 전술된 단계(1200)가 수행된 후, 및 도 4를 참조하여 전술된 단계(410)가 수행되기 전에 선행적으로 수행될 수 있다. 예를 들어, 완전한 CNN(또는 CNN)의 갱신이 완료된 후, 단계(1300)가 수행될 수 있다.

단계(1300)는, 아래의 단계들(1310 내지 1240)을 포함할 수 있다.

단계(1310)에서, 전자 장치(300)는 제1 테스트 스펙트로그램 이미지에 기초하여 제1 CNN에 의해 생성된 미리 설정된 개수의 제1 테스트 특징들 및 제2 테스트 스펙트로그램 이미지에 기초하여 제2 CNN에 의해 생성된 미리 설정된 개수의 제2 테스트 특징들 중 미리 설정된 개수의 테스트 타겟 특징들을 결정한다. 제1 테스트 특징들 및 제2 테스트 특징들만이 기재되었으나, 예를 들어 n개의 컨텐츠들에 대한 n 개의 테스트 스펙트로그램 이미지들이 생성된 경우, 테스트 타겟 특징들은 제1 테스트 특징들 내지 제n 테스트 특징들 중에서 결정될 수 있다. 테스트 타겟 특징들은 치매 정도를 결정하기 위해 이용되는 마커일 수 있다. 테스트 타겟 특징들을 결정하는 방법에 대해, 아래에서 도 14 및 15를 참조하여 상세히 설명된다.

테스트 타겟 특징들에는 테스트 사용자의 GT 치매 정도가 라벨링될 수 있다.

단계(1320)에서, 전자 장치(300)는 결정된 테스트 타겟 특징들을 검증할 수 있다. 예를 들어, K-폴드 교차 검증 방법을 통해 테스트 타겟 특징들이 검증될 수 있다.

테스트 타겟 특징들을 검증하는 방법에 대해, 아래에서 도 15 및 16을 참조하여 상세히 설명된다.

테스트 타겟 특징들이 검증된 경우 단계(1330)가 수행될 수 있다. 테스트 타겟 특징들이 검증되지 않은 경우에는 CNN의 재갱신이 필요한 것으로 간주되어, 단계(1200)가 재수행될 수 있다.

단계(1330)에서, 전자 장치(300)는 테스트 타겟 특징들을 DNN에 입력함으로써 테스트 사용자의 테스트 치매 정도를 결정한다. 단계(1240)에서 결정되는 테스트 치매 정도와 구분하기 위해, 단계(1240)의 테스트 치매 정도는 제1 테스트 치매 정도로 명명되고, 단계(1330)의 테스트 치매 정도는 제2 테스트 치매 정도로 명명된다. 단계(1330)가 처음 수행되는 경우, 사용되는 DNN은 초기 DNN 또는 기본 DNN일 수 있다.

단계(1340)에서, 전자 장치(300)는 제2 테스트 치매 정도 및 GT 치매 정도에 기초하여 DNN을 갱신한다. 예를 들어, 제2 테스트 치매 정도 및 GT 치매 정도에 차이가 있는 경우, DNN을 갱신하기 위해 상기의 차이를 에러 값으로 하는 역-전파가 수행될 수 있다. DNN을 갱신하는 방법은 지도 학습일 수 있다.

일 측면에 따르면, 많은 수의 테스트 사용자들을 통해 DNN이 반복적으로 갱신될 수 있고, 갱신된 DNN의 출력 정확도가 미리 설정된 임계 값 이상이 되는 경우 DNN의 갱신이 종료될 수 있다.

일 측면에 따르면, 도 11을 참조하여 전술된 방법과 같이 복수의 모델들을 통해 단계적으로 치매 정도를 결정하는 경우, 각 분류 단계에서 사용되는 제1 DNN 및 제2 DNN이 각 분류 단계에 맞도록 개별적으로 갱신될 수 있다. 예를 들어, 제1 DNN는 정상 또는 비정상(경도인지장애(MCI) 및 알츠하이머병(AD))을 결정하도록 갱신되고, 제2 DNN은 경도인지장애(MCI) 또는 알츠하이머병(AD)을 결정하도록 갱신될 수 있다.

일 측면에 따르면, 도 13을 참조하여 전술된 단계(1310)은 아래의 단계들(1410 내지 1450)을 포함할 수 있다.

단계(1410)에서, 제1 테스트 특징들 및 제2 테스트 특징들을 포함하는 전체의 테스트 특징들이 복수의 서브 특징들의 세트들로 나눠진다. 예를 들어, 전체의 테스트 특징들이 50688개인 경우, 서브 특징들의 세트가 각각 1000개의 테스트 특징들을 포함하도록 생성될 수 있고, 제51 서브 특징들의 세트는 688개의 테스트 특징들을 포함할 수 있다. 전체의 테스트 특징들 각각은 인덱스 번호를 가질 수 있고, 제1 서브 특징들 세트는 1번 테스트 특징 내지 1000번 테스트 특징을 포함한다.

단계(1420)에서, 복수의 서브 특징들의 세트들(51개) 중 일부가 선별된다. 예를 들어, 제1 서브 특징들 세트 내지 제51 서브 특징들 세트 중 10개의 세트가 선택될 수 있다. 선택된 10개의 서브 특징들 세트들은 총 10000개의 테스트 특징들을 포함한다. 일부의 서브 특징들의 세트들을 선별하는 방법에 대해, 아래에서 도 15를 참조하여 상세히 설명된다.

단계(1430)에서, 선별된 서브 특징들(예를 들어, 10000개)이 복수의 서브 특징들의 세트들로 나눠진다. 예를 들어, 선별된 특징들이 10000개인 경우, 서브 특징들의 세트들(50개)이 각각 200개의 테스트 특징들을 포함하도록 생성될 수 있다.

단계(1440)에서, 복수의 서브 특징들의 세트들(50개) 중 일부가 선별된다. 예를 들어, 제1 서브 특징들 세트 내지 제50 서브 특징들 세트 중 10개의 세트가 선택될 수 있다. 선택된 10개의 서브 특징들 세트들은 총 2000개의 테스트 특징들을 포함한다. 단계(1440)에 대한 상세한 설명은 단계(1420)에 대한 아래의 도 15의 설명이 유사하게 적용될 수 있다.

단계(1450)에서, 선별된 서브 특징들 세트들에 포함된 테스트 특징들이 테스트 타겟 특징들로 결정된다. 결정된 테스트 타겟 특징들 각각의 인덱스가 식별될 수 있다.

결정된 테스트 타겟 특징들은 사용자의 치매 정도를 결정하기 위한 마커로 사용될 수 있다. 예를 들어, 제1 특징들 중 56번째 특징, 100번째 특징 및 760번째 특징, 및 제2 특징들 중 1번째 특징 및 2400번째 특징이 테스트 타겟 특징들로 결정된 경우, 도 4를 참조하여 전술된 단계(450)에서 결정된 타겟 특징들도 제1 특징들 중 56번째 특징, 100번째 특징 및 760번째 특징, 및 제2 특징들 중 1번째 특징 및 2400번째 특징을 포함한다.

일 측면에 따르면, 도 14를 참조하여 전술된 단계(1420)는 아래의 단계들(1510 내지 1540)을 포함할 수 있다.

테스트 타겟 특징들을 결정하기 위해서는 많은 수의 사용자들에 대한 데이터가 요구된다. 아래에서는, 사용자들 1000명에 대한 데이터를 예시로하여, 테스트 타겟 특징들을 결정하는 과정을 설명한다. 사용자들 1000명에 대한 데이터에는 정답 값이 함께 설정되어 있다.

예를 들어, 1000명의 사용자들이 600명의 훈련 데이터 사용자, 200명의 인증 데이터 사용자 및 200명의 테스트 데이터 사용자로 분류될 수 있다. 600명 각각에 대해 제1 음성 내지 제11 음성들에 대한, 50688개의 특징들이 생성될 수 있고, 특정 인덱스들(예를 들어, 1 내지 1000)을 갖는 제1 서브 특징들 세트가 600개 생성될 수 있다. 예를 들어, 훈련 데이터를 위한 제1 서브 특징들 세트 내지 제51 서브 특징들 세트들이 600개 생성된다. 유사하게, 인증 데이터를 위한 제1 서브 특징들 세트 내지 제51 서브 특징들 세트들이 200개 생성되고, 테스트 데이터를 위한 제1 서브 특징들 세트 내지 제51 서브 특징들 세트들이 200개 생성된다.

단계(1510)에서, 훈련 데이터의 600개의 제1 서브 특징들 세트들(제1 훈련 데이터) 및 인증 데이터의 200개의 제1 서브 특징들 세트들(제1 인증 데이터)에 기초하여 초기 DNN에 대한 1회의 에폭(epoch)이 수행된다. 600개의 제1 서브 특징들 세트들에 기초하여 DNN 내의 노드의 엣지 또는 파라미터의 가중치가 조정된다. 가중치가 조정된 DNN을 통해 입력 제1 인증 데이터에 대한 결과가 출력된다. 출력된 결과는 200개일 수 있다. 관리자는 출력된 결과 200개를 참조하여 학습을 위해 수행되는 미리 설정된 에폭의 횟수를 조정할 수 있다.

단계(1520)에서, DNN에 대해 미리 설정된 횟수의 에폭이 수행된다. 예를 들어, 30회의 에폭이 수행될 수 있다. 미리 설정된 횟수의 에폭이 수행된 경우, 1회의 학습(또는 훈련)이 완료된 것으로 간주된다.

단계(1530)에서, 테스트 데이터의 200개의 제1 서브 특징들 세트들(제1 테스트 데이터)에 기초하여 제1 학습 정확도가 계산될 수 있다. 예를 들어, 제1 테스트 데이터를 학습된 DNN에 입력하고, 200개의 결과들에 대한 정확도가 제1 학습 정확도로서 계산될 수 있다.

단계들(1510 내지 1530)을 미리 설정된 횟수 반복함으로써 추가의 학습 정확도들이 계산될 수 있다. 단계(1510)에 제공되는 초기 DNN들은 각각 다르기 때문에 DNN 학습의 결과도 달라질 수 있고, 이에 따라, 복수회의 학습들에 대한 학습 정확도들이 달라진다. 단계들(1510 내지 1530)을 10회 반복하는 경우, 제1 학습 정확도 내지 제10 학습 정확도들이 계산될 수 있다.

단계(1540)에서, 제1 훈련 데이터에 대한 제1 평균 학습 정확도가 계산된다. 예를 들어, 제1 학습 정확도 내지 제10 학습 정확도들에 대한 평균이 제1 평균 학습 정확도로 계산될 수 있다.

예를 들어, 단계들(1510 내지 1540)이 인덱스 1 내지 1000의 특징들을 포함하는 제1 서브 특징들 세트에 대해 수행되는 경우, 제1 서브 특징들 세트에 대한 제1 평균 학습 정확도가 계산될 수 있다.

다른 예로, 단계들(1510 내지 1540)이 인덱스 1001 내지 2000의 특징들을 포함하는 제2 서브 특징들 세트에 대해 수행되는 경우, 제2 서브 특징들 세트에 대한 제2 평균 학습 정확도가 계산될 수 있다.

51개의 서브 특징들 세트들 각각에 대한 제1 평균 학습 정확도 내지 제51 평균 학습 정확도들이 계산될 수 있다. 51개의 평균 학습 정확도들 중 상위 10개의 서브 특징들 세트들이 선별될 수 있다.

다른 예로, 51개의 서브 특징들 세트들을 미리 설정된 개수들의 그룹들로 분류하고, 해당 그룹에 대한 그룹 평균 학습 정확도가 계산될 수 있다. 그룹 평균 학습 정확도에 기초하요 복수의 그룹들 중 일부의 그룹들이 선택됨으로써 선택된 그룹들 내의 서브 특징들 세트들이 선별될 수 있다.

10개의 서브 특징들 세트들이 선택된 경우, 10000개의 인덱스들이 선택된다. 서브 특징들 세트 별로 선별되므로 스펙트로그램 이미지에 기초하여 CNN에 의해 생성된 특징들 사이의 지리적 특성이 자동적으로 고려될 수 있다.

단계들(1510 내지 1540)에 대한 설명은 단계(1440)에 대한 상세한 설명으로서 유사하게 적용될 수 있다.

일 측면에 따르면, 도 13을 참조하여 전술된 단계(1320)은 아래의 단계들(1610 및 1630)을 포함할 수 있다.

단계(1610)에서, 전자 장치(300)는 테스트 타겟 특징들의 세트들을 K개의 그룹들로 나눈다. 테스트 사용자들 각각에 대해 결정된 테스트 타겟 특징들이 하나의 세트로 정의된다. 예를 들어, 테스트 사용자들이 1000명인 경우, 1000개의 테스트 타겟 특징들의 세트들이 존재하고, 1000개의 세트들이 K개의 그룹들로 나뉠 수 있다. K는 2 이상의 자연수이다. K가 5인 경우, 200개의 세트들을 각각 포함하는 5개의 그룹들이 생성될 수 있다.

단계(1620)에서, 전자 장치(300)는 K개의 그룹들에 기초하여 초기 DNN들을 각각 갱신함으로써 K개의 테스트 DNN들을 생성한다. 제1 내지 제5 그룹들이 생성된 경우, 제1 테스트 DNN이 제2 내지 제5 그룹들을 사용하여 갱신되고, 제2 테스트 DNN이 제1, 제3 내지 제5 그룹들을 사용하여 갱신되고, 제3 테스트 DNN이 제1, 제2, 제4 및 제5 그룹들을 사용하여 갱신되고, 제4 테스트 DNN이 제1 내지 제3, 및 제5 그룹들을 사용하여 갱신되고, 제5 테스트 DNN이 제1 내지 제4 그룹들을 사용하여 갱신될 수 있다.

단계(1630)에서, 전자 장치(300)는 K개의 테스트 DNN들의 정확도에 기초하여 테스트 타겟 특징들을 검증한다. 상기의 실시예에서, 제1 테스트 DNN에 제1 그룹을 입력함으로써 제1 그룹에 대한 결과를 출력하고, 출력된 결과의 제1 정확도를 계산할 수 있다. 유사하게, 제2 내지 제4 테스트 DNN들에 각각에 대한 제2 내지 제4 정확도들을 계산할 수 있다.

계산된 제1 내지 제5 정확도들의 평균 값이 미리 설정된 임계 값 이상인 경우, 테스트 타겟 특징들이 검증된 것으로 결정될 수 있다. 계산된 제1 내지 제5 정확도들의 평균 값이 미리 설정된 임계 값 미만인 경우, 테스트 타겟 특징들이 검증되지 않은 것으로 결정될 수 있다. 테스트 타겟 특징들이 검증되지 않은 경우, 테스트 특징들을 추출하는 CNN이 재갱신될 수 있다.

일 예에 따르면, 테스트 타겟 특징들의 세트들(1710)이 제1 그룹(1701), 제2 그룹(1702), 제3 그룹(1703), 제4 그룹(1704), 및 제5 그룹(1705)로 나뉜 수 있다. 테스트 타겟 특징들의 세트들(1710)이 1000개의 세트들을 포함하는 경우, 그룹들(1701 내지 1705)의 각각은 200개의 세트들을 포함한다. 각각의 세트는 특정 테스트 사용자에 대한 테스트 타겟 특징들을 포함한다.

제1 테스트 DNN(1720)는 제2 내지 제5 그룹들(1702 내지 1705)을 사용하여 갱신될 수 있다. 예를 들어, 제1 테스트 DNN(1720)는 800개의 세트들에 기초하여 800회 갱신될 수 있다.

갱신된 제1 테스트 DNN(1720)는 제1 그룹(1701)을 입력으로 하여 제1 그룹(1701)에 대한 테스트 사용자들의 치매 정도들을 결정할 수 있다. 예를 들어, 제1 테스트 DNN(1720)는 200개의 세트들에 대한 200개의 제2 테스트 치매 정도들을 결정할 수 있다.

제1 그룹(1701)의 200개의 세트들 각각의 GT 치매 정도들과 200개의 제2 테스트 치매 정도들에 기초하여 제1 테스트 DNN(1720)의 정확도가 계산될 수 있다. 유사하게, 제2 내지 제4 테스트 DNN들의 정확도들이 계산될 수 있다. 최종적으로, 제1 내지 제5 테스트 DNN들의 정확도들의 평균에 기초하여 테스트 타겟 특징들이 검증될 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

전자 장치에 의해 수행되는, 사용자의 치매 정도를 결정하는 방법은,

사용자 단말을 통해 사용자의 치매 정도를 결정하기 위해 미리 제작된 제1 컨텐츠를 출력하는 단계;

상기 사용자 단말의 마이크를 통해 획득된 상기 제1 컨텐츠에 대한 상기 사용자의 제1 음성을 수신하는 단계;

상기 사용자 단말을 통해 미리 제작된 제2 컨텐츠를 출력하는 단계;

상기 마이크를 통해 획득된 상기 제2 컨텐츠에 대한 상기 사용자의 제2 음성을 수신하는 단계;

상기 제1 음성의 적어도 하나의 특성을 시각화함으로써 제1 스펙트로그램(spectrogram) 이미지를 생성하는 단계;

상기 제2 음성의 적어도 하나의 특성을 시각화함으로써 제2 스펙트로그램 이미지를 생성하는 단계;

상기 제1 스펙트로그램 이미지를 미리 갱신된 제1 콘볼루션 신경망(convolutional neural network: CNN)에 입력함으로써 상기 제1 음성에 대한 미리 설정된 개수의 제1 특징들을 생성하는 단계;

상기 제2 스펙트로그램 이미지를 미리 갱신된 제2 CNN에 입력함으로써 상기 제2 음성에 대한 미리 설정된 개수의 제2 특징들을 생성하는 단계;

상기 제1 특징들 및 상기 제2 특징들 중 미리 설정된 개수의 타겟 특징들을 결정하는 단계; 및

상기 타겟 특징들을 미리 갱신된 심층 신경망(deep neural network: DNN)에 입력함으로써 상기 사용자의 치매 정도를 결정하는 단계

를 포함하고,

상기 결정된 치매 정도가 상기 사용자 단말을 통해 출력되는,

치매 정도 결정 방법.
제1항에 있어서,

상기 제1 컨텐츠는 상기 제1 음성을 수신하기 위한 지시(instruction)를 포함하고,

상기 제1 컨텐츠는 사용자가 문장을 따라 말하도록 하는 컨텐츠, 출력되는 이미지의 명칭을 맞추는 컨텐츠, 출력되는 이미지를 설명하는 컨텐츠, 및 언어의 유창성을 위한 컨텐츠, 숫자 연산을 위한 컨텐츠, 이야기 말하기(story telling)를 유도하는 컨텐츠 중 하나인,

치매 정도 결정 방법.
제1항에 있어서,

상기 제1 음성의 적어도 하나의 특성을 시각화함으로써 제1 스펙트로그램 이미지를 생성하는 단계는,

리브로사 툴(librosa tool)을 통해 상기 제1 음성에 대한 상기 제1 스펙트로그램 이미지를 생성하는 단계

를 포함하는,

치매 정도 결정 방법.
제1항에 있어서,

상기 제1 CNN은 VGG16 모델에 기초하여 미리 갱신된,

치매 정도 결정 방법.
제1항에 있어서,

상기 제1 CNN은 입력 레이어 및 5개의 콘볼루션 레이어 블록들을 포함하고, 풀리 커넥티드 레이어(fully connected layer) 및 소프트맥스(softmax)를 포함하지 않음으로써 상기 제1 스펙트로그램 이미지에 대한 상기 제1 특징들을 생성하는,

치매 정도 결정 방법.
제1항에 있어서,

상기 제1 CNN을 갱신하는 단계

를 더 포함하는,

치매 정도 결정 방법.
제6항에 있어서,

상기 제1 CNN을 갱신하는 단계는,

상기 제1 컨텐츠에 대한 테스트 사용자의 제1 테스트 음성을 수신하는 단계;

상기 제1 테스트 음성의 적어도 하나의 특성을 시각화함으로써 제1 테스트 스펙트로그램 이미지를 생성하는 단계 - 상기 제1 테스트 스펙트로그램 이미지에는 상기 테스트 사용자의 GT(ground truth) 치매 정도가 라벨링됨 -;

상기 제1 테스트 스펙트로그램 이미지를 완전한 제1 CNN에 입력함으로써 상기 테스트 사용자에 대한 제1 테스트 치매 정도를 결정하는 단계 - 상기 완전한 제1 CNN은 입력 레이어, 하나 이상의 콘볼루션 레이어들 블록들, 풀리 커넥티드 레이어 및 소프트맥스를 포함함 -; 및

상기 제1 테스트 치매 정도 및 상기 GT 치매 정도에 기초하여 상기 완전한 제1 CNN을 갱신하는 단계

를 포함하고,

상기 제1 CNN은 상기 갱신된 완전한 제1 CNN의 레이어들 중 상기 입력 레이어 및 상기 하나 이상의 콘볼루션 레이어 블록들만을 포함하는,

치매 정도 결정 방법.
제7항에 있어서,

상기 제1 CNN 및 상기 제2 CNN을 포함하는 복수의 CNN들의 갱신이 완료된 후, 상기 DNN을 갱신하는 단계

를 더 포함하는,

치매 정도 결정 방법.
제8항에 있어서,

상기 DNN을 갱신하는 단계는,

제1 테스트 스펙트로그램 이미지에 기초하여 생성된 미리 설정된 개수의 제1 테스트 특징들 및 제2 테스트 스펙트로그램 이미지에 기초하여 생성된 미리 설정된 개수의 제2 테스트 특징들 중 미리 설정된 개수의 테스트 타겟 특징들을 결정하는 단계 - 상기 테스트 타겟 특징들에는 상기 테스트 사용자의 GT 치매 정도가 라벨링됨 -;

상기 테스트 타겟 특징들을 상기 DNN에 입력함으로써 상기 테스트 사용자의 제2 테스트 치매 정도를 결정하는 단계; 및

상기 제2 테스트 치매 정도 및 상기 GT 치매 정도에 기초하여 상기 DNN을 갱신하는 단계

를 포함하는,

치매 정도 결정 방법.
제9항에 있어서,

상기 DNN을 갱신하는 단계는,

K-폴드 교차 검증 방법을 통해 상기 테스트 타겟 특징들을 검증하는 단계 - 상기 K는 2 이상의 자연수임 -

를 더 포함하고,

상기 테스트 타겟 특징들이 검증되지 않은 경우, 상기 제1 CNN 및 상기 제2 CNN이 재갱신되는,

치매 정도 결정 방법.
제10항에 있어서,

상기 K-폴드 교차 검증 방법을 통해 상기 테스트 타겟 특징들을 검증하는 단계는,

테스트 타겟 특징들의 세트들을 상기 K 개의 그룹들로 나누는 단계;

상기 K 개의 그룹들에 기초하여 K개의 초기 DNN들을 각각 갱신함으로써 K개의 테스트 DNN들을 생성하는 단계; 및

상기 K개의 테스트 DNN들의 정확도에 기초하여 상기 테스트 타겟 특징들을 검증하는 단계

를 포함하는,

치매 정도 결정 방법.
제1항의 방법을 수행하는 프로그램을 수록한 컴퓨터 판독 가능 기록 매체.
사용자의 치매 정도를 결정하는 전자 장치는,

사용자의 치매 정도를 결정하는 프로그램이 기록된 메모리; 및

상기 프로그램을 수행하는 프로세서

를 포함하고,

상기 프로그램은,

사용자 단말을 통해 사용자의 치매 정도를 결정하기 위해 미리 제작된 제1 컨텐츠를 출력하는 단계;

상기 사용자 단말의 마이크를 통해 획득된 상기 제1 컨텐츠에 대한 상기 사용자의 제1 음성을 수신하는 단계;

상기 사용자 단말을 통해 미리 제작된 제2 컨텐츠를 출력하는 단계;

상기 마이크를 통해 획득된 상기 제2 컨텐츠에 대한 상기 사용자의 제2 음성을 수신하는 단계;

상기 제1 음성의 적어도 하나의 특성을 시각화함으로써 제1 스펙트로그램(spectrogram) 이미지를 생성하는 단계;

상기 제2 음성의 적어도 하나의 특성을 시각화함으로써 제2 스펙트로그램 이미지를 생성하는 단계;

상기 제1 스펙트로그램 이미지를 미리 갱신된 제1 콘볼루션 신경망(convolutional neural network: CNN)에 입력함으로써 상기 제1 음성에 대한 미리 설정된 개수의 제1 특징들을 생성하는 단계;

상기 제2 스펙트로그램 이미지를 미리 갱신된 제2 CNN에 입력함으로써 상기 제2 음성에 대한 미리 설정된 개수의 제2 특징들을 생성하는 단계;

상기 제1 특징들 및 상기 제2 특징들 중 미리 설정된 개수의 타겟 특징들을 결정하는 단계; 및

상기 타겟 특징들을 미리 갱신된 심층 신경망(deep neural network: DNN)에 입력함으로써 상기 사용자의 치매 정도를 결정하는 단계

를 수행하고,

상기 결정된 치매 정도가 상기 사용자 단말을 통해 출력되는,

전자 장치.
전자 장치에 의해 수행되는, 사용자의 치매 정도를 결정하기 위해 사용되는 콘볼루션 신경망(convolutional neural network: CNN)을 갱신하는 방법은,

사용자 단말을 통해 사용자의 치매 정도를 결정하기 위해 미리 제작된 제1 컨텐츠를 출력하는 단계;

상기 제1 컨텐츠에 대한 테스트 사용자의 제1 테스트 음성을 수신하는 단계;

상기 제1 테스트 음성의 적어도 하나의 특성을 시각화함으로써 제1 테스트 스펙트로그램 이미지를 생성하는 단계 - 상기 제1 테스트 스펙트로그램 이미지에는 상기 테스트 사용자의 GT(ground truth) 치매 정도가 라벨링됨 -;

상기 제1 테스트 스펙트로그램 이미지를 완전한 CNN에 입력함으로써 상기 테스트 사용자에 대한 테스트 치매 정도를 결정하는 단계 - 상기 완전한 CNN은 입력 레이어, 하나 이상의 콘볼루션 레이어 블록들, 풀리 커넥티드 레이어 및 소프트맥스를 포함함 -; 및

상기 테스트 치매 정도 및 상기 GT 치매 정도에 기초하여 상기 완전한 CNN을 갱신하는 단계

를 포함하고,

상기 CNN은 상기 갱신된 완전한 CNN의 레이어들 중 상기 입력 레이어 및 상기 하나 이상의 콘볼루션 레이어 블록들만을 포함하는,

CNN 갱신 방법.
사용자의 치매 정도를 결정하기 위해 사용되는 콘볼루션 신경망(convolutional neural network: CNN)을 갱신하는 전자 장치는,

상기 CNN을 갱신하는 프로그램이 기록된 메모리; 및

상기 프로그램을 수행하는 프로세서

를 포함하고,

상기 프로그램은,

사용자 단말을 통해 사용자의 치매 정도를 결정하기 위해 미리 제작된 제1 컨텐츠를 출력하는 단계;

상기 제1 컨텐츠에 대한 테스트 사용자의 제1 테스트 음성을 수신하는 단계;

상기 제1 테스트 음성의 적어도 하나의 특성을 시각화함으로써 제1 테스트 스펙트로그램 이미지를 생성하는 단계 - 상기 제1 테스트 스펙트로그램 이미지에는 상기 테스트 사용자의 GT(ground truth) 치매 정도가 라벨링됨 -;

상기 제1 테스트 스펙트로그램 이미지를 완전한 CNN에 입력함으로써 상기 테스트 사용자에 대한 테스트 치매 정도를 결정하는 단계 - 상기 완전한 CNN은 입력 레이어, 하나 이상의 콘볼루션 레이어 블록들, 풀리 커넥티드 레이어 및 소프트맥스를 포함함 -; 및

상기 테스트 치매 정도 및 상기 GT 치매 정도에 기초하여 상기 완전한 CNN을 갱신하는 단계

를 수행하고,

상기 CNN은 상기 갱신된 완전한 CNN의 레이어들 중 상기 입력 레이어 및 상기 하나 이상의 콘볼루션 레이어 블록들만을 포함하는,

전자 장치.