KR102526429B1 - 사용자의 치매 정도 결정 방법 및 장치 - Google Patents

사용자의 치매 정도 결정 방법 및 장치 Download PDF

Info

Publication number
KR102526429B1
KR102526429B1 KR1020220076878A KR20220076878A KR102526429B1 KR 102526429 B1 KR102526429 B1 KR 102526429B1 KR 1020220076878 A KR1020220076878 A KR 1020220076878A KR 20220076878 A KR20220076878 A KR 20220076878A KR 102526429 B1 KR102526429 B1 KR 102526429B1
Authority
KR
South Korea
Prior art keywords
dementia
state
degree
test
user
Prior art date
Application number
KR1020220076878A
Other languages
English (en)
Other versions
KR20230037433A (ko
Inventor
김형준
임준식
홍수훈
백찬은
Original Assignee
주식회사 에이블테라퓨틱스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에이블테라퓨틱스 filed Critical 주식회사 에이블테라퓨틱스
Priority to TW111134144A priority Critical patent/TWI811097B/zh
Publication of KR20230037433A publication Critical patent/KR20230037433A/ko
Application granted granted Critical
Publication of KR102526429B1 publication Critical patent/KR102526429B1/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/40Detecting, measuring or recording for evaluating the nervous system
    • A61B5/4076Diagnosing or monitoring particular conditions of the nervous system
    • A61B5/4088Diagnosing of monitoring cognitive diseases, e.g. Alzheimer, prion diseases or dementia
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4842Monitoring progression or stage of a disease
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Biophysics (AREA)
  • Veterinary Medicine (AREA)
  • Animal Behavior & Ethology (AREA)
  • Surgery (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Neurology (AREA)
  • Evolutionary Computation (AREA)
  • Psychiatry (AREA)
  • Epidemiology (AREA)
  • General Physics & Mathematics (AREA)
  • Physiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Primary Health Care (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Developmental Disabilities (AREA)
  • Child & Adolescent Psychology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Fuzzy Systems (AREA)
  • Neurosurgery (AREA)
  • Signal Processing (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

사용자의 치매 정도를 결정하기 위해, 사용자 단말을 통해 컨텐츠를 출력하고, 컨텐츠를 관찰하는 사용자의 리액션을 연속적으로 수신하며, 리액션을 시각화함으로써 바이오 마커 정보를 생성하고, 바이오 마커 정보에 기초하여 콘볼루션 신경망(CNN) 및 심층 신경망(DNN)을 통해 사용자의 치매 정도를 결정한다.

Description

사용자의 치매 정도 결정 방법 및 장치{METHOD AND APPARATUS FOR DETERMINING A DEGREE OF DEMENTIA OF A USER}
기술 분야는 사용자의 치매 레벨을 결정하는 기술에 관한 것으로, 특히 사용자에게 컨텐츠를 제공하고, 제공된 컨텐츠에 대한 사용자의 리액션에 기초하여 사용자의 치매 정도를 결정하는 장치 및 방법에 관한 것이다.
치매는 사회 고령화와 함께 노년기 삶의 가장 심각한 질환으로 지난 10년간 급격한 증가세를 보이고 있으며 사회·경제적 비용도 급증하는 추세이다. 또한 환자가 독립적으로 생활할 수 없고, 실종, 자살 등 본인의 삶 뿐만 아니라 돌보는 가족에게도 큰 고통을 주는 질환이다. 치매는 조기진단과 적절한 치료로 추가적인 인지기능의 저하를 막거나 늦출 수 있으나 이 질환의 기존 조기진단에는 문제점이 있다. 기존에는 병원 등 전문의료기관을 방문해야 하므로, 건망증이 심해졌다고 느끼고 내원하는 환자 중 이미 경도인지장애(MCI) 또는 알츠하이머병(AD)으로 진행된 사람이 많고, 진단을 위한 신경인지기능검사(SNSB-II, CERAD-K 등)는 충분한 경험과 노하우를 갖춘 의료진을 통해야 높은 신뢰도를 기대할 수 있으며, 자기공명검사(MRI)나 단일광자방출촬영(SPECT), 양전자단층촬영(PET), 뇌척수액검사 등은 진단 비용이 고가일 뿐만 아니라 진단을 받는 환자의 불편도 크다.
특허 등록공보 제10-2274072호는 사용자의 치매 정도 결정 방법 및 장치에 관한 것이며, 구체적으로 선행문헌에는 사용자의 치매 정도를 결정하기 위해, 사용자 단말을 통해 컨텐츠를 출력하고, 사용자 단말의 마이크를 통해 획득된 컨텐츠에 대한 사용자의 음성을 수신하며, 음성을 시각화함으로써 스펙트로그램 이미지를 생성하고, 스펙트로그램 이미지에 기초하여 콘볼루션 신경망(CNN) 및 심층 신경망(DNN)을 통해 사용자의 치매 정도를 결정하는 방법이 개시되어 있다.
일 실시예는 사용자의 치매 정도를 결정하는 장치 및 방법을 제공할 수 있다.
일 실시예는 사용자의 음성에 기초하여 사용자의 치매 정도를 결정하는 장치 및 방법을 제공할 수 있다.
일 실시 예에 따른, 전자 장치에 의해 수행되는, 사용자의 치매 정도를 결정하는 방법은, 사용자 단말을 통해 사용자의 치매 정도를 결정하기 위해 미리 제작된 제1 컨텐츠를 출력하는 단계, 상기 사용자 단말의 마이크를 통해 획득된 상기 제1 컨텐츠에 대한 상기 사용자의 제1 음성을 수신하는 단계, 상기 사용자 단말을 통해 미리 제작된 제2 컨텐츠를 출력하는 단계, 상기 마이크를 통해 획득된 상기 제2 컨텐츠에 대한 상기 사용자의 제2 음성을 수신하는 단계, 상기 제1 음성의 적어도 하나의 특성을 시각화함으로써 제1 스펙트로그램(spectrogram) 이미지를 생성하는 단계, 상기 제2 음성의 적어도 하나의 특성을 시각화함으로써 제2 스펙트로그램 이미지를 생성하는 단계, 상기 제1 스펙트로그램 이미지를 미리 갱신된 제1 콘볼루션 신경망(convolutional neural network: CNN)에 입력함으로써 상기 제1 음성에 대한 미리 설정된 개수의 제1 특징들을 생성하는 단계, 상기 제2 스펙트로그램 이미지를 미리 갱신된 제2 CNN에 입력함으로써 상기 제2 음성에 대한 미리 설정된 개수의 제2 특징들을 생성하는 단계, 상기 제1 특징들 및 상기 제2 특징들 중 미리 설정된 개수의 타겟 특징들을 결정하는 단계, 및 상기 타겟 특징들을 미리 갱신된 심층 신경망(deep neural network: DNN)에 입력함으로써 상기 사용자의 치매 정도를 결정하는 단계를 포함하고, 상기 결정된 치매 정도가 상기 사용자 단말을 통해 출력될 수 있다.
상기 제1 컨텐츠는 상기 제1 음성을 수신하기 위한 지시(instruction)를 포함할 수 있다.
상기 제1 컨텐츠는 사용자가 문장을 따라 말하도록 하는 컨텐츠, 출력되는 이미지의 명칭을 맞추는 컨텐츠, 출력되는 이미지를 설명하는 컨텐츠, 및 언어의 유창성을 위한 컨텐츠, 숫자 연산을 위한 컨텐츠, 이야기 말하기(story telling)를 유도하는 컨텐츠 중 하나일 수 있다.
상기 제1 음성의 적어도 하나의 특성을 시각화함으로써 제1 스펙트로그램 이미지를 생성하는 단계는, 리브로사 툴(librosa tool)을 통해 상기 제1 음성에 대한 상기 제1 스펙트로그램 이미지를 생성하는 단계를 포함할 수 있다.
상기 제1 스펙트로그램 이미지의 크기 및 상기 제2 스펙트로그램 이미지의 크기는 서로 동일할 수 있다.
상기 제1 CNN은 VGG16 모델에 기초하여 미리 갱신될 수 있다.
상기 제1 CNN은 입력 레이어, 5개의 전위 콘볼루션 레이어 블록들, 풀리 커넥티드 레이어(fully connected layer), 및 2개의 후위 콘볼루션 레이어 블록들을 포함하고, 소프트맥스(softmax)를 포함하지 않음으로써 상기 제1 스펙트로그램 이미지에 대한 상기 제1 특징들을 생성할 수 있다.
상기 치매 정도 결정 방법은, 상기 제1 CNN을 갱신하는 단계를 더 포함할 수 있다.
상기 제1 CNN을 갱신하는 단계는, 상기 제1 컨텐츠에 대한 테스트 사용자의 제1 테스트 음성을 수신하는 단계, 상기 제1 테스트 음성의 적어도 하나의 특성을 시각화함으로써 제1 테스트 스펙트로그램 이미지를 생성하는 단계 - 상기 제1 테스트 스펙트로그램 이미지에는 상기 테스트 사용자의 GT(ground truth) 치매 정도가 라벨링됨 -, 상기 제1 테스트 스펙트로그램 이미지를 완전한 제1 CNN에 입력함으로써 상기 테스트 사용자에 대한 제1 테스트 치매 정도를 결정하는 단계 - 상기 완전한 제1 CNN은 입력 레이어, 하나 이상의 전위 콘볼루션 레이어 블록들, 풀리 커넥티드 레이어, 하나 이상의 후위 콘볼루션 레이어 블록들 및 소프트맥스를 포함함 -, 및 상기 제1 테스트 치매 정도 및 상기 GT 치매 정도에 기초하여 상기 완전한 제1 CNN을 갱신하는 단계를 포함하고, 상기 제1 CNN은 상기 갱신된 완전한 제1 CNN의 레이어들 중 상기 입력 레이어, 상기 하나 이상의 전위 콘볼루션 레이어 블록들, 상기 풀리 커넥티드 레이어 및 상기 하나 이상의 후위 콘볼루션 레이어 블록들만을 포함할 수 있다.
상기 치매 정도 결정 방법은, 상기 제1 CNN 및 상기 제2 CNN을 포함하는 복수의 CNN들의 갱신이 완료된 후, 상기 DNN을 갱신하는 단계를 더 포함할 수 있다.
상기 DNN을 갱신하는 단계는, 제1 테스트 스펙트로그램 이미지에 기초하여 생성된 미리 설정된 개수의 제1 테스트 특징들 및 제2 테스트 스펙트로그램 이미지에 기초하여 생성된 미리 설정된 개수의 제2 테스트 특징들 중 미리 설정된 개수의 테스트 타겟 특징들을 결정하는 단계 - 상기 테스트 타겟 특징들에는 상기 테스트 사용자의 GT 치매 정도가 라벨링됨 -, 상기 테스트 타겟 특징들을 상기 DNN에 입력함으로써 상기 테스트 사용자의 제2 테스트 치매 정도를 결정하는 단계, 및 상기 제2 테스트 치매 정도 및 상기 GT 치매 정도에 기초하여 상기 DNN을 갱신하는 단계를 포함할 수 있다.
일 실시 예에 따른, 사용자의 치매 정도를 결정하는 전자 장치는, 사용자의 치매 정도를 결정하는 프로그램이 기록된 메모리, 및 상기 프로그램을 수행하는 프로세서를 포함하고, 상기 프로그램은, 사용자 단말을 통해 사용자의 치매 정도를 결정하기 위해 미리 제작된 제1 컨텐츠를 출력하는 단계, 상기 사용자 단말의 마이크를 통해 획득된 상기 제1 컨텐츠에 대한 상기 사용자의 제1 음성을 수신하는 단계, 상기 사용자 단말을 통해 미리 제작된 제2 컨텐츠를 출력하는 단계, 상기 마이크를 통해 획득된 상기 제2 컨텐츠에 대한 상기 사용자의 제2 음성을 수신하는 단계, 상기 제1 음성의 적어도 하나의 특성을 시각화함으로써 제1 스펙트로그램(spectrogram) 이미지를 생성하는 단계, 상기 제2 음성의 적어도 하나의 특성을 시각화함으로써 제2 스펙트로그램 이미지를 생성하는 단계, 상기 제1 스펙트로그램 이미지를 미리 갱신된 제1 콘볼루션 신경망(convolutional neural network: CNN)에 입력함으로써 상기 제1 음성에 대한 미리 설정된 개수의 제1 특징들을 생성하는 단계, 상기 제2 스펙트로그램 이미지를 미리 갱신된 제2 CNN에 입력함으로써 상기 제2 음성에 대한 미리 설정된 개수의 제2 특징들을 생성하는 단계, 상기 제1 특징들 및 상기 제2 특징들 중 미리 설정된 개수의 타겟 특징들을 결정하는 단계, 및 상기 타겟 특징들을 미리 갱신된 심층 신경망(deep neural network: DNN)에 입력함으로써 상기 사용자의 치매 정도를 결정하는 단계를 수행하고, 상기 결정된 치매 정도가 상기 사용자 단말을 통해 출력될 수 있다.
일 실시 예에 따른, 전자 장치에 의해 수행되는, 사용자의 치매 정도를 결정하기 위해 사용되는 콘볼루션 신경망(convolutional neural network: CNN)을 갱신하는 방법은, 사용자 단말을 통해 사용자의 치매 정도를 결정하기 위해 미리 제작된 제1 컨텐츠를 출력하는 단계, 상기 제1 컨텐츠에 대한 테스트 사용자의 제1 테스트 음성을 수신하는 단계, 상기 제1 테스트 음성의 적어도 하나의 특성을 시각화함으로써 제1 테스트 스펙트로그램 이미지를 생성하는 단계 - 상기 제1 테스트 스펙트로그램 이미지에는 상기 테스트 사용자의 GT(ground truth) 치매 정도가 라벨링됨 -, 상기 제1 테스트 스펙트로그램 이미지를 완전한 CNN에 입력함으로써 상기 테스트 사용자에 대한 테스트 치매 정도를 결정하는 단계 - 상기 완전한 CNN은 입력 레이어, 하나 이상의 전위 콘볼루션 레이어 블록들, 풀리 커넥티드 레이어, 하나 이상의 후의 콘볼루션 레이어 블록들 및 소프트맥스를 포함함 -, 및 상기 테스트 치매 정도 및 상기 GT 치매 정도에 기초하여 상기 완전한 CNN을 갱신하는 단계를 포함하고, 상기 CNN은 상기 갱신된 완전한 CNN의 레이어들 중 상기 입력 레이어, 상기 하나 이상의 전위 콘볼루션 레이어 블록들, 상기 풀리 커넥티드 레이어 및 상기 하나 이상의 후위 콘볼루션 레이어 블록들만을 포함할 수 있다.
일 실시 예에 따른, 사용자의 치매 정도를 결정하기 위해 사용되는 콘볼루션 신경망(convolutional neural network: CNN)을 갱신하는 전자 장치는, 상기 CNN을 갱신하는 프로그램이 기록된 메모리, 및 상기 프로그램을 수행하는 프로세서를 포함하고, 상기 프로그램은, 사용자 단말을 통해 사용자의 치매 정도를 결정하기 위해 미리 제작된 제1 컨텐츠를 출력하는 단계, 상기 제1 컨텐츠에 대한 테스트 사용자의 제1 테스트 음성을 수신하는 단계, 상기 제1 테스트 음성의 적어도 하나의 특성을 시각화함으로써 제1 테스트 스펙트로그램 이미지를 생성하는 단계 - 상기 제1 테스트 스펙트로그램 이미지에는 상기 테스트 사용자의 GT(ground truth) 치매 정도가 라벨링됨 -, 상기 제1 테스트 스펙트로그램 이미지를 완전한 CNN에 입력함으로써 상기 테스트 사용자에 대한 테스트 치매 정도를 결정하는 단계 - 상기 완전한 CNN은 입력 레이어, 하나 이상의 전위 콘볼루션 레이어 블록들, 풀리 커넥티드 레이어, 하나 이상의 후의 콘볼루션 레이어 블록들 및 소프트맥스를 포함함 -, 및 상기 테스트 치매 정도 및 상기 GT 치매 정도에 기초하여 상기 완전한 CNN을 갱신하는 단계를 수행하고, 상기 CNN은 상기 갱신된 완전한 CNN의 레이어들 중 상기 입력 레이어, 상기 하나 이상의 전위 콘볼루션 레이어 블록들, 상기 풀리 커넥티드 레이어 및 상기 하나 이상의 후위 콘볼루션 레이어 블록들만을 포함할 수 있다.
사용자의 치매 정도를 결정하는 장치 및 방법이 제공될 수 있다.
사용자의 음성에 기초하여 사용자의 치매 정도를 결정하는 장치 및 방법이 제공될 수 있다.
도 1은 일 예에 따른 사용자의 치매 정도를 결정하는 시스템의 구성도이다.
도 2는 일 예에 따른 사용자의 치매 정도를 결정하기 위해 사용자 단말에 출력되는 영상들을 도시한다.
도 3은 일 실시예에 따른 사용자의 치매 정도를 결정하는 전자 장치의 구성도이다.
도 4는 일 실시예에 따른 사용자의 치매 정도를 결정하는 방법의 흐름도이다.
도 5는 일 예에 따른 사용자의 음성을 수신하기 위해 미리 제작된 컨텐츠를 도시한다.
도 6은 일 예에 따른 음성에 대해 생성된 원시 스펙트로그램 이미지를 도시한다.
도 7은 일 예에 따른 CNN 및 DNN을 이용하여 사용자의 치매 정도를 결정하는 방법의 흐름도이다.
도 8은 일 예에 따른 사용자의 치매 정도를 결정할 수 있는 완전한 CNN 및 부분 CNN을 도시한다.
도 9는 일 예에 따른 복수의 사용자 이미지 세트들 각각에 대해 생성된 특징들 및 이에 기초하여 결정된 타겟 특징들을 도시한다.
도 10은 일 예에 따른 사용자의 치매 정도를 결정하는 DNN을 도시한다.
도 11은 일 예에 따른 치매 정도의 결정의 정확도를 높이기 위해 수행되는 2 단계의 분류들을 도시한다.
도 12는 다른 일 예에 따른 치매 정도의 결정의 정확도를 높이기 위해 수행되는 2 단계의 동작들을 도시한다.
도 13은 일 예에 따른 완전한 CNN을 갱신하는 방법의 흐름도이다.
도 14는 일 예에 따른 DNN을 갱신하는 방법의 흐름도이다.
도 15는 일 예에 따른 테스트 타겟 특징들을 결정하는 방법의 흐름도이다.
도 16은 일 예에 따른 서브 특징들을 선별하는 방법의 흐름도이다.
도 17은 일 예에 따른 테스트 타겟 특징들을 검증하는 방법의 흐름도이다.
도 18은 일 예에 따른 타겟 특징들을 검증하기 위한 K-폴드 교차 검증 방법을 도시한다.
이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
아래 설명하는 실시예들에는 다양한 변경이 가해질 수 있다. 아래 설명하는 실시예들은 실시 형태에 대해 한정하려는 것이 아니며, 이들에 대한 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
실시예에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 실시예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 일 예에 따른 사용자의 치매 정도를 결정하는 시스템의 구성도이다.
일 측면에 따르면, 사용자의 치매 정도를 결정하는 시스템은 사용자의 치매 정도를 결정하는 전자 장치(110), 컨텐츠를 출력하는 사용자 단말(120), 및 의료 기관의 모니터링 단말(130)을 포함할 수 있다. 예를 들어, 전자 장치(110)는 서버일 수 있다.
전자 장치(110)는 사용자 단말(120)로 사용자의 치매 정도를 결정할 수 있도록 미리 제작된 컨텐츠를 제공할 수 있다. 예를 들어, 컨텐츠는 사용자로부터 음성을 획득하기 위한 컨텐츠일 수 있다. 사용자 음성을 획득하기 위한 컨텐츠에 대해 아래에서 도 5를 참조하여 상세하게 설명된다
사용자 단말(120)은 전자 장치(110)와 오프라인 또는 온라인으로 연결되어 서로 통신할 수 있다. 전자 장치(110)는 사용자 단말(120)로 컨텐츠를 제공하고, 사용자 단말(120)은 디스플레이를 통해 컨텐츠를 사용자에게 출력한다. 예를 들어, 사용자 단말(120)은 마이크를 통해 컨텐츠에 대한 리액션으로서의 사용자의 음성을 획득할 수 있고, 획득된 음성을 전자 장치(110)로 전송한다,
전자 장치(110)는 사용자의 음성에 기초하여 사용자의 치매 정도를 결정하고, 결정된 치매 정도를 사용자 단말(120)로 전송할 수 있다.
사용자 단말(120)은 태블릿, 스마트 폰과 같은 모바일 단말일 수 있다. 사용자 단말(120)이 모바일 단말인 경우, 사용자는 시간 및 장소의 제약을 받지 않으며, 저렴한 비용으로 치매 정도를 측정할 수 있다.
아래에서, 사용자의 치매 정도를 결정하는 방법에 대해 도 2 내지 도 17을 참조하여 상세하게 설명된다.
도 2는 일 예에 따른 사용자의 치매 정도를 결정하기 위해 사용자 단말에 출력되는 영상들을 도시한다.
아래의 영상들(210 내지 240)은 치매 정도를 결정하기 위한 어플리케이션의 영상들일 수 있다. 예를 들어, 전자 장치(110)의 사용자는 어플리케이션을 제작하여 배포할 수 있고, 사용자는 사용자 단말(120)을 통해 어플리케이션을 실행할 수 있다.
제1 영상(210)은 어플리케이션의 시작 화면이다.
제2 영상(220)은 어플리케이션이 지원하는 기능들을 나타낸다
제3 영상(230)은 사용자에게 제공되는 컨텐츠의 일 예이다. 사용자에게 복수의 컨텐츠들이 제공될 수 있다.
제4 영상(240)은 결정된 사용자의 치매 정도를 나타낸다. 예를 들어, 사용자의 치매 정도로서 결정된 정상, 경도인지장애(MCI) 또는 알츠하이머병(AD)가 출력될 수 있다. 개별적인 질병에 대한 주의 정도 이외에도 종합적인 판단이 함께 출력될 수도 있다.
도 3은 일 실시예에 따른 사용자의 치매 정도를 결정하는 전자 장치의 구성도이다.
전자 장치(300)는 통신부(310), 프로세서(320) 및 메모리(330)를 포함한다. 예를 들어, 전자 장치(300)는 도 1을 참조하여 전술된 전자 장치(110)일 수 있다.
통신부(310)는 프로세서(320) 및 메모리(330)와 연결되어 데이터를 송수신한다. 통신부(310)는 외부의 다른 장치와 연결되어 데이터를 송수신할 수 있다. 이하에서 "A"를 송수신한다라는 표현은 "A를 나타내는 정보(information) 또는 데이터"를 송수신하는 것을 나타낼 수 있다.
통신부(310)는 전자 장치(300) 내의 회로망(circuitry)으로 구현될 수 있다. 예를 들어, 통신부(310)는 내부 버스(internal bus) 및 외부 버스(external bus)를 포함할 수 있다. 다른 예로, 통신부(310)는 전자 장치(300)와 외부의 장치를 연결하는 요소일 수 있다. 통신부(310)는 인터페이스(interface)일 수 있다. 통신부(310)는 외부의 장치로부터 데이터를 수신하여, 프로세서(320) 및 메모리(330)에 데이터를 전송할 수 있다.
프로세서(320)는 통신부(310)가 수신한 데이터 및 메모리(330)에 저장된 데이터를 처리한다. "프로세서"는 목적하는 동작들(desired operations)을 실행시키기 위한 물리적인 구조를 갖는 회로를 가지는 하드웨어로 구현된 데이터 처리 장치일 수 있다. 예를 들어, 목적하는 동작들은 프로그램에 포함된 코드(code) 또는 인스트럭션들(instructions)을 포함할 수 있다. 예를 들어, 하드웨어로 구현된 데이터 처리 장치는 마이크로프로세서(microprocessor), 중앙 처리 장치(central processing unit), 프로세서 코어(processor core), 멀티-코어 프로세서(multi-core processor), 멀티프로세서(multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array)를 포함할 수 있다.
프로세서(320)는 메모리(예를 들어, 메모리(330))에 저장된 컴퓨터로 읽을 수 있는 코드(예를 들어, 소프트웨어) 및 프로세서(320)에 의해 유발된 인스트럭션들을 실행한다.
메모리(330)는 통신부(310)가 수신한 데이터 및 프로세서(320)가 처리한 데이터를 저장한다. 예를 들어, 메모리(330)는 프로그램(또는 어플리케이션, 소프트웨어)을 저장할 수 있다. 저장되는 프로그램은 사용자의 치매 정도를 결정할 수 있도록 코딩되어 프로세서(320)에 의해 실행 가능한 신텍스(syntax)들의 집합일 수 있다.
일 측면에 따르면, 메모리(330)는 하나 이상의 휘발성 메모리, 비휘발성 메모리 및 RAM(Random Access Memory), 플래시 메모리, 하드 디스크 드라이브 및 광학 디스크 드라이브를 포함할 수 있다.
메모리(330)는 전자 장치(300)를 동작 시키는 명령어 세트(예를 들어, 소프트웨어)를 저장한다. 전자 장치(300)를 동작 시키는 명령어 세트는 프로세서(320)에 의해 실행된다.
통신부(310), 프로세서(320) 및 메모리(330)에 대해, 아래에서 도 4 내지 도 17을 참조하여 상세히 설명된다.
도 4는 일 실시예에 따른 사용자의 치매 정도를 결정하는 방법의 흐름도이다.
아래의 단계들(410 내지 440)은 도 3을 참조하여 전술된 전자 장치(300)에 의해 수행된다.
단계(410)에서, 전자 장치(300)는 사용자 단말(예를 들어, 사용자 단말(120))의 디스플레이를 통해 사용자의 치매 정도를 결정하기 위해 미리 제작된 컨텐츠를 출력한다. 컨텐츠가 사용자 단말에 출력되고, 사용자는 컨텐츠에 대한 리액션을 수행한다.
사용자 단말은 카메라를 이용하여 상기의 리액션으로서의 사용자 음성을 수신할 수 있다. 사용자 단말은 마이크를 이용하여 리액션으로서의 음성을 생성할 수 있다. 생성된 음성은 데이터 파일 형태일 수 있다.
사용자에게 복수의 컨텐츠들이 제공되고, 복수의 컨텐츠들 각각에 대한 사용자 음성이 생성될 수 있다.
일 실시 예에 따른, 사용자 음성을 생성하기 위한 컨텐츠들은 아래의 [표 1]을 이용하여 설명된다.
음성 태스크 지시들(instructions)
Step 1.문자 따라 말하기 지금부터, 제가 말하는 문장을, 잘 듣고, 그대로 따라해 주세요
각 문장이 끝난 뒤, 삐~ 소리가 나면, 시작하세요
마당에, 장미꽃이, 피었다
Step 2.문자 따라 말하기 이번에도, 제가 말하는 문장을, 잘 듣고, 그대로 따라해 주세요
각 문장이 끝난 뒤, 삐~ 소리가 나면, 시작하세요
어제는, 비가 와서, 집에, 있었다
Step 3.문자 따라 말하기 이번에도, 제가 말하는 문장을, 잘 듣고, 그대로 따라해 주세요
각 문장이 끝난 뒤, 삐~ 소리가 나면, 시작하세요
낮말은 새가 듣고, 밤말은 쥐가 듣는다.
Step 4.이름대기 다음에는, 보여지는 동물의 이름을, 말씀하시는 것입니다
삐~ 소리가 나면, 보여지는 동물의 이름을, 차례로 말씀해 주세요
Step 5.그림설명 다음에 보여드리는, 그림을 보시고, 그림에 대해서, 1분 동안, 최대한 자세하게, 설명해 주세요
장소가 어디인지, 어떤 것들이 있는지, 동물이나 사람들은, 무엇을 하고 있는지, 등에 대해서, 최대한 자세하게 설명해 주세요
삐 소리가 나면 시작하세요
Step 6.언어유창성(음소형) 다음은, 제시되는 글자로 시작하는 단어를, 말하는 것입니다
예를 들어, 기역,이라는 글자를 보여드리면, 기역으로 시작하는 단어를, 최대한 많이, 말씀해주세요
가방, 고양이, 국수 같은 단어를 말씀하시면 됩니다
기역으로 시작하는 단어 중에, 또, 다른 것은 없습니까?

지금부터는 다른 글자, 즉, 니은으로 시작하는 단어를, 말씀해 보세요
1분의 시간을 드리겠습니다, 니은으로, 시작하는 단어를, 최대한 많이 말씀해 보세요, 준비되셨습니까?
삐 소리가 나면 시작하세요
Step 7.언어유창성(의미형) 제가 어떤 종류를 말씀 드리면 되도록 빨리 그 종류에 속하는 것들의 이름을 말씀해 주세요.
예를 들어 제가 ‘동물 종류’라고 말하면 개, 고양이, 사자 등의 이름을 말씀하시면 됩니다.
동물 종류에 속하는 것 중에 또 다른 것은 없습니까?

지금부터는 다른 종류, 즉, 과일에 속하는 것들의 이름을, 모두 말씀해 보세요
1분의 시간을 드리겠습니다, 1분 동안 생각나는 과일의 이름을, 모두 말씀해 보세요, 준비되셨습니까?
삐 소리가 나면 시작하세요
Step 8.숫자빼기 지금부터는 간단한 계산 문제입니다, 100에서 3을 빼면, 얼마입니까?
100에서 3을 빼면, 97입니다.

자, 그러면 거기서, 또 3을 빼주세요
97에서 3을 빼게 되니까, 답은 94입니다.
그렇게 계속해서 3을 빼시는 겁니다.

100에서 시작해서, 계속해서 3을 빼주세요, 준비되셨습니까?
삐 소리가 나면 시작하세요
Step 9.이야기하기(긍정적) 지금까지 살아 오면서, 가장 기뻤던 일은, 무엇이었습니까?
살아오면서 가장 기뻤던 일에 대해서, 1분동안 최대한 자세하게, 말씀해 주세요
삐 소리가 나면 시작하세요
Step 10.이야기하기(부정적) 지금까지 살아 오면서, 가장 슬펐던 일은, 무엇이었습니까? 살아오면서 가장 슬펐던 일에 대해서, 1분동안 최대한 자세하게, 말씀해 주세요
삐 소리가 나면 시작하세요
Step 11.이야기하기(삽화) 어제 하루 동안, 무슨 일이 있었습니까?
어제 하루 동안 있었던 일에 대해서, 1분 동안, 최대한 자세하게, 말씀해 주세요
삐 소리가 나면 시작하세요
단계(420)에서, 전자 장치(300)는 사용자 단말로부터 컨텐츠를 관찰하는 사용자의 리액션을 연속적으로 수신한다. 예를 들어, 전자 장치(300)는 사용자 단말의 마이크를 통해 획득된 컨텐츠에 대한 사용자의 음성을 수신할 수 있다.
복수의 컨텐츠들이 제작된 경우, 단계들(410 및 420)이 반복적으로 수행될 수 있다. 단계들(410 및 420)이 반복적으로 수행됨으로써 복수의 컨텐츠들에 대한 사용자 음성들이 수신된다. 예를 들어, 복수의 컨텐츠들은 사용자 음성을 수신하기 위한 제1 컨텐츠 내지 제11 컨텐츠를 포함할 수 있다. 제1 컨텐츠 내지 제11 컨텐츠에 대한 제1 음성 내지 제11 음성이 수신될 수 있다.
단계(430)에서, 전자 장치(300)는 수신된 리액션에 기초하여 바이오 마커 정보를 생성한다.
일 실시 예에 따르면, 전자 장치(300)는 수신된 음성의 적어도 하나의 특성을 시각화함으로써 음성에 대한 스펙트로그램(spectrogram) 이미지를 바이오 마커 정보로서 생성한다. 예를 들어, 전자 장치(300)는 리브로사 툴(librosa tool)을 통해 음성에 대한 스펙트로그램 이미지를 생성할 수 있다. 스펙트로그램 이미지는 멜(mel)-스펙트로그램 이미지일 수 있다.
예를 들어, 제1 음성 내지 제11 음성 각각에 대한 스펙트로그램 이미지들이 생성될 수 있다. 스펙트로그램 이미지에 대해 아래에서 도 6을 참조하여 상세히 설명된다.
단계(440)에서, 전자 장치(300)는 바이오 마커 정보에 기초하여 사용자의 치매 정도를 결정한다.
일 실시 예에 따르면, 전자 장치(300)는 바이오 마커 정보로서의 스펙트로그램 이미지들을 미리 설정된 치매 정도 분류 모델에 입력함으로써 사용자의 치매 정도를 결정할 수 있다. 예를 들어, 치매 정도 분류 모델은 신경망(neural network)에 기초하여 미리 훈련될 수 있다. 치매 정도 분류 모델에 기초하여 사용자의 치매 정도를 결정하는 방법에 대해, 아래에서 도 7 내지 도 12를 참조하여 상세히 설명된다.
단계(440)가 수행된 후, 전자 장치(300)는 사용자 단말을 통해 결정된 치매 정도를 출력할 수 있다.
도 5는 일 예에 따른 사용자의 음성을 수신하기 위해 미리 제작된 컨텐츠를 도시한다.
예를 들어, 사용자에게 제공되는 컨텐츠(500)는 출력되는 이미지들(520, 530, 540)의 명칭을 맞추는 컨텐츠일 수 있다. 컨텐츠(500)는 이미지들(520, 530, 540) 이외에 컨텐츠(500)에 대한 사용자의 음성을 위한 지시(510)를 포함할 수 있다. 지시(510)는 텍스트로 표시될 수 있고, 또는 음성으로도 출력될 수 있다. 사용자는 이미지들(520, 530, 540)의 명칭을 말함으로써 음성을 생성할 수 있다.
도 5를 참조하여 사용자의 음성을 수신하기 위한 컨텐츠의 예가 설명되었으나, 컨텐츠는 측정하고자 하는 사용자의 음성에 따라 다양하게 제작될 수 있다. 예를 들어, 컨텐츠는 100에서 3씩 뺀 값을 말하게 하는 컨텐츠, 출력된 소리를 다시 말하게 하는 컨텐츠, 또는 주어진 시간동안 "ㄴ"으로 시작하는 단어를 최대한 많이 말하게 하는 컨텐츠일 수 있다.
일 실시 예에 따르면, 미리 설정된 개수(예: 11개)의 컨텐츠들이 사용자 단말을 통해 사용자에게 순서적으로 제공될 수 있다. 사용자 단말은 컨텐츠들 각각에 대한 사용자의 음성을 녹음함으로써 복수의 음성 데이터 파일들을 생성할 수 있고, 생성된 복수의 음성 데이터 파일들을 전자 장치(300)로 전송할 수 있다.
도 6은 일 예에 따른 음성에 대해 생성된 원시 스펙트로그램 이미지를 도시한다.
일 측면에 따르면, 전자 장치(300)는 리브로사 툴을 통해 음성에 대한 원시 스펙트로그램 이미지(600)를 생성할 수 있다. 원시 스펙트로그램 이미지(600)의 가로 축은 시간 축이고, 세로 축은 주파수 축일 수 있다. 원시 스펙트로그램 이미지(600)는 시간 축과 주파수 축의 변화에 따라 진폭의 차이를 인쇄 농도/표시 색상의 차이로 나타낸다. 변화되는 진폭 차이의 크기에 기초하여 해당 위치의 표시 색상이 결정될 수 있다. 예를 들어, 진폭 차이의 크기에 대한 표시 색상의 범례(610)가 원시 스펙트로그램 이미지(600)와 함께 출력될 수 있다. 결정된 색상을 표시하기 위해 해당 좌표의 픽셀의 R, G, B 채널들의 값들이 결정될 수 있다.
일 실시 예에 따르면, 복수의 음성들에 각각에 대한 복수의 원시 스펙트로그램 이미지들에 기초하여 모델에 입력될 복수의 스펙트로그램 이미지들이 생성될 수 있다. 예를 들어, 제1 음성에 대해 제1 스펙트로그램 이미지가 생성되고, 제2 음성에 대해 제2 스펙트로그램 이미지가 생성될 수 있다. 개별 음성의 총 시간에 따라 원시 스펙트로그램 이미지들의 시간 축 및 주파수 축의 스케일이 서로 달라질 수 있으나, 최종적으로 생성되는 스펙트로그램 이미지들의 크기는 서로 동일할 수 있다.
일 실시 예에 따르면, 전자 장치(300)는 제1 컨텐츠에 대해 생성된 제1 원시 스펙트로그램 이미지를 제1 컨텐츠에 대해 미리 설정된 제1 시간 범위를 갖는 제1 조정 스펙트로그램 이미지로 변환할 수 있다. 예를 들어, 제1 컨텐츠에 대한 제1 시간 범위는 제1 컨텐츠에 대한 복수의 사용자들의 평균 응답 시간에 기초하여 미리 설정될 수 있다. 예를 들어, 제1 시간 범위는 평균 응답 시간 및 응답 시간들의 중앙 값(또는, 응답 시간들의 표준 편차)의 합일 수 있다.
일 실시 예에 따른, 제1 컨텐츠 내지 제4 컨텐츠에 대한 사용자들의 응답 시간에 대한 통계가 아래의 [표 2]에서 나타난다.
제1 컨텐츠 제2 컨텐츠 제3 컨텐츠 제4 컨텐츠
평균 응답 시간 6.423967571 6.517637474 7.738273502 10.29516905
표준 편차 값 9.641737921 9.008077433 9.55999683 10.85853336
중앙 값 4.120746667 4.47616 5.258986667 6.893226667
최대 값 60.78869333 60.74616889 60.76743111 59.97546667
최소 값 1.3056 1.314133333 1.258666667 1.32096
예를 들어, 상기의 [표 2]에 따라, 제1 컨텐츠에 대한 제1 시간 범위가 평균 응답 시간 및 중앙 값의 합으로 결정되는 경우, 그 합은 10.544714238(sec)이고, 10.544714238과 크게 차이가 나지 않는 9초가 제1 시간 범위로 결정될 수 있다.
예를 들어, 제1 컨텐츠에 대한 사용자의 제1 원시 스펙트로그램 이미지의 길이가 10초인 경우, 9초 이상인 구간을 잘라냄으로써 제1 조정 스펙트로그램 이미지가 생성될 수 있다. 다른 예로, 제1 컨텐츠에 대한 사용자의 제1 원시 스펙트로그램 이미지의 길이가 8초인 경우, 8초 이상부터 9초까지 침묵 구간을 부가함으로써 제1 조정 스펙트로그램 이미지가 생성될 수 있다.
일 실시 예에 따르면, 제1 컨텐츠 내지 제11 컨텐츠에 대한 제1 조정 스펙트로그램 이미지 내지 제11 스펙트로그램 이미지가 생성될 수 있다. 예를 들어, 제1 조정 스펙트로그램 이미지 내지 제11 조정 스펙트로그램 이미지의 각각은 서로 다른 시간 구간을 나타낼 수 있다. 제1 조정 스펙트로그램 이미지 내지 제11 조정 스펙트로그램 이미지 간에 차이가 크기 않은 이미지 상단의 일정 부분들이 제거될 수 있다. 일정 부분들이 제거된 제1 조정 스펙트로그램 이미지 내지 제11 조정 스펙트로그램 이미지에 기초하여, 이미지들 간에 서로 동일한 크기를 갖도록 제1 조정 스펙트로그램 이미지 내지 제11 조정 스펙트로그램 이미지가 이미지 처리될 수 있다. 이미지 처리된 조정 스펙트로그램 이미지는 스펙트로그램 이미지로 명명될 수 있다. 예를 들어, 제1 스펙트로그램 이미지의 크기 및 제2 스펙트로그램 이미지의 크기는 300x300으로 서로 동일할 수 있다. 예를 들어, 스펙트로그램 이미지의 크기는 픽셀 단위일 수 있다. 예를 들어, 픽셀의 값은 16비트로 표현될 수 있다.
도 5 및 도 6을 참조하여 사용자 음성을 수신하기 위한 컨텐츠의 예가 설명되었으나, 컨텐츠는 측정하고자 하는 사용자 음성에 따라 다양하게 제작될 수 있다. 예를 들어, 컨텐츠는 사진을 묘사하는 컨텐츠, 및 출력된 문장을 읽게 하는 컨텐츠를 포함할 수 있다.
도 7은 일 예에 따른 CNN 및 DNN을 이용하여 사용자의 치매 정도를 결정하는 방법의 흐름도이다.
일 측면에 따르면, 도 4를 참조하여 전술된 단계(440)는 아래의 단계들(710 내지 730)을 포함할 수 있다.
단계(710)에서, 전자 장치(300)는 스펙트로그램 이미지 스펙트로그램 이미지에 대응하는 미리 갱신된 콘볼루션 신경망(convolutional neural network: CNN)에 입력함으로써 컨텐츠에 대한 미리 설정된 개수의 특징들을 생성한다. 특징들을 생성하기 위해 사용되는 CNN은 컨텐츠에 따라 달라질 수 있다. 예를 들어, 컨텐츠가 11개인 경우, 11개의 컨텐츠들 각각에 대응하는 CNN들이 존재하고, 11개의 CNN들은 CNN 세트로 명명될 수 있다. 이하에서, 용어 "갱신"은 용어 "훈련"의 의미를 포함할 수 있고, 상호 교환적으로 사용될 수 있다.
일 측면에 따르면, CNN은 VGG16 모델에 기초하여 미리 갱신될 수 있다. CNN은 입력 레이어, 하나 이상의 전위 콘볼루션 레이어 블록들, 풀리 커넥티드 레이어(fully connected layer), 하나 이상의 후의 콘볼루션 레이어 블록들 및 소프트맥스(softmax)를 포함하는 완전한 CNN의 일부일 수 있다. 예를 들어, CNN은 입력 레이어, 전위 콘볼루션 레이어 블록들, 풀리 커넥티드 레이어 및 후의 콘볼루션 레이어 블록들을 포함하고, 소프트맥스를 포함하지 않을 수 있다. CNN이 소프트맥스를 포함하지 않음으로써 입력된 스펙트로그램 이미지에 대한 결과로서 치매 정도가 아닌, 치매 정도를 계산하기 위해 사용되는 미리 설정된 개수의 특징들이 출력될 수 있다. 완전한 CNN 및 부분 CNN에 대해 도 8을 참조하여 상세히 설명된다.
예를 들어, 전자 장치(300)는 제1 스펙트로그램 이미지를 미리 갱신된 제1 CNN에 입력함으로써 제1 컨텐츠에 대한 미리 설정된 개수의 제1 특징들을 생성하고, 제2 스펙트로그램 이미지를 미리 갱신된 제2 CNN에 입력함으로써 제2 컨텐츠에 대한 미리 설정된 개수의 제2 특징들을 생성할 수 있다. 구체적인 예로, 11개의 스펙트로그램 이미지들이 수신되고, 하나의 스펙트로그램 이미지에 대해 256개의 특징들이 생성되는 경우, 총 2816개의 특징들이 생성될 수 있다.
단계(720)에서, 전자 장치(300)는 복수의 컨텐츠들(또는, 대응하는 복수의 스펙트로그램 이미지들)에 대한 특징들 중 타겟 특징들을 결정한다. 결정된 타겟 특징들은 치매 정도를 결정하기 위한 마커들일 수 있다. 타겟 특징들로 결정되는 특징들은 마커로서 미리 결정될 수 있다. 마커는 아래에서 도 12 내지 도 16을 참조하여 설명되는 CNN을 갱신하는 단계 및 심층 신경망(deep neural network: DNN)을 갱신하는 단계를 통해 사전에 결정될 수 있다.
도 8은 일 예에 따른 사용자의 치매 정도를 결정할 수 있는 완전한 CNN 및 부분 CNN을 도시한다.
일 측면에 따른, 완전한 CNN(800)은 입력 레이어(810), 제1 콘볼루션 레이어 블록(820), 제2 콘볼루션 레이어 블록(830), 제3 콘볼루션 레이어 블록(840), 제4 콘볼루션 레이어 블록(850), 제5 콘볼루션 레이어 블록(860), 풀리 커넥티드 레이어(870), 제6 콘볼루션 레이어 블록(880), 제7 콘볼루션 레이어 블록(890) 및 소프트맥스(895)를 포함한다. 구분을 위하여, 풀리 커넥티드 레이어(870) 앞에 위치하는 제1 콘볼루션 레이어 블록(820), 제2 콘볼루션 레이어 블록(830), 제3 콘볼루션 레이어 블록(840), 제4 콘볼루션 레이어 블록(850) 및 제5 콘볼루션 레이어 블록(860)은 전위 콘볼루션 레이어 블록으로 명명되고, 풀리 커넥티드 레이어(870) 뒤에 위치하는 제6 콘볼루션 레이어 블록(880) 및 제7 콘볼루션 레이어 블록(890)은 후위 콘볼루션 레이어 블록으로 명명될 수 있다.
일 실시 예에 따르면, 콘볼루션 레이어 블록은 하나 이상의 콘볼루션 레이어들 및 풀링 레이어를 포함할 수 있다. 추가적으로, 제6 콘볼루션 레이어 블록(880) 및 제7 콘볼루션 레이어 블록(890) 각각은 드롭-아웃(drop-out) 레이어 블록을 더 포함할 수 있다.
완전한 CNN(800)은 아래에서 도 12를 참조하여 후술될 완전한 CNN 갱신 방법을 통해 갱신된 완전한 CNN일 수 있다. 컨텐츠 별로 상이한 완전한 CNN들이 미리 갱신될 수 있다.
부분 CNN(805)는 입력 레이어(810), 제1 콘볼루션 레이어 블록(820), 제2 콘볼루션 레이어 블록(830), 제3 콘볼루션 레이어 블록(840), 제4 콘볼루션 레이어 블록(850), 제5 콘볼루션 레이어 블록(860), 풀리 커넥티드 레이어(870), 제6 콘볼루션 레이어 블록(880) 및 제7 콘볼루션 레이어 블록(890) 만을 포함하고, 소프트맥스(895)를 포함하지 않을 수 있다. 즉, 부분 CNN(805)는 완전한 CNN(800)의 갱신이 종료된 후, 완전한 CNN(800)에서 소프트맥스(895)를 제거한 CNN일 수 있다. 예를 들어, 도 7을 참조하여 전술된 단계(710)에서 사용되는 CNN은 부분 CNN(805)일 수 있다.
부분 CNN(805)은 소프트 맥스(895)를 포함하지 않으므로 스펙트로그램 이미지에 대한 다양한 특징들을 출력할 수 있다.
도 9는 일 예에 따른 복수의 스펙트로그램 이미지들 각각에 대해 생성된 특징들 및 이에 기초하여 결정된 타겟 특징들을 도시한다.
일 측면에 따르면, 타겟 컨텐츠에 대응하는 타겟 CNN을 통해 타겟 음성에 대한 미리 결정된 개수의 특징들이 생성된다. 예를 들어, 미리 결정된 개수의 특징들은 256개일 수 있다. 복수의 컨텐츠들에 따른 복수의 스펙트로그램 이미지들의 개수가 n개인 경우, 생성되는 전체 특징들(900)의 개수는 256 x n개일 수 있다.
전체 특징들(900) 중 미리 설정된 개수의 타겟 특징들(910)이 결정된다. 결정된 타겟 특징들(910)은 치매 정도의 결정을 위해 미리 설정된 마커일 수 있다. 마커로서 타겟 특징들(910)을 미리 결정하는 방법에 대해, 아래에서 도 13의 단계(1310)를 참조하여 상세히 설명된다.
도 10은 일 예에 따른 사용자의 치매 정도를 결정하는 DNN을 도시한다.
일 측면에 따르면, 사용자의 치매 정도를 결정하는 DNN은 입력 레이어(1010), 하나 이상의 히든 레이어들(1020, 1030, 1040) 및 출력 레이어(1050)를 포함할 수 있다. 예를 들어, DNN은 도 13을 참조하여 후술될 DNN을 갱신하는 방법을 통해 갱신된 DNN일 수 있다.
DNN은 타겟 특징들(910)의 입력에 대해 출력으로서 사용자의 치매 정도를 출력할 수 있다. DNN은 미리 설정된 복수의 치매 정도들 중 어느 하나를 출력할 수 있다. 예를 들어, 미리 설정된 복수의 치매 정도들은 결정된 정상, 경도인지장애(MCI) 및 알츠하이머병(AD)을 포함할 수 있다.
도 11은 일 예에 따른 치매 정도의 결정의 정확도를 높이기 위해 수행되는 2 단계의 분류들을 도시한다.
하나의 모델을 통해 복수의 치매 정도들 중 어느 하나를 결정하는 방법 보다는, 복수의 모델들을 통해 단계적으로 치매 정도를 결정하는 방법이 치매 정도의 결정의 정확도를 높일 수 있다.
예를 들어, 하나의 모델을 통해 정상, 경도인지장애(MCI) 및 알츠하이머병(AD) 중 어느 하나를 결정하는 방법 보다는, 분류 1단계에서 정상 또는 비정상(경도인지장애(MCI) 및 알츠하이머병(AD))을 결정하고, 분류 2단계에서 경도인지장애(MCI) 또는 알츠하이머병(AD)을 결정할 수 있다.
상기의 방법을 사용하기 위해서는, 분류 1단계에서 사용되는 제1 CNN 세트 및 제1 DNN과, 분류 2단계에서 사용되는 제2 CNN 세트 및 제2 DNN이 각각 미리 준비된다.
예를 들어, 분류 1단계를 위해 도 4를 참조하여 전술된 단계들(410 내지 440)이 수행되고, 분류 1단계를 통해 사용자의 치매 정도가 비정상으로 결정된 경우, 분류 2단계를 위해 단계(440)가 수행될 수 있다. 분류 1단계를 통해 사용자의 치매 정도가 정상으로 결정된 경우, 분류 2단계는 수행되지 않을 수 있다. 분류 1단계를 위해 사용되는 제1 CNN 세트 및 제1 DNN과 분류 2단계를 위해 사용되는 제2 CNN 세트 및 제2 DNN는 각각 서로 상이하다.
도 12는 다른 일 예에 따른 치매 정도의 결정의 정확도를 높이기 위해 수행되는 동작들을 도시한다.
하나의 모델을 통해 복수의 치매 정도들 중 어느 하나를 결정하는 방법 보다는, 복수의 모델들을 통해 치매 정도를 결정하는 방법이 치매 정도의 결정의 정확도를 높일 수 있다.
일 실시 예에 따르면, 하나의 모델을 통해 정상, 경도인지장애(MCI) 및 알츠하이머병(AD) 중 어느 하나를 결정하는 방법 보다는, 서로 다른 분류 목적으로 훈련된 복수의 모델들을 이용하여 정상, 경도인지장애(MCI) 및 알츠하이머병(AD) 각각에 대한 확률을 계산하고, 계산된 확률들에 기초하여 치매 정도를 결정하는 방법이 이용될 수 있다.
동작 1210에서, 복수의 모델들을 이용하여 사용자에 대한 정상, 경도인지장애(MCI) 및 알츠하이머병(AD) 각각에 대한 부분 확률들이 계산될 수 있다. 예를 들어, 11개의 스펙트로그램 이미지들에 대해 256개의 특징들이 생성되는 경우, 총 2816개의 특징들이 생성될 수 있고, 2816개의 특징들이 복수의 모델들 각각으로 입력될 수 있다. 예를 들어, 복수의 모델들은 정상 및 경도인지장애(MCI)&알츠하이머병(AD)를 분류하기 위한 제1 모델, 정상 및 알츠하이머병(AD)를 분류하기 위한 제2 모델, 정상 및 경도인지장애(MCI)를 분류하기 위한 제3 모델, 및 경도인지장애(MCI) 및 알츠하이머병(AD)를 분류하기 위한 제4 모델을 포함할 수 있다.
제1 모델을 통해 부분 확률들로서 제1 정상 확률(PSCI1) 및 제1 경도인지장애(MCI) 확률(PMCI1)이 계산될 수 있다. 제1 알츠하이머병(AD) 확률(PAD1)은 제1 경도인지장애(MCI) 확률(PMCI1)과 동일할 수 있다. 제2 모델을 통해 부분 확률들로서 제2 정상 확률(PSCI2) 및 제2 알츠하이머병(AD) 확률(PAD2)이 계산될 수 있다. 제3 모델을 통해 부분 확률들로서 제3 정상 확률(PSCI3) 및 제2 경도인지장애(MCI) 확률(PMCI2)이 계산될 수 있다. 제4 모델을 통해 부분 확률들로서 제3 경도인지장애(MCI) 확률(PMCI3) 및 제3 알츠하이머병(AD) 확률(PAD3)이 계산될 수 있다.
상기의 방법을 사용하기 위해서는, 제1 모델에서 사용되는 제1 CNN 세트 및 제1 DNN, 제2 모델에서 사용되는 제2 CNN 세트 및 제2 DNN, 제3 모델에서 사용되는 제3 CNN 세트 및 제3 DNN, 제4 모델에서 사용되는 제4 CNN 세트 및 제4 DNN이 미리 준비된다.
동작 1220에서, 복수의 모델들을 통해 계산된 부분 확률들에 기초하여 정상에 대한 제1 확률, 경도인지장애(MCI)에 대한 제2 확률, 및 알츠하이머병(AD)에 대한 제3 확률이 결정될 수 있다.
예를 들어, 제1 정상 확률(PSCI1), 제2 정상 확률(PSCI2) 및 제3 정상 확률(PSCI3)의 합이 정상에 대한 제1 확률로 계산될 수 있다. 제1 경도인지장애(MCI) 확률(PMCI1), 제2 경도인지장애(MCI) 확률(PMCI2) 및 제3 경도인지장애(MCI) 확률(PMCI3)의 합이 경도인지장애(MCI)에 대한 제2 확률로 결정될 수 있다. 제1 알츠하이머병(AD) 확률(PAD1), 제2 알츠하이머병(AD) 확률(PAD2) 및 제3 알츠하이머병(AD) 확률(PAD3)의 합이 알츠하이머병(AD)에 대한 제3 확률로 결정될 수 있다.
동작 1230에서, 제1 확률, 제2 확률, 및 제3 확률 중 가장 큰 값에 대응하는 분류가 사용자의 치매 정도로 결정될 수 있다. 예를 들어, 제1 확률, 제2 확률, 및 제3 확률 중 제2 확률이 가장 큰 경우, 사용자의 치매 정도는 경도인지장애(MCI)로 결정될 수 있다.
일 실시 예에 따라, 도 12를 참조한 설명에서는 사용자의 치매 정도를 결정하기 위해 4개의 모델들이 이용되는 것으로 설명되었으나, 치매 정도를 결정하기 위해 이용되는 모델들의 개수는 개시된 실시예로 한정되지 않는다. 예를 들어, 치매 정도를 결정하기 위해, 2 이상의 모델들이 이용될 수 있다.
도 13은 일 예에 따른 완전한 CNN을 갱신하는 방법의 흐름도이다.
일 측면에 따르면, 도 4를 참조하여 전술된 단계(410)가 수행되기 전에 아래의 단계(1300)가 선행적으로 수행된다. 단계(1300)는 완전한 CNN을 갱신하기 위한 방법에 관한 것으로서, 아래의 단계들(1310 내지 1350)을 포함할 수 있다.
단계(1310)에서, 전자 장치(300)는 테스트 사용자에게 사용자의 치매 정도를 결정하기 위해 미리 제작된 컨텐츠를 출력한다. 예를 들어, 전자 장치(300)는 테스트 사용자의 사용자 단말을 통해 컨텐츠를 출력할 수 있다.
테스트 사용자는 의사의 전문 진단을 통해 치매 정도가 결정된 사람일 수 있다. 예를 들어, 테스트 사용자는 정상이거나, 경도인지장애(MCI)이거나 또는 알츠하이머병(AD)일 수 있다.
단계(1320)에서, 전자 장치(300)는 사용자 단말의 마이크를 통해 컨텐츠에 대한 테스트 사용자의 테스트 음성을 수신한다. 복수의 컨텐츠들이 제공된 경우, 복수의 테스트 음성들이 수신될 수 있다.
단계(1330)에서, 전자 장치(300)는 수신된 테스트 음성의 적어도 하나의 특성을 시각화함으로써 테스트 음성에 대한 테스트 스펙트로그램 이미지를 생성한다. 테스트 스펙트로그램 이미지에는 테스트 사용자의 GT 치매 정도가 라벨링될 수 있다.
단계(1340)에서, 전자 장치(300)는 테스트 스펙트로그램 이미지를 완전한 CNN에 입력함으로써 테스트 사용자에 대한 테스트 치매 정도를 결정한다. 완전한 CNN이 소프트맥스를 포함하고 있으므로, 완전한 CNN은 테스트 치매 정도를 결정할 수 있다. 예를 들어, 결정된 테스트 치매 정도는 정상, 경도인지장애(MCI) 및 알츠하이머병(AD)을 포함할 수 있다.
일 실시 예에 따르면, 제1 컨텐츠에 대응하는 제1 완전한 CNN은 제1 테스트 스펙트로그램 이미지만을 기초하여 테스트 사용자의 테스트 치매 정도를 결정하고, 제n 컨텐츠에 대응하는 제n 완전한 CNN은 제n 테스트 스펙트로그램 이미지만을 기초하여 테스트 사용자의 치매 정도를 결정할 수 있다.
단계(1350)에서, 전자 장치(300)는 테스트 치매 정도 및 GT 치매 정도에 기초하여 완전한 CNN을 갱신한다. 예를 들어, 테스트 치매 정도 및 GT 치매 정도에 차이가 있는 경우, 완전한 CNN을 갱신하기 위해 상기의 차이를 에러 값으로 하는 역-전파(back-propagation)가 수행될 수 있다. 완전한 CNN을 갱신하는 방법은 지도 학습(supervised learning)일 수 있다.
도 8의 일 실시예에서, 완전한 CNN(800)이 입력 레이어(810), 제1 콘볼루션 레이어 블록(820), 제2 콘볼루션 레이어 블록(830), 제3 콘볼루션 레이어 블록(840), 제4 콘볼루션 레이어 블록(850), 제5 콘볼루션 레이어 블록(860), 풀리 커넥티드 레이어(870), 제6 콘볼루션 레이어 블록(880), 제7 콘볼루션 레이어 블록(890) 및 소프트맥스(895)를 포함하는 경우, 제5 콘볼루션 레이어 블록(860)만이 갱신되고, 나머지 레이어들은 갱신되지 않을 수 있다.
일 실시 예에 따르면, 많은 수의 테스트 사용자들을 통해 완전한 CNN이 반복적으로 갱신될 수 있고, 갱신된 완전한 CNN의 출력 정확도가 미리 설정된 임계 값 이상이 되는 경우 완전한 CNN의 갱신이 종료될 수 있다.
일 측면에 따르면, 도 11 및 도 12를 참조하여 전술된 방법과 같이 복수의 모델들을 통해 단계적으로 치매 정도를 결정하는 경우, 각 분류 단계에서 사용되는 제1 완전한 CNN 세트 및 제2 완전한 CNN 세트가 각 분류 단계에 맞도록 개별적으로 갱신될 수 있다. 예를 들어, 제1 완전한 CNN 세트는 정상 또는 비정상(경도인지장애(MCI) 및 알츠하이머병(AD))을 결정하도록 갱신되고, 제2 완전한 CNN 세트는 경도인지장애(MCI) 또는 알츠하이머병(AD)을 결정하도록 갱신될 수 있다.
단계(710)에서 사용되는 CNN은 완전한 CNN의 갱신이 완료된 후, 완전한 CNN에서 소프트맥스(예: 소프트맥스(895))를 제거한 신경망일 수 있다. 즉, 단계(510)에서 사용되는 CNN은 해당 스펙트로그램 이미지의 특징 추출기로서 사용될 수 있다.
도 14는 일 예에 따른 DNN을 갱신하는 방법의 흐름도이다.
일 실시 예에 따르면, 아래의 단계(1400)는 DNN을 갱신하기 위한 방법에 관한 것으로서, 도 13을 참조하여 전술된 단계(1300)가 수행된 후, 및 도 4를 참조하여 전술된 단계(410)가 수행되기 전에 선행적으로 수행될 수 있다. 예를 들어, 완전한 CNN(또는 CNN)의 갱신이 완료된 후, 단계(1400)가 수행될 수 있다.
단계(1400)는, 아래의 단계들(1410 내지 1440)을 포함할 수 있다.
단계(1410)에서, 전자 장치(300)는 제1 테스트 스펙트로그램 이미지에 기초하여 제1 CNN에 의해 생성된 미리 설정된 개수의 제1 테스트 특징들 및 제2 테스트 스펙트로그램 이미지에 기초하여 제2 CNN에 의해 생성된 미리 설정된 개수의 제2 테스트 특징들 중 미리 설정된 개수의 테스트 타겟 특징들을 결정한다. 제1 테스트 특징들 및 제2 테스트 특징들만이 기재되었으나, 예를 들어 n개의 컨텐츠들에 대한 n 개의 테스트 스펙트로그램 이미지들이 생성된 경우, 테스트 타겟 특징들은 제1 테스트 특징들 내지 제n 테스트 특징들 중에서 결정될 수 있다. 테스트 타겟 특징들은 치매 정도를 결정하기 위해 이용되는 마커일 수 있다. 테스트 타겟 특징들을 결정하는 방법에 대해, 아래에서 도 15 및 16을 참조하여 상세히 설명된다.
테스트 타겟 특징들에는 테스트 사용자의 GT 치매 정도가 라벨링될 수 있다.
단계(1420)에서, 전자 장치(300)는 결정된 테스트 타겟 특징들을 검증할 수 있다. 예를 들어, K-폴드 교차 검증 방법을 통해 테스트 타겟 특징들이 검증될 수 있다.테스트 타겟 특징들을 검증하는 방법에 대해, 아래에서 도 17 및 18을 참조하여 상세히 설명된다. 실시 예에 따라, 결정된 테스트 타겟 특징들이 검증될 필요가 없는 경우에는, 단계(1420)가 수행되지 않을 수 있다.
테스트 타겟 특징들이 검증된 경우(또는, 검증될 필요가 없는 경우) 단계(1430)가 수행될 수 있다. 일 예에 따르면, 테스트 타겟 특징들이 검증될 필요가 있으나, 검증되지 않은 경우에는 CNN의 재갱신이 필요한 것으로 간주되어, 단계(1300)가 재수행될 수 있다.
단계(1430)에서, 전자 장치(300)는 테스트 타겟 특징들을 DNN에 입력함으로써 테스트 사용자의 테스트 치매 정도를 결정한다. 단계(1340)에서 결정되는 테스트 치매 정도와 구분하기 위해, 단계(1340)의 테스트 치매 정도는 제1 테스트 치매 정도로 명명되고, 단계(1430)의 테스트 치매 정도는 제2 테스트 치매 정도로 명명된다. 단계(1430)가 처음 수행되는 경우, 사용되는 DNN은 초기 DNN 또는 기본 DNN일 수 있다.
단계(1440)에서, 전자 장치(300)는 제2 테스트 치매 정도 및 GT 치매 정도에 기초하여 DNN을 갱신한다. 예를 들어, 제2 테스트 치매 정도 및 GT 치매 정도에 차이가 있는 경우, DNN을 갱신하기 위해 상기의 차이를 에러 값으로 하는 역-전파가 수행될 수 있다. DNN을 갱신하는 방법은 지도 학습일 수 있다.
일 실시 예에 따르면, 많은 수의 테스트 사용자들을 통해 DNN이 반복적으로 갱신될 수 있고, 갱신된 DNN의 출력 정확도가 미리 설정된 임계 값 이상이 되는 경우 DNN의 갱신이 종료될 수 있다.
일 실시 예에 따르면, 도 11 및 도 12를 참조하여 전술된 방법과 같이 복수의 모델들을 통해 단계적으로 치매 정도를 결정하는 경우, 각 분류 단계에서 사용되는 제1 DNN 및 제2 DNN이 각 분류 단계에 맞도록 개별적으로 갱신될 수 있다. 예를 들어, 제1 DNN는 정상 또는 비정상(경도인지장애(MCI) 및 알츠하이머병(AD))을 결정하도록 갱신되고, 제2 DNN은 경도인지장애(MCI) 또는 알츠하이머병(AD)을 결정하도록 갱신될 수 있다.
도 15는 일 예에 따른 테스트 타겟 특징들을 결정하는 방법의 흐름도이다.
일 측면에 따르면, 도 14를 참조하여 전술된 단계(1410)은 아래의 단계들(1510 내지 1550)을 포함할 수 있다.
단계(1510)에서, 제1 테스트 특징들 및 제2 테스트 특징들을 포함하는 전체의 테스트 특징들이 복수의 서브 특징들의 세트들로 나눠진다. 예를 들어, 전체의 테스트 특징들이 2816개인 경우, 서브 특징들의 세트가 각각 200개의 테스트 특징들을 포함하도록 생성될 수 있고, 제15 서브 특징들의 세트는 16개의 테스트 특징들을 포함할 수 있다. 전체의 테스트 특징들 각각은 인덱스 번호를 가질 수 있고, 제1 서브 특징들 세트는 1번 테스트 특징 내지 200번 테스트 특징을 포함한다.
단계(1520)에서, 복수의 서브 특징들의 세트들(15개) 중 일부가 선별된다. 예를 들어, 제1 서브 특징들 세트 내지 제15 서브 특징들 세트 중 5개의 세트가 선택될 수 있다. 선택된 5개의 서브 특징들 세트들은 총 1000개의 테스트 특징들을 포함한다. 일부의 서브 특징들의 세트들을 선별하는 방법에 대해, 아래에서 도 16을 참조하여 상세히 설명된다.
단계(1530)에서, 선별된 서브 특징들(예를 들어, 1000개)이 복수의 서브 특징들의 세트들로 나눠진다. 예를 들어, 선별된 특징들이 1000개인 경우, 서브 특징들의 세트들(50개)이 각각 20개의 테스트 특징들을 포함하도록 생성될 수 있다.
단계(1540)에서, 복수의 서브 특징들의 세트들(50개) 중 일부가 선별된다. 예를 들어, 제1 서브 특징들 세트 내지 제50 서브 특징들 세트 중 10개의 세트가 선택될 수 있다. 선택된 10개의 서브 특징들 세트들은 총 200개의 테스트 특징들을 포함한다. 단계(1540)에 대한 상세한 설명은 단계(1520)에 대한 아래의 도 15의 설명이 유사하게 적용될 수 있다.
단계(1550)에서, 선별된 서브 특징들 세트들에 포함된 테스트 특징들이 테스트 타겟 특징들로 결정된다. 결정된 테스트 타겟 특징들 각각의 인덱스가 식별될 수 있다.
결정된 테스트 타겟 특징들은 사용자의 치매 정도를 결정하기 위한 마커로 사용될 수 있다. 예를 들어, 제1 특징들 중 4번째 특징, 46번째 특징 및 89번째 특징, 및 제2 특징들 중 78번째 특징 및 157번째 특징이 테스트 타겟 특징들로 결정된 경우, 도 7을 참조하여 전술된 단계(720)에서 결정된 타겟 특징들도 제1 특징들 중 4번째 특징, 46번째 특징 및 89번째 특징, 및 제2 특징들 중 78번째 특징 및 157번째 특징을 포함한다.
도 15를 참조하여 설명된 실시예에 나타나는 구체적인 숫자는 일 예에 관한 것이며, 실제의 구현에 따라 구체적인 숫자는 변화될 수 있다.
도 16은 일 예에 따른 서브 특징들을 선별하는 방법의 흐름도이다.
일 측면에 따르면, 도 15를 참조하여 전술된 단계(1520)는 아래의 단계들(1610 내지 1640)을 포함할 수 있다.
테스트 타겟 특징들을 결정하기 위해서는 많은 수의 사용자들에 대한 데이터가 요구된다. 아래에서는, 사용자들 1000명에 대한 데이터를 예시로하여, 테스트 타겟 특징들을 결정하는 과정을 설명한다. 사용자들 1000명에 대한 데이터에는 정답 값이 함께 설정되어 있다.
예를 들어, 1000명의 사용자들이 600명의 훈련 데이터 사용자, 200명의 인증 데이터 사용자 및 200명의 테스트 데이터 사용자로 분류될 수 있다. 600명 각각에 대해 제1 스펙트로그램 이미지 내지 제11 스펙트로그램 이미지들에 대한, 2816개의 특징들이 생성될 수 있고, 특정 인덱스들(예를 들어, 1 내지 200)을 갖는 제1 서브 특징들 세트가 600개 생성될 수 있다. 예를 들어, 훈련 데이터를 위한 제1 서브 특징들 세트 내지 제15 서브 특징들 세트들이 600개 생성된다. 유사하게, 인증 데이터를 위한 제1 서브 특징들 세트 내지 제15 서브 특징들 세트들이 200개 생성되고, 테스트 데이터를 위한 제1 서브 특징들 세트 내지 제15 서브 특징들 세트들이 200개 생성된다.
다른 예로, 테스트 타겟 특징들이 검증될 필요가 없는 경우에는, 1000명의 사용자들이 800명의 훈련 데이터 사용자 및 200명의 테스트 데이터 사용자로 분류될 수 있다. 800명 각각에 대해 제1 스펙트로그램 이미지 내지 제11 스펙트로그램 이미지들에 대한, 2816개의 특징들이 생성될 수 있고, 특정 인덱스들(예를 들어, 1 내지 200)을 갖는 제1 서브 특징들 세트가 800개 생성될 수 있다. 예를 들어, 훈련 데이터를 위한 제1 서브 특징들 세트 내지 제15 서브 특징들 세트들이 800개 생성된다. 유사하게, 테스트 데이터를 위한 제1 서브 특징들 세트 내지 제15 서브 특징들 세트들이 200개 생성된다.
단계(1610)에서, 훈련 데이터의 600개의 제1 서브 특징들 세트들(제1 훈련 데이터) 및 인증 데이터의 200개의 제1 서브 특징들 세트들(제1 인증 데이터)에 기초하여 초기 DNN에 대한 1회의 에폭(epoch)이 수행된다. 테스트 타겟 특징들이 검증될 필요가 없는 경우에는 훈련 데이터의 800개의 제1 서브 특징들 세트들에 기초하여 초기 DNN에 대한 1회의 에폭(epoch)이 수행될 수 있다. 600개(또는, 800개)의 제1 서브 특징들 세트들에 기초하여 DNN 내의 노드의 엣지 또는 파라미터의 가중치가 조정된다. 가중치가 조정된 DNN을 통해 입력 제1 인증 데이터에 대한 결과가 출력된다. 출력된 결과는 200개일 수 있다. 관리자는 출력된 결과 200개를 참조하여 학습을 위해 수행되는 미리 설정된 에폭의 횟수를 조정할 수 있다.
단계(1620)에서, DNN에 대해 미리 설정된 횟수의 에폭이 수행된다. 예를 들어, 30회의 에폭이 수행될 수 있다. 미리 설정된 횟수의 에폭이 수행된 경우, 1회의 학습(또는 훈련)이 완료된 것으로 간주된다.
단계(1630)에서, 테스트 데이터의 200개의 제1 서브 특징들 세트들(제1 테스트 데이터)에 기초하여 제1 학습 정확도가 계산될 수 있다. 예를 들어, 제1 테스트 데이터를 학습된 DNN에 입력하고, 200개의 결과들에 대한 정확도가 제1 학습 정확도로서 계산될 수 있다.
단계들(1610 내지 1630)을 미리 설정된 횟수 반복함으로써 추가의 학습 정확도들이 계산될 수 있다. 단계(1610)에 제공되는 초기 DNN들은 각각 다르기 때문에 DNN 학습의 결과도 달라질 수 있고, 이에 따라, 복수회의 학습들에 대한 학습 정확도들이 달라진다. 단계들(1610 내지 1630)을 10회 반복하는 경우, 제1 학습 정확도 내지 제10 학습 정확도들이 계산될 수 있다.
단계(1640)에서, 제1 훈련 데이터에 대한 제1 평균 학습 정확도가 계산된다. 예를 들어, 제1 학습 정확도 내지 제10 학습 정확도들에 대한 평균이 제1 평균 학습 정확도로 계산될 수 있다.
예를 들어, 단계들(1610 내지 1640)이 인덱스 1 내지 200의 특징들을 포함하는 제1 서브 특징들 세트에 대해 수행되는 경우, 제1 서브 특징들 세트에 대한 제1 평균 학습 정확도가 계산될 수 있다.
다른 예로, 단계들(1610 내지 1640)이 인덱스 201 내지 400의 특징들을 포함하는 제2 서브 특징들 세트에 대해 수행되는 경우, 제2 서브 특징들 세트에 대한 제2 평균 학습 정확도가 계산될 수 있다.
예를 들어, 15개의 서브 특징들 세트들 각각에 대한 제1 평균 학습 정확도 내지 제15 평균 학습 정확도들이 계산될 수 있다. 15개의 평균 학습 정확도들 중 상위 5개의 서브 특징들 세트들이 선별될 수 있다.
다른 예로, 15개의 서브 특징들 세트들을 미리 설정된 개수들의 그룹들로 분류하고, 해당 그룹에 대한 그룹 평균 학습 정확도가 계산될 수 있다. 그룹 평균 학습 정확도에 기초하여 복수의 그룹들 중 일부의 그룹들이 선택됨으로써 선택된 그룹들 내의 서브 특징들 세트들이 선별될 수 있다.
5개의 서브 특징들 세트들이 선택된 경우, 1000개의 인덱스들이 선택된다. 서브 특징들 세트 별로 선별되므로 스펙트로그램 이미지에 기초하여 CNN에 의해 생성된 특징들 사이의 지리적 특성이 자동적으로 고려될 수 있다.
단계들(1610 내지 1640)에 대한 설명은 단계(1540)에 대한 상세한 설명으로서 유사하게 적용될 수 있다.
도 17은 일 예에 따른 테스트 타겟 특징들을 검증하는 방법의 흐름도이다.
일 측면에 따르면, 도 14를 참조하여 전술된 단계(1420)는 아래의 단계들(1710 및 1730)을 포함할 수 있다.
단계(1710)에서, 전자 장치(300)는 테스트 타겟 특징들의 세트들을 K개의 그룹들로 나눈다. 테스트 사용자들 각각에 대해 결정된 테스트 타겟 특징들이 하나의 세트로 정의된다. 예를 들어, 테스트 사용자들이 1000명인 경우, 1000개의 테스트 타겟 특징들의 세트들이 존재하고, 1000개의 세트들이 K개의 그룹들로 나뉠 수 있다. K는 2 이상의 자연수이다. K가 5인 경우, 200개의 세트들을 각각 포함하는 5개의 그룹들이 생성될 수 있다.
단계(1720)에서, 전자 장치(300)는 K개의 그룹들에 기초하여 초기 DNN들을 각각 갱신함으로써 K개의 테스트 DNN들을 생성한다. 제1 내지 제5 그룹들이 생성된 경우, 제1 테스트 DNN이 제2 내지 제5 그룹들을 사용하여 갱신되고, 제2 테스트 DNN이 제1, 제3 내지 제5 그룹들을 사용하여 갱신되고, 제3 테스트 DNN이 제1, 제2, 제4 및 제5 그룹들을 사용하여 갱신되고, 제4 테스트 DNN이 제1 내지 제3, 및 제5 그룹들을 사용하여 갱신되고, 제5 테스트 DNN이 제1 내지 제4 그룹들을 사용하여 갱신될 수 있다.
단계(1730)에서, 전자 장치(300)는 K개의 테스트 DNN들의 정확도에 기초하여 테스트 타겟 특징들을 검증한다. 상기의 실시예에서, 제1 테스트 DNN에 제1 그룹을 입력함으로써 제1 그룹에 대한 결과를 출력하고, 출력된 결과의 제1 정확도를 계산할 수 있다. 유사하게, 제2 내지 제4 테스트 DNN들에 각각에 대한 제2 내지 제4 정확도들을 계산할 수 있다.
계산된 제1 내지 제5 정확도들의 평균 값이 미리 설정된 임계 값 이상인 경우, 테스트 타겟 특징들이 검증된 것으로 결정될 수 있다. 계산된 제1 내지 제5 정확도들의 평균 값이 미리 설정된 임계 값 미만인 경우, 테스트 타겟 특징들이 검증되지 않은 것으로 결정될 수 있다. 테스트 타겟 특징들이 검증되지 않은 경우, 테스트 특징들을 추출하는 CNN이 재갱신될 수 있다.
도 18은 일 예에 따른 타겟 특징들을 검증하기 위한 K-폴드 교차 검증 방법을 도시한다.
일 예에 따르면, 테스트 타겟 특징들의 세트들(1810)이 제1 그룹(1801), 제2 그룹(1802), 제3 그룹(1803), 제4 그룹(1804), 및 제5 그룹(1805)로 나뉠 수 있다. 테스트 타겟 특징들의 세트들(1810)이 1000개의 세트들을 포함하는 경우, 그룹들(1801 내지 1805)의 각각은 200개의 세트들을 포함한다. 각각의 세트는 특정 테스트 사용자에 대한 테스트 타겟 특징들을 포함한다.
제1 테스트 DNN(1820)는 제2 내지 제5 그룹들(1802 내지 1805)을 사용하여 갱신될 수 있다. 예를 들어, 제1 테스트 DNN(1820)는 800개의 세트들에 기초하여 800회 갱신될 수 있다.
갱신된 제1 테스트 DNN(1820)는 제1 그룹(1801)을 입력으로 하여 제1 그룹(1801)에 대한 테스트 사용자들의 치매 정도를 결정할 수 있다. 예를 들어, 제1 테스트 DNN(1820)는 200개의 세트들에 대한 200개의 제2 테스트 치매 정도를 결정할 수 있다.
제1 그룹(1801)의 200개의 세트들 각각의 GT 치매 정도들과 200개의 제2 테스트 치매 정도들에 기초하여 제1 테스트 DNN(1820)의 정확도가 계산될 수 있다. 유사하게, 제2 내지 제4 테스트 DNN들의 정확도들이 계산될 수 있다. 최종적으로, 제1 내지 제5 테스트 DNN들의 정확도들의 평균에 기초하여 테스트 타겟 특징들이 검증될 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (15)

  1. 전자 장치에 의해 수행되는, 사용자의 치매 정도를 결정하는 방법은,
    사용자 단말을 통해 사용자의 치매 정도를 결정하기 위해 미리 제작된 제1 컨텐츠를 출력하는 단계;
    상기 사용자 단말의 마이크를 통해 획득된 상기 제1 컨텐츠에 대한 상기 사용자의 제1 음성을 수신하는 단계;
    상기 사용자 단말을 통해 미리 제작된 제2 컨텐츠를 출력하는 단계;
    상기 마이크를 통해 획득된 상기 제2 컨텐츠에 대한 상기 사용자의 제2 음성을 수신하는 단계;
    상기 제1 음성의 적어도 하나의 특성을 시각화함으로써 제1 스펙트로그램(spectrogram) 이미지를 생성하는 단계;
    상기 제2 음성의 적어도 하나의 특성을 시각화함으로써 제2 스펙트로그램 이미지를 생성하는 단계;
    서로 다른 분류 목적으로 미리 훈련된 복수의 모델들에 상기 제1 스펙트로그램 이미지 및 상기 제2 스펙트로그램 이미지를 입력함으로써 제1 상태, 제2 상태 및 제3 상태 각각에 대한 부분 확률들을 계산하는 단계 - 상기 복수의 모델들은 상기 제1 상태 및 상기 제2 상태를 분류하기 위한 제1 모델, 상기 제2 상태 및 상기 제3 상태를 분류하기 위한 제2 모델, 및 상기 제1 상태 및 상기 제3 상태를 분류하기 위한 제3 모델을 포함함 -;
    상기 복수의 모델들을 통해 계산된 상기 제1 상태에 대한 부분 확률들, 상기 제2 상태에 대한 부분 확률들 및 상기 제3 상태에 대한 부분 확률들에 기초하여 상기 제1 상태에 대한 확률, 상기 제2 상태에 대한 확률, 및 상기 제3 상태에 대한 확률을 결정하는 단계; 및
    상기 제1 상태에 대한 확률, 상기 제2 상태에 대한 확률, 및 상기 제3 상태에 대한 확률 중 가장 큰 값을 갖는 상태를 상기 사용자의 치매 정도로 결정하는 단계
    를 포함하고,
    상기 복수의 모델들에 상기 제1 스펙트로그램 이미지 및 상기 제2 스펙트로그램 이미지를 입력함으로써 제1 상태, 제2 상태 및 제3 상태 각각에 대한 부분 확률들을 계산하는 단계는,
    상기 제1 스펙트로그램 이미지를 상기 복수의 모델들 중 제1 모델의 미리 갱신된 제1 콘볼루션 신경망(convolutional neural network: CNN)에 입력함으로써 상기 제1 음성에 대한 미리 설정된 개수의 제1 특징들을 생성하는 단계 - 상기 제1 CNN은 입력 레이어, 5개의 전위 콘볼루션 레이어 블록들, 풀리 커넥티드 레이어(fully connected layer), 및 상기 풀리 커넥티드 레이어와 연결되는 2개의 후위 콘볼루션 레이어 블록들을 포함하고, 상기 2개의 후위 콘볼루션 레이어 블록들에 의해 상기 제1 스펙트로그램 이미지에 대한 상기 제1 특징들이 생성됨 -;
    상기 제2 스펙트로그램 이미지를 미리 갱신된 제2 CNN에 입력함으로써 상기 제2 음성에 대한 미리 설정된 개수의 제2 특징들을 생성하는 단계;
    상기 제1 특징들 및 상기 제2 특징들 중 미리 설정된 개수의 타겟 특징들을 결정하는 단계; 및
    상기 타겟 특징들을 상기 복수의 모델들 중 제1 모델의 미리 갱신된 심층 신경망(deep neural network: DNN)에 입력함으로써 상기 제1 상태에 대한 부분 확률 및 상기 제2 상태에 대한 부분 확률을 계산하는 단계
    를 포함하고,
    상기 결정된 치매 정도가 상기 사용자 단말을 통해 출력되는,
    치매 정도 결정 방법.
  2. 제1항에 있어서,
    상기 제1 컨텐츠는 상기 제1 음성을 수신하기 위한 지시(instruction)를 포함하는,
    치매 정도 결정 방법.
  3. 제2항에 있어서,
    상기 제1 컨텐츠는 사용자가 문장을 따라 말하도록 하는 컨텐츠, 출력되는 이미지의 명칭을 맞추는 컨텐츠, 출력되는 이미지를 설명하는 컨텐츠, 및 언어의 유창성을 위한 컨텐츠, 숫자 연산을 위한 컨텐츠, 이야기 말하기(story telling)를 유도하는 컨텐츠 중 하나인,
    치매 정도 결정 방법.
  4. 제1항에 있어서,
    상기 제1 음성의 적어도 하나의 특성을 시각화함으로써 제1 스펙트로그램 이미지를 생성하는 단계는,
    리브로사 툴(librosa tool)을 통해 상기 제1 음성에 대한 상기 제1 스펙트로그램 이미지를 생성하는 단계
    를 포함하는,
    치매 정도 결정 방법.
  5. 제1항에 있어서,
    상기 제1 스펙트로그램 이미지의 크기 및 상기 제2 스펙트로그램 이미지의 크기는 서로 동일한,
    치매 정도 결정 방법.
  6. 제1항에 있어서,
    상기 제1 CNN은 VGG16 모델에 기초하여 미리 갱신된,
    치매 정도 결정 방법.
  7. 제1항에 있어서,
    상기 제1 CNN은 소프트맥스(softmax)를 포함하지 않는,
    치매 정도 결정 방법.
  8. 제1항에 있어서,
    상기 제1 CNN을 갱신하는 단계
    를 더 포함하는,
    치매 정도 결정 방법.
  9. 제8항에 있어서,
    상기 제1 CNN을 갱신하는 단계는,
    상기 제1 컨텐츠에 대한 테스트 사용자의 제1 테스트 음성을 수신하는 단계;
    상기 제1 테스트 음성의 적어도 하나의 특성을 시각화함으로써 제1 테스트 스펙트로그램 이미지를 생성하는 단계 - 상기 제1 테스트 스펙트로그램 이미지에는 상기 테스트 사용자의 GT(ground truth) 치매 정도가 라벨링됨 -;
    상기 제1 테스트 스펙트로그램 이미지를 완전한 제1 CNN에 입력함으로써 상기 테스트 사용자에 대한 제1 테스트 치매 정도를 결정하는 단계 - 상기 완전한 제1 CNN은 입력 레이어, 하나 이상의 전위 콘볼루션 레이어 블록들, 풀리 커넥티드 레이어, 하나 이상의 후위 콘볼루션 레이어 블록들 및 소프트맥스를 포함함 -; 및
    상기 제1 테스트 치매 정도 및 상기 GT 치매 정도에 기초하여 상기 완전한 제1 CNN을 갱신하는 단계
    를 포함하고,
    상기 제1 CNN은 상기 갱신된 완전한 제1 CNN의 레이어들 중 상기 입력 레이어, 상기 하나 이상의 전위 콘볼루션 레이어 블록들, 상기 풀리 커넥티드 레이어 및 상기 하나 이상의 후위 콘볼루션 레이어 블록들만을 포함하는,
    치매 정도 결정 방법.
  10. 제9항에 있어서,
    상기 제1 CNN 및 상기 제2 CNN을 포함하는 복수의 CNN들의 갱신이 완료된 후, 상기 DNN을 갱신하는 단계
    를 더 포함하는,
    치매 정도 결정 방법.
  11. 제10항에 있어서,
    상기 DNN을 갱신하는 단계는,
    제1 테스트 스펙트로그램 이미지에 기초하여 생성된 미리 설정된 개수의 제1 테스트 특징들 및 제2 테스트 스펙트로그램 이미지에 기초하여 생성된 미리 설정된 개수의 제2 테스트 특징들 중 미리 설정된 개수의 테스트 타겟 특징들을 결정하는 단계 - 상기 테스트 타겟 특징들에는 상기 테스트 사용자의 GT 치매 정도가 라벨링됨 -;
    상기 테스트 타겟 특징들을 상기 DNN에 입력함으로써 상기 테스트 사용자의 제2 테스트 치매 정도를 결정하는 단계; 및
    상기 제2 테스트 치매 정도 및 상기 GT 치매 정도에 기초하여 상기 DNN을 갱신하는 단계
    를 포함하는,
    치매 정도 결정 방법.
  12. 제1항 내지 제11항 중 어느 한 항의 방법을 수행하는 프로그램을 수록한 컴퓨터 판독 가능 기록 매체.
  13. 사용자의 치매 정도를 결정하는 전자 장치는,
    사용자의 치매 정도를 결정하는 프로그램이 기록된 메모리; 및
    상기 프로그램을 수행하는 프로세서
    를 포함하고,
    상기 프로그램은,
    사용자 단말을 통해 사용자의 치매 정도를 결정하기 위해 미리 제작된 제1 컨텐츠를 출력하는 단계;
    상기 사용자 단말의 마이크를 통해 획득된 상기 제1 컨텐츠에 대한 상기 사용자의 제1 음성을 수신하는 단계;
    상기 사용자 단말을 통해 미리 제작된 제2 컨텐츠를 출력하는 단계;
    상기 마이크를 통해 획득된 상기 제2 컨텐츠에 대한 상기 사용자의 제2 음성을 수신하는 단계;
    상기 제1 음성의 적어도 하나의 특성을 시각화함으로써 제1 스펙트로그램(spectrogram) 이미지를 생성하는 단계;
    상기 제2 음성의 적어도 하나의 특성을 시각화함으로써 제2 스펙트로그램 이미지를 생성하는 단계;
    서로 다른 분류 목적으로 미리 훈련된 복수의 모델들에 상기 제1 스펙트로그램 이미지 및 상기 제2 스펙트로그램 이미지를 입력함으로써 제1 상태, 제2 상태 및 제3 상태 각각에 대한 부분 확률들을 계산하는 단계 - 상기 복수의 모델들은 상기 제1 상태 및 상기 제2 상태를 분류하기 위한 제1 모델, 상기 제2 상태 및 상기 제3 상태를 분류하기 위한 제2 모델, 및 상기 제1 상태 및 상기 제3 상태를 분류하기 위한 제3 모델을 포함함 -;
    상기 복수의 모델들을 통해 계산된 상기 제1 상태에 대한 부분 확률들, 상기 제2 상태에 대한 부분 확률들 및 상기 제3 상태에 대한 부분 확률들에 기초하여 상기 제1 상태에 대한 확률, 상기 제2 상태에 대한 확률, 및 상기 제3 상태에 대한 확률을 결정하는 단계; 및
    상기 제1 상태에 대한 확률, 상기 제2 상태에 대한 확률, 및 상기 제3 상태에 대한 확률 중 가장 큰 값을 갖는 상태를 상기 사용자의 치매 정도로 결정하는 단계
    를 수행하고,
    상기 복수의 모델들에 상기 제1 스펙트로그램 이미지 및 상기 제2 스펙트로그램 이미지를 입력함으로써 제1 상태, 제2 상태 및 제3 상태 각각에 대한 부분 확률들을 계산하는 단계는,
    상기 제1 스펙트로그램 이미지를 상기 복수의 모델들 중 제1 모델의 미리 갱신된 제1 콘볼루션 신경망(convolutional neural network: CNN)에 입력함으로써 상기 제1 음성에 대한 미리 설정된 개수의 제1 특징들을 생성하는 단계 - 상기 제1 CNN은 입력 레이어, 5개의 전위 콘볼루션 레이어 블록들, 풀리 커넥티드 레이어(fully connected layer), 및 상기 풀리 커넥티드 레이어와 연결되는 2개의 후위 콘볼루션 레이어 블록들을 포함하고, 상기 2개의 후위 콘볼루션 레이어 블록들에 의해 상기 제1 스펙트로그램 이미지에 대한 상기 제1 특징들이 생성됨 -;
    상기 제2 스펙트로그램 이미지를 미리 갱신된 제2 CNN에 입력함으로써 상기 제2 음성에 대한 미리 설정된 개수의 제2 특징들을 생성하는 단계;
    상기 제1 특징들 및 상기 제2 특징들 중 미리 설정된 개수의 타겟 특징들을 결정하는 단계; 및
    상기 타겟 특징들을 상기 복수의 모델들 중 제1 모델의 미리 갱신된 심층 신경망(deep neural network: DNN)에 입력함으로써 상기 제1 상태에 대한 부분 확률 및 상기 제2 상태에 대한 부분 확률을 계산하는 단계
    를 포함하고,
    상기 결정된 치매 정도가 상기 사용자 단말을 통해 출력되는,
    전자 장치.
  14. 삭제
  15. 삭제
KR1020220076878A 2021-09-09 2022-06-23 사용자의 치매 정도 결정 방법 및 장치 KR102526429B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW111134144A TWI811097B (zh) 2021-09-09 2022-09-08 用於確定用戶癡呆程度的方法及裝置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210120112 2021-09-09
KR1020210120112 2021-09-09

Publications (2)

Publication Number Publication Date
KR20230037433A KR20230037433A (ko) 2023-03-16
KR102526429B1 true KR102526429B1 (ko) 2023-04-27

Family

ID=85985397

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020220076813A KR20230037432A (ko) 2021-09-09 2022-06-23 사용자의 치매 정도 결정 방법 및 장치
KR1020220076878A KR102526429B1 (ko) 2021-09-09 2022-06-23 사용자의 치매 정도 결정 방법 및 장치

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020220076813A KR20230037432A (ko) 2021-09-09 2022-06-23 사용자의 치매 정도 결정 방법 및 장치

Country Status (2)

Country Link
KR (2) KR20230037432A (ko)
TW (1) TWI811097B (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102274072B1 (ko) * 2020-09-04 2021-07-08 김형준 사용자의 치매 정도 결정 방법 및 장치

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI644283B (zh) * 2017-03-01 2018-12-11 譚旦旭 知能障礙的治療方法與系統
JP6727473B1 (ja) * 2018-10-12 2020-07-22 大日本住友製薬株式会社 関心健康領域の健康度と予防的介入行動のそれぞれとの関連性を評価する方法、装置、及びプログラム
CN109754822A (zh) * 2019-01-22 2019-05-14 平安科技(深圳)有限公司 建立阿兹海默症检测模型的方法和装置
JPWO2021132284A1 (ko) * 2019-12-24 2021-07-01
CN111738302B (zh) * 2020-05-28 2023-06-20 华南理工大学 一种基于多模态数据对阿尔茨海默病进行分类诊断的系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102274072B1 (ko) * 2020-09-04 2021-07-08 김형준 사용자의 치매 정도 결정 방법 및 장치

Also Published As

Publication number Publication date
KR20230037433A (ko) 2023-03-16
TWI811097B (zh) 2023-08-01
TW202312186A (zh) 2023-03-16
KR20230037432A (ko) 2023-03-16

Similar Documents

Publication Publication Date Title
US10896763B2 (en) System and method for providing model-based treatment recommendation via individual-specific machine learning models
US11514091B2 (en) Extracting entity relations from semi-structured information
JP2020522817A (ja) 意味分析方法、装置、および記憶媒体
CN111316281A (zh) 基于机器学习的自然语言情境中数值数据的语义分类
KR102274072B1 (ko) 사용자의 치매 정도 결정 방법 및 장치
CN113519001A (zh) 利用语言模型生成常识解释
US11276495B2 (en) Systems and methods for predicting multiple health care outcomes
US20160217129A1 (en) Method and Apparatus for Determining Semantic Matching Degree
CN112802575B (zh) 基于图形状态机的用药决策支持方法、装置、设备、介质
US11557380B2 (en) Recurrent neural network to decode trial criteria
US11120912B2 (en) Cognitive systems for generating prospective medical treatment guidance
WO2020057052A1 (en) Machine-aided dialog system and medical condition inquiry apparatus and method
EP3726435A1 (en) Deep neural network training method and apparatus, and computer device
CN114912887B (zh) 一种基于电子病历的临床数据录入方法及录入装置
CN109147927B (zh) 一种人机交互方法、装置、设备及介质
JP2020071516A (ja) 情報処理装置、情報処理方法、及びプログラム
KR102526429B1 (ko) 사용자의 치매 정도 결정 방법 및 장치
CN115659987B (zh) 基于双通道的多模态命名实体识别方法、装置以及设备
CN111581929A (zh) 基于表格的文本生成方法及相关装置
WO2023084254A1 (en) Diagnosic method and system
TWM614191U (zh) 用於預測癌症之計算裝置
US20240145057A1 (en) Systems and methods for training multi-armed bandit models
US20220328156A1 (en) Method, apparatus, device and medium for medication decision support based on graphics state machine
CN114449701B (zh) 基于病历信息的灯光类型调控方法、装置及电子设备
WO2023228276A1 (ja) 画像処理装置、方法およびプログラム

Legal Events

Date Code Title Description
AMND Amendment
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant