WO2022050719A1 - 사용자의 치매 정도 결정 방법 및 장치 - Google Patents

사용자의 치매 정도 결정 방법 및 장치 Download PDF

Info

Publication number
WO2022050719A1
WO2022050719A1 PCT/KR2021/011848 KR2021011848W WO2022050719A1 WO 2022050719 A1 WO2022050719 A1 WO 2022050719A1 KR 2021011848 W KR2021011848 W KR 2021011848W WO 2022050719 A1 WO2022050719 A1 WO 2022050719A1
Authority
WO
WIPO (PCT)
Prior art keywords
test
dementia
user
cnn
degree
Prior art date
Application number
PCT/KR2021/011848
Other languages
English (en)
French (fr)
Inventor
김형준
Original Assignee
주식회사 에이블테라퓨틱스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에이블테라퓨틱스 filed Critical 주식회사 에이블테라퓨틱스
Priority to CN202180054806.7A priority Critical patent/CN116113356A/zh
Priority to US17/608,592 priority patent/US20230210440A1/en
Publication of WO2022050719A1 publication Critical patent/WO2022050719A1/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/40Detecting, measuring or recording for evaluating the nervous system
    • A61B5/4076Diagnosing or monitoring particular conditions of the nervous system
    • A61B5/4088Diagnosing of monitoring cognitive diseases, e.g. Alzheimer, prion diseases or dementia
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/168Evaluating attention deficit, hyperactivity
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/68Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient
    • A61B5/6887Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient mounted on external non-worn devices, e.g. non-medical devices
    • A61B5/6898Portable consumer electronic devices, e.g. music players, telephones, tablet computers
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/74Details of notification to user or communication with user or patient ; user input means
    • A61B5/742Details of notification to user or communication with user or patient ; user input means using visual displays
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/67ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for remote operation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Definitions

  • the technical field relates to a technology for determining the degree of dementia of a user, and more particularly, to an apparatus and method for determining the degree of dementia of a user based on a user's voice.
  • Dementia is one of the most serious diseases of old age along with the aging of society. In addition, it is a disease that causes great pain not only for the patient's own life, but also for the family who cares for it, such as disappearance and suicide, because the patient cannot live independently. Dementia can prevent or delay further cognitive decline with early diagnosis and appropriate treatment, but the existing early diagnosis of this disease has problems.
  • An embodiment may provide an apparatus and method for determining a user's dementia level.
  • An embodiment may provide an apparatus and method for determining the degree of dementia of a user based on the user's voice.
  • a method for determining a user's dementia level includes outputting a first content prepared in advance to determine the user's dementia level through a user terminal, the user terminal's microphone receiving the user's first voice for the first content obtained through Receiving a second voice of a user, generating a first spectrogram image by visualizing at least one characteristic of the first voice, Visualizing at least one characteristic of the second voice to generate a second spectrogram generating a gram image; generating a preset number of first features for the first speech by inputting the first spectrogram image to a pre-updated first convolutional neural network (CNN); generating a preset number of second features for the second voice by inputting the second spectrogram image to a previously updated second CNN; a preset number of the first features and the second features Determining target characteristics, and determining the degree of dementia of the user by inputting the target characteristics to a previously updated deep neural network (DNN), wherein the determined degree of dementia
  • the first content may include an instruction for receiving the first voice.
  • the first content includes content that allows the user to speak according to a sentence, content that matches the name of the output image, content that describes the output image, and content for language fluency, content for number operation, and story telling (story) It may be one of the contents that induces telling).
  • the generating of the first spectrogram image by visualizing at least one characteristic of the first voice includes generating the first spectrogram image of the first voice through a librosa tool. can do.
  • a size of the first spectrogram image and a size of the second spectrogram image may be the same.
  • the first CNN may be updated in advance based on the VGG16 model.
  • the first CNN includes an input layer and 5 convolutional layer blocks, and includes no fully connected layer and no softmax, so that the first feature of the first spectrogram image is can create
  • the method of determining the degree of dementia may further include updating the first CNN.
  • the updating of the first CNN may include receiving a first test voice of a test user for the first content, and generating a first test spectrogram image by visualizing at least one characteristic of the first test voice.
  • the first test spectrogram image is labeled with the degree of GT (ground truth) dementia of the test user -
  • First test dementia for the test user by inputting the first test spectrogram image into a complete first CNN determining a degree, wherein the complete first CNN includes an input layer, one or more convolutional layers blocks, a fully connected layer and a softmax, and based on the first test degree of dementia and the GT degree of dementia to update the complete first CNN, wherein the first CNN may include only the input layer and the one or more convolutional layer blocks among the updated complete first CNN layers.
  • the method for determining the degree of dementia may further include updating the DNN after updating of the plurality of CNNs including the first CNN and the second CNN is completed.
  • the updating of the DNN may include: among a preset number of first test features generated based on a first test spectrogram image and a preset number of second test features generated based on a second test spectrogram image determining a preset number of test target features - wherein the test target features are labeled with the test user's degree of dementia - and inputting the test target features into the DNN to determine the test user's second test dementia degree determining, and updating the DNN based on the second test dementia level and the GT dementia level.
  • the updating of the DNN further includes verifying the test target features through a K-fold cross-validation method, wherein K is a natural number greater than or equal to 2, and if the test target features are not verified, the first 1 CNN and the second CNN may be re-updated.
  • Validating the test target features via the K-fold cross-validation method includes dividing sets of test target features into the K groups, respectively updating K initial DNNs based on the K groups. generating K test DNNs, and verifying the test target characteristics based on accuracy of the K test DNNs.
  • an electronic device for determining the degree of dementia of a user includes a memory in which a program for determining the degree of dementia of the user is recorded, and a processor for executing the program, wherein the program is performed by the user through a user terminal outputting pre-produced first content to determine the degree of dementia of the user, receiving the user's first voice for the first content obtained through a microphone of the user terminal, in advance through the user terminal
  • a first spectrogram (generating a spectrogram image, generating a second spectrogram image by visualizing at least one characteristic of the second voice, and renewing the first spectrogram image in advance with a first convolutional neural network: generating a preset number of first features for the first voice by inputting to a CNN); generating two features, determining a preset number of target features among the first features and the second features, and inputting the target features into a pre-updated deep neural network (DNN).
  • DNN deep neural network
  • a method of updating a convolutional neural network (CNN) used to determine a user's dementia level determines the user's dementia level through a user terminal outputting a pre-produced first content to perform a first test spectrogram image by visualizing at least one characteristic of the first test voice of the test user for the first content generating - the first test spectrogram image is labeled with the GT (ground truth) dementia degree of the test user -
  • the test dementia degree for the test user determining, the complete CNN comprising an input layer, one or more convolutional layer blocks, a fully connected layer and a softmax, and updating the complete CNN based on the test dementia degree and the GT dementia degree and the CNN includes only the input layer and the one or more convolutional layer blocks among the layers of the updated complete CNN.
  • an electronic device for updating a convolutional neural network (CNN) used to determine a user's dementia degree includes a memory in which a program for updating the CNN is recorded, and the program executes outputting a pre-produced first content to determine the degree of dementia of the user through the user terminal, the program receiving a first test voice of the test user for the first content generating a first test spectrogram image by visualizing at least one characteristic of the first test voice, wherein the first test spectrogram image is labeled with a degree of ground truth (GT) dementia of the test user; determining the degree of test dementia for the test user by inputting a first test spectrogram image into a complete CNN, the complete CNN comprising an input layer, one or more convolutional layer blocks, a fully connected layer and a softmax - and updating the complete CNN based on the test dementia degree and the GT dementia degree, wherein the CNN includes only the input layer and the one or more convolutional layer blocks among the layers of the updated complete CNN.
  • the CNN includes only the input layer
  • An apparatus and method for determining a user's degree of dementia may be provided.
  • An apparatus and method for determining the degree of dementia of a user based on the user's voice may be provided.
  • FIG. 1 is a block diagram of a system for determining a user's dementia level according to an example.
  • FIG. 2 illustrates images output to a user terminal to determine a user's dementia level according to an example.
  • FIG. 3 is a block diagram of an electronic device for determining a user's dementia level according to an exemplary embodiment.
  • FIG. 4 is a flowchart of a method for determining a user's dementia level according to an embodiment.
  • FIG 5 illustrates pre-produced content according to an example.
  • FIG 6 illustrates pre-produced content according to another example.
  • FIG. 7 illustrates a spectrogram image generated for a voice according to an example.
  • FIG. 8 shows a complete CNN and a partial CNN capable of determining the degree of dementia of a user according to an example.
  • FIG. 9 illustrates characteristics generated for each of a plurality of voices and target characteristics determined based thereon according to an example.
  • FIG. 10 illustrates a DNN for determining a user's dementia level according to an example.
  • 11 illustrates two-step classifications performed to increase the accuracy of determining the degree of dementia according to an example.
  • FIG. 12 is a flowchart of a method for updating a complete CNN according to an example.
  • FIG. 13 is a flowchart of a method of updating a DNN according to an example.
  • FIG. 14 is a flow diagram of a method of determining test target characteristics according to an example.
  • 15 is a flowchart of a method of selecting sub-features according to an example.
  • 16 is a flowchart of a method of verifying test target characteristics according to an example.
  • 17 illustrates a K-fold cross-validation method for verifying target features according to an example.
  • FIG. 1 is a block diagram of a system for determining a user's dementia level according to an example.
  • a system for determining a user's dementia level may include an electronic device 110 for determining the user's dementia level, a user terminal 120 for outputting content, and a monitoring terminal 130 for a medical institution.
  • the electronic device 110 may be a server.
  • the electronic device 110 may provide pre-made content to the user terminal 120 to determine the degree of dementia of the user.
  • the content may be content for acquiring a voice from a user. The content will be described in detail below with reference to FIGS. 5 and 6 .
  • the user terminal 120 may be connected to the electronic device 110 offline or online to communicate with each other.
  • the electronic device 110 provides content to the user terminal 120 , and the user terminal 120 outputs the content to the user through a display.
  • the user terminal 120 may acquire the user's voice as a reaction to the content through the microphone, and transmit the acquired voice to the electronic device 110 .
  • the electronic device 110 may determine the degree of dementia of the user based on the acquired user's voice, and transmit the determined degree of dementia to the user terminal 120 .
  • the user terminal 120 may be a mobile terminal such as a tablet or a smart phone.
  • the user terminal 120 is a mobile terminal, the user is not restricted by time and place, and the degree of dementia can be measured at a low cost.
  • the electronic device 110 may transmit the user's voice and the degree of dementia to the monitoring terminal 130 .
  • the user of the monitoring terminal 130 may be a doctor, and the doctor may adjust the content of content provided to the user based on the transmitted information.
  • FIG. 2 illustrates images output to a user terminal to determine a user's dementia level according to an example.
  • the images 210 to 240 below may be images of an application for determining the degree of dementia.
  • the user of the electronic device 110 may create and distribute an application, and the user may execute the application through the user terminal 120 .
  • the first image 210 is a start screen of the application.
  • the second image 220 indicates functions supported by the application.
  • the third image 230 is an example of content provided to a user. A plurality of contents may be provided to the user.
  • the fourth image 240 indicates the determined degree of dementia of the user. For example, normal, mild cognitive impairment (MCI) or Alzheimer's disease (AD) determined as the user's dementia degree may be output. In addition to the attention level for individual diseases, a comprehensive judgment may be output together.
  • MCI mild cognitive impairment
  • AD Alzheimer's disease
  • FIG. 3 is a block diagram of an electronic device for determining a user's dementia level according to an exemplary embodiment.
  • the electronic device 300 includes a communication unit 310 , a processor 320 , and a memory 330 .
  • the electronic device 300 may be the electronic device 110 described above with reference to FIG. 1 .
  • the communication unit 310 is connected to the processor 320 and the memory 330 to transmit and receive data.
  • the communication unit 310 may be connected to another external device to transmit/receive data.
  • the expression “transmitting and receiving "A” may indicate transmitting and receiving "information or data representing A”.
  • the communication unit 310 may be implemented as circuitry in the electronic device 300 .
  • the communication unit 310 may include an internal bus and an external bus.
  • the communication unit 310 may be an element that connects the electronic device 300 and an external device.
  • the communication unit 310 may be an interface.
  • the communication unit 310 may receive data from an external device and transmit the data to the processor 320 and the memory 330 .
  • the processor 320 processes data received by the communication unit 310 and data stored in the memory 330 .
  • a “processor” may be a data processing device implemented in hardware having circuitry having a physical structure for performing desired operations.
  • desired operations may include code or instructions included in a program.
  • a data processing device implemented as hardware includes a microprocessor, a central processing unit, a processor core, a multi-core processor, and a multiprocessor. , an Application-Specific Integrated Circuit (ASIC), and a Field Programmable Gate Array (FPGA).
  • ASIC Application-Specific Integrated Circuit
  • FPGA Field Programmable Gate Array
  • Processor 320 executes computer readable code (eg, software) stored in memory (eg, memory 330 ) and instructions issued by processor 320 .
  • computer readable code eg, software
  • the memory 330 stores data received by the communication unit 310 and data processed by the processor 320 .
  • the memory 330 may store a program (or an application, software).
  • the stored program may be a set of syntaxes that are coded to determine the degree of dementia of the user and are executable by the processor 320 .
  • memory 330 may include one or more of volatile memory, non-volatile memory and random access memory (RAM), flash memory, hard disk drive, and optical disk drive.
  • RAM random access memory
  • the memory 330 stores an instruction set (eg, software) for operating the electronic device 300 .
  • the instruction set for operating the electronic device 300 is executed by the processor 320 .
  • the communication unit 310 the processor 320 , and the memory 330 will be described in detail below with reference to FIGS. 4 to 17 .
  • FIG. 4 is a flowchart of a method for determining a user's dementia level according to an embodiment.
  • the following steps 410 to 450 are performed by the electronic device 300 described above with reference to FIG. 3 .
  • the electronic device 300 outputs pre-produced content to determine the degree of dementia of the user through the user terminal (eg, the user terminal 120 ).
  • the content is output to the user terminal, and the user performs a reaction on the content.
  • the user terminal may generate a voice as the reaction by using a microphone.
  • the generated voice may be in the form of a data file.
  • a plurality of contents may be provided to a user, and a voice for each of the plurality of contents may be generated.
  • a plurality of contents according to an example is described using [Table 1] below.
  • Step 1 follow the text From now on, please listen carefully to the sentences I say and follow them. After each sentence, you hear a beep, start In the yard, roses bloomed Step 2.
  • Step 2. follow the text Again, please listen carefully to the sentences I say and follow them. After each sentence, you hear a beep, start Yesterday, it rained, I was at home Step 3.
  • Step 4. Waiting for name Next, you will say the name of the animal shown. When you hear a beep, say the names of the animals shown in turn. Step 5.
  • Step 6.Language fluency (phoneme type) Next, say words that start with the letters presented For example, if you show the letter giyeok, please say as many words that start with giyeok as possible. Say words like bag, cat, noodles Are there any other words that start with giyeok? From now on, say other letters, that is, words that start with nieun I'll give you a minute. Say words that start with nieun, as many as you can, are you ready?
  • the electronic device 300 receives the user's voice for the content obtained through the microphone of the user terminal.
  • a plurality of voices may be received.
  • steps 410 and 420 may be repeatedly performed. As steps 410 and 420 are repeatedly performed, voices for each of a plurality of contents are received. For example, when the plurality of contents include first to eleventh contents, first to eleventh voices corresponding to the first to eleventh contents are received.
  • the electronic device 300 generates a spectrogram image of the voice by visualizing at least one characteristic of the received voice.
  • the electronic device 300 may generate a spectrogram image of a voice through a librosa tool.
  • the spectrogram image may be a mel-spectrogram image.
  • first to eleventh spectrogram images for each of the first to eleventh voices may be generated.
  • the spectrogram image is described in detail below with reference to FIG. 7 .
  • the electronic device 300 generates a preset number of features of the voice by inputting the spectrogram image to a pre-updated convolutional neural network (CNN) corresponding to the spectrogram image.
  • the CNN used to generate the features may vary depending on the content. For example, when there are 11 contents, there are CNNs corresponding to each of the 11 contents, and the 11 CNNs may be called a CNN set.
  • the term “renewal” may include the meaning of the term “training” and may be used interchangeably.
  • the CNN may be updated in advance based on the VGG16 model.
  • a CNN may be part of a complete CNN that includes an input layer, blocks of one or more convolutional layers, a fully connected layer and a softmax.
  • a CNN may include an input layer and blocks of one or more convolutional layers, but not a fully connected layer and softmax. Since the CNN does not include the fully connected layer and the softmax, a preset number of features used to calculate the dementia degree, not the dementia degree, may be output as a result of the input spectrogram image.
  • Full CNN and partial CNN are described in detail with reference to FIG. 8 .
  • the electronic device 300 generates a preset number of first features of the first voice by inputting the first spectrogram image to the previously updated first CNN, and converts the second spectrogram image to the previously updated A preset number of second features for the second voice may be generated by input to the second CNN.
  • a preset number of second features for the second voice may be generated by input to the second CNN.
  • a total of 50688 features may be generated.
  • the electronic device 300 determines target characteristics among characteristics of the plurality of voices.
  • the determined target characteristics may be markers for diagnosing dementia. As a specific example, 10 features out of a total of 50688 features may be determined. Features determined as target features may be predetermined as markers.
  • the marker may be determined in advance through the steps of updating a CNN and updating a deep neural network (DNN), which will be described below with reference to FIGS. 12 to 16 .
  • DNN deep neural network
  • the electronic device 300 determines the user's dementia level by inputting target characteristics into the previously updated DNN.
  • the determined degree of dementia may be normal or abnormal.
  • Abnormalities may include mild cognitive impairment (MCI) or Alzheimer's disease (AD).
  • MCI mild cognitive impairment
  • AD Alzheimer's disease
  • two stages of classification may be performed.
  • the two-step classification performed to increase the accuracy of the determination of the degree of dementia will be described.
  • step 470 the electronic device 300 outputs the dementia degree determined through the user terminal.
  • FIG 5 illustrates pre-produced content according to an example.
  • the content 500 provided to the user may be content matching the names of the output images 520 , 530 , and 540 .
  • the content 500 may include an instruction 510 for a user's voice for the content 500 in addition to the images 520 , 530 , and 540 .
  • the instruction 510 may be displayed in text or may be outputted by voice. The user can create a voice by saying the names of the images 520 , 530 , 540 .
  • FIG 6 illustrates pre-produced content according to another example.
  • the content 600 provided to the user may be content describing the output image 620 .
  • the content 600 may include an instruction 610 for a user's voice for the content 600 in addition to the image 620 .
  • the instruction 610 may be displayed in text or may be outputted by voice.
  • a user may generate a voice by describing or depicting a situation in image 620 .
  • FIG. 7 illustrates a spectrogram image generated for a voice according to an example.
  • the electronic device 300 may generate the spectrogram image 700 for the voice through the Librosa tool.
  • a horizontal axis of the spectrogram image 700 may be a time axis, and a vertical axis may be a frequency axis.
  • the spectrogram image 700 represents a difference in amplitude according to a change in a time axis and a frequency axis as a difference in print density/display color.
  • a display color of the corresponding position may be determined based on the magnitude of the changed amplitude difference.
  • a legend 710 of a display color with respect to the magnitude of the amplitude difference may be output together with the spectrogram image 700 .
  • values of R, G, and B channels of the pixel of the corresponding coordinate may be determined.
  • a plurality of spectrogram images for each of the plurality of voices may be generated.
  • a first spectrogram image may be generated for the first voice and a second spectrogram image may be generated for the second voice.
  • the scale of the time axis and the frequency axis of the spectrogram image may vary according to the total time of individual voices, but the sizes of the generated spectrogram images may be the same.
  • the size of the first spectrogram image and the size of the second spectrogram image may be the same as 100x100.
  • FIG. 8 shows a complete CNN and a partial CNN capable of determining the degree of dementia of a user according to an example.
  • a complete CNN 800 includes an input layer 810 , a first convolutional layer block 820 , a second convolutional layer block 830 , a third convolutional layer block 840 , and a fourth convolutional layer block 840 . It includes a convolutional layer block 850 , a fifth convolutional layer block 860 , a fully connected layer 870 , and a softmax 880 .
  • the convolutional layer block may include one or more convolutional layers and a pooling layer.
  • the complete CNN 800 may be a complete CNN updated through a complete CNN update method to be described later with reference to FIG. 12 below.
  • Complete CNNs different for each content may be updated in advance.
  • the partial CNN 805 includes an input layer 810 , a first convolutional layer block 820 , a second convolutional layer block 830 , a third convolutional layer block 840 , and a fourth convolutional layer block 850 . ), may include only the fifth convolutional layer block 860 , and may not include the fully connected layer 870 and the softmax 880 . That is, the partial CNN 805 may be a CNN in which the fully connected layer 870 and the softmax 880 are removed from the complete CNN 800 after the update of the complete CNN 800 is finished.
  • the CNN used in step 440 described above with reference to FIG. 3 may be a partial CNN 805 .
  • the partial CNN 805 does not include the fully connected layer 870, various features of the spectrogram image may be output.
  • FIG. 9 illustrates characteristics generated for each of a plurality of voices and target characteristics determined based thereon according to an example.
  • a predetermined number of features for a target voice are generated through a target CNN corresponding to the target voice.
  • the predetermined number of features may be 4608.
  • the total number of generated features 900 may be 4608 x n.
  • a preset number of target features 910 among all features 900 are determined.
  • the determined target features 910 may be preset markers for determining the degree of dementia.
  • a method of pre-determining target features 910 as markers is described in detail below with reference to step 1310 of FIG. 13 .
  • FIG. 10 illustrates a DNN for determining a user's dementia level according to an example.
  • the DNN for determining the degree of dementia of a user may include an input layer 1010 , one or more hidden layers 1020 , 1030 , 1040 , and an output layer 1050 .
  • the DNN may be an updated DNN through a method of updating a DNN, which will be described later with reference to FIG. 13 .
  • the DNN may output the dementia degree of the user as an output for the input of the target features 910 .
  • the DNN may output any one of a plurality of preset dementia degrees.
  • the preset plurality of dementia degrees may include determined normal, mild cognitive impairment (MCI), and Alzheimer's disease (AD).
  • 11 illustrates two-step classifications performed to increase the accuracy of determining the degree of dementia according to an example.
  • a method of determining the dementia level stepwise through a plurality of models may increase the accuracy of determining the dementia level.
  • MCI normal cognitive impairment
  • AD Alzheimer's disease
  • MCI mild cognitive impairment
  • AD Alzheimer's disease
  • the first CNN set and the first DNN used in the classification step 1 and the second CNN set and the second DNN used in the classification step 2 are prepared in advance, respectively.
  • steps 410 to 460 are performed for the first stage of classification, and the user's dementia degree is determined to be abnormal through the first stage of classification, steps 440 to 470 are performed for the second stage of classification.
  • steps 440 to 470 are performed for the second stage of classification.
  • the second classification step may not be performed.
  • the first CNN set and first DNN used for the first step of classification and the second CNN set and the second DNN used for the second step of classification are respectively different from each other.
  • FIG. 12 is a flowchart of a method for updating a complete CNN according to an example.
  • Step 1200 relates to a method for updating a complete CNN, and may include the following steps 1210 to 1250 .
  • the electronic device 300 outputs pre-produced content to the test user to determine the user's dementia level.
  • the electronic device 300 may output content through the user terminal of the test user.
  • the test user may be a person whose dementia level has been determined through a professional diagnosis by a doctor.
  • the test user may be normal, mild cognitive impairment (MCI), or Alzheimer's disease (AD).
  • MCI mild cognitive impairment
  • AD Alzheimer's disease
  • the electronic device 300 receives the test voice of the test user for the content acquired through the microphone of the user terminal.
  • a plurality of test voices may be received.
  • the electronic device 300 generates a test spectrogram image for the test voice by visualizing at least one characteristic of the received test voice.
  • the test spectrogram image may be labeled with the level of GT (ground truth) dementia of the test user.
  • the electronic device 300 determines the test dementia level for the test user by inputting the test spectrogram image to the complete CNN.
  • a complete CNN includes an input layer, blocks of one or more convolutional layers, a fully connected layer and a softmax.
  • an early version of a complete CNN could be the VGG16 model.
  • a complete CNN can determine the degree of test dementia.
  • the determined test dementia degree may include normal, mild cognitive impairment (MCI) and Alzheimer's disease (AD).
  • the first complete CNN corresponding to the first content determines the test dementia level of the test user based on only the first test spectrogram image
  • the second complete CNN corresponding to the second content is the second test spectrogram image.
  • the degree of test dementia of the test user may be determined based on only the gram image.
  • the electronic device 300 updates the complete CNN based on the test dementia level and the GT dementia level. For example, if there is a difference between the test dementia level and the GT dementia level, back-propagation may be performed using the difference as an error value to update the complete CNN.
  • a method of updating a complete CNN may be supervised learning.
  • the complete CNN 800 includes an input layer 810 , a first convolutional layer block 820 , a second convolutional layer block 830 , a third convolutional layer block 840 ,
  • the fourth convolutional layer block 850 , the fifth convolutional layer block 860 , the fully connected layer 870 and the softmax 880 are included, the third to fifth convolutional layer blocks 840 . , 850 and 860) may be updated, and the remaining layers may not be updated.
  • the complete CNN may be repeatedly updated through a large number of test users, and when the output accuracy of the updated complete CNN becomes greater than or equal to a preset threshold, the update of the complete CNN may be terminated.
  • the first complete CNN set and the second complete CNN set used in each classification step are used in each classification step.
  • a first complete CNN set is updated to determine normal or abnormal (mild cognitive impairment (MCI) and Alzheimer's disease (AD))
  • a second complete CNN set is updated to determine mild cognitive impairment (MCI) or Alzheimer's disease (AD).
  • MCI normal cognitive impairment
  • AD Alzheimer's disease
  • a second complete CNN set is updated to determine mild cognitive impairment
  • AD Alzheimer's disease
  • the CNN used in step 440 may be a neural network in which the fully connected layer and the softmax are removed from the complete CNN after the complete CNN is updated. That is, the CNN used in step 440 may be used as a feature extractor of the corresponding spectrogram image.
  • FIG. 13 is a flowchart of a method of updating a DNN according to an example.
  • step 1300 relates to a method for updating a DNN, after the step 1200 described above with reference to FIG. 12 is performed, and the step 410 described above with reference to FIG. 4 . may be performed prior to being performed. For example, after the update of the complete CNN (or CNN) is completed, step 1300 may be performed.
  • Step 1300 may include the following steps 1310 to 1240 .
  • the electronic device 300 configures a second CNN based on a preset number of first test features and a second test spectrogram image generated by the first CNN based on the first test spectrogram image. Determine a preset number of test target features from among the preset number of second test features generated by .
  • the test target characteristics are the first test characteristics to the nth test characteristics can be determined from The test target characteristics may be markers used to determine the degree of dementia. A method of determining test target characteristics is described in detail below with reference to FIGS. 14 and 15 .
  • the test target characteristics may be labeled with the GT dementia degree of the test user.
  • the electronic device 300 may verify the determined test target characteristics. For example, test target features may be verified through a K-fold cross-validation method.
  • a method of verifying test target characteristics is described in detail below with reference to FIGS. 15 and 16 .
  • Step 1330 may be performed if the test target characteristics have been verified. If the test target features are not verified, it is considered that the CNN needs to be re-updated, and step 1200 may be re-performed.
  • the electronic device 300 determines the test dementia degree of the test user by inputting the test target characteristics into the DNN. To distinguish it from the test dementia degree determined in step 1240 , the test dementia degree in step 1240 is called a first test dementia degree, and the test dementia degree in step 1330 is called a second test dementia degree.
  • the DNN used may be an initial DNN or a default DNN.
  • the electronic device 300 updates the DNN based on the second test dementia level and the GT dementia level. For example, if there is a difference between the second test dementia level and the GT dementia level, back-propagation using the difference as an error value may be performed to update the DNN.
  • a method of updating the DNN may be supervised learning.
  • the DNN may be repeatedly updated through a large number of test users, and when the output accuracy of the updated DNN becomes greater than or equal to a preset threshold, the update of the DNN may be terminated.
  • the first DNN and the second DNN used in each classification step are individually tailored to each classification step.
  • the first DNN is updated to determine normal or abnormal (mild cognitive impairment (MCI) and Alzheimer's disease (AD))
  • the second DNN is updated to determine mild cognitive impairment (MCI) or Alzheimer's disease (AD) can be updated.
  • FIG. 14 is a flow diagram of a method of determining test target characteristics according to an example.
  • the step 1310 described above with reference to FIG. 13 may include the following steps 1410 to 1450 .
  • the overall test characteristics including the first test characteristics and the second test characteristics are divided into a plurality of sets of sub-features. For example, if the total number of test features is 50688, a set of sub-features may be generated to include 1000 test features each, and a 51-th set of sub-features may include 688 test features. Each of the overall test features may have an index number, and the first set of sub-features includes the first test feature to the 1000 test feature.
  • some of the plurality of sets of sub-features 51 are selected. For example, ten sets from the first set of sub-features to the set of 51 sub-features may be selected.
  • the selected 10 sub-feature sets contain a total of 10000 test features. A method of selecting some sets of sub-features is described in detail below with reference to FIG. 15 .
  • the selected sub-features are divided into a plurality of sets of sub-features. For example, if the selected features are 10000, sets of sub-features (50) may be generated to include 200 test features each.
  • step 1440 some of the sets (50) of the plurality of sub-features are selected. For example, ten sets from the first set of sub-features to the fiftieth set of sub-features may be selected. The 10 sub-feature sets selected include a total of 2000 test features.
  • the detailed description of the step 1440 may be similarly applied to the description of FIG. 15 below for the step 1420 .
  • test features included in the selected sub-feature sets are determined as test target features.
  • An index of each of the determined test target characteristics may be identified.
  • the determined test target characteristics may be used as markers for determining the degree of dementia of the user. For example, when the 56th characteristic, the 100th characteristic, and the 760th characteristic of the first characteristics, and the 1st characteristic and the 2400th characteristic of the second characteristics are determined as the test target characteristics, as described above with reference to FIG.
  • the target features determined in step 450 also include the 56th feature, the 100th feature, and the 760th feature of the first features, and the first feature and the 2400th feature of the second features.
  • 15 is a flowchart of a method of selecting sub-features according to an example.
  • the step 1420 described above with reference to FIG. 14 may include the following steps 1510 to 1540 .
  • test target characteristics Data for a large number of users are required to determine test target characteristics.
  • a process of determining test target characteristics will be described using data for 1000 users as an example. The correct value is set together with the data for 1000 users.
  • 1000 users may be classified as 600 training data users, 200 authentication data users, and 200 test data users.
  • 50688 features may be generated, for the first voice to the eleventh voices for each of 600 people, and 600 first sub-feature sets with specific indices (eg, 1-1000) will be generated.
  • 600 first to 51st sub-feature sets for training data are generated.
  • 200 first sub-features set to 51st sub-feature sets for authentication data are generated, and 200 first sub-features set to 51st sub-feature sets for test data are generated.
  • step 1510 based on the 600 first sub-feature sets of the training data (first training data) and 200 first sub-feature sets of the authentication data (first authentication data), the initial DNN One epoch is performed. A weight of an edge or parameter of a node in the DNN is adjusted based on the first 600 sub-feature sets. A result for the input first authentication data is output through the weighted DNN. The number of output results may be 200. The administrator can adjust the number of preset epochs performed for learning by referring to 200 output results.
  • a preset number of epochs are performed on the DNN. For example, 30 epochs may be performed. When a preset number of epochs are performed, it is considered that one learning (or training) has been completed.
  • a first learning accuracy may be calculated based on 200 first sub-feature sets (first test data) of the test data.
  • first test data may be input to the learned DNN, and an accuracy of 200 results may be calculated as the first learning accuracy.
  • Additional learning accuracies may be calculated by repeating steps 1510 to 1530 a preset number of times. Since the initial DNNs provided in step 1510 are different, the result of DNN training may also be different, and accordingly, learning accuracies for a plurality of times of learning vary. When steps 1510 to 1530 are repeated 10 times, first to tenth learning accuracies may be calculated.
  • a first average learning accuracy for the first training data is calculated. For example, an average of the first to tenth learning accuracies may be calculated as the first average learning accuracy.
  • a first average learning accuracy for the first set of sub-features may be calculated. there is.
  • steps 1510 to 1540 are performed on a second set of sub-features including features of indices 1001 to 2000
  • a second average learning accuracy for the second set of sub-features may be calculated.
  • First average learning accuracies to 51st average learning accuracies for each of the 51 sub-feature sets may be calculated.
  • the top 10 sub-feature sets may be selected.
  • 51 sub-feature sets may be classified into a preset number of groups, and a group average learning accuracy for the corresponding group may be calculated.
  • Sub-feature sets in the selected groups may be selected by selecting some groups from among the plurality of groups based on the group average learning accuracy.
  • 10 sub-feature sets are selected, then 10000 indices are selected. Since the sub-feature sets are selected, geographic features between features generated by the CNN based on the spectrogram image can be automatically considered.
  • steps 1510 to 1540 may similarly be applied as a detailed description of step 1440 .
  • 16 is a flowchart of a method of verifying test target characteristics according to an example.
  • step 1320 described above with reference to FIG. 13 may include steps 1610 and 1630 below.
  • the electronic device 300 divides the sets of test target features into K groups.
  • a set of determined test target characteristics for each of the test users is defined. For example, if there are 1000 test users, there are 1000 sets of test target features, and 1000 sets may be divided into K groups. K is a natural number greater than or equal to 2. When K is 5, 5 groups each containing 200 sets may be created.
  • the electronic device 300 generates K test DNNs by respectively updating initial DNNs based on the K groups.
  • the first test DNN is updated using the second to fifth groups
  • the second test DNN is updated using the first, third to fifth groups
  • the third The test DNN is updated using the first, second, fourth and fifth groups
  • the fourth test DNN is updated using the first through third and fifth groups
  • the fifth test DNN is updated using the first through third groups. It can be updated using fourth groups.
  • the electronic device 300 verifies the test target characteristics based on the accuracy of the K test DNNs.
  • a result for the first group may be output, and a first accuracy of the output result may be calculated.
  • second to fourth accuracies may be calculated for each of the second to fourth test DNNs.
  • the CNN extracting the test features may be updated.
  • 17 illustrates a K-fold cross-validation method for verifying target features according to an example.
  • the sets of test target characteristics 1710 are a first group 1701 , a second group 1702 , a third group 1703 , a fourth group 1704 , and a fifth group 1705 .
  • sets 1710 of test target features include 1000 sets, then each of groups 1701 - 1705 includes 200 sets.
  • Each set contains test target characteristics for a particular test user.
  • the first test DNN 1720 may be updated using the second to fifth groups 1702 to 1705 .
  • the first test DNN 1720 may be updated 800 times based on 800 sets.
  • the updated first test DNN 1720 may receive the first group 1701 as an input to determine dementia degrees of test users for the first group 1701 .
  • the first test DNN 1720 may determine 200 second test dementia degrees for 200 sets.
  • the accuracy of the first test DNN 1720 may be calculated based on the GT dementia degrees of each of the 200 sets of the first group 1701 and the 200 second test dementia degrees. Similarly, the accuracies of the second to fourth test DNNs may be calculated. Finally, the test target characteristics may be verified based on the average of the accuracies of the first to fifth test DNNs.
  • the device described above may be implemented as a hardware component, a software component, and/or a combination of the hardware component and the software component.
  • devices and components described in the embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable array (FPA), It may be implemented using one or more general purpose or special purpose computers, such as a programmable logic unit (PLU), microprocessor, or any other device capable of executing and responding to instructions.
  • the processing device may execute an operating system (OS) and one or more software applications running on the operating system.
  • a processing device may also access, store, manipulate, process, and generate data in response to execution of the software.
  • the processing device includes a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that can include For example, the processing device may include a plurality of processors or one processor and one controller. Other processing configurations are also possible, such as parallel processors.
  • Software may comprise a computer program, code, instructions, or a combination of one or more thereof, which configures a processing device to operate as desired or is independently or collectively processed You can command the device.
  • the software and/or data may be any kind of machine, component, physical device, virtual equipment, computer storage medium or apparatus, to be interpreted by or to provide instructions or data to the processing device. , or may be permanently or temporarily embody in a transmitted signal wave.
  • the software may be distributed over networked computer systems and stored or executed in a distributed manner. Software and data may be stored in one or more computer-readable recording media.
  • the method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium.
  • the computer-readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • the program instructions recorded on the medium may be specially designed and configured for the embodiment, or may be known and available to those skilled in the art of computer software.
  • Examples of the computer-readable recording medium include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic such as floppy disks.
  • - includes magneto-optical media, and hardware devices specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like.
  • Examples of program instructions include not only machine language codes such as those generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.
  • the hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Biophysics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Neurology (AREA)
  • Psychiatry (AREA)
  • Artificial Intelligence (AREA)
  • Physiology (AREA)
  • Developmental Disabilities (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Psychology (AREA)
  • Neurosurgery (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Social Psychology (AREA)
  • Databases & Information Systems (AREA)
  • Educational Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

사용자의 치매 정도를 결정하기 위해, 사용자 단말을 통해 컨텐츠를 출력하고, 사용자 단말의 마이크를 통해 획득된 컨텐츠에 대한 사용자의 음성을 수신하며, 음성을 시각화함으로써 스펙트로그램 이미지를 생성하고, 스펙트로그램 이미지에 기초하여 콘볼루션 신경망(CNN) 및 심층 신경망(DNN)을 통해 사용자의 치매 정도를 결정한다.

Description

사용자의 치매 정도 결정 방법 및 장치
기술 분야는 사용자의 치매 정도를 결정하는 기술에 관한 것으로, 특히 사용자의 음성에 기초하여 사용자의 치매 정도를 결정하는 장치 및 방법에 관한 것이다.
치매는 사회 고령화와 함께 노년기 삶의 가장 심각한 질환으로 지난 10년간 급격한 증가세를 보이고 있으며 사회·경제적 비용도 급증하는 추세이다. 또한 환자가 독립적으로 생활할 수 없고, 실종, 자살 등 본인의 삶 뿐만 아니라 돌보는 가족에게도 큰 고통을 주는 질환이다. 치매는 조기진단과 적절한 치료로 추가적인 인지기능의 저하를 막거나 늦출 수 있으나 이 질환의 기존 조기진단에는 문제점이 있다. 기존에는 병원 등 전문의료기관을 방문해야 하므로, 건망증이 심해졌다고 느끼고 내원하는 환자 중 이미 경도인지장애(MCI) 또는 알츠하이머병(AD)으로 진행된 사람이 많고, 진단을 위한 신경인지기능검사(SNSB-II, CERAD-K 등)는 충분한 경험과 노하우를 갖춘 의료진을 통해야 높은 신뢰도를 기대할 수 있으며, 자기공명검사(MRI)나 단일광자방출촬영(SPECT), 양전자단층촬영(PET), 뇌척수액검사 등은 진단 비용이 고가일 뿐만 아니라 진단을 받는 환자의 불편도 크다.
일 실시예는 사용자의 치매 정도를 결정하는 장치 및 방법을 제공할 수 있다.
일 실시예는 사용자의 음성에 기초하여 사용자의 치매 정도를 결정하는 장치 및 방법을 제공할 수 있다.
일 측면에 따른, 전자 장치에 의해 수행되는, 사용자의 치매 정도를 결정하는 방법은, 사용자 단말을 통해 사용자의 치매 정도를 결정하기 위해 미리 제작된 제1 컨텐츠를 출력하는 단계, 상기 사용자 단말의 마이크를 통해 획득된 상기 제1 컨텐츠에 대한 상기 사용자의 제1 음성을 수신하는 단계, 상기 사용자 단말을 통해 미리 제작된 제2 컨텐츠를 출력하는 단계, 상기 마이크를 통해 획득된 상기 제2 컨텐츠에 대한 상기 사용자의 제2 음성을 수신하는 단계, 상기 제1 음성의 적어도 하나의 특성을 시각화함으로써 제1 스펙트로그램(spectrogram) 이미지를 생성하는 단계, 상기 제2 음성의 적어도 하나의 특성을 시각화함으로써 제2 스펙트로그램 이미지를 생성하는 단계, 상기 제1 스펙트로그램 이미지를 미리 갱신된 제1 콘볼루션 신경망(convolutional neural network: CNN)에 입력함으로써 상기 제1 음성에 대한 미리 설정된 개수의 제1 특징들을 생성하는 단계, 상기 제2 스펙트로그램 이미지를 미리 갱신된 제2 CNN에 입력함으로써 상기 제2 음성에 대한 미리 설정된 개수의 제2 특징들을 생성하는 단계, 상기 제1 특징들 및 상기 제2 특징들 중 미리 설정된 개수의 타겟 특징들을 결정하는 단계, 및 상기 타겟 특징들을 미리 갱신된 심층 신경망(deep neural network: DNN)에 입력함으로써 상기 사용자의 치매 정도를 결정하는 단계를 포함하고, 상기 결정된 치매 정도가 상기 사용자 단말을 통해 출력된다.
상기 제1 컨텐츠는 상기 제1 음성을 수신하기 위한 지시(instruction)를 포함할 수 있다.
상기 제1 컨텐츠는 사용자가 문장을 따라 말하도록 하는 컨텐츠, 출력되는 이미지의 명칭을 맞추는 컨텐츠, 출력되는 이미지를 설명하는 컨텐츠, 및 언어의 유창성을 위한 컨텐츠, 숫자 연산을 위한 컨텐츠, 이야기 말하기(story telling)를 유도하는 컨텐츠 중 하나일 수 있다.
상기 제1 음성의 적어도 하나의 특성을 시각화함으로써 제1 스펙트로그램 이미지를 생성하는 단계는, 리브로사 툴(librosa tool)을 통해 상기 제1 음성에 대한 상기 제1 스펙트로그램 이미지를 생성하는 단계를 포함할 수 있다.
상기 제1 스펙트로그램 이미지의 크기 및 상기 제2 스펙트로그램 이미지의 크기는 서로 동일할 수 있다.
상기 제1 CNN은 VGG16 모델에 기초하여 미리 갱신될 수 있다.
상기 제1 CNN은 입력 레이어 및 5개의 콘볼루션 레이어 블록들을 포함하고, 풀리 커넥티드 레이어(fully connected layer) 및 소프트맥스(softmax)를 포함하지 않음으로써 상기 제1 스펙트로그램 이미지에 대한 상기 제1 특징들을 생성할 수 있다.
상기 치매 정도 결정 방법은, 상기 제1 CNN을 갱신하는 단계를 더 포함할 수 있다.
상기 제1 CNN을 갱신하는 단계는, 상기 제1 컨텐츠에 대한 테스트 사용자의 제1 테스트 음성을 수신하는 단계, 상기 제1 테스트 음성의 적어도 하나의 특성을 시각화함으로써 제1 테스트 스펙트로그램 이미지를 생성하는 단계 - 상기 제1 테스트 스펙트로그램 이미지에는 상기 테스트 사용자의 GT(ground truth) 치매 정도가 라벨링됨 -, 상기 제1 테스트 스펙트로그램 이미지를 완전한 제1 CNN에 입력함으로써 상기 테스트 사용자에 대한 제1 테스트 치매 정도를 결정하는 단계 - 상기 완전한 제1 CNN은 입력 레이어, 하나 이상의 콘볼루션 레이어들 블록들, 풀리 커넥티드 레이어 및 소프트맥스를 포함함 -, 및 상기 제1 테스트 치매 정도 및 상기 GT 치매 정도에 기초하여 상기 완전한 제1 CNN을 갱신하는 단계를 포함하고, 상기 제1 CNN은 상기 갱신된 완전한 제1 CNN의 레이어들 중 상기 입력 레이어 및 상기 하나 이상의 콘볼루션 레이어 블록들만을 포함할 수 있다.
상기 치매 정도 결정 방법은, 상기 제1 CNN 및 상기 제2 CNN을 포함하는 복수의 CNN들의 갱신이 완료된 후, 상기 DNN을 갱신하는 단계를 더 포함할 수 있다.
상기 DNN을 갱신하는 단계는, 제1 테스트 스펙트로그램 이미지에 기초하여 생성된 미리 설정된 개수의 제1 테스트 특징들 및 제2 테스트 스펙트로그램 이미지에 기초하여 생성된 미리 설정된 개수의 제2 테스트 특징들 중 미리 설정된 개수의 테스트 타겟 특징들을 결정하는 단계 - 상기 테스트 타겟 특징들에는 상기 테스트 사용자의 GT 치매 정도가 라벨링됨 -, 상기 테스트 타겟 특징들을 상기 DNN에 입력함으로써 상기 테스트 사용자의 제2 테스트 치매 정도를 결정하는 단계, 및 상기 제2 테스트 치매 정도 및 상기 GT 치매 정도에 기초하여 상기 DNN을 갱신하는 단계를 포함할 수 있다.
상기 DNN을 갱신하는 단계는, K-폴드 교차 검증 방법을 통해 상기 테스트 타겟 특징들을 검증하는 단계 - 상기 K는 2 이상의 자연수임 -를 더 포함하고, 상기 테스트 타겟 특징들이 검증되지 않은 경우, 상기 제1 CNN 및 상기 제2 CNN이 재갱신될 수 있다.
상기 K-폴드 교차 검증 방법을 통해 상기 테스트 타겟 특징들을 검증하는 단계는, 테스트 타겟 특징들의 세트들을 상기 K 개의 그룹들로 나누는 단계, 상기 K 개의 그룹들에 기초하여 K개의 초기 DNN들을 각각 갱신함으로써 K개의 테스트 DNN들을 생성하는 단계, 및 상기 K개의 테스트 DNN들의 정확도에 기초하여 상기 테스트 타겟 특징들을 검증하는 단계를 포함할 수 있다.
다른 일 측면에 따른, 사용자의 치매 정도를 결정하는 전자 장치는, 사용자의 치매 정도를 결정하는 프로그램이 기록된 메모리, 및 상기 프로그램을 수행하는 프로세서를 포함하고, 상기 프로그램은, 사용자 단말을 통해 사용자의 치매 정도를 결정하기 위해 미리 제작된 제1 컨텐츠를 출력하는 단계, 상기 사용자 단말의 마이크를 통해 획득된 상기 제1 컨텐츠에 대한 상기 사용자의 제1 음성을 수신하는 단계, 상기 사용자 단말을 통해 미리 제작된 제2 컨텐츠를 출력하는 단계, 상기 마이크를 통해 획득된 상기 제2 컨텐츠에 대한 상기 사용자의 제2 음성을 수신하는 단계, 상기 제1 음성의 적어도 하나의 특성을 시각화함으로써 제1 스펙트로그램(spectrogram) 이미지를 생성하는 단계, 상기 제2 음성의 적어도 하나의 특성을 시각화함으로써 제2 스펙트로그램 이미지를 생성하는 단계, 상기 제1 스펙트로그램 이미지를 미리 갱신된 제1 콘볼루션 신경망(convolutional neural network: CNN)에 입력함으로써 상기 제1 음성에 대한 미리 설정된 개수의 제1 특징들을 생성하는 단계, 상기 제2 스펙트로그램 이미지를 미리 갱신된 제2 CNN에 입력함으로써 상기 제2 음성에 대한 미리 설정된 개수의 제2 특징들을 생성하는 단계, 상기 제1 특징들 및 상기 제2 특징들 중 미리 설정된 개수의 타겟 특징들을 결정하는 단계, 및 상기 타겟 특징들을 미리 갱신된 심층 신경망(deep neural network: DNN)에 입력함으로써 상기 사용자의 치매 정도를 결정하는 단계를 수행하고, 상기 결정된 치매 정도가 상기 사용자 단말을 통해 출력된다.
또 다른 일 측면에 따른, 전자 장치에 의해 수행되는, 사용자의 치매 정도를 결정하기 위해 사용되는 콘볼루션 신경망(convolutional neural network: CNN)을 갱신하는 방법은, 사용자 단말을 통해 사용자의 치매 정도를 결정하기 위해 미리 제작된 제1 컨텐츠를 출력하는 단계, 상기 제1 컨텐츠에 대한 테스트 사용자의 제1 테스트 음성을 수신하는 단계, 상기 제1 테스트 음성의 적어도 하나의 특성을 시각화함으로써 제1 테스트 스펙트로그램 이미지를 생성하는 단계 - 상기 제1 테스트 스펙트로그램 이미지에는 상기 테스트 사용자의 GT(ground truth) 치매 정도가 라벨링됨 -, 상기 제1 테스트 스펙트로그램 이미지를 완전한 CNN에 입력함으로써 상기 테스트 사용자에 대한 테스트 치매 정도를 결정하는 단계 - 상기 완전한 CNN은 입력 레이어, 하나 이상의 콘볼루션 레이어 블록들, 풀리 커넥티드 레이어 및 소프트맥스를 포함함 -, 및 상기 테스트 치매 정도 및 상기 GT 치매 정도에 기초하여 상기 완전한 CNN을 갱신하는 단계를 포함하고, 상기 CNN은 상기 갱신된 완전한 CNN의 레이어들 중 상기 입력 레이어 및 상기 하나 이상의 콘볼루션 레이어 블록들만을 포함한다.
또 다른 일 측면에 따른, 사용자의 치매 정도를 결정하기 위해 사용되는 콘볼루션 신경망(convolutional neural network: CNN)을 갱신하는 전자 장치는, 상기 CNN을 갱신하는 프로그램이 기록된 메모리, 및 상기 프로그램을 수행하는 프로세서를 포함하고, 상기 프로그램은, 사용자 단말을 통해 사용자의 치매 정도를 결정하기 위해 미리 제작된 제1 컨텐츠를 출력하는 단계, 상기 제1 컨텐츠에 대한 테스트 사용자의 제1 테스트 음성을 수신하는 단계, 상기 제1 테스트 음성의 적어도 하나의 특성을 시각화함으로써 제1 테스트 스펙트로그램 이미지를 생성하는 단계 - 상기 제1 테스트 스펙트로그램 이미지에는 상기 테스트 사용자의 GT(ground truth) 치매 정도가 라벨링됨 -, 상기 제1 테스트 스펙트로그램 이미지를 완전한 CNN에 입력함으로써 상기 테스트 사용자에 대한 테스트 치매 정도를 결정하는 단계 - 상기 완전한 CNN은 입력 레이어, 하나 이상의 콘볼루션 레이어 블록들, 풀리 커넥티드 레이어 및 소프트맥스를 포함함 -, 및 상기 테스트 치매 정도 및 상기 GT 치매 정도에 기초하여 상기 완전한 CNN을 갱신하는 단계를 수행하고, 상기 CNN은 상기 갱신된 완전한 CNN의 레이어들 중 상기 입력 레이어 및 상기 하나 이상의 콘볼루션 레이어 블록들만을 포함한다.
사용자의 치매 정도를 결정하는 장치 및 방법이 제공될 수 있다.
사용자의 음성에 기초하여 사용자의 치매 정도를 결정하는 장치 및 방법이 제공될 수 있다.
도 1은 일 예에 따른 사용자의 치매 정도를 결정하는 시스템의 구성도이다.
도 2는 일 예에 따른 사용자의 치매 정도를 결정하기 위해 사용자 단말에 출력되는 영상들을 도시한다.
도 3은 일 실시예에 따른 사용자의 치매 정도를 결정하는 전자 장치의 구성도이다.
도 4는 일 실시예에 따른 사용자의 치매 정도를 결정하는 방법의 흐름도이다.
도 5는 일 예에 따른 미리 제작된 컨텐츠를 도시한다.
도 6는 다른 일 예에 따른 미리 제작된 컨텐츠를 도시한다.
도 7은 일 예에 따른 음성에 대해 생성된 스펙트로그램 이미지를 도시한다.
도 8은 일 예에 따른 사용자의 치매 정도를 결정할 수 있는 완전한 CNN 및 부분 CNN을 도시한다.
도 9는 일 예에 따른 복수의 음성들 각각에 대해 생성된 특징들 및 이에 기초하여 결정된 타겟 특징들을 도시한다.
도 10은 일 예에 따른 사용자의 치매 정도를 결정하는 DNN을 도시한다.
도 11은 일 예에 따른 치매 정도의 결정의 정확도를 높이기 위해 수행되는 2 단계의 분류들을 도시한다.
도 12는 일 예에 따른 완전한 CNN을 갱신하는 방법의 흐름도이다.
도 13은 일 예에 따른 DNN을 갱신하는 방법의 흐름도이다.
도 14는 일 예에 따른 테스트 타겟 특징들을 결정하는 방법의 흐름도이다.
도 15는 일 예에 따른 서브 특징들을 선별하는 방법의 흐름도이다.
도 16은 일 예에 따른 테스트 타겟 특징들을 검증하는 방법의 흐름도이다.
도 17은 일 예에 따른 타겟 특징들을 검증하기 위한 K-폴드 교차 검증 방법을 도시한다.
이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
아래 설명하는 실시예들에는 다양한 변경이 가해질 수 있다. 아래 설명하는 실시예들은 실시 형태에 대해 한정하려는 것이 아니며, 이들에 대한 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
실시예에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 실시예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 일 예에 따른 사용자의 치매 정도를 결정하는 시스템의 구성도이다.
일 측면에 따르면, 사용자의 치매 정도를 결정하는 시스템은 사용자의 치매 정도를 결정하는 전자 장치(110), 컨텐츠를 출력하는 사용자 단말(120), 및 의료 기관의 모니터링 단말(130)을 포함할 수 있다. 예를 들어, 전자 장치(110)는 서버일 수 있다.
전자 장치(110)는 사용자 단말(120)로 사용자의 치매 정도를 결정할 수 있도록 미리 제작된 컨텐츠를 제공할 수 있다. 예를 들어, 컨텐츠는 사용자로부터 음성을 획득하기 위한 컨텐츠일 수 있다. 컨텐츠에 대해 아래에서 도 5 및 6을 참조하여 상세하게 설명된다.
사용자 단말(120)은 전자 장치(110)와 오프라인 또는 온라인으로 연결되어 서로 통신할 수 있다. 전자 장치(110)는 사용자 단말(120)로 컨텐츠를 제공하고, 사용자 단말(120)은 디스플레이를 통해 컨텐츠를 사용자에게 출력한다. 사용자 단말(120)은 마이크를 통해 컨텐츠에 대한 리액션으로서의 사용자의 음성을 획득할 수 있고, 획득된 음성을 전자 장치(110)로 전송한다.
전자 장치(110)는 획득된 사용자의 음성에 기초하여 사용자의 치매 정도를 결정하고, 결정된 치매 정도를 사용자 단말(120)로 전송할 수 있다.
사용자 단말(120)은 태블릿, 스마트 폰과 같은 모바일 단말일 수 있다. 사용자 단말(120)이 모바일 단말인 경우, 사용자는 시간 및 장소의 제약을 받지 않으며, 저렴한 비용으로 치매 정도를 측정할 수 있다.
전자 장치(110)는 사용자의 음성 및 치매 정도를 모니터링 단말(130)로 전송할 수 있다. 예를 들어, 모니터링 단말(130)의 사용자는 의사일 수 있고, 의사는 전송된 정보들에 기초하여 사용자에게 제공되는 컨텐츠의 내용을 조정할 수 있다.
아래에서, 사용자의 치매 정도를 결정하는 방법에 대해 도 2 내지 도 17을 참조하여 상세하게 설명된다.
도 2는 일 예에 따른 사용자의 치매 정도를 결정하기 위해 사용자 단말에 출력되는 영상들을 도시한다.
아래의 영상들(210 내지 240)은 치매 정도를 결정하기 위한 어플리케이션의 영상들일 수 있다. 예를 들어, 전자 장치(110)의 사용자는 어플리케이션을 제작하여 배포할 수 있고, 사용자는 사용자 단말(120)을 통해 어플리케이션을 실행할 수 있다.
제1 영상(210)은 어플리케이션의 시작 화면이다.
제2 영상(220)은 어플리케이션이 지원하는 기능들을 나타낸다
제3 영상(230)은 사용자에게 제공되는 컨텐츠의 일 예이다. 사용자에게 복수의 컨텐츠들이 제공될 수 있다.
제4 영상(240)은 결정된 사용자의 치매 정도를 나타낸다. 예를 들어, 사용자의 치매 정도로서 결정된 정상, 경도인지장애(MCI) 또는 알츠하이머병(AD)가 출력될 수 있다. 개별적인 질병에 대한 주의 정도 이외에도 종합적인 판단이 함께 출력될 수도 있다.
도 3은 일 실시예에 따른 사용자의 치매 정도를 결정하는 전자 장치의 구성도이다.
전자 장치(300)는 통신부(310), 프로세서(320) 및 메모리(330)를 포함한다. 예를 들어, 전자 장치(300)는 도 1을 참조하여 전술된 전자 장치(110)일 수 있다.
통신부(310)는 프로세서(320) 및 메모리(330)와 연결되어 데이터를 송수신한다. 통신부(310)는 외부의 다른 장치와 연결되어 데이터를 송수신할 수 있다. 이하에서 "A"를 송수신한다라는 표현은 "A를 나타내는 정보(information) 또는 데이터"를 송수신하는 것을 나타낼 수 있다.
통신부(310)는 전자 장치(300) 내의 회로망(circuitry)으로 구현될 수 있다. 예를 들어, 통신부(310)는 내부 버스(internal bus) 및 외부 버스(external bus)를 포함할 수 있다. 다른 예로, 통신부(310)는 전자 장치(300)와 외부의 장치를 연결하는 요소일 수 있다. 통신부(310)는 인터페이스(interface)일 수 있다. 통신부(310)는 외부의 장치로부터 데이터를 수신하여, 프로세서(320) 및 메모리(330)에 데이터를 전송할 수 있다.
프로세서(320)는 통신부(310)가 수신한 데이터 및 메모리(330)에 저장된 데이터를 처리한다. "프로세서"는 목적하는 동작들(desired operations)을 실행시키기 위한 물리적인 구조를 갖는 회로를 가지는 하드웨어로 구현된 데이터 처리 장치일 수 있다. 예를 들어, 목적하는 동작들은 프로그램에 포함된 코드(code) 또는 인스트럭션들(instructions)을 포함할 수 있다. 예를 들어, 하드웨어로 구현된 데이터 처리 장치는 마이크로프로세서(microprocessor), 중앙 처리 장치(central processing unit), 프로세서 코어(processor core), 멀티-코어 프로세서(multi-core processor), 멀티프로세서(multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array)를 포함할 수 있다.
프로세서(320)는 메모리(예를 들어, 메모리(330))에 저장된 컴퓨터로 읽을 수 있는 코드(예를 들어, 소프트웨어) 및 프로세서(320)에 의해 유발된 인스트럭션들을 실행한다.
메모리(330)는 통신부(310)가 수신한 데이터 및 프로세서(320)가 처리한 데이터를 저장한다. 예를 들어, 메모리(330)는 프로그램(또는 어플리케이션, 소프트웨어)을 저장할 수 있다. 저장되는 프로그램은 사용자의 치매 정도를 결정할 수 있도록 코딩되어 프로세서(320)에 의해 실행 가능한 신텍스(syntax)들의 집합일 수 있다.
일 측면에 따르면, 메모리(330)는 하나 이상의 휘발성 메모리, 비휘발성 메모리 및 RAM(Random Access Memory), 플래시 메모리, 하드 디스크 드라이브 및 광학 디스크 드라이브를 포함할 수 있다.
메모리(330)는 전자 장치(300)를 동작 시키는 명령어 세트(예를 들어, 소프트웨어)를 저장한다. 전자 장치(300)를 동작 시키는 명령어 세트는 프로세서(320)에 의해 실행된다.
통신부(310), 프로세서(320) 및 메모리(330)에 대해, 아래에서 도 4 내지 도 17을 참조하여 상세히 설명된다.
도 4는 일 실시예에 따른 사용자의 치매 정도를 결정하는 방법의 흐름도이다.
아래의 단계들(410 내지 450)은 도 3을 참조하여 전술된 전자 장치(300)에 의해 수행된다.
단계(410)에서, 전자 장치(300)는 사용자 단말(예를 들어, 사용자 단말(120))을 통해 사용자의 치매 정도를 결정하기 위해 미리 제작된 컨텐츠를 출력한다. 컨텐츠가 사용자 단말에 출력되고, 사용자는 컨텐츠에 대한 리액션을 수행한다. 사용자 단말은 마이크를 이용하여 상기의 리액션으로서의 음성을 생성할 수 있다. 생성된 음성은 데이터 파일 형태일 수 있다.
사용자에게 복수의 컨텐츠들이 제공되고, 복수의 컨텐츠들 각각에 대한 음성이 생성될 수 있다. 일 예에 따른 복수의 컨텐츠들은 아래의 [표 1]을 이용하여 설명된다.
음성 태스크 지시들(instructions)
Step 1.문자 따라 말하기 지금부터, 제가 말하는 문장을, 잘 듣고, 그대로 따라해 주세요
각 문장이 끝난 뒤, 삐~ 소리가 나면, 시작하세요
마당에, 장미꽃이, 피었다
Step 2.문자 따라 말하기 이번에도, 제가 말하는 문장을, 잘 듣고, 그대로 따라해 주세요
각 문장이 끝난 뒤, 삐~ 소리가 나면, 시작하세요
어제는, 비가 와서, 집에, 있었다
Step 3.문자 따라 말하기 이번에도, 제가 말하는 문장을, 잘 듣고, 그대로 따라해 주세요
각 문장이 끝난 뒤, 삐~ 소리가 나면, 시작하세요
낮말은 새가 듣고, 밤말은 쥐가 듣는다.
Step 4.이름대기 다음에는, 보여지는 동물의 이름을, 말씀하시는 것입니다
삐~ 소리가 나면, 보여지는 동물의 이름을, 차례로 말씀해 주세요
Step 5.그림설명 다음에 보여드리는, 그림을 보시고, 그림에 대해서, 1분 동안, 최대한 자세하게, 설명해 주세요
장소가 어디인지, 어떤 것들이 있는지, 동물이나 사람들은, 무엇을 하고 있는지, 등에 대해서, 최대한 자세하게 설명해 주세요
삐 소리가 나면 시작하세요
Step 6.언어유창성(음소형) 다음은, 제시되는 글자로 시작하는 단어를, 말하는 것입니다
예를 들어, 기역,이라는 글자를 보여드리면, 기역으로 시작하는 단어를, 최대한 많이, 말씀해주세요
가방, 고양이, 국수 같은 단어를 말씀하시면 됩니다
기역으로 시작하는 단어 중에, 또, 다른 것은 없습니까?

지금부터는 다른 글자, 즉, 니은으로 시작하는 단어를, 말씀해 보세요
1분의 시간을 드리겠습니다, 니은으로, 시작하는 단어를, 최대한 많이 말씀해 보세요, 준비되셨습니까?
삐 소리가 나면 시작하세요
Step 7.언어유창성(의미형) 제가 어떤 종류를 말씀 드리면 되도록 빨리 그 종류에 속하는 것들의 이름을 말씀해 주세요.
예를 들어 제가 ‘동물 종류’라고 말하면 개, 고양이, 사자 등의 이름을 말씀하시면 됩니다.
동물 종류에 속하는 것 중에 또 다른 것은 없습니까?

지금부터는 다른 종류, 즉, 과일에 속하는 것들의 이름을, 모두 말씀해 보세요
1분의 시간을 드리겠습니다, 1분 동안 생각나는 과일의 이름을, 모두 말씀해 보세요, 준비되셨습니까?
삐 소리가 나면 시작하세요
Step 8.숫자빼기 지금부터는 간단한 계산문제입니다, 100에서 3을 빼면, 얼마입니까?
100에서 3을 빼면, 97입니다.

자, 그러면 거기서, 또 3을 빼주세요
97에서 3을 빼게 되니까, 답은 94입니다.
그렇게 계속해서 3을 빼시는 겁니다.

100에서 시작해서, 계속해서 3을 빼주세요, 준비되셨습니까?
삐 소리가 나면 시작하세요
Step 9.이야기하기(긍정적) 지금까지 살아 오면서, 가장 기뻤던 일은, 무엇이었습니까?
살아오면서 가장 기뻤던 일에 대해서, 1분동안 최대한 자세하게, 말씀해 주세요
삐 소리가 나면 시작하세요
Step 10.이야기하기(부정적) 지금까지 살아 오면서, 가장 슬펐던 일은, 무엇이었습니까? 살아오면서 가장 슬펐던 일에 대해서, 1분동안 최대한 자세하게, 말씀해 주세요
삐 소리가 나면 시작하세요
Step 11.이야기하기(삽화) 어제 하루 동안, 무슨 일이 있었습니까?
어제 하루 동안 있었던 일에 대해서, 1분 동안, 최대한 자세하게, 말씀해 주세요
삐 소리가 나면 시작하세요
단계(420)에서, 전자 장치(300)는 사용자 단말의 마이크를 통해 획득된 컨텐츠에 대한 사용자의 음성을 수신한다. 복수의 컨텐츠들이 제공된 경우, 복수의 음성들이 수신될 수 있다.
복수의 컨텐츠들이 제작된 경우, 단계들(410 및 420)이 반복적으로 수행될 수 있다. 단계들(410 및 420)이 반복적으로 수행됨으로써 복수의 컨텐츠들 각각에 대한 음성들이 수신된다. 예를 들어, 복수의 컨텐츠들이 제1 컨텐츠 내지 제11 컨텐츠를 포함하는 경우, 이들에 대응하는 제1 음성 내지 제11 음성이 수신된다.
단계(430)에서, 전자 장치(300)는 수신된 음성의 적어도 하나의 특성을 시각화함으로써 음성에 대한 스펙트로그램(spectrogram) 이미지를 생성한다. 예를 들어, 전자 장치(300)는 리브로사 툴(librosa tool)을 통해 음성에 대한 스펙트로그램 이미지를 생성할 수 있다. 스펙트로그램 이미지는 멜(mel)-스펙트로그램 이미지일 수 있다.
예를 들어, 제1 음성 내지 제11 음성 각각에 대한 제1 스펙트로그램 이미지 내지 제11 스펙트로그램 이미지가 생성될 수 있다. 스펙트로그램 이미지에 대해 아래에서 도 7을 참조하여 상세히 설명된다.
단계(440)에서, 전자 장치(300)는 스펙트로그램 이미지를 스펙트로그램 이미지에 대응하는 미리 갱신된 콘볼루션 신경망(convolutional neural network: CNN)에 입력함으로써 음성에 대한 미리 설정된 개수의 특징들을 생성한다. 특징들을 생성하기 위해 사용되는 CNN은 컨텐츠에 따라 달라질 수 있다. 예를 들어, 컨텐츠가 11개인 경우, 11개의 컨텐츠들 각각에 대응하는 CNN들이 존재하고, 11개의 CNN들은 CNN 세트로 명명될 수 있다. 이하에서, 용어 "갱신"은 용어 "훈련"의 의미를 포함할 수 있고, 상호 교환적으로 사용될 수 있다.
일 측면에 따르면, CNN은 VGG16 모델에 기초하여 미리 갱신될 수 있다. CNN은 입력 레이어, 하나 이상의 콘볼루션 레이어들 블록들, 풀리 커넥티드 레이어(fully connected layer) 및 소프트맥스(softmax)를 포함하는 완전한 CNN의 일부일 수 있다. 예를 들어, CNN은 입력 레이어 및 하나 이상의 콘볼루션 레이어들 블록들을 포함하고, 풀리 커넥티드 레이어 및 소프트맥스를 포함하지 않을 수 있다. CNN이 풀리 커넥티드 레이어 및 소프트맥스를 포함하지 않음으로써 입력된 스펙트로그램 이미지에 대한 결과로서 치매 정도가 아닌, 치매 정도를 계산하기 위해 사용되는 미리 설정된 개수의 특징들이 출력될 수 있다. 완전한 CNN 및 부분 CNN에 대해 도 8을 참조하여 상세히 설명된다.
예를 들어, 전자 장치(300)는 제1 스펙트로그램 이미지를 미리 갱신된 제1 CNN에 입력함으로써 제1 음성에 대한 미리 설정된 개수의 제1 특징들을 생성하고, 제2 스펙트로그램 이미지를 미리 갱신된 제2 CNN에 입력함으로써 제2 음성에 대한 미리 설정된 개수의 제2 특징들을 생성할 수 있다. 구체적인 예로, 11개의 음성들이 수신되고, 하나의 음성에 대해 4608개의 특징들이 생성되는 경우, 총 50688개의 특징들이 생성될 수 있다.
단계(450)에서, 전자 장치(300)는 복수의 음성들에 대한 특징들 중 타겟 특징들을 결정한다. 결정된 타겟 특징들은 치매 진단을 위한 마커들일 수 있다. 구체적인 예로, 총 50688개의 특징들 중 10개의 특징들이 결정될 수 있다. 타겟 특징들로 결정되는 특징들은 마커로서 미리 결정될 수 있다. 마커는 아래에서 도 12 내지 도 16을 참조하여 설명되는 CNN을 갱신하는 단계 및 심층 신경망(deep neural network: DNN)을 갱신하는 단계를 통해 사전에 결정될 수 있다.
단계(460)에서, 전자 장치(300)는 타겟 특징들을 미리 갱신된 DNN에 입력함으로써 사용자의 치매 정도를 결정한다. 예를 들어, 결정된 치매 정도는 정상 또는 비정상이 수 있다. 비정상은 경도인지장애(MCI) 또는 알츠하이머병(AD)을 포함할 수 있다. 사용자의 치매 정도를 더욱 정확히 결정하기 위해, 두 단계들의 분류가 수행될 수 있다. 아래에서 도 11을 참조하여 치매 정도의 결정의 정확도를 높이기 위해 수행되는 2 단계의 분류들이 설명된다.
단계(470)에서, 전자 장치(300)는 사용자 단말을 통해 결정된 치매 정도를 출력한다.
도 5는 일 예에 따른 미리 제작된 컨텐츠를 도시한다.
예를 들어, 사용자에게 제공되는 컨텐츠(500)는 출력되는 이미지들(520, 530, 540)의 명칭을 맞추는 컨텐츠일 수 있다. 컨텐츠(500)는 이미지들(520, 530, 540) 이외에 컨텐츠(500)에 대한 사용자의 음성을 위한 지시(instruction)(510)를 포함할 수 있다. 지시(510)는 텍스트로 표시될 수 있고, 또는 음성으로도 출력될 수 있다. 사용자는 이미지들(520, 530, 540)의 명칭을 말함으로써 음성을 생성할 수 있다.
도 6는 다른 일 예에 따른 미리 제작된 컨텐츠를 도시한다.
도 5의 예와 다른 예로, 사용자에게 제공되는 컨텐츠(600)는 출력되는 이미지(620)를 설명하는 컨텐츠일 수 있다. 컨텐츠(600)는 이미지(620) 이외에 컨텐츠(600)에 대한 사용자의 음성을 위한 지시(610)를 포함할 수 있다. 지시(610)는 텍스트로 표시될 수 있고, 또는 음성으로도 출력될 수 있다. 사용자는 이미지(620)의 상황을 설명 또는 묘사함으로써 음성을 생성할 수 있다.
도 7은 일 예에 따른 음성에 대해 생성된 스펙트로그램 이미지를 도시한다.
일 측면에 따르면, 전자 장치(300)는 리브로사 툴을 통해 음성에 대한 스펙트로그램 이미지(700)를 생성할 수 있다. 스펙트로그램 이미지(700)의 가로 축은 시간 축이고, 세로 축은 주파수 축일 수 있다. 스펙트로그램 이미지(700)는 시간 축과 주파수 축의 변화에 따라 진폭의 차이를 인쇄 농도/표시 색상의 차이로 나타낸다. 변화되는 진폭 차이의 크기에 기초하여 해당 위치의 표시 색상이 결정될 수 있다. 예를 들어, 진폭 차이의 크기에 대한 표시 색상의 범례(710)가 스펙트로그램 이미지(700)와 함께 출력될 수 있다. 결정된 색상을 표시하기 위해 해당 좌표의 픽셀의 R, G, B 채널들의 값들이 결정될 수 있다.
복수의 음성들에 각각에 대한 복수의 스펙트로그램 이미지들이 생성될 수 있다. 예를 들어, 제1 음성에 대해 제1 스펙트로그램 이미지가 생성되고, 제2 음성에 대해 제2 스펙트로그램 이미지가 생성될 수 있다. 개별 음성의 총 시간에 따라 스펙트로그램 이미지의 시간 축 및 주파수 축의 스케일이 달라질 수 있으나, 생성되는 스펙트로그램 이미지의 크기는 서로 동일할 수 있다. 예를 들어, 제1 스펙트로그램 이미지의 크기 및 제2 스펙트로그램 이미지의 크기는 100x100으로 서로 동일할 수 있다.
도 8은 일 예에 따른 사용자의 치매 정도를 결정할 수 있는 완전한 CNN 및 부분 CNN을 도시한다.
일 측면에 따른, 완전한 CNN(800)은 입력 레이어(810), 제1 콘볼루션 레이어 블록(820), 제2 콘볼루션 레이어 블록(830), 제3 콘볼루션 레이어 블록(840), 제4 콘볼루션 레이어 블록(850), 제5 콘볼루션 레이어 블록(860), 풀리 커넥티드 레이어(870) 및 소프트맥스(880)를 포함한다. 콘볼루션 레이어 블록은 하나 이상의 콘볼루션 레이어들 및 풀링 레이어를 포함할 수 있다.
완전한 CNN(800)은 아래에서 도 12을 참조하여 후술될 완전한 CNN 갱신 방법을 통해 갱신된 완전한 CNN일 수 있다. 컨텐츠 별로 상이한 완전한 CNN들이 미리 갱신될 수 있다.
부분 CNN(805)는 입력 레이어(810), 제1 콘볼루션 레이어 블록(820), 제2 콘볼루션 레이어 블록(830), 제3 콘볼루션 레이어 블록(840), 제4 콘볼루션 레이어 블록(850), 제5 콘볼루션 레이어 블록(860)만을 포함하고, 풀리 커넥티드 레이어(870) 및 소프트맥스(880)를 포함하지 않을 수 있다. 즉, 부분 CNN(805)는 완전한 CNN(800)의 갱신이 종료된 후, 완전한 CNN(800)에서 풀리 커넥티드 레이어(870) 및 소프트맥스(880)를 제거한 CNN일 수 있다. 예를 들어, 도 3을 참조하여 전술된 단계(440)에서 사용되는 CNN은 부분 CNN(805)일 수 있다.
부분 CNN(805)은 풀리 커넥티드 레이어(870)를 포함하지 않으므로 스펙트로그램 이미지에 대한 다양한 특징들을 출력할 수 있다.
도 9는 일 예에 따른 복수의 음성들 각각에 대해 생성된 특징들 및 이에 기초하여 결정된 타겟 특징들을 도시한다.
일 측면에 따르면, 타겟 음성에 대응하는 타겟 CNN을 통해 타겟 음성에 대한 미리 결정된 개수의 특징들이 생성된다. 예를 들어, 미리 결정된 개수의 특징들은 4608개일 수 있다. 복수의 음성들의 개수가 n개인 경우, 생성되는 전체 특징들(900)의 개수는 4608 x n개일 수 있다.
전체 특징들(900) 중 미리 설정된 개수의 타겟 특징들(910)이 결정된다. 결정된 타겟 특징들(910)은 치매 정도의 결정을 위해 미리 설정된 마커일 수 있다. 마커로서 타겟 특징들(910)을 미리 결정하는 방법에 대해, 아래에서 도 13의 단계(1310)를 참조하여 상세히 설명된다.
도 10은 일 예에 따른 사용자의 치매 정도를 결정하는 DNN을 도시한다.
일 측면에 따르면, 사용자의 치매 정도를 결정하는 DNN은 입력 레이어(1010), 하나 이상의 히든 레이어들(1020, 1030, 1040) 및 출력 레이어(1050)를 포함할 수 있다. 예를 들어, DNN은 도 13을 참조하여 후술될 DNN을 갱신하는 방법을 통해 갱신된 DNN일 수 있다.
DNN은 타겟 특징들(910)의 입력에 대해 출력으로서 사용자의 치매 정도를 출력할 수 있다. DNN은 미리 설정된 복수의 치매 정도들 중 어느 하나를 출력할 수 있다. 예를 들어, 미리 설정된 복수의 치매 정도들은 결정된 정상, 경도인지장애(MCI) 및 알츠하이머병(AD)을 포함할 수 있다.
도 11은 일 예에 따른 치매 정도의 결정의 정확도를 높이기 위해 수행되는 2 단계의 분류들을 도시한다.
하나의 모델을 통해 복수의 치매 정도들 중 어느 하나를 결정하는 방법 보다는, 복수의 모델들을 통해 단계적으로 치매 정도를 결정하는 방법이 치매 정도의 결정의 정확도를 높일 수 있다.
예를 들어, 하나의 모델을 통해 정상, 경도인지장애(MCI) 및 알츠하이머병(AD) 중 어느 하나를 결정하는 방법 보다는, 분류 1단계에서 정상 또는 비정상(경도인지장애(MCI) 및 알츠하이머병(AD))을 결정하고, 분류 2단계에서 경도인지장애(MCI) 또는 알츠하이머병(AD)을 결정할 수 있다.
상기의 방법을 사용하기 위해서는, 분류 1단계에서 사용되는 제1 CNN 세트 및 제1 DNN과, 분류 2단계에서 사용되는 제2 CNN 세트 및 제2 DNN이 각각 미리 준비된다.
예를 들어, 분류 1단계를 위해 단계들(410 내지 460)이 수행되고, 분류 1단계를 통해 사용자의 치매 정도가 비정상으로 결정된 경우, 분류 2단계를 위해 단계들(440 내지 470)이 수행될 수 있다. 분류 1단계를 통해 사용자의 치매 정도가 정상으로 결정된 경우, 분류 2단계는 수행되지 않을 수 있다. 분류 1단계를 위해 사용되는 제1 CNN 세트 및 제1 DNN과 분류 2단계를 위해 사용되는 제2 CNN 세트 및 제2 DNN는 각각 서로 상이하다.
도 12는 일 예에 따른 완전한 CNN을 갱신하는 방법의 흐름도이다.
일 측면에 따르면, 도 4를 참조하여 전술된 단계(410)가 수행되기 전에 아래의 단계(1200)가 선행적으로 수행된다. 단계(1200)는 완전한 CNN을 갱신하기 위한 방법에 관한 것으로서, 아래의 단계들(1210 내지 1250)을 포함할 수 있다.
단계(1210)에서, 전자 장치(300)는 테스트 사용자에게 사용자의 치매 정도를 결정하기 위해 미리 제작된 컨텐츠를 출력한다. 예를 들어, 전자 장치(300)는 테스트 사용자의 사용자 단말을 통해 컨텐츠를 출력할 수 있다.
테스트 사용자는 의사의 전문 진단을 통해 치매 정도가 결정된 사람일 수 있다. 예를 들어, 테스트 사용자는 정상이거나, 경도인지장애(MCI)이거나 또는 알츠하이머병(AD)일 수 있다.
단계(1220)에서, 전자 장치(300)는 사용자 단말의 마이크를 통해 획득된 컨텐츠에 대한 테스트 사용자의 테스트 음성을 수신한다. 복수의 컨텐츠들이 제공된 경우, 복수의 테스트 음성들이 수신될 수 있다.
단계(1230)에서, 전자 장치(300)는 수신된 테스트 음성의 적어도 하나의 특성을 시각화함으로써 테스트 음성에 대한 테스트 스펙트로그램 이미지를 생성한다. 테스트 스펙트로그램 이미지에는 테스트 사용자의 GT(ground truth) 치매 정도가 라벨링될 수 있다.
단계(1240)에서, 전자 장치(300)는 테스트 스펙트로그램 이미지를 완전한 CNN에 입력함으로써 테스트 사용자에 대한 테스트 치매 정도를 결정한다. 완전한 CNN은 입력 레이어, 하나 이상의 콘볼루션 레이어들 블록들, 풀리 커넥티드 레이어 및 소프트맥스를 포함한다. 예를 들어, 완전한 CNN의 초기 버전은 VGG16 모델일 수 있다.
완전한 CNN이 풀리 커넥티드 레이어 및 소프트맥스를 포함하고 있으므로, 완전한 CNN은 테스트 치매 정도를 결정할 수 있다. 예를 들어, 결정된 테스트 치매 정도는 정상, 경도인지장애(MCI) 및 알츠하이머병(AD)을 포함할 수 있다.
일 측면에 따르면, 제1 컨텐츠에 대응하는 제1 완전한 CNN은 제1 테스트 스펙트로그램 이미지만을 기초하여 테스트 사용자의 테스트 치매 정도를 결정하고, 제2 컨텐츠에 대응하는 제2 완전한 CNN은 제2 테스트 스펙트로그램 이미지만을 기초하여 테스트 사용자의 테스트 치매 정도를 결정할 수 있다.
단계(1250)에서, 전자 장치(300)는 테스트 치매 정도 및 GT 치매 정도에 기초하여 완전한 CNN을 갱신한다. 예를 들어, 테스트 치매 정도 및 GT 치매 정도에 차이가 있는 경우, 완전한 CNN을 갱신하기 위해 상기의 차이를 에러 값으로 하는 역-전파(back-propagation)가 수행될 수 있다. 완전한 CNN을 갱신하는 방법은 지도 학습(supervised learning)일 수 있다.
도 8의 일 실시예에서, 완전한 CNN(800)이 입력 레이어(810), 제1 콘볼루션 레이어 블록(820), 제2 콘볼루션 레이어 블록(830), 제3 콘볼루션 레이어 블록(840), 제4 콘볼루션 레이어 블록(850), 제5 콘볼루션 레이어 블록(860), 풀리 커넥티드 레이어(870) 및 소프트맥스(880)를 포함하는 경우, 제3 내지 제5 콘볼루션 레이어 블록들(840, 850, 860)만이 갱신되고, 나머지 레이어들은 갱신되지 않을 수 있다.
일 측면에 따르면, 많은 수의 테스트 사용자들을 통해 완전한 CNN이 반복적으로 갱신될 수 있고, 갱신된 완전한 CNN의 출력 정확도가 미리 설정된 임계 값 이상이 되는 경우 완전한 CNN의 갱신이 종료될 수 있다.
일 측면에 따르면, 도 11을 참조하여 전술된 방법과 같이 복수의 모델들을 통해 단계적으로 치매 정도를 결정하는 경우, 각 분류 단계에서 사용되는 제1 완전한 CNN 세트 및 제2 완전한 CNN 세트가 각 분류 단계에 맞도록 개별적으로 갱신될 수 있다. 예를 들어, 제1 완전한 CNN 세트는 정상 또는 비정상(경도인지장애(MCI) 및 알츠하이머병(AD))을 결정하도록 갱신되고, 제2 완전한 CNN 세트는 경도인지장애(MCI) 또는 알츠하이머병(AD)을 결정하도록 갱신될 수 있다.
단계(440)에서 사용되는 CNN은 완전한 CNN의 갱신이 완료된 후, 완전한 CNN에서 풀리 커넥티드 레이어 및 소프트맥스를 제거한 신경망일 수 있다. 즉, 단계(440)에서 사용되는 CNN은 해당 스펙트로그램 이미지의 특징 추출기로서 사용될 수 있다.
도 13은 일 예에 따른 DNN을 갱신하는 방법의 흐름도이다.
일 측면에 따르면, 아래의 단계(1300)는 DNN을 갱신하기 위한 방법에 관한 것으로서, 도 12를 참조하여 전술된 단계(1200)가 수행된 후, 및 도 4를 참조하여 전술된 단계(410)가 수행되기 전에 선행적으로 수행될 수 있다. 예를 들어, 완전한 CNN(또는 CNN)의 갱신이 완료된 후, 단계(1300)가 수행될 수 있다.
단계(1300)는, 아래의 단계들(1310 내지 1240)을 포함할 수 있다.
단계(1310)에서, 전자 장치(300)는 제1 테스트 스펙트로그램 이미지에 기초하여 제1 CNN에 의해 생성된 미리 설정된 개수의 제1 테스트 특징들 및 제2 테스트 스펙트로그램 이미지에 기초하여 제2 CNN에 의해 생성된 미리 설정된 개수의 제2 테스트 특징들 중 미리 설정된 개수의 테스트 타겟 특징들을 결정한다. 제1 테스트 특징들 및 제2 테스트 특징들만이 기재되었으나, 예를 들어 n개의 컨텐츠들에 대한 n 개의 테스트 스펙트로그램 이미지들이 생성된 경우, 테스트 타겟 특징들은 제1 테스트 특징들 내지 제n 테스트 특징들 중에서 결정될 수 있다. 테스트 타겟 특징들은 치매 정도를 결정하기 위해 이용되는 마커일 수 있다. 테스트 타겟 특징들을 결정하는 방법에 대해, 아래에서 도 14 및 15를 참조하여 상세히 설명된다.
테스트 타겟 특징들에는 테스트 사용자의 GT 치매 정도가 라벨링될 수 있다.
단계(1320)에서, 전자 장치(300)는 결정된 테스트 타겟 특징들을 검증할 수 있다. 예를 들어, K-폴드 교차 검증 방법을 통해 테스트 타겟 특징들이 검증될 수 있다.
테스트 타겟 특징들을 검증하는 방법에 대해, 아래에서 도 15 및 16을 참조하여 상세히 설명된다.
테스트 타겟 특징들이 검증된 경우 단계(1330)가 수행될 수 있다. 테스트 타겟 특징들이 검증되지 않은 경우에는 CNN의 재갱신이 필요한 것으로 간주되어, 단계(1200)가 재수행될 수 있다.
단계(1330)에서, 전자 장치(300)는 테스트 타겟 특징들을 DNN에 입력함으로써 테스트 사용자의 테스트 치매 정도를 결정한다. 단계(1240)에서 결정되는 테스트 치매 정도와 구분하기 위해, 단계(1240)의 테스트 치매 정도는 제1 테스트 치매 정도로 명명되고, 단계(1330)의 테스트 치매 정도는 제2 테스트 치매 정도로 명명된다. 단계(1330)가 처음 수행되는 경우, 사용되는 DNN은 초기 DNN 또는 기본 DNN일 수 있다.
단계(1340)에서, 전자 장치(300)는 제2 테스트 치매 정도 및 GT 치매 정도에 기초하여 DNN을 갱신한다. 예를 들어, 제2 테스트 치매 정도 및 GT 치매 정도에 차이가 있는 경우, DNN을 갱신하기 위해 상기의 차이를 에러 값으로 하는 역-전파가 수행될 수 있다. DNN을 갱신하는 방법은 지도 학습일 수 있다.
일 측면에 따르면, 많은 수의 테스트 사용자들을 통해 DNN이 반복적으로 갱신될 수 있고, 갱신된 DNN의 출력 정확도가 미리 설정된 임계 값 이상이 되는 경우 DNN의 갱신이 종료될 수 있다.
일 측면에 따르면, 도 11을 참조하여 전술된 방법과 같이 복수의 모델들을 통해 단계적으로 치매 정도를 결정하는 경우, 각 분류 단계에서 사용되는 제1 DNN 및 제2 DNN이 각 분류 단계에 맞도록 개별적으로 갱신될 수 있다. 예를 들어, 제1 DNN는 정상 또는 비정상(경도인지장애(MCI) 및 알츠하이머병(AD))을 결정하도록 갱신되고, 제2 DNN은 경도인지장애(MCI) 또는 알츠하이머병(AD)을 결정하도록 갱신될 수 있다.
도 14는 일 예에 따른 테스트 타겟 특징들을 결정하는 방법의 흐름도이다.
일 측면에 따르면, 도 13을 참조하여 전술된 단계(1310)은 아래의 단계들(1410 내지 1450)을 포함할 수 있다.
단계(1410)에서, 제1 테스트 특징들 및 제2 테스트 특징들을 포함하는 전체의 테스트 특징들이 복수의 서브 특징들의 세트들로 나눠진다. 예를 들어, 전체의 테스트 특징들이 50688개인 경우, 서브 특징들의 세트가 각각 1000개의 테스트 특징들을 포함하도록 생성될 수 있고, 제51 서브 특징들의 세트는 688개의 테스트 특징들을 포함할 수 있다. 전체의 테스트 특징들 각각은 인덱스 번호를 가질 수 있고, 제1 서브 특징들 세트는 1번 테스트 특징 내지 1000번 테스트 특징을 포함한다.
단계(1420)에서, 복수의 서브 특징들의 세트들(51개) 중 일부가 선별된다. 예를 들어, 제1 서브 특징들 세트 내지 제51 서브 특징들 세트 중 10개의 세트가 선택될 수 있다. 선택된 10개의 서브 특징들 세트들은 총 10000개의 테스트 특징들을 포함한다. 일부의 서브 특징들의 세트들을 선별하는 방법에 대해, 아래에서 도 15를 참조하여 상세히 설명된다.
단계(1430)에서, 선별된 서브 특징들(예를 들어, 10000개)이 복수의 서브 특징들의 세트들로 나눠진다. 예를 들어, 선별된 특징들이 10000개인 경우, 서브 특징들의 세트들(50개)이 각각 200개의 테스트 특징들을 포함하도록 생성될 수 있다.
단계(1440)에서, 복수의 서브 특징들의 세트들(50개) 중 일부가 선별된다. 예를 들어, 제1 서브 특징들 세트 내지 제50 서브 특징들 세트 중 10개의 세트가 선택될 수 있다. 선택된 10개의 서브 특징들 세트들은 총 2000개의 테스트 특징들을 포함한다. 단계(1440)에 대한 상세한 설명은 단계(1420)에 대한 아래의 도 15의 설명이 유사하게 적용될 수 있다.
단계(1450)에서, 선별된 서브 특징들 세트들에 포함된 테스트 특징들이 테스트 타겟 특징들로 결정된다. 결정된 테스트 타겟 특징들 각각의 인덱스가 식별될 수 있다.
결정된 테스트 타겟 특징들은 사용자의 치매 정도를 결정하기 위한 마커로 사용될 수 있다. 예를 들어, 제1 특징들 중 56번째 특징, 100번째 특징 및 760번째 특징, 및 제2 특징들 중 1번째 특징 및 2400번째 특징이 테스트 타겟 특징들로 결정된 경우, 도 4를 참조하여 전술된 단계(450)에서 결정된 타겟 특징들도 제1 특징들 중 56번째 특징, 100번째 특징 및 760번째 특징, 및 제2 특징들 중 1번째 특징 및 2400번째 특징을 포함한다.
도 15는 일 예에 따른 서브 특징들을 선별하는 방법의 흐름도이다.
일 측면에 따르면, 도 14를 참조하여 전술된 단계(1420)는 아래의 단계들(1510 내지 1540)을 포함할 수 있다.
테스트 타겟 특징들을 결정하기 위해서는 많은 수의 사용자들에 대한 데이터가 요구된다. 아래에서는, 사용자들 1000명에 대한 데이터를 예시로하여, 테스트 타겟 특징들을 결정하는 과정을 설명한다. 사용자들 1000명에 대한 데이터에는 정답 값이 함께 설정되어 있다.
예를 들어, 1000명의 사용자들이 600명의 훈련 데이터 사용자, 200명의 인증 데이터 사용자 및 200명의 테스트 데이터 사용자로 분류될 수 있다. 600명 각각에 대해 제1 음성 내지 제11 음성들에 대한, 50688개의 특징들이 생성될 수 있고, 특정 인덱스들(예를 들어, 1 내지 1000)을 갖는 제1 서브 특징들 세트가 600개 생성될 수 있다. 예를 들어, 훈련 데이터를 위한 제1 서브 특징들 세트 내지 제51 서브 특징들 세트들이 600개 생성된다. 유사하게, 인증 데이터를 위한 제1 서브 특징들 세트 내지 제51 서브 특징들 세트들이 200개 생성되고, 테스트 데이터를 위한 제1 서브 특징들 세트 내지 제51 서브 특징들 세트들이 200개 생성된다.
단계(1510)에서, 훈련 데이터의 600개의 제1 서브 특징들 세트들(제1 훈련 데이터) 및 인증 데이터의 200개의 제1 서브 특징들 세트들(제1 인증 데이터)에 기초하여 초기 DNN에 대한 1회의 에폭(epoch)이 수행된다. 600개의 제1 서브 특징들 세트들에 기초하여 DNN 내의 노드의 엣지 또는 파라미터의 가중치가 조정된다. 가중치가 조정된 DNN을 통해 입력 제1 인증 데이터에 대한 결과가 출력된다. 출력된 결과는 200개일 수 있다. 관리자는 출력된 결과 200개를 참조하여 학습을 위해 수행되는 미리 설정된 에폭의 횟수를 조정할 수 있다.
단계(1520)에서, DNN에 대해 미리 설정된 횟수의 에폭이 수행된다. 예를 들어, 30회의 에폭이 수행될 수 있다. 미리 설정된 횟수의 에폭이 수행된 경우, 1회의 학습(또는 훈련)이 완료된 것으로 간주된다.
단계(1530)에서, 테스트 데이터의 200개의 제1 서브 특징들 세트들(제1 테스트 데이터)에 기초하여 제1 학습 정확도가 계산될 수 있다. 예를 들어, 제1 테스트 데이터를 학습된 DNN에 입력하고, 200개의 결과들에 대한 정확도가 제1 학습 정확도로서 계산될 수 있다.
단계들(1510 내지 1530)을 미리 설정된 횟수 반복함으로써 추가의 학습 정확도들이 계산될 수 있다. 단계(1510)에 제공되는 초기 DNN들은 각각 다르기 때문에 DNN 학습의 결과도 달라질 수 있고, 이에 따라, 복수회의 학습들에 대한 학습 정확도들이 달라진다. 단계들(1510 내지 1530)을 10회 반복하는 경우, 제1 학습 정확도 내지 제10 학습 정확도들이 계산될 수 있다.
단계(1540)에서, 제1 훈련 데이터에 대한 제1 평균 학습 정확도가 계산된다. 예를 들어, 제1 학습 정확도 내지 제10 학습 정확도들에 대한 평균이 제1 평균 학습 정확도로 계산될 수 있다.
예를 들어, 단계들(1510 내지 1540)이 인덱스 1 내지 1000의 특징들을 포함하는 제1 서브 특징들 세트에 대해 수행되는 경우, 제1 서브 특징들 세트에 대한 제1 평균 학습 정확도가 계산될 수 있다.
다른 예로, 단계들(1510 내지 1540)이 인덱스 1001 내지 2000의 특징들을 포함하는 제2 서브 특징들 세트에 대해 수행되는 경우, 제2 서브 특징들 세트에 대한 제2 평균 학습 정확도가 계산될 수 있다.
51개의 서브 특징들 세트들 각각에 대한 제1 평균 학습 정확도 내지 제51 평균 학습 정확도들이 계산될 수 있다. 51개의 평균 학습 정확도들 중 상위 10개의 서브 특징들 세트들이 선별될 수 있다.
다른 예로, 51개의 서브 특징들 세트들을 미리 설정된 개수들의 그룹들로 분류하고, 해당 그룹에 대한 그룹 평균 학습 정확도가 계산될 수 있다. 그룹 평균 학습 정확도에 기초하요 복수의 그룹들 중 일부의 그룹들이 선택됨으로써 선택된 그룹들 내의 서브 특징들 세트들이 선별될 수 있다.
10개의 서브 특징들 세트들이 선택된 경우, 10000개의 인덱스들이 선택된다. 서브 특징들 세트 별로 선별되므로 스펙트로그램 이미지에 기초하여 CNN에 의해 생성된 특징들 사이의 지리적 특성이 자동적으로 고려될 수 있다.
단계들(1510 내지 1540)에 대한 설명은 단계(1440)에 대한 상세한 설명으로서 유사하게 적용될 수 있다.
도 16은 일 예에 따른 테스트 타겟 특징들을 검증하는 방법의 흐름도이다.
일 측면에 따르면, 도 13을 참조하여 전술된 단계(1320)은 아래의 단계들(1610 및 1630)을 포함할 수 있다.
단계(1610)에서, 전자 장치(300)는 테스트 타겟 특징들의 세트들을 K개의 그룹들로 나눈다. 테스트 사용자들 각각에 대해 결정된 테스트 타겟 특징들이 하나의 세트로 정의된다. 예를 들어, 테스트 사용자들이 1000명인 경우, 1000개의 테스트 타겟 특징들의 세트들이 존재하고, 1000개의 세트들이 K개의 그룹들로 나뉠 수 있다. K는 2 이상의 자연수이다. K가 5인 경우, 200개의 세트들을 각각 포함하는 5개의 그룹들이 생성될 수 있다.
단계(1620)에서, 전자 장치(300)는 K개의 그룹들에 기초하여 초기 DNN들을 각각 갱신함으로써 K개의 테스트 DNN들을 생성한다. 제1 내지 제5 그룹들이 생성된 경우, 제1 테스트 DNN이 제2 내지 제5 그룹들을 사용하여 갱신되고, 제2 테스트 DNN이 제1, 제3 내지 제5 그룹들을 사용하여 갱신되고, 제3 테스트 DNN이 제1, 제2, 제4 및 제5 그룹들을 사용하여 갱신되고, 제4 테스트 DNN이 제1 내지 제3, 및 제5 그룹들을 사용하여 갱신되고, 제5 테스트 DNN이 제1 내지 제4 그룹들을 사용하여 갱신될 수 있다.
단계(1630)에서, 전자 장치(300)는 K개의 테스트 DNN들의 정확도에 기초하여 테스트 타겟 특징들을 검증한다. 상기의 실시예에서, 제1 테스트 DNN에 제1 그룹을 입력함으로써 제1 그룹에 대한 결과를 출력하고, 출력된 결과의 제1 정확도를 계산할 수 있다. 유사하게, 제2 내지 제4 테스트 DNN들에 각각에 대한 제2 내지 제4 정확도들을 계산할 수 있다.
계산된 제1 내지 제5 정확도들의 평균 값이 미리 설정된 임계 값 이상인 경우, 테스트 타겟 특징들이 검증된 것으로 결정될 수 있다. 계산된 제1 내지 제5 정확도들의 평균 값이 미리 설정된 임계 값 미만인 경우, 테스트 타겟 특징들이 검증되지 않은 것으로 결정될 수 있다. 테스트 타겟 특징들이 검증되지 않은 경우, 테스트 특징들을 추출하는 CNN이 재갱신될 수 있다.
도 17은 일 예에 따른 타겟 특징들을 검증하기 위한 K-폴드 교차 검증 방법을 도시한다.
일 예에 따르면, 테스트 타겟 특징들의 세트들(1710)이 제1 그룹(1701), 제2 그룹(1702), 제3 그룹(1703), 제4 그룹(1704), 및 제5 그룹(1705)로 나뉜 수 있다. 테스트 타겟 특징들의 세트들(1710)이 1000개의 세트들을 포함하는 경우, 그룹들(1701 내지 1705)의 각각은 200개의 세트들을 포함한다. 각각의 세트는 특정 테스트 사용자에 대한 테스트 타겟 특징들을 포함한다.
제1 테스트 DNN(1720)는 제2 내지 제5 그룹들(1702 내지 1705)을 사용하여 갱신될 수 있다. 예를 들어, 제1 테스트 DNN(1720)는 800개의 세트들에 기초하여 800회 갱신될 수 있다.
갱신된 제1 테스트 DNN(1720)는 제1 그룹(1701)을 입력으로 하여 제1 그룹(1701)에 대한 테스트 사용자들의 치매 정도들을 결정할 수 있다. 예를 들어, 제1 테스트 DNN(1720)는 200개의 세트들에 대한 200개의 제2 테스트 치매 정도들을 결정할 수 있다.
제1 그룹(1701)의 200개의 세트들 각각의 GT 치매 정도들과 200개의 제2 테스트 치매 정도들에 기초하여 제1 테스트 DNN(1720)의 정확도가 계산될 수 있다. 유사하게, 제2 내지 제4 테스트 DNN들의 정확도들이 계산될 수 있다. 최종적으로, 제1 내지 제5 테스트 DNN들의 정확도들의 평균에 기초하여 테스트 타겟 특징들이 검증될 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (15)

  1. 전자 장치에 의해 수행되는, 사용자의 치매 정도를 결정하는 방법은,
    사용자 단말을 통해 사용자의 치매 정도를 결정하기 위해 미리 제작된 제1 컨텐츠를 출력하는 단계;
    상기 사용자 단말의 마이크를 통해 획득된 상기 제1 컨텐츠에 대한 상기 사용자의 제1 음성을 수신하는 단계;
    상기 사용자 단말을 통해 미리 제작된 제2 컨텐츠를 출력하는 단계;
    상기 마이크를 통해 획득된 상기 제2 컨텐츠에 대한 상기 사용자의 제2 음성을 수신하는 단계;
    상기 제1 음성의 적어도 하나의 특성을 시각화함으로써 제1 스펙트로그램(spectrogram) 이미지를 생성하는 단계;
    상기 제2 음성의 적어도 하나의 특성을 시각화함으로써 제2 스펙트로그램 이미지를 생성하는 단계;
    상기 제1 스펙트로그램 이미지를 미리 갱신된 제1 콘볼루션 신경망(convolutional neural network: CNN)에 입력함으로써 상기 제1 음성에 대한 미리 설정된 개수의 제1 특징들을 생성하는 단계;
    상기 제2 스펙트로그램 이미지를 미리 갱신된 제2 CNN에 입력함으로써 상기 제2 음성에 대한 미리 설정된 개수의 제2 특징들을 생성하는 단계;
    상기 제1 특징들 및 상기 제2 특징들 중 미리 설정된 개수의 타겟 특징들을 결정하는 단계; 및
    상기 타겟 특징들을 미리 갱신된 심층 신경망(deep neural network: DNN)에 입력함으로써 상기 사용자의 치매 정도를 결정하는 단계
    를 포함하고,
    상기 결정된 치매 정도가 상기 사용자 단말을 통해 출력되는,
    치매 정도 결정 방법.
  2. 제1항에 있어서,
    상기 제1 컨텐츠는 상기 제1 음성을 수신하기 위한 지시(instruction)를 포함하고,
    상기 제1 컨텐츠는 사용자가 문장을 따라 말하도록 하는 컨텐츠, 출력되는 이미지의 명칭을 맞추는 컨텐츠, 출력되는 이미지를 설명하는 컨텐츠, 및 언어의 유창성을 위한 컨텐츠, 숫자 연산을 위한 컨텐츠, 이야기 말하기(story telling)를 유도하는 컨텐츠 중 하나인,
    치매 정도 결정 방법.
  3. 제1항에 있어서,
    상기 제1 음성의 적어도 하나의 특성을 시각화함으로써 제1 스펙트로그램 이미지를 생성하는 단계는,
    리브로사 툴(librosa tool)을 통해 상기 제1 음성에 대한 상기 제1 스펙트로그램 이미지를 생성하는 단계
    를 포함하는,
    치매 정도 결정 방법.
  4. 제1항에 있어서,
    상기 제1 CNN은 VGG16 모델에 기초하여 미리 갱신된,
    치매 정도 결정 방법.
  5. 제1항에 있어서,
    상기 제1 CNN은 입력 레이어 및 5개의 콘볼루션 레이어 블록들을 포함하고, 풀리 커넥티드 레이어(fully connected layer) 및 소프트맥스(softmax)를 포함하지 않음으로써 상기 제1 스펙트로그램 이미지에 대한 상기 제1 특징들을 생성하는,
    치매 정도 결정 방법.
  6. 제1항에 있어서,
    상기 제1 CNN을 갱신하는 단계
    를 더 포함하는,
    치매 정도 결정 방법.
  7. 제6항에 있어서,
    상기 제1 CNN을 갱신하는 단계는,
    상기 제1 컨텐츠에 대한 테스트 사용자의 제1 테스트 음성을 수신하는 단계;
    상기 제1 테스트 음성의 적어도 하나의 특성을 시각화함으로써 제1 테스트 스펙트로그램 이미지를 생성하는 단계 - 상기 제1 테스트 스펙트로그램 이미지에는 상기 테스트 사용자의 GT(ground truth) 치매 정도가 라벨링됨 -;
    상기 제1 테스트 스펙트로그램 이미지를 완전한 제1 CNN에 입력함으로써 상기 테스트 사용자에 대한 제1 테스트 치매 정도를 결정하는 단계 - 상기 완전한 제1 CNN은 입력 레이어, 하나 이상의 콘볼루션 레이어들 블록들, 풀리 커넥티드 레이어 및 소프트맥스를 포함함 -; 및
    상기 제1 테스트 치매 정도 및 상기 GT 치매 정도에 기초하여 상기 완전한 제1 CNN을 갱신하는 단계
    를 포함하고,
    상기 제1 CNN은 상기 갱신된 완전한 제1 CNN의 레이어들 중 상기 입력 레이어 및 상기 하나 이상의 콘볼루션 레이어 블록들만을 포함하는,
    치매 정도 결정 방법.
  8. 제7항에 있어서,
    상기 제1 CNN 및 상기 제2 CNN을 포함하는 복수의 CNN들의 갱신이 완료된 후, 상기 DNN을 갱신하는 단계
    를 더 포함하는,
    치매 정도 결정 방법.
  9. 제8항에 있어서,
    상기 DNN을 갱신하는 단계는,
    제1 테스트 스펙트로그램 이미지에 기초하여 생성된 미리 설정된 개수의 제1 테스트 특징들 및 제2 테스트 스펙트로그램 이미지에 기초하여 생성된 미리 설정된 개수의 제2 테스트 특징들 중 미리 설정된 개수의 테스트 타겟 특징들을 결정하는 단계 - 상기 테스트 타겟 특징들에는 상기 테스트 사용자의 GT 치매 정도가 라벨링됨 -;
    상기 테스트 타겟 특징들을 상기 DNN에 입력함으로써 상기 테스트 사용자의 제2 테스트 치매 정도를 결정하는 단계; 및
    상기 제2 테스트 치매 정도 및 상기 GT 치매 정도에 기초하여 상기 DNN을 갱신하는 단계
    를 포함하는,
    치매 정도 결정 방법.
  10. 제9항에 있어서,
    상기 DNN을 갱신하는 단계는,
    K-폴드 교차 검증 방법을 통해 상기 테스트 타겟 특징들을 검증하는 단계 - 상기 K는 2 이상의 자연수임 -
    를 더 포함하고,
    상기 테스트 타겟 특징들이 검증되지 않은 경우, 상기 제1 CNN 및 상기 제2 CNN이 재갱신되는,
    치매 정도 결정 방법.
  11. 제10항에 있어서,
    상기 K-폴드 교차 검증 방법을 통해 상기 테스트 타겟 특징들을 검증하는 단계는,
    테스트 타겟 특징들의 세트들을 상기 K 개의 그룹들로 나누는 단계;
    상기 K 개의 그룹들에 기초하여 K개의 초기 DNN들을 각각 갱신함으로써 K개의 테스트 DNN들을 생성하는 단계; 및
    상기 K개의 테스트 DNN들의 정확도에 기초하여 상기 테스트 타겟 특징들을 검증하는 단계
    를 포함하는,
    치매 정도 결정 방법.
  12. 제1항의 방법을 수행하는 프로그램을 수록한 컴퓨터 판독 가능 기록 매체.
  13. 사용자의 치매 정도를 결정하는 전자 장치는,
    사용자의 치매 정도를 결정하는 프로그램이 기록된 메모리; 및
    상기 프로그램을 수행하는 프로세서
    를 포함하고,
    상기 프로그램은,
    사용자 단말을 통해 사용자의 치매 정도를 결정하기 위해 미리 제작된 제1 컨텐츠를 출력하는 단계;
    상기 사용자 단말의 마이크를 통해 획득된 상기 제1 컨텐츠에 대한 상기 사용자의 제1 음성을 수신하는 단계;
    상기 사용자 단말을 통해 미리 제작된 제2 컨텐츠를 출력하는 단계;
    상기 마이크를 통해 획득된 상기 제2 컨텐츠에 대한 상기 사용자의 제2 음성을 수신하는 단계;
    상기 제1 음성의 적어도 하나의 특성을 시각화함으로써 제1 스펙트로그램(spectrogram) 이미지를 생성하는 단계;
    상기 제2 음성의 적어도 하나의 특성을 시각화함으로써 제2 스펙트로그램 이미지를 생성하는 단계;
    상기 제1 스펙트로그램 이미지를 미리 갱신된 제1 콘볼루션 신경망(convolutional neural network: CNN)에 입력함으로써 상기 제1 음성에 대한 미리 설정된 개수의 제1 특징들을 생성하는 단계;
    상기 제2 스펙트로그램 이미지를 미리 갱신된 제2 CNN에 입력함으로써 상기 제2 음성에 대한 미리 설정된 개수의 제2 특징들을 생성하는 단계;
    상기 제1 특징들 및 상기 제2 특징들 중 미리 설정된 개수의 타겟 특징들을 결정하는 단계; 및
    상기 타겟 특징들을 미리 갱신된 심층 신경망(deep neural network: DNN)에 입력함으로써 상기 사용자의 치매 정도를 결정하는 단계
    를 수행하고,
    상기 결정된 치매 정도가 상기 사용자 단말을 통해 출력되는,
    전자 장치.
  14. 전자 장치에 의해 수행되는, 사용자의 치매 정도를 결정하기 위해 사용되는 콘볼루션 신경망(convolutional neural network: CNN)을 갱신하는 방법은,
    사용자 단말을 통해 사용자의 치매 정도를 결정하기 위해 미리 제작된 제1 컨텐츠를 출력하는 단계;
    상기 제1 컨텐츠에 대한 테스트 사용자의 제1 테스트 음성을 수신하는 단계;
    상기 제1 테스트 음성의 적어도 하나의 특성을 시각화함으로써 제1 테스트 스펙트로그램 이미지를 생성하는 단계 - 상기 제1 테스트 스펙트로그램 이미지에는 상기 테스트 사용자의 GT(ground truth) 치매 정도가 라벨링됨 -;
    상기 제1 테스트 스펙트로그램 이미지를 완전한 CNN에 입력함으로써 상기 테스트 사용자에 대한 테스트 치매 정도를 결정하는 단계 - 상기 완전한 CNN은 입력 레이어, 하나 이상의 콘볼루션 레이어 블록들, 풀리 커넥티드 레이어 및 소프트맥스를 포함함 -; 및
    상기 테스트 치매 정도 및 상기 GT 치매 정도에 기초하여 상기 완전한 CNN을 갱신하는 단계
    를 포함하고,
    상기 CNN은 상기 갱신된 완전한 CNN의 레이어들 중 상기 입력 레이어 및 상기 하나 이상의 콘볼루션 레이어 블록들만을 포함하는,
    CNN 갱신 방법.
  15. 사용자의 치매 정도를 결정하기 위해 사용되는 콘볼루션 신경망(convolutional neural network: CNN)을 갱신하는 전자 장치는,
    상기 CNN을 갱신하는 프로그램이 기록된 메모리; 및
    상기 프로그램을 수행하는 프로세서
    를 포함하고,
    상기 프로그램은,
    사용자 단말을 통해 사용자의 치매 정도를 결정하기 위해 미리 제작된 제1 컨텐츠를 출력하는 단계;
    상기 제1 컨텐츠에 대한 테스트 사용자의 제1 테스트 음성을 수신하는 단계;
    상기 제1 테스트 음성의 적어도 하나의 특성을 시각화함으로써 제1 테스트 스펙트로그램 이미지를 생성하는 단계 - 상기 제1 테스트 스펙트로그램 이미지에는 상기 테스트 사용자의 GT(ground truth) 치매 정도가 라벨링됨 -;
    상기 제1 테스트 스펙트로그램 이미지를 완전한 CNN에 입력함으로써 상기 테스트 사용자에 대한 테스트 치매 정도를 결정하는 단계 - 상기 완전한 CNN은 입력 레이어, 하나 이상의 콘볼루션 레이어 블록들, 풀리 커넥티드 레이어 및 소프트맥스를 포함함 -; 및
    상기 테스트 치매 정도 및 상기 GT 치매 정도에 기초하여 상기 완전한 CNN을 갱신하는 단계
    를 수행하고,
    상기 CNN은 상기 갱신된 완전한 CNN의 레이어들 중 상기 입력 레이어 및 상기 하나 이상의 콘볼루션 레이어 블록들만을 포함하는,
    전자 장치.
PCT/KR2021/011848 2020-09-04 2021-09-02 사용자의 치매 정도 결정 방법 및 장치 WO2022050719A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202180054806.7A CN116113356A (zh) 2020-09-04 2021-09-02 用于确定用户痴呆程度的方法及装置
US17/608,592 US20230210440A1 (en) 2020-09-04 2021-09-02 Method and Apparatus for Determining Degree of Dementia of User

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200113333A KR102274072B1 (ko) 2020-09-04 2020-09-04 사용자의 치매 정도 결정 방법 및 장치
KR10-2020-0113333 2020-09-04

Publications (1)

Publication Number Publication Date
WO2022050719A1 true WO2022050719A1 (ko) 2022-03-10

Family

ID=76893517

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/011848 WO2022050719A1 (ko) 2020-09-04 2021-09-02 사용자의 치매 정도 결정 방법 및 장치

Country Status (4)

Country Link
US (1) US20230210440A1 (ko)
KR (1) KR102274072B1 (ko)
CN (1) CN116113356A (ko)
WO (1) WO2022050719A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102274072B1 (ko) * 2020-09-04 2021-07-08 김형준 사용자의 치매 정도 결정 방법 및 장치
KR20230037432A (ko) * 2021-09-09 2023-03-16 주식회사 에이블테라퓨틱스 사용자의 치매 정도 결정 방법 및 장치
KR102539191B1 (ko) * 2022-08-05 2023-06-02 주식회사 실비아헬스 인지 상태 정보 제공 방법 및 이를 위한 전자 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101182069B1 (ko) * 2011-09-14 2012-09-11 영남대학교 산학협력단 발화문장의 운율분석을 통한 특발성 파킨슨병 진단장치 및 진단방법
CN107506797A (zh) * 2017-08-25 2017-12-22 电子科技大学 一种基于深度神经网络和多模态影像阿尔兹海默病分类方法
KR101936302B1 (ko) * 2018-06-29 2019-01-08 이채영 딥러닝 네트워크에 기반한 퇴행성 신경질환 진단 방법 및 진단 장치
KR102001398B1 (ko) * 2018-01-25 2019-07-18 재단법인 아산사회복지재단 기계학습을 통한 뇌질환 상태변화 예측방법, 장치 및 프로그램
KR102274072B1 (ko) * 2020-09-04 2021-07-08 김형준 사용자의 치매 정도 결정 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101182069B1 (ko) * 2011-09-14 2012-09-11 영남대학교 산학협력단 발화문장의 운율분석을 통한 특발성 파킨슨병 진단장치 및 진단방법
CN107506797A (zh) * 2017-08-25 2017-12-22 电子科技大学 一种基于深度神经网络和多模态影像阿尔兹海默病分类方法
KR102001398B1 (ko) * 2018-01-25 2019-07-18 재단법인 아산사회복지재단 기계학습을 통한 뇌질환 상태변화 예측방법, 장치 및 프로그램
KR101936302B1 (ko) * 2018-06-29 2019-01-08 이채영 딥러닝 네트워크에 기반한 퇴행성 신경질환 진단 방법 및 진단 장치
KR102274072B1 (ko) * 2020-09-04 2021-07-08 김형준 사용자의 치매 정도 결정 방법 및 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ARPACI Y, CANBOLAT H: "Environmental Sound Recognition With Varıous Feature Extraction And Classification Techniques", 26 June 2019 (2019-06-26) - 29 June 2019 (2019-06-29), pages 110 - 113, XP055909320 *
TÜRKOĞLU İ: "Using Deep Learning Models in Problem Solving", INTERNATIONAL CONFERENCE ON DATA SCIENCE, MACHINE LEARNING AND STATISTICS - 2019 (DMS-2019), 26 June 2019 (2019-06-26) - 29 June 2019 (2019-06-29), pages 8 - 10, XP055909317 *

Also Published As

Publication number Publication date
CN116113356A (zh) 2023-05-12
US20230210440A1 (en) 2023-07-06
KR102274072B1 (ko) 2021-07-08

Similar Documents

Publication Publication Date Title
WO2022050719A1 (ko) 사용자의 치매 정도 결정 방법 및 장치
WO2021060899A1 (ko) 인공지능 모델을 사용 기관에 특화시키는 학습 방법, 이를 수행하는 장치
WO2020096099A1 (ko) 기계 학습 방법 및 장치
WO2020180084A1 (ko) 타겟 이미지의 채색 완성 방법, 장치 및 컴퓨터 프로그램
WO2021010671A2 (ko) 뉴럴 네트워크 및 비국소적 블록을 이용하여 세그멘테이션을 수행하는 질병 진단 시스템 및 방법
WO2020045794A1 (ko) 전자 장치 및 그 제어 방법
WO2022146050A1 (ko) 우울증 진단을 위한 인공지능 연합학습 방법 및 시스템
WO2011115315A1 (ko) 인지 재활 훈련 프로그램을 위한 시스템 및 그를 이용한 서비스 방법.
WO2023211025A1 (ko) 인공지능을 이용한 치열 교정법 추천 시스템 및 그 방법
WO2019164144A1 (ko) 전자 장치 및 이의 자연어 생성 방법
WO2020032561A2 (ko) 다중 색 모델 및 뉴럴 네트워크를 이용한 질병 진단 시스템 및 방법
WO2019112117A1 (ko) 텍스트 콘텐츠 작성자의 메타정보를 추론하는 방법 및 컴퓨터 프로그램
WO2014208950A1 (en) Method and apparatus for managing medical data
WO2020032560A2 (ko) 진단 결과 생성 시스템 및 방법
WO2023140585A1 (ko) 인공지능을 이용한 치열 진단 시스템 및 그 방법
WO2019235827A1 (ko) 듀얼 클래스를 지원하는 질병 진단 시스템 및 그 방법
WO2023132419A1 (en) Technique of identifying dementia
WO2022149720A1 (ko) 기계학습모델을 이용하여 우울증예비진단정보를 제공하는 방법, 시스템 및 컴퓨터-판독가능 매체
WO2019107624A1 (ko) 시퀀스-대-시퀀스 번역 방법 및 이를 위한 장치
WO2022235073A1 (ko) 독해와 작문 능력의 향상을 가이드하는 방법 및 그 장치
WO2021246586A1 (ko) 하드웨어 가속기를 위한 파라미터를 메모리로부터 액세스하는 방법 및 이를 이용한 장치
WO2024136129A1 (ko) 정수형 npu에서 동작하는 신경망을 위한 네트워크 파라미터 교정 방법 및 이를 위한 장치
WO2022019354A1 (ko) 커스터마이징 진단 시스템 제공방법 및 그 시스템
WO2021194053A1 (ko) 초음파 진단 장치 및 그 동작 방법
WO2022270815A1 (ko) 전자 장치 및 전자 장치의 제어 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21864678

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21864678

Country of ref document: EP

Kind code of ref document: A1