WO2023054887A1 - 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치 및 방법 - Google Patents

딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치 및 방법 Download PDF

Info

Publication number
WO2023054887A1
WO2023054887A1 PCT/KR2022/011812 KR2022011812W WO2023054887A1 WO 2023054887 A1 WO2023054887 A1 WO 2023054887A1 KR 2022011812 W KR2022011812 W KR 2022011812W WO 2023054887 A1 WO2023054887 A1 WO 2023054887A1
Authority
WO
WIPO (PCT)
Prior art keywords
autism spectrum
spectrum disorder
deep learning
infants
young children
Prior art date
Application number
PCT/KR2022/011812
Other languages
English (en)
French (fr)
Inventor
김홍국
이정혁
이건우
Original Assignee
광주과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020220092428A external-priority patent/KR20230046199A/ko
Application filed by 광주과학기술원 filed Critical 광주과학기술원
Publication of WO2023054887A1 publication Critical patent/WO2023054887A1/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Definitions

  • the present invention relates to a spectrum disorder prediction technology, and more particularly, to an apparatus for predicting autism spectrum disorder in infants and young children based on deep learning using an auto-encoder feature expression capable of selecting autism spectrum disorder from speech of infants and young children using the feature expression of an auto-encoder, and it's about how
  • Autism is called a spectrum because there are various types and degrees depending on the characteristics.
  • DSM-5 Diagnostic and Statistical Manual of Mental Disorders, Fifth Edition (DSM-5), Autism Spectrum Disorders are characterized by specific interests or behaviors, delayed language development, and impaired communication or functioning in social situations. contains several characteristics.
  • ASD Autism Spectrum Disorder
  • the present invention proposes a method for improving infant autism spectrum detection by obtaining voice feature expression based on an auto-encoder (AE).
  • AE auto-encoder
  • the present invention relates to discrimination of autism spectrum disorder, and a device for predicting autism spectrum disorder in infants and young children based on deep learning that can predict autism spectrum disorder by adding an auto-encoder for extracting features of voice data of infants using characteristics of developmental delay in language ability. and methods.
  • an apparatus for predicting autism spectrum disorder in infants and young children based on deep learning is provided.
  • An apparatus for predicting autism spectrum disorder in infants and young children based on deep learning includes an input unit for segmenting voice data, a first extractor for extracting voice features for classifying autism spectrum disorder (ASD), and an auto-encoder based It may include a second extractor for extracting voice features and a classification unit for classifying autism spectrum disorders using the voice features.
  • ASD autism spectrum disorder
  • a method for predicting autism spectrum disorder in infants and young children based on deep learning and a computer program executing the same are provided.
  • a method for predicting autism spectrum disorder in infants and young children based on deep learning include the steps of receiving and segmenting voice data, extracting voice features from voice data, and using auto-encoders to determine feature values.
  • the step of embedding, and the step of classifying autism spectrum disorder may be included.
  • reliability of autism spectrum disorder classification can be increased by adding an auto-encoder to feature extraction using voice in the early stages of development of autistic children.
  • FIGS. 1 and 2 are diagrams for explaining an apparatus for predicting autism spectrum disorder in infants and young children based on deep learning according to an embodiment of the present invention.
  • FIG. 3 is an exemplary view for explaining a joint optimization learning model of the apparatus for predicting autism spectrum disorder in infants and young children based on deep learning according to an embodiment of the present invention.
  • FIG. 4 is a diagram illustrating a method for predicting autism spectrum disorder in infants and young children based on deep learning according to an embodiment of the present invention.
  • FIGS. 1 and 2 are diagrams for explaining an apparatus for predicting autism spectrum disorder in infants and young children based on deep learning according to an embodiment of the present invention.
  • the apparatus 10 for predicting autism spectrum disorder in infants and young children based on deep learning may include an input unit 100, a first extraction unit 200, a second extraction unit 300, and a classification unit 400. .
  • the input unit 100 divides and uses only the infant's voice from the voice data.
  • the input unit 100 may divide voice data into audio segments including other sounds and infant voices that do not overlap with other people's voices. -
  • the first extractor 200 may extract voice features for classification of autism spectrum disorder (ASD) from voice data of infants and toddlers.
  • ASD autism spectrum disorder
  • the first extractor 200 may use eGeMAPS (The extended Geneva Minimalistic Acoustic Parameter Set) for voice feature extraction in order to obtain an effective feature set having quality for voice data.
  • the Geneva Minimalistic Acoustic Parameter Set (GeMAPS) is a popular feature set that provides minimal speech features commonly used in automatic speech analysis rather than a large brute force parameter set.
  • the extended Geneva Minimalistic Acoustic Parameter Set (eGeMAPS) contains 88 voice functions fully utilized in the present invention.
  • the first extractor 200 downsamples and downmixes each recorded audio data set stored as a 48 kHz stereo file into a 16 kHz mono audio file in consideration of usability and resolution in MFCCs (mel-frequency cepstral coeffcients). .
  • the first extractor 200 divides each infant's utterance into 25 ms frames in which 10 ms overlaps between frames in order to extract voice features for ASD classification. Then, the input unit 100 may extract various speech features for each frame through open source speech and sound analysis using the OpenSMILE toolkit. For example, the first extractor 200 may extract various features of 88 eGeMAPS for each frame. The input unit 100 may normalize the extracted features by average and standard deviation.
  • the first extractor 200 may obtain and correct normalized scaling by normalizing factors of the training data set.
  • the first extractor 200 may group the normalized features by 5 frames in consideration of time-related characteristics of voice data.
  • the first extractor 200 may extract voice features for classification of autism spectrum disorder (ASD) from voice data of infants and toddlers.
  • ASD autism spectrum disorder
  • the first extractor 200 may extract eGeMAPS features from voice data of infants and toddlers.
  • the second extractor 300 may use an auto-encoder (AE) model for feature extraction for diagnosing autism spectrum disorder. That is, the second extractor 300 may use an auto-encoder (AE) based speech feature extraction model.
  • AE auto-encoder
  • An auto-encoder (AE) model converts input parameters into a latent representation using a hidden layer.
  • the latent expression z ⁇ R d' and the reconstructed input y ⁇ R d are the weight matrix W ⁇ R dXd as shown in [Equation 1] It can be obtained by applying a nonlinear activation function f to the weighted sum of z using ' and the bias vector b ⁇ R d' .
  • T is the matrix transpose operator.
  • the output of the latent layer is considered as a compressed meaningful value extracted from the input and can be referred to as a bottleneck feature.
  • the autoencoder training model may be composed of input, hidden, latent, hidden, and output layers.
  • each layer may be configured to have dimensions of 88, 70, 54, 70, and 88 nodes, respectively, as a fully connected (FC) layer.
  • an encoder (AE-Encoder, 310) and a decoder (AE-Decoder, 320) are symmetrically structured around the latent layer.
  • the encoder (AE-Encoder, 310) is configured from the input layer to the latent layer
  • the decoder (AE-Decoder, 320) may include from the bottleneck point to the output layer. It may include a latent layer having a reduced and compressed feature dimension.
  • the second extractor 300 may reconstruct the voice feature using the voice feature extracted by the first extractor 200 as an input value. .
  • the second extractor 300 may reconstruct and extract voice features using a deep learning model that takes the voice features extracted by the first extractor 200 as input values.
  • the second extractor 300 may reconstruct the voice features extracted by the first extractor 200 using an auto-encoder (AE) model.
  • AE auto-encoder
  • the second extractor 300 uses an auto-encoder model, it can transform into a latent expression that can better represent distinguishable features of data through feature value embedding.
  • the second extraction unit 300 inputs latent expression values and applies multi-task learning that outputs autism spectrum disorder (ASD)/normal development (TD) test results, thereby embedding through semi-supervised learning. can improve performance.
  • ASD autism spectrum disorder
  • TD normal development
  • the second extractor 300 may use the normalized voice features of the first extractor 200 as an input.
  • the second extractor 300 divides autism spectrum disorder (ASD) and normal development (TD) into binary categorical targets through semi-supervised learning. Auxiliary output (AUX) ) can be added.
  • ASD autism spectrum disorder
  • TD normal development
  • AUX auxiliary output
  • the second extractor 300 may calculate a classification result based on the reconstructed speech feature and auxiliary output as in [Equation 2].
  • y rec represents the reconstructed speech feature
  • y aux is the classification result by auxiliary output
  • f is the activation function
  • is the softmax activation.
  • the second extractor 300 measures the loss of the reconstruction error using the mean absolute error, while the classification result loss of the auxiliary output uses the binary cross-entropy loss function.
  • the second extractor 300 may combine the reconstruction error loss and the classification result loss of the auxiliary output with a reasonable hyperparameter and optimize them at the same time.
  • L aux classification result loss of auxiliary output using binary cross-entropy loss function
  • the classification unit 400 may configure a deep learning learning model for determining autism spectrum disorder using the latent expression output from the second extraction unit 300 as an input.
  • the classification unit 400 takes the characteristics of the grouped speech extracted by the first extraction unit 200 as an input value and uses the latent expression encoded and output through the second extraction unit 300 as an input; It can be configured with a deep learning model such as BLSTM (Bidirectional LSTM), which targets autism spectrum infants and general developmental infants and young children classification labels.
  • BLSTM Bidirectional LSTM
  • the classifier 400 may apply batch normalization, Rectangle Linear Unit (ReLU) activation, and dropout to each layer except for the output layer, and may use Adaptive Momentum (ADAM) optimization.
  • the classification unit 400 may stop training early to minimize validation error within 100 epochs, and store and control the best BLSTM learning model to improve validation loss for each epoch.
  • FIG. 3 is a diagram for explaining a joint optimization learning model of an autoencoder and a BLSTM of a deep learning-based apparatus for predicting autism spectrum disorder in infants and young children according to an embodiment of the present invention.
  • the joint optimization model of the auto encoder and the BLSTM is a voice reconstructed through the second extraction unit 300 by using the grouped speech features extracted by the first extraction unit 200 as input values.
  • Features can be used as inputs to deep learning-based classifier models.
  • a deep learning based classifier model may include a BLSTM trained model.
  • the apparatus 10 for predicting autism spectrum disorder in infants and young children based on deep learning configures the feature extraction part using the encoder 310 of the second extraction unit 300 in the trained BLSTM learning model to generate the auto encoder and the BLSTM.
  • a joint optimization model can be constructed.
  • the apparatus 10 for predicting autism spectrum disorder in infants and young children based on deep learning can discriminate between autism spectrum disorder and normal development using a joint optimization model of an autoencoder and BLSTM.
  • [Table 1] is the average performance table of five verification splits for BLSTM with Support Vector Machine (SVM), BLSTM with 88 or 54 eGeMAPS features, and BLSTM with autoencoder.
  • SVM Support Vector Machine
  • BLSTM with 88 or 54 eGeMAPS features BLSTM with autoencoder.
  • the models in the BLSTM label in [Table 1] are the features through BLSTM model learning, eGeMAPS-54 represents 54 features selected by the Mann-Whitney U test, eGeMAPS-88 represents 88 features of eGeMAPS, and AE - Encoded is a joint optimization model using autoencoder and BLSTM.
  • one utterance was processed in a frame-wise manner, and the softmax output was converted into class indices 0 and 1. If the average of the class indices of a frame was 0.5 or more, the utterance was regarded as an utterance of an ASD child.
  • the SVM model in the experiment showed very low precision and was extremely biased towards the TD class.
  • the eGeMAPS-88 (BLSTM) model showed significant quality in terms of classifying children as Autism Spectrum Disorder (ASD) and Normal Development (TD)
  • the AE-Encoded (BLSTM) model was significantly better than the BLSTM (eGeMAPS-88) for Autism Spectrum Disorder (ASD).
  • the BLSTM (eGeMAPS-54) model was of lower quality compared to the BLSTM (eGeMAPS-88), resulting in more biased results for normally developing (TD) children.
  • FIG. 4 is a diagram illustrating a method for predicting autism spectrum disorder in infants and young children based on deep learning according to an embodiment of the present invention.
  • Each process described below is a process performed by each functional unit constituting the device for predicting autism spectrum disorder in infants and young children based on deep learning, but for a concise and clear description of the present invention, the subject of each step is referred to as a deep learning-based prediction of autism spectrum disorder in infants and young children Let's call it a device.
  • step S410 the apparatus 10 for predicting autism spectrum disorder in infants and young children based on deep learning divides only the voice of infants, who are the main speakers, from input voice data for autism spectrum disorder classification.
  • step S420 the apparatus 10 for predicting autism spectrum disorder in infants and young children based on deep learning extracts voice features from the divided infant voice data.
  • step S430 the apparatus 10 for predicting autism spectrum disorder in infants and young children based on deep learning embeds a feature value using an auto-encoder.
  • An auto-encoder (AE) model converts input parameters into a latent representation using a hidden layer, and then reconstructs the input parameters with latent values.
  • step S440 the apparatus 10 for predicting autism spectrum disorder in infants and young children based on deep learning extracts a latent expression through an encoder unit of an auto-encoder.
  • step S450 the apparatus 10 for predicting autism spectrum disorder in infants and young children based on deep learning uses the latent expression extracted in step S440 as an input and classifies autism spectrum disorder using a deep learning-based classifier model.
  • the apparatus 10 for predicting autism spectrum disorder in infants and young children based on deep learning may classify autism spectrum disorder based on the BLSTM model.
  • ASD autism spectrum disorder
  • TD normal development
  • the present invention uses a reconstructed eGeMAPS feature having a more characteristic distribution than the eGeMAPS used as an example of the negative feature.
  • the eGeMAPS features encoded and reconstructed by the autoencoder according to an embodiment of the present invention weight the matrix by focusing on important parameters while reducing the influence of ambiguous parameters, and the bottleneck features derived thereby are compressed to detect the autism spectrum in infants and young children. effective.
  • the above-described method for predicting autism spectrum disorder in infants and young children based on deep learning may be implemented as computer readable code on a computer readable medium.
  • the computer-readable recording medium may be, for example, a removable recording medium (CD, DVD, Blu-ray disc, USB storage device, removable hard disk) or a fixed recording medium (ROM, RAM, computer-equipped hard disk).
  • ROM, RAM, computer-equipped hard disk can be implemented as computer readable code on a computer readable medium.
  • the computer-readable recording medium may be, for example, a removable recording medium (CD, DVD, Blu-ray disc, USB storage device, removable hard disk) or a fixed recording medium (ROM, RAM, computer-equipped hard disk).
  • the computer program recorded on the computer-readable recording medium may be transmitted to another computing device through a network such as the Internet, installed in the other computing device, and thus used in the other computing device.
  • the present invention can be used as data for diagnosing complex autism spectrum disorder by increasing the accuracy of predicting autism spectrum disorder by using the voice of a child of the autism spectrum disorder (ASD) child group, which is distinguished from the normal development (TD) child group. There is a possibility.
  • ASD autism spectrum disorder
  • TD normal development

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Pathology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Child & Adolescent Psychology (AREA)
  • Psychiatry (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Developmental Disabilities (AREA)
  • Educational Technology (AREA)
  • Hospice & Palliative Care (AREA)
  • General Physics & Mathematics (AREA)
  • Psychology (AREA)
  • Social Psychology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Computer Vision & Pattern Recognition (AREA)

Abstract

본 발명은 장애 스펙트럼 진단 기술에 관한 것으로, 더욱 상세하게는 오토 인코더의 특징 표현을 이용해 영유아의 음성으로부터 자폐스펙트럼 장애를 선별할 수 있는 오토 인코더 특징 표현을 이용한 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치 및 방법에 대한 것이다. 본 발명의 일 측면에 따르면, 자폐 아동의 발달 초기 음성을 이용한 특징 추출에 오토 인코더를 추가하여 자폐 스펙트럼 장애 분류의 신뢰도를 높일 수 있다.

Description

딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치 및 방법
본 발명은 장애 스펙트럼 예측 기술에 관한 것으로, 더욱 상세하게는 오토 인코더의 특징 표현을 이용해 영유아의 음성으로부터 자폐스펙트럼 장애를 선별할 수 있는 오토 인코더 특징 표현을 이용한 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치 및 방법에 대한 것이다.
자폐는 특성에 따라 종류와 정도가 다양하여 스펙트럼이라고 한다.
자폐 스펙트럼 장애(ASD) 아동과 정상 발달(TD) 아동 구별의 정확성을 바탕으로 진단기기가 개발되고 검증되었지만, 시간적 제약과 임상의의 주관성으로 인해 절차의 안정성이 저해될 수 있다.
정신 장애 진단 및 통계 편람, 제5판(DSM-5)에 따르면, 자폐 스펙트럼 장애는 특정 관심사나 행동에 국한되고, 언어 발달이 지연되고, 사회적 상황에서 의사 소통이나 기능의 기능이 저하되는 것과 같은 여러 특성을 포함한다.
자폐 스펙트럼 장애(ASD)를 가진 사람들이 조기에 임상적 개입을 할 때 사회적 능력이 향상될 가능성이 높아진다는 선행 연구에서 다양한 증거가 얻어졌기 때문에, 자폐 스펙트럼 장애(ASD) 특성의 조기 발견이 현재 자폐 스펙트럼 장애(ASD) 연구의 핵심 포인트라고 할 수 있다.
이에 자폐 스펙트럼 장애(ASD)의 객관적인 척도를 얻기 위한 자동 진단이 개발되어 다양한 연구 분야에서 음성적 특성이 보고되고 있을 뿐만 아니라 임상의의 고유한 특성으로 간주되지만 자폐 스펙트럼 장애 (ASD) 아동과 정상 발달(TD) 아동의 자동화된 차별에 기반한 딥 러닝 모델을 활용한 여러 연구에서도 유망한 성능을 보여주었다.
그러나 데이터의 특성, 분석의 복잡성, 진단에 대한 낮은 접근성과 익명성 확보의 필요성 등으로 정리된 데이터의 부족 등의 어려움이 여전히 존재한다. 다양한 음향 특성에 기반한 선행 연구의 품질은 정상 발달(TD) 아동 그룹과 구분되는 자폐 스펙트럼 장애(ASD) 아동 그룹의 어린이 목소리 이상 감지를 위한 음향 특성 및 분류 알고리즘의 효과가 입증되었지만 특성 간의 복잡성과 고유한 관계는 그대로 유지되어 많은 양의 데이터가 축적될 때까지 불확실하다. 본 발명에서는 이러한 어려움을 해결하기 위하여 오토인코더(Auto-Encoder, AE)에 기반한 음성 특징 표현을 취득함으로써 영유아 자폐 스펙트럼 감지를 향상시킬 수 있는 방법을 제안한다.
본 발명은 자폐 스펙트럼 장애 판별에 관한 것으로, 언어 능력 발달 지연의 특징을 이용하여 영유아의 음성 데이터의 특징 추출을 위한 오토 인코더를 추가하여 자폐 스펙트럼 장애를 예측할 수 있는 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치 및 방법을 제공한다.
본 발명의 일 측면에 따르면, 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치를 제공한다.
본 발명의 일 실시 예에 따른 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치는 음성 데이터를 분할하는 입력부, 자폐 스펙트럼 장애(ASD) 분류를 위한 음성 특징(Feature)을 추출하는 제1 추출부, 오토 인코더 기반 음성 특징을 추출하는 제2추출부 및 음성 특징을 이용해 자폐 스펙트럼 장애를 분류하는 분류부를 포함할 수 있다.
본 발명의 다른 일 측면에 따르면, 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 방법 및 이를 실행하는 컴퓨터 프로그램을 제공한다.
본 발명의 일 실시 예에 따른 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 방법 및 이를 실행하는 컴퓨터 프로그램은 음성 데이터를 입력받아 분할하는 단계, 음성 데이터에서 음성 특징을 추출하는 단계, 오토 인코더를 이용해 특징 값을 임베딩하는 단계, 자폐 스펙트럼 장애를 분류하는 단계를 포함할 수 있다.
본 발명의 일 측면에 따르면, 자폐 아동의 발달 초기 음성을 이용한 특징 추출에 오토 인코더를 추가하여 자폐 스펙트럼 장애 분류의 신뢰도를 높일 수 있다.
도 1 및 도 2는 본 발명의 일 실시 예에 따른 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치를 설명하기 위한 도면들.
도 3은 본 발명의 일 실시 예에 따른 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치의 공동 최적화 학습 모델을 설명하기 위한 예시 도면.
도 4는 본 발명의 일 실시예에 따른 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 방법을 도시한 도면.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서 및 청구항에서 사용되는 단수 표현은, 달리 언급하지 않는 한 일반적으로 "하나 이상"을 의미하는 것으로 해석되어야 한다.
이하, 본 발명의 바람직한 실시 예를 첨부도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도1 및 도 2는 본 발명의 일 실시 예에 따른 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치를 설명하기 위한 도면들이다.
도 1을 참조하면, 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치(10)는 입력부(100), 제1추출부(200), 제2추출부(300) 및 분류부(400)를 포함할 수 있다.
입력부(100)는 음성 데이터에서 영유아의 음성만을 분할하여 사용한다.
입력부(100)는 음성 특성 분석을 위해 음성 데이터에서 다른 소리와 다른 사람의 음성과 겹치지 않는 영유아의 음성을 포함하는 오디오 세그먼트로 분할할 수 있다. -
제1추출부(200)는 영유아의 음성 데이터에서 자폐 스펙트럼 장애(ASD) 분류를 위한 음성 특징(Feature)을 추출할 수 있다. 예를 들면, 제1추출부(200)는 음성 데이터에 대한 품질을 갖춘 효과적인 특징 세트를 획득하기 위해 음성 기능 추출에 eGeMAPS(The extended Geneva Minimalistic Acoustic Parameter Set)를 사용할 수 있다. GeMAPS(The Geneva Minimalistic Acoustic Parameter Set)는 대규모 무차별 대입 매개변수 집합이 아닌 자동 음성 분석에 일반적으로 사용되는 최소한의 음성 특징을 제공하는 인기 있는 기능 집합이다. 확장 버전인 eGeMAPS(The extended Geneva Minimalistic Acoustic Parameter Set)에는 본 발명에서 완전히 활용된 88개의 음성 기능이 포함되어 있다.
제1추출부(200)는 48 kHz 스테레오 파일로 저장된 각각의 녹음된 오디오 데이터 세트를 MFCCs(mel-frequency cepstral coeffcients)에서의 유용성과 해상도를 고려하여 16 kHz 모노 오디오 파일로 다운 샘플링하고 다운 믹스한다.
제1추출부(200)는 자폐 스펙트럼 장애(ASD) 분류를 위한 음성 특징을 추출하기 위해, 각 영유아의 발화는 프레임 간에 10ms가 겹치는 25ms 프레임으로 분할한다. 그런 다음, 입력부(100)는OpenSMILE 툴킷을 사용하여 오픈 소스 음성 및 음향 해석으로 각 프레임에 대해 다양한 음성 특징을 추출할 수 있다. 예를 들면, 제1추출부(200)는 각 프레임에 대해 88개의 eGeMAPS의 다양한 특징을 추출할 수 있다. 입력부(100)는 추출한 특징을 평균 및 표준 편차에 의해 정규화할 수 있다.
제1추출부(200)는 훈련 데이터 세트(Training Data Set)의 요인을 정규화하여 정규화 스케일링을 획득하고 수정할 수 있다.
제1추출부(200)는 정규화된 특징을 음성 데이터의 시간 관련 특성을 고려하여 5개의 프레임별로 그룹화할 수 있다.
제1추출부(200)는 영유아의 음성 데이터에서 자폐 스펙트럼 장애(ASD) 분류를 위한 음성 특징(Feature)을 추출할 수 있다. 예를 들면 제1추출부(200)는 영유아의 음성 데이터에서 eGeMAPS 특징을 추출할 수 있다.
제2추출부(300)는 자폐 스펙트럼 장애 진단을 위한 특징 추출에 오토 인코더(Auto-Encoder, AE) 모델을 이용할 수 있다. 즉, 제2추출부(300)는 오토 인코더(Auto-Encoder, AE) 기반 음성 특징 추출 모델을 이용할 수 있다.
도 2는 오토 인코더 훈련 모델의 예시이다.
오토 인코더(Auto-Encoder, AE) 모델은 입력 파라미터를 은닉층(Hidden layer)을 이용해 잠재 표현(latent representation)으로 변환한다.
오토 인코더(Auto-Encoder, AE) 모델의 입력이 x ∈Rd라고 가정하면, [수학식 1]과 같이 잠재 표현 z ∈Rd' 와 재구성된 입력 y ∈Rd 은 가중치 행렬 W ∈RdXd' 과 편향 벡터 b ∈Rd' 를 사용하여 z의 가중치 합에 비선형 활성화 함수 f를 적용하여 획득할 수 있다.
Figure PCTKR2022011812-appb-img-000001
T는 행렬 전치 연산자이다.
잠재 차원 d'< d일 때 잠재 계층의 출력은 입력에서 추출된 압축된 의미 있는 값으로 간주되며 병목 특징으로 지칭할 수 있다.
도2를 참조하면, 오토 인코더 훈련 모델은 입력(input), 은닉(hidden), 잠재(latent), 은닉(hidden) 및 출력(output) 레이어로 구성될 수 있다. 예를 들어, 각 레이어는 완전 연결(Fully Connected, FC) 레이어로 각각 88, 70, 54, 70 및 88 노드의 차원을 가지도록 구성될 수 있다.
오토 인코더 훈련 모델은 잠재 레이어를 중심으로 인코더(AE-Encoder, 310)와 디코더(AE-Decoder, 320)가 대칭적으로 구조화되어 있다. 인코더(AE-Encoder, 310)는 입력 레이어에서 잠재 레이어까지 구성되고, 디코더(AE-Decoder, 320)는 병목 지점에서 출력 레이어까지 포함할 수 있다.제2추출부(300)는 입력 레이어에 비해 축소되고, 압축된 특징 차원을 가진 잠재(Latent) 레이어를 포함할 수 있다.제2추출부(300)는 제1추출부(200)에 추출한 음성 특징을 입력값으로 음성 특징을 재구성할 수 있다. 제2추출부(300)는 제1추출부(200)에 추출한 음성 특징을 입력값으로 하는 딥 러닝 모델을 이용해 음성 특징을 재구성하여 추출할 수 있다. 예를 들면, 제2추출부(300)는 오토 인코더(Auto-Encoder, AE) 모델을 이용해 제1추출부(200)에서 추출한 음성 특징을 재구성할 수 있다.
제2추출부(300)는 오토 인코더 모델을 이용하므로 특징 값 임베딩을 통해 데이터의 구분 가능한 특징을 보다 잘 나타낼 수 있는 잠재 표현으로 변환할 수 있다. 제2추출부(300)는 잠재 표현 값을 입력, 자폐 스펙트럼 장애(ASD)/정상 발달(TD) 검사 결과를 출력으로 하는 multi-task learning 적용으로 준지도학습(semi-supervised learning)을 통해 임베딩 성능을 향상시킬 수 있다.
제2 추출부(300)는 제1추출부(200)의 정규화된 음성 특징을 입력으로 이용할 수 있다.
제2 추출부(300)는 자폐 스펙트럼 장애(ASD)와 정상 발달(TD)을 준지도(semi-supervised)학습을 통해 이진 범주형 대상(binary categorical target)으로 구분하는 보조 출력(Auxiliary output, AUX)을 추가할 수 있다.
제2 추출부(300)는 [수학식2]에서와 같이 재구성된 음성 특징과 보조 출력에 의한 분류 결과를 산출할 수 있다.
Figure PCTKR2022011812-appb-img-000002
yrec은 재구성된 음성 특징을 나타내고, yaux는 보조 출력에 의한 분류 결과, f는 활성화 함수, ∂는 소프트맥스 활성화이다.
제2추출부(300)는 재구성 오차의 손실은 평균 절대 오차를 사용하여 측정하고, 반면 보조 출력의 분류 결과 손실은 이진 교차 엔트로피 손실 함수를 사용한다.
제2 추출부(300)는 재구성 오차 손실과 보조 출력의 분류 결과 손실을 합리적인 하이퍼 파라미터로 결합하고 동시에 최적화할 수 있다.
전제 손실 방정식은 [수학식 3]과 같다.
Figure PCTKR2022011812-appb-img-000003
Lrecon : 재구성 오차 손실
Laux : 이진 교차 엔트로피 손실 함수를 사용한 보조 출력의 분류 결과 손실
Ltotal: 총 손실
분류부(400)는 제2추출부(300)에서 출력된 잠재 표현을 입력으로 하는 자폐 스펙트럼 장애 판별을 위한 딥 러닝 학습 모델을 구성할 수 있다. 예를 들면, 분류부(400)는 제1추출부(200)가 추출한 그룹화된 음성의 특징을 입력값으로 하여 제2추출부(300)를 통해 인코드되어 출력된 잠재 표현을 입력으로 하며, 자폐스펙트럼 영유아 및 일반 발달 영유아 분류 label을 대상으로 하는 BLSTM(Bidirectional LSTM) 등의 딥 러닝 학습 모델로 구성될 수 있다.
분류부(400)는 출력 레이어를 제외한 각 레이어에 일괄 정규화, ReLU(Rectangle Linear Unit) 활성화 및 드롭 아웃을 적용하고, ADAM(Adaptive Momentum) 최적화를 사용할 수 있다. 분류부(400)는 100 epoch 이내로 validation error를 최소화하기 위해 트레이닝을 조기에 중지하고 각 epoch별로 validation loss 개선을 위해 최상의 BLSTM 학습 모델을 저장하여 제어할 수 있다.
도 3은 본 발명의 일 실시 예에 따른 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치의 오토 인코더와 BLSTM의 공동 최적화 학습 모델을 설명하기 위한 도면이다.
도 3을 참조하면, 오토 인코더와 BLSTM의 공동 최적화 모델(joint optimization model)은 제1추출부(200)가 추출한 그룹화된 음성 특징을 입력값으로 하여 제2추출부(300)를 통해 재구성된 음성 특징을 딥 러닝 기반 분류기 모델의 입력값으로 사용할 수 있다. 예를 들면, 딥 러닝 기반 분류기 모델은 BLSTM 학습 모델을 포함할 수 있다.
실시 예에 따라, 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치(10)는 훈련을 거친 BLSTM 학습 모델에 제2추출부(300)의 인코더(310)를 이용한 특징 추출 부분을 구성하여 오토 인코더와 BLSTM을 이용한 공동 최적화 모델(joint optimization model)을 구성할 수 있다.
딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치(10)는 오토 인코더와 BLSTM의 공동 최적화 모델을 이용해 자폐 스펙트럼 장애와 정상 발달을 판별할 수 있다.
<실험 예시>
성능 비교를 위해 SVM과 입력 특징 종류가 다른 BLSTM 모델을 이용해 실험하였다.
[표1]은 SVM(Support Vector Machine), 88 또는 54개의 eGeMAPS 특징이 있는 BLSTM 및 오토 인코더를 이용한 BLSTM에 대한 5가지 검증 분할의 평균 성능표이다.
Models SVM BLSTM
(eGeMAPS-54)
BLSTM
(eGeMAPS-88)
BLSTM
(AE_Encoded)
Prodicted To ASD TD ASD TD ASD TD ASD TD
ASD 62 18 170 103 196 99 215 98
TD 413 632 305 547 279 551 260 552
Accuracy 0.6178 0.6373 0.6640 0.6818
Precision 0.1305 0.3579 0.4126 0.4526
Recall 0.7750 0.6227 0.6644 0.6869
F1 score 0.2234 0.4545 0.5091 0.5457
UAR 0.5514 0.5997 0.6302 0.6509
[표1]에 BLSTM레이블에 있는 모델은 BLSTM 모델 학습을 통한 특징으로, eGeMAPS-54는 Mann-Whitney U 테스트에 의해 선택된 54개 특징을 나타내고, eGeMAPS-88은 eGeMAPS의 88개 특징을 나타내고, AE- Encoded는 오토 인코더와 BLSTM을 이용한 공동 최적화 모델이다.
각 방법의 성능은 집중되지 않은 발화 데이터의 일반화된 추정을 위해 5개의 발성 사례에 대해 95개의 평균 자폐 스펙트럼 장애 발화와 130개의 평균 발달 발화를 비례적으로 분포하는 5중 교차 검증을 통해 평가되었다.
실험 중 분류 단계에서는 하나의 발화를 frame-wise 방식으로 처리하고 softmax 출력을 클래스 인덱스 0과 1로 변환하고, 프레임의 클래스 지수의 평균이 0.5 이상이면 그 발화는 ASD 아동의 발화로 간주하였다.
성과는 불균형 클래스를 고려한 INTERSPEECH 2009 감정 챌린지에서 선택된 UAR(가중 평균 회상) 및 가중 평균 회상(WAR)뿐만 아니라 기존 측정으로 채점하였다.
[표 1]에 나타난 것 같이 실험에서 SVM 모델은 매우 낮은 정밀도를 보여 TD 클래스에 극도로 편향되었다. BLSTM(eGeMAPS- 88) 모델은 자폐 스펙트럼 장애(ASD) 및 정상 발달(TD) 아동 분류 측면에서 상당한 품질을 보였지만, BLSTM(AE-Encoded) 모델은 BLSTM(eGeMAPS-88)에 비해 자폐 스펙트럼 장애(ASD) 아동을 올바르게 분류하는 데 있어 성능이 개선된 것을 확인할 수 있다. BLSTM(eGeMAPS-54) 모델은 BLSTM(eGeMAPS-88)에 비해 품질이 저하되어 정상 발달(TD) 아동에게 더 편향된 결과를 얻었다.
도 4는 본 발명의 일 실시예에 따른 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 방법을 도시한 도면이다. 이하 설명하는 각 과정은 단계에서 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치를 구성하는 각 기능부가 수행하는 과정이나, 본 발명의 간결하고 명확한 설명을 위해 각 단계의 주체를 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치 로 통칭하도록 한다.
도4를 참조하면, S410 단계에서 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치(10)는 자폐 스펙트럼 장애 분류를 위해 입력된 음성 데이터에서 주요 발화자인 영유아의 음성만을 분할한다.
S420 단계에서 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치(10)는 분할된 영유아 음성 데이터에서 음성 특징을 추출한다. 예를 들면 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치(10)는 eGeMAPS 특징을 추출한다.
S430 단계에서 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치 (10)는 오토 인코더를 이용해 특징 값을 임베딩한다.
오토 인코더(Auto-Encoder, AE) 모델은 입력 파라미터를 은닉층(Hidden layer)을 이용해 잠재 표현(latent representation)으로 변환한 다음 잠재 값으로 입력 파라미터를 재구성한다.
S440 단계에서 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치 (10)는 오토 인코더의 인코더 부를 통해 잠재 표현을 추출한다.
S450 단계에서 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치 (10)는 S440단계에서 추출된 잠재 표현을 입력으로 하여 딥러닝 기반 분류기 모델을 이용해 자폐 스펙트럼 장애를 분류한다. 예를 들면, 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치(10)는 BLSTM 모델을 기반으로 자폐 스펙트럼 장애를 분류할 수 있다.
음성 특징 발성 및 발화에 관련된 시각적 특징을 포함하기 때문에 자폐 스펙트럼 장애( ASD)와 정상 발달(TD)의 구별에서 혼동이 발생할 수 있다.
하지만 본 발명은 음성 특징의 예시로 사용한 eGeMAPS에 비해 더 특징적인 분포를 가진 재구성된 eGeMAPS 특징을 이용한다. 본 발명의 일 실시 예에 따른 오토 인코더로 인코딩 되어 재구성된 eGeMAPS 특징은 모호한 파라미터의 영향을 줄이면서 중요한 파라미터에 집중하여 행렬에 가중치를 부여하고 그로 인해 파생된 병목 특징이 압축되어 영유아 자폐 스펙트럼 감지에 효과적이다.
상술한 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 방법은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.
이상에서, 본 발명의 실시 예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시 예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.
도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시 예 들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.
이제까지 본 발명에 대하여 그 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
발명의 실시를 위한 형태는 위의 발명의 실시를 위한 최선의 형태에서 함께 기술되었다.
본 발명은 정상 발달(TD) 아동 그룹과 구분되는 자폐 스펙트럼 장애(ASD) 아동 그룹의 어린이 음성을 이용하여 자폐 스펙트럼 장애를 예측의 정확도를 높여 복잡한 자폐 스펙트럼 장애 진단의 자료로 활용할 수 있으므로 산업상의 이용 가능성이 있다.

Claims (9)

  1. 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치에 있어서,
    분할된 음성 데이터를 입력하는 입력부;
    자폐 스펙트럼 장애(ASD) 분류를 위한 음성 특징(Feature)을 추출하는 제1 추출부;
    오토 인코더 기반 음성 특징을 추출하는 제2추출부 및
    상기 음성 특징을 이용해 자폐 스펙트럼 장애를 분류하는 분류부를 포함하는 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치.
  2. 제1항에 있어서,
    상기 제1추출부는
    eGeMAPS 특징을 추출하는 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치.
  3. 제1항 있어서,
    상기 제2추출부는
    상기 제1추출부의 음성 특징을 입력 값으로 음성 특징을 재구성하는 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치.
  4. 제1항에 있어서,
    오토 인코더와 딥 러닝 기반 분류기 모델을 이용한 공동 최적화 모델을 구성하는 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치.
  5. 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치의 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 방법에 있어서,
    음성 데이터를 입력받아 분할하는 단계;
    상기 음성 데이터에서 음성 특징을 추출하는 단계;
    오토 인코더를 이용해 특징 값을 임베딩하는 단계;
    자폐 스펙트럼 장애를 분류하는 단계를 포함하는 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 방법.
  6. 제5항에 있어서
    상기 음성 데이터에서 음성 특징을 추출하는 단계는
    eGeMAPS 특징을 추출하는 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 방법.
  7. 제5항에 있어서,
    오토 인코더를 이용해 특징 값을 임베딩하는 단계는
    음성 특징을 오토 인코더로 재구성하여 추출하는 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 방법.
  8. 제5항에 있어서,
    오토 인코더와 딥 러닝 기반 분류기 모델을 이용한 공동 최적화 모델을 구성하는 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 방법.
  9. 제5항 내지 제8항 중 어느 한 항에 따른 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 방법을 실행하는 컴퓨터가 판독 가능한 기록매체에 기록된 컴퓨터 프로그램.
PCT/KR2022/011812 2021-09-29 2022-08-09 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치 및 방법 WO2023054887A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202163249587P 2021-09-29 2021-09-29
US63/249,587 2021-09-29
KR10-2022-0092428 2022-07-26
KR1020220092428A KR20230046199A (ko) 2021-09-29 2022-07-26 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치 및 방법

Publications (1)

Publication Number Publication Date
WO2023054887A1 true WO2023054887A1 (ko) 2023-04-06

Family

ID=85780835

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/011812 WO2023054887A1 (ko) 2021-09-29 2022-08-09 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치 및 방법

Country Status (1)

Country Link
WO (1) WO2023054887A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160179786A1 (en) * 2014-12-19 2016-06-23 International Business Machines Corporation Diagnosing autism spectrum disorder using natural language processing
JP2020509498A (ja) * 2016-11-14 2020-03-26 コグノア,インク. 発達に係る疾病を評価し、およびカバー率と信頼度に対する制御を提供する方法および装置
KR20200085696A (ko) * 2018-01-02 2020-07-15 주식회사 제네시스랩 사람의 감성 상태를 결정하기 위하여 영상을 처리하는 감성인식 방법
US20200302667A1 (en) * 2019-03-21 2020-09-24 Electronic Arts Inc. Generating Facial Position Data based on Audio Data
US20210228130A1 (en) * 2018-10-05 2021-07-29 Hoffmann-La Roche Inc. Method, device and system for assessing an autism spectrum disorder

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160179786A1 (en) * 2014-12-19 2016-06-23 International Business Machines Corporation Diagnosing autism spectrum disorder using natural language processing
JP2020509498A (ja) * 2016-11-14 2020-03-26 コグノア,インク. 発達に係る疾病を評価し、およびカバー率と信頼度に対する制御を提供する方法および装置
KR20200085696A (ko) * 2018-01-02 2020-07-15 주식회사 제네시스랩 사람의 감성 상태를 결정하기 위하여 영상을 처리하는 감성인식 방법
US20210228130A1 (en) * 2018-10-05 2021-07-29 Hoffmann-La Roche Inc. Method, device and system for assessing an autism spectrum disorder
US20200302667A1 (en) * 2019-03-21 2020-09-24 Electronic Arts Inc. Generating Facial Position Data based on Audio Data

Similar Documents

Publication Publication Date Title
Shaqra et al. Recognizing emotion from speech based on age and gender using hierarchical models
Haulcy et al. Classifying Alzheimer's disease using audio and text-based representations of speech
Alghowinem et al. A comparative study of different classifiers for detecting depression from spontaneous speech
Luz et al. A method for analysis of patient speech in dialogue for dementia detection
Schuller et al. Cross-corpus acoustic emotion recognition: Variances and strategies
Pappagari et al. Copypaste: An augmentation method for speech emotion recognition
US10147438B2 (en) Role modeling in call centers and work centers
Lindsay et al. Language impairment in Alzheimer’s disease—robust and explainable evidence for ad-related deterioration of spontaneous speech through multilingual machine learning
Pompili et al. The INESC-ID multi-modal system for the ADReSS 2020 challenge
Pérez-Toro et al. Influence of the Interviewer on the Automatic Assessment of Alzheimer's Disease in the Context of the ADReSSo Challenge.
Ilias et al. Explainable identification of dementia from transcripts using transformer networks
Nasreen et al. Alzheimer’s dementia recognition from spontaneous speech using disfluency and interactional features
Turan et al. Monitoring Infant's Emotional Cry in Domestic Environments Using the Capsule Network Architecture.
Min et al. Vocal stereotypy detection: An initial step to understanding emotions of children with autism spectrum disorder
Cai et al. Unsupervised cross-lingual speech emotion recognition using domain adversarial neural network
WO2024029799A1 (ko) 인지 장애와 연관된 정보를 제공하는 방법 및 장치
Savchenko et al. Speaker-aware training of speech emotion classifier with speaker recognition
Kothalkar et al. Automatic screening to detect’at risk’child speech samples using a clinical group verification framework
WO2023054887A1 (ko) 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치 및 방법
Klumpp et al. The phonetic footprint of covid-19?
Jamil et al. Influences of age in emotion recognition of spontaneous speech: A case of an under-resourced language
Kohlschein et al. Automatic processing of clinical aphasia data collected during diagnosis sessions: challenges and prospects
Condron et al. Non-Verbal Vocalisation and Laughter Detection Using Sequence-to-Sequence Models and Multi-Label Training.
Ehghaghi et al. Data-driven approach to differentiating between depression and dementia from noisy speech and language data
Meng et al. Integrated and enhanced pipeline system to support spoken language analytics for screening neurocognitive disorders

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22876662

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE