WO2024029799A1 - 인지 장애와 연관된 정보를 제공하는 방법 및 장치 - Google Patents

인지 장애와 연관된 정보를 제공하는 방법 및 장치 Download PDF

Info

Publication number
WO2024029799A1
WO2024029799A1 PCT/KR2023/010412 KR2023010412W WO2024029799A1 WO 2024029799 A1 WO2024029799 A1 WO 2024029799A1 KR 2023010412 W KR2023010412 W KR 2023010412W WO 2024029799 A1 WO2024029799 A1 WO 2024029799A1
Authority
WO
WIPO (PCT)
Prior art keywords
embedding
speaker
encoder
information
content
Prior art date
Application number
PCT/KR2023/010412
Other languages
English (en)
French (fr)
Inventor
고명진
허동석
Original Assignee
주식회사 실비아헬스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 실비아헬스 filed Critical 주식회사 실비아헬스
Publication of WO2024029799A1 publication Critical patent/WO2024029799A1/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/40Detecting, measuring or recording for evaluating the nervous system
    • A61B5/4076Diagnosing or monitoring particular conditions of the nervous system
    • A61B5/4088Diagnosing of monitoring cognitive diseases, e.g. Alzheimer, prion diseases or dementia
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/70ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mental therapies, e.g. psychological therapy or autogenous training
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Definitions

  • Embodiments herein relate to methods and devices for providing information related to cognitive impairment.
  • Dementia refers to the loss of a person's mental abilities and ability to engage in social activities, and when it is severe enough to cause impairment in a person's daily life, we call it dementia. It is known that the incidence of dementia also increases as a person's age increases. Accordingly, in today's society, where average life expectancy is increasing and aging is rapidly progressing, interest in methods of treating and preventing dementia is growing.
  • Dementia is a pathological symptom caused by various diseases, and the symptoms of dementia appear in very diverse ways depending on the type and degree of the causative disease.
  • One of the representative symptoms of dementia is cognitive decline, which includes memory loss, decreased language ability, decreased ability to understand time and space, and decreased judgment and ability to perform daily activities.
  • One method for diagnosing dementia is a speech test to check language skills. The use of voice to screen for cognitive disorders has been tested and tested in many studies. In cases such as dementia and Parkinson's disease, linguistic and phonetic deterioration from speech and conversation are often used as early detection signals. In this way, speech, especially free speech, in which not only acoustic characteristics but also linguistic and semantic characteristics can be found, is widely used to screen for cognitive disorders.
  • the speaker's voice data may include speaker identification information related to the speaker's personal characteristics (age, gender, tone, etc.) and content identification information related to characteristics directly related to the voice (rhythm, silence rate, etc.).
  • speaker identification information related to the speaker's personal characteristics
  • content identification information related to characteristics directly related to the voice
  • the accuracy of cognitive disorder screening is improved by focusing on factors that are more important in cognitive disorder screening, such as voice rhythm, degree of interruption, silence rate, and specificity. is expected to increase. Therefore, a method for extracting content identification information from the speaker's voice data and a method for learning an extraction model are required.
  • the embodiment of this specification is proposed to solve the above-mentioned problems, and provides a model learning method for extracting content embeddings by removing personal characteristics (age, gender, tone, etc.) from the speaker's voice data and information utilizing content embeddings.
  • the purpose is to provide a method.
  • a method of providing information by an electronic device includes the steps of acquiring original voice data of a speaker; Obtaining speaker identification embedding based on the original speech data using a first encoder; Obtaining content embedding based on the original voice data and the speaker identification embedding using a second encoder; Confirming selection information of the speaker based on the content embedding using a target model; and providing result information based on the selection information.
  • the step of obtaining the content embedding further includes concatenating the original voice data and the speaker identification embedding and inputting the original voice data to the second encoder.
  • the second encoder is based on a comparison of the original speech data and output speech data generated by decoding the content embedding and the speaker identification embedding using a second decoder corresponding to the second encoder. It is characterized by being learned.
  • the second encoder and the second decoder are trained to minimize the difference between the output voice data and the original voice data.
  • the step of obtaining the speaker identification embedding includes: identifying a partial speech data set including at least one partial speech data based on the original speech data; and obtaining the speaker identification embedding based on the partial speech data set using the first encoder.
  • the first encoder includes at least one of a Long Short Term Memory (LSTM) and a Rectified Linear Unit (ReLU).
  • LSTM Long Short Term Memory
  • ReLU Rectified Linear Unit
  • the second encoder includes at least one of a convolutional layer, a bidirectional LSTM (LSTM), and a downsampling unit.
  • LSTM bidirectional LSTM
  • the speaker identification embedding includes timbre information included in the original voice data.
  • the content embedding includes rhythm, pitch, and content information included in the original voice data.
  • the target model includes a fully connected layer, and the fully connected layer is learned based on a plurality of content embeddings and labels corresponding to each of the plurality of content embeddings. do.
  • the screening information includes a score associated with the Mini-Mental State Examination (MMSE).
  • MMSE Mini-Mental State Examination
  • the result information includes information about a cognitive training set corresponding to the selection information.
  • An electronic device that provides information according to an embodiment of the present specification includes a memory that stores at least one command; and executing the at least one command to obtain original voice data of a speaker, obtain speaker identification embedding based on the original voice data using a first encoder, and obtain the original voice data and using a second encoder. and a processor that acquires content embeddings based on the speaker identification embeddings, verifies selection information of the speaker based on the content embeddings using a target model, and provides result information based on the selection information. Do it as
  • a non-transitory computer-readable storage medium includes a medium configured to store computer-readable instructions, wherein when the computer-readable instructions are executed by a processor, the processor: acquiring voice data; Obtaining speaker identification embedding based on the original speech data using a first encoder; Obtaining content embedding based on the original voice data and the speaker identification embedding using a second encoder; Confirming selection information of the speaker based on the content embedding using a target model; and providing result information based on the selection information.
  • the embeddings contain elements that are less related to cognitive impairment and that hinder selection, such as personal characteristics (age, gender, tone of voice, etc.) that can identify the speaker. Therefore, the accuracy of cognitive impairment screening can be further improved.
  • content embedding includes more important factors for cognitive impairment screening, such as speech rhythm, degree of interruption, silence rate, and specificity, so it focuses on content-related information rather than speaker-related information to better identify cognitive impairment characteristics from the speaker's speech data. Can be selected effectively.
  • FIG. 1 is an exemplary diagram schematically illustrating each configuration of an electronic device according to an embodiment of the present specification.
  • FIG. 2 is a schematic diagram illustrating a method of operating a voice conversion system according to an embodiment of the present specification.
  • Figure 3 is a flowchart showing the flow of a method for providing information related to cognitive impairment of an electronic device according to an embodiment of the present specification.
  • Figure 4 is a diagram showing the overall architecture for separating content embedding from voice data according to an embodiment of the present specification.
  • 5A and 5B are diagrams showing a speaker encoder and a content encoder according to an embodiment of the present specification.
  • Figure 6 is a diagram schematically showing a learning process of an electronic device according to an embodiment of the present specification.
  • Figure 7 is a table showing the performance of a classification model using content embedding according to an embodiment of the present specification.
  • each block of the processing flow diagram diagrams and combinations of the flow diagram diagrams can be performed by computer program instructions.
  • These computer program instructions can be mounted on a processor of a general-purpose computer, special-purpose computer, or other programmable data processing equipment, so that the instructions performed through the processor of the computer or other programmable data processing equipment are described in the flow chart block(s). It creates the means to perform functions.
  • These computer program instructions may also be stored in computer-usable or computer-readable memory that can be directed to a computer or other programmable data processing equipment to implement a function in a particular manner, so that the computer-usable or computer-readable memory It is also possible to produce manufactured items containing instruction means that perform the functions described in the flowchart block(s).
  • Computer program instructions can also be mounted on a computer or other programmable data processing equipment, so that a series of operational steps are performed on the computer or other programmable data processing equipment to create a process that is executed by the computer, thereby generating a process that is executed by the computer or other programmable data processing equipment. Instructions that perform processing equipment may also provide steps for executing the functions described in the flow diagram block(s).
  • each block may represent a module, segment, or portion of code that includes one or more executable instructions for executing specified logical function(s).
  • each block may represent a module, segment, or portion of code that includes one or more executable instructions for executing specified logical function(s).
  • the term ' ⁇ unit' used in this embodiment refers to software or hardware components such as FPGA or ASIC, and the ' ⁇ unit' performs certain roles.
  • ' ⁇ part' is not limited to software or hardware.
  • the ' ⁇ part' may be configured to reside in an addressable storage medium and may be configured to reproduce on one or more processors. Therefore, as an example, ' ⁇ part' refers to components such as software components, object-oriented software components, class components, and task components, processes, functions, properties, and procedures. , subroutines, segments of program code, drivers, firmware, microcode, circuitry, data, databases, data structures, tables, arrays, and variables.
  • components and 'parts' may be combined into a smaller number of components and 'parts' or may be further separated into additional components and 'parts'. Additionally, components and 'parts' may be implemented to regenerate one or more CPUs within a device or a secure multimedia card.
  • FIG. 1 is an exemplary diagram schematically illustrating each configuration of an electronic device according to an embodiment of the present specification.
  • the electronic device 100 may include a processor 110 and a memory 120 and may perform a method of providing information related to cognitive impairment.
  • the electronic device 100 shown in FIG. 1 only components related to the present embodiments are shown. Accordingly, it is obvious to those skilled in the art that the electronic device 100 may further include other general-purpose components in addition to the components shown in FIG. 1 .
  • the electronic device 100 is shown in FIG. 1, any electronic device capable of performing a method of providing information related to cognitive impairment may be replaced with the electronic device 100.
  • the processor 110 controls overall functions for providing information related to cognitive impairment in the electronic device 100.
  • the processor 110 generally controls the electronic device 100 by executing programs stored in the memory 120 within the electronic device 100.
  • the processor 110 may be implemented as a central processing unit (CPU), a graphics processing unit (GPU), an application processor (AP), etc. provided in the electronic device 100, but is not limited thereto.
  • the memory 120 is hardware that stores various types of data processed within the electronic device 100.
  • the memory 120 may store data processed and data to be processed in the electronic device 100. Additionally, the memory 120 may store applications, drivers, etc. to be run by the electronic device 100.
  • the memory 120 includes random access memory (RAM) such as dynamic random access memory (DRAM), static random access memory (SRAM), read-only memory (ROM), electrically erasable programmable read-only memory (EEPROM), CD- It may include ROM, Blu-ray or other optical disk storage, a hard disk drive (HDD), a solid state drive (SSD), or flash memory.
  • RAM random access memory
  • DRAM dynamic random access memory
  • SRAM static random access memory
  • ROM read-only memory
  • EEPROM electrically erasable programmable read-only memory
  • CD- It may include ROM, Blu-ray or other optical disk storage, a hard disk drive (HDD), a solid state drive (SSD), or flash memory.
  • a method of diagnosing dementia using the speaker's voice data is widely used.
  • One approach for classification of dementia using speech is to use conventional speech embedding techniques such as x-vector and d-vector. Since these embeddings are mainly learned through speaker selection tasks, the learned embeddings contain many demographic characteristics such as age, gender, and ethnicity, and acoustic features for speaker identification such as timbre. However, in diagnosing dementia, information related to the voice itself, such as rhythm and silence rate, is considered more important than speaker identification information.
  • this specification describes a method for separating speaker identification embeddings from speech to automatically screen for cognitive impairment from speech data.
  • a cognitive impairment screening method based on speech data from which identifying information representing the speaker's characteristics has been removed will have superior performance compared to a method of screening cognitive impairment based only on the speaker's characteristic information.
  • Parts of the AutoVC framework an autoencoder-based framework for speech conversion, can be used to separate speaker identification embeddings and content embeddings from speech data.
  • the AutoVC framework includes two separate encoders that generate speaker identification embeddings and content embeddings respectively, and a decoder that outputs the converted speech from the combination of the embeddings.
  • the electronic device 100 may separate content embedding from voice data based on some configurations of the AutoVC framework.
  • FIG. 2 is a schematic diagram illustrating a method of operating a voice conversion system according to an embodiment of the present specification.
  • the voice conversion system 200 may acquire voice data S of speaker A, and the voice data may include information about rhythm, content, pitch, and timbre.
  • the encoder 210 included in the voice conversion system 200 can extract a content vector Z from which timbre information including the speaker's characteristics has been removed from the voice data S, and the content vector Z is content from which the speaker's unique characteristics have been removed. It contains only information related to .
  • This content vector Z can be decoded by the decoder 220 included in the voice conversion system 200 together with the timbre information of another speaker B input to the voice conversion system 200, and the voice data output as a result of decoding.
  • the content spoken by A can be played as if B were speaking it.
  • the encoder 210 of the speech conversion system 200 shown in FIG. 2 is employed to extract content embeddings from which the speaker's unique characteristics have been removed, and to provide information related to cognitive impairment based on the extracted content embeddings. Methods are discussed.
  • Figure 3 is a flowchart showing the flow of a method for providing information related to cognitive impairment of an electronic device according to an embodiment of the present specification.
  • the subject performing each step shown in FIG. 3 may include the electronic device 100 shown in FIG. 1 .
  • step S310 the electronic device may acquire original voice data.
  • the electronic device may include a user terminal on which an application for screening cognitive impairment or preventing dementia is installed, and the electronic device may acquire original voice data through an input unit provided in the electronic device.
  • a user can perform a voice evaluation through a cognitive impairment screening or dementia prevention application installed on his or her terminal, and the user's voice can be input into the user terminal for a picture description test or storytelling test.
  • the input voice may be provided to the processor of the electronic device as original voice data.
  • speech data for training and validation of encoder and target models may be obtained from public data sets, such as the DementiaBank Pitt Corpus.
  • the DementiaBank Pitt Corpus is the largest publicly available dataset containing numerous raw audio files used in longitudinal studies of dementia.
  • the electronic device 100 may obtain voice sample data from both healthy people (control group) and people with cognitive impairment from the data set.
  • the electronic device may obtain speaker identification embedding based on the original voice data using the first encoder.
  • Speaker identification embedding may refer to data representing personal characteristics (eg, age, gender, timbre, etc.) that can identify the speaker in the speaker's voice data.
  • the electronic device identifies a partial speech data set including at least one partial speech data based on the original speech data, and uses the first encoder to obtain a speaker identification embedding based on the partial speech data set. You can. Multiple speech data may be divided into at least one partial speech data set for the same speaker. This can later be used to extract speaker identification embeddings for the same speaker, and to extract and learn content embeddings for each data by comparing this speaker identification embedding with data.
  • the electronic device extracts a speaker identification embedding for each of the at least one partial speech data using a first encoder, calculates an average of the speaker identification embeddings for each of the at least one partial speech data, and outputs the original speech. Speaker identification embeddings corresponding to the data can be obtained. By calculating the average of the speaker identification embeddings for each of the at least one partial speech data in this way, the content-related information included in the speaker identification embeddings for each of the at least one partial speech data is normalized and better separated from the speaker identification information. can do.
  • the first encoder may include at least one of a Long Short Term Memory (LSTM) and a Rectified Linear Unit (ReLU).
  • the electronic device may perform learning of a speaker identification embedding extraction model based on voice data of the same speaker, and a first encoder including at least one of an LSTM and a rectification linear unit may be used for learning.
  • the trained model will output similar speaker identification embeddings for the same speaker's voice data.
  • the electronic device may obtain content embedding based on the original voice data and speaker identification embedding using the second encoder.
  • Content embedding may refer to data in which personal characteristics that can identify the speaker (e.g., age, gender, timbre, etc.) have been removed from the speaker's voice data, as well as the rhythm of the voice, pitching, degree of interruption, and silence rate. , specificity, etc. may be included.
  • the electronic device may concatenate the original voice data and the speaker identification embedding and input them to the second encoder.
  • the second encoder may include at least one of a convolutional layer, a bidirectional LSTM (LSTM), and a downsampling unit.
  • the electronic device may extract content embeddings from the original voice data and speaker identification embeddings using a second encoder including at least one of a convolutional layer, a bidirectional LSTM, and a downsampling unit.
  • the second encoder may be trained based on a comparison of the original speech data and output speech data generated by decoding the content embedding and the speaker identification embedding using a second decoder corresponding to the second encoder.
  • the electronic device may be configured to decode output voice data by inputting a speaker identification embedding of the same speaker as the voice input to the second encoder to the second decoder during the learning process.
  • Output voice data similar to the original voice data is extracted through decoding of the content embedding and speaker identification embedding, and a second encoder and a second decoder can be learned to minimize the difference between the original voice data and the output voice data. That is, the electronic device may be configured to learn content embedding extraction of the second encoder by learning the second encoder and the second decoder to minimize the difference between the output voice data and the original voice data.
  • the electronic device may use the target model to check the selection information of the speaker corresponding to the content embedding.
  • the target model may include a cognitive impairment screening model.
  • the target model may have content embedding as input and selection information related to the speaker's cognitive impairment as output, and may include a classification model or regression model.
  • selection information includes binary information of true or false, and for regression models, selection information may include probability values between 0 and 1.
  • the selection information may include a vector consisting of various factors that can cause dementia and a risk or score corresponding to each factor.
  • the screening information may include a score associated with the Mini-Mental State Examination (MMSE) (e.g., 0 to 30 points). Based on the speaker's score, for example, the electronic device can diagnose definite normal if the score is 24 or more, suspected dementia if the score is 20 to 23, and definite dementia if the score is 19 or less.
  • MMSE Mini-Mental State Examination
  • the target model includes a fully connected layer
  • the fully connected layer may be learned based on a plurality of content embeddings and labels corresponding to each of the plurality of content embeddings.
  • the label may contain binary information of true or false for classification models, or a probability value between 0 and 1 for regression models, and the electronic device is fully connected through multiple content embeddings and labels corresponding to each. Layers can be pre-trained.
  • the electronic device may provide result information based on the selection information. If the speaker is determined to have dementia, the electronic device can provide information on drug prescriptions, exercise methods, cognitive training, diet, management methods, etc. for the treatment of dementia.
  • the screening information may include a score associated with cognitive impairment
  • the electronic device may provide information related to different treatments or prevention depending on the severity of the speaker's cognitive impairment based on the score.
  • the result information may include information about a cognitive training set corresponding to the selection information. For example, if the speaker's score associated with the MMSE is 21 to 24, a routine to perform cognitive training A, B, and C in order may be provided as result information, and the speaker's score associated with the MMSE is 20. In the following, a routine for performing cognitive training C, D, E, F, and G in order may be provided as result information. In this way, the electronic device can provide a dementia prevention and treatment method tailored to the speaker by providing a cognitive training routine suitable for the speaker's selection information.
  • Figure 4 is a diagram showing the overall architecture for separating content embedding from voice data according to an embodiment of the present specification.
  • X i is a mel spectrogram of size N ⁇ T calculated from the voice of speaker i.
  • N is the number of Mel frequency bins (here set to 80 with a window of 64 ms and a step size of 16 ms), and T is the number of time steps.
  • the content encoder E C 420 takes as input X i associated with the speaker identification embedding at each time step (frame), and can return content embedding C i based on this.
  • speaker encoder E S 410 may return speaker identification embedding S i when given as input the voice of speaker i in the form of a two-dimensional mel spectrogram.
  • the speaker identification embedding can be calculated as the average of the speaker identification embeddings at the utterance level.
  • the electronic device 100 may obtain a speaker-specific identification embedding by calculating a set of speaker identification embeddings and their arithmetic mean, and the set of speaker identification embeddings may be configured such that each embedding constitutes the speaker's entire voice. Can respond to one utterance. This is to normalize the content information encoded within the speaker identification embeddings by taking their average. Since the content-related elements within a speaker identification embedding for the same speaker will have varying values, while the speaker-related elements will have relatively constant values, taking their average will further separate the speaker-related elements from the content-related elements.
  • the electronic device can divide the original voice data X i into a plurality of sampling data (or partial utterances ) ⁇ x i,0 , ..., there is.
  • the plurality of sampling data may include a partial speech data set including at least one partial speech data identified based on the original speech data.
  • a decoder D (430) is needed to reconstruct the voice by combining the speaker identification embedding S i and the content embedding C i , and the voice data estimated through the decoder D (430) is required.
  • a loss function can be constructed and learned so that the difference between and the original voice data X i is minimized.
  • 5A and 5B are diagrams showing a speaker encoder and a content encoder, respectively, according to an embodiment of the present specification.
  • the speaker encoder E S may include a plurality of LSTMs (510) and a rectification linear unit (520).
  • the content encoder E C may include a plurality of convolutional layers 530, a plurality of bidirectional LSTMs 540, and a downsampling unit 550.
  • Figure 6 is a diagram schematically showing a learning process of an electronic device according to an embodiment of the present specification.
  • FIG. 6 a schematic process of learning a speaker encoder, a content encoder (AutoVC-based encoder/decoder), and a target model in an electronic device is shown.
  • original voice data 601 including information on rhythm, pitch, content, and timbre can be collected for the same speaker and used to learn the speaker identification encoder 602.
  • the speaker identification encoder 602 learned in this way can extract a speaker identification embedding 603 including a tone that can identify the speaker from the original voice data 601.
  • the AutoVC encoder 604 extracts a content embedding 605 containing only content-related information excluding timbre from the speaker's original voice data 601, and the speaker identification embedding 603 and content embedding 605 are used by the AutoVC decoder. It can be decoded through 606 to generate output voice data 607 similar to the original voice data 601. The generated output voice can be used to learn the AutoVC encoder 604 and decoder 606 through comparison with the original voice data.
  • the content embedding 605 extracted using the AutoVC encoder 604 can train a dementia classifier 609 that includes a target model along with a label 608 corresponding to dementia or control, and the dementia classifier 609 A prediction label 610 for whether the content is dementia or a control group corresponding to the input content embedding 605 can be output.
  • Figure 7 is a table showing the performance of a classification model using content embedding according to an embodiment of the present specification.
  • LDA Linear Discriminant Analysis
  • SVM Support Vector Machine
  • DT Decision Tree
  • Random Forest Random Forest

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Neurology (AREA)
  • Developmental Disabilities (AREA)
  • Child & Adolescent Psychology (AREA)
  • Psychology (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Veterinary Medicine (AREA)
  • Signal Processing (AREA)
  • Surgery (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Social Psychology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Neurosurgery (AREA)
  • Physiology (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 발명은 전자 장치의 정보 제공 방법으로서, 화자의 원본 음성 데이터를 획득하는 단계; 제1 인코더를 사용하여 상기 원본 음성 데이터를 기반으로 화자 식별 임베딩을 획득하는 단계; 제2 인코더를 사용하여 상기 원본 음성 데이터 및 상기 화자 식별 임베딩을 기반으로 콘텐츠 임베딩을 획득하는 단계; 타겟 모델을 사용하여 상기 콘텐츠 임베딩을 기반으로 상기 화자의 선별 정보를 확인하는 단계; 및 상기 선별 정보를 기반으로 결과 정보를 제공하는 단계를 포함하는 전자 장치의 정보 제공 방법에 관한 것이다.

Description

인지 장애와 연관된 정보를 제공하는 방법 및 장치
본 명세서의 실시 예는 인지 장애와 연관된 정보를 제공하는 방법 및 장치에 관한 것이다.
치매는 사람의 정신 능력과 사회적 활동을 할 수 있는 능력의 소실을 말하며, 어떤 사람의 일상생활의 장애를 가져올 정도로 충분히 심할 때 우리는 이를 치매라 부른다. 사람의 연령이 증가함에 따라 치매의 발병율 또한 함께 증가하는 것이 알려져 있고, 이에 따라 평균 수명이 증가하며 급속한 고령화가 진행되고 있는 오늘날 사회에서는 치매의 치료 및 예방 방법에 대한 관심이 갈수록 커지고 있다.
치매는 여러 가지 질환들에 의해 나타나는 병적 증상이며, 치매의 증상은 원인 질환의 종류와 정도에 따라 매우 다양하게 나타난다. 치매의 대표적인 증상 중 하나는 인지기능 저하 증상이며, 기억력 감퇴, 언어 능력 저하, 시공간 파악 능력 저하, 판단력 및 일상생활 수행 능력의 저하 등이 포함된다. 치매의 진단을 위한 하나의 방법으로는 언어 능력을 확인하기 위한 음성 테스트가 있다. 음성을 인지 장애 선별에 이용하는 것은 많은 연구에서 검증 및 시도되었다. 치매, 파킨슨 병 등의 경우 조기 발견 신호로 발화, 대화로부터 언어적(linguistic), 음향적(phonetic) 저하를 많이 이용한다. 이와 같이 음향적 특징뿐만 아니라 언어적, 의미적 특징을 모두 찾을 수 있는 음성, 특히 자유 발화는 인지 장애 선별에 많이 이용되고 있다.
한편 화자의 음성 데이터는 화자의 개인적 특성(나이, 성별, 음색 등)과 관련된 화자 식별 정보 및 음성과 직접적으로 연관되는 특성(리듬, 침묵율 등)과 관련된 콘텐츠 식별 정보를 포함할 수 있다. 치매 진단에 있어서 음성 데이터로부터 화자 식별 정보가 제거된 콘텐츠 식별 정보만을 추출하여 활용한다면, 음성의 리듬, 끊김의 정도, 침묵율, 특이도와 같이 인지 장애 선별에 더욱 중요한 요소에 집중함으로써 인지 장애 선별 정확도를 높일 것으로 기대된다. 따라서 화자의 음성 데이터로부터 콘텐츠 식별 정보를 추출하는 방법 및 추출 모델을 학습하는 방법이 요구된다.
본 명세서의 실시 예는 상술한 문제점을 해결하기 위하여 제안된 것으로, 화자의 음성 데이터로부터 개인적 특성(나이, 성별, 음색 등)을 제거한 콘텐츠 임베딩을 추출하는 모델 학습 방법 및 콘텐츠 임베딩을 활용한 정보 제공 방법을 제공하는 것을 목적으로 한다. 상기 기술을 통해 추출한 콘텐츠 임베딩을 활용하면 개인적 특성으로 인해 선별하기 어려웠던 경도 인지 장애 선별과 같은 작업의 정확도 상승을 기대할 수 있다.
상술한 과제를 달성하기 위하여, 본 명세서의 일 실시 예에 따르는 전자 장치의 정보 제공 방법은, 화자의 원본 음성 데이터를 획득하는 단계; 제1 인코더를 사용하여 상기 원본 음성 데이터를 기반으로 화자 식별 임베딩을 획득하는 단계; 제2 인코더를 사용하여 상기 원본 음성 데이터 및 상기 화자 식별 임베딩을 기반으로 콘텐츠 임베딩을 획득하는 단계; 타겟 모델을 사용하여 상기 콘텐츠 임베딩을 기반으로 상기 화자의 선별 정보를 확인하는 단계; 및 상기 선별 정보를 기반으로 결과 정보를 제공하는 단계를 포함하는 것을 특징으로 한다.
일 실시 예에 따르면, 상기 콘텐츠 임베딩을 획득하는 단계는 상기 원본 음성 데이터와 상기 화자 식별 임베딩을 연결하여(concatenate) 상기 제2 인코더에 입력하는 단계를 더 포함하는 것을 특징으로 한다.
일 실시 예에 따르면, 상기 제2 인코더는 상기 콘텐츠 임베딩 및 상기 제2 인코더에 대응하는 제2 디코더를 사용하여 상기 화자 식별 임베딩을 디코딩하여 생성된 출력 음성 데이터 및 상기 원본 음성 데이터의 비교를 기반으로 학습되는 것을 특징으로 한다.
일 실시 예에 따르면, 상기 제2 인코더 및 상기 제2 디코더는 상기 출력 음성 데이터 및 상기 원본 음성 데이터의 차이를 최소화하도록 학습되는 것을 특징으로 한다.
일 실시 예에 따르면, 상기 화자 식별 임베딩을 획득하는 단계는 상기 원본 음성 데이터를 기반으로 적어도 하나의 부분 음성 데이터를 포함하는 부분 음성 데이터 세트를 확인하는 단계; 및 상기 제1 인코더를 사용하여 상기 부분 음성 데이터 세트를 기반으로 상기 화자 식별 임베딩을 획득하는 단계를 포함하는 것을 특징으로 한다.
일 실시 예에 따르면, 상기 제1 인코더는 LSTM(Long Short Term Memory) 및 정류 선형 유닛(Rectified Linear Unit, ReLU) 중 적어도 하나를 포함하는 것을 특징으로 한다.
일 실시 예에 따르면, 상기 제2 인코더는 컨벌루션 레이어, 양방향 LSTM(bidirectional LSTM) 및 다운샘플링 유닛 중 적어도 하나를 포함하는 것을 특징으로 한다.
일 실시 예에 따르면, 상기 화자 식별 임베딩은 상기 원본 음성 데이터에 포함된 음색(timbre) 정보를 포함하는 것을 특징으로 한다.
일 실시 예에 따르면, 상기 콘텐츠 임베딩은 상기 원본 음성 데이터에 포함된 리듬(rhythm), 피치(pitch) 및 콘텐츠 정보를 포함하는 것을 특징으로 한다.
일 실시 예에 따르면, 상기 타겟 모델은 완전연결층(fully connected layer)을 포함하고, 상기 완전연결층은 복수의 콘텐츠 임베딩과 상기 복수의 콘텐츠 임베딩 각각에 대응하는 라벨을 기반으로 학습되는 것을 특징으로 한다.
일 실시 예에 따르면, 상기 선별 정보는 간이 정신 상태 검사(Mini-Mental State Examination; MMSE)와 연관된 스코어를 포함하는 것을 특징으로 한다.
일 실시 예에 따르면, 상기 결과 정보는 상기 선별 정보에 대응하는 인지 훈련 세트에 대한 정보를 포함하는 것을 특징으로 한다.
본 명세서의 일 실시 예에 따르는 정보를 제공하는 전자 장치는, 적어도 하나의 명령어를 저장하는 메모리; 및 상기 적어도 하나의 명령어를 실행함으로써, 화자의 원본 음성 데이터를 획득하고, 제1 인코더를 사용하여 상기 원본 음성 데이터를 기반으로 화자 식별 임베딩을 획득하고, 제2 인코더를 사용하여 상기 원본 음성 데이터 및 상기 화자 식별 임베딩을 기반으로 콘텐츠 임베딩을 획득하고, 타겟 모델을 사용하여 상기 콘텐츠 임베딩을 기반으로 상기 화자의 선별 정보를 확인하고, 상기 선별 정보를 기반으로 결과 정보를 제공하는 프로세서를 포함하는 것을 특징으로 한다.
본 명세서의 일 실시 예에 따르는 비일시적 컴퓨터 판독 가능 저장 매체는, 컴퓨터 판독 가능 명령어들을 저장하도록 구성되는 매체를 포함하고, 상기 컴퓨터 판독 가능 명령어들은 프로세서에 의해 실행되는 경우 상기 프로세서가: 화자의 원본 음성 데이터를 획득하는 단계; 제1 인코더를 사용하여 상기 원본 음성 데이터를 기반으로 화자 식별 임베딩을 획득하는 단계; 제2 인코더를 사용하여 상기 원본 음성 데이터 및 상기 화자 식별 임베딩을 기반으로 콘텐츠 임베딩을 획득하는 단계; 타겟 모델을 사용하여 상기 콘텐츠 임베딩을 기반으로 상기 화자의 선별 정보를 확인하는 단계; 및 상기 선별 정보를 기반으로 결과 정보를 제공하는 단계를 포함하는 전자 장치의 정보 제공 방법을 수행하도록 하는 것을 특징으로 한다.
본 명세서의 실시 예에 따르면 음성으로부터 콘텐츠 임베딩을 추출함으로써, 해당 임베딩에는 화자를 식별할 수 있는 개인 특성(나이, 성별, 음색 등)과 같이 인지 장애와 연관이 적고 오히려 선별에 방해되는 요소가 제거되었으므로 인지 장애 선별의 정확도를 더욱 높일 수 있다. 또한 콘텐츠 임베딩은 음성의 리듬, 끊김의 정도, 침묵율, 특이도와 같이 보다 인지 장애 선별에 더 중요한 요소를 포함하므로, 화자 관련 정보보다는 콘텐츠 관련 정보에 집중하여 화자의 음성 데이터로부터 인지 장애 특징을 더욱 효과적으로 선별할 수 있다.
도 1은 본 명세서의 일 실시 예에 따른 전자 장치의 각 구성을 개략적으로 도시하는 예시적인 도면이다.
도 2는 본 명세서의 일 실시 예에 따른 음성 변환 시스템의 동작 방법을 설명하기 위한 개략적인 도면이다.
도 3은 본 명세서의 일 실시 예에 따른 전자 장치의 인지 장애와 연관된 정보 제공 방법의 흐름을 나타내는 순서도이다.
도 4는 본 명세서의 일 실시 예에 따른 음성 데이터로부터 콘텐츠 임베딩을 분리하기 위한 전반적인 아키텍처를 나타내는 도면이다.
도 5a 및 도 5b는 본 명세서의 일 실시 예에 따른 화자 인코더 및 콘텐츠 인코더를 나타내는 도면이다.
도 6은 본 명세서의 일 실시 예에 따른 전자 장치의 학습 프로세스를 개략적으로 나타낸 도면이다.
도 7은 본 명세서의 일 실시 예에 따른 콘텐츠 임베딩을 사용한 분류 모델의 성능을 나타내는 표이다.
이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 상세하게 설명한다.
실시 예를 설명함에 있어서 본 발명이 속하는 기술 분야에 익히 알려져 있고 본 발명과 직접적으로 관련이 없는 기술 내용에 대해서는 설명을 생략한다. 이는 불필요한 설명을 생략함으로써 본 발명의 요지를 흐리지 않고 더욱 명확히 전달하기 위함이다.
마찬가지 이유로 첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 개략적으로 도시되었다. 또한, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다. 각 도면에서 동일한 또는 대응하는 구성요소에는 동일한 참조 번호를 부여하였다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
이 때, 처리 흐름도 도면들의 각 블록과 흐름도 도면들의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수 있음을 이해할 수 있을 것이다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 흐름도 블록(들)에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 흐름도 블록(들)에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 흐름도 블록(들)에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실행 예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
이 때, 본 실시 예에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 “~부”, “~모듈” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
명세서 전체에서 기재된 “a, b, 및 c 중 적어도 하나”의 표현은, ‘a 단독’, ‘b 단독’, ‘c 단독’, ‘a 및 b’, ‘a 및 c’, ‘b 및 c’, 또는 ‘a,b,c 모두’를 포괄할 수 있다.
아래에서는 첨부한 도면을 참고하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.
도 1은 본 명세서의 일 실시 예에 따른 전자 장치의 각 구성을 개략적으로 도시하는 예시적인 도면이다.
도 1을 참조하면, 전자 장치(100)는 프로세서(110) 및 메모리(120)를 포함할 수 있고, 인지 장애와 연관된 정보를 제공하는 방법을 수행할 수 있다. 도 1에 도시된 전자 장치(100)에는 본 실시 예들과 관련된 구성요소들만이 도시되어 있다. 따라서, 전자 장치(100)에는 도 1에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있음은 당해 기술분야의 통상의 기술자에게 자명하다. 또한, 도 1에는 전자 장치(100)로 도시되었지만, 인지 장애와 연관된 정보를 제공하는 방법을 수행할 수 있는 전자 장치라면 모두 전자 장치(100)로 대체될 수 있다.
프로세서(110)는 전자 장치(100)에서의 인지 장애와 연관된 정보 제공을 위한 전반적인 기능들을 제어하는 역할을 한다. 예를 들어, 프로세서(110)는 전자 장치(100) 내의 메모리(120)에 저장된 프로그램들을 실행함으로써, 전자 장치(100)를 전반적으로 제어한다. 프로세서(110)는 전자 장치(100) 내에 구비된 CPU(central processing unit), GPU(graphics processing unit), AP(application processor) 등으로 구현될 수 있으나, 이에 제한되지 않는다.
메모리(120)는 전자 장치(100) 내에서 처리되는 각종 데이터들을 저장하는 하드웨어로서, 메모리(120)는 전자 장치(100)에서 처리된 데이터들 및 처리될 데이터들을 저장할 수 있다. 또한, 메모리(120)는 전자 장치(100)에 의해 구동될 애플리케이션들, 드라이버들 등을 저장할 수 있다. 메모리(120)는 DRAM(dynamic random access memory), SRAM(static random access memory) 등과 같은 RAM(random access memory), ROM(read-only memory), EEPROM(electrically erasable programmable read-only memory), CD-ROM, 블루레이 또는 다른 광학 디스크 스토리지, HDD(hard disk drive), SSD(solid state drive), 또는 플래시 메모리를 포함할 수 있다.
화자의 음성 데이터를 이용하여 치매를 진단하는 방법이 널리 활용되고 있다. 음성을 이용한 치매의 분류를 위한 하나의 접근법으로는 x-벡터 및 d-벡터와 같은 종래의 음성 임베딩 기술을 이용하는 것이 있다. 이들 임베딩은 주로 화자 선별 과제를 통해 학습되기 때문에 학습을 마친 임베딩은 나이, 성별, 민족과 같은 인구학적(demographic) 특성 및 음색과 같은 화자 식별을 위한 음향 특징을 많이 담고 있다. 그러나, 치매 진단에 있어서는 이러한 화자 식별 정보보다 리듬 및 침묵율과 같은 음성 자체와 관련된 정보가 더욱 중요한 것으로 고려되고 있다.
이 점에 착안하여, 본 명세서에서는 음성 데이터로부터 인지 장애를 자동으로 선별하기 위해 음성으로부터 화자 식별 임베딩을 분리하는 방법을 설명한다. 화자의 특성을 나타내는 식별 정보가 제거된 음성 데이터를 기반으로 하는 인지 장애 선별 방법은 화자의 특성 정보만을 기반으로 인지 장애를 선별하는 방법에 비해 뛰어난 성능을 가질 것이다. 음성 데이터로부터 화자 식별 임베딩 및 콘텐츠 임베딩을 분리하기 위해 음성 변환을 위한 자동 인코더 기반 프레임워크인 AutoVC 프레임워크의 일부가 사용될 수 있다. AutoVC 프레임워크는 화자 식별 임베딩 및 콘텐츠 임베딩을 각각 생성하는 두 개의 개별 인코더와, 임베딩들의 조합으로부터 변환된 음성을 출력하는 디코더를 포함한다. 전자 장치(100)는 이러한 AutoVC 프레임워크의 일부 구성을 기반으로 음성 데이터로부터 콘텐츠 임베딩을 분리할 수 있다.
도 2는 본 명세서의 일 실시 예에 따른 음성 변환 시스템의 동작 방법을 설명하기 위한 개략적인 도면이다.
도 2를 참조하면, AutoVC 프레임워크를 기반으로 하는 음성 변환 시스템(200)이 도시된다. 음성 변환 시스템(200)은 화자 A의 음성 데이터 S를 획득할 수 있고, 음성 데이터는 리듬, 콘텐츠, 피치 및 음색에 대한 정보를 포함할 수 있다. 음성 변환 시스템(200)에 포함된 인코더(210)는 이러한 음성 데이터 S로부터 화자의 특성을 포함하는 음색 정보를 제거한 콘텐츠 벡터 Z를 추출할 수 있고, 콘텐츠 벡터 Z는 화자 고유의 특성이 제거된 콘텐츠와 관련된 정보만을 포함하게 된다. 이 콘텐츠 벡터 Z는 음성 변환 시스템(200)에 입력된 다른 화자 B의 음색 정보와 함께 음성 변환 시스템(200)에 포함된 디코더(220)에 의해 디코딩될 수 있으며, 디코딩 결과 출력된 음성 데이터
Figure PCTKR2023010412-appb-img-000001
는 A가 말한 콘텐츠를 마치 B가 말하는 것처럼 재생될 수 있다.
본 명세서에서는 도 2에 도시된 음성 변환 시스템(200)의 인코더(210)를 채용하여 화자의 고유 특성이 제거된 콘텐츠 임베딩을 추출하고, 추출된 콘텐츠 임베딩을 기반으로 인지 장애와 연관된 정보를 제공하는 방법이 논의된다.
이하, 전자 장치(100)에서 인지 장애와 연관된 정보를 제공하기 위한 방법의 흐름을 도 3을 참조하여 상세하게 설명하기로 한다.
도 3은 본 명세서의 일 실시 예에 따른 전자 장치의 인지 장애와 연관된 정보 제공 방법의 흐름을 나타내는 순서도이다. 도 3에 도시된 각 단계의 수행 주체는 도 1에 도시된 전자 장치(100)를 포함할 수 있다.
단계 S310에서, 전자 장치는 원본 음성 데이터를 획득할 수 있다.
일 실시 예에서, 전자 장치는 인지 장애 선별 또는 치매 예방을 위한 애플리케이션이 설치된 사용자 단말기를 포함할 수 있고, 전자 장치는 전자 장치에 구비된 입력부를 통해 원본 음성 데이터를 획득할 수 있다. 예를 들어, 사용자는 그의 단말기에 설치된 인지 장애 선별 또는 치매 예방 애플리케이션을 통해 음성 평가를 수행할 수 있고, 그림 설명하기 검사 및 스토리텔링 검사 등을 위해 사용자의 음성을 사용자 단말기에 입력할 수 있다. 입력된 음성은 원본 음성 데이터로서 전자 장치의 프로세서로 제공될 수 있다.
일 실시 예에서, 인코더 및 타겟 모델의 트레이닝 및 검증을 위한 음성 데이터는 예를 들어, DementiaBank Pitt Corpus와 같은 공개된 데이터 세트로부터 획득될 수 있다. DementiaBank Pitt Corpus는 치매의 종적 연구에 사용된 수많은 가공되지 않은 오디오 파일을 포함하는 가장 큰 공개된 데이터 세트이다. 전자 장치(100)는 데이터 세트로부터 건강한 사람(대조군) 및 인지 장애를 갖는 사람 모두의 음성 샘플 데이터를 획득할 수 있다.
단계 S320에서, 전자 장치는 제1 인코더를 사용하여 원본 음성 데이터를 기반으로 화자 식별 임베딩을 획득할 수 있다. 화자 식별 임베딩은 화자의 음성 데이터에서 화자를 식별할 수 있는 개인 특성(예를 들어, 나이, 성별, 음색 등)을 나타내는 데이터를 지칭할 수 있다.
일 실시 예에서, 전자 장치는 원본 음성 데이터를 기반으로 적어도 하나의 부분 음성 데이터를 포함하는 부분 음성 데이터 세트를 확인하고, 제1 인코더를 사용하여 부분 음성 데이터 세트를 기반으로 화자 식별 임베딩을 획득할 수 있다. 여러 음성 데이터들은 동일한 화자에 대하여 적어도 하나의 부분 음성 데이터 세트로 분할될 수 있다. 이는 이후 동일 화자에 대한 화자 식별 임베딩을 추출하는 용도로 사용될 수 있으며, 이 화자 식별 임베딩과 데이터들을 비교하여 각 데이터마다 콘텐츠 임베딩을 추출하여 학습하기 위한 것이다.
일 실시 예에서, 전자 장치는 제1 인코더를 사용하여 적어도 하나의 부분 음성 데이터 각각에 대한 화자 식별 임베딩을 추출하고, 상기 적어도 하나의 부분 음성 데이터 각각에 대한 화자 식별 임베딩의 평균을 계산하여 원본 음성 데이터에 대응하는 화자 식별 임베딩을 획득할 수 있다. 이와 같이 적어도 하나의 부분 음성 데이터 각각에 대한 화자 식별 임베딩의 평균을 계산함으로써, 적어도 하나의 부분 음성 데이터 각각에 대한 화자 식별 임베딩에 포함된 콘텐츠 관련 정보를 정규화하고, 화자 식별 정보로부터 보다 잘 분리되도록 할 수 있다.
일 실시 예에서, 제1 인코더는 LSTM(Long Short Term Memory) 및 정류 선형 유닛(Rectified Linear Unit, ReLU) 중 적어도 하나를 포함할 수 있다. 전자 장치는 동일 화자의 음성 데이터를 기반으로 화자 식별 임베딩 추출 모델의 학습을 수행할 수 있으며, 학습을 위해 LSTM 및 정류 선형 유닛 중 적어도 하나를 포함한 제1 인코더가 이용될 수 있다. 학습을 마친 모델은 동일한 화자의 음성 데이터들에 대해 유사한 화자 식별 임베딩을 출력할 것이다.
단계 S330에서, 전자 장치는 제2 인코더를 사용하여 원본 음성 데이터 및 화자 식별 임베딩을 기반으로 콘텐츠 임베딩을 획득할 수 있다. 콘텐츠 임베딩은 화자의 음성 데이터에서 화자를 식별할 수 있는 개인 특성(예를 들어, 나이, 성별, 음색 등)이 제거된 데이터를 지칭할 수 있으며, 음성의 리듬, 피칭, 끊김의 정도, 침묵율, 특이도 등의 정보를 포함할 수 있다.
일 실시 예에서, 전자 장치는 원본 음성 데이터와 화자 식별 임베딩을 연결하여(concatenate) 제2 인코더에 입력할 수 있다.
일 실시 예에서, 제2 인코더는 컨벌루션 레이어, 양방향 LSTM(bidirectional LSTM) 및 다운샘플링 유닛 중 적어도 하나를 포함할 수 있다. 전자 장치는 원본 음성 데이터 및 화자 식별 임베딩으로부터 컨벌루션 레이어, 양방향 LSTM 및 다운샘플링 유닛 중 적어도 하나를 포함하는 제2 인코더를 사용하여 콘텐츠 임베딩을 추출할 수 있다.
일 실시 예에서, 제2 인코더는 콘텐츠 임베딩 및 제2 인코더에 대응하는 제2 디코더를 사용하여 화자 식별 임베딩을 디코딩하여 생성된 출력 음성 데이터 및 원본 음성 데이터의 비교를 기반으로 학습될 수 있다. 전자 장치는 학습 과정에서 제2 인코더에 입력된 음성과 동일한 화자의 화자 식별 인베딩을 제2 디코더에 입력하여 출력 음성 데이터를 디코딩하도록 구성될 수 있다. 콘텐츠 임베딩 및 화자 식별 임베딩의 디코딩을 통해 원본 음성 데이터와 유사한 출력 음성 데이터가 추출되며, 원본 음성 데이터와 출력 음성 데이터의 차를 최소화하도록 제2 인코더 및 제2 디코더가 학습될 수 있다. 즉, 전자 장치는 출력 음성 데이터와 원본 음성 데이터의 차를 최소화하도록 제2 인코더 및 제2 디코더를 학습함으로써, 제2 인코더의 콘텐츠 임베딩 추출을 학습하도록 구성될 수 있다.
단계 S340에서, 전자 장치는 타겟 모델을 사용하여 콘텐츠 임베딩에 대응하는 화자의 선별 정보를 확인할 수 있다. 타겟 모델은 인지 장애 선별 모델을 포함할 수 있다. 타겟 모델은 콘텐츠 임베딩을 입력으로 하고 화자의 인지 장애와 관련된 선별 정보를 출력으로 할 수 있으며, 분류 모델 또는 회귀 모델을 포함할 수 있다. 분류 모델의 경우 선별 정보는 참 또는 거짓의 이진 정보를 포함하고, 회귀 모델의 경우 선별 정보는 0과 1 사이의 확률 값을 포함할 수 있다.
일 실시 예에서, 선별 정보는 치매를 유발할 수 있는 다양한 요인과, 요인 각각에 대응하는 위험도 또는 스코어로 구성된 벡터를 포함할 수 있다.
일 실시 예에서, 선별 정보는 간이 정신 상태 검사(Mini-Mental State Examination; MMSE)와 연관된 스코어를 포함할 수 있다 (예를 들어, 0 ~ 30점). 전자 장치는 화자의 상기 스코어를 기반으로 예를 들어, 24점 이상인 경우 확정적 정상, 20~23점인 경우 치매 의심, 및 19점 이하인 경우 확정적 치매의 진단을 할 수 있다.
일 실시 예에서, 타겟 모델은 완전연결층(fully connected layer)을 포함하고, 완전연결층은 복수의 콘텐츠 임베딩과 복수의 콘텐츠 임베딩 각각에 대응하는 라벨을 기반으로 학습될 수 있다. 라벨은 분류 모델의 경우 참 또는 거짓의 이진 정보를 포함하고, 회귀 모델의 경우 0과 1 사이의 확률 값을 포함할 수 있으며, 전자 장치는 복수의 콘텐츠 임베딩과 각각에 대응하는 라벨을 통해 완전연결층을 사전 학습시킬 수 있다.
단계 S350에서, 전자 장치는 선별 정보를 기반으로 결과 정보를 제공할 수 있다. 전자 장치는 화자가 치매로 판단되는 경우, 치매의 치료를 위한 약 처방, 운동법, 인지 훈련, 식단, 관리 방법 등에 대한 정보를 제공할 수 있다.
일 실시 예에서, 선별 정보는 인지 장애와 연관된 스코어를 포함할 수 있고, 전자 장치는 스코어를 기반으로 화자의 인지 장애의 경중에 따라 다른 치료 또는 예방과 관련된 정보를 제공할 수 있다.
일 실시 예에서, 결과 정보는 선별 정보에 대응하는 인지 훈련 세트에 대한 정보를 포함할 수 있다. 예를 들어, MMSE와 연관된 화자의 스코어가 21점 내지 24점인 경우, 인지 훈련 A, B, C를 순서대로 수행하도록 하는 루틴이 결과 정보로서 제공될 수 있고, MMSE와 연관된 화자의 스코어가 20점 이하라면, 인지 훈련 C, D, E, F, G를 순서대로 수행하도록 하는 루틴이 결과 정보로서 제공될 수 있다. 이와 같이, 전자 장치는 화자의 선별 정보에 적합한 인지 훈련 루틴을 제공하여 화자에 맞춤화된 치매 예방 및 치료 방법을 제공할 수 있다.
도 4는 본 명세서의 일 실시 예에 따른 음성 데이터로부터 콘텐츠 임베딩을 분리하기 위한 전반적인 아키텍처를 나타내는 도면이다.
도 4에 도시된 예시에서, Xi는 화자 i의 음성으로부터 계산된 N Х T 크기의 멜 스펙트로그램(mel spectrogram)이다. N은 멜 주파수 빈의 개수이며(여기서는 64ms의 윈도우 및 16ms의 스텝 크기로 80으로 설정), T는 타임 스텝의 개수이다. 콘텐츠 인코더 EC(420)는 입력으로 각 시간 스텝(프레임)에서 화자 식별 임베딩과 연결된 Xi를 취하며, 이를 기반으로 콘텐츠 임베딩 Ci를 리턴할 수 있다.
유사하게, 화자 인코더 ES(410)는 입력으로 2차원 멜 스펙트로그램의 형태의 화자 i의 음성이 주어질 때 화자 식별 임베딩 Si를 리턴할 수 있다. 본 실시 예에서 화자 식별 임베딩은 발화(utterance) 레벨의 화자 식별 임베딩의 평균으로 계산될 수 있다. 전자 장치(100)는 각 화자에 대해, 화자 식별 임베딩의 세트와 그의 산술 평균을 계산하여 화자 고유의 식별 임베딩을 획득할 수 있으며, 화자 식별 임베딩의 세트는 각 임베딩이 화자의 전체 음성을 구성하는 하나의 발화에 대응할 수 있다. 이는 화자 식별 임베딩 내에 인코딩된 콘텐츠 정보를 그들의 평균을 취함으로써 정규화하기 위한 것이다. 동일한 화자에 대한 화자 식별 임베딩 내의 콘텐츠 관련 요소는 다양한 값을 가지는 반면 화자 관련 요소는 상대적으로 일정한 값을 가질 것이므로, 이들의 평균을 취하면 콘텐츠 관련 요소로부터 화자 관련 요소가 더욱 분리될 것이다.
즉, 전자 장치는 원본 음성 데이터 Xi를 복수의 샘플링 데이터 (또는 부분 발화) {xi,0, ..., xi,n}로 분할할 수 있고, 콘텐츠 임베딩 Ci는 다음과 같이 나타낼 수 있다.
Figure PCTKR2023010412-appb-img-000002
여기서,
Figure PCTKR2023010412-appb-img-000003
이다.
일 실시 예에서, 복수의 샘플링 데이터는 원본 음성 데이터를 기반으로 확인된 적어도 하나의 부분 음성 데이터를 포함하는 부분 음성 데이터 세트를 포함할 수 있다.
한편 콘텐츠 인코더를 학습시키기 위해서는 화자 식별 임베딩 Si와 콘텐츠 임베딩 Ci를 결합하여 음성을 재구성하는 디코더 D(430)가 필요하며, 디코더 D(430)를 통해 추정된 음성 데이터
Figure PCTKR2023010412-appb-img-000004
와 원본 음성 데이터 Xi의 차이가 최소가 되도록 손실 함수가 구성되어 학습될 수 있다.
도 5a 및 도 5b는 본 명세서의 일 실시 예에 따른 화자 인코더 및 콘텐츠 인코더를 각각 나타내는 도면이다.
도 5a를 참조하면, 음성 데이터로부터 화자 식별 임베딩을 추출하기 위한 화자 인코더 ES의 예시적인 연산 과정이 도시된다. 화자 인코더 ES는 복수의 LSTM(510) 및 정류 선형 유닛(520)을 포함할 수 있다.
도 5b를 참조하면, 음성 데이터 및 화자 식별 임베딩을 기반으로 콘텐츠 임베딩을 추출하기 위한 콘텐츠 인코더 EC의 예시적인 연산 과정이 도시된다. 콘텐츠 인코더 EC는 복수의 컨벌루션 레이어(530), 복수의 양방향 LSTM(540) 및 다운샘플링 유닛(550)을 포함할 수 있다.
도 6은 본 명세서의 일 실시 예에 따른 전자 장치의 학습 프로세스를 개략적으로 나타낸 도면이다.
도 6을 참조하면, 전자 장치에서 화자 인코더, 콘텐츠 인코더(AutoVC 기반의 인코더/디코더) 및 타겟 모델을 학습하는 개략적인 프로세스가 도시된다. 먼저 리듬, 피치, 콘텐츠, 및 음색의 정보를 포함하는 원본 음성 데이터(601)가 동일 화자에 대해 수집되어 화자 식별 인코더(602)를 학습하는 데 활용될 수 있다. 이와 같이 학습된 화자 식별 인코더(602)는 원본 음성 데이터(601)로부터 화자를 식별할 수 있는 음색을 포함하는 화자 식별 임베딩(603)을 추출할 수 있다.
한편, AutoVC 인코더(604)는 화자의 원본 음성 데이터(601)로부터 음색을 제외한 콘텐츠 관련 정보만을 포함하는 콘텐츠 임베딩(605)을 추출하고, 화자 식별 임베딩(603)과 콘텐츠 임베딩(605)은 AutoVC 디코더(606)를 통해 디코딩되어 원본 음성 데이터(601)와 유사한 출력 음성 데이터(607)를 생성할 수 있다. 생성된 출력 음성은 원본 음성 데이터와의 비교를 통해 AutoVC 인코더(604) 및 디코더(606)를 학습하는 데 활용될 수 있다.
AutoVC 인코더(604)를 사용하여 추출된 콘텐츠 임베딩(605)은 치매 또는 대조군에 대응하는 라벨(608)과 함께 타겟 모델을 포함하는 치매 분류기(609)를 학습시킬 수 있고, 치매 분류기(609)는 입력된 콘텐츠 임베딩(605)에 대응하는 치매 또는 대조군인지에 대한 예측 라벨(610)을 출력할 수 있다.
도 7은 본 명세서의 일 실시 예에 따른 콘텐츠 임베딩을 사용한 분류 모델의 성능을 나타내는 표이다.
도 7을 참조하면, 4개의 기계 학습 분류기, 즉, 선형 판별 분석(Linear Discriminant Analysis, LDA), 서포트 벡터 머신(Support Vector Machine, SVM), 결정 트리(Decision Tree, DT), 및 랜덤 포레스트(Random Forest, RF)의 각 입력에 대한 성능을 표시하는 표(700)가 도시된다. x-벡터, d-벡터뿐만 아니라 AutoVC 학습에 사용된 화자 식별 인코더로 추출된 화자 식별 임베딩보다도 AutoVC 인코더로 추출된 콘텐츠 임베딩을 사용한 분류 모델의 성능이 가장 뛰어남을 확인할 수 있다.
한편, 본 명세서와 도면에는 본 발명의 바람직한 실시 예에 대하여 개시하였으며, 비록 특정 용어들이 사용되었으나, 이는 단지 본 발명의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예 외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.

Claims (14)

  1. 전자 장치의 정보 제공 방법으로서,
    화자의 원본 음성 데이터를 획득하는 단계;
    제1 인코더를 사용하여 상기 원본 음성 데이터를 기반으로 화자 식별 임베딩을 획득하는 단계;
    제2 인코더를 사용하여 상기 원본 음성 데이터 및 상기 화자 식별 임베딩을 기반으로 콘텐츠 임베딩을 획득하는 단계;
    타겟 모델을 사용하여 상기 콘텐츠 임베딩을 기반으로 상기 화자의 선별 정보를 확인하는 단계; 및
    상기 선별 정보를 기반으로 결과 정보를 제공하는 단계를 포함하는, 전자 장치의 정보 제공 방법.
  2. 제1항에 있어서,
    상기 콘텐츠 임베딩을 획득하는 단계는
    상기 원본 음성 데이터와 상기 화자 식별 임베딩을 연결하여(concatenate) 상기 제2 인코더에 입력하는 단계를 더 포함하는, 전자 장치의 정보 제공 방법.
  3. 제1항에 있어서,
    상기 제2 인코더는 상기 콘텐츠 임베딩 및 상기 제2 인코더에 대응하는 제2 디코더를 사용하여 상기 화자 식별 임베딩을 디코딩하여 생성된 출력 음성 데이터 및 상기 원본 음성 데이터의 비교를 기반으로 학습되는, 전자 장치의 정보 제공 방법.
  4. 제3항에 있어서,
    상기 제2 인코더 및 상기 제2 디코더는 상기 출력 음성 데이터 및 상기 원본 음성 데이터의 차이를 최소화하도록 학습되는 것을 특징으로 하는, 전자 장치의 정보 제공 방법.
  5. 제1항에 있어서,
    상기 화자 식별 임베딩을 획득하는 단계는
    상기 원본 음성 데이터를 기반으로 적어도 하나의 부분 음성 데이터를 포함하는 부분 음성 데이터 세트를 확인하는 단계; 및
    상기 제1 인코더를 사용하여 상기 부분 음성 데이터 세트를 기반으로 상기 화자 식별 임베딩을 획득하는 단계를 포함하는, 전자 장치의 정보 제공 방법.
  6. 제1항에 있어서,
    상기 제1 인코더는 LSTM(Long Short Term Memory) 및 정류 선형 유닛(Rectified Linear Unit, ReLU) 중 적어도 하나를 포함하는, 전자 장치의 정보 제공 방법.
  7. 제1항에 있어서,
    상기 제2 인코더는 컨벌루션 레이어, 양방향 LSTM(bidirectional LSTM) 및 다운샘플링 유닛 중 적어도 하나를 포함하는, 전자 장치의 정보 제공 방법.
  8. 제1항에 있어서,
    상기 화자 식별 임베딩은 상기 원본 음성 데이터에 포함된 음색(timbre) 정보를 포함하는, 전자 장치의 정보 제공 방법.
  9. 제1항에 있어서,
    상기 콘텐츠 임베딩은 상기 원본 음성 데이터에 포함된 리듬(rhythm), 피치(pitch) 및 콘텐츠 정보를 포함하는, 전자 장치의 정보 제공 방법.
  10. 제1항에 있어서,
    상기 타겟 모델은 완전연결층(fully connected layer)을 포함하고,
    상기 완전연결층은 복수의 콘텐츠 임베딩과 상기 복수의 콘텐츠 임베딩 각각에 대응하는 라벨을 기반으로 학습되는, 전자 장치의 정보 제공 방법.
  11. 제1항에 있어서,
    상기 선별 정보는 간이 정신 상태 검사(Mini-Mental State Examination; MMSE)와 연관된 스코어를 포함하는, 전자 장치의 정보 제공 방법.
  12. 제1항에 있어서,
    상기 결과 정보는 상기 선별 정보에 대응하는 인지 훈련 세트에 대한 정보를 포함하는, 전자 장치의 정보 제공 방법.
  13. 정보를 제공하는 전자 장치로서,
    적어도 하나의 명령어를 저장하는 메모리; 및
    상기 적어도 하나의 명령어를 실행함으로써, 화자의 원본 음성 데이터를 획득하고, 제1 인코더를 사용하여 상기 원본 음성 데이터를 기반으로 화자 식별 임베딩을 획득하고, 제2 인코더를 사용하여 상기 원본 음성 데이터 및 상기 화자 식별 임베딩을 기반으로 콘텐츠 임베딩을 획득하고, 타겟 모델을 사용하여 상기 콘텐츠 임베딩을 기반으로 상기 화자의 선별 정보를 확인하고, 상기 선별 정보를 기반으로 결과 정보를 제공하는 프로세서를 포함하는, 정보를 제공하는 전자 장치.
  14. 비일시적 컴퓨터 판독 가능 저장 매체로서,
    컴퓨터 판독 가능 명령어들을 저장하도록 구성되는 매체를 포함하고,
    상기 컴퓨터 판독 가능 명령어들은 프로세서에 의해 실행되는 경우 상기 프로세서가:
    화자의 원본 음성 데이터를 획득하는 단계;
    제1 인코더를 사용하여 상기 원본 음성 데이터를 기반으로 화자 식별 임베딩을 획득하는 단계;
    제2 인코더를 사용하여 상기 원본 음성 데이터 및 상기 화자 식별 임베딩을 기반으로 콘텐츠 임베딩을 획득하는 단계;
    타겟 모델을 사용하여 상기 콘텐츠 임베딩을 기반으로 상기 화자의 선별 정보를 확인하는 단계; 및
    상기 선별 정보를 기반으로 결과 정보를 제공하는 단계를 포함하는 전자 장치의 정보 제공 방법을 수행하도록 하는, 비일시적 컴퓨터 판독 가능 저장 매체.
PCT/KR2023/010412 2022-08-05 2023-07-19 인지 장애와 연관된 정보를 제공하는 방법 및 장치 WO2024029799A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020220098149A KR102472910B1 (ko) 2022-08-05 2022-08-05 인지 장애와 연관된 정보를 제공하는 방법 및 장치
KR10-2022-0098149 2022-08-05

Publications (1)

Publication Number Publication Date
WO2024029799A1 true WO2024029799A1 (ko) 2024-02-08

Family

ID=84418028

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/010412 WO2024029799A1 (ko) 2022-08-05 2023-07-19 인지 장애와 연관된 정보를 제공하는 방법 및 장치

Country Status (2)

Country Link
KR (2) KR102472910B1 (ko)
WO (1) WO2024029799A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102472910B1 (ko) * 2022-08-05 2022-12-02 주식회사 실비아헬스 인지 장애와 연관된 정보를 제공하는 방법 및 장치

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190024148A (ko) * 2017-08-31 2019-03-08 경북대학교 산학협력단 음성 인식 장치 및 음성 인식 방법
KR102161638B1 (ko) * 2020-04-13 2020-10-06 가천대학교 산학협력단 기계학습 모델을 이용한 음성인식 기술에 기반한 치매정도 판별방법, 시스템, 및 컴퓨터-판독가능매체
KR20210009593A (ko) * 2019-07-17 2021-01-27 한양대학교 산학협력단 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 방법 및 장치
KR20210015020A (ko) * 2019-07-31 2021-02-10 주식회사 유니온 아일랜드 음성인식이 가능한 치매 관리 서비스 제공 방법 및 그 장치와 시스템
KR20210019920A (ko) * 2019-08-13 2021-02-23 삼성전자주식회사 사용자의 음성을 인식하는 시스템 및 방법
KR102472910B1 (ko) * 2022-08-05 2022-12-02 주식회사 실비아헬스 인지 장애와 연관된 정보를 제공하는 방법 및 장치

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190024148A (ko) * 2017-08-31 2019-03-08 경북대학교 산학협력단 음성 인식 장치 및 음성 인식 방법
KR20210009593A (ko) * 2019-07-17 2021-01-27 한양대학교 산학협력단 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 방법 및 장치
KR20210015020A (ko) * 2019-07-31 2021-02-10 주식회사 유니온 아일랜드 음성인식이 가능한 치매 관리 서비스 제공 방법 및 그 장치와 시스템
KR20210019920A (ko) * 2019-08-13 2021-02-23 삼성전자주식회사 사용자의 음성을 인식하는 시스템 및 방법
KR102161638B1 (ko) * 2020-04-13 2020-10-06 가천대학교 산학협력단 기계학습 모델을 이용한 음성인식 기술에 기반한 치매정도 판별방법, 시스템, 및 컴퓨터-판독가능매체
KR102472910B1 (ko) * 2022-08-05 2022-12-02 주식회사 실비아헬스 인지 장애와 연관된 정보를 제공하는 방법 및 장치

Also Published As

Publication number Publication date
KR102472910B9 (ko) 2023-10-12
KR20240020151A (ko) 2024-02-14
KR102472910B1 (ko) 2022-12-02

Similar Documents

Publication Publication Date Title
WO2024029799A1 (ko) 인지 장애와 연관된 정보를 제공하는 방법 및 장치
Mirheidari et al. An avatar-based system for identifying individuals likely to develop dementia
US9251808B2 (en) Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof
Guedes et al. Transfer learning with audioset to voice pathologies identification in continuous speech
Borrie et al. Rhythm perception and its role in perception and learning of dysrhythmic speech
Kadi et al. Discriminative prosodic features to assess the dysarthria severity levels
Kim et al. Automatic depression detection using smartphone-based text-dependent speech signals: deep convolutional neural network approach
Compton et al. Developing an artificial intelligence tool to predict vocal cord pathology in primary care settings
Ravi et al. A step towards preserving speakers’ identity while detecting depression via speaker disentanglement
Hernández-Domínguez et al. Detection of Alzheimer’s disease based on automatic analysis of common objects descriptions
Scholten et al. Learning to recognise words using visually grounded speech
Egas-López et al. Deep neural network embeddings for the estimation of the degree of sleepiness
CN109284387B (zh) 刻板特异用语检测系统、方法、计算机设备和存储介质
Sheikh et al. End-to-end and self-supervised learning for ComParE 2022 stuttering sub-challenge
CN115424108B (zh) 一种基于视听融合感知的认知功能障碍评测方法
Valsaraj et al. Alzheimer’s dementia detection using acoustic & linguistic features and pre-trained BERT
Al Mojaly et al. Detection and classification of voice pathology using feature selection
CN114881668A (zh) 一种基于多模态的欺骗检测方法
van Bemmel et al. Automatic Selection of the Most Characterizing Features for Detecting COPD in Speech
Meng et al. A lightweight CNN and Transformer hybrid model for mental retardation screening among children from spontaneous speech
WO2023054887A1 (ko) 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치 및 방법
Tang et al. A New Benchmark of Aphasia Speech Recognition and Detection Based on E-Branchformer and Multi-task Learning
Motlagh et al. Using general sound descriptors for early autism detection
Barrett et al. Comparison of performance of automatic recognizers for stutters in speech trained with event or interval markers
Abdulbaqi Speech-based activity recognition for medical teamwork

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23850306

Country of ref document: EP

Kind code of ref document: A1