KR20230087872A - Deep learning-based sound impairment classification apparatus, system control method, and computer program - Google Patents

Deep learning-based sound impairment classification apparatus, system control method, and computer program Download PDF

Info

Publication number
KR20230087872A
KR20230087872A KR1020210176490A KR20210176490A KR20230087872A KR 20230087872 A KR20230087872 A KR 20230087872A KR 1020210176490 A KR1020210176490 A KR 1020210176490A KR 20210176490 A KR20210176490 A KR 20210176490A KR 20230087872 A KR20230087872 A KR 20230087872A
Authority
KR
South Korea
Prior art keywords
feature vector
model
dysarthria
audio data
type
Prior art date
Application number
KR1020210176490A
Other languages
Korean (ko)
Inventor
이은주
장민욱
김동욱
이동진
이재희
Original Assignee
한림대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한림대학교 산학협력단 filed Critical 한림대학교 산학협력단
Priority to KR1020210176490A priority Critical patent/KR20230087872A/en
Publication of KR20230087872A publication Critical patent/KR20230087872A/en

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7203Signal processing specially adapted for physiological signals or for diagnostic purposes for noise prevention, reduction or removal
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Pathology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Veterinary Medicine (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Surgery (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Computational Linguistics (AREA)
  • Physiology (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은, 환자의 구음 장애 유형을 판단하는 인공지능 모델이 저장된 메모리, 및 메모리와 연결되어, 일 텍스트를 발화하는 사용자의 음성에 대응되는 오디오 데이터를 획득하고, 텍스트 및 오디오 데이터를 인공지능 모델에 입력하여, 오디오 데이터에 매칭되는 구음 장애 유형을 식별하는 프로세서를 포함하는, 전자 장치를 제공한다.The present invention provides a memory in which an artificial intelligence model for determining the type of dysarthria of a patient is stored, and audio data corresponding to a user's voice uttering a text is obtained by connecting to the memory, and the text and audio data are converted into an artificial intelligence model. Provided is an electronic device including a processor for inputting to and identifying a dysarthria type matched to audio data.

Description

딥러닝 기반 구음 장애 분류 장치, 시스템의 제어 방법, 및 컴퓨터 프로그램{DEEP LEARNING-BASED SOUND IMPAIRMENT CLASSIFICATION APPARATUS, SYSTEM CONTROL METHOD, AND COMPUTER PROGRAM}DEEP LEARNING-BASED SOUND IMPAIRMENT CLASSIFICATION APPARATUS, SYSTEM CONTROL METHOD, AND COMPUTER PROGRAM}

본 발명은 딥러닝에 기반한 구음 장애 분류 기술에 관한 것으로, 좀 더 상세하게는, 딥러닝을 통해 인공지능 모델을 학습시켜, 사용자의 음성이 입력되면 사용자의 구음 장애 유형을 판단하는 장치, 시스템의 제어 방법 및 컴퓨터 프로그램을 제공하는 기술이다.The present invention relates to a deep learning-based speech impairment classification technology, and more particularly, to an apparatus and system for learning an artificial intelligence model through deep learning to determine the type of speech impairment of a user when a user's voice is input. It is a technology that provides control methods and computer programs.

종래의 구음 장애 평가는 온라인 또는 오프라인 상에 주어지는 언어 능력 테스트 수행 및 설문지의 작성을 통해 이루어 졌으며, 이는 사용자의 스스로에 대한 평가를 통해 응답되는 것으로 객관화되지 못하여, 정확한 구음 장애 유형을 도출하지 못하는 문제점이 있어 왔다.The conventional dysarthria evaluation was conducted through online or offline language proficiency tests and filling out questionnaires, which were answered through self-assessment of the user and could not be objectified, resulting in inability to derive accurate types of dysarthria. there has been

또한, 특허문헌 1에서 개시하는 바와 같이, 복잡한 절차에 따른 언어 능력 테스트 수행 및 설문지의 작성은 시간적 제약이 존재하며, 사용자가 지쳐, 도중에 구음 장애 평가를 포기하는 문제가 발생해 왔다.In addition, as disclosed in Patent Document 1, there are time constraints in performing a language proficiency test and filling out a questionnaire according to a complicated procedure, and a problem has arisen in which a user is tired and gives up the speech impairment evaluation in the middle.

한편, 상기의 배경기술로서 설명된 사항들은 본 발명의 배경에 대한 이해 증진을 위한 것일 뿐, 이 기술분야에서 통상의 지식을 가진 자에게 이미 알려진 종래기술에 해당함을 인정하는 것으로 받아들여져서는 안 될 것이다.On the other hand, the matters described as the background art above are only for improving understanding of the background of the present invention, and should not be taken as an admission that they correspond to prior art already known to those skilled in the art. will be.

등록특허공보 제10-1921890호, 2018.11.20.Registered Patent Publication No. 10-1921890, 2018.11.20.

본 발명이 해결하고자 하는 과제는 입력된 사용자의 음성을 바탕으로 오디오 데이터를 획득하여, 인공지능 모델을 통해 오디오 데이터에 매칭되는 구음 장애 유형을 판단하는 딥러닝에 기반한 구음 장애 분류 기술을 제공하는 것이다.The problem to be solved by the present invention is to provide a speech disorder classification technology based on deep learning that acquires audio data based on the input user's voice and determines the type of dysarthria matched to the audio data through an artificial intelligence model. .

또한, 본 발명은, 한국지능정보사회진흥원, 인공지능 학습용 데이터 구축사업의 구음장애 음성 데이터(과제고유번호 21002131305088212100101BS)로 2021.06.01부터 2021.12.31의 기간에 연구된 기술이다.In addition, the present invention is a technology researched from 2021.06.01 to 2021.12.31 with dysarthria voice data (assignment number 21002131305088212100101BS) of the Korea Institute for Intelligence and Information Society Promotion, AI learning data construction project.

본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The problems to be solved by the present invention are not limited to the problems mentioned above, and other problems not mentioned will be clearly understood by those skilled in the art from the description below.

상술한 과제를 해결하기 위한 본 발명의 일 면에 따른 전자 장치에 있어서, 환자의 구음 장애 유형을 판단하는 인공지능 모델이 저장된 메모리, 및 메모리와 연결된 프로세서를 포함하고, 이때, 프로세서는, 일 텍스트를 발화하는 사용자의 음성에 대응되는 오디오 데이터를 획득하고, 상기 오디오 데이터를 인공지능 모델에 입력하여, 오디오 데이터에 매칭되는 구음 장애 유형을 식별하는 것을 특징으로 한다.An electronic device according to an aspect of the present invention for solving the above problems includes a memory storing an artificial intelligence model for determining a patient's dysarthria type, and a processor connected to the memory, wherein the processor includes one text Acquisition of audio data corresponding to the voice of the user who utters the audio data, and inputting the audio data to an artificial intelligence model to identify a type of dysarthria matched to the audio data.

추가로, 프로세서는, 오디오 데이터를 노이즈 필터링(noise filtering)하고, 필터링된 오디오 데이터를 복수의 구간으로 구간화하되, 인접한 구간 간에 일정 시간만큼 중첩하여 프레이밍(framing)하고, 프레이밍된 오디오 데이터로부터 복수의 음향(aqoustic) 특징 벡터 및 복수의 MFCC(Mel Frequency Cepstral Coefficients) 특징 벡터를 추출하는 것을 특징으로 한다.In addition, the processor performs noise filtering on the audio data, sections the filtered audio data into a plurality of sections, overlaps adjacent sections by a predetermined time, and frames the audio data from the framed audio data. It is characterized in that an acoustic feature vector and a plurality of MFCC (Mel Frequency Cepstral Coefficients) feature vectors are extracted.

추가로, 프로세서는, 프레이밍된 오디오 데이터에 MFCC 기법을 적용하여 적어도 하나의 제1 MFCC 특징 벡터를 획득하고, 적어도 하나의 제1 MFCC 특징 벡터의 값을 미분하여 적어도 하나의 제2 MFCC 특징 벡터를 획득하고, 적어도 하나의 제2 MFCC 특징 벡터의 값을 미분하여 적어도 하나의 제3 MFCC 특징 벡터를 획득하며, 복수의 MFCC 특징 벡터는, 적어도 하나의 제1 MFCC 특징 벡터, 적어도 하나의 제2 MFCC 특징 벡터, 및 적어도 하나의 제3 MFCC 특징 벡터를 포함하는 것을 특징으로 한다.Additionally, the processor obtains at least one first MFCC feature vector by applying the MFCC technique to the framed audio data, and differentiates values of the at least one first MFCC feature vector to obtain at least one second MFCC feature vector. Obtaining, and differentiating the value of the at least one second MFCC feature vector to obtain at least one third MFCC feature vector, wherein the plurality of MFCC feature vectors include at least one first MFCC feature vector and at least one second MFCC It is characterized by including a feature vector and at least one third MFCC feature vector.

이때, 인공지능 모델은, 오디오 데이터로부터 추출된, 복수의 음향 특징 벡터 및 복수의 MFCC 특징 벡터 중, 적어도 하나의 특징 벡터를 선택하는 제1 모델, 및 선택된 특징 벡터를 바탕으로 구음 장애 유형을 판단하는 제2 모델을 포함할 수 있다.At this time, the artificial intelligence model is a first model for selecting at least one feature vector from among a plurality of acoustic feature vectors and a plurality of MFCC feature vectors extracted from audio data, and determining the type of dysarthria based on the selected feature vector It may include a second model that does.

추가로, 제1 모델은, 텍스트에 따라 적어도 하나의 특징 벡터를 선택하고, 제2 모델은, 선택된 특징 벡터를 바탕으로, 텍스트를 발화하는 정상인의 음성의 오디오 데이터를 오디오 데이터와 비교할 수 있다.Additionally, the first model may select at least one feature vector according to the text, and the second model may compare audio data of a voice of a normal person uttering the text with the audio data based on the selected feature vector.

추가로, 프로세서는, 사용자의 실제 구음 장애 유형이 인공지능 모델로부터 출력된 구음 장애 유형과 일치하지 않는 경우, 텍스트에 매칭된 오차 발생 횟수를 업데이트하고, 오차 발생 횟수가 일정 값을 초과하면, 텍스트에 대하여 다른 특징 벡터를 선택하도록 제1 모델을 업데이트할 수 있다.In addition, the processor updates the number of error occurrences matched to the text when the user's actual dysarthria type does not match the type of dysarthria output from the artificial intelligence model, and if the number of errors exceeds a certain value, the text The first model can be updated to select a different feature vector for .

본 발명의 이 면에 따른 딥러닝 기반 구음 장애 분류 시스템의 제어 방법에 있어서, 서버가, 사용자 단말로부터 일 텍스트를 발화하는 사용자의 음성에 대응되는 오디오 데이터를 획득하는 단계, 서버가, 환자의 구음 장애 유형을 판단하는 인공지능 모델을 통해 사용자의 음성에 매칭되는 구음 장애 유형을 식별하는 단계, 및 서버가, 식별된 구음 장애 유형을 사용자 단말로 제공하는 단계를 포함한다.In the method for controlling a deep learning-based dysarthria classification system according to another aspect of the present invention, the step of obtaining, by a server, audio data corresponding to a voice of a user uttering a text from a user terminal; The method includes identifying a dysarthria type matched to the user's voice through an artificial intelligence model for determining the type of dysarthria, and providing, by a server, the identified dysarthria type to a user terminal.

추가로, 환자의 구음 장애 유형을 판단하는 인공지능 모델을 통해 사용자의 음성에 매칭되는 구음 장애 유형을 식별하는 단계는, 서버가, 오디오 데이터를 노이즈 필터링(noise filtering)하는 단계, 서버가, 필터링된 오디오 데이터를 복수의 구간으로 구간화하되, 인접한 구간 간에 일정 시간만큼 중첩하여 프레이밍(framing)하는 단계, 서버가, 프레이밍된 오디오 데이터로부터 복수의 음향(aqoustic) 특징 벡터를 추출하는 단계, 서버가, 프레이밍된 오디오 데이터에 MFCC(Mel Frequency Cepstral Coefficients) 기법을 적용하여 적어도 하나의 제1 MFCC 특징 벡터를 획득하는 단계, 서버가, 적어도 하나의 제1 MFCC 특징 벡터의 값을 미분하여 적어도 하나의 제2 MFCC 특징 벡터를 획득하는 단계, 및 서버가, 적어도 하나의 제2 MFCC 특징 벡터의 값을 미분하여 적어도 하나의 제3 MFCC 특징 벡터를 획득하는 단계를 포함할 수 있다.In addition, the step of identifying the type of dysarthria that matches the user's voice through the artificial intelligence model for determining the type of dysarthria of the patient is the step of noise filtering the audio data by the server, the filtering by the server Sectioning the audio data into a plurality of sections, but overlapping adjacent sections by a certain amount of time for framing; extracting, by the server, a plurality of acoustic feature vectors from the framed audio data; , obtaining at least one first MFCC feature vector by applying a Mel Frequency Cepstral Coefficients (MFCC) technique to the framed audio data, wherein the server differentiates the value of the at least one first MFCC feature vector to obtain at least one first MFCC feature vector It may include obtaining 2 MFCC feature vectors, and acquiring, by a server, at least one third MFCC feature vector by differentiating values of at least one second MFCC feature vector.

추가로, 환자의 구음 장애 유형을 판단하는 인공지능 모델을 통해 사용자의 음성에 매칭되는 구음 장애 유형을 식별하는 단계는, 서버가, 복수의 음향 특징 벡터 및 적어도 하나의 제1 MFCC 특징 벡터, 적어도 하나의 제2 MFCC 특징 벡터, 및 적어도 하나의 제3 MFCC 특징 벡터를 인공지능 모델에 포함된 제1 모델에 입력하는 단계, 서버가, 제1 모델로부터 적어도 하나의 특징 벡터를 획득하는 단계, 서버가, 획득된 특징 벡터를 인공지능 모델에 포함된 제2 모델에 입력하는 단계, 및 서버가, 제2 모델로부터 사용자의 음성에 매칭되는 구음 장애 유형을 획득하는 단계를 포함할 수 있다.In addition, the step of identifying the dysarthria type matched to the user's voice through the artificial intelligence model for determining the type of dysarthria of the patient includes: a plurality of acoustic feature vectors and at least one first MFCC feature vector, at least Inputting one second MFCC feature vector and at least one third MFCC feature vector to a first model included in an artificial intelligence model, obtaining, by a server, at least one feature vector from the first model, server (a) inputting the obtained feature vector into a second model included in the artificial intelligence model; and acquiring, by a server, a dysarthria type matched to the user's voice from the second model.

이때, 본 발명의 이 면에 따른 분류 시스템의 제어 방법은, 제1 모델이, 텍스트에 따라 적어도 하나의 특징 벡터를 선택하는 단계, 제2 모델이, 선택된 특징 벡터를 바탕으로, 텍스트를 발화하는 정상인의 음성의 오디오 데이터를 오디오 데이터와 비교하는 단계, 사용자의 실제 구음 장애 유형이 인공지능 모델로부터 출력된 구음 장애 유형과 일치하지 않는 경우, 서버가, 텍스트에 매칭된 오차 발생 횟수를 업데이트하는 단계, 및 오차 발생 횟수가 일정 값을 초과하면, 서버가, 텍스트에 대하여 다른 특징 벡터를 선택하도록 제1 모델을 업데이트하는 단계를 포함할 수 있다.At this time, the control method of the classification system according to this aspect of the present invention includes selecting at least one feature vector according to the text by the first model, and uttering the text based on the selected feature vector by the second model. Comparing the audio data of the normal person's voice with the audio data, and if the user's actual dysarthria type does not match the dysarthria type output from the artificial intelligence model, the server updating the number of occurrences of errors matched to the text. , and if the error occurrence count exceeds a predetermined value, the server may update the first model to select another feature vector for the text.

추가로, 텍스트에 대하여 다른 특징 벡터를 선택하도록 제1 모델을 업데이트하는 단계는, 제2 모델의 정확도가 일정 값 미만인 경우, 서버가, 제1 모델로부터, 정확도가 일정 값 이상이되도록 하는 적어도 하나의 특징 벡터를 선택하도록 하는 단계, 및 서버가, 정확도가 일정 값 이상이되도록 하는 적어도 하나의 특징 벡터를 텍스트에 대하여 저장하는 단계를 포함할 수 있다.In addition, updating the first model to select another feature vector for the text may include, if the accuracy of the second model is less than a certain value, the server determines, from the first model, at least one value that causes the accuracy to be greater than or equal to the certain value. The method may include selecting a feature vector, and storing, by the server, at least one feature vector having an accuracy greater than or equal to a predetermined value for the text.

한편, 하드웨어인 컴퓨터와 결합되어, 본 발명의 이 면에 따른 분류 시스템의 방법을 수행할 수 있도록 컴퓨터에서 독출가능한 기록매체에 저장된 컴퓨터 프로그램을 더 포함한다.On the other hand, it is combined with a computer that is hardware and further includes a computer program stored in a computer-readable recording medium to perform the method of the classification system according to another aspect of the present invention.

본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.Other specific details of the invention are included in the detailed description and drawings.

본 발명의 딥러닝에 기반한 구음 장애 분류 기술에 의하면, 사용자의 음성 입력만으로도 사용자가 갖는 구음 장애 유형을 판단하여 제공함으로써, 시간 및 공간에 따른 제약에서 자유로운 구음 장애 평가 서비스에 의한, 사용자 만족감 증대의 효과가 발생한다.According to the deep learning-based dysarthria classification technology of the present invention, by determining and providing the type of dysarthria that the user has only with the user's voice input, increasing user satisfaction by providing a dysarthria evaluation service free from time and space constraints. effect occurs.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The effects of the present invention are not limited to the effects mentioned above, and other effects not mentioned will be clearly understood by those skilled in the art from the description below.

도 1은 본 발명의 일 실시예에 따른 전자 장치의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 구음 장애 분류 흐름도이다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 시스템 구성도이다.
도 5는 본 발명의 일 실시예에 따른 학습 및 분류에 대한 시스템의 동작 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 구음 장애 분류 실험 결과를 도시한 것이다.
도 7은 본 발명의 일 실시예에 다른 서버 구성도이다.
1 is a configuration diagram of an electronic device according to an embodiment of the present invention.
2 is a flow chart of dysarthria classification according to an embodiment of the present invention.
3 and 4 are system configuration diagrams according to an embodiment of the present invention.
5 is an operational flow diagram of a system for learning and classification according to an embodiment of the present invention.
6 shows the result of an experiment for classifying dysarthria according to an embodiment of the present invention.
7 is a server configuration diagram according to an embodiment of the present invention.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.Advantages and features of the present invention, and methods of achieving them, will become clear with reference to the detailed description of the following embodiments taken in conjunction with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but may be implemented in various different forms, only these embodiments are intended to complete the disclosure of the present invention, and are common in the art to which the present invention belongs. It is provided to fully inform the person skilled in the art of the scope of the invention, and the invention is only defined by the scope of the claims.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.Terminology used herein is for describing the embodiments and is not intended to limit the present invention. In this specification, singular forms also include plural forms unless specifically stated otherwise in a phrase. As used herein, "comprises" and/or "comprising" does not exclude the presence or addition of one or more other elements other than the recited elements. Like reference numerals throughout the specification refer to like elements, and “and/or” includes each and every combination of one or more of the recited elements. Although "first", "second", etc. are used to describe various components, these components are not limited by these terms, of course. These terms are only used to distinguish one component from another. Accordingly, it goes without saying that the first element mentioned below may also be the second element within the technical spirit of the present invention.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.Unless otherwise defined, all terms (including technical and scientific terms) used in this specification may be used with meanings commonly understood by those skilled in the art to which the present invention belongs. In addition, terms defined in commonly used dictionaries are not interpreted ideally or excessively unless explicitly specifically defined.

명세서에서 사용되는 "부" 또는 “모듈”이라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부" 또는 “모듈”은 어떤 역할들을 수행한다. 그렇지만 "부" 또는 “모듈”은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부" 또는 “모듈”은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부" 또는 “모듈”은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부" 또는 “모듈”들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부" 또는 “모듈”들로 결합되거나 추가적인 구성요소들과 "부" 또는 “모듈”들로 더 분리될 수 있다.The term "unit" or "module" used in the specification means a hardware component such as software, FPGA or ASIC, and "unit" or "module" performs certain roles. However, "unit" or "module" is not meant to be limited to software or hardware. A “unit” or “module” may be configured to reside in an addressable storage medium and may be configured to reproduce one or more processors. Thus, as an example, a “unit” or “module” may refer to components such as software components, object-oriented software components, class components, and task components, processes, functions, properties, procedures, subroutines, segments of program code, drivers, firmware, microcode, circuitry, data, databases, data structures, tables, arrays and variables. Functions provided within components and "units" or "modules" may be combined into smaller numbers of components and "units" or "modules" or may be combined into additional components and "units" or "modules". can be further separated.

공간적으로 상대적인 용어인 "아래(below)", "아래(beneath)", "하부(lower)", "위(above)", "상부(upper)" 등은 도면에 도시되어 있는 바와 같이 하나의 구성요소와 다른 구성요소들과의 상관관계를 용이하게 기술하기 위해 사용될 수 있다. 공간적으로 상대적인 용어는 도면에 도시되어 있는 방향에 더하여 사용시 또는 동작시 구성요소들의 서로 다른 방향을 포함하는 용어로 이해되어야 한다. 예를 들어, 도면에 도시되어 있는 구성요소를 뒤집을 경우, 다른 구성요소의 "아래(below)"또는 "아래(beneath)"로 기술된 구성요소는 다른 구성요소의 "위(above)"에 놓일 있다. 따라서, 예시적인 용어인 "아래"는 아래와 위의 방향을 모두 포함할 수 있다. 구성요소는 다른 방향으로도 배향될 수 있으며, 이에 따라 공간적으로 상대적인 용어들은 배향에 따라 해석될 수 있다.The spatially relative terms "below", "beneath", "lower", "above", "upper", etc. It can be used to easily describe a component's correlation with other components. Spatially relative terms should be understood as including different orientations of elements in use or operation in addition to the orientations shown in the drawings. For example, if you flip a component that is shown in a drawing, a component described as "below" or "beneath" another component will be placed "above" the other component. there is. Thus, the exemplary term “below” may include directions of both below and above. Components may also be oriented in other orientations, and thus spatially relative terms may be interpreted according to orientation.

본 명세서에서, 컴퓨터는 적어도 하나의 프로세서를 포함하는 모든 종류의 하드웨어 장치를 의미하는 것이고, 실시 예에 따라 해당 하드웨어 장치에서 동작하는 소프트웨어적 구성도 포괄하는 의미로서 이해될 수 있다. 예를 들어, 컴퓨터는 스마트폰, 태블릿 PC, 데스크톱, 노트북 및 각 장치에서 구동되는 사용자 클라이언트 및 애플리케이션을 모두 포함하는 의미로서 이해될 수 있으며, 또한 이에 제한되는 것은 아니다.In this specification, a computer means any kind of hardware device including at least one processor, and may be understood as encompassing a software configuration operating in a corresponding hardware device according to an embodiment. For example, a computer may be understood as including a smartphone, a tablet PC, a desktop computer, a laptop computer, and user clients and applications running on each device, but is not limited thereto.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 전자 장치(100)의 구성도이며, 도 2는 본 발명의 일 실시예에 따른 구음 장애 분류 흐름도이다.1 is a configuration diagram of an electronic device 100 according to an embodiment of the present invention, and FIG. 2 is a flow chart for classifying dysarthria according to an embodiment of the present invention.

일 실시예로, 전자 장치(100)는 스마트폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 영상 전화기, 전자책 리더기(e-book reader), 데스크탑 PC (desktop PC), 랩탑 PC(laptop PC), 넷북 컴퓨터(netbook computer), 워크스테이션(workstation), 서버, PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어, 모바일 의료기기, 카메라, 또는 웨어러블 장치(wearable device), 인공지능 스피커(AI speaker) 중 적어도 하나를 포함할 수 있다.In one embodiment, the electronic device 100 includes a smartphone, a tablet personal computer (PC), a mobile phone, a video phone, an e-book reader, and a desktop PC. ), laptop PC, netbook computer, workstation, server, personal digital assistant (PDA), portable multimedia player (PMP), MP3 player, mobile medical device, camera, or wearable device It may include at least one of (wearable device) and artificial intelligence speaker (AI speaker).

본 발명의 일 면에 따른 딥러닝 기반 구음 장애 분류를 위한 전자 장치(100)는, 환자의 구음 장애 유형을 판단하는 인공지능 모델(111)이 저장된 메모리(110), 및 메모리(110)와 연결된 프로세서(120)를 포함한다. An electronic device 100 for classification of dysarthria based on deep learning according to an aspect of the present invention includes a memory 110 storing an artificial intelligence model 111 for determining the type of dysarthria of a patient, and a memory 110 connected to the memory 110. It includes a processor 120.

구음 장애는, 후천적 또는 선천적인 요인에 의한 장애 및/또는 질병에 의해 발성 기관에 생긴 기능 이상으로 말하기 어려운 상태가 된 것을 뜻하며, 구음 장애 유형으로는, 구마비, 가성구마비, 청각 장애, 후두 장애, 언어 장애, 파킨슨병 등이 포함된다.Speech disorder refers to a condition in which it is difficult to speak due to abnormalities in the vocal organs due to disorders and/or diseases caused by acquired or congenital factors. disability, speech impairment, and Parkinson's disease.

이때, 프로세서(120)는, 일 텍스트를 발화하는 사용자의 음성에 대응되는 오디오 데이터를 획득하고, 텍스트 및 오디오 데이터를 인공지능 모델(111)에 입력하여, 오디오 데이터에 매칭되는 구음 장애 유형을 식별한다.At this time, the processor 120 obtains audio data corresponding to the voice of the user uttering one text, inputs the text and audio data to the artificial intelligence model 111, and identifies the dysarthria type matched to the audio data. do.

구체적으로, 도 2에 도시된 바와 같이, 딥러닝 기반 구음 장애 분류를 실시하기 위해서, 프로세서(120)는 일 텍스트를 발화하는 사용자의 음성에 대응되는 오디오 데이터를 획득하고, 인공지능 모델(111)을 통해 획득된 오디오 데이터에 매칭되는 구음 장애 유형을 식별할 수 있다.Specifically, as shown in FIG. 2, in order to perform deep learning-based dysarthria classification, the processor 120 obtains audio data corresponding to the voice of a user uttering a text, and the artificial intelligence model 111 It is possible to identify a type of dysarthria that matches the audio data obtained through.

이때, 오디오 데이터는 사용자의 음성으로부터 추출되는 디지털화된 음원으로, 프로세서(120)는 오디오 데이터를 텍스트와 매칭하여 저장할 수 있다.In this case, the audio data is a digitized sound source extracted from the user's voice, and the processor 120 may match and store the audio data with text.

획득된 오디오 데이터는, 프로세서(120)에 의해, 노이즈 필터링(noise filtering) 작업을 거치며, 프로세서(120)는 필터링된 오디오 데이터를 복수의 구간으로 구간화하되, 인접한 구간 간에 일정 시간만큼 중첩하여 프레이밍(framing)하고, 프레이밍된 오디오 데이터로부터 복수의 음향(aqoustic) 특징 벡터 및 복수의 MFCC(Mel Frequency Cepstral Coefficients) 특징 벡터를 추출한다.The obtained audio data is subjected to noise filtering by the processor 120, and the processor 120 divides the filtered audio data into a plurality of sections, but overlaps adjacent sections by a certain amount of time to perform framing. (framing), and a plurality of acoustic feature vectors and a plurality of Mel Frequency Cepstral Coefficients (MFCC) feature vectors are extracted from the framed audio data.

이때, 복수의 음향 특징 벡터는, meanF0Hz, stdevF0Hz, meanF1Hz, stdevF1Hz, meanF2Hz, stdevF2Hz, HNR, localjitter, localabsolutejitter, rapjitter, ppq5jitter, ddpjitter, localShimmer, localdbShimmer, apq3Shimmer, apq5Shimmer, apq11Shimmer, ddaShimmer, pitch_max 및 pich_min 중 적어도 하나를 포함하여, 프레이밍된 오디오 데이터로부터 프로세서(120)에 의해 추출될 수 있다.At this time, the plurality of acoustic feature vectors are at least among meanF0Hz, stdevF0Hz, meanF1Hz, stdevF1Hz, meanF2Hz, stdevF2Hz, HNR, localjitter, localabsolutejitter, rapjitter, ppq5jitter, ddpjitter, localShimmer, localdbShimmer, apq3Shimmer, apq5Shimmer, apq11Shimmer, ddaShimmer, pitch_max, and pich_min. can be extracted by processor 120 from framed audio data, including one.

이때, 복수의 MFCC 특징 벡터는, 적어도 하나의 제1 MFCC 특징 벡터, 적어도 하나의 제2 MFCC 특징 벡터, 및 적어도 하나의 제3 MFCC 특징 벡터를 포함한다.At this time, the plurality of MFCC feature vectors include at least one first MFCC feature vector, at least one second MFCC feature vector, and at least one third MFCC feature vector.

제1 MFCC 특징 벡터는, 프로세서(120)가 프레이밍된 오디오 데이터에 MFCC 기법을 적용함으로써 최대 13개의 벡터로 추출된다.The first MFCC feature vector is extracted as a maximum of 13 vectors by applying the MFCC technique to the framed audio data by the processor 120.

제2 MFCC 특징 벡터는, 프로세서(120)에 의해, 적어도 하나의 제1 MFCC 특징 벡터의 값을 미분하여 추출되며, 제3 MFCC 특징 벡터는, 프로세서(120)에 의해, 적어도 하나의 제2 MFCC 특징 벡터의 값을 미분하여 추출될 수 있다.The second MFCC feature vector is extracted by differentiating the value of at least one first MFCC feature vector by the processor 120, and the third MFCC feature vector is extracted by the processor 120 at least one second MFCC It can be extracted by differentiating the value of the feature vector.

이에 따라, 프로세서(120)는, 음향 특징 벡터 최대 20개, MFCC 특징 벡터 최대 78개(각 프레임 마다, 제1 MFCC 특징 벡터의 최대 개수인 13개, 1회미분으로 인한 최대 개수인 13개, 3회미분으로 인한 최대 개수인 13개, 총 13*3=39개를 구한 다음 이들 각각을 모든 프레임에 대하여 구한 평균 및 표준편차를 구하여 특징 벡터로 사용, 따라서 하나의 오디오 데이터에 대하여 최대 13*3*2=78개의 MFCC 특징 벡터를 추출)를 포함하여 최대 98개의 특징 벡터를 오디오 데이터로부터 추출할 수 있다.Accordingly, the processor 120 has a maximum of 20 acoustic feature vectors and a maximum of 78 MFCC feature vectors (for each frame, the maximum number of first MFCC feature vectors is 13, the maximum number due to the first derivative is 13, After obtaining the maximum number of  13,  total 13*3=39 due to the 3rd derivative, and then calculating the average and standard deviation of each of them for all frames, use them as a feature vector. Up to 98 feature vectors including 3*2=78 MFCC feature vectors can be extracted from audio data.

도 3 및 도 4는 본 발명의 일 실시예에 따른 시스템 구성도이며, 도 5는 본 발명의 일 실시예에 따른 학습 및 분류에 대한 시스템의 동작 흐름도이다.3 and 4 are system configuration diagrams according to an embodiment of the present invention, and FIG. 5 is an operational flowchart of a system for learning and classification according to an embodiment of the present invention.

본 발명에 따라, 제1 모델(111a)은 입력된 복수의 특징 벡터 중 적어도 하나의 특징 벡터를 선택하고, 프로세서(120)는 선택된 특징 벡터를 제2 모델(111b)에 입력한다.According to the present invention, the first model 111a selects at least one feature vector from among a plurality of input feature vectors, and the processor 120 inputs the selected feature vector to the second model 111b.

이때, 제1 모델(111a)은 ica(: 독립 성분 분석법, independent component analysis), pca(: 주성분 분석법, principal component analysis), rp(: 랜덤 투영법, random projection), 및 dae(: 딥 오토인코더, deep auto-encoder)를 포함하는 방법 중 적어도 하나의 방법으로 적어도 하나의 특징 벡터를 선택할 수 있다.At this time, the first model 111a is ica (: independent component analysis, independent component analysis), pca (: principal component analysis, principal component analysis), rp (: random projection, random projection), and dae (: deep autoencoder, At least one feature vector may be selected using at least one of methods including a deep auto-encoder.

제2 모델(111b)은 입력된 특징 벡터를 분류함으로써 구음 장애 유형을 판단할 수 있으며, svm(: 서포트 벡터 머신, support vector machine), rf(: 무작위 (결정)숲, random forest), mlp(: 다층 퍼셉트론, multi-layer perceptron) 및 cnn(: 합성곱 신경망, convolutional deep neural networks)를 포함하는 분류 방법 중 적어도 하나의 방법으로 특징 벡터를 분류할 수 있다.The second model 111b can determine the type of dysarthria by classifying the input feature vector, svm (: support vector machine, support vector machine), rf (: random (decision) forest, random forest), mlp ( : The feature vector may be classified by at least one of classification methods including multi-layer perceptron) and cnn (: convolutional deep neural networks).

이때, 프로세서(120)는 수집된 데이터를 학습용 데이터와 예측용 데이터를 일정 비율(ex. 학습용 8: 예측용 2)로 분류하여 학습용 데이터를 통해 인공지능 모델(111)을 학습시키고, 예측용 데이터를 학습된 인공지능 모델(111)에 입력하여 출력된 분류 결과를 바탕으로 인공지능 모델(111)의 정확도를 판단할 수 있다.At this time, the processor 120 classifies the collected data into learning data and prediction data at a certain ratio (ex. learning 8: prediction 2) to train the artificial intelligence model 111 through the learning data, and predictive data It is possible to determine the accuracy of the artificial intelligence model 111 based on the output classification result by inputting to the learned artificial intelligence model 111.

구음 장애 유형을 판단하는 인공지능 모델(111)의 정확도는 99% 이상을 목표로 하여, 학습이 수행될 수 있다.The accuracy of the artificial intelligence model 111 for determining the type of dysarthria may be targeted at 99% or more, and learning may be performed.

추가로, 본 발명에 의한 제1 모델이 선택하는 특징 벡터는, 적어도 하나의 구음 장애 유형에 해당하는 환자의 오디오 데이터가 정상인의 오디오 데이터와 비교된 결과에 따라 설정될 수 있다.Additionally, the feature vector selected by the first model according to the present invention may be set according to a result of comparing audio data of a patient corresponding to at least one type of dysarthria with audio data of a normal person.

예를 들어, 정상인의 오디오 데이터의 특징 벡터 각각과 구음 장애를 가진 환자의 오디오 데이터의 특징 벡터 각각을 비교했을 때, 임계치 이상의 차이를 가지는 특징 벡터가 제1 모델이 선택하는 특징 벡터일 수 있다.For example, when feature vectors of audio data of a normal person and feature vectors of audio data of a patient with dysarthria are compared, a feature vector having a difference greater than or equal to a threshold value may be a feature vector selected by the first model.

구체적인 예로, 복수의 정상인의 오디오 데이터에 대하여 제1 특징 벡터의 평균 값이 산출되고, 복수의 환자의 오디오 데이터에 대하여 제1 특징 벡터의 평균 값이 산출될 수 있으며, 만약 상술한 평균 값들 간의 차이가 일정 수치 이상인 경우, 제1 특징 벡터는 제1 모델에 의해 선택되는 특징 벡터로 설정될 수 있다.As a specific example, an average value of first feature vectors may be calculated for the audio data of a plurality of normal persons, and an average value of the first feature vectors may be calculated for the audio data of a plurality of patients. When is greater than a certain value, the first feature vector may be set as a feature vector selected by the first model.

한편, 일 실시 예로, 구음 장애 유형에 따라, 서로 다른 그룹의 특징 벡터에 대한 정보가 저장될 수 있다. Meanwhile, according to an embodiment, information on feature vectors of different groups may be stored according to the type of dysarthria.

예를 들어, 제1 구음 장애 유형에 대해서는 제1 그룹의 특징 벡터가 매칭되는 것으로 설정되고, 제2 구음 장애 유형에 대해서는 제2 그룹의 특징 벡터가 매칭되는 것으로 설정될 수 있다.For example, the feature vectors of the first group may be set to match for the first type of dysarthria, and the feature vectors of the second group may be set to match for the second type of dysarthria.

구체적으로, 프로세서(120)는, 구음 장애 유형 별로, 정상인과의 차이가 임계치 이상인 특징 벡터를 식별하여, 해당 특징 벡터를 구음 장애 유형에 매칭되는 그룹으로 저장할 수 있다.Specifically, the processor 120 may identify, for each type of dysarthria, a feature vector having a difference from a normal person greater than or equal to a threshold value, and store the corresponding feature vector as a group matched to the type of dysarthria.

여기서, 각 구음 장애 유형에 매칭되는 복수의 (특징 벡터) 그룹에 대해, 제2 모델(111b)로 입력되는 순서가 설정될 수 있으며, 순서는, 각 구음 장애 유형의 발생 빈도에 따라 설정될 수 있다.Here, for a plurality of (feature vector) groups matched to each dysarthmic disorder type, the order input to the second model 111b may be set, and the order may be set according to the occurrence frequency of each dysarthmic disorder type. there is.

예를 들어, 제1 구음 장애 유형, 제2 구음 장애 유형, 제3 구음 장애 유형의 순서로 발생 빈도가 높은 경우를 가정한다.For example, it is assumed that the frequency of occurrence is high in the order of the first dysarthria type, the second dysarthria type, and the third dysarthria type.

이 경우, 프로세서(120)는 사용자의 오디오 데이터로부터 먼저 제1 구음 장애 유형에 매칭되는 제1 특징 벡터 그룹을 추출하도록 제1 모델(111a)을 제어하고, 추출된 제1 특징 벡터 그룹을 제2 모델(111b)로 입력할 수 있다. 그 결과, 사용자가 제1 구음 장애 유형에 해당하는지 여부가 출력될 수 있다.In this case, the processor 120 first controls the first model 111a to extract a first feature vector group matching the first dysarthria type from the user's audio data, and converts the extracted first feature vector group into a second feature vector group. It can be input into the model 111b. As a result, whether the user corresponds to the first type of dysarthria may be output.

다음으로, 프로세서(120)는 제1 특징 벡터 그룹의 다음 순서인 제2 특징 벡터 그룹을 제2 모델(111b)로 입력하여, 그 결과, 사용자가 제2 구음 장애 유형에 해당하는지 여부가 출력될 수 있으며, 프로세서(120)에 의해, 다음 순서인 제3 특징 벡터 그룹이 제2 모델(111b)에 입력되어, 그 결과인, 사용자가 제3 구음 장애 유형에 해당하는지 여부가 출력된다.Next, the processor 120 inputs the second feature vector group, which is the next order of the first feature vector group, to the second model 111b, and as a result, whether the user corresponds to the second dysarthria type is output. And, by the processor 120, the third feature vector group in the next order is input to the second model 111b, and as a result, whether the user corresponds to the third dysarthria type is output.

추가 실시예로, 프로세서(120)는 구음 장애 유형 간의 연관성에 따라 각 특징 벡터 그룹이 제2 모델(111b)로 입력되는 순서를 유동적으로 변경할 수 있다.As an additional embodiment, the processor 120 may flexibly change the order in which each feature vector group is input to the second model 111b according to the association between speech impairment types.

구체적으로, 프로세서(120)는 각 구음 장애 유형의 발생 이력을 바탕으로 둘 이상의 구음 장애 유형이 동시에 발생한 빈도/확률을 식별할 수 있다. 그리고, 프로세서(120)는 식별된 빈도/확률에 따라 구음 장애 유형 간의 매칭 여부를 설정할 수 있다.Specifically, the processor 120 may identify the frequency/probability of simultaneous occurrence of two or more types of dysarthria based on the occurrence history of each type of dysarthria. In addition, the processor 120 may set whether to match between speech disorder types according to the identified frequency/probability.

예를 들어, 제1 구음 장애 유형과 제3 구음 장애 유형이 동시에 발생한 빈도가 일정 수 이상인 경우, 프로세서(120)는 제1 구음 장애 유형과 제3 구음 장애 유형이 서로 매칭되는 것으로 설정할 수 있다.For example, if the frequency of simultaneous occurrence of the first type of dysarthria and the third type of dysarthria is equal to or greater than a certain number, the processor 120 may set the first type of dysarthria and the third type of dysarthria to match each other.

관련하여, 일 실시 예로, 제1 특징 벡터 그룹, 제2 특징 벡터 그룹, 제3 특징 벡터 그룹의 순서대로 제2 모델(111b)로 입력되는 것으로 기설정된 상황을 가정한다.In this regard, as an example, it is assumed that the first feature vector group, the second feature vector group, and the third feature vector group are input to the second model 111b in order.

이 경우, 일반적으로, 프로세서(120)는 제1 특징 벡터 그룹을 제2 모델(111b)로 입력하여, 사용자가 제1 구음 장애 유형에 해당하는지 여부를 출력하고, 이어서, 제1 특징 벡터 그룹의 다음 순서인 제2 특징 벡터 그룹을 제2 모델(111b)로 입력하여, 사용자가 제2 구음 장애 유형에 해당하는지 여부를 출력한다.In this case, in general, the processor 120 inputs the first feature vector group to the second model 111b, outputs whether the user corresponds to the first dysarthmic disorder type, and then, the first feature vector group The second feature vector group, which is the next step, is input to the second model 111b, and whether the user corresponds to the second dysarthria type is output.

다만, 제1 특징 벡터 그룹이 입력된 결과 사용자가 제1 구음 장애 유형으로 판단되면, 프로세서(120)는, 제1 특징 벡터 그룹의 다음 순번인 제2 특징 벡터 그룹이 아닌, 제3 특징 벡터 그룹을 제2 모델(111b)로 입력할 수 있다.However, if it is determined that the user has the first dysarthria type as a result of the input of the first feature vector group, the processor 120 replaces the second feature vector group, which is next to the first feature vector group, with the third feature vector group. may be input as the second model 111b.

구체적으로, 프로세서(120)는, 사용자가 제1 구음 장애 유형으로 판단된 경우, 제1 구음 장애 유형에 매칭된 구음 장애 유형인 제3 구음 장애 유형을 식별하고, 제3 구음 장애 유형에 매칭된 제3 특징 벡터 그룹을 제2 모델(111b)로 입력한다.Specifically, when the user is determined to be the first dysarthria type, the processor 120 identifies a third dysarthria type that is a dysarthria type matched to the first dysarthria type, and matches the third dysarthria type to the third dysarthria type. The third feature vector group is input to the second model 111b.

그 결과, 사용자가 제3 구음 장애 유형에 해당하는지 여부를 출력할 수 있다.As a result, it is possible to output whether the user corresponds to the third dysarthria type.

이후, 사용자가 제3 구음 장애 유형이 아닌 것으로 판단되거나, 또는 사용자가 제3 구음 장애 유형으로 판단되되, 제3 구음 장애 유형에 매칭된 구음 장애 유형이 존재하지 않는 경우, 프로세서(120)는 제1 특징 벡터 그룹의 다음 순번인 제2 특징 벡터 그룹을 제2 모델(111b)로 입력하여, 사용자가 제2 구음 장애 유형에 해당하는지 여부를 출력할 수 있다.Thereafter, if it is determined that the user is not the third dysarthria type, or if the user is determined to be the third dysarthria type, but the dysarthria type matched to the third dysarthria type does not exist, the processor 120 determines the third dysarthria type. By inputting the second feature vector group, which is the next sequential number of the first feature vector group, to the second model 111b, it is possible to output whether the user corresponds to the second dysarthria type.

반면, 사용자가 제3 구음 장애 유형으로 판단되되, 제3 구음 장애 유형에 매칭된 구음 장애 유형으로 제4 구음 장애 유형이 식별된 경우, 프로세서(120)는, 제4 구음 장애 유형에 매칭된 제4 특징 벡터 그룹을 제2 모델(111b)에 우선 입력할 수 있다.On the other hand, if the user is determined to be the third dysarthria type and the fourth dysarthria type is identified as the dysarthria type matched to the third dysarthria type, the processor 120 may perform the first dysarthria matched to the fourth dysarthria type. A group of 4 feature vectors may be first input to the second model 111b.

추가로, 도 3 및 도 4에 도시된 바와 같이, 인공지능 모델(111)은, 오디오 데이터로부터 추출된, 복수의 음향 특징 벡터 및 복수의 MFCC 특징 벡터 중, 적어도 하나의 특징 벡터를 선택하는 제1 모델(111a), 및 선택된 특징 벡터를 바탕으로 구음 장애 유형을 판단하는 제2 모델(111b)을 포함할 수 있다.In addition, as shown in FIGS. 3 and 4, the artificial intelligence model 111 selects at least one feature vector from among a plurality of acoustic feature vectors and a plurality of MFCC feature vectors extracted from audio data. It may include a first model 111a and a second model 111b for determining the type of dysarthria based on the selected feature vector.

구체적으로, 제1 모델(111a)은, 텍스트에 따라 적어도 하나의 특징 벡터를 선택하고, 제2 모델(111b)은, 선택된 특징 벡터를 바탕으로, 텍스트를 발화하는 정상인의 음성의 오디오 데이터를 오디오 데이터와 비교한다.Specifically, the first model 111a selects at least one feature vector according to the text, and the second model 111b converts audio data of the voice of a normal person uttering the text into audio based on the selected feature vector. Compare with data.

이를 위해, 도 5에 도시된 바와 같이, 오디오 데이터(: 도 5의 wav)는 텍스트(: 도 5의 txt)에 매칭되어 프로세서(120)에 입력되며, 프로세서(120)는 오디오 데이터를 전처리하여 복수의 특징 벡터를 텍스트와 함께 제1 모델(111a)로 입력한다.To this end, as shown in FIG. 5, audio data (: wav in FIG. 5) is matched with text (: txt in FIG. 5) and input to the processor 120, and the processor 120 preprocesses the audio data to A plurality of feature vectors are input together with text into the first model 111a.

한편, 프로세서(120)는, 사용자의 실제 구음 장애 유형이 인공지능 모델(111)로부터 출력된 구음 장애 유형과 일치하지 않는 경우, 텍스트에 매칭된 오차 발생 횟수를 업데이트하고, 오차 발생 횟수가 일정 값을 초과하면, 텍스트에 대하여 다른 특징 벡터를 선택하도록 제1 모델(111a)을 업데이트할 수 있다.On the other hand, if the user's actual dysarthria type does not match the type of dysarthria output from the artificial intelligence model 111, the processor 120 updates the number of occurrences of errors matched to the text, and the number of occurrences of errors is a certain value. If it exceeds , the first model 111a can be updated to select another feature vector for the text.

이때, 업데이트된 제1 모델(111a)을 통한 선택 및 기존 제2 모델(111b)에 의한 분류로 획득된 구음 장애 유형이 실게 구음 장애 유형과 일치하지 않는 경우, 프로세서(120)는, 텍스트에 대하여 다른 방식으로 분류를 실시하도록 제2 모델(111b)을 업데이트할 수 있다.At this time, when the dysarthria type obtained by selection through the updated first model 111a and classification by the existing second model 111b does not actually match the dysarthria type, the processor 120 determines the text. The second model 111b can be updated to perform the classification in a different way.

예를 들어, 기존 구음 장애 분류 방법으로 본 발명에 의한 제1 모델(111a)이 ica를 적용하여 98개의 특징 벡터 중 40개의 특징 벡터(1차 선택 특징 벡터)를 선택하고, 제2 모델(111b)이 mlp(1차 분류 방식)를 적용하여 분류를 실시하는 경우, 텍스트 "낮새"에 대한 사용자의 구음 장애 유형이 파킨슨인 반면, 제2 모델(111b)에 의해 후두로 출력되면, 프로세서(120)는 텍스트 "낮새"에 매칭된 98개의 특징 벡터 중 1차 선택 특징 벡터를 제외한 나머지 58개의 특징 벡터로부터 신규 40개의 특징 벡터(2차 선택 특징 벡터)를 선택하도록 제1 모델(111a)을 업데이트 할 수 있다.For example, as an existing dysarthria classification method, the first model 111a according to the present invention applies ica to select 40 feature vectors (primary selection feature vectors) among 98 feature vectors, and the second model 111b ) applies mlp (primary classification method) to perform classification, while the user's dysarthria type for the text "daytime" is Parkinson's, if it is output to the larynx by the second model 111b, the processor 120 ) updates the first model 111a to select new 40 feature vectors (secondary selected feature vectors) from the remaining 58 feature vectors excluding the first selected feature vectors among the 98 feature vectors matched with the text “day bird” can do.

이 경우, 인공지능 모델(111)은, 업데이트 이후 획득된, 텍스트 "낮새"에 대한 오디오 데이터에 매칭된 복수의 특징 벡터가 입력되면, 기 매칭된 2차 선택 특징 벡터를 자동으로 선택하여 분류를 실시함으로써 텍스트 "낮새"에 대한 구음 장애 분류의 정확도를 높일 수 있다.In this case, the artificial intelligence model 111, when a plurality of feature vectors matched to the audio data for the text “day bird” obtained after the update is input, automatically selects the pre-matched secondary selection feature vector to perform classification. By doing this, it is possible to increase the accuracy of speech disorder classification for the text “day bird”.

이때, 텍스트 "낮새"에 대한 제1 모델(111a)의 업데이트에도 불구하고 제2 모델(111b)로부터의 출력이 파킨슨이 아닌 경우, 프로세서(120)는 제2 모델(111b)의 분류 방식을 1차 분류 방식 외의 다른 방식으로 선택할 수 있으며, 다른 방식을 각각 적용하여 후두형으로 분류되는 방식(2차 분류 방식)을 획득하고, 텍스트 "낮새"에 매칭된 제2 모델(111b)의 분류 방식을 2차 분류 방식으로 업데이트함으로써, 텍스트 "낮새"에 대한 구음 장애 분류의 정확도를 높일 수 있다.At this time, if the output from the second model 111b is not Parkinson's despite the update of the first model 111a for the text "daytime", the processor 120 sets the classification method of the second model 111b to 1 It is possible to select a method other than the primary classification method, and a method (secondary classification method) classified as an occipital type is obtained by applying the other method, respectively, and the classification method of the second model 111b matched to the text "daytime" By updating with the secondary classification method, it is possible to increase the accuracy of the dysarthmic classification of the text “day bird”.

또한, 프로세서(120)는 텍스트에 대한 오류 발생 횟수가 일정 값을 초과하면, 일 텍스트에 대하여 선택되는 특징 벡터의 수를 변동하도록 제1 모델(111a)을 업데이트 할 수 있다.Also, if the number of occurrences of text errors exceeds a predetermined value, the processor 120 may update the first model 111a to change the number of feature vectors selected for one text.

예를 들어, 제1 모델(111a) 및 제2 모델(111b) 각각의 업데이트 이후에도 텍스트 "낮새"에 대한 제2 모델(111b)의 구음 장애 분류 결과가 사용자의 구음 장애 유형과 다른 유형인 경우, 총 3회의 오류가 발생되었으므로, 프로세서(120)는 텍스트 "낮새"에 매칭된 오류 발생 횟수를 3회로 업데이트 할 수 있다.For example, even after each update of the first model 111a and the second model 111b, if the speech impairment classification result of the second model 111b for the text “day bird” is a different type from the user's dysarthria type, Since a total of 3 errors have occurred, the processor 120 can update the number of occurrences of errors matched with the text “daytime” to 3 times.

이때, 오류 발생 횟수가 2회를 초과한 것에 대해, 프로세서(120)는 일정 값(2회)을 초과한 것으로 판단하고, 텍스트 "낮새"를 발화하는 오디오 데이터에 대해 제1 모델(111a)의 특징 벡터 선택 수를 20개로 변동하도록 업데이트 할 수 있다.At this time, the processor 120 determines that the number of occurrences of the error exceeds 2 times that a certain value (2 times) has been exceeded, and the first model 111a for the audio data uttering the text “daytime”. It can be updated to change the number of feature vector selections to 20.

이 경우, 도 6에 도시된 바와 같이, 구음 장애 유형이 파킨슨인 경우, 특징 벡터의 수 40개에 대한 결과보다 20개에 대한 결과가 더 정확한 것에 따라, 특징 벡터의 수를 줄이는 것이 허용된다.In this case, as shown in FIG. 6 , when the dysarthria type is Parkinson's, it is allowed to reduce the number of feature vectors as the result for 20 feature vectors is more accurate than the result for 40 feature vectors.

한편, 본 발명의 일 면에 따른 전자 장치(100)는, 도 3에 도시된 바와 같이, 마이크(130)를 포함하여 사용자의 오디오 데이터를 획득할 수 있다.Meanwhile, as shown in FIG. 3 , the electronic device 100 according to one aspect of the present invention may include the microphone 130 to obtain user audio data.

또는, 도 4에 도시된 바와 같이, 전자 장치(100)는 통신부(140)를 포함하여 사용자 단말(200)과 통신할 수 있다.Alternatively, as shown in FIG. 4 , the electronic device 100 may communicate with the user terminal 200 through the communication unit 140 .

이때, 사용자 단말(200)은 본 발명의 전자 장치(100)를 사용하는 사용자의 단말로, 일 실시예로, 사용자 단말(200)은, 스마트폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 영상 전화기, 전자책 리더기(e-book reader), 데스크탑 PC (desktop PC), 랩탑 PC(laptop PC), 넷북 컴퓨터(netbook computer), 워크스테이션(workstation), 서버, PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어, 모바일 의료기기, 카메라, 또는 웨어러블 장치(wearable device), 인공지능 스피커(AI speaker) 중 적어도 하나를 포함할 수 있다.At this time, the user terminal 200 is a terminal of a user using the electronic device 100 of the present invention, and in an embodiment, the user terminal 200 includes a smartphone, a tablet personal computer (PC), Mobile phone, video phone, e-book reader, desktop PC, laptop PC, netbook computer, workstation, server, PDA It may include at least one of a personal digital assistant, a portable multimedia player (PMP), an MP3 player, a mobile medical device, a camera, a wearable device, and an AI speaker.

이에 따라, 전자 장치(100)는 인공지능 모델(111)을 통해 출력된 구음 장애 유형을 사용자 단말(200)을 통해 출력하여 사용자에게 제공할 수 있으며, 사용자 단말(200)에 포함된 마이크를 통해 사용자의 오디오 데이터를 획득하는 것 또한 가능하다.Accordingly, the electronic device 100 may output the type of dysarthria output through the artificial intelligence model 111 through the user terminal 200 and provide it to the user, and through the microphone included in the user terminal 200. It is also possible to obtain the user's audio data.

도 6은 본 발명의 일 실시예에 따른 구음 장애 분류 실험 결과를 도시한 것이다.6 shows the result of an experiment for classifying dysarthria according to an embodiment of the present invention.

한편, 도 6과 같은, 구음 장애 유형별 선택 방법 및 분류 방법에 따른 실험 결과를 살펴보면, 일 텍스트에 대한 제1 모델(111a)(데이터 차원 축소)의 특징 벡터 선택 방식과 선택 수, 및 제2 모델(111b)(분류)의 선택된 특징 벡터 분류 방식에 따른 파킨슨 환자(PD)와 정상인(HC)의 분류 정확도를 수치화하고 있다.On the other hand, looking at the experimental results according to the selection method and classification method for each type of dysarthria, as shown in FIG. 6, the feature vector selection method and number of selections of the first model 111a (data dimensionality reduction) for one text, and the second model The classification accuracy of Parkinson's patients (PD) and normal people (HC) according to the selected feature vector classification method of (111b) (classification) is quantified.

도시된 바에 따르면, 제1 모델(111a)에서 98개의 특징 벡터 중 20개의 특징 벡터를 ica 방식으로 선택하여, 제2 모델(111b)에서 svm 방식에 의해 분류한 결과의 정확도가 가장 높은 것으로 나타났다.As shown, 20 feature vectors among 98 feature vectors are selected in the first model 111a by the ica method, and the result of classification by the svm method in the second model 111b shows the highest accuracy.

또한, 구음 장애 유형 언어, 청각, 후두 각각에 대한 제2 모델(111b)의 mlp 방식을 적용한 분류 결과, 정확도가 99%에 근사하거나 초과한 것으로 산출되었다.In addition, as a result of classification using the mlp method of the second model 111b for each of speech, hearing, and laryngeal dysarthria, the accuracy was calculated to be close to or exceed 99%.

이에 따라, 본 발명의 딥러닝 기반 구음 장애 분류는 실효성 있는 발명인 것이 증명된다.Accordingly, it is proved that the deep learning-based dysarthria classification of the present invention is an effective invention.

한편, 본 발명의 이 면에 따른 딥러닝 기반 구음 장애 분류 시스템의 제어 방법에 있어서, 구음 장애 분류 시스템은, 메모리(310), 통신부(320) 및 프로세서(330)를 포함하는 서버(300)에 의해 딥러닝 기반 구음 장애 분류 시스템을 구현할 수 있으며, 또한, 서버(300)는 통신부(320)를 통해 사용자 단말(200)과 통신할 수 있다.On the other hand, in the control method of the deep learning-based speech impairment classification system according to the second aspect of the present invention, the speech impairment classification system is configured in the server 300 including the memory 310, the communication unit 320, and the processor 330. In addition, the server 300 may communicate with the user terminal 200 through the communication unit 320 .

구체적으로, 도 2에 도시된 바와 같이, 딥러닝 기반 구음 장애 분류를 실시하기 위해서, 서버(300)는 사용자 단말(200)로부터 일 텍스트를 발화하는 사용자의 음성에 대응되는 오디오 데이터를 획득(S210)하고, 환자의 구음 장애 유형을 판단하는 인공지능 모델을 통해 사용자의 음성에 매칭되는 구음 장애 유형을 식별(S220)하여, 식별된 구음 장애 유형을 사용자 단말(200)로 제공한다.Specifically, as shown in FIG. 2 , in order to classify dysarthria based on deep learning, the server 300 obtains audio data corresponding to the voice of a user uttering a text from the user terminal 200 (S210). ), and identifies the type of dysarthria that matches the user's voice through an artificial intelligence model that determines the type of dysarthria of the patient (S220), and provides the identified dysarthria type to the user terminal 200.

이때, 서버(300)는 오디오 데이터를 텍스트와 매칭하여 저장할 수 있다.At this time, the server 300 may match and store audio data with text.

서버(300)가 환자의 구음 장애 유형을 판단하는 인공지능 모델을 통해 사용자의 음성에 매칭되는 구음 장애 유형을 식별하는데 있어서, 서버(300)는 오디오 데이터를 노이즈 필터링(noise filtering)하고, 필터링된 오디오 데이터를 복수의 구간으로 구간화하되, 인접한 구간 간에 일정 시간만큼 중첩하여 프레이밍(framing)한다.When the server 300 identifies the type of dysarthria that matches the user's voice through an artificial intelligence model that determines the type of dysarthria of the patient, the server 300 performs noise filtering on the audio data, The audio data is sectioned into a plurality of sections, and framed by overlapping adjacent sections by a predetermined time.

이때, 서버(300)는 프레이밍된 오디오 데이터로부터, meanF0Hz, stdevF0Hz, meanF1Hz, stdevF1Hz, meanF2Hz, stdevF2Hz, HNR, localjitter, localabsolutejitter, rapjitter, ppq5jitter, ddpjitter, localShimmer, localdbShimmer, apq3Shimmer, apq5Shimmer, apq11Shimmer, ddaShimmer, pitch_max 및 pich_min 중 적어도 하나를 포함하여, 복수의 음향(aqoustic) 특징 벡터를 추출할 수 있다.At this time, the server 300 outputs meanF0Hz, stdevF0Hz, meanF1Hz, stdevF1Hz, meanF2Hz, stdevF2Hz, HNR, localjitter, localabsolutejitter, rapjitter, ppq5jitter, ddpjitter, localShimmer, localdbShimmer, apq3Shimmer, apq5Shimmer, apq11Shimmer, ddaShimmer, pitch_max from the framed audio data. And including at least one of pich_min, a plurality of acoustic feature vectors may be extracted.

또한, 서버(300)는 프레이밍된 오디오 데이터로부터, 제1 MFCC 특징 벡터, 제2 MFCC 특징 벡터, 및 제3 MFCC 특징 벡터를 포함하는 복수의 MFCC 특징 벡터를 추출할 수 있다.In addition, the server 300 may extract a plurality of MFCC feature vectors including a first MFCC feature vector, a second MFCC feature vector, and a third MFCC feature vector from the framed audio data.

구체적으로, 서버(300)는 프레이밍된 오디오 데이터에 MFCC(Mel Frequency Cepstral Coefficients) 기법을 적용하여 최대 13개의 제1 MFCC 특징 벡터를 획득할 수 있다.Specifically, the server 300 may acquire up to 13 first MFCC feature vectors by applying a Mel Frequency Cepstral Coefficients (MFCC) technique to framed audio data.

이때, 서버(300)는 적어도 하나의 제1 MFCC 특징 벡터의 값을 미분하여 적어도 하나의 제2 MFCC 특징 벡터를 획득하고, 적어도 하나의 제2 MFCC 특징 벡터의 값을 미분하여 적어도 하나의 제3 MFCC 특징 벡터를 획득할 수 있다.At this time, the server 300 differentiates the value of the at least one first MFCC feature vector to obtain at least one second MFCC feature vector, and differentiates the value of the at least one second MFCC feature vector to obtain at least one third MFCC feature vectors can be obtained.

이에 따라, 서버(300)는 음향 특징 벡터 최대 20개, MFCC 특징 벡터 최대 78개(각 프레임 마다, 제1 MFCC 특징 벡터의 최대 개수인 13개, 1회미분으로 인한 최대 개수인 13개, 3회미분으로 인한 최대 개수인 13개, 총 13*3=39개를 구한 다음 이들 각각을 모든 프레임에 대하여 구한 평균 및 표준편차를 구하여 특징 벡터로 사용, 따라서 하나의 오디오 데이터에 대하여 최대 13*3*2=78개의 MFCC 특징 벡터를 추출)를 포함하여 최대 98개의 특징 벡터를 오디오 데이터로부터 추출할 수 있다.Accordingly, the server 300 has a maximum of 20 acoustic feature vectors and a maximum of 78 MFCC feature vectors (for each frame, the maximum number of 1st MFCC feature vectors is 13, the maximum number due to the first derivative is 13, 3 After obtaining the maximum number of  13,  total 13*3=39 due to the gray derivative, and then calculating the average and standard deviation of each of them for all frames, use them as a feature vector. *2 = Up to 98 feature vectors including 78 MFCC feature vectors can be extracted from audio data.

한편, 도 3 및 도 4에 도시된 바와 같이, 인공지능 모델은, 오디오 데이터로부터 추출된, 복수의 음향 특징 벡터 및 복수의 MFCC 특징 벡터 중, 적어도 하나의 특징 벡터를 선택하는 제1 모델, 및 선택된 특징 벡터를 바탕으로 구음 장애 유형을 판단하는 제2 모델을 포함할 수 있다.Meanwhile, as shown in FIGS. 3 and 4, the artificial intelligence model includes a first model for selecting at least one feature vector from among a plurality of acoustic feature vectors and a plurality of MFCC feature vectors extracted from audio data; and A second model for determining the type of dysarthria based on the selected feature vector may be included.

이에 따라, 서버(300)가 환자의 구음 장애 유형을 판단하는 인공지능 모델을 통해 사용자의 음성에 매칭되는 구음 장애 유형을 식별하는데 있어서, 서버(300)는 복수의 음향 특징 벡터 및 복수의 MFCC 특징 벡터(: 적어도 하나의 제1 MFCC 특징 벡터, 적어도 하나의 제2 MFCC 특징 벡터, 및 적어도 하나의 제3 MFCC 특징 벡터)를 제1 모델에 입력한다.Accordingly, in the server 300 identifying the type of dysarthria that matches the user's voice through the artificial intelligence model for determining the type of dysarthria of the patient, the server 300 uses a plurality of acoustic feature vectors and a plurality of MFCC features Vectors (: at least one first MFCC feature vector, at least one second MFCC feature vector, and at least one third MFCC feature vector) are input to the first model.

서버(300)는 제1 모델로부터 적어도 하나의 특징 벡터를 획득하여, 획득된 특징 벡터를 제2 모델에 입력하고, 제2 모델로부터 사용자의 음성에 매칭되는 구음 장애 유형을 획득할 수 있다.The server 300 may obtain at least one feature vector from the first model, input the acquired feature vector to the second model, and obtain a dysarthria type matching the user's voice from the second model.

구체적으로, 서버(300)는, 제1 모델을 통해 텍스트에 따라 적어도 하나의 특징 벡터를 선택하고, 제2 모델을 통해, 선택된 특징 벡터를 바탕으로, 텍스트를 발화하는 정상인의 음성의 오디오 데이터를 오디오 데이터와 비교한다.Specifically, the server 300 selects at least one feature vector according to the text through the first model, and based on the selected feature vector through the second model, audio data of the voice of a normal person uttering the text. Compare with audio data.

이를 위해, 도 5에 도시된 바와 같이, 오디오 데이터(: 도 5의 wav)는 텍스트(: 도 5의 txt)에 매칭되어 서버(300)에 저장되며, 서버(300)는 오디오 데이터를 전처리하여 복수의 특징 벡터를 텍스트와 함께 제1 모델로 입력한다.To this end, as shown in FIG. 5, audio data (: wav in FIG. 5) is matched with text (: txt in FIG. 5) and stored in the server 300, and the server 300 preprocesses the audio data to A plurality of feature vectors are input to the first model together with text.

제1 모델은 입력된 복수의 특징 벡터 중 적어도 하나의 특징 벡터를 선택하고, 프로세서는 선택된 특징 벡터를 제2 모델에 입력한다.The first model selects at least one feature vector from among a plurality of input feature vectors, and the processor inputs the selected feature vector to the second model.

이때, 제1 모델은 ica(: 독립 성분 분석법, independent component analysis), pca(: 주성분 분석법, principal component analysis), rp(: 랜덤 투영법, random projection), 및 dae(: 딥 오토인코더, deep auto-encoder)을 포함하는 방법 중 적어도 하나의 방법으로 적어도 하나의 특징 벡터를 선택할 수 있다.At this time, the first model is ica (: independent component analysis, independent component analysis), pca (: principal component analysis, principal component analysis), rp (: random projection, random projection), and dae (: deep autoencoder, deep auto- At least one feature vector may be selected using at least one of methods including an encoder).

제2 모델은 입력된 특징 벡터를 분류함으로써 구음 장애 유형을 판단할 수 있으며, svm(: 서포트 벡터 머신, support vector machine), rf(: 무작위 (결정)숲, random forest), mlp(: 다층 퍼셉트론, multi-layer perceptron) 및 cnn(: 합성곱 신경망, convolutional deep neural networks)를 포함하는 분류 방법 중 적어도 하나의 방법으로 특징 벡터를 분류할 수 있다.The second model can determine the type of dysarthria by classifying the input feature vector, svm (: support vector machine, support vector machine), rf (: random (decision) forest, random forest), mlp (: multilayer perceptron , multi-layer perceptron) and cnn (: convolutional deep neural networks), the feature vector may be classified by at least one of classification methods.

이때, 서버(300)는 수집된 데이터를 학습용 데이터와 예측용 데이터를 일정 비율(ex. 학습용 8: 예측용 2)로 분류하여 학습용 데이터를 통해 인공지능 모델을 학습시키고, 예측용 데이터를 학습된 인공지능 모델에 입력하여 출력된 분류 결과를 바탕으로 인공지능 모델의 정확도를 판단할 수 있다.At this time, the server 300 classifies the collected data into learning data and prediction data at a certain ratio (ex. learning 8: prediction 2), trains the artificial intelligence model through the learning data, and learns the prediction data. The accuracy of the artificial intelligence model can be judged based on the classification result output by inputting it to the artificial intelligence model.

인공지능 모델의 정확도는 99% 이상을 목표로 하며, 학습된 인공지능 모델(장애 분류 모델)은 일 텍스트를 발화하는 사용자의 음성에 대응되는 오디오 데이터(사용자 데이터)가 입력되면 오디오 데이터에 99% 이상 매칭되는 구음 장애 유형을 판단할 수 있다.The accuracy of the artificial intelligence model aims at 99% or more, and the trained artificial intelligence model (disability classification model) is 99% It is possible to determine the type of dysarthria that is abnormally matched.

한편, 본 발명의 이 면에 따른 분류 시스템의 제어 방법은, 제1 모델이 텍스트에 따라 적어도 하나의 특징 벡터를 선택하면, 제2 모델이, 선택된 특징 벡터를 바탕으로, 텍스트를 발화하는 정상인의 음성의 오디오 데이터를 오디오 데이터와 비교하여, 사용자의 실제 구음 장애 유형이 인공지능 모델로부터 출력된 구음 장애 유형과 일치하지 않는 경우, 서버(300)가, 텍스트에 매칭된 오차 발생 횟수를 업데이트할 수 있다.On the other hand, in the control method of the classification system according to this aspect of the present invention, when the first model selects at least one feature vector according to the text, the second model selects the normal person who utters the text based on the selected feature vector. The audio data of the voice is compared with the audio data, and if the user's actual dysarthria type does not match the dysarthria type output from the artificial intelligence model, the server 300 may update the number of occurrences of errors matched to the text. there is.

이때, 오차 발생 횟수가 일정 값을 초과하면, 서버(300)가 텍스트에 대하여 다른 특징 벡터를 선택하도록 제1 모델을 업데이트할 수 있다.In this case, if the number of occurrences of errors exceeds a predetermined value, the server 300 may update the first model to select another feature vector for the text.

구체적으로, 서버(300)가 텍스트에 대하여 다른 특징 벡터를 선택하도록 제1 모델을 업데이트하는데 있어서, 제2 모델의 정확도가 일정 값 미만인 경우, 서버(300)는 제1 모델로부터, 정확도가 일정 값 이상이되도록 하는 적어도 하나의 특징 벡터를 선택하도록 하고, 정확도가 일정 값 이상이되도록 하는 적어도 하나의 특징 벡터를 텍스트에 대하여 매칭하여 저장할 수 있다.Specifically, when the server 300 updates the first model to select a different feature vector for text, when the accuracy of the second model is less than a certain value, the server 300 determines the accuracy from the first model to a certain value. At least one feature vector having an accuracy of at least a certain value may be selected, and at least one feature vector having an accuracy of at least a certain value may be matched with text and stored.

한편, 하드웨어인 컴퓨터와 결합되어, 본 발명의 이 면에 따른 분류 시스템의 방법을 수행할 수 있도록 컴퓨터에서 독출가능한 기록매체에 저장된 컴퓨터 프로그램을 더 포함한다.On the other hand, it is combined with a computer that is hardware and further includes a computer program stored in a computer-readable recording medium to perform the method of the classification system according to another aspect of the present invention.

도 7은 본 발명의 일 실시예에 다른 서버 구성도이다.7 is a server configuration diagram according to an embodiment of the present invention.

도시된 바와 같이, 서버(300)는 메모리(310), 통신부(320) 및 프로세서(330)를 포함할 수 있다.As shown, the server 300 may include a memory 310 , a communication unit 320 and a processor 330 .

메모리(310)는 서버(300)의 동작에 필요한 각종 프로그램 및 데이터를 저장할 수 있다. 메모리(310)는 비휘발성 메모리(310), 휘발성 메모리(310), 플래시메모리(310)(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있다.The memory 310 may store various programs and data necessary for the operation of the server 300 . The memory 310 may be implemented as a non-volatile memory 310, a volatile memory 310, a flash-memory, a hard disk drive (HDD), or a solid state drive (SSD).

통신부(320)는 외부 장치와 통신을 수행할 수 있다. 특히, 통신부(320)는 와이파이 칩, 블루투스 칩, 무선 통신 칩, NFC칩, 저전력 블루투스 침(BLE 칩) 등과 같은 다양한 통신 칩을 포함할 수 있다. 이때, 와이파이 칩, 블루투스 칩, NFC 칩은 각각 LAN 방식, WiFi 방식, 블루투스 방식, NFC 방식으로 통신을 수행한다. 와이파이 칩이나 블루투스칩을 이용하는 경우에는 SSID 및 세션 키 등과 같은 각종 연결 정보를 먼저 송수신 하여, 이를 이용하여 통신 연결한 후 각종 정보들을 송수신할 수 있다. 무선 통신칩은 IEEE, 지그비, 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution) 등과 같은 다양한 통신 규격에 따라 통신을 수행하는 칩을 의미한다.The communication unit 320 may communicate with an external device. In particular, the communication unit 320 may include various communication chips such as a Wi-Fi chip, a Bluetooth chip, a wireless communication chip, an NFC chip, and a Bluetooth Low Energy (BLE) chip. At this time, the Wi-Fi chip, the Bluetooth chip, and the NFC chip perform communication in a LAN method, a WiFi method, a Bluetooth method, and an NFC method, respectively. In the case of using a Wi-Fi chip or a Bluetooth chip, various connection information such as an SSID and a session key is first transmitted and received, and various information can be transmitted and received after communication is connected using this. The wireless communication chip refers to a chip that performs communication according to various communication standards such as IEEE, ZigBee, 3rd Generation (3G), 3rd Generation Partnership Project (3GPP), and Long Term Evolution (LTE).

프로세서(330)는 메모리(310)에 저장된 각종 프로그램을 이용하여 서버(300)의 전반적인 동작을 제어할 수 있다. 프로세서(330)는 RAM, ROM, 그래픽 처리부, 메인 CPU, 제1 내지 n 인터페이스 및 버스로 구성될 수 있다. 이때, RAM, ROM, 그래픽 처리부, 메인 CPU, 제1 내지 n 인터페이스 등은 버스를 통해 서로 연결될 수 있다.The processor 330 may control overall operations of the server 300 using various programs stored in the memory 310 . The processor 330 may include a RAM, a ROM, a graphic processing unit, a main CPU, first through n interfaces, and a bus. At this time, the RAM, ROM, graphic processing unit, main CPU, first to n interfaces, etc. may be connected to each other through a bus.

RAM은 O/S 및 어플리케이션 프로그램을 저장한다. 구체적으로, 서버(300)가 부팅되면 O/S가 RAM에 저장되고, 사용자가 선택한 각종 어플리케이션 데이터가 RAM에 저장될 수 있다.RAM stores O/S and application programs. Specifically, when the server 300 is booted, O/S is stored in RAM, and various application data selected by the user may be stored in RAM.

ROM에는 시스템 부팅을 위한 명령어 세트 등이 저장된다. 턴 온 명령이 입력되어 전원이 공급되면, 메인 CPU는 ROM에 저장된 명령어에 따라 메모리(310)에 저장된 O/S를 RAM에 복사하고, O/S를 실행시켜 시스템을 부팅시킨다. 부팅이 완료되면, 메인 CPU는 메모리(310)에 저장된 각종 어플리케이션 프로그램을 RAM에 복사하고, RAM에 복사된 어플리케이션 프로그램을 실행시켜 각종 동작을 수행한다.The ROM stores instruction sets for system booting. When a turn-on command is input and power is supplied, the main CPU copies the O/S stored in the memory 310 to the RAM according to the command stored in the ROM, and executes the O/S to boot the system. When booting is completed, the main CPU copies various application programs stored in the memory 310 to RAM, and executes the application programs copied to RAM to perform various operations.

그래픽 처리부는 연산부(미도시) 및 렌더링부(미도시)를 이용하여 아이템, 이미지, 텍스트 등과 같은 다양한 객체를 포함하는 화면을 생성한다. 여기서, 연산부는 입력부로부터 수신된 제어 명령을 이용하여 화면의 레이아웃에 따라 각 객체들이 표시될 좌표값, 형태, 크기, 컬러 등과 같은 속성값을 연산하는 구성일 수 있다. 그리고, 렌더링부는 연산부에서 연산한 속성값에 기초하여 객체를 포함하는 다양한 레이아웃의 화면을 생성하는 구성이 일 수 있다. 이러한 렌더링부에서 생성된 화면은 디스플레이의 디스플레이 영역 내에 표시될 수 있다.The graphic processing unit uses a calculation unit (not shown) and a rendering unit (not shown) to create a screen including various objects such as items, images, and text. Here, the calculation unit may be configured to calculate attribute values such as coordinate values, shape, size, color, etc. of each object to be displayed according to the layout of the screen by using a control command received from the input unit. And, the rendering unit may be configured to generate screens of various layouts including objects based on the attribute values calculated by the calculation unit. The screen created by the rendering unit may be displayed within the display area of the display.

메인 CPU는 메모리(310)에 액세스하여, 메모리(310)에 저장된 OS를 이용하여 부팅을 수행한다. 그리고, 메인 CPU는 메모리(310)에 저장된 각종 프로그램, 컨텐츠, 데이터 등을 이용하여 다양한 동작을 수행한다.The main CPU accesses the memory 310 and performs booting using the OS stored in the memory 310 . And, the main CPU performs various operations using various programs, contents, data, etc. stored in the memory 310 .

제1 내지 n 인터페이스는 상술한 각종 구성요소들과 연결된다. 제1 내지 n 인터페이스 중 하나는 네트워크를 통해 외부 장치와 연결되는 네트워크 인터페이스가 될 수도 있다.The first through n interfaces are connected to the various components described above. One of the first through n interfaces may be a network interface connected to an external device through a network.

한편, 나아가, 프로세서(330)는 인공지능 모델을 제어할 수 있다. 이 경우, 프로세서(330)는 인공지능 모델을 제어하기 위한 그래픽 전용 프로세서(예: GPU)를 포함할 수 있음은 물론이다.On the other hand, further, the processor 330 may control the artificial intelligence model. In this case, of course, the processor 330 may include a graphics-only processor (eg, GPU) for controlling the artificial intelligence model.

한편, 본 발명에 따른 인공지능 모델은 교사 지도학습(supervised learning) 또는 비교사 지도학습(unsupervised learning)기반의 모델일 수 있다. 나아가, 본 발명에 따른 인공지능 모델은 SVM(support vector machine), Decision tree, neural network 등 및 이들이 응용된 방법론을 포함할 수 있다.Meanwhile, the artificial intelligence model according to the present invention may be a model based on supervised learning or unsupervised learning. Furthermore, the artificial intelligence model according to the present invention may include a support vector machine (SVM), a decision tree, a neural network, and the like, and methodologies to which they are applied.

일 실시예로, 본 발명에 따른 인공지능 모델은 학습데이터를 입력하여 학습된 합성곱 신경망(Convolutional deep Neural Networks, CNN) 기반의 인공지능 모델일 수 있다. 다만, 이에 한정되는 것은 아니며, 다양한 인공지능 모델이 본 발명에 적용될 수 있음은 물론이다. 예컨대, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network)과 같은 모델이 인공지능 모델로서 사용될 수 있으나, 이에 한정되지 않는다.As an embodiment, the artificial intelligence model according to the present invention may be an artificial intelligence model based on convolutional deep neural networks (CNN) learned by inputting training data. However, it is not limited thereto, and it goes without saying that various artificial intelligence models can be applied to the present invention. For example, models such as a deep neural network (DNN), a recurrent neural network (RNN), and a bidirectional recurrent deep neural network (BRDNN) may be used as an artificial intelligence model, but are not limited thereto.

이때, 합성곱 신경망(Convolutional deep Neural Networks, CNN)은 최소한의 전처리(preprocess)를 사용하도록 설계된 다계층 퍼셉트론(multilayer perceptrons)의 한 종류이다. 합성곱 신경망은 하나 또는 여러개의 합성곱 계층(convolutional layer)과 그 위에 올려진 일반적인 인공신경망 계층들로 이루어져 있으며, 가중치와 통합 계층(pooling layer)들을 추가로 활용한다. 이러한 구조 덕분에 합성곱 신경망은 2차원 구조의 입력 데이터를 충분히 활용할 수 있다. 또한, 합성곱 신경망은 표준 역전달을 통해 훈련될 수 있다. 합성곱 신경망은 다른 피드포워드 인공신경망 기법들보다 쉽게 훈련되는 편이고 적은 수의 매개변수를 사용한다는 이점이 있다.At this time, convolutional deep neural networks (CNNs) are a type of multilayer perceptrons designed to use a minimum of preprocessing. A convolutional neural network consists of one or several convolutional layers and general artificial neural network layers placed on top of them, and additionally utilizes weights and pooling layers. Thanks to this structure, convolutional neural networks can fully utilize input data with a two-dimensional structure. Also, convolutional neural networks can be trained via standard back-propagation. Convolutional neural networks are easier to train than other feedforward artificial neural network techniques and have the advantage of using fewer parameters.

또한, 심층 신경망(Deep Neural Networks, DNN)은 입력 계층(input layer)과 출력 계층(output layer) 사이에 복수개의 은닉 계층(hidden layer)들로 이뤄진 인공신경망(Artificial Neural Network, ANN)이다.In addition, deep neural networks (DNNs) are artificial neural networks (ANNs) consisting of a plurality of hidden layers between an input layer and an output layer.

이때, 심층 신경망의 구조는 퍼셉트론(perceptron)으로 구성될 수 있다. 퍼셉트론은 여러 개의 입력 값(input)과 하나의 프로세서(prosessor), 하나의 출력 값으로 구성된다. 프로세서는 여러 개의 입력 값에 각각 가중치를 곱한 후, 가중치가 곱해진 입력 값들을 모두 합한다. 그 다음 프로세서는 합해진 값을 활성화함수에 대입하여 하나의 출력 값을 출력한다. 만약 활성화함수의 출력 값으로 특정한 값이 나오기를 원하는 경우, 각 입력 값에 곱해지는 가중치를 수정하고, 수정된 가중치를 이용하여 출력 값을 다시 계산할 수 있다. 이때, 각각의 퍼셉트론은 서로 다른 활성화함수를 사용할 수 있다. 또한 각각의 퍼셉트론은 이전 계층에서 전달된 출력들을 입력으로 받아들인 다음, 활성화 함수를 이용해서 출력을 구한다. 구해진 출력은 다음 계층의 입력으로 전달된다. 상술한 바와 같은 과정을 거치면 최종적으로 몇 개의 출력 값을 얻을 수 있다.At this time, the structure of the deep neural network may be composed of a perceptron. Perceptron consists of several inputs, one processor, and one output value. The processor multiplies each of a plurality of input values by a weight, and then sums all the input values multiplied by the weight. Then, the processor substitutes the summed value into the activation function and outputs one output value. If a specific value is desired as an output value of the activation function, a weight value multiplied with each input value may be modified, and an output value may be recalculated using the corrected weight value. At this time, each perceptron may use a different activation function. In addition, each perceptron accepts the outputs passed from the previous layer as inputs, and then obtains the outputs using the activation function. The obtained output is passed as input to the next layer. Through the process as described above, several output values can finally be obtained.

순환 신경망(Reccurent Neural Network, RNN)은 인공신경망을 구성하는 유닛 사이의 연결이 Directed cycle을 구성하는 신경망을 말한다. 순환 신경망은 앞먹임 신경망과 달리, 임의의 입력을 처리하기 위해 신경망 내부의 메모리를 활용할 수 있다.Recurrent Neural Network (RNN) refers to a neural network in which the connections between units constituting an artificial neural network constitute a directed cycle. Unlike feed-forward neural networks, recurrent neural networks can utilize the memory inside the neural network to process arbitrary inputs.

심층 신뢰 신경망(Deep Belief Networks, DBN)이란 기계학습에서 사용되는 그래프 생성 모형(generative graphical model)으로, 딥 러닝에서는 잠재변수(latent variable)의 다중계층으로 이루어진 심층 신경망을 의미한다. 계층 간에는 연결이 있지만 계층 내의 유닛 간에는 연결이 없다는 특징이 있다.Deep Belief Networks (DBN) is a generative graphical model used in machine learning. In deep learning, it means a deep neural network consisting of multiple layers of latent variables. There are connections between layers, but there is no connection between units within a layer.

심층 신뢰 신경망은 생성 모형이라는 특성상 선행학습에 사용될 수 있고, 선행학습을 통해 초기 가중치를 학습한 후 역전파 혹은 다른 판별 알고리즘을 통해 가중치의 미조정을 할 수 있다. 이러한 특성은 훈련용 데이터가 적을 때 굉장히 유용한데, 이는 훈련용 데이터가 적을수록 가중치의 초기값이 결과적인 모델에 끼치는 영향이 세지기 때문이다. 선행학습된 가중치 초기값은 임의로 설정된 가중치 초기값에 비해 최적의 가중치에 가깝게 되고 이는 미조정 단계의 성능과 속도향상을 가능케 한다.Due to the characteristics of a generative model, the deep trust neural network can be used for prior learning, and after learning initial weights through prior learning, the weights can be fine-tuned through backpropagation or other discrimination algorithms. This characteristic is very useful when there is little training data, because the smaller the training data, the stronger the influence of the initial weight values on the resulting model. The pre-learned initial value of the weight becomes closer to the optimal weight than the arbitrarily set initial value of the weight, which enables the performance and speed of the fine-tuning step to be improved.

상술한 인공지능 및 그 학습방법에 관한 내용은 예시를 위하여 서술된 것이며, 상술한 실시 예들에서 이용되는 인공지능 및 그 학습방법은 제한되지 않는다. 예를 들어, 당 업계의 통상의 기술자가 동일한 과제해결을 위하여 적용할 수 있는 모든 종류의 인공지능 기술 및 그 학습방법이 개시된 실시 예에 따른 시스템을 구현하는 데 활용될 수 있다.The above-described artificial intelligence and its learning method are described for illustrative purposes, and the artificial intelligence and its learning method used in the above-described embodiments are not limited. For example, all kinds of artificial intelligence technologies and learning methods that can be applied by a person skilled in the art to solve the same problem can be used to implement the system according to the disclosed embodiment.

한편, 프로세서(330)는 하나 이상의 코어(core, 미도시) 및 그래픽 처리부(미도시) 및/또는 다른 구성 요소와 신호를 송수신하는 연결 통로(예를 들어, 버스(bus) 등)를 포함할 수 있다.Meanwhile, the processor 330 may include one or more cores (not shown) and a graphic processing unit (not shown) and/or a connection path (eg, a bus) for transmitting and receiving signals to and from other components. can

일 실시예에 따른 프로세서(330)는 메모리(310)에 저장된 하나 이상의 인스트럭션을 실행함으로써, 본 발명과 관련하여 설명된 방법을 수행한다.Processor 330 according to one embodiment performs the method described in connection with the present invention by executing one or more instructions stored in memory 310 .

예를 들어, 프로세서(330)는 메모리(310)에 저장된 하나 이상의 인스트럭션을 실행함으로써 신규 학습용 데이터를 획득하고, 학습된 모델을 이용하여, 상기 획득된 신규 학습용 데이터에 대한 테스트를 수행하고, 상기 테스트 결과, 라벨링된 정보가 소정의 제1 기준값 이상의 정확도로 획득되는 제1 학습용 데이터를 추출하고, 상기 추출된 제1 학습용 데이터를 상기 신규 학습용 데이터로부터 삭제하고, 상기 추출된 학습용 데이터가 삭제된 상기 신규 학습용 데이터를 이용하여 상기 학습된 모델을 다시 학습시킬 수 있다.For example, the processor 330 acquires new training data by executing one or more instructions stored in the memory 310, performs a test on the acquired new training data using a learned model, and performs the test. As a result, first training data for which the labeled information is obtained with an accuracy equal to or higher than a predetermined first reference value is extracted, the extracted first training data is deleted from the new training data, and the new training data from which the extracted training data is deleted The learned model may be retrained using the training data.

한편, 프로세서(330)는 프로세서(330) 내부에서 처리되는 신호(또는, 데이터)를 일시적 및/또는 영구적으로 저장하는 램(RAM: Random Access Memory, 미도시) 및 롬(ROM: Read-Only Memory, 미도시)을 더 포함할 수 있다. 또한, 프로세서(330)는 그래픽 처리부, 램 및 롬 중 적어도 하나를 포함하는 시스템온칩(SoC: system on chip) 형태로 구현될 수 있다.Meanwhile, the processor 330 includes RAM (Random Access Memory, not shown) and ROM (Read-Only Memory) temporarily and/or permanently storing signals (or data) processed in the processor 330. , not shown) may be further included. In addition, the processor 330 may be implemented in the form of a system on chip (SoC) including at least one of a graphics processing unit, RAM, and ROM.

메모리(310)에는 프로세서(330)의 처리 및 제어를 위한 프로그램들(하나 이상의 인스트럭션들)을 저장할 수 있다. 메모리(310)에 저장된 프로그램들은 기능에 따라 복수 개의 모듈들로 구분될 수 있다.The memory 310 may store programs (one or more instructions) for processing and control of the processor 330 . Programs stored in the memory 310 may be divided into a plurality of modules according to functions.

본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.Steps of a method or algorithm described in connection with an embodiment of the present invention may be implemented directly in hardware, implemented in a software module executed by hardware, or implemented by a combination thereof. A software module may include random access memory (RAM), read only memory (ROM), erasable programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), flash memory, hard disk, removable disk, CD-ROM, or It may reside in any form of computer readable recording medium well known in the art to which the present invention pertains.

본 발명의 구성 요소들은 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 애플리케이션)으로 구현되어 매체에 저장될 수 있다. 본 발명의 구성 요소들은 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있으며, 이와 유사하게, 실시 예는 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다.Components of the present invention may be implemented as a program (or application) to be executed in combination with a computer, which is hardware, and stored in a medium. Components of the present invention may be implemented as software programming or software elements, and similarly, embodiments may include various algorithms implemented as data structures, processes, routines, or combinations of other programming constructs, such as C, C++ , Java (Java), can be implemented in a programming or scripting language such as assembler (assembler). Functional aspects may be implemented in an algorithm running on one or more processors.

이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.Although the embodiments of the present invention have been described with reference to the accompanying drawings, those skilled in the art to which the present invention pertains can be implemented in other specific forms without changing the technical spirit or essential features of the present invention. you will be able to understand Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive.

100 : 전자 장치
110 : 메모리
111 : 인공지능 모델
111a : 제1 모델
111b : 제2 모델
120 : 프로세서
130 : 마이크
140 : 통신부
200 : 사용자 단말
300 : 서버
310 : 메모리
320 : 통신부
330 : 프로세서
100: electronic device
110: memory
111: AI model
111a: first model
111b: second model
120: processor
130: microphone
140: Ministry of Communication
200: user terminal
300: server
310: memory
320: communication department
330: processor

Claims (13)

전자 장치에 있어서,
환자의 구음 장애 유형을 판단하는 인공지능 모델이 저장된 메모리; 및
상기 메모리와 연결된 프로세서;를 포함하고,
상기 프로세서는,
일 텍스트를 발화하는 사용자의 음성에 대응되는 오디오 데이터를 획득하고,
상기 오디오 데이터를 상기 인공지능 모델에 입력하여, 상기 오디오 데이터에 매칭되는 구음 장애 유형을 식별하는 것을 특징으로 하는, 전자 장치.
In electronic devices,
a memory in which an artificial intelligence model for determining the type of dysarthria of the patient is stored; and
Including; a processor connected to the memory;
the processor,
Obtaining audio data corresponding to a user's voice uttering one text;
The electronic device, characterized in that by inputting the audio data to the artificial intelligence model, to identify a dysarthria type matching the audio data.
제1 항에 있어서,
상기 프로세서는,
상기 오디오 데이터를 노이즈 필터링(noise filtering)하고,
상기 필터링된 오디오 데이터를 복수의 구간으로 구간화하되, 인접한 구간 간에 일정 시간만큼 중첩하여 프레이밍(framing)하고,
상기 프레이밍된 오디오 데이터로부터 복수의 음향(aqoustic) 특징 벡터 및 복수의 MFCC(Mel Frequency Cepstral Coefficients) 특징 벡터를 추출하는 것을 특징으로 하는, 전자 장치.
According to claim 1,
the processor,
Noise filtering the audio data;
Sectioning the filtered audio data into a plurality of sections, overlapping adjacent sections by a predetermined time and framing;
The electronic device characterized in that a plurality of acoustic feature vectors and a plurality of Mel Frequency Cepstral Coefficients (MFCC) feature vectors are extracted from the framed audio data.
제2 항에 있어서,
상기 프로세서는,
상기 프레이밍된 오디오 데이터에 MFCC 기법을 적용하여 적어도 하나의 제1 MFCC 특징 벡터를 획득하고,
상기 적어도 하나의 제1 MFCC 특징 벡터의 값을 미분하여 적어도 하나의 제2 MFCC 특징 벡터를 획득하고,
상기 적어도 하나의 제2 MFCC 특징 벡터의 값을 미분하여 적어도 하나의 제3 MFCC 특징 벡터를 획득하며,
상기 복수의 MFCC 특징 벡터는,
상기 적어도 하나의 제1 MFCC 특징 벡터, 상기 적어도 하나의 제2 MFCC 특징 벡터, 및 상기 적어도 하나의 제3 MFCC 특징 벡터를 포함하는 것을 특징으로 하는, 전자 장치.
According to claim 2,
the processor,
Obtaining at least one first MFCC feature vector by applying an MFCC technique to the framed audio data;
Obtaining at least one second MFCC feature vector by differentiating a value of the at least one first MFCC feature vector;
Obtaining at least one third MFCC feature vector by differentiating a value of the at least one second MFCC feature vector;
The plurality of MFCC feature vectors,
The electronic device characterized in that it comprises the at least one first MFCC feature vector, the at least one second MFCC feature vector, and the at least one third MFCC feature vector.
제2 항에 있어서,
상기 인공지능 모델은,
상기 오디오 데이터로부터 추출된, 복수의 음향 특징 벡터 및 복수의 MFCC 특징 벡터 중, 적어도 하나의 특징 벡터를 선택하는 제1 모델; 및
상기 선택된 특징 벡터를 바탕으로 구음 장애 유형을 판단하는 제2 모델;을 포함하는, 전자 장치.
According to claim 2,
The artificial intelligence model,
a first model for selecting at least one feature vector from among a plurality of acoustic feature vectors and a plurality of MFCC feature vectors extracted from the audio data; and
An electronic device comprising: a second model for determining a type of dysarthria based on the selected feature vector.
제4 항에 있어서,
상기 제1 모델은,
상기 텍스트에 따라 적어도 하나의 특징 벡터를 선택하고,
상기 제2 모델은,
상기 선택된 특징 벡터를 바탕으로, 상기 텍스트를 발화하는 정상인의 음성의 오디오 데이터를 상기 오디오 데이터와 비교하는, 전자 장치.
According to claim 4,
The first model,
select at least one feature vector according to the text;
The second model,
Based on the selected feature vector, audio data of a voice of a normal person uttering the text is compared with the audio data.
제5 항에 있어서,
상기 프로세서는,
상기 사용자의 실제 구음 장애 유형이 상기 인공지능 모델로부터 출력된 구음 장애 유형과 일치하지 않는 경우, 상기 텍스트에 매칭된 오차 발생 횟수를 업데이트하고,
상기 오차 발생 횟수가 일정 값을 초과하면, 상기 텍스트에 대하여 다른 특징 벡터를 선택하도록 상기 제1 모델을 업데이트하는, 전자 장치.
According to claim 5,
the processor,
If the user's actual dysarthria type does not match the dysarthria type output from the artificial intelligence model, updating the number of occurrences of errors matched to the text;
and updating the first model to select another feature vector for the text when the number of occurrences of the error exceeds a predetermined value.
딥러닝 기반 구음 장애 분류 시스템의 제어 방법에 있어서,
서버가, 사용자 단말로부터 일 텍스트를 발화하는 사용자의 음성에 대응되는 오디오 데이터를 획득하는 단계;
상기 서버가, 환자의 구음 장애 유형을 판단하는 인공지능 모델을 통해 상기 사용자의 음성에 매칭되는 구음 장애 유형을 식별하는 단계; 및
상기 서버가, 상기 식별된 구음 장애 유형을 상기 사용자 단말로 제공하는 단계;를 포함하는, 분류 시스템의 제어 방법.
In the control method of the deep learning-based dysarthria classification system,
obtaining, by a server, audio data corresponding to a voice of a user uttering a text from a user terminal;
identifying, by the server, a type of dysarthria matched to the voice of the user through an artificial intelligence model for determining the type of dysarthria of the patient; and
The control method of the classification system, comprising: providing, by the server, the identified dysarthria type to the user terminal.
제7 항에 있어서,
환자의 구음 장애 유형을 판단하는 인공지능 모델을 통해 상기 사용자의 음성에 매칭되는 구음 장애 유형을 식별하는 단계는,
상기 서버가, 상기 오디오 데이터를 노이즈 필터링(noise filtering)하는 단계;
상기 서버가, 상기 필터링된 오디오 데이터를 복수의 구간으로 구간화하되, 인접한 구간 간에 일정 시간만큼 중첩하여 프레이밍(framing)하는 단계; 및
상기 서버가, 상기 프레이밍된 오디오 데이터로부터 복수의 음향(aqoustic) 특징 벡터를 추출하는 단계;를 포함하는, 분류 시스템의 제어 방법.
According to claim 7,
Identifying the type of dysarthria that matches the user's voice through an artificial intelligence model that determines the type of dysarthria of the patient,
performing, by the server, noise filtering on the audio data;
framing, by the server, dividing the filtered audio data into a plurality of sections, overlapping adjacent sections by a predetermined time; and
and extracting, by the server, a plurality of acoustic feature vectors from the framed audio data.
제8 항에 있어서,
환자의 구음 장애 유형을 판단하는 인공지능 모델을 통해 상기 사용자의 음성에 매칭되는 구음 장애 유형을 식별하는 단계는,
상기 서버가, 상기 프레이밍된 오디오 데이터에 MFCC(Mel Frequency Cepstral Coefficients) 기법을 적용하여 적어도 하나의 제1 MFCC 특징 벡터를 획득하는 단계;
상기 서버가, 상기 적어도 하나의 제1 MFCC 특징 벡터의 값을 미분하여 적어도 하나의 제2 MFCC 특징 벡터를 획득하는 단계; 및
상기 서버가, 상기 적어도 하나의 제2 MFCC 특징 벡터의 값을 미분하여 적어도 하나의 제3 MFCC 특징 벡터를 획득하는 단계;를 포함하는, 분류 시스템의 제어 방법.
According to claim 8,
Identifying the type of dysarthria that matches the user's voice through an artificial intelligence model that determines the type of dysarthria of the patient,
obtaining, by the server, at least one first MFCC feature vector by applying a Mel Frequency Cepstral Coefficients (MFCC) technique to the framed audio data;
obtaining, by the server, at least one second MFCC feature vector by differentiating a value of the at least one first MFCC feature vector; and
and obtaining, by the server, at least one third MFCC feature vector by differentiating a value of the at least one second MFCC feature vector.
제9 항에 있어서,
환자의 구음 장애 유형을 판단하는 인공지능 모델을 통해 상기 사용자의 음성에 매칭되는 구음 장애 유형을 식별하는 단계는,
상기 서버가, 상기 복수의 음향 특징 벡터 및 상기 적어도 하나의 제1 MFCC 특징 벡터, 상기 적어도 하나의 제2 MFCC 특징 벡터, 및 상기 적어도 하나의 제3 MFCC 특징 벡터를 상기 인공지능 모델에 포함된 제1 모델에 입력하는 단계;
상기 서버가, 상기 제1 모델로부터 적어도 하나의 특징 벡터를 획득하는 단계;
상기 서버가, 상기 획득된 특징 벡터를 상기 인공지능 모델에 포함된 제2 모델에 입력하는 단계; 및
상기 서버가, 상기 제2 모델로부터 상기 사용자의 음성에 매칭되는 구음 장애 유형을 획득하는 단계;를 포함하는, 분류 시스템의 제어 방법.
According to claim 9,
Identifying the type of dysarthria that matches the user's voice through an artificial intelligence model that determines the type of dysarthria of the patient,
The server may include the plurality of acoustic feature vectors, the at least one first MFCC feature vector, the at least one second MFCC feature vector, and the at least one third MFCC feature vector included in the artificial intelligence model. 1 input into the model;
obtaining, by the server, at least one feature vector from the first model;
inputting, by the server, the obtained feature vector to a second model included in the artificial intelligence model; and
Acquiring, by the server, a dysarthria type matching the voice of the user from the second model; including, a method for controlling a classification system.
제10 항에 있어서,
상기 분류 시스템의 제어 방법은,
상기 제1 모델이, 상기 텍스트에 따라 적어도 하나의 특징 벡터를 선택하는 단계;
상기 제2 모델이, 상기 선택된 특징 벡터를 바탕으로, 상기 텍스트를 발화하는 정상인의 음성의 오디오 데이터를 상기 오디오 데이터와 비교하는 단계;
상기 사용자의 실제 구음 장애 유형이 상기 인공지능 모델로부터 출력된 구음 장애 유형과 일치하지 않는 경우, 상기 서버가, 상기 텍스트에 매칭된 오차 발생 횟수를 업데이트하는 단계; 및
상기 오차 발생 횟수가 일정 값을 초과하면, 상기 서버가, 상기 텍스트에 대하여 다른 특징 벡터를 선택하도록 상기 제1 모델을 업데이트하는 단계;를 포함하는, 분류 시스템의 제어 방법.
According to claim 10,
The control method of the classification system,
selecting, by the first model, at least one feature vector according to the text;
comparing, by the second model, audio data of a voice of a normal person uttering the text with the audio data based on the selected feature vector;
updating, by the server, the number of occurrences of errors matched to the text when the user's actual dysarthria type does not match the dysarthria type output from the artificial intelligence model; and
and updating, by the server, the first model to select another feature vector for the text when the number of occurrences of the error exceeds a predetermined value.
제11 항에 있어서,
상기 텍스트에 대하여 다른 특징 벡터를 선택하도록 상기 제1 모델을 업데이트하는 단계는,
상기 제2 모델의 정확도가 일정 값 미만인 경우, 상기 서버가, 상기 제1 모델로부터, 상기 정확도가 일정 값 이상이되도록 하는 적어도 하나의 특징 벡터를 선택하도록 하는 단계; 및
상기 서버가, 상기 정확도가 일정 값 이상이되도록 하는 적어도 하나의 특징 벡터를 상기 텍스트에 대하여 저장하는 단계;를 포함하는, 분류 시스템의 제어 방법.
According to claim 11,
Updating the first model to select a different feature vector for the text comprises:
when the accuracy of the second model is less than a predetermined value, causing the server to select at least one feature vector having the accuracy of the first model or higher; and
and storing, by the server, at least one feature vector for the text such that the accuracy is greater than or equal to a predetermined value.
하드웨어인 컴퓨터와 결합되어, 제8 항의 방법을 수행할 수 있도록 컴퓨터에서 독출가능한 기록매체에 저장된 컴퓨터 프로그램.A computer program stored in a computer-readable recording medium to be combined with a computer, which is hardware, to perform the method of claim 8.
KR1020210176490A 2021-12-10 2021-12-10 Deep learning-based sound impairment classification apparatus, system control method, and computer program KR20230087872A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210176490A KR20230087872A (en) 2021-12-10 2021-12-10 Deep learning-based sound impairment classification apparatus, system control method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210176490A KR20230087872A (en) 2021-12-10 2021-12-10 Deep learning-based sound impairment classification apparatus, system control method, and computer program

Publications (1)

Publication Number Publication Date
KR20230087872A true KR20230087872A (en) 2023-06-19

Family

ID=86988550

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210176490A KR20230087872A (en) 2021-12-10 2021-12-10 Deep learning-based sound impairment classification apparatus, system control method, and computer program

Country Status (1)

Country Link
KR (1) KR20230087872A (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101921890B1 (en) 2017-10-13 2018-11-28 대한민국 Patient classification method for customized language rehabilitation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101921890B1 (en) 2017-10-13 2018-11-28 대한민국 Patient classification method for customized language rehabilitation

Similar Documents

Publication Publication Date Title
US11010645B2 (en) Interactive artificial intelligence analytical system
US10176811B2 (en) Neural network-based voiceprint information extraction method and apparatus
CN105206258B (en) The generation method and device and phoneme synthesizing method and device of acoustic model
WO2018063840A1 (en) Learning coach for machine learning system
US20200043495A1 (en) Method and apparatus for performing multi-language communication
US11825278B2 (en) Device and method for auto audio and video focusing
CN111081230A (en) Speech recognition method and apparatus
KR101984283B1 (en) Automated Target Analysis System Using Machine Learning Model, Method, and Computer-Readable Medium Thereof
KR20210052036A (en) Apparatus with convolutional neural network for obtaining multiple intent and method therof
KR20190136578A (en) Method and apparatus for speech recognition
KR20200126675A (en) Electronic device and Method for controlling the electronic device thereof
US11721334B2 (en) Method and apparatus for controlling device located a distance away from a user
US11176482B2 (en) Training signal processing model for component replacement in signal processing system
US11830478B2 (en) Learning device, learning method, and learning program for images and sound which uses a similarity matrix
CN109117800A (en) Face gender identification method and system based on convolutional neural networks
KR20230087872A (en) Deep learning-based sound impairment classification apparatus, system control method, and computer program
KR102563856B1 (en) Device, control method, and program for performing visualization and rehabilitation of deep learning-based speech disorder
KR102576754B1 (en) Deep learning-based speech improvement conversion device, system control method, and computer program
Sidorov et al. Feature and decision level audio-visual data fusion in emotion recognition problem
Fu et al. An adversarial training based speech emotion classifier with isolated gaussian regularization
US10917721B1 (en) Device and method of performing automatic audio focusing on multiple objects
Li et al. An improved method of speech recognition based on probabilistic neural network ensembles
JP6846310B2 (en) Distance measuring device, data conversion device, distance measuring method, and program
KR102544262B1 (en) Electronic device providing two-way interaction service between user and meta-human on streaming basis
KR20210078122A (en) Information processing method and apparatus therefor

Legal Events

Date Code Title Description
E902 Notification of reason for refusal