WO2019190071A1 - 호흡 질환 진단 장치 및 방법 - Google Patents

호흡 질환 진단 장치 및 방법 Download PDF

Info

Publication number
WO2019190071A1
WO2019190071A1 PCT/KR2019/002595 KR2019002595W WO2019190071A1 WO 2019190071 A1 WO2019190071 A1 WO 2019190071A1 KR 2019002595 W KR2019002595 W KR 2019002595W WO 2019190071 A1 WO2019190071 A1 WO 2019190071A1
Authority
WO
WIPO (PCT)
Prior art keywords
respiratory
user
signal
voice signal
respiratory disease
Prior art date
Application number
PCT/KR2019/002595
Other languages
English (en)
French (fr)
Inventor
김근영
Original Assignee
(주)오상헬스케어
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)오상헬스케어 filed Critical (주)오상헬스케어
Publication of WO2019190071A1 publication Critical patent/WO2019190071A1/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7203Signal processing specially adapted for physiological signals or for diagnostic purposes for noise prevention, reduction or removal
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7225Details of analog processing, e.g. isolation amplifier, gain or sensitivity adjustment, filtering, baseline or drift compensation
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems

Definitions

  • the present invention relates to an apparatus and method for diagnosing respiratory disease, and more particularly, to an apparatus and method for diagnosing respiratory disease of a user by recognizing a respiratory voice from a user.
  • respiratory diseases are most affected by the oral cavity, the airway or the lungs.
  • cough caused by respiratory diseases is mostly associated with the lungs, except for allergic diseases, and sometimes occurs due to inflammation, virus, alveolar blockage or airway problems.
  • cough By period, it is generally classified as acute if a cough lasts less than 3 weeks in adults and subacute if a cough lasts for more than 3 weeks. ), If the cough persists for more than 8 weeks, it is classified as chronic cough (Chronic), the diagnostic and therapeutic approach is different according to the classification according to the period.
  • asthma is a chronic inflammatory disease of the respiratory tract, which can be identified by coughing or wheeze that is repeatedly caused by asthma, and a clearer diagnosis is made according to the situation worsening under a specific stimulus or condition. It may be possible. If the alveoli or airways are narrowed due to respiratory or lung disease, wheezing often occurs, but the size may be smaller, and paroxysmal cough may be large and repetitive. In the case of pediatric asthma, more detailed observation is required for symptoms and signs because it is difficult to diagnose, and pediatric asthma is observed by observing symptoms such as frequent wheezing or unchanged wheezing in daily life for more than a month. Can be determined.
  • COPD Chronic Obstructive Pulmonary Disease
  • the present invention has been made to solve the above-mentioned problems, an object according to an aspect of the present invention is to overcome the conventional limitations that had to diagnose the respiratory disease only through separate equipment provided in the hospital, in the daily life of the individual
  • the present invention provides a respiratory disease diagnosis apparatus and method capable of more systematically managing a respiratory disease of an individual by obtaining voice data for diagnosing a respiratory disease and analyzing the acquired voice data and providing the same to a user.
  • Respiratory disease diagnosis apparatus is a sound recognition unit for recognizing the input sound from the outside to provide a sound signal, the sound signal received from the sound recognition unit respiratory sound associated with the user's respiratory sound And a signal processor for analyzing a respiratory related voice signal of the user determined by the preprocessor using training data secured in advance to diagnose the respiratory disease of the user. It features.
  • the pre-processing unit characterized in that the background noise signal contained in the sound signal, the conversational voice signal, and other respiratory-related voice signal of the other than the user characterized in that the respiratory-related voice signal of the user.
  • the pre-processing unit in consideration of the direction in which the input sound is recognized by the sound recognition unit is characterized in that for determining the voice signal related to the respirator of the user.
  • the sound recognition unit comprises a plurality of microphones (microphone) for recognizing the input sound, respectively, and the pre-processing unit, the correlation between the respective sound signal that the plurality of microphones respectively recognize and output the input sound Analyze the respiratory-related voice signal of the user characterized in that it determines.
  • the pre-processing unit is configured to recognize each of the sound signals in which the time delay delay (TDOA) characteristics are differently formed by recognizing the input sound from a direction out of a reference range, respectively, by the plurality of microphones.
  • the respirator-related voice signal of the user may be determined by using a delay-and-sum beamforming method.
  • the present invention may further include a motion detector configured to detect a motion when the user speaks, and the preprocessing unit detects a motion of the other person's respirator in consideration of the motion during speech of the user, which is detected by the motion detector. Characterized in that the respiratory related voice signal of the user from the.
  • the pre-processing unit the respiratory-related voice signal of the user from the respiratory-related voice signal of the other person by using a method of detecting the time when the respiratory-related voice is uttered from the user through the motion at the time of the user's speech. Characterized in that it determines.
  • the present invention is a tree for triggering (triggering) the respiratory disease diagnosis device based on the magnitude of the acoustic signal from the acoustic recognition unit in a state in which the respiratory disease diagnosis device maintains a stand-by mode for low power It is characterized in that it further comprises a rejection.
  • the signal processor extracts a feature vector from the user's respiratory voice signal and extracts the feature vector based on a Gaussian Mixture Model (GMM) algorithm or a K-Nearest Neighbor (K-NN) algorithm. Pattern matching between the selected feature vector and the training data is performed to analyze the voice signal related to the respiratory system of the user.
  • GMM Gaussian Mixture Model
  • K-NN K-Nearest Neighbor
  • the signal processor extracts a feature vector from the user's respiratory voice signal, and applies the deep learning model learned based on the training data to the extracted feature vector. Characterized in that for analyzing the respiratory related speech signals.
  • the signal processing unit may include a deep learning model based on a support vector machine (SVM) and a deep neural network (DNN), a deep learning model based on a long short term memory (LSTM), and a convolutional LSTM deep neural network (CLDNN).
  • SVM support vector machine
  • DNN deep neural network
  • LSTM long short term memory
  • CLDNN convolutional LSTM deep neural network
  • the deep learning model is characterized in that the learning continuously based on the extracted feature vector and the training data.
  • the respiratory disease is characterized in that it comprises at least one of cough, cold, asthma, bronchitis and chronic obstructive pulmonary disease (COPD).
  • COPD chronic obstructive pulmonary disease
  • Respiratory disease diagnostic method the sound recognition unit, recognizing the input sound from the outside to provide a sound signal, the pre-processing unit, the sound signal received from the sound recognition unit to the user's respiratory sounds Determining whether the corresponding respirator-related voice signal, and the signal processor, using the training data secured in advance for diagnosing the respiratory disease of the user, the respiratory-related voice signal of the user determined by the preprocessor; Characterized in that it comprises the step of analyzing.
  • the present invention enables the early diagnosis of respiratory diseases by monitoring the respiratory diseases for the entire life cycle of the individual to analyze the respiratory diseases, thereby preventing the exacerbation of the severe in advance, By repeatedly learning the classification model for analyzing respiratory diseases using the respiratory-related voice data obtained from the monitoring of respiratory diseases, it is possible to enable more accurate and systematic analysis of individual respiratory diseases. Can be.
  • FIG. 1 is an exemplary view for explaining the overall operation of the respiratory disease diagnosis apparatus according to an embodiment of the present invention.
  • FIG. 2 is a block diagram illustrating a respiratory disease diagnosis apparatus according to an embodiment of the present invention.
  • FIG 3 is an exemplary view for explaining training data in the respiratory disease diagnosis apparatus according to an embodiment of the present invention.
  • FIG. 4 is an exemplary view showing a delay-hop beam forming technique in a respiratory disease diagnosis apparatus according to an embodiment of the present invention.
  • FIG. 5 is an exemplary view showing a sensor fusion technique in a respiratory disease diagnosis apparatus according to an embodiment of the present invention.
  • FIG. 6 is a block diagram illustrating a process of extracting a feature vector from a respiratory signal by a signal processor in a respiratory disease diagnosis apparatus according to an exemplary embodiment of the present invention.
  • FIG. 7 to 9 are exemplary views illustrating a deep learning model applied by a signal processor to analyze a respiratory signal of a user in a respiratory disease diagnosis apparatus according to an exemplary embodiment of the present invention.
  • FIG. 10 is an exemplary diagram illustrating an acoustic signal processing block diagram in which a respiratory disease diagnosis apparatus according to an embodiment of the present invention may be implemented.
  • FIG. 11 is an exemplary diagram illustrating the features applied to the respiratory disease diagnosis apparatus according to an embodiment of the present invention.
  • FIG. 12 is a flowchart illustrating a respiratory disease diagnostic method according to an embodiment of the present invention.
  • FIG. 1 is an exemplary view for explaining the overall operation of the respiratory disease diagnostic apparatus according to an embodiment of the present invention
  • Figure 2 is a block diagram for explaining a respiratory disease diagnostic apparatus according to an embodiment of the present invention
  • 3 is an exemplary diagram for describing training data in a respiratory disease diagnosis apparatus according to an embodiment of the present invention
  • FIG. 4 is a delayed-hop beam forming technique in a respiratory disease diagnosis apparatus according to an embodiment of the present invention
  • 5 is an exemplary view showing a sensor fusion technique in a respiratory disease diagnosis apparatus according to an embodiment of the present invention
  • Figure 6 is a signal processing unit in a respiratory disease diagnostic apparatus according to an embodiment of the present invention
  • 7 is a block diagram illustrating a process of extracting a feature vector from a speech signal related to respiratory apparatus
  • FIG. 7 to 9 are signal processing parts of a respiratory disease diagnosis apparatus according to an embodiment of the present invention.
  • FIG. 10 is a diagram illustrating a deep learning model applied to analyze a user's respiratory voice signal
  • FIG. 10 is a block diagram illustrating an acoustic signal processing unit in which a respiratory disease diagnosis apparatus according to an exemplary embodiment may be implemented.
  • FIG. 11 is an exemplary diagram illustrating characteristics applied to a respiratory disease diagnosis apparatus according to an embodiment of the present invention.
  • the respiratory disease diagnosis apparatus 10 of the present embodiment may be implemented in the form of a portable terminal for living in a state possessed by a user and recognizing a respiratory related voice from the user to diagnose a respiratory disease of the user.
  • the wearable terminal may be implemented in the form of a pendant type or a headset type.
  • the respiratory disease diagnosis apparatus 10 of the present embodiment recognizes an input sound from the outside as shown in FIG. 1 (Input Signal) and determines a user's respiratory voice signal (Pre-Processing). After extracting the feature vectors (Feature Extraction), deep learning models (Training Data, Deep Learning Model) can be used to diagnose the respiratory disease of the user (Classification), and the diagnosis results are collected and managed to Can be used for treatment (Collect Cough Stats).
  • the respiratory disease in the present embodiment is described as meaning including one or more of cough, cold, asthma, bronchitis and Chronic Obstructive Pulmonary Disease (COPD), but is not limited thereto, such as pneumonia or pulmonary tuberculosis And all such respiratory diseases.
  • COPD Chronic Obstructive Pulmonary Disease
  • the respiratory disease diagnosis apparatus 10 may include an acoustic recognizer 100, a trigger unit 200, a motion detector 300, a preprocessor 400, and a signal processor. 500 may be included.
  • the sound recognition unit 100 may recognize the input sound from the outside and provide the sound signal to the preprocessor 400 to be described later.
  • the input sound from the outside includes the user's respiratory sounds (including respiratory disease voices such as coughing or wheeze or sneezing, and vibrations such as lungs or mouth are also reflected as the frequency of respiratory voices) and dialogue voices. It may include all sounds, such as respiratory sounds and dialogue voices, and background noises of others other than the user.
  • the sound recognition unit 100 may include a microphone to recognize input sound from the outside, and in this embodiment, may be easily applied to the respiratory disease diagnosis apparatus 10 that may be implemented in the form of a portable terminal.
  • the acoustic recognition unit 100 may be implemented to include a MEMS (Micro Electro Mechanical Systems) microphone.
  • the acoustic recognition unit 100 may include a plurality of microphones for applying the delay-sum beam forming technique, which will be described later.
  • the preprocessor 400 may determine whether the sound signal received from the sound recognizer 100 is a respirator-related voice signal corresponding to the respirator-related voice of the user.
  • the acoustic signal received from the acoustic recognition unit 100 is a sound for the input sound including not only the user's respiratory sound but also the user's conversational voice, another person's respiratory sound and conversational voice, and background noise.
  • the respirator-related voice signal corresponding to the respirator-related voice of the user is determined among the acoustic signals from the acoustic recognition unit 100, and then the respirator of the user is determined using only the determined respirator-related voice signal. There is a need to diagnose the disease.
  • the preprocessor 400 may determine only the respiratory-related voice signal of the user from the background noise signal, the dialogue sound signal, and the respiratory-related voice signal of another person other than the user included in the sound signal from the acoustic recognition unit 100. Can be.
  • the preprocessor 400 may include a first preprocessor (eg, a noise filtering unit) for determining a respirator-related voice signal from a background noise signal and a dialogue sound signal included in an acoustic signal, and a respirator related to another person included in the acoustic signal. It may be implemented by being divided into a second preprocessor (eg, speaker recognition unit) for determining a respiratory sound signal related to the user from the voice signal (that is, the pretreatment unit may be implemented to include the first and second preprocessors).
  • a first preprocessor eg, a noise filtering unit
  • a second preprocessor eg, speaker recognition unit
  • the first preprocessor is a method (analysis of frequency and signal strength) of the acoustic signal from the acoustic recognition unit 100 (frequency and signal strength analysis), a method using a deep learning model received from the diagnostic server 20 to be described later, or Background noise signal and dialogue included in the acoustic signal through a method of considering the direction in which the input sound is recognized by the acoustic recognition unit 100 (Delay-and-Sum Beamforming Method). Respiratory related speech signals can be determined from the speech signals.
  • the second preprocessor compares the respirator-related voice signal sample data secured in advance by the user, a method of using the deep learning model received from the diagnosis server 20, and the input sound is recognized by the acoustic recognition unit 100.
  • the user's respirator-related voice signal may be determined from the respirator-related voice signal of another person included in the sound signal through a method of considering a predetermined direction or using a sensor fusion technique through the motion detector 300 to be described later. .
  • the preprocessor 400 may determine the user's respiratory voice signal in consideration of the direction in which the input sound is recognized by the sound recognition unit 100.
  • the sound recognition unit 100 may include a plurality of microphones that recognize input sounds from the outside, respectively.
  • the preprocessor 400 may determine a user's respiratory voice signal by analyzing a correlation between the sound signals output by the plurality of microphones respectively recognizing the input sound, and specifically, out of the reference range. Delay-and-Sum Beamforming Method for summing up each acoustic signal having a different time delay of arrival (TDOA) characteristic as input sounds from the microphones are respectively recognized by a plurality of microphones ) To determine the user's respiratory voice signal.
  • TDOA time delay of arrival
  • the respiratory disease diagnosis apparatus 10 of the present embodiment may be implemented in a form attached to a user's body, and thus may be regarded as a situation in which a direction with the user is fixed to some extent. That is, if a reference range is within a predetermined allowable range from the direction between the acoustic recognition unit 100 of the respiratory disease diagnosis apparatus 10 (the mouth of the user) and the user's mouth (eg, a straight line connecting the microphone and the user's mouth) Ranges within a predetermined allowable angle from the device), respiratory-related voices and conversational voices of others other than the user, as shown in FIG. 4, and background noise, are respectively recognized by the plurality of microphones from directions outside the reference ranges.
  • a reference range is within a predetermined allowable range from the direction between the acoustic recognition unit 100 of the respiratory disease diagnosis apparatus 10 (the mouth of the user) and the user's mouth (eg, a straight line connecting the microphone and the user's mouth) Ranges within a predetermined allowable angle from the
  • the preprocessor 400 adds each sound signal output by each microphone to increase its magnitude. If it is over the set value, the corresponding sound signal can be determined to correspond to the voice spoken by the user within the reference range. The.
  • an adaptive beamforming method may be used to adapt to the movement. When the active beamforming technique is applied, the filter applied to each microphone is adjusted to the objective function. To collect the desired sound signal.
  • the present embodiment may further include a motion detector 300 that detects a motion when a user speaks.
  • the preprocessor 400 may be connected to the motion detector 300.
  • the respiratory-related voice signal of the user may be determined from the respiratory-related voice signal of another person in consideration of the motion when the user speaks.
  • the motion when the user speaks is defined as including the vibration of the vocal organ or the movement of the body when the user speaks.
  • the preprocessing unit 400 receives a respiratory voice from the user through the motion at the time of the user's speech.
  • the voice signal of the respirator of the user may be determined by using the method of detecting the ignition time.
  • the motion detection unit 300 may include an acceleration sensor for detecting the acceleration of the user's body or the vibration of the vocal organs when the user ignites, so that the preprocessor 400 receives the acceleration received from the acceleration sensor. By determining whether the reference value is greater than or equal to a preset reference value, the time point at which the respirator-related voice is uttered by the user may be detected.
  • the motion detection unit 300 may include an EMG sensor that detects the degree of contraction or relaxation of vocal organ muscles or an infrared sensor that irradiates infrared rays, and accordingly, the preprocessor 400 is transmitted from an EMG sensor or an infrared sensor. The sensor output value may be analyzed to detect the point at which the respiratory voice is uttered.
  • Sensor fusion techniques include early fusion techniques that synthesize sound signals and motion information at low level stages, such as signal level or feature level stages, as shown in FIG. 5, or train and train models from acoustic signal and motion information.
  • a late fusion technique can be employed that combines sound signals and motion information at the resulting level output through the model.
  • the present embodiment may further include a trigger unit 200 as shown in FIG.
  • the trigger unit 200 is based on the size of the acoustic signal from the acoustic recognition unit 100 while the respiratory disease diagnosis apparatus 10 maintains a stand-by mode for low power. 10) can be triggered.
  • the respiratory disease diagnosis apparatus 10 of the present embodiment may be implemented in the form of a portable terminal, so it is necessary to secure a low power specification, and thus, a default state may be a standby mode for low power. mode).
  • a default state may be a standby mode for low power. mode.
  • the respiratory disease diagnosis apparatus 10 may secure a low power specification through a configuration that is triggered by the trigger unit 200.
  • a method of triggering by comparing a magnitude of an acoustic signal from the acoustic recognition unit 100 with a threshold through a comparator in hardware may be applied.
  • a triggering method of repeatedly performing a signal level check by activating the sleep mode to the wake-up mode in software may be applied.
  • the signal level check is performed in a range of 10 Hz to 30 Hz, a better low power specification may be secured.
  • the signal processor 500 includes a feature extractor 510 and a diagnosis unit 530 as illustrated in FIG. 2, so that the preprocessing unit 400 uses training data secured in advance to diagnose a respiratory disease of the user. It is possible to analyze the respiratory related voice signal of the user determined by.
  • the training data refers to data that is previously labeled and secured to have an acoustic signal pattern according to gender, age, and disease type, as shown in FIG. 3.
  • Training data may be obtained from respiratory-related voice signals obtained from patients with respiratory diseases having various genders, ages, and disease types in the hospital, and the signal processor 500 analyzes the respiratory-related voice signals of the user using the training data. Thus, the respiratory disease of the user can be diagnosed.
  • the feature extractor 510 of the signal processor 500 may extract a feature vector from the user's respiratory-related speech signal.
  • MFCC Mel-Frequency Cepstral Coefficient
  • the feature extractor 510 converts the frequency domain to a frequency domain by applying a Fourier Transform to a respirator-related voice signal received from the preprocessor 400. Then, the respiratory-related speech signal converted into the frequency domain is converted into Mel-Scale Spectrum.
  • the MFCC After taking a log on the converted Mel-Scale Spectrum and applying DCT (Discrete Cosine Transform), the MFCC can be calculated. As in the general case, the first derivative and the second derivative of the MFCC may be used as additional information. In addition to the MFCC, a pitch, linear predictive coding (LPC), probabilistic linear discriminate analysis (PLDA), or i-vector may be employed as an algorithm for extracting feature vectors.
  • LPC linear predictive coding
  • PLDA probabilistic linear discriminate analysis
  • i-vector may be employed as an algorithm for extracting feature vectors.
  • the diagnosis unit 530 of the signal processor 500 is extracted by the feature extractor 510 based on a Gaussian Mixture Model (GMM) algorithm or a K-Nearest Neighbor (K-NN) algorithm. Pattern matching between the extracted feature vector and the training data may be performed to analyze a user's respiratory related speech signal.
  • GMM Gaussian Mixture Model
  • K-NN K-Nearest Neighbor
  • the respiratory disease diagnosis apparatus 10 of the present embodiment may be implemented as a portable terminal for diagnosing a respiratory disease of a user, and thus, compared to a separate external server (ie, the diagnosis server 20). While there is a limitation in the computational performance, there is a need to provide a user with a pre-alarm of danger by diagnosing the user's respiratory disease by itself. In other words, there is a need to reduce the amount of calculation of the respiratory disease diagnosis apparatus 10 and at the same time to diagnose the respiratory disease of the user more quickly and provide a pre-warning of danger.
  • the diagnosis unit 530 may be configured between the feature vector extracted by the feature extraction unit 510 and the training data based on a Gaussian Mixture Model (GMM) algorithm or a K-Nearest Neighbor (K-NN) algorithm.
  • Pattern matching may be performed to analyze a user's respiratory voice signal.
  • GMM is a technique for modeling a distribution that is difficult to express as one Gaussian distribution by utilizing multiple Gaussian distributions comprehensively.
  • the signal processing unit 500 performs pattern matching by performing Maximum Likelihood Classification based on a simple probability model such as GMM. By doing this, the amount of computation can be reduced.
  • the K-NN algorithm finds K neighbors close to the existing data when the input value is input and classifies them as the most class among the neighbor classes. Can be used to
  • LSH Local Sensitive Hashing
  • the diagnosis unit 530 may analyze a user's respiratory voice signal by applying a deep learning model learned based on training data to the feature vector extracted by the feature extractor 510. That is, the training of the deep learning model based on the training data is performed in the diagnosis server 20, and the received deep learning model is transferred from the diagnosis server 20 to the feature vector extracted by the feature extractor 510. By applying it, the user's respiratory-related voice signals can also be analyzed.
  • the diagnosis unit 530 may include a deep learning model based on a support vector machine (SVM) and a deep neural network (DNN), a deep learning model based on a long short term memory (LSTM), and a convolutional LSTM deep neural network (CLDNN). According to any one of the deep learning model according to the user may analyze the respiratory-related voice signal.
  • SVM support vector machine
  • DNN deep neural network
  • LSTM long short term memory
  • CLDNN convolutional LSTM deep neural network
  • the diagnosis unit 530 describes a process of analyzing a user's respiratory voice signal using a deep learning model based on a support vector machine (SVM) and a deep neural network (DNN) with reference to FIG. 7. ) May analyze a user's respiratory speech signal by applying a deep learning model based on a support vector machine (SVM) and a deep neural network (DNN) to a feature vector extracted by the feature extractor 510.
  • SVM support vector machine
  • DNN deep neural network
  • respiratory-related speech signals may have the form of short signals (e.g., respiratory-related speech signals corresponding to cough sounds), and in order to analyze respiratory-related speech signals in the form of short signals, SVMs and DNNs may be utilized.
  • SVMs and DNNs may be utilized.
  • the deep augmented model according to the SVM and DNN is trained by inputting the formed augmented feature vector, and then the trained SVM and By applying the deep learning model based on the DNN to the feature vector extracted by the feature extractor 510, a user's respiratory related voice signal may be analyzed.
  • the hyperplane is trained to classify the data, but since the data is often not linearly separated, a method of mapping data to another dimension by using a kernel function (eg, a polynomial function or a radial basis function) is required. Can be applied.
  • the DNN model can be designed by applying the number of class output nodes to the output layer for the DNN structure using multiple hidden layers.
  • the sigmoid function or rectifier function may be mainly used as the activation function of the layer, and the output value may be designed to be derived in the form of probability using the softmax function in the output layer.
  • the deep learning model application method according to SVM and DNN may be a suitable method for analyzing short-term respiratory disease characteristics (eg, cough characteristics).
  • the diagnosis unit 530 analyzes a user's respiratory-related voice signal using a deep learning model based on long short term memory (LSTM).
  • the deep learning model according to (Long Short Term Memory) may be applied to a feature vector extracted by the feature extractor 510 to analyze a user's respiratory voice signal.
  • the method of applying the deep learning model according to the above-described SVM and DNN is suitable for analysis of a short signal type respiratory related voice signal, such as a respiratory related voice signal corresponding to a cough sound, but when the cough occurs continuously Difficulties in processing continuous information, such as changes in intensity and the interval between coughs. Therefore, a deep learning model according to LSTM among deep learning models may be applied to process such continuous information.
  • LSTM is a type of Recurrent Neural Network (RNN) and has an input gate, forget gate, and output gate with state for each unit. The input gate determines how much the input value affects the current state, the forget gate determines how much of the current state value to maintain, and the output gate determines how much of the current state is reflected in the output. Due to the presence of these gates, if necessary, the gate is closed to maintain the previous information, enabling long-term information transfer.
  • the deep learning model application method according to LSTM can be easily applied to temporal characterization of respiratory related speech signals by efficiently processing continuous input.
  • the diagnosis unit 530 may analyze a user's respiratory-related voice signal by applying a deep learning model having a complex structure including a plurality of deep learning models to a feature vector extracted by the feature extractor 510.
  • a deep learning model of the composite structure as shown in FIG. 9, there is a convolutional LSTM deep neural network (CLDNN) in which CNN, DNN, and LSTM are applied to one model. If you apply the running model, you can get better diagnostic performance.
  • CNN convolutional LSTM deep neural network
  • the deep learning model applied by the diagnosis unit 530 to analyze the respiratory voice signal of the user may be continuously learned based on the feature vector and the training data extracted by the feature extractor 510. Such learning may be performed by the diagnostic server 20, and the diagnostic unit 530 receives the deep learning model trained by the diagnostic server 20 and extracts the feature extracted by the feature extractor 510 at the present time. Application to the vector can diagnose the respiratory disease of the user.
  • the signal processor 500 is divided into the feature extractor 510 and the diagnosis unit 530, but according to an exemplary embodiment, the signal processor 500 may be the feature extractor 510 and the diagnostic unit 530. It may also be implemented in a configuration that performs the function of).
  • the respiratory disease diagnosis apparatus 10 described above may be implemented as an acoustic signal processing block diagram illustrated in FIG. 10, that is, a central processing unit (CPU), a floating point unit (FPU), and a digital signal (DSP) for processing an acoustic signal.
  • CPU central processing unit
  • FPU floating point unit
  • DSP digital signal
  • a processor and a field programmable gate array (FPGA) may be applied to the respiratory disease diagnosis apparatus 10 of the present embodiment.
  • the signal processor 500 of the respiratory disease diagnosis apparatus 10 applies a deep learning model learned based on training data to a feature vector to analyze the respiratory related voice signal of the user to diagnose the respiratory disease of the user.
  • the respiratory disease diagnosis apparatus 10 and the diagnostic server 20 perform an operation of cooperating a respiratory disease diagnosis function of a user to optimize the calculation amount and improve respiratory disease diagnosis performance. It may be implemented as.
  • the respiratory disease diagnosis apparatus 10 is a GMM (Gaussian Mixture Model) algorithm or K-NN (K- A first basic diagnosis of a respiratory disease of a user based on a Nearest Neighbor algorithm, and the diagnosis server 20 applies a deep learning model to the second detailed diagnosis of a user's respiratory disease, or the diagnosis server 20.
  • GMM Global System for Mobile Communications
  • K-NN K- A first basic diagnosis of a respiratory disease of a user based on a Nearest Neighbor algorithm
  • the diagnosis server 20 applies a deep learning model to the second detailed diagnosis of a user's respiratory disease, or the diagnosis server 20.
  • In-depth learning about deep learning models e.g., simulations of filterbanks and learning about deep learning models
  • Various methods such as a method of updating the deep learning model of the respiratory disease diagnosis apparatus 10 may be applied.
  • the respiratory disease diagnosis apparatus 10 of the present embodiment performs a function of extracting a feature vector of the respiratory-related voice signal of the user and transmitting the extracted feature vector to the diagnosis server 20, and dips the feature vector received by the diagnosis server 20.
  • the respiratory disease diagnosis apparatus 10 After applying the running model to diagnose the respiratory disease of the user and transmits the diagnosis result to the respiratory disease diagnosis apparatus 10, the respiratory disease diagnosis apparatus 10 to be implemented as an embodiment for outputting the diagnostic results received to the user It may be.
  • the communication unit 600 may function as a communication interface for transmitting and receiving information between the respiratory disease diagnosis apparatus 10 and the diagnosis server 20, that is, an original signal (a sound signal provided by the sound recognition unit 100, or a preprocessor).
  • a communication interface for transmitting and receiving the diagnosis result and the second detailed diagnosis result of the diagnosis server 20 may function as a communication interface for transmitting and receiving notification information about other medical information and emergency situations.
  • FIG. 11 is a diagram illustrating features applied to a respiratory disease diagnosis apparatus according to the present embodiment. As shown in FIG. 11, the present embodiment recognizes only an input sound from the outside to determine a user's respiratory sound. Delayed-hop beamforming, sensor fusion, and deep learning algorithms such as Mel Filterbank, CNN, and LSTM DNN are applied to the overall process of diagnosing a user's respiratory disease, thereby more accurately diagnosing a user's respiratory disease. .
  • FIG. 12 is a flowchart illustrating a respiratory disease diagnostic method according to an embodiment of the present invention.
  • the acoustic recognizer 100 recognizes an input sound from the outside and provides a sound signal (S100).
  • the input sound from the outside is related to the user's respiratory sounds (vibrations of the lungs or mouth, such as coughing, wheeze, or sneezing, are also reflected as the frequency of the respiratory sounds), conversational voices, and other respiratory sounds other than the user. It may include all sounds, such as voice and dialogue voices, and background noise.
  • the acoustic recognition unit 100 may include a plurality of microphones for applying the delay-sum beamforming technique.
  • the trigger unit 200 diagnoses the respiratory disease based on the amplitude of the acoustic signal from the acoustic recognition unit 100 while the respiratory disease diagnosis apparatus 10 maintains the standby mode for low power.
  • Triggering the device 10 S200.
  • a triggering method a hardware method of triggering by comparing the magnitude of an acoustic signal from the acoustic recognition unit 100 with a threshold through a comparator, and wake-up mode from the sleep mode. -Up Mode) can be applied to the software method of repeating the signal level check (Signal-Level Check) by activating.
  • the preprocessor 400 determines whether the sound signal received from the sound recognition unit 100 is a respirator-related voice signal corresponding to the user's respiratory voice (S400). That is, in operation S400, the preprocessor 400 determines a user's respirator-related voice signal from a background noise signal, a conversation voice signal, and another respirator-related voice signal other than the user.
  • the preprocessor 400 may determine a user's respirator-related voice signal in consideration of the direction in which the input sound is recognized by the sound recognizer 100, and specifically, included in the sound recognizer 100.
  • a plurality of microphones may recognize a user's respirator-related voice signal by analyzing a correlation between respective sound signals that are respectively recognized and output from an external input sound.
  • the preprocessor 400 adds each sound signal having a different time delay of arrival (TDOA) characteristic because input sounds from a direction out of the reference range are respectively recognized by a plurality of microphones.
  • TDOA time delay of arrival
  • a respirator-related voice signal may be determined by using a delay-and-sum beamforming method.
  • the present embodiment may further include an operation S300 in which the motion detection unit 300 detects a motion when the user speaks.
  • the preprocessor 400 may determine the respiratory-related voice signal of the user from the respiratory-related voice signal of another person in consideration of the motion of the user's speech detected by the motion detector 300.
  • the respiratory-related voice signal of the user may be discriminated from the respiratory-related voice signal of another person by using a method of detecting a time point at which the respiratory voice is uttered from the user through the motion at the time of the user's speech.
  • the motion detection unit 300 may include an acceleration sensor for detecting the acceleration of the user's body or the vibration of the vocal organs when the user ignites, so that the preprocessor 400 is transmitted from the acceleration sensor in step S400. By determining whether the received acceleration is greater than or equal to a preset reference value, the time point at which the respirator-related voice is uttered by the user may be detected.
  • the motion detection unit 300 may include an EMG sensor for detecting the contraction or relaxation of the vocal organ muscles or an infrared sensor for irradiating infrared rays, and accordingly, in step S400, the preprocessor 400 is an EMG sensor or infrared ray. The sensor output value received from the sensor may be analyzed to detect a time point at which a respiratory voice is uttered.
  • the signal processor 500 analyzes a user's respiratory-related voice signal determined by the preprocessor 400 using training data secured in advance to diagnose a user's respiratory disease (S500).
  • the signal processor 500 extracts a feature vector from a user's respiratory voice signal and extracts the feature vector based on a Gaussian Mixture Model (GMM) algorithm or a K-Nearest Neighbor (K-NN) algorithm. Pattern matching between the extracted feature vector and the training data may be performed to analyze a user's respiratory related speech signal.
  • GMM Gaussian Mixture Model
  • K-NN K-Nearest Neighbor
  • the signal processor 500 extracts a feature vector from a voice signal related to the respirator of the user, and applies the deep learning model trained on the extracted feature vector based on training data to the user's respirator.
  • Related voice signals can also be analyzed.
  • the signal processor 500 may include a deep learning model based on a support vector machine (SVM) and a deep neural network (DNN), a deep learning model based on a long short term memory (LSTM), and a deep learning model based on a convolutional LSTM deep neural network (CLDNN). Any one of the models may be used to analyze a user's respiratory voice signal, and the deep learning model applied in operation S500 may be continuously learned based on the extracted feature vector and training data.
  • SVM support vector machine
  • DNN deep neural network
  • LSTM long short term memory
  • CLDNN convolutional LSTM deep neural network
  • the present embodiment enables early diagnosis of respiratory diseases by monitoring respiratory diseases by monitoring the respiratory diseases for the entire life cycle of the individual, thereby preventing the exacerbation of the severe symptoms in advance, and monitoring for respiratory diseases. It is possible to enable more accurate and systematic analysis of the individual's respiratory diseases by repeatedly learning the classification model for analyzing respiratory diseases using the individual's respiratory voice data acquired in the process.
  • Implementations described herein may be implemented, for example, in a method or process, apparatus, software program, data stream or signal. Although discussed only in the context of a single form of implementation (eg, discussed only as a method), implementations of the features discussed may also be implemented in other forms (eg, devices or programs).
  • the device may be implemented with suitable hardware, software, firmware, and the like.
  • the method may be implemented in an apparatus such as, for example, a processor, generally referring to a processing device including a computer, microprocessor, integrated circuit or programmable logic device, and the like.
  • the processor also includes communication devices such as computers, cell phones, portable / personal digital assistants ("PDAs”) and other devices that facilitate the communication of information between end-users.
  • PDAs personal digital assistants

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Veterinary Medicine (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Biophysics (AREA)
  • Signal Processing (AREA)
  • Physiology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Dentistry (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Power Engineering (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

본 발명은 호흡 질환 진단 장치 및 방법에 관한 것으로서, 외부로부터의 입력 음향을 인식하여 음향 신호를 제공하는 음향 인식부, 음향 인식부로부터 전달받은 음향 신호가 사용자의 호흡기 관련 음성에 해당하는 호흡기 관련 음성 신호인지 여부를 판별하는 전처리부, 및 사용자의 호흡기 질환을 진단하기 위해 미리 확보된 훈련 데이터를 이용하여 전처리부에 의해 판별된 사용자의 호흡기 관련 음성 신호를 분석하는 신호 처리부를 포함하는 것을 특징으로 한다.

Description

호흡 질환 진단 장치 및 방법
본 발명은 호흡 질환 진단 장치 및 방법에 관한 것으로서, 더욱 상세하게는 사용자로부터의 호흡기 관련 음성을 인식하여 사용자의 호흡기 질환을 진단하는 호흡 질환 진단 장치 및 방법에 관한 것이다.
생리학적인 호흡기의 구조 측면에서 호흡기 질환은 대부분 구강, 기도 또는 폐 등의 영향이 가장 크다고 할 수 있다. 특히, 호흡기 질환으로 유발되는 기침(cough)은 알레르기성 질환을 제외하고 대부분 폐와 관련된 부분이 많으며, 염증, 바이러스, 폐포의 막힘 또는 기도의 문제로 인해 발생하는 경우도 존재한다.
기간에 따른 기침의 분류를 살펴보면, 일반적으로 성인의 경우 3주 이하의 기간 동안 기침이 지속되는 경우 급성 기침(Acute)으로 분류되고, 3주 이상의 기간 동안 기침이 지속되는 경우는 아급성 기침(Subacute)으로 분류되며, 8주 이상의 기간 동안 기침이 지속되는 경우 만성 기침(Chronic)으로 분류되어, 기간에 따른 분류에 따라 진단 및 치료적 접근을 달리하고 있다.
한편, 천식은 기도의 만성 염증성 질환으로서, 천식에 따라 반복적으로 유발되는 기침 또는 쌕쌕거림(wheeze) 현상을 통해 그 징후를 파악할 수 있으며, 특정 자극이나 조건에서 악화되는 상황에 따라 보다 더 명확한 진단이 가능할 수 있다. 호흡기 또는 폐의 질환으로 인해 폐포나 기도가 좁아지는 경우 쌕쌕거림은 자주 발생하지만 그 크기가 작아질 수 있으며, 발작성 기침의 경우는 그 크기가 크고 반복적으로 발생할 수 있다. 소아 천식의 경우에는 문진이 어렵기 때문에 증상 및 징후에 대하여 보다 세밀한 관찰이 요구되며, 한 달 이상 빈번한 쌕쌕거림이 발생하거나 일상 생활에서 변화없는 쌕쌕거림이 발생하는 등의 증상을 관찰함으로써 소아 천식에 대한 판별이 가능할 수 있다.
현재, 호흡기 질환과 관련된 기침, 천식, 감기, 기관지염 및 만성 폐쇄성 폐질환(COPD: Chronic Obstructive Pulmonary Disease) 등에 대한 진단은 병원 내의 폐활량기 등의 장비를 통해서만 가능하기 때문에, 호흡기 질환에 대하여 사전적으로 진단하고 이에 따라 중증으로 악화되는 상황을 예방할 수 없는 한계를 갖는다. 따라서, 호흡기 질환에 대한 사전 진단이 가능하고 질환의 진행 정도를 분석한 결과를 사용자에게 제공함으로써 개인의 호흡기 질환을 보다 체계적으로 관리하기 위한 시스템이 요청된다.
본 발명의 배경기술은 대한민국 공개특허공보 제10-2015-0118168호(2015.10.21. 공개)에 개시되어 있다.
본 발명은 전술한 문제점을 해결하기 위해 창안된 것으로서, 본 발명의 일 측면에 따른 목적은 병원에 구비된 별도 장비를 통해서만 호흡기 질환을 진단할 수 밖에 없었던 종래의 한계를 벗어나, 개인의 일상 생활에서 호흡기 질환을 진단할 수 있는 음성 데이터를 획득하고 획득된 음성 데이터를 분석하여 사용자에게 제공함으로써, 개인의 호흡기 질환을 보다 체계적으로 관리할 수 있는 호흡 질환 진단 장치 및 방법을 제공하는 것이다.
본 발명의 일 측면에 따른 호흡 질환 진단 장치는 외부로부터의 입력 음향을 인식하여 음향 신호를 제공하는 음향 인식부, 상기 음향 인식부로부터 전달받은 음향 신호가 사용자의 호흡기 관련 음성에 해당하는 호흡기 관련 음성 신호인지 여부를 판별하는 전처리부, 및 상기 사용자의 호흡기 질환을 진단하기 위해 미리 확보된 훈련 데이터를 이용하여 상기 전처리부에 의해 판별된 상기 사용자의 호흡기 관련 음성 신호를 분석하는 신호 처리부를 포함하는 것을 특징으로 한다.
본 발명에 있어 상기 전처리부는, 상기 음향 신호에 포함된 배경 잡음 신호, 대화 음성 신호, 및 상기 사용자 이외의 타인의 호흡기 관련 음성 신호로부터 상기 사용자의 호흡기 관련 음성 신호를 판별하는 것을 특징으로 한다.
본 발명에 있어 상기 전처리부는, 상기 음향 인식부에 의해 상기 입력 음향이 인식된 방향을 고려하여 상기 사용자의 호흡기 관련 음성 신호를 판별하는 것을 특징으로 한다.
본 발명에 있어 상기 음향 인식부는, 상기 입력 음향을 각각 인식하는 복수의 마이크로폰(microphone)을 포함하고, 상기 전처리부는, 상기 복수의 마이크로폰이 상기 입력 음향을 각각 인식하여 출력하는 각 음향 신호 간의 상관관계를 분석하여 상기 사용자의 호흡기 관련 음성 신호를 판별하는 것을 특징으로 한다.
본 발명에 있어 상기 전처리부는, 기준 범위를 벗어나는 방향으로부터의 상기 입력 음향이 상기 복수의 마이크로폰에 의해 각각 인식됨으로써 도달 시간 지연(TDOA: Time Delay Of Arrival) 특성이 각각 다르게 형성되는 상기 각 음향 신호를 합산하는 지연-합 빔 형성 기법(Delay-and-Sum Beamforming Method)을 이용하여 상기 사용자의 호흡기 관련 음성 신호를 판별하는 것을 특징으로 한다.
본 발명은 상기 사용자의 발화 시의 모션을 감지하는 모션 감지부를 더 포함하고, 상기 전처리부는, 상기 모션 감지부에 의해 감지되는, 상기 사용자의 발화 시의 모션을 고려하여 상기 타인의 호흡기 관련 음성 신호로부터 상기 사용자의 호흡기 관련 음성 신호를 판별하는 것을 특징으로 한다.
본 발명에 있어 상기 전처리부는, 상기 사용자의 발화 시의 모션을 통해 상기 사용자로부터 상기 호흡기 관련 음성이 발화된 시점을 검출하는 방식을 이용하여 상기 타인의 호흡기 관련 음성 신호로부터 상기 사용자의 호흡기 관련 음성 신호를 판별하는 것을 특징으로 한다.
본 발명은 상기 호흡 질환 진단 장치가 저전력을 위한 대기 모드(stand-by mode)를 유지하는 상태에서 상기 음향 인식부로부터의 음향 신호의 크기에 기초하여 상기 호흡 질환 진단 장치를 트리거링(triggering)하는 트리거부를 더 포함하는 것을 특징으로 한다.
본 발명에 있어 상기 신호 처리부는, 상기 사용자의 호흡기 관련 음성 신호로부터 특징 벡터(Feature Vector)를 추출하고, GMM(Gaussian Mixture Model) 알고리즘 또는 K-NN(K-Nearest Neighbor) 알고리즘을 기반으로 상기 추출된 특징 벡터 및 상기 훈련 데이터 간의 패턴 매칭을 수행하여 상기 사용자의 호흡기 관련 음성 신호를 분석하는 것을 특징으로 한다.
본 발명에 있어 상기 신호 처리부는, 상기 사용자의 호흡기 관련 음성 신호로부터 특징 벡터(Feature Vector)를 추출하고, 상기 추출된 특징 벡터에 상기 훈련 데이터를 기반으로 학습된 딥 러닝 모델을 적용하여 상기 사용자의 호흡기 관련 음성 신호를 분석하는 것을 특징으로 한다.
본 발명에 있어 상기 신호 처리부는, SVM(Support Vector Machine) 및 DNN(Deep Neural Network)에 따른 딥 러닝 모델, LSTM(Long Short Term Memory)에 따른 딥 러닝 모델, CLDNN(Convolutional LSTM Deep Neural Network)에 따른 딥 러닝 모델 중 어느 하나를 이용하여 상기 사용자의 호흡기 관련 음성 신호를 분석하는 것을 특징으로 한다.
본 발명에 있어 상기 딥 러닝 모델은, 상기 추출된 특징 벡터 및 상기 훈련 데이터를 기반으로 지속적으로 학습되는 것을 특징으로 한다.
본 발명에 있어 상기 호흡기 질환은, 기침, 감기, 천식, 기관지염 및 만성 폐쇄성 폐질환(COPD: Chronic Obstructive Pulmonary Disease)중 하나 이상을 포함하는 것을 특징으로 한다.
본 발명의 일 측면에 따른 호흡 질환 진단 방법은 음향 인식부가, 외부로부터의 입력 음향을 인식하여 음향 신호를 제공하는 단계, 전처리부가, 상기 음향 인식부로부터 전달받은 음향 신호가 사용자의 호흡기 관련 음성에 해당하는 호흡기 관련 음성 신호인지 여부를 판별하는 단계, 및 신호 처리부가, 상기 사용자의 호흡기 질환을 진단하기 위해 미리 확보된 훈련 데이터를 이용하여 상기 전처리부에 의해 판별된 상기 사용자의 호흡기 관련 음성 신호를 분석하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 일 측면에 따르면, 본 발명은 개인의 라이프 사이클 전 주기에 대하여 호흡기 질환을 모니터링하여 호흡기 질환을 분석함으로써 호흡기 질환의 조기 진단이 가능하여 그에 따라 중증으로의 악화를 사전에 예방할 수 있으며, 호흡기 질환에 대한 모니터링 과정에서 획득되는 개인의 호흡기 관련 음성 데이터를 이용하여 호흡기 질환을 분석하기 위한 분류 모델을 반복적으로 학습해가는 과정을 통해 개인의 호흡기 질환에 대한 보다 정확하고 체계적인 분석이 가능하도록 할 수 있다.
도 1은 본 발명의 일 실시예에 따른 호흡 질환 진단 장치의 전체 동작을 개괄적으로 설명하기 위한 예시도이다.
도 2는 본 발명의 일 실시예에 따른 호흡 질환 진단 장치를 설명하기 위한 블록구성도이다.
도 3은 본 발명의 일 실시예에 따른 호흡 질환 진단 장치에서 훈련 데이터를 설명하기 위한 예시도이다.
도 4는 본 발명의 일 실시예에 따른 호흡 질환 진단 장치에서 지연-합 빔 형성 기법을 나타낸 예시도이다.
도 5는 본 발명의 일 실시예에 따른 호흡 질환 진단 장치에서 센서 퓨전 기법을 나타낸 예시도이다.
도 6은 본 발명의 일 실시예에 따른 호흡 질환 진단 장치에서 신호 처리부가 호흡기 관련 음성 신호로부터 특징 벡터를 추출하는 과정을 도시한 블록도이다.
도 7 내지 도 9는 본 발명의 일 실시예에 따른 호흡 질환 진단 장치에서 신호 처리부가 사용자의 호흡기 관련 음성 신호를 분석하기 위해 적용하는 딥 러닝 모델을 도시한 예시도이다.
도 10은 본 발명의 일 실시예에 따른 호흡 질환 진단 장치가 구현될 수 있는 음향 신호 처리 블록도를 도시한 예시도이다.
도 11은 본 발명의 일 실시예에 따른 호흡 질환 진단 장치에 적용되는 특징을 도식화한 예시도이다.
도 12는 본 발명의 일 실시예에 따른 호흡 질환 진단 방법을 설명하기 위한 흐름도이다.
이하, 첨부된 도면들을 참조하여 본 발명에 따른 호흡 질환 진단 장치 및 방법의 실시예를 설명한다. 이 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 호흡 질환 진단 장치의 전체 동작을 개괄적으로 설명하기 위한 예시도이고, 도 2는 본 발명의 일 실시예에 따른 호흡 질환 진단 장치를 설명하기 위한 블록구성도이며, 도 3은 본 발명의 일 실시예에 따른 호흡 질환 진단 장치에서 훈련 데이터를 설명하기 위한 예시도이고, 도 4는 본 발명의 일 실시예에 따른 호흡 질환 진단 장치에서 지연-합 빔 형성 기법을 나타낸 예시도이며, 도 5는 본 발명의 일 실시예에 따른 호흡 질환 진단 장치에서 센서 퓨전 기법을 나타낸 예시도이고, 도 6은 본 발명의 일 실시예에 따른 호흡 질환 진단 장치에서 신호 처리부가 호흡기 관련 음성 신호로부터 특징 벡터를 추출하는 과정을 도시한 블록도이며, 도 7 내지 도 9는 본 발명의 일 실시예에 따른 호흡 질환 진단 장치에서 신호 처리부가 사용자의 호흡기 관련 음성 신호를 분석하기 위해 적용하는 딥 러닝 모델을 도시한 예시도이고, 도 10은 본 발명의 일 실시예에 따른 호흡 질환 진단 장치가 구현될 수 있는 음향 신호 처리 블록도를 도시한 예시도이며, 도 11은 본 발명의 일 실시예에 따른 호흡 질환 진단 장치에 적용되는 특징을 도식화한 예시도이다.
본 실시예의 호흡 질환 진단 장치(10)는 사용자가 소지한 상태로 생활하며 사용자로부터 호흡기 관련 음성을 인식하여 사용자의 호흡기 질환을 진단하는 포터블(portable) 단말기의 형태로 구현될 수 있으며, 예를 들어 펜던트 타입(pendent type) 또는 헤드셋 타입(headset type)의 웨어러블(wearable) 단말기 형태로 구현될 수 있다. 이러한 구현예를 기반으로 본 실시예의 호흡 질환 진단 장치(10)는 도 1에 도시된 것과 같이 외부로부터의 입력 음향을 인식하고(Input Signal) 사용자의 호흡기 관련 음성 신호를 판별하여(Pre-Processing) 특징 벡터를 추출한 후(Feature Extraction), 딥 러닝 모델을 적용하여(Training Data, Deep Learning Model) 사용자의 호흡기 질환을 진단할 수 있으며(Classification), 그 진단 결과는 수집 및 관리되어 사용자의 호흡기 질환의 치료에 사용될 수 있다(Collect Cough Stats).
한편, 본 실시예에서 호흡기 질환이라 함은 기침, 감기, 천식, 기관지염 및 만성 폐쇄성 폐질환(COPD: Chronic Obstructive Pulmonary Disease) 중 하나 이상을 포함하는 의미로 설명하지만 이에 한정되지 않으며, 폐렴 또는 폐결핵 등과 같은 모든 호흡기 질환을 포함할 수 있다.
이하에서는 본 실시예의 호흡 질환 진단 장치(10)의 동작을 그 하위 구성으로서 구체적으로 설명한다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 호흡 질환 진단 장치(10)는 음향 인식부(100), 트리거부(200), 모션 감지부(300), 전처리부(400) 및 신호 처리부(500)를 포함할 수 있다.
음향 인식부(100)는 외부로부터의 입력 음향을 인식하여 음향 신호를 후술할 전처리부(400)로 제공할 수 있다. 외부로부터의 입력 음향은 사용자의 호흡기 관련 음성(기침 또는 쌕쌕거림(wheeze)과 같은 호흡기 질환 음성 또는 재채기 등을 포함하며, 폐 또는 구강 등의 진동도 호흡기 관련 음성의 주파수로서 반영된다)과 대화 음성, 사용자 이외의 타인의 호흡기 관련 음성과 대화 음성, 및 배경 잡음 등의 모든 음향을 포함할 수 있다.
음향 인식부(100)는 외부로부터의 입력 음향을 인식하기 위해 마이크로폰(microphone)을 포함할 수 있으며, 본 실시예에서 포터블 단말기 형태로 구현될 수 있는 호흡 질환 진단 장치(10)에의 적용을 용이하게 하고 감도 및 방수 성능을 향상시키기 위해 음향 인식부(100)는 MEMS(Micro Electro Mechanical Systems) 마이크로폰을 포함하도록 구현될 수 있다. 또한, 음향 인식부(100)는 지연-합 빔 형성 기법 적용을 위해 복수의 마이크로폰을 포함할 수도 있으며, 이에 대한 구체적인 설명은 후술한다.
전처리부(400)는 음향 인식부(100)로부터 전달받은 음향 신호가 사용자의 호흡기 관련 음성에 해당하는 호흡기 관련 음성 신호인지 여부를 판별할 수 있다.
즉, 음향 인식부(100)로부터 전달받은 음향 신호는 사용자의 호흡기 관련 음성뿐만 아니라 사용자의 대화 음성, 사용자 이외의 타인의 호흡기 관련 음성과 대화 음성, 및 배경 잡음 등을 포함하는 입력 음향에 대한 음향 신호이므로, 사용자의 호흡기 질환 진단을 위해서는 음향 인식부(100)로부터의 음향 신호 중 사용자의 호흡기 관련 음성에 해당하는 호흡기 관련 음성 신호만을 판별한 후, 판별된 호흡기 관련 음성 신호만을 이용하여 사용자의 호흡기 질환을 진단할 필요성이 있다.
이를 위해, 전처리부(400)는 음향 인식부(100)로부터의 음향 신호에 포함된 배경 잡음 신호, 대화 음향 신호, 및 사용자 이외의 타인의 호흡기 관련 음성 신호로부터 사용자의 호흡기 관련 음성 신호만을 판별할 수 있다.
한편, 전처리부(400)는 음향 신호에 포함된 배경 잡음 신호 및 대화 음향 신호로부터 호흡기 관련 음성 신호를 판별하는 제1 전처리부(예: 잡음 필터링부), 및 음향 신호에 포함된 타인의 호흡기 관련 음성 신호로부터 사용자의 호흡기 관련 음향 신호를 판별하는 제2 전처리부(예: 화자 인식부)로 구분되어 구현될 수도 있다(즉, 전치리부는 제1 및 제2 전처리부를 포함하도록 구현될 수도 있다).
제1 전처리부는 음향 인식부(100)로부터의 음향 신호의 캡스트럼 또는 스펙트럼을 분석하는 방법(주파수 및 신호 세기 분석), 후술할 진단 서버(20)로부터 전달받는 딥 러닝 모델을 이용하는 방법, 또는 후술하는 것과 같이 음향 인식부(100)에 의해 입력 음향이 인식된 방향을 고려하는 방법(지연-합 빔 형성 기법: Delay-and-Sum Beamforming Method) 등을 통해 음향 신호에 포함된 배경 잡음 신호 및 대화 음성 신호로부터 호흡기 관련 음성 신호를 판별할 수 있다.
또한, 제2 전처리부는 미리 확보되어 있는 사용자의 호흡기 관련 음성 신호 샘플 데이터와 비교하는 방법, 진단 서버(20)로부터 전달받는 딥 러닝 모델을 이용하는 방법, 음향 인식부(100)에 의해 입력 음향이 인식된 방향을 고려하는 방법, 또는 후술할 모션 감지부(300)를 통한 센서 퓨전 기법을 이용하는 방법 등을 통해 음향 신호에 포함된 타인의 호흡기 관련 음성 신호로부터 사용자의 호흡기 관련 음성 신호를 판별할 수 있다.
위에서 언급한 것과 같이, 전처리부(400)는 음향 인식부(100)에 의해 입력 음향이 인식된 방향을 고려하여 사용자의 호흡기 관련 음성 신호를 판별할 수 있다.
이를 위해, 음향 인식부(100)는 외부로부터의 입력 음향을 각각 인식하는 복수의 마이크로폰을 포함할 수 있다. 이에 따라, 전처리부(400)는 복수의 마이크로폰이 입력 음향을 각각 인식하여 출력하는 각 음향 신호 간의 상관관계를 분석하여 사용자의 호흡기 관련 음성 신호를 판별할 수 있으며, 구체적으로는 기준 범위를 벗어나는 방향으로부터의 입력 음향이 복수의 마이크로폰에 의해 각각 인식됨으로써 도달 시간 지연(TDOA: Time Delay Of Arrival) 특성이 각각 다르게 형성되는 각 음향 신호를 합산하는 지연-합 빔 형성 기법(Delay-and-Sum Beamforming Method)을 이용하여 사용자의 호흡기 관련 음성 신호를 판별할 수 있다.
도 4를 참조하여 구체적으로 설명하면, 본 실시예의 호흡 질환 진단 장치(10)는 사용자의 신체에 부착되는 형태로 구현될 수 있어 사용자와의 방향이 어느 정도 고정된 상황이라고 볼 수 있다. 즉, 호흡 질환 진단 장치(10)(의 음향 인식부(100))와 사용자(의 입) 간의 방향으로부터 소정의 허용 범위 이내의 범위를 기준 범위라 한다면(예: 마이크로폰과 사용자의 입을 연결하는 직선으로부터 소정의 허용 각도 이내의 범위), 도 4에 도시된 것과 같이 사용자 이외의 타인의 호흡기 관련 음성과 대화 음성, 및 배경 잡음은 기준 범위를 벗어나는 방향으로부터 복수의 마이크로폰에 의해 각각 인식되게 되어 각 마이크로폰으로의 도달 시간 차이가 발생하고, 이에 따른 도달 시간 지연 특성은 각 마이크로폰이 출력하는 각 음향 신호에 각각 다르게 형성되므로, 전처리부(400)는 각 마이크로폰이 출력하는 각 음향 신호를 합산하여 그 크기가 설정치 이상이면 해당 음향 신호는 기준 범위 이내에서 사용자로부터 발화된 음성에 해당하는 것으로 판단할 수 있다. 호흡 질환 진단 장치(10)와 사용자가 움직이는 경우, 움직임에 적응하기 위해 능동 빔 형성 기법(Adaptive Beamforming Method)이 사용될 수도 있으며, 능동 빔 형성 기법 적용 시에는 각 마이크로폰에 적용된 필터를 목적함수에 맞게 조절하여 원하는 음향 신호를 수집하도록 할 수 있다.
한편, 본 실시예는 도 2에 도시된 것과 같이 사용자의 발화 시의 모션을 감지하는 모션 감지부(300)를 더 포함할 수 있으며, 이에 따라 전처리부(400)는 모션 감지부(300)에 의해 감지되는, 사용자의 발화 시의 모션을 고려하여 타인의 호흡기 관련 음성 신호로부터 사용자의 호흡기 관련 음성 신호를 판별할 수 있다. 여기서, 사용자의 발화 시의 모션은, 사용자의 발화 시 발성 기관의 진동 또는 신체의 움직임을 포함하는 것으로 정의한다.
즉, 사용자가 기침과 같은 호흡기 관련 음성을 발화하는 경우 사용자의 모션은 대화 음성을 발화하는 경우 대비 상이한 특성을 갖게 되므로, 전처리부(400)는 사용자의 발화 시의 모션을 통해 사용자로부터 호흡기 관련 음성이 발화된 시점을 검출하는 방식을 이용하여 사용자의 호흡기 관련 음성 신호를 판별할 수 있다.
이를 위해, 모션 감지부(300)는 사용자의 발화 시 사용자의 신체의 가속도 또는 발성 기관의 진동을 감지하는 가속도 센서를 포함할 수 있으며, 이에 따라 전처리부(400)는 가속도 센서로부터 전달받은 가속도가 미리 설정된 기준값 이상인지 여부를 판단하여 사용자로부터 호흡기 관련 음성이 발화된 시점을 검출할 수 있다. 또한, 모션 감지부(300)는 발성 기관 근육의 수축 또는 이완 정도를 감지하는 근전도 센서 또는 적외선을 조사하는 적외선 센서를 포함할 수도 있으며, 이에 따라 전처리부(400)는 근전도 센서 또는 적외선 센서로부터 전달받은 센서 출력값을 분석하여 호흡기 관련 음성이 발화된 시점을 검출할 수도 있다.
이때, 음향 인식부(100)로부터의 음향 신호와 함께 모션 감지부(300)로부터의 모션 정보를 종합적으로 고려하는 센서 퓨전(Sensor Fusion) 기법을 적용하면 보다 정확하게 사용자의 호흡기 관련 음성 신호를 판별할 수 있다. 센서 퓨전 기법으로는 도 5에 도시된 것과 같이 신호 레벨 또는 피처(feature) 레벨 단계와 같은 저레벨 단계에서 음향 신호와 모션 정보를 종합하는 Early Fusion 기법, 또는 음향 신호와 모션 정보로부터 모델을 훈련하고 훈련된 모델을 통해 출력된 결과 레벨에서 음향 신호와 모션 정보를 종합하는 Late Fusion 기법이 채용될 수 있다.
한편, 본 실시예는 도 2에 도시된 것과 같이 트리거부(200)를 더 포함할 수 있다. 트리거부(200)는 호흡 질환 진단 장치(10)가 저전력을 위한 대기 모드(stand-by mode)를 유지하는 상태에서 음향 인식부(100)로부터의 음향 신호의 크기에 기초하여 호흡 질환 진단 장치(10)를 트리거링(triggering)할 수 있다.
전술한 것과 같이 본 실시예의 호흡 질환 진단 장치(10)는 포터블 단말기 형태로 구현될 수 있어 저전력 스펙을 확보할 필요성이 있으며, 따라서 초기 설정 상태(default state)는 저전력을 위한 대기 모드(stand-by mode)로 유지되도록 설계될 수 있다. 대기 모드 상태에서 설정치 이상의 크기를 갖는 음향 신호가 음향 인식부(100)로부터 입력되면 호흡 질환 진단 장치(10)가 트리거부(200)에 의해 트리거링되는 구성을 통해 저전력 스펙을 확보할 수 있다.
트리거링 방법으로는 하드웨어적으로 음향 인식부(100)로부터의 음향 신호의 크기를 비교기(comparator)를 통해 설정치(threshold)와 비교하여 트리거링하는 방법이 적용될 수 있다. 또한, 소프트웨어적으로 슬립 모드(Sleep Mode)를 웨이크-업 모드(Wake-Up Mode)로 활성화하여 신호 레벨 체크를(Signal-Level Check) 반복 수행하는 트리거링 방법이 적용될 수 있으며, 웨이크-업 주기를 10Hz 내지 30Hz의 범위로 설정하고 신호 레벨 체크를 수행하는 경우 보다 좋은 저전력 스펙의 확보가 가능할 수 있다.
신호 처리부(500)는 도 2에 도시된 것과 같이 특징 추출부(510) 및 진단부(530)를 포함함으로써, 사용자의 호흡기 질환을 진단하기 위해 미리 확보된 훈련 데이터를 이용하여 전처리부(400)에 의해 판별된 사용자의 호흡기 관련 음성 신호를 분석할 수 있다. 여기서, 훈련 데이터는 도 3에 도시된 것과 같이 성별, 연령 및 질환 종류에 따른 음향 신호 패턴을 갖도록 레이블링되어 미리 확보된 데이터를 의미한다. 훈련 데이터는 병원 내의 다양한 성별, 연령 및 질환 종류를 갖는 호흡기 질환 환자로부터 획득된 호흡기 관련 음성 신호로부터 확보될 수 있으며, 신호 처리부(500)는 이러한 훈련 데이터를 이용하여 사용자의 호흡기 관련 음성 신호를 분석함으로써 사용자의 호흡기 질환을 진단할 수 있다.
훈련 데이터를 이용하여 사용자의 호홉기 관련 음성 신호를 분석하기 위한 전제로서, 먼저 신호 처리부(500)의 특징 추출부(510)는 사용자의 호흡기 관련 음성 신호로부터 특징 벡터(Feature Vector)를 추출할 수 있다. 특징 벡터로는 음성 인식 분야에서 활용되는 MFCC(Mel-Frequency Cepstral Coefficient)가 채용될 수 있다. 도 6을 참조하여 개괄적으로 설명하면, 특징 추출부(510)는 전처리부(400)로부터 전달받은, 사용자의 호흡기 관련 음성 신호에 푸리에 변환(Fourier Transform)을 적용하여 주파수 도메인(Frequency Domain)으로 변환한 후, 주파수 도메인으로 변환된 호흡기 관련 음성 신호를 Mel-Scale Spectrum으로 변환한다. 변환된 Mel-Scale Spectrum에 로그(log)를 취한 후 DCT(Discrete Cosine Transform)를 적용하면 MFCC가 계산될 수 있다. 일반적인 경우와 같이 MFCC의 1차 미분값 및 2차 미분값을 추가적인 정보로 활용할 수도 있다. MFCC 이외에도 특징 벡터를 추출하는 알고리즘으로서 Pitch, LPC(Linear Predictive Coding), PLDA(Probabilistic Linear Discriminate Analysis) 또는 i-vector 등이 채용될 수도 있다.
특징 벡터가 추출된 후, 신호 처리부(500)의 진단부(530)는 GMM(Gaussian Mixture Model) 알고리즘 또는 K-NN(K-Nearest Neighbor) 알고리즘을 기반으로, 특징 추출부(510)에 의해 추출된 특징 벡터 및 훈련 데이터 간의 패턴 매칭을 수행하여 사용자의 호흡기 관련 음성 신호를 분석할 수 있다.
즉, 전술한 것과 같이 본 실시예의 호흡 질환 진단 장치(10)는 사용자의 호흡기 질환을 진단하는 포터블(portable) 단말기로 구현될 수 있으며, 따라서 별도의 외부 서버(즉, 진단 서버(20)) 대비 그 연산 성능의 제한이 존재함과 동시에, 사용자의 호흡기 질환을 자체적으로 진단하여 위험에 대한 사전 경고(pre-alarm)를 사용자에게 제공할 필요성이 존재한다. 즉, 호흡 질환 진단 장치(10)의 연산량을 감소시키는 동시에 보다 신속하게 사용자의 호흡기 질환을 진단하여 위험에 대한 사전 경고를 제공할 필요성이 존재한다.
이를 위해, 진단부(530)는 보다 연산량이 적은 GMM(Gaussian Mixture Model) 알고리즘 또는 K-NN(K-Nearest Neighbor) 알고리즘을 기반으로 특징 추출부(510)에 의해 추출된 특징 벡터 및 훈련 데이터 간의 패턴 매칭을 수행하여 사용자의 호흡기 관련 음성 신호를 분석할 수 있다. GMM은 여러 개의 Gaussian 분포를 종합적으로 활용하여 하나의 Gaussian 분포로 표현하기 힘든 분포를 모델링하는 기법으로서, 신호 처리부(500)는 GMM과 같은 간단한 확률 모델을 기반으로 Maximum Likelihood Classification을 수행하여 패턴 매칭을 수행함으로써 연산량을 감소시킬 수 있다. 또한, K-NN 알고리즘은 입력값이 들어오면 기존 데이터와 가까운 K개의 neighbor를 찾고 neighbor의 클래스 중 가장 많은 클래스로 분류하는 알고리즘으로서, 기존 데이터가 많을수록 연산량이 증가하지만 데이터가 적은 환경에서는 연산량을 저감시키기 위해 활용될 수 있다. 또한, K-NN 알고리즘 적용 시 neighbor를 찾을 때 LSH(Locally Sensitive Hashing)를 활용하는 방법을 통해 연산량을 더욱 저감시킬 수도 있다.
한편, 진단부(530)는 특징 추출부(510)에 의해 추출된 특징 벡터에, 훈련 데이터를 기반으로 학습된 딥 러닝 모델을 적용하여 사용자의 호흡기 관련 음성 신호를 분석할 수도 있다. 즉, 훈련 데이터를 기반으로 하는 딥 러닝 모델의 학습은 진단 서버(20)에서 수행하고, 학습된 딥 러닝 모델을 진단 서버(20)로부터 전달받아 특징 추출부(510)에 의해 추출된 특징 벡터에 적용함으로써 사용자의 호흡기 관련 음성 신호를 분석할 수도 있다.
이때, 진단부(530)는, SVM(Support Vector Machine) 및 DNN(Deep Neural Network)에 따른 딥 러닝 모델, LSTM(Long Short Term Memory)에 따른 딥 러닝 모델, CLDNN(Convolutional LSTM Deep Neural Network)에 따른 딥 러닝 모델 중 어느 하나를 이용하여 사용자의 호흡기 관련 음성 신호를 분석할 수 있다.
진단부(530)가 SVM(Support Vector Machine) 및 DNN(Deep Neural Network)에 따른 딥 러닝 모델을 이용하여 사용자의 호흡기 관련 음성 신호를 분석하는 과정을 도 7을 참조하여 설명하면, 진단부(530)는 SVM(Support Vector Machine) 및 DNN(Deep Neural Network)에 따른 딥 러닝 모델을 특징 추출부(510)에 의해 추출된 특징 벡터에 적용하여 사용자의 호흡기 관련 음성 신호를 분석할 수 있다.
구체적으로, 호흡기 관련 음성 신호는 짧은 신호의 형태를 가질 수 있으며(예: 기침 소리에 해당하는 호흡기 관련 음성 신호), 이러한 짧은 신호 형태의 호흡기 관련 음성 신호를 분석하기 위해, SVM 및 DNN을 활용하여 각각의 프레임으로부터 추출된 특징 벡터를 일정 범위로 연결하여 증가된(augmented) 특징 벡터를 형성하고, 형성된 augmented 특징 벡터를 입력으로 하여 SVM 및 DNN에 따른 딥 러닝 모델을 훈련시킨 후, 훈련된 SVM 및 DNN에 따른 딥 러닝 모델을 특징 추출부(510)에 의해 추출된 특징 벡터에 적용함으로써 사용자의 호흡기 관련 음성 신호를 분석할 수 있다. 이때, SVM의 경우 데이터들을 구분하기 위한 hyperplane을 훈련하되, 데이터가 선형 분리가 되지 않는 경우가 많으므로 커널 함수(예:polynomial function, radial basis function)를 활용해 다른 차원으로 데이터를 매핑하는 방법이 적용될 수 있다. 또한, DNN을 활용하는 구성과 관련하여, 여러층의 hidden layer를 활용한 DNN 구조에 대하여 output layer에는 분류하고자 하는 class 개수만큼의 output node를 인가하는 방식을 통해 DNN 모델이 설계될 수 있으며, Hidden layer의 activation function으로는 주로 sigmoid function 또는 rectifier function이 사용될 수 있고, output layer에서는 softmax function을 사용하여 출력값이 확률의 형태로 도출되도록 설계될 수 있다. SVM 및 DNN에 따른 딥 러닝 모델 적용 방법은 단기적인 호흡 질환 특성(예: 기침 특성) 분석에 적합한 방법이 될 수 있다.
다음으로, 진단부(530)가 LSTM(Long Short Term Memory)에 따른 딥 러닝 모델을 이용하여 사용자의 호흡기 관련 음성 신호를 분석하는 과정을 도 8을 참조하여 설명하면, 진단부(530)는 LSTM(Long Short Term Memory)에 따른 딥 러닝 모델을 특징 추출부(510)에 의해 추출된 특징 벡터에 적용하여 사용자의 호흡기 관련 음성 신호를 분석할 수 있다.
구체적으로, 전술한 SVM 및 DNN에 따른 딥 러닝 모델 적용 방법은 기침 소리에 해당하는 호흡기 관련 음성 신호와 같이 짧은 신호 형태의 호흡기 관련 음성 신호에 대한 분석에 적합하지만, 기침이 연속적으로 발생하는 경우 기침의 세기 변화 및 기침 간의 간격 등 연속적인 정보를 처리하는데 어려움이 있다. 따라서, 이러한 연속적인 정보의 처리를 위해서 딥 러닝 모델 중 LSTM에 따른 딥 러닝 모델이 적용될 수 있다. LSTM은 RNN(Recurrent Neural Network)의 한 종류로서 각각의 유닛별로 state를 가지고 input gate, forget gate, output gate가 존재한다. input gate는 입력값이 얼마나 현재 state에 영향을 주는지 결정하고, forget gate는 현재 state 값을 어느 정도 유지할지를 결정하며, output gate는 현재 state를 얼마나 출력에 반영할지를 결정한다. 이러한 gate의 존재로 인해 필요하다면 gate가 닫혀 이전 정보값을 지속적으로 유지하여 장기적인 정보 전달이 가능한 구조이다. LSTM에 따른 딥 러닝 모델 적용 방법은 연속적인 입력을 효율적으로 처리하여 호흡기 관련 음성 신호의 시간적 특성 분석에 용이하게 적용될 수 있다.
나아가, 진단부(530)는 복수의 딥 러닝 모델이 복합된 복합 구조의 딥 러닝 모델을 특징 추출부(510)에 의해 추출된 특징 벡터에 적용하여 사용자의 호흡기 관련 음성 신호를 분석할 수도 있다. 복합 구조의 딥 러닝 모델로는 도 9에 도시된 것과 같이 CNN, DNN, LSTM을 하나의 모델에 모두 적용한 CLDNN(Convolutional LSTM Deep Neural Network)이 있으며, 복합 구조의 딥 러닝 모델을 적용함으로써 단일의 딥 러닝 모델을 적용하는 경우 대비 보다 나은 진단 성능을 확보할 수 있다.
한편, 진단부(530)가 사용자의 호흡기 관련 음성 신호를 분석하기 위해 적용하는 딥 러닝 모델은 특징 추출부(510)에 의해 추출된 특징 벡터 및 훈련 데이터를 기반으로 지속적으로 학습될 수 있다. 이러한 학습은 진단 서버(20)에 의해 수행될 수 있으며, 진단부(530)는 진단 서버(20)에 의해 학습된 딥 러닝 모델을 전달받아 현재 시점에서 특징 추출부(510)에 의해 추출된 특징 벡터에 적용함으로써 사용자의 호흡기 질환을 진단할 수 있다.
위에서는 신호 처리부(500)가 특징 추출부(510) 및 진단부(530)로 분리된 구성으로 설명하였으나, 실시예에 따라서는 신호 처리부(500)가 특징 추출부(510) 및 진단부(530)의 기능을 통합적으로 수행하는 구성으로 구현될 수도 있다.
이상에서 설명한 호흡 질환 진단 장치(10)는 도 10에 도시된 음향 신호 처리 블록도로 구현될 수 있으며, 즉 음향 신호 처리를 위한 CPU(Central Processing Unit), FPU(Floating Point Unit), DSP(Digital Signal Processor) 및 FPGA(Field Programmable Gate Array) 등이 본 실시예의 호흡 질환 진단 장치(10)에 적용될 수 있다.
한편, 위에서는 호흡 질환 진단 장치(10)의 신호 처리부(500)가 훈련 데이터를 기반으로 학습된 딥 러닝 모델을 특징 벡터에 적용하여 사용자의 호흡기 관련 음성 신호를 분석함으로써 사용자의 호흡기 질환을 진단하는 구성으로 설명하였으나, 실시예에 따라서는 호흡 질환 진단 장치(10)와 진단 서버(20)가 사용자의 호흡기 질환 진단 기능을 상호 연계하여 수행함으로써 그 연산량을 최적화시키고 호흡기 질환 진단 성능을 향상시키는 실시예로 구현될 수도 있다. 호흡 질환 진단 장치(10)와 진단 서버(20)가 호흡기 질환 진단 기능을 상호 연계하여 수행하는 방식으로는, 호흡 질환 진단 장치(10)가 GMM(Gaussian Mixture Model) 알고리즘 또는 K-NN(K-Nearest Neighbor) 알고리즘을 기반으로 사용자의 호흡기 질환을 1차 기본 진단하고, 진단 서버(20)가 전술한 딥 러닝 모델을 적용하여 사용자의 호흡기 질환을 2차 상세 진단하는 방식, 또는 진단 서버(20)에서 딥 러닝 모델에 대한 깊이 있는 학습(예: 필터뱅크의 시뮬레이션 및 딥 러닝 모델에 대한 학습 수행)을 통해 딥 러닝 모델에 적용되는 파라미터 및 가중치(weight factor)를 계산하고 호흡 질환 진단 장치(10)로 전송하여 호흡 질환 진단 장치(10)의 딥 러닝 모델이 갱신되는 방식 등 다양한 방식이 적용될 수 있다. 또한, 본 실시예의 호흡 질환 진단 장치(10)가 사용자의 호흡기 관련 음성 신호의 특징 벡터를 추출하여 진단 서버(20)로 전송하는 기능을 수행하고, 진단 서버(20)가 수신한 특징 벡터에 딥 러닝 모델을 적용하여 사용자의 호흡기 질환을 진단하여 그 진단 결과를 호흡 질환 진단 장치(10)로 전송한 후, 호흡 질환 진단 장치(10)가 수신한 진단 결과를 사용자에게 출력하는 실시예로 구현될 수도 있다.
통신부(600)는 호흡 질환 진단 장치(10) 및 진단 서버(20) 간의 정보 송수신을 위한 통신 인터페이스로 기능할 수 있으며, 즉 원신호(음향 인식부(100)가 제공하는 음향 신호, 또는 전처리부(400)에 의해 판별된 호흡기 관련 음성 신호)의 송수신을 위한 통신 인터페이스, 딥 러닝 모델의 파라미터 및 가중치의 송수신을 위한 통신 인터페이스, 사용자의 호흡기 질환에 대한 호흡 질환 진단 장치(10)의 1차 기본 진단 결과와 진단 서버(20)의 2차 상세 진단 결과의 송수신을 위한 통신 인터페이스, 기타 의료 정보 및 응급 상황에 대한 알림 정보 송수신을 위한 통신 인터페이스로 기능할 수 있다.
도 11은 본 실시예에 따른 호흡 질환 진단 장치에 적용되는 특징을 도식화한 예시도로서, 도 11에 도시된 것과 같이 본 실시예는 외부로부터의 입력 음향을 인식하여 사용자의 호흡기 관련 음성만을 판별하고 사용자의 호흡기 질환을 진단하는 전체적인 프로세스 상에서 지연-합 빔 형성 기법, 센서 퓨전 기법, Mel Filterbank, CNN 및 LSTM DNN 등의 딥 러닝 알고리즘 등이 적용됨으로써, 사용자의 호흡기 질환을 보다 정밀하게 진단할 수 있다.
도 12는 본 발명의 일 실시예에 따른 호흡 질환 진단 방법을 설명하기 위한 흐름도이다.
도 12를 참조하여 본 발명의 일 실시예에 따른 호흡 질환 진단 방법을 설명하면, 먼저 음향 인식부(100)는 외부로부터의 입력 음향을 인식하여 음향 신호를 제공한다(S100). 외부로부터의 입력 음향은 사용자의 호흡기 관련 음성(기침, 쌕쌕거림(wheeze) 또는 재채기 등, 폐 또는 구강 등의 진동도 호흡기 관련 음성의 주파수로서 반영된다)과 대화 음성, 사용자 이외의 타인의 호흡기 관련 음성과 대화 음성, 및 배경 잡음 등의 모든 음향을 포함할 수 있다. 또한, 음향 인식부(100)는 지연-합 빔 형성 기법 적용을 위해 복수의 마이크로폰을 포함할 수도 있다.
이어서, 트리거부(200)는 호흡 질환 진단 장치(10)가 저전력을 위한 대기 모드(stand-by mode)를 유지하는 상태에서 음향 인식부(100)로부터의 음향 신호의 크기에 기초하여 호흡 질환 진단 장치(10)를 트리거링(triggering)한다(S200). 트리거링 방법으로는 음향 인식부(100)로부터의 음향 신호의 크기를 비교기(comparator)를 통해 설정치(threshold)와 비교하여 트리거링하는 하드웨어적인 방법과, 슬립 모드(Sleep Mode)를 웨이크-업 모드(Wake-Up Mode)로 활성화하여 신호 레벨 체크를(Signal-Level Check) 반복 수행하는 소프트웨어적인 방법이 적용될 수 있다.
이어서, 전처리부(400)는 음향 인식부(100)로부터 전달받은 음향 신호가 사용자의 호흡기 관련 음성에 해당하는 호흡기 관련 음성 신호인지 여부를 판별한다(S400). 즉, S400 단계에서 전처리부(400)는 음향 신호에 포함된 배경 잡음 신호, 대화 음성 신호 및 사용자 이외의 타인의 호흡기 관련 음성 신호로부터 사용자의 호흡기 관련 음성 신호를 판별한다.
S400 단계에서 전처리부(400)는 음향 인식부(100)에 의해 입력 음향이 인식된 방향을 고려하여 사용자의 호흡기 관련 음성 신호를 판별할 수 있고, 구체적으로는 음향 인식부(100)에 포함된 복수의 마이크로폰이 외부로부터의 입력 음향을 각각 인식하여 출력하는 각 음향 신호 간의 상관관계를 분석하여 사용자의 호흡기 관련 음성 신호를 판별할 수 있다. 이때, 전처리부(400)는 기준 범위를 벗어나는 방향으로부터의 입력 음향이 복수의 마이크로폰에 의해 각각 인식됨으로써 도달 시간 지연(TDOA: Time Delay Of Arrival) 특성이 각각 다르게 형성되는 각 음향 신호를 합산하는 지연-합 빔 형성 기법(Delay-and-Sum Beamforming Method)을 이용하여 사용자의 호흡기 관련 음성 신호를 판별할 수 있다.
한편, 본 실시예는 도 12에 도시된 것과 같이 모션 감지부(300)가 사용자의 발화 시의 모션을 감지하는 S300 단계를 더 포함할 수 있다. 이에 따라 S400 단계에서 전처리부(400)는 모션 감지부(300)에 의해 감지되는, 사용자의 발화 시의 모션을 고려하여 타인의 호흡기 관련 음성 신호로부터 사용자의 호흡기 관련 음성 신호를 판별할 수도 있으며, 구체적으로는 사용자의 발화 시의 모션을 통해 사용자로부터 호흡기 관련 음성이 발화된 시점을 검출하는 방식을 이용하여 타인의 호흡기 관련 음성 신호로부터 사용자의 호흡기 관련 음성 신호를 판별할 수 있다. 이를 위해, 모션 감지부(300)는 사용자의 발화 시 사용자의 신체의 가속도 또는 발성 기관의 진동을 감지하는 가속도 센서를 포함할 수 있으며, 이에 따라 S400 단계에서 전처리부(400)는 가속도 센서로부터 전달받은 가속도가 미리 설정된 기준값 이상인지 여부를 판단하여 사용자로부터 호흡기 관련 음성이 발화된 시점을 검출할 수 있다. 또한, 모션 감지부(300)는 발성 기관 근육의 수축 또는 이완 정도를 감지하는 근전도 센서 또는 적외선을 조사하는 적외선 센서를 포함할 수도 있으며, 이에 따라 S400 단계에서 전처리부(400)는 근전도 센서 또는 적외선 센서로부터 전달받은 센서 출력값을 분석하여 호흡기 관련 음성이 발화된 시점을 검출할 수도 있다.
이어서, 신호 처리부(500)는 사용자의 호흡기 질환을 진단하기 위해 미리 확보된 훈련 데이터를 이용하여 전처리부(400)에 의해 판별된 사용자의 호흡기 관련 음성 신호를 분석한다(S500).
S500 단계에서, 신호 처리부(500)는 사용자의 호흡기 관련 음성 신호로부터 특징 벡터(Feature Vector)를 추출하고, GMM(Gaussian Mixture Model) 알고리즘 또는 K-NN(K-Nearest Neighbor) 알고리즘을 기반으로, 추출된 특징 벡터 및 훈련 데이터 간의 패턴 매칭을 수행하여 사용자의 호흡기 관련 음성 신호를 분석할 수 있다.
또한, S500 단계에서, 신호 처리부(500)는 사용자의 호흡기 관련 음성 신호로부터 특징 벡터(Feature Vector)를 추출하고, 추출된 특징 벡터에 훈련 데이터를 기반으로 학습된 딥 러닝 모델을 적용하여 사용자의 호흡기 관련 음성 신호를 분석할 수도 있다. 신호 처리부(500)는 SVM(Support Vector Machine) 및 DNN(Deep Neural Network)에 따른 딥 러닝 모델, LSTM(Long Short Term Memory)에 따른 딥 러닝 모델, CLDNN(Convolutional LSTM Deep Neural Network)에 따른 딥 러닝 모델 중 어느 하나를 이용하여 사용자의 호흡기 관련 음성 신호를 분석할 수 있으며, S500 단계에서 적용되는 딥 러닝 모델은 추출된 특징 벡터 및 훈련 데이터를 기반으로 지속적으로 학습될 수 있다.
이와 같이 본 실시예는 개인의 라이프 사이클 전 주기에 대하여 호흡기 질환을 모니터링하여 호흡기 질환을 분석함으로써 호흡기 질환의 조기 진단이 가능하여 그에 따라 중증으로의 악화를 사전에 예방할 수 있으며, 호흡기 질환에 대한 모니터링 과정에서 획득되는 개인의 호흡기 관련 음성 데이터를 이용하여 호흡 질환을 분석하기 위한 분류 모델을 반복적으로 학습해가는 과정을 통해 개인의 호흡기 질환에 대한 보다 정확하고 체계적인 분석이 가능하도록 할 수 있다.
본 명세서에서 설명된 구현은, 예컨대, 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림 또는 신호로 구현될 수 있다. 단일 형태의 구현의 맥락에서만 논의(예컨대, 방법으로서만 논의)되었더라도, 논의된 특징의 구현은 또한 다른 형태(예컨대, 장치 또는 프로그램)로도 구현될 수 있다. 장치는 적절한 하드웨어, 소프트웨어 및 펌웨어 등으로 구현될 수 있다. 방법은, 예컨대, 컴퓨터, 마이크로프로세서, 집적 회로 또는 프로그래밍가능한 로직 디바이스 등을 포함하는 프로세싱 디바이스를 일반적으로 지칭하는 프로세서 등과 같은 장치에서 구현될 수 있다. 프로세서는 또한 최종-사용자 사이에 정보의 통신을 용이하게 하는 컴퓨터, 셀 폰, 휴대용/개인용 정보 단말기(personal digital assistant: "PDA") 및 다른 디바이스 등과 같은 통신 디바이스를 포함한다.
이상으로 본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나, 이는 예시적인 것에 불과하며, 당해 기술이 속하는 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 기술적 보호범위는 아래의 특허청구범위에 의해서 정하여져야 할 것이다.

Claims (25)

  1. 외부로부터의 입력 음향을 인식하여 음향 신호를 제공하는 음향 인식부;
    상기 음향 인식부로부터 전달받은 음향 신호가 사용자의 호흡기 관련 음성에 해당하는 호흡기 관련 음성 신호인지 여부를 판별하는 전처리부; 및
    상기 사용자의 호흡기 질환을 진단하기 위해 미리 확보된 훈련 데이터를 이용하여 상기 전처리부에 의해 판별된 상기 사용자의 호흡기 관련 음성 신호를 분석하는 신호 처리부;
    를 포함하는 것을 특징으로 하는 호흡 질환 진단 장치.
  2. 제1항에 있어서,
    상기 전처리부는, 상기 음향 신호에 포함된 배경 잡음 신호, 대화 음성 신호, 및 상기 사용자 이외의 타인의 호흡기 관련 음성 신호로부터 상기 사용자의 호흡기 관련 음성 신호를 판별하는 것을 특징으로 하는 호흡 질환 진단 장치.
  3. 제2항에 있어서,
    상기 전처리부는, 상기 음향 인식부에 의해 상기 입력 음향이 인식된 방향을 고려하여 상기 사용자의 호흡기 관련 음성 신호를 판별하는 것을 특징으로 하는 호흡 질환 진단 장치.
  4. 제3항에 있어서,
    상기 음향 인식부는, 상기 입력 음향을 각각 인식하는 복수의 마이크로폰(microphone)을 포함하고,
    상기 전처리부는, 상기 복수의 마이크로폰이 상기 입력 음향을 각각 인식하여 출력하는 각 음향 신호 간의 상관관계를 분석하여 상기 사용자의 호흡기 관련 음성 신호를 판별하는 것을 특징으로 하는 호흡 질환 진단 장치.
  5. 제4항에 있어서,
    상기 전처리부는, 기준 범위를 벗어나는 방향으로부터의 상기 입력 음향이 상기 복수의 마이크로폰에 의해 각각 인식됨으로써 도달 시간 지연(TDOA: Time Delay Of Arrival) 특성이 각각 다르게 형성되는 상기 각 음향 신호를 합산하는 지연-합 빔 형성 기법(Delay-and-Sum Beamforming Method)을 이용하여 상기 사용자의 호흡기 관련 음성 신호를 판별하는 것을 특징으로 하는 호흡 질환 진단 장치.
  6. 제2항에 있어서,
    상기 사용자의 발화 시의 모션을 감지하는 모션 감지부;를 더 포함하고,
    상기 전처리부는, 상기 모션 감지부에 의해 감지되는, 상기 사용자의 발화 시의 모션을 고려하여 상기 타인의 호흡기 관련 음성 신호로부터 상기 사용자의 호흡기 관련 음성 신호를 판별하는 것을 특징으로 하는 호흡 질환 진단 장치.
  7. 제6항에 있어서,
    상기 전처리부는, 상기 사용자의 발화 시의 모션을 통해 상기 사용자로부터 상기 호흡기 관련 음성이 발화된 시점을 검출하는 방식을 이용하여 상기 타인의 호흡기 관련 음성 신호로부터 상기 사용자의 호흡기 관련 음성 신호를 판별하는 것을 특징으로 하는 호흡 질환 진단 장치.
  8. 제1항에 있어서,
    상기 호흡 질환 진단 장치가 저전력을 위한 대기 모드(stand-by mode)를 유지하는 상태에서 상기 음향 인식부로부터의 음향 신호의 크기에 기초하여 상기 호흡 질환 진단 장치를 트리거링(triggering)하는 트리거부;를 더 포함하는 것을 특징으로 하는 호흡 질환 진단 장치.
  9. 제1항에 있어서,
    상기 신호 처리부는, 상기 사용자의 호흡기 관련 음성 신호로부터 특징 벡터(Feature Vector)를 추출하고, GMM(Gaussian Mixture Model) 알고리즘 또는 K-NN(K-Nearest Neighbor) 알고리즘을 기반으로 상기 추출된 특징 벡터 및 상기 훈련 데이터 간의 패턴 매칭을 수행하여 상기 사용자의 호흡기 관련 음성 신호를 분석하는 것을 특징으로 하는 호흡 질환 진단 장치.
  10. 제1항에 있어서,
    상기 신호 처리부는, 상기 사용자의 호흡기 관련 음성 신호로부터 특징 벡터(Feature Vector)를 추출하고, 상기 추출된 특징 벡터에 상기 훈련 데이터를 기반으로 학습된 딥 러닝 모델을 적용하여 상기 사용자의 호흡기 관련 음성 신호를 분석하는 것을 특징으로 하는 호흡 질환 진단 장치.
  11. 제10항에 있어서,
    상기 신호 처리부는, SVM(Support Vector Machine) 및 DNN(Deep Neural Network)에 따른 딥 러닝 모델, LSTM(Long Short Term Memory)에 따른 딥 러닝 모델, CLDNN(Convolutional LSTM Deep Neural Network)에 따른 딥 러닝 모델 중 어느 하나를 이용하여 상기 사용자의 호흡기 관련 음성 신호를 분석하는 것을 특징으로 하는 호흡 질환 진단 장치.
  12. 제10항에 있어서,
    상기 딥 러닝 모델은, 상기 추출된 특징 벡터 및 상기 훈련 데이터를 기반으로 지속적으로 학습되는 것을 특징으로 하는 호흡 질환 진단 장치.
  13. 제1항에 있어서,
    상기 호흡기 질환은, 기침, 감기, 천식, 기관지염 및 만성 폐쇄성 폐질환(COPD: Chronic Obstructive Pulmonary Disease)중 하나 이상을 포함하는 것을 특징으로 하는 호흡 질환 진단 장치.
  14. 음향 인식부가, 외부로부터의 입력 음향을 인식하여 음향 신호를 제공하는 단계;
    전처리부가, 상기 음향 인식부로부터 전달받은 음향 신호가 사용자의 호흡기 관련 음성에 해당하는 호흡기 관련 음성 신호인지 여부를 판별하는 단계; 및
    신호 처리부가, 상기 사용자의 호흡기 질환을 진단하기 위해 미리 확보된 훈련 데이터를 이용하여 상기 전처리부에 의해 판별된 상기 사용자의 호흡기 관련 음성 신호를 분석하는 단계;
    를 포함하는 것을 특징으로 하는 호흡 질환 진단 방법.
  15. 제14항에 있어서,
    상기 판별하는 단계에서, 상기 전처리부는,
    상기 음향 신호에 포함된 배경 잡음 신호, 대화 음성 신호, 및 상기 사용자 이외의 타인의 호흡기 관련 음성 신호로부터 상기 사용자의 호흡기 관련 음성 신호를 판별하는 것을 특징으로 하는 호흡 질환 진단 방법.
  16. 제15항에 있어서,
    상기 판별하는 단계에서, 상기 전처리부는,
    상기 음향 인식부에 의해 상기 입력 음향이 인식된 방향을 고려하여 상기 사용자의 호흡기 관련 음성 신호를 판별하는 것을 특징으로 하는 호흡 질환 진단 방법.
  17. 제16항에 있어서,
    상기 음향 인식부는, 상기 입력 음향을 각각 인식하는 복수의 마이크로폰(microphone)을 포함하고,
    상기 판별하는 단계에서, 상기 전처리부는,
    상기 복수의 마이크로폰이 상기 입력 음향을 각각 인식하여 출력하는 각 음향 신호 간의 상관관계를 분석하여 상기 사용자의 호흡기 관련 음성 신호를 판별하는 것을 특징으로 하는 호흡 질환 진단 방법.
  18. 제17항에 있어서,
    상기 판별하는 단계에서, 상기 전처리부는,
    기준 범위를 벗어나는 방향으로부터의 상기 입력 음향이 상기 복수의 마이크로폰에 의해 각각 인식됨으로써 도달 시간 지연(TDOA: Time Delay Of Arrival) 특성이 각각 다르게 형성되는 상기 각 음향 신호를 합산하는 지연-합 빔 형성 기법(Delay-and-Sum Beamforming Method)을 이용하여 상기 사용자의 호흡기 관련 음성 신호를 판별하는 것을 특징으로 하는 호흡 질환 진단 방법.
  19. 제15항에 있어서,
    모션 감지부가, 상기 사용자의 발화 시의 모션을 감지하는 단계;를 더 포함하고,
    상기 판별하는 단계에서, 상기 전처리부는,
    상기 모션 감지부에 의해 감지되는, 상기 사용자의 발화 시의 모션을 고려하여 상기 타인의 호흡기 관련 음성 신호로부터 상기 사용자의 호흡기 관련 음성 신호를 판별하는 것을 특징으로 하는 호흡 질환 진단 방법.
  20. 제19항에 있어서,
    상기 판별하는 단계에서, 상기 전처리부는,
    상기 사용자의 발화 시의 모션을 통해 상기 사용자로부터 상기 호흡기 관련 음성이 발화된 시점을 검출하는 방식을 이용하여 상기 타인의 호흡기 관련 음성 신호로부터 상기 사용자의 호흡기 관련 음성 신호를 판별하는 것을 특징으로 하는 호흡 질환 진단 방법.
  21. 제14항에 있어서,
    트리거부가, 호흡 질환 진단 장치가 저전력을 위한 대기 모드(stand-by mode)를 유지하는 상태에서 상기 음향 인식부로부터의 음향 신호의 크기에 기초하여 상기 호흡 질환 진단 장치를 트리거링(triggering)하는 단계;를 더 포함하는 것을 특징으로 하는 호흡 질환 진단 방법.
  22. 제14항에 있어서,
    상기 분석하는 단계에서, 상기 신호 처리부는,
    상기 사용자의 호흡기 관련 음성 신호로부터 특징 벡터(Feature Vector)를 추출하고, GMM(Gaussian Mixture Model) 알고리즘 또는 K-NN(K-Nearest Neighbor) 알고리즘을 기반으로 상기 추출된 특징 벡터 및 상기 훈련 데이터 간의 패턴 매칭을 수행하여 상기 사용자의 호흡기 관련 음성 신호를 분석하는 것을 특징으로 하는 호흡 질환 진단 방법.
  23. 제14항에 있어서,
    상기 분석하는 단계에서, 상기 신호 처리부는,
    상기 사용자의 호흡기 관련 음성 신호로부터 특징 벡터(Feature Vector)를 추출하고, 상기 추출된 특징 벡터에 상기 훈련 데이터를 기반으로 학습된 딥 러닝 모델을 적용하여 상기 사용자의 호흡기 관련 음성 신호를 분석하는 것을 특징으로 하는 호흡 질환 진단 방법.
  24. 제23항에 있어서,
    상기 분석하는 단계에서, 상기 신호 처리부는,
    SVM(Support Vector Machine) 및 DNN(Deep Neural Network)에 따른 딥 러닝 모델, LSTM(Long Short Term Memory)에 따른 딥 러닝 모델, CLDNN(Convolutional LSTM Deep Neural Network)에 따른 딥 러닝 모델 중 어느 하나를 이용하여 상기 사용자의 호흡기 관련 음성 신호를 분석하는 것을 특징으로 하는 호흡 질환 진단 방법.
  25. 제23항에 있어서,
    상기 딥 러닝 모델은, 상기 추출된 특징 벡터 및 상기 훈련 데이터를 기반으로 지속적으로 학습되는 것을 특징으로 하는 호흡 질환 진단 방법.
PCT/KR2019/002595 2018-03-28 2019-03-06 호흡 질환 진단 장치 및 방법 WO2019190071A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2018-0036013 2018-03-28
KR1020180036013A KR20190113390A (ko) 2018-03-28 2018-03-28 호흡 질환 진단 장치 및 호흡 질환 모니터링 방법

Publications (1)

Publication Number Publication Date
WO2019190071A1 true WO2019190071A1 (ko) 2019-10-03

Family

ID=68062331

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/002595 WO2019190071A1 (ko) 2018-03-28 2019-03-06 호흡 질환 진단 장치 및 방법

Country Status (2)

Country Link
KR (1) KR20190113390A (ko)
WO (1) WO2019190071A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112598033A (zh) * 2020-12-09 2021-04-02 兰州大学 生理信号处理方法、装置、设备及存储介质

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102399118B1 (ko) * 2019-10-28 2022-05-17 주식회사 인포쉐어 파킨슨병을 진단하는 애플리케이션이 설치되는 스마트단말
US11741986B2 (en) 2019-11-05 2023-08-29 Samsung Electronics Co., Ltd. System and method for passive subject specific monitoring
KR102421158B1 (ko) * 2020-03-13 2022-07-14 넥스터 주식회사 실시간 음향분석에 의한 소음도에 따른 음성 안내시스템의 스마트 볼륨 조절 시스템
KR102453984B1 (ko) * 2020-07-09 2022-10-14 한국과학기술원 딥러닝 기반의 기침 인식 방법 및 장치
US20220061694A1 (en) * 2020-09-02 2022-03-03 Hill-Rom Services Pte. Ltd. Lung health sensing through voice analysis
KR102445294B1 (ko) * 2020-11-30 2022-09-20 한국전자기술연구원 호흡음을 포함한 생체신호 기반 호흡기 감염증 진단 방법 및 시스템
KR102558537B1 (ko) * 2021-01-27 2023-07-21 한양에스앤에이 주식회사 딥러닝을 이용한 음원 분류 장치 및 그 방법
US20220257175A1 (en) * 2021-02-11 2022-08-18 Samsung Electronics Co., Ltd Speech-based pulmonary assessment
KR102580057B1 (ko) * 2021-08-23 2023-09-21 한양대학교 산학협력단 웨어러블 디바이스 및 그 동작방법
KR20240037809A (ko) 2022-09-14 2024-03-22 주식회사 웨이센 스마트폰으로 수집한 음향데이터의 기침, 호흡 구간 검출 및 이상구간 분류 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140142330A (ko) * 2012-03-29 2014-12-11 더 유니버서티 어브 퀸슬랜드 환자 소리들을 처리하기 위한 방법 및 장치
KR20140144410A (ko) * 2013-06-11 2014-12-19 삼성전자주식회사 음향신호를 위한 빔포밍 방법 및 장치
KR101619611B1 (ko) * 2014-09-22 2016-05-19 순천향대학교 산학협력단 마이크로폰을 이용한 호흡률 추정 장치 및 기법
KR20160133279A (ko) * 2015-05-12 2016-11-22 이니어랩 주식회사 귓속 마이크를 내장하여 호흡측정을 지원하는 목걸이형 블루투스 이어폰
KR20160147591A (ko) * 2015-06-15 2016-12-23 주식회사 셀바스에이아이 천식 진단을 위한 청진음 신호의 전처리 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140142330A (ko) * 2012-03-29 2014-12-11 더 유니버서티 어브 퀸슬랜드 환자 소리들을 처리하기 위한 방법 및 장치
KR20140144410A (ko) * 2013-06-11 2014-12-19 삼성전자주식회사 음향신호를 위한 빔포밍 방법 및 장치
KR101619611B1 (ko) * 2014-09-22 2016-05-19 순천향대학교 산학협력단 마이크로폰을 이용한 호흡률 추정 장치 및 기법
KR20160133279A (ko) * 2015-05-12 2016-11-22 이니어랩 주식회사 귓속 마이크를 내장하여 호흡측정을 지원하는 목걸이형 블루투스 이어폰
KR20160147591A (ko) * 2015-06-15 2016-12-23 주식회사 셀바스에이아이 천식 진단을 위한 청진음 신호의 전처리 방법 및 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112598033A (zh) * 2020-12-09 2021-04-02 兰州大学 生理信号处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
KR20190113390A (ko) 2019-10-08

Similar Documents

Publication Publication Date Title
WO2019190071A1 (ko) 호흡 질환 진단 장치 및 방법
Mouawad et al. Robust detection of COVID-19 in cough sounds: using recurrence dynamics and variable Markov model
Hassan et al. COVID-19 detection system using recurrent neural networks
Belkacem et al. End-to-end AI-based point-of-care diagnosis system for classifying respiratory illnesses and early detection of COVID-19: A theoretical framework
Vacher et al. Complete sound and speech recognition system for health smart homes: application to the recognition of activities of daily living
WO2020060290A1 (en) System and method for pulmonary condition monitoring and analysis
Irtaza et al. A framework for fall detection of elderly people by analyzing environmental sounds through acoustic local ternary patterns
Abou-Abbas et al. A fully automated approach for baby cry signal segmentation and boundary detection of expiratory and inspiratory episodes
AL-Dhief et al. Voice pathology detection using support vector machine based on different number of voice signals
Cheng et al. Automated sleep apnea detection in snoring signal using long short-term memory neural networks
Sun et al. Coughloc: Location-aware indoor acoustic sensing for non-intrusive cough detection
Sahidullah et al. Robust speaker recognition with combined use of acoustic and throat microphone speech
Min et al. Vocal stereotypy detection: An initial step to understanding emotions of children with autism spectrum disorder
Islam et al. A novel convolutional neural network based dysphonic voice detection algorithm using chromagram.
Tran-Anh et al. Multi-task learning neural networks for breath sound detection and classification in pervasive healthcare
Rougui et al. Audio sound event identification for distress situations and context awareness
Rahman et al. Efficient online cough detection with a minimal feature set using smartphones for automated assessment of pulmonary patients
Vacher et al. Preliminary evaluation of speech/sound recognition for telemedicine application in a real environment
Sabet et al. COVID-19 detection in cough audio dataset using deep learning model
Abhishek et al. ESP8266-based Real-time Auscultation Sound Classification
Despotovic et al. Audio-based Active and Assisted Living: A review of selected applications and future trends
Mohamad Jamil et al. A flexible speech recognition system for cerebral palsy disabled
Villanueva et al. Respiratory Sound Classification Using Long-Short Term Memory
Liu et al. Classifying respiratory sounds using electronic stethoscope
Jayadi et al. Embedded Flu Detection System based Cough Sound using MFCC and kNN Algorithm

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19776523

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19776523

Country of ref document: EP

Kind code of ref document: A1