WO2022240234A1 - 합성곱 신경망을 이용한 투석 접근로의 협착 예측 방법 및 장치 - Google Patents

합성곱 신경망을 이용한 투석 접근로의 협착 예측 방법 및 장치 Download PDF

Info

Publication number
WO2022240234A1
WO2022240234A1 PCT/KR2022/006887 KR2022006887W WO2022240234A1 WO 2022240234 A1 WO2022240234 A1 WO 2022240234A1 KR 2022006887 W KR2022006887 W KR 2022006887W WO 2022240234 A1 WO2022240234 A1 WO 2022240234A1
Authority
WO
WIPO (PCT)
Prior art keywords
stenosis
audio data
neural network
dialysis access
convolutional neural
Prior art date
Application number
PCT/KR2022/006887
Other languages
English (en)
French (fr)
Inventor
원종윤
한기창
박재현
박인선
Original Assignee
연세대학교 산학협력단
서울대학교병원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단, 서울대학교병원 filed Critical 연세대학교 산학협력단
Priority to JP2023569940A priority Critical patent/JP2024519336A/ja
Publication of WO2022240234A1 publication Critical patent/WO2022240234A1/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7271Specific aspects of physiological measurement analysis
    • A61B5/7275Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/02Detecting, measuring or recording pulse, heart rate, blood pressure or blood flow; Combined pulse/heart-rate/blood pressure determination; Evaluating a cardiovascular condition not otherwise provided for, e.g. using combinations of techniques provided for in this group with electrocardiography or electroauscultation; Heart catheters for measuring blood pressure
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/02Detecting, measuring or recording pulse, heart rate, blood pressure or blood flow; Combined pulse/heart-rate/blood pressure determination; Evaluating a cardiovascular condition not otherwise provided for, e.g. using combinations of techniques provided for in this group with electrocardiography or electroauscultation; Heart catheters for measuring blood pressure
    • A61B5/02007Evaluating blood vessel condition, e.g. elasticity, compliance
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B7/00Instruments for auscultation
    • A61B7/02Stethoscopes
    • A61B7/04Electric stethoscopes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Definitions

  • the present invention relates to a method and apparatus for predicting stenosis of a dialysis access using a convolutional neural network, and more particularly, to a method and apparatus for diagnosing a dialysis access with clinically significant stenosis requiring treatment. will be.
  • An object to be achieved by the present invention is to predict the degree of stenosis of a corresponding dialysis access path from audio data of a subject's dialysis access path based on a stenosis prediction model including a convolutional neural network (CNN). It is to provide a method and apparatus for predicting stenosis of a dialysis access path using a multiplicative neural network.
  • CNN convolutional neural network
  • a method for predicting stenosis of a dialysis access route using a convolutional neural network includes obtaining audio data of an object's dialysis access route; and predicting a degree of stenosis corresponding to the audio data based on a stenosis prediction model including a pre-learned convolutional neural network (CNN).
  • CNN convolutional neural network
  • the step of acquiring the audio data includes preprocessing the audio data
  • the step of estimating the degree of stenosis includes inputting the preprocessed audio data to the stenosis prediction model, and based on an output value of the stenosis prediction model. It may consist of predicting the degree of stenosis corresponding to the audio data.
  • the audio data acquiring step may include obtaining the audio data of a preset section from the audio data, obtaining a spectrogram based on the audio data of the preset section, and obtaining the obtained spectrogram. ) and adjusting the size of the normalized spectrogram.
  • learning the stenosis prediction model based on a training data set including first audio data for a dialysis access route obtained before the procedure and second audio data for a dialysis access route obtained after the procedure can include
  • the stenosis prediction model may receive a spectrogram as an input and output a stenosis degree value.
  • the training data set is preprocessed, the first audio data is used as a first correct answer label and the second audio data is used as a second correct answer label, and preprocessing and learning the constricted prediction model based on the training data set.
  • the constriction prediction model learning step for each audio data included in the training data set, the audio data of a preset section is obtained from the audio data, and a spectrogram is obtained based on the audio data of the preset section ( A spectrogram is obtained, the obtained spectrogram is normalized, the normalized spectrogram is horizontally shifted to increase the number, and the size of the increased spectrogram is increased. It may consist of pre-processing the training data set by adjusting .
  • the preprocessed training data set is divided into a training data set, a tuning data set, and a verification data set according to a preset criterion, and the narrow prediction model is learned using the training data set. and tuning the learned narrowing prediction model using the tuning data set, and verifying the tuned narrowing prediction model using the verification data set.
  • a computer program according to a preferred embodiment of the present invention for achieving the above technical problem is stored in a computer-readable storage medium and executes any one of the methods for predicting stenosis of a dialysis access route using the convolutional neural network on a computer.
  • an apparatus for predicting stenosis of a dialysis access using a convolutional neural network predicts stenosis of a dialysis access using a convolutional neural network (CNN).
  • CNN convolutional neural network
  • a stenosis prediction device comprising: a memory storing one or more programs for predicting stenosis of a dialysis access path using a convolutional neural network (CNN); and one or more processors that perform an operation for predicting the stenosis of a dialysis access path using a convolutional neural network (CNN) according to the one or more programs stored in the memory, wherein the processor is configured to: Obtain audio data for , and predict a degree of stenosis corresponding to the audio data based on a constriction prediction model including a pre-learned convolutional neural network (CNN).
  • CNN convolutional neural network
  • the processor may pre-process the audio data, input the pre-processed audio data to the stenosis prediction model, and predict a degree of stenosis corresponding to the audio data based on an output value of the stenosis prediction model.
  • the processor is configured to learn the stenosis prediction model based on a training data set including first audio data for a dialysis access route obtained before the procedure and second audio data for a dialysis access route obtained after the procedure.
  • the processor pre-processes the training data set, and sets the first audio data as a first correct answer label and the second audio data as a second correct answer label, and the preprocessed learning data Based on the set, the constriction prediction model can be learned.
  • the dialysis access route of a subject based on a stenosis prediction model including a convolutional neural network (CNN), the dialysis access route of a subject
  • CNN convolutional neural network
  • FIG. 1 is a block diagram illustrating an apparatus for predicting stenosis of a dialysis access route using a convolutional neural network according to a preferred embodiment of the present invention.
  • FIG. 2 is a flowchart illustrating a method for predicting stenosis of a dialysis access route using a convolutional neural network according to a preferred embodiment of the present invention.
  • FIG. 3 is a diagram for explaining a learning process of a constriction prediction model according to a preferred embodiment of the present invention.
  • FIG. 4 is a diagram for explaining a preprocessing process of the training data set shown in FIG. 3 .
  • FIG. 5 is a diagram for explaining a process for predicting the degree of stenosis using a stenosis prediction model according to a preferred embodiment of the present invention.
  • FIG. 6 is a diagram for explaining a preprocessing process of audio data shown in FIG. 5 .
  • FIG. 7 is a diagram for explaining an example of a process of learning a stenosis prediction model and a process of predicting the degree of stenosis according to a preferred embodiment of the present invention.
  • FIG. 8 is a diagram for explaining an example of a spectrogram acquisition process according to a preferred embodiment of the present invention.
  • FIG. 9 is a diagram showing an example of a spectrogram obtained through the process shown in FIG. 8 .
  • FIG. 10 is a view showing an example of a spectrogram obtained through the process shown in FIG. 8, and FIG. 10(a) is a spectrogram obtained based on audio data for a dialysis access path acquired before a procedure. (spectrogram), and FIG. 10 (b) shows a spectrogram obtained based on audio data for a dialysis access path obtained after a procedure.
  • FIG. 11 is a diagram for explaining the performance of a constrictive prediction model according to a preferred embodiment of the present invention, in which (a) of FIG. 11 shows a confusion matrix, and (b) of FIG. 11 shows a receiver operation (ROC) characteristic curve.
  • a constrictive prediction model according to a preferred embodiment of the present invention, in which (a) of FIG. 11 shows a confusion matrix, and (b) of FIG. 11 shows a receiver operation (ROC) characteristic curve.
  • ROC receiver operation
  • first and second are used to distinguish one component from another, and the scope of rights should not be limited by these terms.
  • a first component may be referred to as a second component, and similarly, the second component may also be referred to as a first component.
  • identification codes e.g., a, b, c, etc.
  • identification codes do not describe the order of each step, and each step is clearly a specific order in context. Unless specified, it may occur in a different order from the specified order. That is, each step may occur in the same order as specified, may be performed substantially simultaneously, or may be performed in the reverse order.
  • expressions such as “has”, “can have”, “includes” or “can include” indicate the existence of a corresponding feature (eg, numerical value, function, operation, or component such as a part). indicated, and does not preclude the presence of additional features.
  • FIG. 1 an apparatus for predicting stenosis of a dialysis access path using a convolutional neural network according to a preferred embodiment of the present invention will be described.
  • FIG. 1 is a block diagram illustrating an apparatus for predicting stenosis of a dialysis access route using a convolutional neural network according to a preferred embodiment of the present invention.
  • an apparatus 100 for predicting stenosis of a dialysis approach using a convolutional neural network is based on a stenosis prediction model including a convolutional neural network (CNN),
  • CNN convolutional neural network
  • the degree of stenosis of the subject's dialysis access route can be predicted from audio data.
  • the stenosis prediction device 100 may include one or more processors 110 , a computer readable storage medium 130 and a communication bus 150 .
  • the processor 110 may control the stenosis prediction apparatus 100 to operate.
  • the processor 110 may execute one or more programs 131 stored in the computer readable storage medium 130 .
  • the one or more programs 131 may include one or more computer executable instructions, and the computer executable instructions, when executed by the processor 110, cause the constriction prediction device 100 to use a convolutional neural network (CNN) It may be configured to perform an operation to predict stenosis of the dialysis access.
  • CNN convolutional neural network
  • Computer readable storage medium 130 is configured to store computer executable instructions or program code, program data and/or other suitable form of information for predicting dialysis access strictures using a convolutional neural network (CNN). .
  • the program 131 stored in the computer readable storage medium 130 includes a set of instructions executable by the processor 110 .
  • computer readable storage medium 130 may include memory (volatile memory such as random access memory, non-volatile memory, or a suitable combination thereof), one or more magnetic disk storage devices, optical disk storage devices, flash It may be memory devices, other types of storage media that can be accessed by the stenosis prediction apparatus 100 and store desired information, or a suitable combination thereof.
  • the communication bus 150 interconnects various other components of the stenosis prediction device 100, including the processor 110 and the computer readable storage medium 130.
  • the stenosis prediction device 100 may also include one or more input/output interfaces 170 and one or more communication interfaces 190 providing interfaces for one or more input/output devices.
  • the input/output interface 170 and the communication interface 190 are connected to the communication bus 150 .
  • An input/output device (not shown) may be connected to other components of the stenosis prediction device 100 through an input/output interface 170 .
  • FIG. 2 is a flow chart for explaining a method for predicting stenosis of a dialysis access route using a convolutional neural network according to a preferred embodiment of the present invention
  • FIG. 3 is a flowchart for explaining a learning process of a stenosis prediction model according to a preferred embodiment of the present invention.
  • FIG. 4 is a diagram for explaining a pre-processing process of the learning data set shown in FIG. 3
  • FIG. 5 is a diagram for explaining a process for predicting the degree of stenosis using a stenosis prediction model according to a preferred embodiment of the present invention.
  • FIG. 6 is a diagram for explaining a pre-processing process of audio data shown in FIG. 5 .
  • the processor 110 of the stenosis prediction apparatus 100 may learn a stenosis prediction model based on a training data set (S110).
  • the stenosis prediction model includes a convolutional neural network (CNN), and may take a spectrogram as an input and a stenosis degree value as an output.
  • the degree of stenosis value represents a probability that the degree of stenosis of the dialysis access path is 50% or more, and may have a value between 0 and 1.
  • the training data set may include first audio data for a dialysis access route obtained before angioplasty and second audio data for a dialysis access route obtained after angioplasty.
  • audio data sound in an audible frequency band between 20 Hz and 1,000 Hz
  • audio data about a patient's dialysis access path may be obtained using an electronic stethoscope or the like after performing angioplasty.
  • the processor 110 performs "pre-processing of training data set” -> "learning process of constriction prediction model” -> “tuning process of constriction prediction model” -> “process of constriction prediction model” Through the “verification process", the final constriction prediction model may be learned.
  • the processor 110 may pre-process the training data set.
  • the processor 110 may pre-process each of the audio data included in the training data set through the following process.
  • the processor 110 may obtain audio data of a preset section from audio data. For example, the processor 110 may extract audio data of a preset period (eg, 2 seconds to 8 seconds) in order to remove an effect of noise or the like.
  • a preset period eg, 2 seconds to 8 seconds
  • the processor 110 may obtain a spectrogram based on audio data of a preset section. For example, the processor 110 may transform audio data into a spectrogram using a Fourier transform (FT) or the like.
  • FT Fourier transform
  • the processor 110 may normalize the obtained spectrogram.
  • the processor 110 may remove unnecessary regions (edge boundary regions, etc.) from the normalized spectrogram before performing data augmentation.
  • the processor 110 may increase the number by horizontally shifting the normalized spectrogram.
  • the processor 110 may increase the number of spectrograms by performing horizontal shifting multiple times on the time axis based on the spectrogram.
  • the processor 110 may adjust the size of the increased spectrogram. For example, the processor 110 may adjust the size of the spectrogram to be reduced to a preset size (eg, 512 ⁇ 512, etc.).
  • a preset size eg, 512 ⁇ 512, etc.
  • the processor 110 takes the first audio data as a first correct answer label and the second audio data as a second correct answer label, and learns a narrow prediction model based on the preprocessed training data set can do.
  • the first correct answer label indicates a state in which the degree of stenosis of the dialysis access path is 50% or more, and may be set to '1', for example.
  • the second correct answer label indicates a state in which the degree of stenosis of the dialysis access path is less than 50%, and may be set to '0', for example.
  • the processor 110 may learn the constriction prediction model through the following process based on the preprocessed training data set.
  • the processor 110 may divide the preprocessed training data set into a training data set, a tuning data set, and a verification data set according to preset criteria. For example, the processor 110 divides the first audio data set of the training data set into a training data set, a tuning data set, and a verification data set according to a preset ratio of “7:2:1”, and The second audio set may be divided into a training data set, a tuning data set, and a verification data set.
  • Processor 110 may learn a constricted prediction model using a training data set.
  • the processor 110 may tune the trained constriction prediction model using the tuning data set.
  • the processor 110 may verify the tuned constriction prediction model using a validation data set.
  • the processor 110 may acquire audio data about the object's dialysis access route (S130).
  • the processor 110 may acquire audio data through “process of obtaining audio data” -> “process of pre-processing audio data”.
  • the processor 110 may acquire audio data about the dialysis access route of the object.
  • audio data sound in an audible frequency band between 20 Hz and 1,000 Hz
  • a dialysis approach arteriovenous fistula, etc.
  • an electronic stethoscope or the like can be obtained using an electronic stethoscope or the like.
  • the processor 110 may pre-process the acquired audio data.
  • the processor 110 may pre-process audio data through the following process.
  • the processor 110 may obtain audio data of a preset section from audio data. For example, the processor 110 may extract audio data of a preset period (eg, 2 seconds to 8 seconds) in order to remove an effect of noise or the like.
  • a preset period eg, 2 seconds to 8 seconds
  • the processor 110 may obtain a spectrogram based on audio data of a preset section. For example, the processor 110 may transform audio data into a spectrogram using a Fourier transform (FT) or the like.
  • FT Fourier transform
  • the processor 110 may normalize the obtained spectrogram.
  • the processor 110 may adjust the size of the normalized spectrogram. For example, the processor 110 may adjust the size of the spectrogram to be reduced to a preset size (eg, 512 ⁇ 512, etc.).
  • a preset size eg, 512 ⁇ 512, etc.
  • the processor 110 may predict the degree of stenosis corresponding to the audio data based on the previously learned stenosis prediction model (S150).
  • the processor 110 passes through “process of inputting pre-processed audio data” -> “process of acquiring output value of stenosis prediction model” -> “process of predicting degree of stenosis” to access dialysis of the object
  • the degree of stenosis can be predicted.
  • the processor 110 may input the preprocessed audio data to the constriction prediction model.
  • the processor 110 may predict the degree of stenosis corresponding to the audio data based on the output value of the stenosis prediction model.
  • the processor 110 may predict the degree of stenosis of the object as “95%”.
  • the processor 110 compares the output value of the stenosis prediction model (ie, the stenosis degree value) with a preset threshold value (eg, 0.5, etc.), and when the output value (ie, the stenosis degree value) is greater than or equal to the threshold value, “stenosis degree value” is compared.
  • the degree of stenosis of the corresponding object may be predicted with “suspect” or the like, and when the output value (ie, the degree of stenosis) is less than a threshold value, the degree of stenosis of the corresponding object may be predicted with "no stenosis” or the like.
  • FIG. 7 is a diagram for explaining an example of a process of learning a stenosis prediction model and a process of predicting the degree of stenosis according to a preferred embodiment of the present invention
  • FIG. 8 is an example of a process of obtaining a spectrogram according to a preferred embodiment of the present invention.
  • FIG. 9 is a diagram showing an example of a spectrogram obtained through the process shown in FIG. 8
  • FIG. 10 is a spectrogram obtained through the process shown in FIG. 8 10 (a) shows a spectrogram obtained based on audio data for a dialysis access path obtained before the procedure, and
  • FIG. 10 (b) shows a dialysis obtained after the procedure.
  • FIG. 11 It shows a spectrogram obtained based on audio data for an approach road
  • FIG. 11 is a diagram for explaining the performance of a constriction prediction model according to a preferred embodiment of the present invention.
  • FIG. 11 (a) shows confusion A confusion matrix is shown
  • FIG. 11 (b) shows a receiver operation characteristic (ROC) curve.
  • ROC receiver operation characteristic
  • an example of a method for predicting stenosis of a dialysis approach using a convolutional neural network is largely divided into “image preprocessing (Image Preprocessing shown in FIG. 7)” and “deep learning process ( Deep learning process shown in FIG. 7", “preprocessing process of patient's audio data (user shown in FIG. 7)", “deep learning process (deep learning process shown in FIG. 7) “ and "a process for predicting the degree of stenosis of the patient (Output shown in FIG. 7)”.
  • Data input to the stenosis prediction model is a mel spectrogram, with a size of 512 ⁇ 512 may be an image file having three RGB channels.
  • an audio file in which the patient's hearing of the dialysis access route (arteriovenous fistula, etc.) is recorded through an electronic stethoscope or the like.
  • the recording was conducted for about 10 seconds, when a person records directly, the playback time of the audio file may vary from file to file, and noise such as touching the stethoscope at the start and end of the recording may enter the audio file.
  • the time from 2 seconds to 8 seconds of each audio file that is, 6 seconds of audio data was actually used.
  • the audio file may be sampled according to a specific sampling rate, and a numeric number may be stored in an array form.
  • This method is the Fourier Transform (FT) ), that is, solving the Fourier equation, amplitude vs.
  • the time graph is frequency vs. It can be converted to a time graph, and in the present invention, short time Fourier transform (STFT) is used as the Fourier transform (FT).
  • fmax is the maximum frequency that determines the analysis range, and the maximum frequency is usually determined by the value of sampling rate/2 according to Nyquist's law.
  • n_fft is the FFT length (or window length) to be analyzed, which was determined to be 25 msec.
  • the Hop Length was set to 10 msec so that 15 msec (Overlap Length) overlapped per square.
  • a mel spectrogram as shown in FIG. 9 can be obtained.
  • the X-axis is time
  • the Y-axis is frequency
  • the strength of a specific frequency in a specific time period and decibels can be expressed in color.
  • FIG. 10 A mel spectrogram can be obtained from each audio file in the above manner, and examples of spectrograms before and after angioplasty are shown in FIG. 10 .
  • FIG. 10 (a) is a mel spectrogram before angioplasty
  • FIG. 10 (b) is a mel spectrogram after angioplasty.
  • the degree of stenosis of the dialysis access route arteriovenous fistula, etc.
  • the mel spectrogram obtained in this way is the first correct label because the degree of stenosis is 50% or more (calculated by comparing the diameter of the arteriovenous fistula stenosis area and normal blood vessel in actual angiography) when obtained before angioplasty. If it is labeled as "pre (1)" and stored in a folder, and obtained after an angioplasty procedure, the degree of stenosis is less than 50% (if the degree of stenosis is confirmed to be less than 50% in actual angiography), the second I labeled it with the correct answer label "post (0)" and saved it in a folder.
  • the repetitive peak seen in the mel spectrogram is a sin(x) or cos(x) function
  • the captured wave depends on how the recording time range is set. +a) or cos (x+a).
  • the width shift range is set to 0.9 for horizontal shifting.
  • the increment is set to 50 times (i > 50), that is, 50 images are created by moving to the x-axis with one mel spectrogram image, but 50 is an arbitrarily set value, There is no need to limit yourself to 50 times.
  • FIG. 9 if there is a white edge area, when a horizontal shift is performed, a white vertical line at the left or right end may intervene and damage mel spectrogram data. Preprocessing is performed to remove the white edge area.
  • the size of the mel spectrogram obtained in this way is 2328 ⁇ 909 when checked in the following way.
  • the stenosis prediction model compresses the array step by step, when the too large area in the starting image is compressed and reaches the last layer, the value of the mel spectrogram before and after the procedure It is possible that this significant difference may not be seen. Also, since the learning time of the stenotic prediction model takes a long time, the rectangular image above is resized into a square picture.
  • the above code is an example of resizing the mel spectrogram to 512 ⁇ 512, and after resizing as above, it is input to the constriction prediction model.
  • the learning data set was analyzed by dividing it into training data set, tuning data set, and verification data set according to the ratio of 7:1:2. For this, the train_test_split function is used, and train_test_split randomly divides the array of file lists in the folder into training, tuning, and validation subsets.
  • Y_pre np.zeros(len(filelist_pre))
  • ResNET50 consists of an input layer, a convolutional layer, a max pooling layer, an average pooling layer, and an output layer, like a general convolutional neural network (CNN) model.
  • the convolutional layer consists of 50 layers and extracts image features from a mel spectrogram.
  • the max pooling layer increases system safety and efficiency by sub-sampling the features extracted from the convolution layer. Average pooling layers reduce the number of parameters.
  • the output layer outputs the following values.
  • the values output through the output layer may output values for the predictive ability and diagnostic results of the stenosis prediction model for 50% or more dialysis access route stenosis.
  • values for sensitivity, specificity, positive predictive value, negative predictive value, accuracy, etc. can be output.
  • a confusion matrix and a receiver operation characteristic (ROC) curve as shown in FIG. 11 can be obtained, and an AUC (area under the curve) value of diagnostic ability can be calculated through the ROC curve. .
  • stenosis prediction model From the mel spectrogram of a specific patient included in the validation data set, whether or not stenosis of 50% or more of the dialysis access route (arteriovenous fistula, etc.) should be suspected can be obtained in a YES/NO manner.
  • the stenosis prediction model When the stenosis prediction model is run, it is possible to know whether the stenosis is less than 50% or more than 50% by displaying 0 and 1 for each mel spectrogram as an output.
  • an additional test for stenosis of the dialysis access is recommended. There is a possibility that it is not possible. Please visit the nearest hospital as additional tests such as Doppler ultrasound or angiography are required.” Recommendations such as, etc. may also be output together. If the mel spectrogram of a specific patient included in the validation data set is suspected of having 50% or more of dialysis access route (arteriovenous fistula, etc.) stenosis, the degree of suspicion of the stenosis prediction model can be output as a percentage value.
  • the stenosis prediction model predicts that there will be 50% or more stenosis at about 94%.
  • the learning process, tuning process, and verification process of the narrow prediction model using the ResNet50 model as shown in the code below are as follows.
  • Keras SGD stochastic gradient descent
  • RMSprop Adam
  • Adadelta Adadelta
  • SGD is used, but it is not limited to SGD.
  • the learning rate is generally set to a value between 0.1 and 0.01, and the momentum is set to 0.9. In the present invention, 0.02 was set as the learning rate.
  • the coefficient ⁇ ( ⁇ 1) is usually set to a value such as 0.5 or 0.9.
  • the accuracy can be increased quickly in the early epoch.
  • n_points len(filelist_train) #Number of train data (string length)
  • nb_tune_samples len(filelist_tune) #Number of tune data
  • the mel spectrogram Since the mel spectrogram has already been separated and saved by dividing it into pre and post files, it is 1 when loading from PRE_PATH + filename and 0 when loading from POST_PATH + filename while learning and making a model.
  • accuracy is the accuracy of the model on the training-set
  • val_accuracy is the accuracy of the model on the tuning-set.
  • tuning is usually a tuning step to determine the model of the epoch with the best accuracy and val_accuracy.
  • tuning is determined by the Epoch 9/10 model. So, after determining the Epoch 9 train weight, apply the model to the validation set to see how well it predicts.
  • Y_pred Y_pred[:len(filelist_val),:] print(filelist_val) print(Y_pred)
  • Operations according to the present embodiments may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer readable storage medium.
  • a computer readable storage medium refers to any medium that participates in providing instructions to a processor for execution.
  • a computer readable storage medium may include program instructions, data files, data structures, or combinations thereof. For example, there may be a magnetic medium, an optical recording medium, a memory, and the like.
  • the computer program may be distributed over networked computer systems so that computer readable codes are stored and executed in a distributed manner. Functional programs, codes, and code segments for implementing this embodiment may be easily inferred by programmers in the art to which this embodiment belongs.

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Veterinary Medicine (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Acoustics & Sound (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physiology (AREA)
  • Cardiology (AREA)
  • Signal Processing (AREA)
  • Psychiatry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Vascular Medicine (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • External Artificial Organs (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)

Abstract

본 발명의 바람직한 실시예에 따른 합성곱 신경망을 이용한 투석 접근로의 협착 예측 방법 및 장치는, 합성곱 신경망(convolutional neural network, CNN)을 포함하는 협착 예측 모델을 기반으로, 대상체의 투석 접근로에 대한 오디오 데이터로부터 해당 투석 접근로의 협착 정도를 예측함으로써, 보다 정확하게 투석 접근로의 협착 정도를 예측할 수 있으며, 이에 따라 추가적인 검사 및 처치를 안내할 수 있다.

Description

합성곱 신경망을 이용한 투석 접근로의 협착 예측 방법 및 장치
본 발명은 합성곱 신경망을 이용한 투석 접근로의 협착 예측 방법 및 장치에 관한 것으로서, 더욱 상세하게는 치료를 필요로 하는 임상적으로 유의미한 협착을 동반한 투석 접근로를 진단하는, 방법 및 장치에 관한 것이다.
동정맥루 등과 같은 투석 접근로의 이상 여부 확인은 촉진과 청진에 많이 의존하고 있는 실정이다. 실제로 협착 부위 전후에 따라서 촉진을 했을 때 만져지는 진동(thrill)과 박동(pulsation)이 부위에 따라 큰 차이를 보이게 된다. 촉진상 진동은 청진기를 사용했을 때 가청 주파수 범위의 고강도 잡음(high pitch bruit)과 같은 진동음으로 들릴 수 있는데, 마찬가지로 잡음(bruit)의 유무 및 강도로 동정맥루의 협착과 폐쇄를 간접적으로 진단할 수 있으나, 청음에 숙달된 의사가 적을 뿐 아니라, 청음에 대한 판단에도 주관적인 요소가 많이 개입되어 혈관 확장술과 같은 치료를 요하는 의미있는 협착을 객관적으로 감별하기가 쉽지않다.
본 발명이 이루고자 하는 목적은, 합성곱 신경망(convolutional neural network, CNN)을 포함하는 협착 예측 모델을 기반으로, 대상체의 투석 접근로에 대한 오디오 데이터로부터 해당 투석 접근로의 협착 정도를 예측하는, 합성곱 신경망을 이용한 투석 접근로의 협착 예측 방법 및 장치를 제공하는 데 있다.
본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론할 수 있는 범위 내에서 추가적으로 고려될 수 있다.
상기의 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 합성곱 신경망을 이용한 투석 접근로의 협착 예측 방법은, 대상체의 투석 접근로에 대한 오디오 데이터를 획득하는 단계; 및 기 학습된 합성곱 신경망(convolutional neural network, CNN)을 포함하는 협착 예측 모델을 기반으로, 상기 오디오 데이터에 대응되는 협착 정도를 예측하는 단계;를 포함한다.
여기서, 상기 오디오 데이터 획득 단계는, 상기 오디오 데이터를 전처리하는 것으로 이루어지며, 상기 협착 정도 예측 단계는, 전처리된 상기 오디오 데이터를 상기 협착 예측 모델에 입력하고, 상기 협착 예측 모델의 출력값을 기반으로 상기 오디오 데이터에 대응되는 협착 정도를 예측하는 것으로 이루어질 수 있다.
여기서, 상기 오디오 데이터 획득 단계는, 상기 오디오 데이터에서 미리 설정된 구간의 상기 오디오 데이터를 획득하고, 미리 설정된 구간의 상기 오디오 데이터를 기반으로 스펙트로그램(spectrogram)을 획득하며, 획득한 상기 스펙트로그램(spectrogram)을 정규화하고, 정규화한 상기 스펙트로그램(spectrogram)의 크기를 조정하는 것으로 이루어질 수 있다.
여기서, 시술 전에 획득한 투석 접근로에 대한 제1 오디오 데이터 및 시술 후에 획득한 투석 접근로에 대한 제2 오디오 데이터를 포함하는 학습 데이터 세트를 기반으로, 상기 협착 예측 모델을 학습하는 단계;를 더 포함할 수 있다.
여기서, 상기 협착 예측 모델은, 스펙트로그램(spectrogram)을 입력으로 하고, 협착 정도 값을 출력으로 할 수 있다.
여기서, 상기 협착 예측 모델 학습 단계는, 상기 학습 데이터 세트를 전처리하고, 상기 제1 오디오 데이터는 제1 정답 레이블(label)로 하고 상기 제2 오디오 데이터는 제2 정답 레이블(label)로 하여, 전처리한 상기 학습 데이터 세트를 기반으로 상기 협착 예측 모델을 학습하는 것으로 이루어질 수 있다.
여기서, 상기 협착 예측 모델 학습 단계는, 상기 학습 데이터 세트에 포함된 오디오 데이터 각각에 대하여, 상기 오디오 데이터에서 미리 설정된 구간의 상기 오디오 데이터를 획득하고, 미리 설정된 구간의 오디오 데이터를 기반으로 스펙트로그램(spectrogram)을 획득하며, 획득한 상기 스펙트로그램(spectrogram)을 정규화하고, 정규화한 상기 스펙트로그램(spectrogram)을 수평 시프팅(horizontal shifting)하여 개수를 증량하며, 증량된 상기 스펙트로그램(spectrogram)의 크기를 조정하여, 상기 학습 데이터 세트를 전처리하는 것으로 이루어질 수 있다.
여기서, 상기 협착 예측 모델 학습 단계는, 전처리한 상기 학습 데이터 세트를 미리 설정된 기준에 따라 훈련 데이터 세트, 튜닝 데이터 세트 및 검증 데이터 세트로 구분하고, 상기 협착 예측 모델을 상기 훈련 데이터 세트를 이용하여 학습하며, 학습된 상기 협착 예측 모델을 상기 튜닝 데이터 세트를 이용하여 튜닝하고, 튜닝된 상기 협착 예측 모델을 상기 검증 데이터 세트를 이용하여 검증하는 것으로 이루어질 수 있다.
상기의 기술적 과제를 달성하기 위한 본 발명의 바람직한 실시예에 따른 컴퓨터 프로그램은 컴퓨터 판독 가능한 저장 매체에 저장되어 상기한 합성곱 신경망을 이용한 투석 접근로의 협착 예측 방법 중 어느 하나를 컴퓨터에서 실행시킨다.
상기의 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 합성곱 신경망을 이용한 투석 접근로의 협착 예측 장치는, 합성곱 신경망(convolutional neural network, CNN)을 이용하여 투석 접근로의 협착을 예측하는 협착 예측 장치로서, 합성곱 신경망(CNN)을 이용하여 투석 접근로의 협착을 예측하기 위한 하나 이상의 프로그램을 저장하는 메모리; 및 상기 메모리에 저장된 상기 하나 이상의 프로그램에 따라 합성곱 신경망(CNN)을 이용하여 투석 접근로의 협착을 예측하기 위한 동작을 수행하는 하나 이상의 프로세서;를 포함하며, 상기 프로세서는, 대상체의 투석 접근로에 대한 오디오 데이터를 획득하고, 기 학습된 합성곱 신경망(CNN)을 포함하는 협착 예측 모델을 기반으로, 상기 오디오 데이터에 대응되는 협착 정도를 예측한다.
여기서, 상기 프로세서는, 상기 오디오 데이터를 전처리하며, 전처리된 상기 오디오 데이터를 상기 협착 예측 모델에 입력하고, 상기 협착 예측 모델의 출력값을 기반으로 상기 오디오 데이터에 대응되는 협착 정도를 예측할 수 있다.
여기서, 상기 프로세서는, 시술 전에 획득한 투석 접근로에 대한 제1 오디오 데이터 및 시술 후에 획득한 투석 접근로에 대한 제2 오디오 데이터를 포함하는 학습 데이터 세트를 기반으로, 상기 협착 예측 모델을 학습할 수 있다.
여기서, 상기 프로세서는, 상기 학습 데이터 세트를 전처리하며, 상기 제1 오디오 데이터는 제1 정답 레이블(label)로 하고 상기 제2 오디오 데이터는 제2 정답 레이블(label)로 하여, 전처리한 상기 학습 데이터 세트를 기반으로 상기 협착 예측 모델을 학습할 수 있다.
본 발명의 바람직한 실시예에 따른 합성곱 신경망을 이용한 투석 접근로의 협착 예측 방법 및 장치에 의하면, 합성곱 신경망(convolutional neural network, CNN)을 포함하는 협착 예측 모델을 기반으로, 대상체의 투석 접근로에 대한 오디오 데이터로부터 해당 투석 접근로의 협착 정도를 예측함으로써, 보다 정확하게 투석 접근로의 협착 정도를 예측할 수 있으며, 이에 따라 추가적인 검사 및 처치를 안내할 수 있다.
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 바람직한 실시예에 따른 합성곱 신경망을 이용한 투석 접근로의 협착 예측 장치를 설명하기 위한 블록도이다.
도 2는 본 발명의 바람직한 실시예에 따른 합성곱 신경망을 이용한 투석 접근로의 협착 예측 방법을 설명하기 흐름도이다.
도 3은 본 발명의 바람직한 실시예에 따른 협착 예측 모델의 학습 과정을 설명하기 위한 도면이다.
도 4는 도 3에 도시한 학습 데이터 세트의 전처리 과정을 설명하기 위한 도면이다.
도 5는 본 발명의 바람직한 실시예에 따른 협착 예측 모델을 이용한 협착 정도 예측 과정을 설명하기 위한 도면이다.
도 6은 도 5에 도시한 오디오 데이터의 전처리 과정을 설명하기 위한 도면이다.
도 7은 본 발명의 바람직한 실시예에 따른 협착 예측 모델 학습 과정과 협착 정도 예측 과정의 일례를 설명하기 위한 도면이다.
도 8은 본 발명의 바람직한 실시예에 따른 스펙트로그램(spectrogram) 획득 과정의 일례를 설명하기 위한 도면이다.
도 9는 도 8에 도시된 과정을 통해 획득한 스펙트로그램(spectrogram)의 일례를 나타내는 도면이다.
도 10은 도 8에 도시된 과정을 통해 획득한 스펙트로그램(spectrogram)의 일례를 나타내는 도면으로, 도 10의 (a)는 시술 전에 획득한 투석 접근로에 대한 오디오 데이터를 기반으로 획득한 스펙트로그램(spectrogram)을 나타내고, 도 10의 (b)는 시술 후에 획득한 투석 접근로에 대한 오디오 데이터를 기반으로 획득한 스펙트로그램(spectrogram)을 나타낸다.
도 11은 본 발명의 바람직한 실시예에 따른 협착 예측 모델의 성능을 설명하기 위한 도면으로, 도 11의 (a)는 혼동 행렬(confusion matrix)을 나타내고, 도 11의 (b)는 ROC(receiver operation characteristic) 곡선을 나타낸다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 게시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
본 명세서에서 "제1", "제2" 등의 용어는 하나의 구성 요소를 다른 구성 요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예컨대, 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.
본 명세서에서 각 단계들에 있어 식별부호(예컨대, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
본 명세서에서, "가진다", "가질 수 있다", "포함한다" 또는 "포함할 수 있다" 등의 표현은 해당 특징(예컨대, 수치, 기능, 동작, 또는 부품 등의 구성 요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
이하에서 첨부한 도면을 참조하여 본 발명에 따른 합성곱 신경망을 이용한 투석 접근로의 협착 예측 방법 및 장치의 바람직한 실시예에 대해 상세하게 설명한다.
먼저, 도 1을 참조하여 본 발명의 바람직한 실시예에 따른 합성곱 신경망을 이용한 투석 접근로의 협착 예측 장치에 대하여 설명한다.
도 1은 본 발명의 바람직한 실시예에 따른 합성곱 신경망을 이용한 투석 접근로의 협착 예측 장치를 설명하기 위한 블록도이다.
도 1을 참조하면, 본 발명의 바람직한 실시예에 따른 합성곱 신경망을 이용한 투석 접근로의 협착 예측 장치(100)는 합성곱 신경망(convolutional neural network, CNN)을 포함하는 협착 예측 모델을 기반으로, 대상체의 투석 접근로(동정맥루 등)에 대한 오디오 데이터로부터 해당 투석 접근로의 협착 정도를 예측할 수 있다.
이를 위해, 협착 예측 장치(100)는 하나 이상의 프로세서(110), 컴퓨터 판독 가능한 저장 매체(130) 및 통신 버스(150)를 포함할 수 있다.
프로세서(110)는 협착 예측 장치(100)가 동작하도록 제어할 수 있다. 예컨대, 프로세서(110)는 컴퓨터 판독 가능한 저장 매체(130)에 저장된 하나 이상의 프로그램(131)을 실행할 수 있다. 하나 이상의 프로그램(131)은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 컴퓨터 실행 가능 명령어는 프로세서(110)에 의해 실행되는 경우 협착 예측 장치(100)로 하여금 합성곱 신경망(CNN)을 이용하여 투석 접근로의 협착을 예측하기 위한 동작을 수행하도록 구성될 수 있다.
컴퓨터 판독 가능한 저장 매체(130)는 합성곱 신경망(CNN)을 이용하여 투석 접근로의 협착을 예측하기 위한 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능한 저장 매체(130)에 저장된 프로그램(131)은 프로세서(110)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능한 저장 매체(130)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 협착 예측 장치(100)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.
통신 버스(150)는 프로세서(110), 컴퓨터 판독 가능한 저장 매체(130)를 포함하여 협착 예측 장치(100)의 다른 다양한 컴포넌트들을 상호 연결한다.
협착 예측 장치(100)는 또한 하나 이상의 입출력 장치를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(170) 및 하나 이상의 통신 인터페이스(190)를 포함할 수 있다. 입출력 인터페이스(170) 및 통신 인터페이스(190)는 통신 버스(150)에 연결된다. 입출력 장치(도시하지 않음)는 입출력 인터페이스(170)를 통해 협착 예측 장치(100)의 다른 컴포넌트들에 연결될 수 있다.
그러면, 도 2 내지 도 6을 참조하여 본 발명의 바람직한 실시예에 따른 합성곱 신경망을 이용한 투석 접근로의 협착 예측 방법에 대하여 설명한다.
도 2는 본 발명의 바람직한 실시예에 따른 합성곱 신경망을 이용한 투석 접근로의 협착 예측 방법을 설명하기 흐름도이고, 도 3은 본 발명의 바람직한 실시예에 따른 협착 예측 모델의 학습 과정을 설명하기 위한 도면이며, 도 4는 도 3에 도시한 학습 데이터 세트의 전처리 과정을 설명하기 위한 도면이고, 도 5는 본 발명의 바람직한 실시예에 따른 협착 예측 모델을 이용한 협착 정도 예측 과정을 설명하기 위한 도면이며, 도 6은 도 5에 도시한 오디오 데이터의 전처리 과정을 설명하기 위한 도면이다.
도 2를 참조하면, 협착 예측 장치(100)의 프로세서(110)는 학습 데이터 세트를 기반으로 협착 예측 모델을 학습할 수 있다(S110).
여기서, 협착 예측 모델은 합성곱 신경망(CNN)을 포함하며, 스펙트로그램(spectrogram)을 입력으로 하고, 협착 정도 값을 출력으로 할 수 있다. 예컨대, 협착 정도 값은 투석 접근로의 협착 정도가 50% 이상일 확률을 나타내는 값으로, 0 ~ 1 사이의 값을 가질 수 있다.
그리고, 학습 데이터 세트는 혈관 확장술의 시술 전에 획득한 투석 접근로에 대한 제1 오디오 데이터 및 혈관 확장술의 시술 후에 획득한 투석 접근로에 대한 제2 오디오 데이터를 포함할 수 있다. 예컨대, 혈관 확장술을 시술하기 전에 환자의 투석 접근로(동정맥루 등)에 대한 오디오 데이터(20Hz ~ 1,000Hz 사이의 가청 주파수 대역의 소리)를 전자 청진기 등을 이용하여 획득할 수 있다. 이와 동일하게, 혈관 확장술을 시술한 후에 환자의 투석 접근로(동정맥루 등)에 대한 오디오 데이터를 전자 청진기 등을 이용하여 획득할 수 있다.
예컨대, 프로세서(110)는 도 3에 도시된 바와 같이, "학습 데이터 세트의 전처리 과정" -> "협착 예측 모델의 학습 과정" -> "협착 예측 모델의 튜닝 과정" -> "협착 예측 모델의 검증 과정"을 거쳐, 최종 협착 예측 모델을 학습할 수 있다.
즉, 프로세서(110)는 학습 데이터 세트를 전처리할 수 있다.
도 4를 참조하여 보다 자세하게 설명하면, 프로세서(110)는 학습 데이터 세트에 포함된 오디오 데이터 각각에 대해 아래와 같은 과정을 거쳐 전처리할 수 있다.
프로세서(110)는 오디오 데이터에서 미리 설정된 구간의 오디오 데이터를 획득할 수 있다. 예컨대, 프로세서(110)는 잡음 등의 영향을 제거하기 위해, 미리 설정된 구간(2초 ~ 8초 등)의 오디오 데이터를 추출할 수 있다.
프로세서(110)는 미리 설정된 구간의 오디오 데이터를 기반으로 스펙트로그램(spectrogram)을 획득할 수 있다. 예컨대, 프로세서(110)는 푸리에 변환(Fourier transform, FT) 등을 이용하여 오디오 데이터를 스펙트로그램(spectrogram)으로 변환할 수 있다.
프로세서(110)는 획득한 스펙트로그램(spectrogram)을 정규화(normalization)할 수 있다.
프로세서(110)는 데이터 증강(data augmentation)을 수행하기 전에, 정규화화한 스펙트로그램(spectrogram)에서 불필요 영역(가장자리 경계 영역 등)을 제거할 수 있다.
프로세서(110)는 정규화한 스펙트로그램(spectrogram)을 수평 시프팅(horizontal shifting)하여 개수를 증량할 수 있다. 예컨대, 프로세서(110)는 스펙트로그램(spectrogram)을 기준으로 시간 축에서 복수회 수평 시프팅(horizontal shifting)하여 스펙트로그램(spectrogram)의 개수를 증가시킬 수 있다.
프로세서(110)는 증량된 스펙트로그램(spectrogram)의 크기를 조정할 수 있다. 예컨대, 프로세서(110)는 스펙트로그램(spectrogram)의 크기가 미리 설정된 크기(예컨대, 512 × 512 등)로 감소되도록 크기 조정을 할 수 있다.
그런 다음, 프로세서(110)는 제1 오디오 데이터는 제1 정답 레이블(label)로 하고 제2 오디오 데이터는 제2 정답 레이블(label)로 하여, 전처리한 학습 데이터 세트를 기반으로 협착 예측 모델을 학습할 수 있다.
여기서, 제1 정답 레이블은 투석 접근로의 협착 정도가 50% 이상인 상태를 나타내며, 예컨대 '1'로 설정될 수 있다. 제2 정답 레이블은 투석 접근로의 협착 정도가 50% 미만인 상태를 나타내며, 예컨대 '0'으로 설정될 수 있다.
보다 자세하게 설명하면, 프로세서(110)는 전처리된 학습 데이터 세트를 기반으로 아래와 같은 과정을 거쳐 협착 예측 모델을 학습할 수 있다.
프로세서(110)는 전처리한 학습 데이터 세트를 미리 설정된 기준에 따라 훈련 데이터 세트, 튜닝 데이터 세트 및 검증 데이터 세트로 구분할 수 있다. 예컨대, 프로세서(110)는 미리 설정된 비율인 "7:2:1"에 따라, 학습 데이터 세트의 제1 오디오 데이터 세트를 훈련 데이터 세트, 튜닝 데이터 세트 및 검증 데이터 세트로 구분하고, 학습 데이터 세트의 제2 오디오 세트를 훈련 데이터 세트, 튜닝 데이터 세트 및 검증 데이터 세트로 구분할 수 있다.
프로세서(110)는 협착 예측 모델을 훈련 데이터 세트를 이용하여 학습할 수 있다.
프로세서(110)는 학습된 협착 예측 모델을 튜닝 데이터 세트를 이용하여 튜닝할 수 있다.
프로세서(110)는 튜닝된 협착 예측 모델을 검증 데이터 세트를 이용하여 검증할 수 있다.
이후, 프로세서(110)는 대상체의 투석 접근로에 대한 오디오 데이터를 획득할 수 있다(S130).
예컨대, 프로세서(110)는 도 5에 도시된 바와 같이, "오디오 데이터의 획득 과정" -> "오디오 데이터의 전처리 과정"을 거쳐, 오디오 데이터를 획득할 수 있다.
즉, 프로세서(110)는 대상체의 투석 접근로에 대한 오디오 데이터를 획득할 수 있다. 예컨대, 협착 정도를 판단할 대상 환자의 투석 접근로(동정맥루 등)에 대한 오디오 데이터(20Hz ~ 1,000Hz 사이의 가청 주파수 대역의 소리)를 전자 청진기 등을 이용하여 획득할 수 있다.
그리고, 프로세서(110)는 획득한 오디오 데이터를 전처리할 수 있다.
도 6을 참조하여 보다 자세하게 설명하면, 프로세서(110)는 오디오 데이터에 대해 아래와 같은 과정을 거쳐 전처리할 수 있다.
프로세서(110)는 오디오 데이터에서 미리 설정된 구간의 오디오 데이터를 획득할 수 있다. 예컨대, 프로세서(110)는 잡음 등의 영향을 제거하기 위해, 미리 설정된 구간(2초 ~ 8초 등)의 오디오 데이터를 추출할 수 있다.
프로세서(110)는 미리 설정된 구간의 오디오 데이터를 기반으로 스펙트로그램(spectrogram)을 획득할 수 있다. 예컨대, 프로세서(110)는 푸리에 변환(FT) 등을 이용하여 오디오 데이터를 스펙트로그램(spectrogram)으로 변환할 수 있다.
프로세서(110)는 획득한 스펙트로그램(spectrogram)을 정규화(normalization)할 수 있다.
프로세서(110)는 정규화한 스펙트로그램(spectrogram)의 크기를 조정할 수 있다. 예컨대, 프로세서(110)는 스펙트로그램(spectrogram)의 크기가 미리 설정된 크기(예컨대, 512 × 512 등)로 감소되도록 크기 조정을 할 수 있다.
그런 다음, 프로세서(110)는 기 학습된 협착 예측 모델을 기반으로, 오디오 데이터에 대응되는 협착 정도를 예측할 수 있다(S150).
예컨대, 프로세서(110)는 도 5에 도시된 바와 같이, "전처리된 오디오 데이터의 입력 과정" -> "협착 예측 모델의 출력값 획득 과정" -> "협착 정도 예측 과정"을 거쳐, 대상체의 투석 접근로의 협착 정도를 예측할 수 있다.
즉, 프로세서(110)는 전처리된 오디오 데이터를 협착 예측 모델에 입력할 수 있다.
그리고, 프로세서(110)는 협착 예측 모델의 출력값을 기반으로 오디오 데이터에 대응되는 협착 정도를 예측할 수 있다.
예컨대, 협착 예측 모델의 출력값(즉, 협착 정도 값)이 "0.95"인 경우, 해당 대상체의 투석 접근로의 협착 정도가 50% 이상일 확률이 "95%"라는 것을 나타낸다. 이에 따라, 프로세서(110)는 해당 대상체의 협착 정도를 "95%"로 예측할 수 있다.
물론, 프로세서(110)는 협착 예측 모델의 출력값(즉, 협착 정도 값)을 미리 설정된 임계값(예컨대, 0.5 등)과 대비하여, 출력값(즉, 협착 정도 값)이 임계값 이상인 경우에는 "협착 의심" 등으로 해당 대상체의 협착 정도를 예측할 수 있고, 출력값(즉, 협착 정도 값)이 임계값 미만인 경우에는 "협착 아님" 등으로 해당 대상체의 협착 정도를 예측할 수도 있다.
그러면, 도 7 내지 도 11을 참조하여 본 발명의 바람직한 실시예에 따른 합성곱 신경망을 이용한 투석 접근로의 협착 예측 방법의 일례와 성능에 대하여 설명한다.
도 7은 본 발명의 바람직한 실시예에 따른 협착 예측 모델 학습 과정과 협착 정도 예측 과정의 일례를 설명하기 위한 도면이고, 도 8은 본 발명의 바람직한 실시예에 따른 스펙트로그램(spectrogram) 획득 과정의 일례를 설명하기 위한 도면이며, 도 9는 도 8에 도시된 과정을 통해 획득한 스펙트로그램(spectrogram)의 일례를 나타내는 도면이고, 도 10은 도 8에 도시된 과정을 통해 획득한 스펙트로그램(spectrogram)의 일례를 나타내는 도면으로, 도 10의 (a)는 시술 전에 획득한 투석 접근로에 대한 오디오 데이터를 기반으로 획득한 스펙트로그램(spectrogram)을 나타내고, 도 10의 (b)는 시술 후에 획득한 투석 접근로에 대한 오디오 데이터를 기반으로 획득한 스펙트로그램(spectrogram)을 나타내며, 도 11은 본 발명의 바람직한 실시예에 따른 협착 예측 모델의 성능을 설명하기 위한 도면으로, 도 11의 (a)는 혼동 행렬(confusion matrix)을 나타내고, 도 11의 (b)는 ROC(receiver operation characteristic) 곡선을 나타낸다.
도 7을 참조하면, 본 발명의 바람직한 실시예에 따른 합성곱 신경망을 이용한 투석 접근로의 협착 예측 방법의 일례는 크게 "이미지 전처리 과정(도 7에 도시된 Image Preprocessing)" 및 "딥 러닝 프로세스(도 7에 도시된 Deep Learning Process)"로 이루어지는 협착 예측 모델 학습 과정과, "환자의 오디오 데이터 전처리 과정(도 7에 도시된 User)", "딥 러닝 프로세스(도 7에 도시된 Deep Learning Process)" 및 "환자의 협착 정도 예측 과정(도 7에 도시된 Output)"으로 이루어지는 협착 정도 예측 과정을 포함할 수 있다.
협착 예측 모델에 입력되는 데이터(협착 예측 모델의 학습에 이용되는 학습 데이터 세트에 포함된 오디오 데이터 또는 협착 정도를 판단할 대상체의 오디오 데이터)는 멜 스펙트로그램(mel spectrogram)으로, 512 × 512 크기를 가지고 RGB 채널 개수가 3개인 이미지 파일일 수 있다.
전자 청진기 등을 통해 환자의 투석 접근로(동정맥루 등)의 청음을 녹음한 오디오 파일을 획득할 수 있다. 약 10초 동안 녹음을 진행하였으나, 사람이 직접 녹음하는 경우, 오디오 파일의 재생 시간이 파일별로 차이가 있을 수 있고, 녹음을 시작할 때와 끝낼 때 청진기를 만지는 등 잡음이 오디오 파일에 들어갈 수 있기 때문에, 이와 같은 잡음 등을 제거하기 위해서 각 오디오 파일의 2초부터 8초가 되는 시간, 즉 6초간의 오디오 데이터를 실제 사용하였다.
trim_wav(DATA_DIR + fname, DATA_DIR2 + fname, 2, 8)
이후, 오디오 파일을 특정 샘플링 레이트(sampling rate)에 따라 샘플링을 하여 뉴메릭 넘버(numeric number)를 어레이(array) 형태로 저장할 수 있다.
y, sr = librosa.load(.wav)
여기서, sr를 특정 값으로 설정할 수 있지만 본 발명에서는 네이티브 샘플링 레이트(native sampling rate)를 사용했기에 sr=None으로 설정하였다. 이렇게 되면 샘플링 interval(x-축, time) vs. amplitude(y축) 그래프를 만들 수 있는데 이는 분석에는 그리 유용하지 못한다. 소리는 기본적으로 특정 주파수를 가진 sin 함수들의 합이라고 볼 수 있는데, 위에서 구한 y 파형을 주파수 분석을 통해서 특정 시간에 각 주파수 성분이 어떻게 구성이 되어 있는지 확인할 수 있는데, 이 방법이 바로 푸리에 변환(FT)이며, 즉 푸리에 방정식을 풀면, amplitude vs. time 그래프를 frequency vs. time 그래프로 바꿀 수 있고, 본 발명에서는 푸리에 변환(FT)으로 STFT(short time Fourier transform)를 사용하였다.
S = librosa.feature.melspectrogram(y=y, n_mels=40, n_fft=input_nfft, hop_length=input_stride, fmin=fmin, fmax=fmax)
여기서, fmax는 분석 범위를 결정하는 maximum frequency인데, 보통 Nyquist 법칙에 따라 maximum frequency는 sampling rate/2인 값으로 결정한다. 이런 방식으로 STFT를 했을 때 얼마나 나누어 분석을 진행할 것인지 여부는 도 8에 도시된 Hop Length로 결정할 수 있다. n_fft가 분석할 FFT length(또는 window length)이고, 이는 25 msec으로 결정하였다. Hop Length는 10 msec으로 해서 1 칸당 15 msec(Overlap Length)가 겹치도록 설정을 하였다.
이 방식으로 도 9에 도시된 바와 같은 멜 스펙트로그램(mel spectrogram)을 획득할 수 있다. X 축은 time이고, Y-축은 frequency이며, 특정 시간대의 특정 주파수의 세기, 데시벨은 색상으로 표현할 수 있다.
하지만, 실제 멜 스펙트로그램(mel spectrogram)을 이용해서 학습을 시킬 때는 특징 추출(feature extraction)을 해야 하는데, 멜 스펙트로그램(mel spectrogram)에서 색상으로 표현되는 스펙트로그램(spectrogram)의 파워(power)의 분간 능력을 키우고 데이터의 균일성을 위해서는 스펙트로그램(spectrogram)의 정규화(normalization)가 필요하다. 즉, 녹음할 때마다 들어가는 잡음의 정도가 다를 수 있고, 협착 정도에 따라 특정 주파수에서 더 큰 파워(power)의 음파가 녹음될 수 있기 때문에, 그리고 협착 예측 모델을 학습시킬 때 특징(feature)을 최대한 잘 인식할 수 있도록 하기 위해, 스펙트로그램(spectrogram)의 정규화(normalization)를 진행하여야 한다.
def normalize_mel(S):
return np.clip((S-min_level_db)/-min_level_db, 0, 1)
def norm_mel(a):
norm_log_S = normalize_mel(librosa.power_to_db(a, ref=np.max))
return norm_log_S
S = librosa.feature.melspectrogram(y=y, n_mels=40, n_fft=input_nfft,
hop_length=input_stride, fmin=fmin, fmax=fmax)
S_re = norm_mel(S)
위와 같은 방식으로 각 오디오 파일로부터 멜 스펙트로그램(mel spectrogram)을 획득할 수 있고, 혈관 확장술의 시술 전과 시술 후의 스펙트로그램(spectrogram)의 예시는 도 10에 도시된 바와 같다. 도 10의 (a)는 혈관 확장술의 시술 전 멜 스펙트로그램(mel spectrogram)이고, 도 10의 (b)는 혈관 확장술의 시술 후 멜 스펙트로그램(mel spectrogram)이다. 시술 후 투석 접근로(동정맥루 등)의 협착 정도가 호전되면서 높은 주파수에서 더 큰 파워(power)의 스펙트로그램(spectrogram)이 보이는 것을 확인할 수 있다. 실제로 시술 전과 시술 후에 녹음한 청음을 들으면 시술 후 청음이 더 크고 잘 들리게 개선되는 것을 확인할 수 있다. 이렇게 얻은 멜 스펙트로그램(mel spectrogram)은 혈관 확장술의 시술 전에 얻은 경우, 협착 정도가 50% 이상(실제 혈관 조영술에서 동정맥루 협착 부위와 정상 혈관의 직경 값을 비교하여 계산함)이므로 제1 정답 레이블인 "pre (1)"로 레이블(label)해서 폴더에 저장하고, 혈관 확장술의 시술 후에 얻은 경우, 협착 정도가 50% 미만(실제 혈관 조영술에서 협착 정도가 50% 미만으로 확인된 경우)이므로 제2 정답 레이블인 "post (0)"으로 레이블(label)해서 폴더에 저장하였다.
그리고, 도 9에 도시된 바와 같이, 멜 스펙트로그램(mel spectrogram)의 가장자리 영역을 둘러싸고 있는 하얀 경계가 있다. 이 경계를 더 극명하게 보이게 하기 위해 가장자리 파란선은 임의적으로 표시하였다.
협착 예측 모델을 학습시키기 위해서는 멜 스펙트로그램(mel spectrogram)의 데이터 수를 증량해야 하는데, 이때 수평 시프팅(horizontal shifting) 방법을 사용한다. 고양이를 인식하는 합성곱 신경망을 개발할 때는, 원본 고양이 사진에 여러 각도를 주거나 vertical/horizontal flip과 같은 기법을 써서 사진을 증폭시켜 학습시킬 수 있지만, 멜 스펙트로그램(mel spectrogram)은 일반적인 고양이 사진과 달리 x축, y축, z축 값과 의미가 정해져 있는 vector 그램이기에, 데이터 증량이 가능한 방법은 수평 시프팅(horizontal shift) 방법 밖에 없다. 수평 시프트(horizontal shift)로 얻은 데이터는 현실적으로 같은 환자를 녹음해도 녹음 시작 시간과 종료 시간이 다르면 얻을 수 있는 결과물이기 때문에 학습 데이터로 이용하여도 무방하다. 즉, 수평 시프팅(horizontal shifting)을 사용한 이유는 현실에서도 녹음 시작 시간과 종료 시간에 따라 멜 스펙트로그램(mel spectrogram)이 x축(=time)을 따라 이동할 수 있기 때문이다. 멜 스펙트로그램(mel spectrogram)에 보이는 반복적인 피크(peak)가 sin(x) 또는 cos(x) 함수라고 생각했을 때, 녹음 시간 범위를 어떻게 설정하냐에 따라 캡쳐되는 웨이브(wave)가 sin(x+a) 또는 cos (x+a)처럼 보일 수 있다.
이러한 데이터 증량은 아래와 같은 ImageDataGenerator를 이용하였다.
from keras.preprocessing.image import ImageDataGenerator, array_to_img, img_to_array, load_img
data_aug_gen = ImageDataGenerator(rescale=1./255,
rotation_range= 0,
width_shift_range=0.9,
height_shift_range= 0,
shear_range=0,
#zoom_range=[0.8, 2.0],
horizontal_flip= False,
vertical_flip= False,
fill_mode='wrap')
# 이 for는 무한으로 반복되기 때문에 원하는 반복 횟수를 지정하여, 지정된 반복 횟수가 되면 빠져 나오도록 해야한다.
for batch in data_aug_gen.flow(x, batch_size=1, save_to_dir =DATA_DIR9, save_prefix='aug', save_format='png'):
i += 1
if i > 50:
break
위의 코드를 보면 수평 시프팅(horizontal shifting)을 위해 width shift range를 0.9로 설정한 것을 볼 수 있다. 위의 코드에서는 증량을 50배(i > 50)로 설정, 즉, 멜 스펙트로그램(mel spectrogram) 이미지 한 개를 가지고 x축으로 이동하여 50개의 이미지를 생성하였으나, 50은 임의적으로 정한 값이며, 50배에 한정할 필요는 없다. 하지만, 도 9에 도시된 바와 같이, 하얀 가장자리 영역이 있으면 수평 시프트(horizontal shift)를 했을 때 왼쪽이나 오른쪽 끝에 있는 하얀 세로선이 중간에 끼어들어서 멜 스펙트로그램(mel spectrogram) 데이터을 훼손시킬 수 있기 때문에 이러한 하얀 가장 자리 영역을 없애는 전처리를 수행한다.
#trim image to remove white border (no need to designate white 225 225 225, uses pixel (0,0))
def trim(f):
bg = Image.new(f.mode,f.size, f.getpixel((0,0)))
diff = ImageChops.difference(f, bg)
diff = diff = ImageChops.add(diff, diff, 2.0, -100)
bbox = diff.getbbox()
if bbox:
return im.crop(bbox)
그리고, 하얀 가장자리 영역의 왼쪽과 오른쪽 끝에 보이지 않는 검은 선도 함께 제거를 한다.
#crop sides to remove streaky vertical line
def crpim(im):
width, height = im.size
img = im
img_res = img.crop((10,0,width-10,height))
return img_res
이렇게 얻은 멜 스펙트로그램(mel spectrogram)은 아래 방식으로 확인을 해보면 크기가 2328 × 909이다.
import cv2
im = cv2.imread(DATA_DIR6 + 'postex.wav.png')
h, w, c = im.shape
print('width: ', w)
print('height: ', h)
print('channel:', c)

width: 2328
height: 909
channel: 3
이미지의 크기가 너무 크면 협착 예측 모델이 어레이(array)를 단계적으로 압축할 때, 시작 이미지에서 너무 큰 영역이 압축이 되어서 마지막 레이어에 이르렀을 때 시술 전과 시술 후의 멜 스펙트로그램(mel spectrogram)의 값이 유의한 차이를 보이지 못할 가능성이 있다. 또한, 협착 예측 모델의 학습 시간이 오래 걸리기 때문에, 직사각형인 위와 같은 이미지를을 정사각형 사진으로 크기를 조정한다.
img_width, img_height = 512 , 512
#512 x 512 upper limit?
img_channel = 3
img_shape = (img_width, img_height, img_channel)
n_classes = 2
epochs = 10
batch_size = 15
def read_img(img_file_path, height = img_height, width = img_width):
tmp_img = imageio.imread(img_file_path)
tmp_img = tmp_img[:,:,:3] # get rgb channels
tmp_img = tmp_img.astype('float32') #change data type
tmp_img -= np.min(tmp_img)
tmp_img /= np.max(tmp_img)
tmp_img = cv2.resize(tmp_img, (width, height), interpolation = cv2.INTER_CUBIC)
return tmp_img
위의 코드는 512 ×512로 멜 스펙트로그램(mel spectrogram)의 크기를 조정한 예시이며, 위와 같이 크기 조정 후 협착 예측 모델에 입력하게 된다.
학습 데이터 세트는 7:1:2의 비율에 따라 훈련 데이터 세트, 튜닝 데이터 세트 및 검증 데이터 세트로 구분하여 분석을 진행하였다. 이를 위해 train_test_split function을 사용하였으며, train_test_split은 random하게 폴더 내 파일 리스트에 대한 어레이(array)를 training, tuning, validation subset으로 나누어준다.
ratio_train = 0.70
ratio_tune = 0.10
ratio_val = 0.20
filelist_pre = os.listdir(PRE_PATH)
filelist_post = os.listdir(POST_PATH)
Y_pre = np.zeros(len(filelist_pre))
Y_post = np.ones(len(filelist_post))
filelist_train_tune, filelist_val, Y_train_tune, Y_val = train_test_split(filelist, Y, stratify = Y, test_size = ratio_val, random_state=SEED)
filelist_train, filelist_tune, Y_train, Y_tune = train_test_split(filelist_train_tune, Y_train_tune, stratify = Y_train_tune, test_size = (ratio_tune/(1-ratio_val)), random_state=SEED)
그러면, 예를 들어, filelist_tune에는 다음과 같은 melspectrogram.png 파일들이 어레이(array) 형태로 들어가게 된다.
print(filelist_tune)

['aug_0_4960.png' 'aug_0_1335.png' 'aug_0_4483.png' 'aug_0_2761.png'
'aug_0_6022.png' 'aug_0_460.png' 'aug_0_8006.png' 'aug_0_8392.png'
'aug_0_8322.png' 'aug_0_1380.png' 'aug_0_9992.png' 'aug_0_8180.png'
'aug_0_4821.png' 'aug_0_9618.png' 'aug_0_5742.png' 'aug_0_4492.png'
'aug_0_6548.png' 'aug_0_9888.png' 'aug_0_2143.png' 'aug_0_7711.png'
'aug_0_6265.png' 'aug_0_483.png' 'aug_0_6907.png' 'aug_0_2448.png'
'aug_0_9725.png' 'aug_0_5616.png' 'aug_0_1087.png' 'aug_0_5973.png'
'aug_0_813.png' 'aug_0_6349.png' 'aug_0_8544.png' 'aug_0_9848.png'
'aug_0_5402.png' 'aug_0_159.png' 'aug_0_9178.png' 'aug_0_4356.png'
'aug_0_7508.png' 'aug_0_6779.png' 'aug_0_2304.png' 'aug_0_4412.png'
'aug_0_8247.png' 'aug_0_3615.png' 'aug_0_9967.png' 'aug_0_6395.png'
'aug_0_7328.png' 'aug_0_6707.png' 'aug_0_8903.png' 'aug_0_921.png'
'aug_0_1947.png' 'aug_0_7142.png' 'aug_0_5883.png' 'aug_0_217.png'
'aug_0_3444.png' 'aug_0_7394.png' 'aug_0_1708.png' 'aug_0_8178.png'
'aug_0_1137.png' 'aug_0_4933.png' 'aug_0_4119.png' 'aug_0_403.png'
'aug_0_4120.png' 'aug_0_6206.png' 'aug_0_3864.png' 'aug_0_8954.png'
'aug_0_2758.png' 'aug_0_4700.png' 'aug_0_1780.png' 'aug_0_8847.png'
'aug_0_642.png' 'aug_0_9361.png' 'aug_0_7775.png' 'aug_0_4778.png'
'aug_0_6093.png' 'aug_0_1316.png' 'aug_0_374.png' 'aug_0_7731.png'
'aug_0_6636.png' 'aug_0_9439.png' 'aug_0_7850.png' 'aug_0_8797.png']
위의 파일들은 pre=0, post=1이라고 하면, 아래와 같은 형태의 바이너리 어레이(binary array)가 된다.
print(Y_tune)

[0. 1. 1. 1. 0. 0. 0. 1. 1. 0. 1. 1. 0. 0. 1. 1. 0. 0. 0. 1. 1. 1. 1. 0.
1. 1. 1. 1. 0. 0. 0. 1. 0. 1. 0. 0. 1. 0. 1. 1. 0. 1. 1. 1. 0. 0. 1. 0.
1. 1. 1. 1. 0. 0. 1. 1. 0. 1. 1. 0. 0. 1. 0. 1. 0. 1. 1. 0. 0. 1. 1. 0.
1. 1. 1. 1. 1. 0. 0. 0.]
즉, tuning에 file list에 들어간 aug_0_4960.png의 경우 pre(시술 전에 얻음 청음)이기에 0이고 aug_0_1335.png의 경우 post(시술 후 얻음 청음)이기에 1로 어레이(array)에 저장되어 있다.합성곱 신경망(CNN) 모델인 ResNET50 모델을 이용하여 본 발명에 따른 협착 예측 모델의 성능을 시험하였다.
ResNET50은 일반적인 합성곱 신경망(CNN) 모델과 같이, 입력 레이어, 합성곱 레이어, 최대 풀링(max pooling) 레이어, 평균 풀링(average pooling) 레이어 및 출력 레이어로 이루어진다. 여기서, 합성곱 레이어는 50개 레이어로 이루어져 멜 스펙트로그램(mel spectrogram)에서 영상 특징을 추출한다. 최대 풀링(max pooling) 레이어는 합성곱 레이어에서 추출된 특징을 서브 샘플링(sub-sampling)하여 시스템 안전성과 효율성을 높인다. 평균 풀링(average pooling) 레이어는 파라미터(parameter) 수를 줄인다. 출력 레이어는 아래와 같은 값을 출력한다.
즉, 출력 레이어를 통해 출력되는 값은 50% 이상의 투석 접근로 협착에 대한 협착 예측 모델의 예측 능력 및 진단 성적에 대한 값을 출력할 수 있다. 예컨대, 아래의 예시와 같이, sensitivity, specificity, positive predictive value, negative predictive value, accuracy 등에 대한 값을 출력할 수 있다. 이를 기반으로 도 11에 도시된 바와 같은 혼동 행렬(confusion matrix) 및 ROC(receiver operation characteristic) 곡선을 획득할 수 있으며, ROC 곡선을 통해 진단능의 AUC(area under the curve) 값을 산출할 수 있다.
TN = 70 / FP = 0
FN = 18 / TP = 72
sensitivity: 80.0 %
specificity: 100.0 %
Accuracy >> 88.75%
검증 데이터 세트에 포함된 특정 환자의 멜 스펙트로그램(mel spectrogram)으로부터 50% 이상의 투석 접근로(동정맥루 등) 협착을 의심해야 하는지 유무를 YES/NO식으로 결과를 얻을 수 있다. 협착 예측 모델을 돌리면, 출력으로 각 멜 스펙트로그램(mel spectrogram) 마다 0, 1 표시로 50% 미만 또는 50% 이상의 협착 여부를 알 수 있다.
['aug_0_8169.png']
[0.94346315]
ResNet50 모델의 경우 네트워크의 출력값이 x가 되도록 H(x)-x를 최소화하는 방향으로 학습을 진행하기 때문에, 출력이 "0.94346315"로 나왔지만, 이는 1에 근접한 값으로 이러한 경우 50% 이상 협착이 있다고 보면 된다. 이러한 경우 모델을 돌릴 때 print("YES")로 출력할 수 있다. 반대로 아래의 경우 0에 근접한 값이기에 0 또는 50% 이상의 협착이 아닌 50% 미만의 협착으로 인식하고 print("NO")로 출력할 수 있다.
['aug_0_8464.png']
[0.05653682]
50% 이상의 유의미한 협착이 의심되는 경우, 투석 접근로(동정맥루 등) 협착에 대한 추가 검사를 추천하게 되며, "YES"인 경우, "혈액 투석 접근로에 심각한 협착이 의심되므로 혈액 투석이 제대로 이루어지지 않을 가능성 있습니다. 도플러 초음파나 혈관 조영술과 같은 추가 검사를 요하므로 가까운 병원으로 방문하시길 바랍니다." 등과 같은 권장 사항이 함께 출력될 수도 있다. 검증 데이터 세트에 포함된 특정 환자의 멜 스펙트로그램(mel spectrogram)이 50% 이상의 투석 접근로(동정맥루 등) 협착으로 의심되면, 협착 예측 모델이 얼마만큼 의심하는지를 %값으로 출력할 수 있다.
['aug_0_8169.png']
[0.94346315]
이 환자의 멜 스펙트로그램(mel spectrogram)의 경우, 협착 예측 모델이 94% 정도로 50% 이상의 협착이 있을 것으로 예측한다는 것을 의미한다. 아래의 코드와 같은 ResNet50 모델을 이용한 협착 예측 모델의 학습 과정, 튜닝 과정 및 검증 과정은 아래와 같다.
base_model = ResNet50(weights=None, include_top=True, input_shape=img_shape)
output = tf.keras.layers.Dense(n_classes, activation='softmax', name='final_layer')(base_model.output)
model = tf.keras.models.Model(inputs=[base_model.input], outputs=[output])
model.summary()

n_classes = 2
epochs = 10
batch_size = 20
batch_size는 샘플을 한번 학습시킬 때 사용한 샘플 개수고, epoch는 ResNet의 50개 레이어를 몇 번 앞뒤로 오고 가며 학습을 거칠지 여부이다. 즉, epochs=10이면, 전제 데이터를 10번 사용해서 학습을 하겠다는 것이다. 이러한 값들은 고정되어 있지 않으며 모델을 최적화 시키기 위해 batch_size와 특히 epoch 값을 여러 번 수정해야 한다. Epoch의 경우 값이 너무 작으면 모델이 데이터에 underfitting이 되는 경향이 발생하고 너무 크면 overfitting이 되는 문제가 발생한다. 예시로, 100개의 멜 스펙트로그램(mel spectrogram)이 있다면 batch size가 20이니까 한번의 iteration 마다 20개의 데이터에 대해 학습하기 때문에 1 epoch = 100 / batch size = 5 iteration이 되고 40 epoch이면 200번의 iteration을 하게 된다.
학습 시마다 model을 update하기 위해 사용한 optimizer는 아래와 같은 Keras SGD(stochastic gradient descent)를 사용하였다. optimizer 또한 사용할 수 있는 종류가 RMSprop, Adam, Adadelta 등 많으며, 본 발명에서는 SGD를 사용하였지만, SGD에 국한되지는 않는다. 협착 예측 모델을 학습시킬 때 일반적으로 learning rate은 0.1 ~ 0.01과 같은 값을 쓰며, momentum은 0.9로 많이 설정한다. 본 발명에서는 learning rate로 0.02를 설정하였다.
##optimizer and loss##
opt = SGD(learning_rate=0.02, momentum=0.9, decay=1e-2/epochs)
metrics = ['accuracy']
model.compile(loss='binary_crossentropy', optimizer=opt, metrics=metrics)
optimizing의 기본 원리는 학습률을 "처음에는 크게, 그리고 점점 작게"하는 것이다(참고 문헌: Qian Ning, On the momentum term in gradient descent learning algorithms, Neural networks 12.1 (1999): 145-151). 모멘텀은 학습률의 값 자체는 같지만, 파라미터를 변경해갈 때 모멘텀 항이라는 조정항을 사용해 유사적으로 "처음에는 크게 그리고 점점 작게"라는 개념을 표현한다.
오차 함수 E에 대한 신경망 모델의 파라미터를 θ라 하고 θ에 대한 E의 경사를 ∇θE, 파라미터의 차 Δθ(t)를 식 (1)라고 하면, 스텝 t에서 모멘텀을 사용해 파라미터를 변경해 가는 식이 (2)와 같다.
γΔθ(t-1) : 모멘텀항
계수 γ(<1)는 일반적으로 0.5나 0.9와 같은 값을 설정한다.
Δθ(t) = Δθ(t)-γΔθ(t-1) (1)
Δθ(t) = -η∇θE(θ)+γΔθ(t-1) (2)
즉, learning rate과 momentum을 이와 같이 설정하면, 초기 epoch에 빠른 속도로 정확도를 올릴 수 있다.
이렇게 파라미터를 모두 설정하고, 아래와 같이 협착 예측 모델을 fitting 또는 학습을 시킨다.
n_points = len(filelist_train) #train data 개수 (string length)
nb_tune_samples = len(filelist_tune) #tune data 갯수

model_history = model.fit(generator_train_fx(),
steps_per_epoch = n_points // batch_size,
epochs=epochs,
verbose=1,
callbacks=callbacks_list,
validation_data=generator_tune_fx(),
validation_steps = nb_tune_samples // batch_size)

def generator_train_fx():
while True:
for i in range(len(filelist_train) // batch_size): #step
batch_img = np.zeros((batch_size, img_height, img_width, img_channel))
batch_smk = np.zeros((batch_size, 2), dtype=np.float16)
for j in range(batch_size): #batch size
filename = filelist_train[i*batch_size+j]
label = Y_train[i*batch_size+j]
img = read_img(get_img_path(filename, label), img_height, img_width)

if label == 1.0: #post
batch_smk_tmp=[1., 0.]
elif label == 0.0: #pre
batch_smk_tmp=[0., 1.]
batch_img[j] = img
batch_smk[j] = batch_smk_tmp
yield batch_img, batch_smk
pre, post 파일로 나누어서 이미 멜 스펙트로그램(mel spectrogram)을 구분해서 저장해 놓았기 때문에, PRE_PATH + filename에서 불러오는 경우 1, POST_PATH + filename에서 불러오는 경우 0으로 학습을 하면서 모델을 만든다. Tuning 또는 미세 조정 단계에서는 epoch 마다 완성된 모델이 tuning-set 데이터를 넣었을 때 보이는 정확도(accuracy)를 토대로 가장 tuning-set 데이터에 대한 accuracy가 높은 모델을 고르게 된다. 예를 들어, 시험용으로 epochs = 10으로 설정하고 돌리면 다음과 같은 결과를 얻을 수 있다.
Epoch 1/10
27/27 [==============================] - 49s 1s/step - loss: 0.6919 - accuracy: 0.5981 - val_loss: 0.6877 - val_accuracy: 0.5625
Epoch 2/10
27/27 [==============================] - 36s 1s/step - loss: 0.6827 - accuracy: 0.5981 - val_loss: 0.6857 - val_accuracy: 0.5625
Epoch 3/10
27/27 [==============================] - 36s 1s/step - loss: 0.6713 - accuracy: 0.5981 - val_loss: 0.6853 - val_accuracy: 0.5625
Epoch 4/10
27/27 [==============================] - 37s 1s/step - loss: 0.6296 - accuracy: 0.7584 - val_loss: 0.6860 - val_accuracy: 0.5625
Epoch 5/10
27/27 [==============================] - 37s 1s/step - loss: 0.5501 - accuracy: 0.9664 - val_loss: 0.6908 - val_accuracy: 0.5625
Epoch 6/10
27/27 [==============================] - 37s 1s/step - loss: 0.4679 - accuracy: 0.9205 - val_loss: 0.7316 - val_accuracy: 0.5625
Epoch 7/10
27/27 [==============================] - 37s 1s/step - loss: 0.3894 - accuracy: 0.9239 - val_loss: 0.7642 - val_accuracy: 0.5625

Epoch 00007: ReduceLROnPlateau reducing learning rate to 0.009999999776482582.
Epoch 8/10
27/27 [==============================] - 37s 1s/step - loss: 0.3528 - accuracy: 0.9278 - val_loss: 0.4207 - val_accuracy: 0.8500
Epoch 9/10
27/27 [==============================] - 37s 1s/step - loss: 0.2593 - accuracy: 0.9831 - val_loss: 0.3553 - val_accuracy: 0.9000
Epoch 10/10
27/27 [==============================] - 37s 1s/step - loss: 0.2822 - accuracy: 0.9471 - val_loss: 0.5197 - val_accuracy: 0.8000
여기서, accuracy는 training-set에 대한 모델의 accuracy이며, val_accuracy가 tuning-set에 대한 모델의 accuracy이다. 위에서 설명했듯이 epoch값이 작으면 underfitting의 문제가 발생하고, epoch값이 크면 overfitting의 문제가 발생할 수 있다. 따라서, Epoch 1/10에서 epoch 10/10으로 갈수록 accuracy는 매우 호전(0.5981 -> 0.9471)되지만 tuning-set에 대한 val_accuracy는 epoch 9/10에서 peak를 찍고 epoch 10/10에서는 0.800으로 다소 감소하는 것을 알 수 있다. 그 이유는 training set melspectrogram에 너무 overfitting 된 나머지, tuning set melspectrogram을 입력했을 때 fitting이 잘되지 않아 accuracy가 감소하기 때문이다. 따라서, 통상적으로 accuracy와 val_accuracy가 가장 좋은 epoch의 model을 결정하는 것이 tuning 단계이다. 위의 예시에서는 Epoch 9/10 모델로 결정하는 것이 tuning이 된다. 그래서 Epoch 9 train weight을 결정한 뒤 validation set에 model을 적용해서 예측을 얼마나 잘하는지를 살펴본다.
model.load_weights('/content/drive/My Drive/AVFstudy/weights/20210112412/train_weights_epoch_009.h5')
#change the file directory of the selected weights
Y_pred = model.predict(generator_validation_fx(), steps=len(filelist_val)//batch_size + 1)
Y_pred = Y_pred[: len(filelist_val),:]
print(filelist_val)
print(Y_pred)
그러면, 위에서 설명한 출력값을 얻을 수 있다.
본 실시예들에 따른 동작은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능한 저장 매체에 기록될 수 있다. 컴퓨터 판독 가능한 저장 매체는 실행을 위해 프로세서에 명령어를 제공하는데 참여한 임의의 매체를 나타낸다. 컴퓨터 판독 가능한 저장 매체는 프로그램 명령, 데이터 파일, 데이터 구조 또는 이들의 조합을 포함할 수 있다. 예컨대, 자기 매체, 광기록 매체, 메모리 등이 있을 수 있다. 컴퓨터 프로그램은 네트워크로 연결된 컴퓨터 시스템 상에 분산되어 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다. 본 실시예를 구현하기 위한 기능적인(Functional) 프로그램, 코드, 및 코드 세그먼트들은 본 실시예가 속하는 기술 분야의 프로그래머들에 의해 용이하게 추론될 수 있을 것이다.
본 실시예들은 본 실시예의 기술 사상을 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
< 부호의 설명 >
100 : 협착 예측 장치,
110 : 프로세서,
130 : 컴퓨터 판독 가능한 저장 매체,
131 : 프로그램,
150 : 통신 버스,
170 : 입출력 인터페이스,
190 : 통신 인터페이스

Claims (13)

  1. 대상체의 투석 접근로에 대한 오디오 데이터를 획득하는 단계; 및
    기 학습된 합성곱 신경망(convolutional neural network, CNN)을 포함하는 협착 예측 모델을 기반으로, 상기 오디오 데이터에 대응되는 협착 정도를 예측하는 단계;
    를 포함하는 합성곱 신경망을 이용한 투석 접근로의 협착 예측 방법.
  2. 제1항에서,
    상기 오디오 데이터 획득 단계는,
    상기 오디오 데이터를 전처리하는 것으로 이루어지며,
    상기 협착 정도 예측 단계는,
    전처리된 상기 오디오 데이터를 상기 협착 예측 모델에 입력하고, 상기 협착 예측 모델의 출력값을 기반으로 상기 오디오 데이터에 대응되는 협착 정도를 예측하는 것으로 이루어지는,
    합성곱 신경망을 이용한 투석 접근로의 협착 예측 방법.
  3. 제2항에서,
    상기 오디오 데이터 획득 단계는,
    상기 오디오 데이터에서 미리 설정된 구간의 상기 오디오 데이터를 획득하고, 미리 설정된 구간의 상기 오디오 데이터를 기반으로 스펙트로그램(spectrogram)을 획득하며, 획득한 상기 스펙트로그램(spectrogram)을 정규화하고, 정규화한 상기 스펙트로그램(spectrogram)의 크기를 조정하는 것으로 이루어지는,
    합성곱 신경망을 이용한 투석 접근로의 협착 예측 방법.
  4. 제1항에서,
    시술 전에 획득한 투석 접근로에 대한 제1 오디오 데이터 및 시술 후에 획득한 투석 접근로에 대한 제2 오디오 데이터를 포함하는 학습 데이터 세트를 기반으로, 상기 협착 예측 모델을 학습하는 단계;
    를 더 포함하는 합성곱 신경망을 이용한 투석 접근로의 협착 예측 방법.
  5. 제4항에서,
    상기 협착 예측 모델은,
    스펙트로그램(spectrogram)을 입력으로 하고, 협착 정도 값을 출력으로 하는,
    합성곱 신경망을 이용한 투석 접근로의 협착 예측 방법.
  6. 제5항에서,
    상기 협착 예측 모델 학습 단계는,
    상기 학습 데이터 세트를 전처리하고,
    상기 제1 오디오 데이터는 제1 정답 레이블(label)로 하고 상기 제2 오디오 데이터는 제2 정답 레이블(label)로 하여, 전처리한 상기 학습 데이터 세트를 기반으로 상기 협착 예측 모델을 학습하는 것으로 이루어지는,
    를 포함하는 합성곱 신경망을 이용한 투석 접근로의 협착 예측 방법.
  7. 제6항에서,
    상기 협착 예측 모델 학습 단계는,
    상기 학습 데이터 세트에 포함된 오디오 데이터 각각에 대하여, 상기 오디오 데이터에서 미리 설정된 구간의 상기 오디오 데이터를 획득하고, 미리 설정된 구간의 오디오 데이터를 기반으로 스펙트로그램(spectrogram)을 획득하며, 획득한 상기 스펙트로그램(spectrogram)을 정규화하고, 정규화한 상기 스펙트로그램(spectrogram)을 수평 시프팅(horizontal shifting)하여 개수를 증량하며, 증량된 상기 스펙트로그램(spectrogram)의 크기를 조정하여, 상기 학습 데이터 세트를 전처리하는 것으로 이루어지는,
    합성곱 신경망을 이용한 투석 접근로의 협착 예측 방법.
  8. 제6항에서,
    상기 협착 예측 모델 학습 단계는,
    전처리한 상기 학습 데이터 세트를 미리 설정된 기준에 따라 훈련 데이터 세트, 튜닝 데이터 세트 및 검증 데이터 세트로 구분하고,
    상기 협착 예측 모델을 상기 훈련 데이터 세트를 이용하여 학습하며, 학습된 상기 협착 예측 모델을 상기 튜닝 데이터 세트를 이용하여 튜닝하고, 튜닝된 상기 협착 예측 모델을 상기 검증 데이터 세트를 이용하여 검증하는 것으로 이루어지는,
    합성곱 신경망을 이용한 투석 접근로의 협착 예측 방법.
  9. 제1항에 기재된 합성곱 신경망을 이용한 투석 접근로의 협착 예측 방법을 컴퓨터에서 실행시키기 위하여 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램.
  10. 합성곱 신경망(convolutional neural network, CNN)을 이용하여 투석 접근로의 협착을 예측하는 협착 예측 장치로서,
    합성곱 신경망(CNN)을 이용하여 투석 접근로의 협착을 예측하기 위한 하나 이상의 프로그램을 저장하는 메모리; 및
    상기 메모리에 저장된 상기 하나 이상의 프로그램에 따라 합성곱 신경망(CNN)을 이용하여 투석 접근로의 협착을 예측하기 위한 동작을 수행하는 하나 이상의 프로세서;
    를 포함하며,
    상기 프로세서는,
    대상체의 투석 접근로에 대한 오디오 데이터를 획득하고,
    기 학습된 합성곱 신경망(CNN)을 포함하는 협착 예측 모델을 기반으로, 상기 오디오 데이터에 대응되는 협착 정도를 예측하는,
    합성곱 신경망을 이용한 투석 접근로의 협착 예측 장치.
  11. 제10항에서,
    상기 프로세서는,
    상기 오디오 데이터를 전처리하며,
    전처리된 상기 오디오 데이터를 상기 협착 예측 모델에 입력하고, 상기 협착 예측 모델의 출력값을 기반으로 상기 오디오 데이터에 대응되는 협착 정도를 예측하는,
    합성곱 신경망을 이용한 투석 접근로의 협착 예측 장치.
  12. 제10항에서,
    상기 프로세서는,
    시술 전에 획득한 투석 접근로에 대한 제1 오디오 데이터 및 시술 후에 획득한 투석 접근로에 대한 제2 오디오 데이터를 포함하는 학습 데이터 세트를 기반으로, 상기 협착 예측 모델을 학습하는,
    합성곱 신경망을 이용한 투석 접근로의 협착 예측 장치.
  13. 제12항에서,
    상기 프로세서는,
    상기 학습 데이터 세트를 전처리하며,
    상기 제1 오디오 데이터는 제1 정답 레이블(label)로 하고 상기 제2 오디오 데이터는 제2 정답 레이블(label)로 하여, 전처리한 상기 학습 데이터 세트를 기반으로 상기 협착 예측 모델을 학습하는,
    합성곱 신경망을 이용한 투석 접근로의 협착 예측 장치.
PCT/KR2022/006887 2021-05-13 2022-05-13 합성곱 신경망을 이용한 투석 접근로의 협착 예측 방법 및 장치 WO2022240234A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023569940A JP2024519336A (ja) 2021-05-13 2022-05-13 畳み込みニューラルネットワークを用いた透析接近路の狹窄予測方法および装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0062071 2021-05-13
KR1020210062071A KR102564404B1 (ko) 2021-05-13 2021-05-13 합성곱 신경망을 이용한 투석 접근로의 협착 예측 방법 및 장치

Publications (1)

Publication Number Publication Date
WO2022240234A1 true WO2022240234A1 (ko) 2022-11-17

Family

ID=84029730

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/006887 WO2022240234A1 (ko) 2021-05-13 2022-05-13 합성곱 신경망을 이용한 투석 접근로의 협착 예측 방법 및 장치

Country Status (3)

Country Link
JP (1) JP2024519336A (ko)
KR (1) KR102564404B1 (ko)
WO (1) WO2022240234A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050234349A1 (en) * 2004-02-10 2005-10-20 Pravica David W Methods, systems, and computer program products for analyzing cardiovascular sounds using eigen functions
JP2010029434A (ja) * 2008-07-29 2010-02-12 Tom-Medic Co Ltd 血管狭窄度合い判定プログラム、記録媒体、情報端末装置、血管狭窄度合い判定システムおよび血管狭窄度合い判定方法
KR20190131267A (ko) * 2018-05-16 2019-11-26 고려대학교 산학협력단 기계 학습을 이용한 관상 동맥 질환 예측 방법 및 시스템
KR20200096670A (ko) * 2010-08-12 2020-08-12 하트플로우, 인크. 환자별 혈류 모델링 방법 및 시스템
KR20210002184A (ko) * 2019-06-27 2021-01-07 신현경 기계학습을 이용하여 상처 관리를 위한 장치 및 상처 관리를 위한 장치의 동작방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102527498B1 (ko) * 2021-02-25 2023-05-02 고려대학교 산학협력단 인공 혈관 투석 접근로의 폐색 감지 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050234349A1 (en) * 2004-02-10 2005-10-20 Pravica David W Methods, systems, and computer program products for analyzing cardiovascular sounds using eigen functions
JP2010029434A (ja) * 2008-07-29 2010-02-12 Tom-Medic Co Ltd 血管狭窄度合い判定プログラム、記録媒体、情報端末装置、血管狭窄度合い判定システムおよび血管狭窄度合い判定方法
KR20200096670A (ko) * 2010-08-12 2020-08-12 하트플로우, 인크. 환자별 혈류 모델링 방법 및 시스템
KR20190131267A (ko) * 2018-05-16 2019-11-26 고려대학교 산학협력단 기계 학습을 이용한 관상 동맥 질환 예측 방법 및 시스템
KR20210002184A (ko) * 2019-06-27 2021-01-07 신현경 기계학습을 이용하여 상처 관리를 위한 장치 및 상처 관리를 위한 장치의 동작방법

Also Published As

Publication number Publication date
KR20220154479A (ko) 2022-11-22
KR102564404B1 (ko) 2023-08-07
JP2024519336A (ja) 2024-05-10

Similar Documents

Publication Publication Date Title
WO2018070668A1 (ko) 하이브리드 음성인식 복합 성능 자동 평가시스템
US20180277096A1 (en) Method and device for extracting speech features based on artificial intelligence
WO2016129930A1 (en) Operating method for voice function and electronic device supporting the same
WO2017022882A1 (ko) 의료 영상의 병리 진단 분류 장치 및 이를 이용한 병리 진단 시스템
WO2021040258A1 (ko) 안구 영상 내 혈관 분할을 이용한 자동 질환 판단 장치 및 그 방법
WO2020153572A1 (ko) 사운드 이벤트 탐지 모델 학습 방법
WO2021177730A1 (ko) 음성 및 연하 장애를 유발하는 질환 진단 장치 및 그 진단 방법
WO2020139009A1 (ko) 뇌혈관 질환 학습 장치, 뇌혈관 질환 검출 장치, 뇌혈관 질환 학습 방법 및 뇌혈관 질환 검출 방법
EP3756145A1 (en) Electronic apparatus and control method thereof
WO2018008881A1 (ko) 단말장치 및 서비스서버, 그 장치에 의해 수행되는 진단분석 서비스를 제공하기 위한 방법 및 프로그램과, 그 프로그램이 기록된 컴퓨터 판독 가능 기록매체
WO2021010744A1 (ko) 음성 인식 기반의 세일즈 대화 분석 방법 및 장치
WO2019235828A1 (ko) 투 페이스 질병 진단 시스템 및 그 방법
CN111916109B (zh) 一种基于特征的音频分类方法、装置及计算设备
WO2021157999A1 (en) Voice command resolution method and apparatus based on non-speech sound in iot environment
CN111553266A (zh) 识别验证方法、装置及电子设备
WO2019045385A1 (ko) 영상 얼라인먼트 방법 및 그 장치
WO2022240234A1 (ko) 합성곱 신경망을 이용한 투석 접근로의 협착 예측 방법 및 장치
WO2016148322A1 (ko) 영상 정보를 기반으로 음성 구간을 검출하는 방법 및 장치
US20210058405A1 (en) Shared electronic device management device and method
WO2019035544A1 (ko) 학습을 이용한 얼굴 인식 장치 및 방법
WO2021085947A1 (en) Parkinson&#39;s disease diagnostic application
KR960041026A (ko) 엘리베이터의 대기승객 검출 방법 및 장치
WO2023080697A1 (ko) 심장 신호 분할 방법 및 이를 이용한 심장 신호 분할용 디바이스
WO2022149658A1 (ko) 뉴럴 네트워크의 출력 해석 방법 및 이를 위한 시스템
WO2023033270A1 (ko) 딥러닝 기반 분석 결과 예측 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22807881

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023569940

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22807881

Country of ref document: EP

Kind code of ref document: A1