WO2023113452A1 - Method, device, and program for filtering noise data of medical text on basis of artificial intelligence - Google Patents

Method, device, and program for filtering noise data of medical text on basis of artificial intelligence Download PDF

Info

Publication number
WO2023113452A1
WO2023113452A1 PCT/KR2022/020295 KR2022020295W WO2023113452A1 WO 2023113452 A1 WO2023113452 A1 WO 2023113452A1 KR 2022020295 W KR2022020295 W KR 2022020295W WO 2023113452 A1 WO2023113452 A1 WO 2023113452A1
Authority
WO
WIPO (PCT)
Prior art keywords
noise
data
medical text
text
sentence
Prior art date
Application number
PCT/KR2022/020295
Other languages
French (fr)
Korean (ko)
Inventor
김민승
이호익
최상민
한요섭
Original Assignee
솔닥 주식회사
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 솔닥 주식회사, 연세대학교 산학협력단 filed Critical 솔닥 주식회사
Publication of WO2023113452A1 publication Critical patent/WO2023113452A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Definitions

  • the present invention relates to a method for filtering noise data of medical text, and more particularly, to a method, apparatus and program for filtering noise data of medical text based on artificial intelligence capable of filtering noise data of medical text extracted from conversation contents in a telemedicine process. It is about.
  • Telemedicine is an online medical examination using at least three of the five examination methods (interview, inspection, palpation, percussion, and auscultation) conducted by a doctor, as well as a urine test, blood test, and electrocardiogram test, similar to hospitals. It means conducting tests to diagnose, prescribe and treat.
  • Telemedicine can be conducted in the form of a web or app on a mobile device, and based on voice-to-text conversion technology, conversations between doctors and patients during medical consultation are extracted in text format.
  • Errors in these medical data may adversely affect not only artificial intelligence learning but also patient care, resulting in incorrect prescriptions.
  • One object of the present invention to solve the above-described problems is to identify noise word data by embedding and clustering medical text by word by converting voice data corresponding to a telemedicine conversation into text data, and identifying the identified noise word.
  • An object of the present invention is to provide a method, apparatus, and program for filtering noise data of medical text capable of providing medical text with high accuracy and reliability by filtering new text data based on data.
  • a method for filtering noise data of medical text for solving the above problems includes: (a) generating medical text by converting voice data corresponding to a telemedicine conversation into text data; ) embedding the medical text word by word for each sentence, (c) identifying noise word data by clustering the embedded words, and storing the identified noise word data in a noise dictionary; generating a noise filter based on noise word data stored in a noise dictionary; (e) checking whether a new medical text corresponding to the telemedicine conversation is generated; and (f) when the new medical text is generated, and filtering the new medical text through a noise filter to reconstruct the medical text from which noise word data is removed.
  • the step (a) is characterized in that the medical text is generated by converting voice data corresponding to the telemedicine conversation into text data through speech-to-text (STT).
  • STT speech-to-text
  • the medical text generated by STT includes prescription information including at least one of a disease name and medication guidance, and at least one of age, gender, and region of residence. Characterized in that it includes patient information.
  • the step (b) may include inputting sentence data of the medical text into a pre-learned neural network model and embedding the input sentence data word by word.
  • the step (c) generates a plurality of clusters by clustering words through a k-means clustering algorithm based on the location information of the embedded words, and generating the clusters. If there is word data that does not belong to the word data, it is characterized in that the corresponding word data is regarded as noise word data.
  • step (c) if a cluster consisting of less than k words, which is the minimum number of words, exists among the generated clusters, words included in the corresponding cluster are regarded as noise word data. .
  • the plurality of clusters are reclassified based on treatment features, and noise word data is obtained from the reclassified treatment feature based clusters. and storing the identified treatment feature-based noise word data in a noise dictionary.
  • step (c) clusters are reclassified based on prescription information among the treatment characteristics, and noise word data based on prescription information is identified from the reclassified clusters and stored in the noise dictionary.
  • the step (c) includes reclassifying clusters based on patient information among the treatment characteristics, identifying noise word data based on patient information from the reclassified clusters, and storing the noise word data in the noise dictionary.
  • the step (d) generates a general noise filter from general information-based noise word data stored in the noise dictionary, and generates a treatment feature-based noise filter from treatment feature-based noise word data stored in the noise dictionary. It is characterized by doing.
  • the step (d) is characterized in that, when generating the treatment feature-based noise filter, a treatment feature-based noise filter including a prescription information-based noise filter and a patient information noise filter is generated.
  • step (f) when the new medical text is generated, noise words included in each sentence of the new medical text are removed based on a noise filter corresponding to each sentence of the new medical text; It is characterized in that the medical text from which noise words are removed is reconstructed.
  • step (f) if the sentence of the new medical text is a general information related sentence, noise words included in the general information related sentence of the medical text are removed based on a general noise filter, and the new medical text is a general information related sentence. If the sentence of the text is a sentence related to the treatment feature, noise words included in the treatment feature sentence of the medical text are removed based on the treatment feature-based noise filter.
  • step (f) if the sentence of the new medical text is a prescription information sentence, noise words included in the prescription information sentence of the medical text are removed based on a prescription information-based noise filter, and the new medical text is a prescription information sentence. If the text sentence is a patient information sentence, noise words included in the patient information sentence of the medical text are removed based on a patient information based noise filter.
  • a computing device is a computing device for providing a method for filtering noise data of medical text, and includes a processor including one or more cores and a memory, wherein the processor corresponds to a telemedicine conversation.
  • Medical text is generated by converting speech data to text data, the medical text is embedded by word for each sentence, and noise word data is identified by clustering the embedded words, and the identified noise word data is converted into a noise dictionary.
  • the noise filter based on the noise word data stored in the noise dictionary, checks whether a new medical text corresponding to the telemedicine conversation is generated, and if the new medical text is generated, the noise filter It is characterized in that the new medical text is reconstructed into a medical text from which noise word data is removed by filtering the new medical text.
  • a computer program providing a method for filtering noise data of medical text according to another embodiment of the present invention for solving the above problems is combined with a computer that is hardware and stored in a medium to perform any one of the above methods. do.
  • medical texts obtained by converting voice data corresponding to telemedicine conversations into text data are embedded and clustered for each word to identify noise word data, and new text data is generated based on the identified noise word data.
  • filtering medical text with high accuracy and reliability can be provided.
  • FIG. 1 is a block diagram of a computing device performing an operation for providing a method for filtering noise data of medical text according to an embodiment of the present invention.
  • 2 to 7 are conceptual diagrams for explaining a method of filtering noise data of medical text according to an embodiment of the present invention.
  • FIG. 8 is a flowchart illustrating a method of filtering noise data of medical text according to an embodiment of the present invention.
  • neural networks artificial neural networks, and network functions may often be used interchangeably.
  • a neural network may consist of a set of interconnected computational units, which may be generally referred to as “nodes”. These “nodes” may also be referred to as “neurons”.
  • a neural network includes at least two or more nodes. Nodes (or neurons) constituting neural networks may be interconnected by one or more “links”.
  • FIG. 1 is a block diagram of a computing device performing an operation for providing a method for filtering noise data of medical text according to an embodiment of the present invention.
  • the configuration of the computing device 100 shown in FIG. 1 is only a simplified example.
  • the computing device 100 may include other components for performing a computing environment of the computing device 100, and only some of the disclosed components may constitute the computing device 100.
  • the computing device 100 may include a processor 110 , a memory 130 , and a network unit 150 .
  • the processor 110 converts voice data corresponding to the telemedicine conversation into text data to generate medical text, embeds the medical text by word in each sentence, and clusters the embedded words to generate noise words. Identify data, store the identified noise word data in a noise dictionary, create a noise filter based on the noise word data stored in the noise dictionary, check whether new medical text corresponding to the telemedicine conversation is generated, and check whether a new medical text corresponding to the telemedicine conversation is created Once the text is generated, the new medical text can be reconstructed into medical text from which noise word data has been removed by filtering the new medical text through a noise filter.
  • the processor 110 may generate medical text by converting voice data corresponding to the telemedicine conversation into text data through speech-to-text (STT).
  • STT speech-to-text
  • medical text generated by STT includes prescription information including at least one of a disease name and medication map, and patient information including at least one of age, gender, and region of residence. It may include, but this is only one embodiment, but is not limited thereto.
  • the processor 110 may input the sentence data of the medical text into the pretrained neural network model and embed the input sentence data word by word.
  • the neural network model may include a skip-gram algorithm of a Word2Vec model, which is only an example, but is not limited thereto.
  • the processor 110 may perform a one-hot-vector for each word based on a position in the sentence data.
  • the processor 110 outputs one one-hot vector corresponding to the central word as a plurality of one-hot vectors corresponding to neighboring words through a projection layer, and converts each output data into soft It is converted using a softmax algorithm, and an error between the converted output data and real data can be calculated using a cross-entropy algorithm.
  • the processor 110 may minimize an error between output data and actual data by utilizing a gradient descent algorithm.
  • the processor 110 generates a plurality of clusters by clustering the words through a k-means clustering algorithm based on the location information of the embedded words, and generates word data that does not belong to the generated clusters. If exists, the corresponding word data may be regarded as noise word data.
  • the processor 110 may regard words included in the cluster as noise word data if a cluster consisting of less than k words, which is the minimum number of words, exists among the generated clusters.
  • the processor 110 reclassifies the plurality of clusters based on treatment features, identifies noise word data from the reclassified treatment feature-based clusters, and identifies the identified treatment features.
  • Feature-based noise word data may be stored in a noise dictionary.
  • the processor 110 may reclassify clusters based on prescription information among treatment characteristics, identify noise word data based on prescription information from the reclassified clusters, and store the noise word data in a noise dictionary.
  • the prescription information may include at least one of a disease name and a medication guide, which is only an example, but is not limited thereto.
  • the processor 110 may reclassify clusters based on patient information among treatment characteristics, identify noise word data based on patient information from the reclassified clusters, and store them in a noise dictionary.
  • patient information may include at least one of age, gender, and region of residence, which is only an example, but is not limited thereto.
  • the processor 110 may generate a general noise filter from general information-based noise word data stored in the noise dictionary, and may generate a diagnosis feature-based noise filter from treatment feature-based noise word data stored in the noise dictionary.
  • the processor 110 may generate a treatment feature-based noise filter including a prescription information-based noise filter and a patient information noise filter when generating a treatment feature-based noise filter.
  • the processor 110 removes noise words included in each sentence of the medical text based on a noise filter corresponding to each sentence of the new medical text, and outputs the medical text from which the noise words have been removed. can be reconstructed.
  • the processor 110 removes noise words included in the sentence related to general information of the medical text based on the general noise filter, and the sentence of the new medical text is related to treatment characteristics. If it is a sentence, noise words included in the treatment feature sentence of the medical text may be removed based on the treatment feature-based noise filter.
  • the processor 110 removes noise words included in the prescription information sentence of the medical text based on a prescription information-based noise filter, and the sentence of the new medical text is a patient information sentence. If it is an information sentence, noise words included in the patient information sentence of the medical text may be removed based on the patient information-based noise filter.
  • the processor 110 may be composed of one or more cores, a central processing unit (CPU) of a computing device, a general purpose graphics processing unit (GPGPU) ), a processor for data analysis and deep learning, such as a tensor processing unit (TPU).
  • the processor 110 may read a computer program stored in the memory 130 and perform data processing for machine learning according to an embodiment of the present invention.
  • the processor 110 may perform an operation for learning a neural network.
  • the processor 110 performs neural network learning, such as processing input data for learning in deep learning (DL), extracting features from input data, calculating errors, and updating neural network weights using backpropagation.
  • DL deep learning
  • calculations can be performed for At least one of the CPU, GPGPU, and TPU of the processor 110 may process learning of the network function.
  • the CPU and GPGPU can process learning of network functions and data classification using network functions.
  • the learning of a network function and data classification using a network function may be processed by using processors of a plurality of computing devices together.
  • a computer program executed in a computing device according to an embodiment of the present invention may be a CPU, GPGPU or TPU executable program.
  • the memory 130 may store a computer program for performing a method of filtering noise data of medical text, and the stored computer program may be read and driven by the processor 120 .
  • the memory 130 may store any type of information generated or determined by the processor 110 and any type of information received by the network unit 150 .
  • the memory 130 is a flash memory type, a hard disk type, a multimedia card micro type, or a card type memory (eg SD or XD memory, etc.), RAM (Random Access Memory, RAM), SRAM (Static Random Access Memory), ROM (Read-Only Memory, ROM), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Memory) Read-Only Memory), a magnetic memory, a magnetic disk, and an optical disk may include at least one type of storage medium.
  • the computing device 100 may operate in relation to a web storage that performs a storage function of the memory 130 on the Internet. The description of the above memory is only an example, and is not limited thereto.
  • the network unit 150 may transmit/receive result information of a method for filtering noise data of medical text, etc. to another computing device or server.
  • the network unit 150 enables communication between a plurality of computing devices so that operations for filtering noise data of medical text or learning a model may be performed in a distributed manner in each of the plurality of computing devices.
  • the network unit 150 may enable communication between a plurality of computing devices to perform distributed processing of filtering noise data of medical text or calculation for learning a model using a network function.
  • the network unit 150 may operate based on any type of wired or wireless communication technology currently used and implemented, such as short-distance (short-distance), long-distance, wired, and wireless, and other networks. can also be used in
  • the computing device 100 of the present invention may further include an output unit and an input unit.
  • the output unit may display a user interface (UI) for performing a method of filtering noise data of medical text.
  • the output unit may output any type of information generated or determined by the processor 110 and any type of information received by the network unit 150 .
  • the output unit is a liquid crystal display (liquid crystal display, LCD), thin film transistor liquid crystal display (thin film transistor-liquid crystal display, TFT LCD), organic light-emitting diode (organic light-emitting diode, OLED) , a flexible display, and a 3D display.
  • LCD liquid crystal display
  • TFT LCD thin film transistor-liquid crystal display
  • OLED organic light-emitting diode
  • a flexible display and a 3D display.
  • Some of these display modules may be of a transparent type or a light transmissive type so that the outside can be seen through them. This may be referred to as a transparent display module, and a representative example of the transparent display module is TOLED (Transparent OLED) and the like.
  • the input unit may receive a user input.
  • the input unit may include keys and/or buttons on a user interface for receiving user input, or physical keys and/or buttons.
  • a computer program for controlling a display according to embodiments of the present invention may be executed according to a user input through an input unit.
  • the input unit may detect a user's button operation or touch input and receive a signal, or may receive a user's voice or motion through a camera or microphone and convert it into an input signal.
  • speech recognition technology or motion recognition technology may be used.
  • the input unit may be implemented as an external input device connected to the computing device 100 .
  • the input device may be at least one of a touch pad, a touch pen, a keyboard, or a mouse for receiving a user input, but this is only an example and is not limited thereto.
  • the input unit according to an embodiment of the present invention may recognize a user touch input.
  • the input unit according to an embodiment of the present invention may have the same configuration as the output unit.
  • the input unit may include a touch screen implemented to receive a user's selection input.
  • the touch screen may use any one of a contact capacitive method, an infrared light sensing method, a surface ultrasonic (SAW) method, a piezoelectric method, and a resistive film method.
  • SAW surface ultrasonic
  • the input unit configured as a touch screen may include a touch sensor.
  • the touch sensor may be configured to convert a change in pressure applied to a specific portion of the input unit or capacitance generated at a specific portion of the input unit into an electrical input signal.
  • the touch sensor may be configured to detect not only the touched position and area, but also the pressure upon touch.
  • the corresponding signal(s) is sent to the touch controller.
  • the touch controller may process the signal(s) and then transmit corresponding data to processor 110 . Accordingly, the processor 110 can recognize which area of the input unit has been touched.
  • the server may include other configurations for performing the server environment of the server.
  • the server may include any type of device.
  • the server may be a digital device, such as a laptop computer, a notebook computer, a desktop computer, a web pad, or a mobile phone, equipped with a processor and having an arithmetic capability with a memory.
  • a server (not shown) performing an operation for providing a user interface displaying a filtering result of noise data of medical text according to an embodiment of the present invention to a user terminal may include a network unit, a processor, and a memory.
  • the server may generate a user interface according to embodiments of the present invention.
  • the server may be a computing system that provides information to clients (eg, user terminals) over a network.
  • the server may transmit the generated user interface to the user terminal.
  • the user terminal may be any type of computing device 100 capable of accessing the server.
  • the processor of the server may transmit the user interface to the user terminal through the network unit.
  • a server according to embodiments of the present invention may be, for example, a cloud server.
  • the server may be a web server that processes services.
  • the types of servers described above are examples only and are not limited thereto.
  • the present invention embeds and clusters medical texts obtained by converting voice data corresponding to telemedicine conversations into text data by word, identifies noise word data, and filters new text data based on the identified noise word data. By doing so, it is possible to provide medical texts with high accuracy and reliability.
  • 2 to 7 are conceptual diagrams for explaining a method of filtering noise data of medical text according to an embodiment of the present invention.
  • the present invention relates to a method for correcting medical text.
  • the medical text of the present invention may include data extracted in a remote medical treatment process.
  • telemedicine is conducted in the form of a web or app on a mobile device, and conversation contents during medical treatment can be extracted in a text format through speech-to-text (STT).
  • STT speech-to-text
  • the present invention is a method for improving the accuracy of the text data by additionally correcting the extracted text while using the existing STT technology.
  • the accuracy means the degree to which the extracted text data includes the contextual meaning of the voice data, not the degree of error that exists between the voice data and the extracted text data.
  • the degree of error between the two data is It can be expressed as dist(v1, t1), which is an edit distance.
  • contextual similarity between extracted text data can be derived, and meaningful words and nonsensical words can be distinguished by utilizing this information.
  • the present invention is a method of filtering meaningless words using such a classification.
  • the present invention may proceed through three steps of text embedding, text clustering and classification, and constructing outliers that are noise data filters.
  • medical text may be generated by converting voice data corresponding to a telemedicine conversation into text data, and the medical text may be embedded word by word in each sentence.
  • noise word data may be identified by clustering embedded words.
  • the identified noise word data may be stored in a noise dictionary, and a noise filter may be generated based on the noise word data stored in the noise dictionary.
  • the new medical text is filtered through a noise filter to reconstruct the medical text from which noise word data is removed.
  • medical text is generated by converting speech data corresponding to a telemedicine conversation into text data through STT (Speech-to-Text), and the sentence data of the medical text is pretrained with a neural network model. By inputting into , it is possible to embed the input sentence data for each word.
  • STT Seech-to-Text
  • the neural network model may include a skip-gram algorithm of a Word2Vec model.
  • FIG. 3 shows a process of converting text data into a one-hot-vector to apply a skip-gram.
  • the one-hot-vector for w1 is n-dimensional, where only the first position is 1 and the rest are 0. may be a vector of
  • FIG. 4 shows a process of performing word-by-word embedding of an input sentence using a skip-gram.
  • embedding can be performed by learning the relationship between the first word and the remaining words in the structure shown in FIG. 4 .
  • one one-hot-vector corresponding to the central word is output as a plurality of one-hot-vectors corresponding to neighboring words through a projection layer, and each output Data may be converted using a softmax algorithm, and an error between converted output data and real data may be calculated using a cross-entropy algorithm.
  • the processor 110 may minimize an error between output data and actual data by utilizing a gradient descent algorithm.
  • multiple clusters are generated by clustering words through a k-means clustering algorithm based on the location information of the embedded words, and words that do not belong to the generated clusters are generated. If data exists, corresponding word data may be regarded as noise word data.
  • text data in units of all words can be expressed as vectors, and word clustering is possible based on each word vector.
  • Figure 5(1) is an example showing word vectors expressed on a two-dimensional coordinate plane
  • Figure 5(2) shows k-means clustering based on word location information as shown in Figure 5(1). An example of the result of applying the algorithm is shown.
  • words included in the corresponding cluster may be regarded as noise word data.
  • the present invention when a plurality of clusters are generated by clustering words, reclassifies the plurality of clusters based on treatment characteristics, identifies noise word data from the reclassified treatment feature-based clusters, and identifies noise word data based on the identified treatment characteristics.
  • Noise word data can be stored in a noise dictionary.
  • clusters may be reclassified based on prescription information among treatment characteristics, and noise word data based on prescription information may be identified and stored in a noise dictionary from the reclassified clusters.
  • the present invention may reclassify clusters based on patient information among treatment characteristics, identify noise word data based on patient information from the reclassified clusters, and store them in a noise dictionary.
  • words stored in the noise dictionary may be assumed as outliers.
  • words of the medical text newly input through the STT may be filtered by first using the noise dictionary.
  • FIG. 5 shows an example of filtering noise data of a new medical text input using an outlier, which is a noise filter configured through a noise dictionary.
  • sentence k (sentence_k) is an example of text data newly derived through STT. After removing noise word data w_15 and w_17 included in sentence k (sentence_k), sentence k (sentence_k) may be reconstructed.
  • the reconstructed sentence k may be assumed to be a sentence in which outlier words, which are noise word data, are removed.
  • an advantage of selecting outliers through Word2vec and clustering is that words accidentally or incorrectly extracted during text data conversion can be detected.
  • words that are accidentally converted or incorrectly converted will have a lower frequency than words that are not, and the probability of being located in various sentences is also reduced.
  • an outlier may be configured based on classification information.
  • noise word data when noise word data is identified based on information classified as treatment characteristics, a noise dictionary can be derived for each classification information.
  • FIG. 6 shows an example of an outlier configuration based on classification information.
  • sentence k (sentence_k) is a word unit set of input sentences for prescription A.
  • outlier detection may be performed on the corresponding sentence.
  • the present invention may generate a general noise filter from general information-based noise word data stored in the noise dictionary, and a treatment feature-based noise filter from treatment feature-based noise word data stored in the noise dictionary.
  • the present invention may generate a noise filter based on a treatment feature including a noise filter based on prescription information and a noise filter based on patient information.
  • noise words included in each sentence of the medical text are removed based on a noise filter corresponding to each sentence of the new medical text, and the medical text from which the noise words are removed is reconstructed.
  • the sentence of the new medical text is a sentence related to general information
  • noise words included in the sentence related to general information of the medical text are removed based on the general noise filter
  • the sentence of the new medical text is a sentence related to treatment characteristics
  • Noise words included in the treatment feature sentences of the medical text may be removed based on the treatment feature-based noise filter.
  • the sentence of the new medical text is a prescription information sentence
  • noise words included in the prescription information sentence of the medical text are removed based on the prescription information-based noise filter
  • the sentence of the new medical text is a patient information sentence
  • Noise words included in patient information sentences of the medical text may be removed based on the patient information-based noise filter.
  • FIG. 8 is a flowchart illustrating a method of filtering noise data of medical text according to an embodiment of the present invention.
  • medical text may be generated by converting voice data corresponding to a telemedicine conversation into text data (S10).
  • the present invention may embed medical text for each word in each sentence (S20).
  • the present invention may cluster the embedded words to identify noise word data, store the identified noise word data in a noise dictionary, and generate a noise filter based on the noise word data stored in the noise dictionary (S30). ).
  • the present invention generates a plurality of clusters by clustering words through a k-means clustering algorithm based on positional information of embedded words, and word data that does not belong to the generated clusters exists. Then, corresponding word data may be regarded as noise word data.
  • the present invention may reclassify a plurality of clusters based on treatment characteristics, identify noise word data from the reclassified treatment feature-based clusters, and store the identified treatment feature-based noise word data in a noise dictionary.
  • the present invention may generate a general noise filter from general information-based noise word data stored in the noise dictionary, and a treatment feature-based noise filter from treatment feature-based noise word data stored in the noise dictionary.
  • a new medical text corresponding to the telemedicine conversation may be generated (S40).
  • the present invention filters the new medical text through a noise filter to reconstruct the medical text from which noise word data is removed (S50).
  • noise words included in each sentence of the medical text are removed based on a noise filter corresponding to each sentence of the new medical text, and the medical text from which the noise words are removed is reconstructed.
  • a sentence of the new medical text is a sentence related to general information
  • noise words included in the sentence related to general information of the medical text are removed based on a general noise filter
  • the sentence of the new medical text is a sentence related to treatment characteristics.
  • Noise words included in treatment feature sentences of the medical text can be removed based on the background treatment feature-based noise filter.
  • the present invention embeds and clusters medical texts obtained by converting voice data corresponding to telemedicine conversations into text data by word, identifies noise word data, and filters new text data based on the identified noise word data. By doing so, it is possible to provide medical texts with high accuracy and reliability.
  • the method according to an embodiment of the present invention described above may be implemented as a program (or application) to be executed in combination with a server, which is hardware, and stored in a medium.
  • the aforementioned program is C, C++, JAVA, machine language, etc. It may include a code coded in a computer language of. These codes may include functional codes related to functions defining necessary functions for executing the methods, and include control codes related to execution procedures necessary for the processor of the computer to execute the functions according to a predetermined procedure. can do. In addition, these codes may further include memory reference related codes for which location (address address) of the computer's internal or external memory should be referenced for additional information or media required for the computer's processor to execute the functions. there is. In addition, when the processor of the computer needs to communicate with any other remote computer or server in order to execute the functions, the code uses the computer's communication module to determine how to communicate with any other remote computer or server. It may further include communication-related codes for whether to communicate, what kind of information or media to transmit/receive during communication, and the like.
  • the storage medium is not a medium that stores data for a short moment, such as a register, cache, or memory, but a medium that stores data semi-permanently and is readable by a device.
  • examples of the storage medium include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage device, etc., but are not limited thereto. That is, the program may be stored in various recording media on various servers accessible by the computer or various recording media on the user's computer.
  • the medium may be distributed to computer systems connected through a network, and computer readable codes may be stored in a distributed manner.
  • Steps of a method or algorithm described in connection with an embodiment of the present invention may be implemented directly in hardware, implemented in a software module executed by hardware, or implemented by a combination thereof.
  • a software module may include random access memory (RAM), read only memory (ROM), erasable programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), flash memory, hard disk, removable disk, CD-ROM, or It may reside in any form of computer readable recording medium well known in the art to which the present invention pertains.

Abstract

The present invention relates to a method, a device, and a program for filtering noise data of a medical text on the basis of artificial intelligence, and allows a medical text obtained by converting voice data corresponding to a telemedicine conversation into text data to be embedded and grouped by word so that noise word data is identified, and allow new text data to be filtered on the basis of the identified noise word data, and thus can provide a medical text with high accuracy and reliability.

Description

인공 지능 기반 의료 텍스트의 노이즈 데이터 필터링 방법, 장치 및 프로그램Method, apparatus and program for filtering noise data of medical text based on artificial intelligence
본 발명은 의료 텍스트의 노이즈 데이터 필터링 방법에 관한 것으로, 보다 구체적으로 원격 진료 과정에서의 대화 내용으로부터 추출한 의료 텍스트의 노이즈 데이터를 필터링할 수 있는 인공 지능 기반 의료 텍스트의 노이즈 데이터 필터링 방법, 장치 및 프로그램에 관한 것이다.The present invention relates to a method for filtering noise data of medical text, and more particularly, to a method, apparatus and program for filtering noise data of medical text based on artificial intelligence capable of filtering noise data of medical text extracted from conversation contents in a telemedicine process. It is about.
최근 들어, 새로운 유형의 전염병이 유행하면서 비대면 의료 서비스에 대한 니즈가 높아지고 있다.Recently, as a new type of infectious disease is prevalent, the need for non-face-to-face medical services is increasing.
이러한, 비대면 의료 서비스 니즈에 의해, 온라인을 통해 진단과 치료 및 자문 등의 의료 서비스를 제공하는 원격 진료가 증가하고 있는 추세이다.Due to the need for non-face-to-face medical services, telemedicine providing medical services such as diagnosis, treatment, and consultation online is increasing.
원격 진료는, 온라인을 통해 의사가 하는 다섯 가지 진찰 방법(문진, 시진, 촉진, 타진, 청진) 중 적어도 세 가지 이상을 사용하여 진찰을 하고, 소변검사, 혈액 검사, 심전도 검사 등 병원과 마찬가지의 검사를 실시하여 진단, 처방 및 치료를 시행하는 것을 의미한다.Telemedicine is an online medical examination using at least three of the five examination methods (interview, inspection, palpation, percussion, and auscultation) conducted by a doctor, as well as a urine test, blood test, and electrocardiogram test, similar to hospitals. It means conducting tests to diagnose, prescribe and treat.
원격 진료가 실시되면 먼 곳에 떨어져 있는 환자에게도 전문적인 의료를 제공할 수 있어 의료 서비스의 지역 편중을 없애고, 의료 관련 자원을 최대한 효율적으로 운영할 수 있게 되어 궁극적으로는 의료비를 절감할 수 있는 효과를 기대할 수 있다.When telemedicine is implemented, specialized medical care can be provided even to patients who are far away, eliminating regional concentration of medical services, and enabling medical resources to be operated as efficiently as possible, ultimately reducing medical expenses. can be expected
원격 진료는, 모바일 상에서 웹이나 앱 형태로 진행될 수 있는데, 음성 텍스트 변환 기술을 기반으로 의사와 환자간의 진료 상담 중에 대화 내용을 텍스트 형식으로 추출한다.Telemedicine can be conducted in the form of a web or app on a mobile device, and based on voice-to-text conversion technology, conversations between doctors and patients during medical consultation are extracted in text format.
하지만, 추출한 텍스트 데이터의 정확도가 음성 텍스트 변환 기술에 의존적이므로, 음성 텍스트 변환 기술 자체에 문제가 존재할 경우, 부정확한 텍스트가 추출되어 의사와 환자간의 진료 데이터에 오류가 발생할 수 있다.However, since the accuracy of the extracted text data depends on the voice-to-text conversion technology, if there is a problem in the voice-to-text conversion technology itself, inaccurate text may be extracted and an error may occur in the medical treatment data between the doctor and the patient.
이러한 진료 데이터의 오류는, 인공 지능의 학습뿐만 아니라 환자의 진료에도 악영향을 미쳐 잘못된 처방을 내리는 문제가 발생할 수 있다.Errors in these medical data may adversely affect not only artificial intelligence learning but also patient care, resulting in incorrect prescriptions.
따라서, 향후, 원격 진료 과정 중 대화 내용으로부터 추출한 의료 텍스트의 노이즈 데이터를 필터링하여 정확성 및 신뢰성이 높은 의료 텍스트를 제공할 수 있는 의료 텍스트의 노이즈 데이터 필터링 기술의 개발이 요구되고 있다.Therefore, in the future, there is a need to develop a technology for filtering noise data of medical text that can provide medical text with high accuracy and reliability by filtering noise data of medical text extracted from conversation contents during a remote medical treatment process.
상술한 바와 같은 문제점을 해결하기 위한 본 발명의 일 목적은, 원격 진료 대화에 상응하는 음성 데이터를 텍스트 데이터로 변환한 의료 텍스트를 단어별로 임베딩하고 군집화하여 노이즈 단어 데이터를 식별하고, 식별한 노이즈 단어 데이터를 기반으로 새로운 텍스트 데이터를 필터링함으로써, 정확성 및 신뢰성이 높은 의료 텍스트를 제공할 수 있는 의료 텍스트의 노이즈 데이터 필터링 방법, 장치 및 프로그램을 제공하는 것이다.One object of the present invention to solve the above-described problems is to identify noise word data by embedding and clustering medical text by word by converting voice data corresponding to a telemedicine conversation into text data, and identifying the identified noise word. An object of the present invention is to provide a method, apparatus, and program for filtering noise data of medical text capable of providing medical text with high accuracy and reliability by filtering new text data based on data.
본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The problems to be solved by the present invention are not limited to the problems mentioned above, and other problems not mentioned will be clearly understood by those skilled in the art from the description below.
상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 의료 텍스트의 노이즈 데이터 필터링 방법은, (a) 원격 진료 대화에 상응하는 음성 데이터를 텍스트 데이터로 변환하여 의료 텍스트를 생성하는 단계, (b) 상기 의료 텍스트를 하나의 문장마다 단어별로 임베딩하는 단계, (c) 상기 임베딩된 단어들을 군집화하여 노이즈 단어 데이터를 식별하고, 상기 식별한 노이즈 단어 데이터를 노이즈 사전에 저장하는 단계, (d) 상기 노이즈 사전에 저장된 노이즈 단어 데이터를 기반으로 노이즈 필터를 생성하는 단계, (e) 상기 원격 진료 대화에 상응하는 새로운 의료 텍스트가 생성되는지를 확인하는 단계, 및 (f) 상기 새로운 의료 텍스트가 생성되면 상기 노이즈 필터를 통해 상기 새로운 의료 텍스트를 필터링하여 노이즈 단어 데이터가 제거된 의료 텍스트로 재구성하는 단계를 포함하는 것을 특징으로 한다.A method for filtering noise data of medical text according to an embodiment of the present invention for solving the above problems includes: (a) generating medical text by converting voice data corresponding to a telemedicine conversation into text data; ) embedding the medical text word by word for each sentence, (c) identifying noise word data by clustering the embedded words, and storing the identified noise word data in a noise dictionary; generating a noise filter based on noise word data stored in a noise dictionary; (e) checking whether a new medical text corresponding to the telemedicine conversation is generated; and (f) when the new medical text is generated, and filtering the new medical text through a noise filter to reconstruct the medical text from which noise word data is removed.
실시 예에 있어서, 상기 (a) 단계는, 상기 원격 진료 대화에 상응하는 음성 데이터를 STT(Speech-to-Text)를 통해 텍스트 데이터로 변환 처리하여 의료 텍스트를 생성하는 것을 특징으로 한다.In an embodiment, the step (a) is characterized in that the medical text is generated by converting voice data corresponding to the telemedicine conversation into text data through speech-to-text (STT).
실시 예에 있어서, 상기 STT(Speech-to-Text)의 의해 생성된 의료 텍스트는, 병명 및 복약 지도 중 적어도 어느 하나를 포함하는 처방 정보와, 나이, 성별, 거주 지역 중 적어도 어느 하나를 포함하는 환자 정보를 포함하는 것을 특징으로 한다.In an embodiment, the medical text generated by STT (Speech-to-Text) includes prescription information including at least one of a disease name and medication guidance, and at least one of age, gender, and region of residence. Characterized in that it includes patient information.
실시 예에 있어서, 상기 (b) 단계는, 상기 의료 텍스트의 문장 데이터를 미리 학습된 뉴럴 네트워크 모델에 입력하여 입력 문장 데이터에 대해 단어(word)별로 임베딩하는 것을 특징으로 한다.In an embodiment, the step (b) may include inputting sentence data of the medical text into a pre-learned neural network model and embedding the input sentence data word by word.
실시 예에 있어서, 상기 (c) 단계는, 상기 임베딩된 단어들의 위치 정보를 기반으로 k-평균 클러스터링(k-means clustering) 알고리즘을 통해 단어들을 군집화하여 다수의 클러스터들을 생성하고, 상기 생성된 클러스터들에 속하지 않는 단어 데이터가 존재하면 해당하는 단어 데이터를 노이즈 단어 데이터로 간주하는 것을 특징으로 한다.In an embodiment, the step (c) generates a plurality of clusters by clustering words through a k-means clustering algorithm based on the location information of the embedded words, and generating the clusters. If there is word data that does not belong to the word data, it is characterized in that the corresponding word data is regarded as noise word data.
실시 예에 있어서, 상기 (c) 단계는, 상기 생성된 클러스터들 중 최소의 단어 수인 k개 미만의 단어로 구성된 클러스터가 존재하면 해당 클러스터에 포함되는 단어들을 노이즈 단어 데이터로 간주하는 것을 특징으로 한다.In an embodiment, in the step (c), if a cluster consisting of less than k words, which is the minimum number of words, exists among the generated clusters, words included in the corresponding cluster are regarded as noise word data. .
실시 예에 있어서, 상기 (c) 단계는, 상기 단어들을 군집화하여 다수의 클러스터들이 생성되면 상기 다수의 클러스터들을 진료 특징을 기반으로 재분류하고, 상기 재분류한 진료 특징 기반 클러스터들로부터 노이즈 단어 데이터를 식별하며, 상기 식별한 진료 특징 기반 노이즈 단어 데이터를 노이즈 사전에 저장하는 것을 특징으로 한다.In an embodiment, in the step (c), when a plurality of clusters are generated by clustering the words, the plurality of clusters are reclassified based on treatment features, and noise word data is obtained from the reclassified treatment feature based clusters. and storing the identified treatment feature-based noise word data in a noise dictionary.
실시 예에 있어서, 상기 (c) 단계는, 상기 진료 특징 중 처방 정보를 기반으로 클러스터들을 재분류하고, 상기 재분류한 클러스터들로부터 처방 정보 기반 노이즈 단어 데이터를 식별하여 상기 노이즈 사전에 저장하는 것을 특징으로 한다.In an embodiment, in the step (c), clusters are reclassified based on prescription information among the treatment characteristics, and noise word data based on prescription information is identified from the reclassified clusters and stored in the noise dictionary. to be characterized
실시 예에 있어서, 상기 (c) 단계는, 상기 진료 특징 중 환자 정보를 기반으로 클러스터들을 재분류하고, 상기 재분류한 클러스터들로부터 환자 정보 기반 노이즈 단어 데이터를 식별하여 상기 노이즈 사전에 저장하는 것을 특징으로 한다.In an embodiment, the step (c) includes reclassifying clusters based on patient information among the treatment characteristics, identifying noise word data based on patient information from the reclassified clusters, and storing the noise word data in the noise dictionary. to be characterized
실시 예에 있어서, 상기 (d) 단계는, 상기 노이즈 사전에 저장된 일반 정보 기반 노이즈 단어 데이터로부터 일반 노이즈 필터를 생성하고, 상기 노이즈 사전에 저장된 진료 특징 기반 노이즈 단어 데이터로부터 진료 특징 기반 노이즈 필터를 생성하는 것을 특징으로 한다.In an embodiment, the step (d) generates a general noise filter from general information-based noise word data stored in the noise dictionary, and generates a treatment feature-based noise filter from treatment feature-based noise word data stored in the noise dictionary. It is characterized by doing.
실시 예에 있어서, 상기 (d) 단계는, 상기 진료 특징 기반 노이즈 필터를 생성할 때, 처방 정보 기반 노이즈 필터와 환자 정보 노이즈 필터를 포함하는 진료 특징 기반 노이즈 필터를 생성하는 것을 특징으로 한다.In an embodiment, the step (d) is characterized in that, when generating the treatment feature-based noise filter, a treatment feature-based noise filter including a prescription information-based noise filter and a patient information noise filter is generated.
실시 예에 있어서, 상기 (f) 단계는, 상기 새로운 의료 텍스트가 생성되면 상기 새로운 의료 텍스트의 각 문장에 상응하는 노이즈 필터를 기반으로 상기 의료 텍스트의 각 문장에 포함되는 노이즈 단어를 제거하고, 상기 노이즈 단어가 제거된 의료 텍스트를 재구성하는 것을 특징으로 한다.In an embodiment, in step (f), when the new medical text is generated, noise words included in each sentence of the new medical text are removed based on a noise filter corresponding to each sentence of the new medical text; It is characterized in that the medical text from which noise words are removed is reconstructed.
실시 예에 있어서, 상기 (f) 단계는, 상기 새로운 의료 텍스트의 문장이 일반 정보 관련 문장이면 일반 노이즈 필터를 기반으로 상기 의료 텍스트의 일반 정보 관련 문장에 포함되는 노이즈 단어를 제거하고, 상기 새로운 의료 텍스트의 문장이 진료 특징 관련 문장이면 진료 특징 기반 노이즈 필터를 기반으로 상기 의료 텍스트의 진료 특징 문장에 포함되는 노이즈 단어를 제거하는 것을 특징으로 한다.In an embodiment, in step (f), if the sentence of the new medical text is a general information related sentence, noise words included in the general information related sentence of the medical text are removed based on a general noise filter, and the new medical text is a general information related sentence. If the sentence of the text is a sentence related to the treatment feature, noise words included in the treatment feature sentence of the medical text are removed based on the treatment feature-based noise filter.
실시 예에 있어서, 상기 (f) 단계는, 상기 새로운 의료 텍스트의 문장이 처방 정보 문장이면 처방 정보 기반 노이즈 필터를 기반으로 상기 의료 텍스트의 처방 정보 문장에 포함되는 노이즈 단어를 제거하고, 상기 새로운 의료 텍스트의 문장이 환자 정보 문장이면 환자 정보 기반 노이즈 필터를 기반으로 상기 의료 텍스트의 환자 정보 문장에 포함되는 노이즈 단어를 제거하는 것을 특징으로 한다.In an embodiment, in step (f), if the sentence of the new medical text is a prescription information sentence, noise words included in the prescription information sentence of the medical text are removed based on a prescription information-based noise filter, and the new medical text is a prescription information sentence. If the text sentence is a patient information sentence, noise words included in the patient information sentence of the medical text are removed based on a patient information based noise filter.
또한, 본 발명 일 실시예에 따른 컴퓨팅 장치는, 의료 텍스트의 노이즈 데이터 필터링 방법을 제공하기 위한 컴퓨팅 장치로서, 하나 이상의 코어를 포함하는 프로세서 및 메모리를 포함하고, 상기 프로세서는, 원격 진료 대화에 상응하는 음성 데이터를 텍스트 데이터로 변환하여 의료 텍스트를 생성하고, 상기 의료 텍스트를 하나의 문장마다 단어별로 임베딩하며, 상기 임베딩된 단어들을 군집화하여 노이즈 단어 데이터를 식별하여 상기 식별한 노이즈 단어 데이터를 노이즈 사전에 저장하고, 상기 노이즈 사전에 저장된 노이즈 단어 데이터를 기반으로 노이즈 필터를 생성하며, 상기 원격 진료 대화에 상응하는 새로운 의료 텍스트가 생성되는지를 확인하고, 및 상기 새로운 의료 텍스트가 생성되면 상기 노이즈 필터를 통해 상기 새로운 의료 텍스트를 필터링하여 노이즈 단어 데이터가 제거된 의료 텍스트로 재구성하는 것을 특징으로 한다.In addition, a computing device according to an embodiment of the present invention is a computing device for providing a method for filtering noise data of medical text, and includes a processor including one or more cores and a memory, wherein the processor corresponds to a telemedicine conversation. Medical text is generated by converting speech data to text data, the medical text is embedded by word for each sentence, and noise word data is identified by clustering the embedded words, and the identified noise word data is converted into a noise dictionary. and generates a noise filter based on the noise word data stored in the noise dictionary, checks whether a new medical text corresponding to the telemedicine conversation is generated, and if the new medical text is generated, the noise filter It is characterized in that the new medical text is reconstructed into a medical text from which noise word data is removed by filtering the new medical text.
상술한 과제를 해결하기 위한 본 발명의 다른 실시 예에 따른 의료 텍스트의 노이즈 데이터 필터링 방법을 제공하는 컴퓨터 프로그램은, 하드웨어인 컴퓨터와 결합되어 상술한 방법 중 어느 하나의 방법을 수행하기 위해 매체에 저장된다.A computer program providing a method for filtering noise data of medical text according to another embodiment of the present invention for solving the above problems is combined with a computer that is hardware and stored in a medium to perform any one of the above methods. do.
이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공될 수 있다.In addition to this, another method for implementing the present invention, another system, and a computer readable recording medium recording a computer program for executing the method may be further provided.
상기와 같이 본 발명에 따르면, 원격 진료 대화에 상응하는 음성 데이터를 텍스트 데이터로 변환한 의료 텍스트를 단어별로 임베딩하고 군집화하여 노이즈 단어 데이터를 식별하고, 식별한 노이즈 단어 데이터를 기반으로 새로운 텍스트 데이터를 필터링함으로써, 정확성 및 신뢰성이 높은 의료 텍스트를 제공할 수 있다.As described above, according to the present invention, medical texts obtained by converting voice data corresponding to telemedicine conversations into text data are embedded and clustered for each word to identify noise word data, and new text data is generated based on the identified noise word data. By filtering, medical text with high accuracy and reliability can be provided.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The effects of the present invention are not limited to the effects mentioned above, and other effects not mentioned will be clearly understood by those skilled in the art from the description below.
도 1은, 본 발명의 일 실시예에 따라, 의료 텍스트의 노이즈 데이터 필터링 방법을 제공하기 위한 동작을 수행하는 컴퓨팅 장치의 블록 구성도를 도시한 도면이다.1 is a block diagram of a computing device performing an operation for providing a method for filtering noise data of medical text according to an embodiment of the present invention.
도 2 내지 도 7은, 본 발명의 일 실시예에 따라, 의료 텍스트의 노이즈 데이터 필터링 방법을 설명하기 위한 개념도이다.2 to 7 are conceptual diagrams for explaining a method of filtering noise data of medical text according to an embodiment of the present invention.
도 8은, 본 발명의 일 실시예에 따라, 의료 텍스트의 노이즈 데이터 필터링 방법을 설명하기 위한 흐름도이다.8 is a flowchart illustrating a method of filtering noise data of medical text according to an embodiment of the present invention.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.Advantages and features of the present invention, and methods of achieving them, will become clear with reference to the detailed description of the following embodiments taken in conjunction with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but may be implemented in various different forms, only these embodiments are intended to complete the disclosure of the present invention, and are common in the art to which the present invention belongs. It is provided to fully inform the person skilled in the art of the scope of the invention, and the invention is only defined by the scope of the claims.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.Terminology used herein is for describing the embodiments and is not intended to limit the present invention. In this specification, singular forms also include plural forms unless specifically stated otherwise in a phrase. As used herein, "comprises" and/or "comprising" does not exclude the presence or addition of one or more other elements other than the recited elements. Like reference numerals throughout the specification refer to like elements, and “and/or” includes each and every combination of one or more of the recited elements. Although "first", "second", etc. are used to describe various components, these components are not limited by these terms, of course. These terms are only used to distinguish one component from another. Accordingly, it goes without saying that the first element mentioned below may also be the second element within the technical spirit of the present invention.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.Unless otherwise defined, all terms (including technical and scientific terms) used in this specification may be used with meanings commonly understood by those skilled in the art to which the present invention belongs. In addition, terms defined in commonly used dictionaries are not interpreted ideally or excessively unless explicitly specifically defined.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.
설명에 앞서 본 명세서에서 사용하는 용어의 의미를 간략히 설명한다. 그렇지만 용어의 설명은 본 명세서의 이해를 돕기 위한 것이므로, 명시적으로 본 발명을 한정하는 사항으로 기재하지 않은 경우에 본 발명의 기술적 사상을 한정하는 의미로 사용하는 것이 아님을 주의해야 한다.Prior to the description, the meaning of the terms used in this specification will be briefly described. However, it should be noted that the description of terms is intended to help the understanding of the present specification, and is not used in the sense of limiting the technical spirit of the present invention unless explicitly described as limiting the present invention.
본 명세서에서 신경망, 인공 신경망, 네트워크 함수는 종종 상호 교환 가능하게 사용될 수 있다.In this specification, neural networks, artificial neural networks, and network functions may often be used interchangeably.
또한, 본 명세서에 걸쳐, 뉴럴 네트워크(neural network), 신경망 네트워크, 네트워크 함수는, 동일한 의미로 사용될 수 있다. 뉴럴 네트워크는, 일반적으로 “노드”라 지칭될 수 있는 상호 연결된 계산 단위들의 집합으로 구성될 수 있다. 이러한 “노드”들은, “뉴런(neuron)”들로 지칭될 수도 있다. 뉴럴 네트워크는, 적어도 둘 이상의 노드들을 포함하여 구성된다. 뉴럴 네트워크들을 구성하는 노드(또는 뉴런)들은 하나 이상의 “링크”에 의해 상호 연결될 수 있다.Also, throughout this specification, a neural network, a neural network, and a network function may be used with the same meaning. A neural network may consist of a set of interconnected computational units, which may be generally referred to as “nodes”. These “nodes” may also be referred to as “neurons”. A neural network includes at least two or more nodes. Nodes (or neurons) constituting neural networks may be interconnected by one or more “links”.
도 1은, 본 발명의 일 실시예에 따라, 의료 텍스트의 노이즈 데이터 필터링 방법을 제공하기 위한 동작을 수행하는 컴퓨팅 장치의 블록 구성도를 도시한 도면이다.1 is a block diagram of a computing device performing an operation for providing a method for filtering noise data of medical text according to an embodiment of the present invention.
도 1에 도시된 컴퓨팅 장치(100)의 구성은 간략화하여 나타낸 예시일 뿐이다. 본 발명의 일 실시예에서 컴퓨팅 장치(100)는 컴퓨팅 장치(100)의 컴퓨팅 환경을 수행하기 위한 다른 구성들이 포함될 수 있고, 개시된 구성들 중 일부만이 컴퓨팅 장치(100)를 구성할 수도 있다.The configuration of the computing device 100 shown in FIG. 1 is only a simplified example. In one embodiment of the present invention, the computing device 100 may include other components for performing a computing environment of the computing device 100, and only some of the disclosed components may constitute the computing device 100.
컴퓨팅 장치(100)는, 프로세서(110), 메모리(130), 네트워크부(150)를 포함할 수 있다.The computing device 100 may include a processor 110 , a memory 130 , and a network unit 150 .
본 발명에서, 프로세서(110)는, 원격 진료 대화에 상응하는 음성 데이터를 텍스트 데이터로 변환하여 의료 텍스트를 생성하고, 의료 텍스트를 하나의 문장마다 단어별로 임베딩하며, 임베딩된 단어들을 군집화하여 노이즈 단어 데이터를 식별하여 식별한 노이즈 단어 데이터를 노이즈 사전에 저장하고, 노이즈 사전에 저장된 노이즈 단어 데이터를 기반으로 노이즈 필터를 생성하며, 원격 진료 대화에 상응하는 새로운 의료 텍스트가 생성되는지를 확인하고, 새로운 의료 텍스트가 생성되면 노이즈 필터를 통해 새로운 의료 텍스트를 필터링하여 노이즈 단어 데이터가 제거된 의료 텍스트로 재구성할 수 있다.In the present invention, the processor 110 converts voice data corresponding to the telemedicine conversation into text data to generate medical text, embeds the medical text by word in each sentence, and clusters the embedded words to generate noise words. Identify data, store the identified noise word data in a noise dictionary, create a noise filter based on the noise word data stored in the noise dictionary, check whether new medical text corresponding to the telemedicine conversation is generated, and check whether a new medical text corresponding to the telemedicine conversation is created Once the text is generated, the new medical text can be reconstructed into medical text from which noise word data has been removed by filtering the new medical text through a noise filter.
여기서, 프로세서(110)는, 원격 진료 대화에 상응하는 음성 데이터를 STT(Speech-to-Text)를 통해 텍스트 데이터로 변환 처리하여 의료 텍스트를 생성할 수 있다.Here, the processor 110 may generate medical text by converting voice data corresponding to the telemedicine conversation into text data through speech-to-text (STT).
일 예로, STT(Speech-to-Text)의 의해 생성된 의료 텍스트는, 병명 및 복약 지도 중 적어도 어느 하나를 포함하는 처방 정보와, 나이, 성별, 거주 지역 중 적어도 어느 하나를 포함하는 환자 정보를 포함할 수 있는데, 이는 일 실시예일 뿐, 이에 한정되지는 않는다.For example, medical text generated by STT (Speech-to-Text) includes prescription information including at least one of a disease name and medication map, and patient information including at least one of age, gender, and region of residence. It may include, but this is only one embodiment, but is not limited thereto.
다음, 프로세서(110)는, 의료 텍스트의 문장 데이터를 미리 학습된 뉴럴 네트워크 모델에 입력하여 입력 문장 데이터에 대해 단어(word)별로 임베딩할 수 있다.Next, the processor 110 may input the sentence data of the medical text into the pretrained neural network model and embed the input sentence data word by word.
일 예로, 뉴럴 네트워크 모델은, 워드투벡터(Word2Vec) 모델의 스킵-그램(skip-gram) 알고리즘을 포함할 수 있는데, 이는 일 실시예일 뿐, 이에 한정되지는 않는다.For example, the neural network model may include a skip-gram algorithm of a Word2Vec model, which is only an example, but is not limited thereto.
여기서, 프로세서(110)는, 의료 텍스트에서 하나의 문장 데이터가 n개의 단어로 구성되면 각 단어에 대해 문장 데이터 내의 위치를 기반으로 원-핫-벡터(one-hot-vector)를 진행할 수 있다.Here, if one sentence data in the medical text is composed of n words, the processor 110 may perform a one-hot-vector for each word based on a position in the sentence data.
또한, 프로세서(110)는, 중심 단어에 상응하는 하나의 원-핫-벡터가 프로젝션 레이어(projection layer)를 거쳐 주변 단어에 상응하는 다수의 원-핫-벡터로 출력되고, 각 출력 데이터를 소프트맥스(softmax) 알고리즘을 활용하여 변환하며, 변환된 출력 데이터와 실제 데이터(real data) 사이의 오차를 크로스 엔트로피(cross-entropy) 알고리즘을 활용하여 산출할 수 있다.In addition, the processor 110 outputs one one-hot vector corresponding to the central word as a plurality of one-hot vectors corresponding to neighboring words through a projection layer, and converts each output data into soft It is converted using a softmax algorithm, and an error between the converted output data and real data can be calculated using a cross-entropy algorithm.
여기서, 프로세서(110)는, 그레디언트 디센트(gradient descent) 알고리즘을 활용하여 출력 데이터와 실제 데이터 사이의 오차를 최소화할 수 있다.Here, the processor 110 may minimize an error between output data and actual data by utilizing a gradient descent algorithm.
이어, 프로세서(110)는, 임베딩된 단어들의 위치 정보를 기반으로 k-평균 클러스터링(k-means clustering) 알고리즘을 통해 단어들을 군집화하여 다수의 클러스터들을 생성하고, 생성된 클러스터들에 속하지 않는 단어 데이터가 존재하면 해당하는 단어 데이터를 노이즈 단어 데이터로 간주할 수 있다.Next, the processor 110 generates a plurality of clusters by clustering the words through a k-means clustering algorithm based on the location information of the embedded words, and generates word data that does not belong to the generated clusters. If exists, the corresponding word data may be regarded as noise word data.
여기서, 프로세서(110)는, 생성된 클러스터들 중 최소의 단어 수인 k개 미만의 단어로 구성된 클러스터가 존재하면 해당 클러스터에 포함되는 단어들을 노이즈 단어 데이터로 간주할 수 있다.Here, the processor 110 may regard words included in the cluster as noise word data if a cluster consisting of less than k words, which is the minimum number of words, exists among the generated clusters.
또한, 프로세서(110)는, 단어들을 군집화하여 다수의 클러스터들이 생성되면 다수의 클러스터들을 진료 특징을 기반으로 재분류하고, 재분류한 진료 특징 기반 클러스터들로부터 노이즈 단어 데이터를 식별하며, 식별한 진료 특징 기반 노이즈 단어 데이터를 노이즈 사전에 저장할 수 있다.In addition, when a plurality of clusters are generated by clustering words, the processor 110 reclassifies the plurality of clusters based on treatment features, identifies noise word data from the reclassified treatment feature-based clusters, and identifies the identified treatment features. Feature-based noise word data may be stored in a noise dictionary.
여기서, 프로세서(110)는, 진료 특징 중 처방 정보를 기반으로 클러스터들을 재분류하고, 재분류한 클러스터들로부터 처방 정보 기반 노이즈 단어 데이터를 식별하여 노이즈 사전에 저장할 수 있다.Here, the processor 110 may reclassify clusters based on prescription information among treatment characteristics, identify noise word data based on prescription information from the reclassified clusters, and store the noise word data in a noise dictionary.
일 예로, 처방 정보는, 병명 및 복약 지도 중 적어도 어느 하나를 포함할 수 있는데, 이는 일 실시예일 뿐, 이에 한정되지는 않는다.For example, the prescription information may include at least one of a disease name and a medication guide, which is only an example, but is not limited thereto.
경우에 따라, 프로세서(110)는, 진료 특징 중 환자 정보를 기반으로 클러스터들을 재분류하고, 재분류한 클러스터들로부터 환자 정보 기반 노이즈 단어 데이터를 식별하여 노이즈 사전에 저장할 수도 있다.In some cases, the processor 110 may reclassify clusters based on patient information among treatment characteristics, identify noise word data based on patient information from the reclassified clusters, and store them in a noise dictionary.
일 예로, 환자 정보는, 나이, 성별, 거주 지역 중 적어도 어느 하나를 포함할 수 있는데, 이는 일 실시예일 뿐, 이에 한정되지는 않는다.For example, patient information may include at least one of age, gender, and region of residence, which is only an example, but is not limited thereto.
다음, 프로세서(110)는, 노이즈 사전에 저장된 일반 정보 기반 노이즈 단어 데이터로부터 일반 노이즈 필터를 생성하고, 노이즈 사전에 저장된 진료 특징 기반 노이즈 단어 데이터로부터 진료 특징 기반 노이즈 필터를 생성할 수 있다.Next, the processor 110 may generate a general noise filter from general information-based noise word data stored in the noise dictionary, and may generate a diagnosis feature-based noise filter from treatment feature-based noise word data stored in the noise dictionary.
여기서, 프로세서(110)는, 진료 특징 기반 노이즈 필터를 생성할 때, 처방 정보 기반 노이즈 필터와 환자 정보 노이즈 필터를 포함하는 진료 특징 기반 노이즈 필터를 생성할 수 있다.Here, the processor 110 may generate a treatment feature-based noise filter including a prescription information-based noise filter and a patient information noise filter when generating a treatment feature-based noise filter.
그리고, 프로세서(110)는, 새로운 의료 텍스트가 생성되면 새로운 의료 텍스트의 각 문장에 상응하는 노이즈 필터를 기반으로 의료 텍스트의 각 문장에 포함되는 노이즈 단어를 제거하고, 노이즈 단어가 제거된 의료 텍스트를 재구성할 수 있다.Then, when the new medical text is generated, the processor 110 removes noise words included in each sentence of the medical text based on a noise filter corresponding to each sentence of the new medical text, and outputs the medical text from which the noise words have been removed. can be reconstructed.
여기서, 프로세서(110)는, 새로운 의료 텍스트의 문장이 일반 정보 관련 문장이면 일반 노이즈 필터를 기반으로 의료 텍스트의 일반 정보 관련 문장에 포함되는 노이즈 단어를 제거하고, 새로운 의료 텍스트의 문장이 진료 특징 관련 문장이면 진료 특징 기반 노이즈 필터를 기반으로 의료 텍스트의 진료 특징 문장에 포함되는 노이즈 단어를 제거할 수 있다.Here, if the sentence of the new medical text is a sentence related to general information, the processor 110 removes noise words included in the sentence related to general information of the medical text based on the general noise filter, and the sentence of the new medical text is related to treatment characteristics. If it is a sentence, noise words included in the treatment feature sentence of the medical text may be removed based on the treatment feature-based noise filter.
경우에 따라, 프로세서(110)는, 새로운 의료 텍스트의 문장이 처방 정보 문장이면 처방 정보 기반 노이즈 필터를 기반으로 의료 텍스트의 처방 정보 문장에 포함되는 노이즈 단어를 제거하고, 새로운 의료 텍스트의 문장이 환자 정보 문장이면 환자 정보 기반 노이즈 필터를 기반으로 의료 텍스트의 환자 정보 문장에 포함되는 노이즈 단어를 제거할 수도 있다.In some cases, if the sentence of the new medical text is a prescription information sentence, the processor 110 removes noise words included in the prescription information sentence of the medical text based on a prescription information-based noise filter, and the sentence of the new medical text is a patient information sentence. If it is an information sentence, noise words included in the patient information sentence of the medical text may be removed based on the patient information-based noise filter.
본 발명의 일 실시예에 따르면, 프로세서(110)는, 하나 이상의 코어로 구성될 수 있으며, 컴퓨팅 장치의 중앙 처리 장치(CPU: central processing unit), 범용 그래픽 처리 장치 (GPGPU: general purpose graphics processing unit), 텐서 처리 장치(TPU: tensor processing unit) 등의 데이터 분석, 딥러닝을 위한 프로세서를 포함할 수 있다. 프로세서(110)는, 메모리(130)에 저장된 컴퓨터 프로그램을 판독하여 본 발명의 일 실시예에 따른 기계 학습을 위한 데이터 처리를 수행할 수 있다. 본 발명의 일실시예에 따라 프로세서(110)는, 신경망의 학습을 위한 연산을 수행할 수 있다. 프로세서(110)는, 딥러닝(DL: deep learning)에서 학습을 위한 입력 데이터의 처리, 입력 데이터에서의 피처 추출, 오차 계산, 역전파(backpropagation)를 이용한 신경망의 가중치 업데이트 등의 신경망의 학습을 위한 계산을 수행할 수 있다. 프로세서(110)의 CPU, GPGPU, 및 TPU 중 적어도 하나가 네트워크 함수의 학습을 처리할 수 있다. 예를 들어, CPU 와 GPGPU가 함께 네트워크 함수의 학습, 네트워크 함수를 이용한 데이터 분류를 처리할 수 있다. 또한, 본 발명의 일 실시예에서 복수의 컴퓨팅 장치의 프로세서를 함께 사용하여 네트워크 함수의 학습, 네트워크 함수를 이용한 데이터 분류를 처리할 수 있다. 또한, 본 발명의 일 실시예에 따른 컴퓨팅 장치에서 수행되는 컴퓨터 프로그램은, CPU, GPGPU 또는 TPU 실행가능 프로그램일 수 있다.According to an embodiment of the present invention, the processor 110 may be composed of one or more cores, a central processing unit (CPU) of a computing device, a general purpose graphics processing unit (GPGPU) ), a processor for data analysis and deep learning, such as a tensor processing unit (TPU). The processor 110 may read a computer program stored in the memory 130 and perform data processing for machine learning according to an embodiment of the present invention. According to an embodiment of the present invention, the processor 110 may perform an operation for learning a neural network. The processor 110 performs neural network learning, such as processing input data for learning in deep learning (DL), extracting features from input data, calculating errors, and updating neural network weights using backpropagation. calculations can be performed for At least one of the CPU, GPGPU, and TPU of the processor 110 may process learning of the network function. For example, the CPU and GPGPU can process learning of network functions and data classification using network functions. In addition, in one embodiment of the present invention, the learning of a network function and data classification using a network function may be processed by using processors of a plurality of computing devices together. In addition, a computer program executed in a computing device according to an embodiment of the present invention may be a CPU, GPGPU or TPU executable program.
본 발명의 일 실시예에 따르면, 메모리(130)는, 의료 텍스트의 노이즈 데이터 필터링 방법을 수행하기 위한 컴퓨터 프로그램을 저장할 수 있으며, 저장된 컴퓨터 프로그램은 프로세서(120)에 의하여 판독되어 구동될 수 있다. 메모리(130)는, 프로세서(110)가 생성하거나 결정한 임의의 형태의 정보 및 네트워크부(150)가 수신한 임의의 형태의 정보를 저장할 수 있다.According to an embodiment of the present invention, the memory 130 may store a computer program for performing a method of filtering noise data of medical text, and the stored computer program may be read and driven by the processor 120 . The memory 130 may store any type of information generated or determined by the processor 110 and any type of information received by the network unit 150 .
본 발명의 일 실시예에 따르면, 메모리(130)는, 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 컴퓨팅 장치(100)는 인터넷(internet) 상에서 상기 메모리(130)의 저장 기능을 수행하는 웹 스토리지(web storage)와 관련되어 동작할 수도 있다. 전술한 메모리에 대한 기재는 예시일 뿐, 이에 제한되지 않는다.According to an embodiment of the present invention, the memory 130 is a flash memory type, a hard disk type, a multimedia card micro type, or a card type memory (eg SD or XD memory, etc.), RAM (Random Access Memory, RAM), SRAM (Static Random Access Memory), ROM (Read-Only Memory, ROM), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Memory) Read-Only Memory), a magnetic memory, a magnetic disk, and an optical disk may include at least one type of storage medium. The computing device 100 may operate in relation to a web storage that performs a storage function of the memory 130 on the Internet. The description of the above memory is only an example, and is not limited thereto.
본 발명의 일 실시예에 따른 네트워크부(150)는, 의료 텍스트의 노이즈 데이터 필터링 방법 결과 정보 등을 다른 컴퓨팅 장치, 서버 등과 송수신할 수 있다. 또한, 네트워크부(150)는, 복수의 컴퓨팅 장치 사이의 통신을 가능하게 하여 복수의 컴퓨팅 장치 각각에서 의료 텍스트의 노이즈 데이터 필터링 또는 모델의 학습을 위한 동작들이 분산 수행되도록 할 수 있다. 네트워크부(150)는, 복수의 컴퓨팅 장치 사이의 통신을 가능하게 하여 의료 텍스트의 노이즈 데이터 필터링 또는 네트워크 함수를 사용한 모델 학습을 위한 연산을 분산 처리하도록 할 수 있다.The network unit 150 according to an embodiment of the present invention may transmit/receive result information of a method for filtering noise data of medical text, etc. to another computing device or server. In addition, the network unit 150 enables communication between a plurality of computing devices so that operations for filtering noise data of medical text or learning a model may be performed in a distributed manner in each of the plurality of computing devices. The network unit 150 may enable communication between a plurality of computing devices to perform distributed processing of filtering noise data of medical text or calculation for learning a model using a network function.
본 발명의 일 실시예에 따른 네트워크부(150)는, 근거리(단거리), 원거리, 유선 및 무선 등과 같은 현재 사용 및 구현되는 임의의 형태의 유무선 통신 기술에 기반하여 동작할 수 있으며, 다른 네트워크들에서도 사용될 수 있다.The network unit 150 according to an embodiment of the present invention may operate based on any type of wired or wireless communication technology currently used and implemented, such as short-distance (short-distance), long-distance, wired, and wireless, and other networks. can also be used in
본 발명의 컴퓨팅 장치(100)는, 출력부 및 입력부를 더 포함할 수도 있다.The computing device 100 of the present invention may further include an output unit and an input unit.
본 발명의 일 실시예에 따른 출력부는, 의료 텍스트의 노이즈 데이터 필터링 방법을 수행하기 위한 사용자 인터페이스(UI, user interface)를 표시할 수 있다. 출력부는, 프로세서(110)가 생성하거나 결정한 임의의 형태의 정보 및 네트워크부(150)가 수신한 임의의 형태의 정보를 출력할 수 있다.The output unit according to an embodiment of the present invention may display a user interface (UI) for performing a method of filtering noise data of medical text. The output unit may output any type of information generated or determined by the processor 110 and any type of information received by the network unit 150 .
본 발명의 일 실시예에서, 출력부는, 액정 디스플레이(liquid crystal display, LCD), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display, TFT LCD), 유기 발광 다이오드(organic light-emitting diode, OLED), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display) 중에서 적어도 하나를 포함할 수 있다. 이들 중 일부 디스플레이 모듈은, 그를 통해 외부를 볼 수 있도록 투명형 또는 광 투과형으로 구성될 수 있다. 이는 투명 디스플레이 모듈이라 지칭될 수 있는데, 상기 투명 디스플레이 모듈의 대표적인 예로는 TOLED(Transparent OLED) 등이 있다.In one embodiment of the present invention, the output unit is a liquid crystal display (liquid crystal display, LCD), thin film transistor liquid crystal display (thin film transistor-liquid crystal display, TFT LCD), organic light-emitting diode (organic light-emitting diode, OLED) , a flexible display, and a 3D display. Some of these display modules may be of a transparent type or a light transmissive type so that the outside can be seen through them. This may be referred to as a transparent display module, and a representative example of the transparent display module is TOLED (Transparent OLED) and the like.
본 발명의 일 실시예에 따른 입력부는, 사용자 입력을 수신할 수 있다. 입력부는, 사용자 입력을 수신받기 위한 사용자 인터페이스 상의 키 및/또는 버튼들, 또는 물리적인 키 및/또는 버튼들을 구비할 수 있다. 입력부를 통한 사용자 입력에 따라 본 발명의 실시예들에 따른 디스플레이를 제어하기 위한 컴퓨터 프로그램이 실행될 수 있다.The input unit according to an embodiment of the present invention may receive a user input. The input unit may include keys and/or buttons on a user interface for receiving user input, or physical keys and/or buttons. A computer program for controlling a display according to embodiments of the present invention may be executed according to a user input through an input unit.
본 발명의 실시예들에 따른 입력부는, 사용자의 버튼 조작 또는 터치 입력을 감지하여 신호를 수신하거나, 카메라 또는 마이크로폰을 통하여 사용자 등의 음성 또는 동작을 수신하여 이를 입력 신호로 변환할 수도 있다. 이를 위해 음성 인식(Speech Recognition) 기술 또는 동작 인식(Motion Recognition) 기술들이 사용될 수 있다.The input unit according to embodiments of the present invention may detect a user's button operation or touch input and receive a signal, or may receive a user's voice or motion through a camera or microphone and convert it into an input signal. For this purpose, speech recognition technology or motion recognition technology may be used.
본 발명의 실시예들에 따른 입력부는, 컴퓨팅 장치(100)와 연결된 외부 입력 장비로서 구현될 수도 있다. 예를 들어, 입력 장비는 사용자 입력을 수신하기 위한 터치 패드, 터치 펜, 키보드 또는 마우스 중 적어도 하나일 수 있으나, 이는 예시일 뿐이며 이에 제한되는 것은 아니다.The input unit according to embodiments of the present invention may be implemented as an external input device connected to the computing device 100 . For example, the input device may be at least one of a touch pad, a touch pen, a keyboard, or a mouse for receiving a user input, but this is only an example and is not limited thereto.
본 발명의 일 실시예에 따른 입력부는, 사용자 터치 입력을 인식할 수 있다. 본 발명의 일 실시예에 따른 입력부는, 출력부와 동일한 구성일 수도 있다. 입력부는, 사용자의 선택 입력을 수신하도록 구현되는 터치 스크린으로 구성될 수 있다. 터치 스크린은, 접촉식 정전용량 방식, 적외선 광 감지 방식, 표면 초음파(SAW) 방식, 압전 방식, 저항막 방식 중 어느 하나의 방식이 사용될 수 있다. 전술한 터치 스크린에 대한 자세한 기재는, 본 발명의 일 실시예에 따른 예시일 뿐이며, 다양한 터치 스크린 패널이 컴퓨팅 장치(100)에 채용될 수 있다. 터치 스크린으로 구성된 입력부는, 터치 센서를 포함할 수 있다. 터치 센서는, 입력부의 특정 부위에 가해진 압력 또는 입력부의 특정 부위에 발생하는 정전 용량 등의 변화를 전기적인 입력신호로 변환하도록 구성될 수 있다. 터치 센서는, 터치 되는 위치 및 면적뿐만 아니라, 터치 시의 압력까지도 검출할 수 있도록 구성될 수 있다. 터치 센서에 대한 터치입력이 있는 경우, 그에 대응하는 신호(들)는 터치 제어기로 보내진다. 터치 제어기는, 그 신호(들)를 처리한 다음 대응하는 데이터를 프로세서(110)로 전송할 수 있다. 이로써, 프로세서(110)는 입력부의 어느 영역이 터치 되었는지 여부 등을 인식할 수 있게 된다.The input unit according to an embodiment of the present invention may recognize a user touch input. The input unit according to an embodiment of the present invention may have the same configuration as the output unit. The input unit may include a touch screen implemented to receive a user's selection input. The touch screen may use any one of a contact capacitive method, an infrared light sensing method, a surface ultrasonic (SAW) method, a piezoelectric method, and a resistive film method. Detailed description of the touch screen described above is only an example according to an embodiment of the present invention, and various touch screen panels may be employed in the computing device 100 . The input unit configured as a touch screen may include a touch sensor. The touch sensor may be configured to convert a change in pressure applied to a specific portion of the input unit or capacitance generated at a specific portion of the input unit into an electrical input signal. The touch sensor may be configured to detect not only the touched position and area, but also the pressure upon touch. When there is a touch input to the touch sensor, the corresponding signal(s) is sent to the touch controller. The touch controller may process the signal(s) and then transmit corresponding data to processor 110 . Accordingly, the processor 110 can recognize which area of the input unit has been touched.
본 발명의 일 실시예에서, 서버는, 서버의 서버 환경을 수행하기 위한 다른 구성들이 포함될 수도 있다. 서버는 임의의 형태의 장치는 모두 포함할 수 있다. 서버는, 디지털 기기로서, 랩탑 컴퓨터, 노트북 컴퓨터, 데스크톱 컴퓨터, 웹 패드, 이동 전화기와 같이 프로세서를 탑재하고 메모리를 구비한 연산 능력을 갖춘 디지털 기기일 수 있다.In one embodiment of the present invention, the server may include other configurations for performing the server environment of the server. The server may include any type of device. The server may be a digital device, such as a laptop computer, a notebook computer, a desktop computer, a web pad, or a mobile phone, equipped with a processor and having an arithmetic capability with a memory.
본 발명의 일 실시예에 따른 의료 텍스트의 노이즈 데이터 필터링 결과를 표시하는 사용자 인터페이스를 사용자 단말로 제공하기 위한 동작을 수행하는 서버(미도시)는, 네트워크부, 프로세서 및 메모리를 포함할 수 있다.A server (not shown) performing an operation for providing a user interface displaying a filtering result of noise data of medical text according to an embodiment of the present invention to a user terminal may include a network unit, a processor, and a memory.
서버는, 본 발명의 실시예들에 따른 사용자 인터페이스를 생성할 수 있다. 서버는, 클라이언트(예를 들어, 사용자 단말)에게 네트워크를 통해 정보를 제공하는 컴퓨팅 시스템일 수 있다. 서버는, 생성한 사용자 인터페이스를 사용자 단말로 전송할 수 있다. 이러한 경우, 사용자 단말은, 서버에 액세스할 수 있는 임의의 형태의 컴퓨팅 장치(100)일 수 있다. 서버의 프로세서는, 네트워크부를 통해 사용자 단말로 사용자 인터페이스를 전송할 수 있다. 본 발명의 실시예들에 따른 서버는 예를 들어, 클라우드 서버일 수 있다. 서버는 서비스를 처리하는 웹 서버일 수 있다. 전술한 서버의 종류는 예시일 뿐이며 이에 제한되지 않는다.The server may generate a user interface according to embodiments of the present invention. The server may be a computing system that provides information to clients (eg, user terminals) over a network. The server may transmit the generated user interface to the user terminal. In this case, the user terminal may be any type of computing device 100 capable of accessing the server. The processor of the server may transmit the user interface to the user terminal through the network unit. A server according to embodiments of the present invention may be, for example, a cloud server. The server may be a web server that processes services. The types of servers described above are examples only and are not limited thereto.
이와 같이, 본 발명은, 원격 진료 대화에 상응하는 음성 데이터를 텍스트 데이터로 변환한 의료 텍스트를 단어별로 임베딩하고 군집화하여 노이즈 단어 데이터를 식별하고, 식별한 노이즈 단어 데이터를 기반으로 새로운 텍스트 데이터를 필터링함으로써, 정확성 및 신뢰성이 높은 의료 텍스트를 제공할 수 있다.In this way, the present invention embeds and clusters medical texts obtained by converting voice data corresponding to telemedicine conversations into text data by word, identifies noise word data, and filters new text data based on the identified noise word data. By doing so, it is possible to provide medical texts with high accuracy and reliability.
도 2 내지 도 7은, 본 발명의 일 실시예에 따라, 의료 텍스트의 노이즈 데이터 필터링 방법을 설명하기 위한 개념도이다.2 to 7 are conceptual diagrams for explaining a method of filtering noise data of medical text according to an embodiment of the present invention.
도 2 내지 도 7에 도시된 바와 같이, 본 발명은, 의료 텍스트 보정을 위한 방법에 관한 기술이다.2 to 7, the present invention relates to a method for correcting medical text.
본 발명의 의료 텍스트는, 원격 진료 과정에서 추출된 데이터를 포함할 수 있다.The medical text of the present invention may include data extracted in a remote medical treatment process.
여기서, 원격 진료는, 모바일 상에서 웹이나 앱 형태로 진행되며, STT(Speech-to-Text)를 통해 진료 중 대화 내용을 텍스트 형식으로 추출할 수 있다.Here, telemedicine is conducted in the form of a web or app on a mobile device, and conversation contents during medical treatment can be extracted in a text format through speech-to-text (STT).
이때, 추출된 텍스트 데이터의 정확도는, STT 기술에 의존적이므로, STT 기술을 활용하여 음성 데이터로부터 텍스트 데이터를 추출할 경우, STT 기술 자체에 문제가 존재한다면 부정확한 텍스트 데이터가 추출될 수 있다.At this time, since the accuracy of the extracted text data depends on the STT technology, when text data is extracted from voice data using the STT technology, inaccurate text data may be extracted if there is a problem in the STT technology itself.
따라서, STT 자체를 개발하여 학습하지 않는 한 추출된 텍스트 데이터는, 기존 기술에 의존적이므로, 본 발명은, 기존 STT 기술을 사용하면서 추가적으로 추출된 텍스트를 보정하여 텍스트 데이터의 정확도를 제고하는 방법이다.Therefore, unless the STT itself is developed and learned, the extracted text data is dependent on the existing technology. Therefore, the present invention is a method for improving the accuracy of the text data by additionally correcting the extracted text while using the existing STT technology.
여기서, 정확도란, 음성 데이터와 추출된 텍스트 데이터 사이에 존재하는 오차의 정도가 아닌 음성 데이터의 문맥상 의미를 추출된 텍스트 데이터가 포함하고 있는 정도를 의미한다.Here, the accuracy means the degree to which the extracted text data includes the contextual meaning of the voice data, not the degree of error that exists between the voice data and the extracted text data.
예를 들어, 음성 데이터 '가나다'를 통해 추출된 텍스트 데이터를 '가냐다'라고 가정할 경우, 음성 데이터 '가나다'를 v1, '가냐다'를 t1이라고 하면, 두 데이터 사이의 오차의 정도를 에디트 디스턴스(edit distance)인 dist(v1, t1)으로 표현할 수 있다.For example, assuming that the text data extracted through the voice data 'Kanada' is 'Kanada', and the voice data 'Kanada' is v1 and 'Kanada' is t1, the degree of error between the two data is It can be expressed as dist(v1, t1), which is an edit distance.
이러한 방식은, 텍스트의 차이에 따라 명확한 오차 값이 존재하는 반면에 문맥상의 차이에서는 두 데이터의 문맥상 유사도(유사도는, cosine simularity로 가정) sim(v1, t1)을 계산하여 그 결과가 높은 경우, 올바른 추출로 가정할 수 있다.In this method, while there is a clear error value depending on the difference in text, in the context difference, the contextual similarity of the two data (similarity is assumed to be cosine similarity) sim(v1, t1) is calculated and the result is high. , can be assumed to be the correct extraction.
따라서, 본 발명은, 추출된 텍스트 데이터 사이의 문맥상 유사도를 도출하고, 이 정보를 활용하여 의미 있는 단어와 무의미한 단어를 구분할 수 있다.Therefore, according to the present invention, contextual similarity between extracted text data can be derived, and meaningful words and nonsensical words can be distinguished by utilizing this information.
그리고, 본 발명은, 이러한 분류를 활용하여 무의미한 단어를 필터링하는 방법이다.And, the present invention is a method of filtering meaningless words using such a classification.
도 2와 같이, 본 발명은, 텍스트 임베딩, 텍스트 군집화 및 분류, 그리고 노이즈 데이터 필터인 아웃라이어(outlier) 구성의 3 단계를 통해 진행될 수 있다.As shown in FIG. 2 , the present invention may proceed through three steps of text embedding, text clustering and classification, and constructing outliers that are noise data filters.
본 발명은, 텍스트 임베딩 단계로서, 원격 진료 대화에 상응하는 음성 데이터를 텍스트 데이터로 변환하여 의료 텍스트를 생성하고, 의료 텍스트를 하나의 문장마다 단어별로 임베딩할 수 있다.In the present invention, as a text embedding step, medical text may be generated by converting voice data corresponding to a telemedicine conversation into text data, and the medical text may be embedded word by word in each sentence.
다음, 본 발명은, 텍스트 군집화 및 분류 단계로서, 임베딩된 단어들을 군집화하여 노이즈 단어 데이터를 식별할 수 있다.Next, as a text clustering and classification step, noise word data may be identified by clustering embedded words.
이어, 본 발명은, 아웃라이어 구성 단계로서, 식별한 노이즈 단어 데이터를 노이즈 사전에 저장하고, 노이즈 사전에 저장된 노이즈 단어 데이터를 기반으로 노이즈 필터를 생성할 수 있다.Next, in the present invention, as an outlier constructing step, the identified noise word data may be stored in a noise dictionary, and a noise filter may be generated based on the noise word data stored in the noise dictionary.
그리고, 본 발명은, 새로운 의료 텍스트가 입력되면 노이즈 필터를 통해 새로운 의료 텍스트를 필터링하여 노이즈 단어 데이터가 제거된 의료 텍스트로 재구성할 수 있다.Also, according to the present invention, when a new medical text is input, the new medical text is filtered through a noise filter to reconstruct the medical text from which noise word data is removed.
한편, 텍스트 임베딩 단계는, 원격 진료 대화에 상응하는 음성 데이터를 STT(Speech-to-Text)를 통해 텍스트 데이터로 변환 처리하여 의료 텍스트를 생성하고, 의료 텍스트의 문장 데이터를 미리 학습된 뉴럴 네트워크 모델에 입력하여 입력 문장 데이터에 대해 단어(word)별로 임베딩할 수 있다.Meanwhile, in the text embedding step, medical text is generated by converting speech data corresponding to a telemedicine conversation into text data through STT (Speech-to-Text), and the sentence data of the medical text is pretrained with a neural network model. By inputting into , it is possible to embed the input sentence data for each word.
일 예로, 뉴럴 네트워크 모델은, 워드투벡터(Word2Vec) 모델의 스킵-그램(skip-gram) 알고리즘을 포함할 수 있다.For example, the neural network model may include a skip-gram algorithm of a Word2Vec model.
도 3은, 스킵-그램(skip-gram)을 적용하기 위해 텍스트 데이터를 원-핫-벡터(one-hot-vector)로 변환하는 과정을 보여주고 있다.3 shows a process of converting text data into a one-hot-vector to apply a skip-gram.
여기서, 도 3과 같이, 본 발명은, 의료 텍스트에서 하나의 문장 데이터가 n개의 단어로 구성되면 각 단어에 대해 문장 데이터 내의 위치를 기반으로 원-핫-벡터(one-hot-vector)를 진행할 수 있다.Here, as shown in FIG. 3, in the present invention, if one sentence data in the medical text is composed of n words, a one-hot-vector is performed for each word based on the position in the sentence data. can
예를 들어, n개의 단어가 있는 문장에서 w1이 문장의 첫 번째 위치한 단어라면, w1에 대한 원-핫-벡터(one-hot-vector)는, 첫 번째 위치만 1이고 나머지는 0인 n차원의 벡터일 수 있다.For example, in a sentence with n words, if w1 is the first word in the sentence, then the one-hot-vector for w1 is n-dimensional, where only the first position is 1 and the rest are 0. may be a vector of
또한, 도 4는, 스킵-그램(skip-gram)을 이용하여 입력 문장에 대해 단어(word)별로 임베딩을 진행하는 과정을 보여주고 있다.In addition, FIG. 4 shows a process of performing word-by-word embedding of an input sentence using a skip-gram.
즉, 첫 단어와 나머지 단어들의 관계를 도 4와 같은 구조로 학습함으로써, 임베딩을 진행할 수 있다.That is, embedding can be performed by learning the relationship between the first word and the remaining words in the structure shown in FIG. 4 .
여기서, 본 발명은, 도 4와 같이, 중심 단어에 상응하는 하나의 원-핫-벡터가 프로젝션 레이어(projection layer)를 거쳐 주변 단어에 상응하는 다수의 원-핫-벡터로 출력되고, 각 출력 데이터를 소프트맥스(softmax) 알고리즘을 활용하여 변환하며, 변환된 출력 데이터와 실제 데이터(real data) 사이의 오차를 크로스 엔트로피(cross-entropy) 알고리즘을 활용하여 산출할 수 있다.Here, in the present invention, as shown in FIG. 4, one one-hot-vector corresponding to the central word is output as a plurality of one-hot-vectors corresponding to neighboring words through a projection layer, and each output Data may be converted using a softmax algorithm, and an error between converted output data and real data may be calculated using a cross-entropy algorithm.
여기서, 프로세서(110)는, 그레디언트 디센트(gradient descent) 알고리즘을 활용하여 출력 데이터와 실제 데이터 사이의 오차를 최소화할 수 있다.Here, the processor 110 may minimize an error between output data and actual data by utilizing a gradient descent algorithm.
이어, 텍스트 군집화 및 분류 단계는, 임베딩된 단어들의 위치 정보를 기반으로 k-평균 클러스터링(k-means clustering) 알고리즘을 통해 단어들을 군집화하여 다수의 클러스터들을 생성하고, 생성된 클러스터들에 속하지 않는 단어 데이터가 존재하면 해당하는 단어 데이터를 노이즈 단어 데이터로 간주할 수 있다.Then, in the text clustering and classification step, multiple clusters are generated by clustering words through a k-means clustering algorithm based on the location information of the embedded words, and words that do not belong to the generated clusters are generated. If data exists, corresponding word data may be regarded as noise word data.
즉, 본 발명은, 모든 단어(word) 단위의 텍스트 데이터를 벡터(vector)로 표현할 수 있고, 각 단어 벡터(word vector)를 기반으로 단어(word) 군집화가 가능ㅎ하다.That is, according to the present invention, text data in units of all words can be expressed as vectors, and word clustering is possible based on each word vector.
도 5의 (1)은, 2차원 좌표 평면 상에 표현된 단어 벡터를 보여주는 일 예이고, 도 5의 (2)는, 도 5의 (1)과 같이 단어 위치 정보를 기반으로 k-평균 클러스터링 알고리즘을 적용한 결과의 일 예를 보여주고 있다.Figure 5(1) is an example showing word vectors expressed on a two-dimensional coordinate plane, and Figure 5(2) shows k-means clustering based on word location information as shown in Figure 5(1). An example of the result of applying the algorithm is shown.
도 5의 (2)에서는, 크게 2개의 클러스터로 구성되며, 3개의 단어 데이터는 어느 클러스터에도 속하지 않는 노이즈 단어 데이터로 간주할 수 있다.In (2) of FIG. 5, it is largely composed of two clusters, and three word data can be regarded as noise word data that does not belong to any cluster.
여기서, 본 발명은, 생성된 클러스터들 중 최소의 단어 수인 k개 미만의 단어로 구성된 클러스터가 존재하면 해당 클러스터에 포함되는 단어들을 노이즈 단어 데이터로 간주할 수 있다.Here, in the present invention, if a cluster consisting of less than k words, which is the minimum number of words, exists among the generated clusters, words included in the corresponding cluster may be regarded as noise word data.
또한, 본 발명은, 단어들을 군집화하여 다수의 클러스터들이 생성되면 다수의 클러스터들을 진료 특징을 기반으로 재분류하고, 재분류한 진료 특징 기반 클러스터들로부터 노이즈 단어 데이터를 식별하며, 식별한 진료 특징 기반 노이즈 단어 데이터를 노이즈 사전에 저장할 수 있다.In addition, the present invention, when a plurality of clusters are generated by clustering words, reclassifies the plurality of clusters based on treatment characteristics, identifies noise word data from the reclassified treatment feature-based clusters, and identifies noise word data based on the identified treatment characteristics. Noise word data can be stored in a noise dictionary.
여기서, 본 발명은, 진료 특징 중 처방 정보를 기반으로 클러스터들을 재분류하고, 재분류한 클러스터들로부터 처방 정보 기반 노이즈 단어 데이터를 식별하여 노이즈 사전에 저장할 수 있다.Here, according to the present invention, clusters may be reclassified based on prescription information among treatment characteristics, and noise word data based on prescription information may be identified and stored in a noise dictionary from the reclassified clusters.
경우에 따라, 본 발명은, 진료 특징 중 환자 정보를 기반으로 클러스터들을 재분류하고, 재분류한 클러스터들로부터 환자 정보 기반 노이즈 단어 데이터를 식별하여 노이즈 사전에 저장할 수도 있다.In some cases, the present invention may reclassify clusters based on patient information among treatment characteristics, identify noise word data based on patient information from the reclassified clusters, and store them in a noise dictionary.
다음, 아웃라이어 구성 단계는, 노이즈 사전에 저장된 단어들을 아웃라이어(outlier)로 가정할 수 있다.Next, in the outlier construction step, words stored in the noise dictionary may be assumed as outliers.
그리고, 본 발명은, STT를 통해 새롭게 입력으로 들어온 의료 텍스트의 단어들을 먼저 노이즈 사전을 이용하여 필터링할 수 있다.Further, in the present invention, words of the medical text newly input through the STT may be filtered by first using the noise dictionary.
도 5는, 노이즈 사전을 통해 구성된 노이즈 필터인 아웃라이어(Outlier)를 이용하여 새로운 의료 텍스트 입력의 노이즈 데이터를 필터링하는 예를 보여주고 있다.5 shows an example of filtering noise data of a new medical text input using an outlier, which is a noise filter configured through a noise dictionary.
도 5와 같이, 문장 k(sentence_k)는, STT를 통해 새롭게 도출된 텍스트 데이터의 일 예로서, 문장 k(sentence_k) 내에 포함된 노이즈 단어 데이터 w_15와 w_17을 제거한 후에 문장 k(sentence_k)를 재구성할 수 있다.As shown in FIG. 5 , sentence k (sentence_k) is an example of text data newly derived through STT. After removing noise word data w_15 and w_17 included in sentence k (sentence_k), sentence k (sentence_k) may be reconstructed. can
여기서, 재구성된 문장 k는, 노이즈 단어 데이터인 아웃라이어(outlier) 단어들이 제거된 문장으로 가정할 수 있다.Here, the reconstructed sentence k may be assumed to be a sentence in which outlier words, which are noise word data, are removed.
본 발명과 같이, Word2vec과 클러스터링을 통해 아웃라이어(outlier)를 선택할 때의 이점은, 텍스트 데이터 변환 중 우연히 혹은 잘못된 형태로 추출된 단어들을 검출할 수 있다는 것이다.As in the present invention, an advantage of selecting outliers through Word2vec and clustering is that words accidentally or incorrectly extracted during text data conversion can be detected.
이로 인해, 우연히 변환되거나 잘못 변환된 단어들은, 그렇지 않은 단어들에 비해 빈도수가 적을 것이고, 다양한 문장 내에 위치할 확률도 줄어들게 된다.As a result, words that are accidentally converted or incorrectly converted will have a lower frequency than words that are not, and the probability of being located in various sentences is also reduced.
따라서, 이러한 단어들을 아웃라이어(outlier)로 선택할 경우, 향후 잘못된 단어들을 검출할 수 있는 가능성이 높아지게 된다.Therefore, when these words are selected as outliers, the possibility of detecting incorrect words in the future increases.
또한, 본 발명은, 분류 정보 기반으로 아웃라이어(outlier)를 구성할 수 있다.Also, according to the present invention, an outlier may be configured based on classification information.
즉, 본 발명은, 진료 특징으로 분류된 정보를 기반으로 노이즈 단어 데이터를 식별하면 각 분류 정보별로 노이즈 사전을 도출할 수 있다.That is, in the present invention, when noise word data is identified based on information classified as treatment characteristics, a noise dictionary can be derived for each classification information.
그리고, 각 노이즈 사전을 기반으로 원격 진료에 적합한 아웃라이어(outlier) 검출이 가능하다.In addition, it is possible to detect outliers suitable for telemedicine based on each noise dictionary.
도 6은, 분류 정보 기반 아웃라이어(outlier) 구성의 예시를 보여주고 있다.6 shows an example of an outlier configuration based on classification information.
도 6은, 처방 A에 대한 분류 군집을 나타내며, 문장 k(sentence_k)는, 처방 A에 대한 입력문장의 단어 단위 집합이다.6 shows classification clusters for prescription A, and sentence k (sentence_k) is a word unit set of input sentences for prescription A.
즉, 이는, STT를 통해 입력받은 문장 중 처방 A로 분류된 문장을 의미한다.That is, this means a sentence classified as prescription A among sentences input through the STT.
그리고, 해당 문장(sentence)에 대해 아웃라이어(outlier) 검출을 진행할 수 있다.Then, outlier detection may be performed on the corresponding sentence.
따라서, 본 발명은, 노이즈 사전에 저장된 일반 정보 기반 노이즈 단어 데이터로부터 일반 노이즈 필터를 생성하고, 노이즈 사전에 저장된 진료 특징 기반 노이즈 단어 데이터로부터 진료 특징 기반 노이즈 필터를 생성할 수 있다.Accordingly, the present invention may generate a general noise filter from general information-based noise word data stored in the noise dictionary, and a treatment feature-based noise filter from treatment feature-based noise word data stored in the noise dictionary.
여기서, 본 발명은, 진료 특징 기반 노이즈 필터를 생성할 때, 처방 정보 기반 노이즈 필터와 환자 정보 노이즈 필터를 포함하는 진료 특징 기반 노이즈 필터를 생성할 수 있다.Here, when generating a noise filter based on a treatment feature, the present invention may generate a noise filter based on a treatment feature including a noise filter based on prescription information and a noise filter based on patient information.
그리고, 본 발명은, 새로운 의료 텍스트가 생성되면 새로운 의료 텍스트의 각 문장에 상응하는 노이즈 필터를 기반으로 의료 텍스트의 각 문장에 포함되는 노이즈 단어를 제거하고, 노이즈 단어가 제거된 의료 텍스트를 재구성할 수 있다.In addition, in the present invention, when a new medical text is generated, noise words included in each sentence of the medical text are removed based on a noise filter corresponding to each sentence of the new medical text, and the medical text from which the noise words are removed is reconstructed. can
여기서, 본 발명은, 새로운 의료 텍스트의 문장이 일반 정보 관련 문장이면 일반 노이즈 필터를 기반으로 의료 텍스트의 일반 정보 관련 문장에 포함되는 노이즈 단어를 제거하고, 새로운 의료 텍스트의 문장이 진료 특징 관련 문장이면 진료 특징 기반 노이즈 필터를 기반으로 의료 텍스트의 진료 특징 문장에 포함되는 노이즈 단어를 제거할 수 있다.Here, in the present invention, if the sentence of the new medical text is a sentence related to general information, noise words included in the sentence related to general information of the medical text are removed based on the general noise filter, and if the sentence of the new medical text is a sentence related to treatment characteristics, Noise words included in the treatment feature sentences of the medical text may be removed based on the treatment feature-based noise filter.
일 예로, 본 발명은, 새로운 의료 텍스트의 문장이 처방 정보 문장이면 처방 정보 기반 노이즈 필터를 기반으로 의료 텍스트의 처방 정보 문장에 포함되는 노이즈 단어를 제거하고, 새로운 의료 텍스트의 문장이 환자 정보 문장이면 환자 정보 기반 노이즈 필터를 기반으로 의료 텍스트의 환자 정보 문장에 포함되는 노이즈 단어를 제거할 수도 있다.For example, in the present invention, if the sentence of the new medical text is a prescription information sentence, noise words included in the prescription information sentence of the medical text are removed based on the prescription information-based noise filter, and if the sentence of the new medical text is a patient information sentence, Noise words included in patient information sentences of the medical text may be removed based on the patient information-based noise filter.
도 8은, 본 발명의 일 실시예에 따라, 의료 텍스트의 노이즈 데이터 필터링 방법을 설명하기 위한 흐름도이다.8 is a flowchart illustrating a method of filtering noise data of medical text according to an embodiment of the present invention.
도 8에 도시된 바와 같이, 본 발명은, 원격 진료 대화에 상응하는 음성 데이터를 텍스트 데이터로 변환하여 의료 텍스트를 생성할 수 있다(S10).As shown in FIG. 8 , according to the present invention, medical text may be generated by converting voice data corresponding to a telemedicine conversation into text data (S10).
이어, 본 발명은, 의료 텍스트를 하나의 문장마다 단어별로 임베딩할 수 있다(S20).Subsequently, the present invention may embed medical text for each word in each sentence (S20).
다음, 본 발명은, 임베딩된 단어들을 군집화하여 노이즈 단어 데이터를 식별하고, 식별한 노이즈 단어 데이터를 노이즈 사전에 저장하며, 노이즈 사전에 저장된 노이즈 단어 데이터를 기반으로 노이즈 필터를 생성할 수 있다(S30).Next, the present invention may cluster the embedded words to identify noise word data, store the identified noise word data in a noise dictionary, and generate a noise filter based on the noise word data stored in the noise dictionary (S30). ).
여기서, 본 발명은, 임베딩된 단어들의 위치 정보를 기반으로 k-평균 클러스터링(k-means clustering) 알고리즘을 통해 단어들을 군집화하여 다수의 클러스터들을 생성하고, 생성된 클러스터들에 속하지 않는 단어 데이터가 존재하면 해당하는 단어 데이터를 노이즈 단어 데이터로 간주할 수 있다.Here, the present invention generates a plurality of clusters by clustering words through a k-means clustering algorithm based on positional information of embedded words, and word data that does not belong to the generated clusters exists. Then, corresponding word data may be regarded as noise word data.
또한, 본 발명은, 다수의 클러스터들을 진료 특징을 기반으로 재분류하고, 재분류한 진료 특징 기반 클러스터들로부터 노이즈 단어 데이터를 식별하며, 식별한 진료 특징 기반 노이즈 단어 데이터를 노이즈 사전에 저장할 수 있다.In addition, the present invention may reclassify a plurality of clusters based on treatment characteristics, identify noise word data from the reclassified treatment feature-based clusters, and store the identified treatment feature-based noise word data in a noise dictionary. .
또한, 본 발명은, 노이즈 사전에 저장된 일반 정보 기반 노이즈 단어 데이터로부터 일반 노이즈 필터를 생성하고, 노이즈 사전에 저장된 진료 특징 기반 노이즈 단어 데이터로부터 진료 특징 기반 노이즈 필터를 생성할 수 있다.In addition, the present invention may generate a general noise filter from general information-based noise word data stored in the noise dictionary, and a treatment feature-based noise filter from treatment feature-based noise word data stored in the noise dictionary.
그리고, 본 발명은, 원격 진료 대화에 상응하는 새로운 의료 텍스트가 생성할 수 있다(S40).And, according to the present invention, a new medical text corresponding to the telemedicine conversation may be generated (S40).
이어, 본 발명은, 새로운 의료 텍스트가 생성되면 노이즈 필터를 통해 새로운 의료 텍스트를 필터링하여 노이즈 단어 데이터가 제거된 의료 텍스트로 재구성할 수 있다(S50).Subsequently, when a new medical text is generated, the present invention filters the new medical text through a noise filter to reconstruct the medical text from which noise word data is removed (S50).
여기서, 본 발명은, 새로운 의료 텍스트가 생성되면 새로운 의료 텍스트의 각 문장에 상응하는 노이즈 필터를 기반으로 의료 텍스트의 각 문장에 포함되는 노이즈 단어를 제거하고, 노이즈 단어가 제거된 의료 텍스트를 재구성할 수 있다.Here, in the present invention, when a new medical text is generated, noise words included in each sentence of the medical text are removed based on a noise filter corresponding to each sentence of the new medical text, and the medical text from which the noise words are removed is reconstructed. can
일 예로, 본 발명은, 새로운 의료 텍스트의 문장이 일반 정보 관련 문장이면 일반 노이즈 필터를 기반으로 의료 텍스트의 일반 정보 관련 문장에 포함되는 노이즈 단어를 제거하고, 새로운 의료 텍스트의 문장이 진료 특징 관련 문장이면 진료 특징 기반 노이즈 필터를 기반으로 의료 텍스트의 진료 특징 문장에 포함되는 노이즈 단어를 제거할 수 있다.For example, in the present invention, if a sentence of the new medical text is a sentence related to general information, noise words included in the sentence related to general information of the medical text are removed based on a general noise filter, and the sentence of the new medical text is a sentence related to treatment characteristics. Noise words included in treatment feature sentences of the medical text can be removed based on the background treatment feature-based noise filter.
이와 같이, 본 발명은, 원격 진료 대화에 상응하는 음성 데이터를 텍스트 데이터로 변환한 의료 텍스트를 단어별로 임베딩하고 군집화하여 노이즈 단어 데이터를 식별하고, 식별한 노이즈 단어 데이터를 기반으로 새로운 텍스트 데이터를 필터링함으로써, 정확성 및 신뢰성이 높은 의료 텍스트를 제공할 수 있다.In this way, the present invention embeds and clusters medical texts obtained by converting voice data corresponding to telemedicine conversations into text data by word, identifies noise word data, and filters new text data based on the identified noise word data. By doing so, it is possible to provide medical texts with high accuracy and reliability.
이상에서 전술한 본 발명의 일 실시예에 따른 방법은, 하드웨어인 서버와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.The method according to an embodiment of the present invention described above may be implemented as a program (or application) to be executed in combination with a server, which is hardware, and stored in a medium.
상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.The aforementioned program is C, C++, JAVA, machine language, etc. It may include a code coded in a computer language of. These codes may include functional codes related to functions defining necessary functions for executing the methods, and include control codes related to execution procedures necessary for the processor of the computer to execute the functions according to a predetermined procedure. can do. In addition, these codes may further include memory reference related codes for which location (address address) of the computer's internal or external memory should be referenced for additional information or media required for the computer's processor to execute the functions. there is. In addition, when the processor of the computer needs to communicate with any other remote computer or server in order to execute the functions, the code uses the computer's communication module to determine how to communicate with any other remote computer or server. It may further include communication-related codes for whether to communicate, what kind of information or media to transmit/receive during communication, and the like.
상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.The storage medium is not a medium that stores data for a short moment, such as a register, cache, or memory, but a medium that stores data semi-permanently and is readable by a device. Specifically, examples of the storage medium include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage device, etc., but are not limited thereto. That is, the program may be stored in various recording media on various servers accessible by the computer or various recording media on the user's computer. In addition, the medium may be distributed to computer systems connected through a network, and computer readable codes may be stored in a distributed manner.
본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.Steps of a method or algorithm described in connection with an embodiment of the present invention may be implemented directly in hardware, implemented in a software module executed by hardware, or implemented by a combination thereof. A software module may include random access memory (RAM), read only memory (ROM), erasable programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), flash memory, hard disk, removable disk, CD-ROM, or It may reside in any form of computer readable recording medium well known in the art to which the present invention pertains.
이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.Although the embodiments of the present invention have been described with reference to the accompanying drawings, those skilled in the art to which the present invention pertains can be implemented in other specific forms without changing the technical spirit or essential features of the present invention. you will be able to understand Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive.

Claims (10)

  1. 장치에 의해 수행되는 방법에 있어서,In the method performed by the device,
    (a) 원격 진료 대화에 상응하는 음성 데이터를 텍스트 데이터로 변환하여 의료 텍스트를 생성하는 단계;(a) generating medical text by converting voice data corresponding to the telemedicine conversation into text data;
    (b) 상기 의료 텍스트를 하나의 문장마다 단어별로 임베딩하는 단계;(b) embedding the medical text for each word in each sentence;
    (c) 상기 임베딩된 단어들을 군집화하여 노이즈 단어 데이터를 식별하고, 상기 식별한 노이즈 단어 데이터를 노이즈 사전에 저장하는 단계;(c) clustering the embedded words to identify noise word data, and storing the identified noise word data in a noise dictionary;
    (d) 상기 노이즈 사전에 저장된 노이즈 단어 데이터를 기반으로 노이즈 필터를 생성하는 단계;(d) generating a noise filter based on noise word data stored in the noise dictionary;
    (e) 상기 원격 진료 대화에 상응하는 새로운 의료 텍스트가 생성되는지를 확인하는 단계; 및(e) checking whether a new medical text corresponding to the telemedicine conversation is generated; and
    (f) 상기 새로운 의료 텍스트가 생성되면 상기 노이즈 필터를 통해 상기 새로운 의료 텍스트를 필터링하여 노이즈 단어 데이터가 제거된 의료 텍스트로 재구성하는 단계를 포함하는 것을 특징으로 하는 의료 텍스트의 노이즈 데이터 필터링 방법.(f) filtering the new medical text through the noise filter when the new medical text is generated and reconstructing the medical text from which noise word data is removed.
  2. 제1 항에 있어서,According to claim 1,
    상기 (c) 단계는,In step (c),
    상기 임베딩된 단어들의 위치 정보를 기반으로 k-평균 클러스터링(k-means clustering) 알고리즘을 통해 단어들을 군집화하여 다수의 클러스터들을 생성하고, 상기 생성된 클러스터들에 속하지 않는 단어 데이터가 존재하면 해당하는 단어 데이터를 노이즈 단어 데이터로 간주하는 것을 특징으로 하는 의료 텍스트의 노이즈 데이터 필터링 방법.Based on the location information of the embedded words, words are clustered through a k-means clustering algorithm to generate multiple clusters, and if there is word data that does not belong to the generated clusters, the corresponding word A method for filtering noise data in medical text, characterized in that the data is regarded as noise word data.
  3. 제2 항에 있어서,According to claim 2,
    상기 (c) 단계는,In step (c),
    상기 생성된 클러스터들 중 최소의 단어 수인 k개 미만의 단어로 구성된 클러스터가 존재하면 해당 클러스터에 포함되는 단어들을 노이즈 단어 데이터로 간주하는 것을 특징으로 하는 의료 텍스트의 노이즈 데이터 필터링 방법.The method of filtering noise data of medical text, characterized in that, if a cluster consisting of less than k words, which is the minimum number of words, among the generated clusters exists, words included in the cluster are regarded as noise word data.
  4. 제2 항에 있어서,According to claim 2,
    상기 (c) 단계는,In step (c),
    상기 단어들을 군집화하여 다수의 클러스터들이 생성되면 상기 다수의 클러스터들을 진료 특징을 기반으로 재분류하고, 상기 재분류한 진료 특징 기반 클러스터들로부터 노이즈 단어 데이터를 식별하며, 상기 식별한 진료 특징 기반 노이즈 단어 데이터를 노이즈 사전에 저장하는 것을 특징으로 하는 의료 텍스트의 노이즈 데이터 필터링 방법.When a plurality of clusters are generated by clustering the words, the plurality of clusters are reclassified based on treatment characteristics, noise word data is identified from the reclassified treatment feature-based clusters, and the identified treatment feature-based noise word A method for filtering noise data in medical text, characterized in that the data is stored in a noise dictionary.
  5. 제1 항에 있어서,According to claim 1,
    상기 (d) 단계는,In step (d),
    상기 노이즈 사전에 저장된 일반 정보 기반 노이즈 단어 데이터로부터 일반 노이즈 필터를 생성하고, 상기 노이즈 사전에 저장된 진료 특징 기반 노이즈 단어 데이터로부터 진료 특징 기반 노이즈 필터를 생성하는 것을 특징으로 하는 의료 텍스트의 노이즈 데이터 필터링 방법.A method for filtering noise data of medical text, characterized in that generating a general noise filter from general information-based noise word data stored in the noise dictionary, and generating a treatment feature-based noise filter from treatment feature-based noise word data stored in the noise dictionary. .
  6. 제5 항에 있어서,According to claim 5,
    상기 (d) 단계는,In step (d),
    상기 진료 특징 기반 노이즈 필터를 생성할 때, 처방 정보 기반 노이즈 필터와 환자 정보 노이즈 필터를 포함하는 진료 특징 기반 노이즈 필터를 생성하는 것을 특징으로 하는 의료 텍스트의 노이즈 데이터 필터링 방법.The noise data filtering method of medical text, characterized in that when generating the treatment feature-based noise filter, a treatment feature-based noise filter including a prescription information-based noise filter and a patient information noise filter is generated.
  7. 제1 항에 있어서,According to claim 1,
    상기 (f) 단계는,In step (f),
    상기 새로운 의료 텍스트가 생성되면 상기 새로운 의료 텍스트의 각 문장에 상응하는 노이즈 필터를 기반으로 상기 의료 텍스트의 각 문장에 포함되는 노이즈 단어를 제거하고, 상기 노이즈 단어가 제거된 의료 텍스트를 재구성하는 것을 특징으로 하는 의료 텍스트의 노이즈 데이터 필터링 방법.When the new medical text is generated, noise words included in each sentence of the medical text are removed based on a noise filter corresponding to each sentence of the new medical text, and the medical text from which the noise words are removed is reconstructed. A method for filtering noise data in medical texts with .
  8. 제7 항에 있어서,According to claim 7,
    상기 (f) 단계는,In step (f),
    상기 새로운 의료 텍스트의 문장이 일반 정보 관련 문장이면 일반 노이즈 필터를 기반으로 상기 의료 텍스트의 일반 정보 관련 문장에 포함되는 노이즈 단어를 제거하고, 상기 새로운 의료 텍스트의 문장이 진료 특징 관련 문장이면 진료 특징 기반 노이즈 필터를 기반으로 상기 의료 텍스트의 진료 특징 문장에 포함되는 노이즈 단어를 제거하는 것을 특징으로 하는 의료 텍스트의 노이즈 데이터 필터링 방법.If the sentence of the new medical text is a sentence related to general information, noise words included in the sentence related to general information of the medical text are removed based on a general noise filter, and if the sentence of the new medical text is a sentence related to treatment characteristics, based on the treatment feature A method for filtering noise data of medical text, characterized in that, based on a noise filter, noise words included in medical treatment characteristic sentences of the medical text are removed.
  9. 하드웨어인 컴퓨터와 결합되어, 상기 제1 항 내지 제8 항 중 어느 한 항의 의료 텍스트의 노이즈 데이터 필터링 방법을 수행시키기 위해 매체에 저장된, 의료 텍스트의 노이즈 데이터 필터링 장치의 의료 텍스트의 노이즈 데이터 필터링 방법을 제공하는 컴퓨터 프로그램.A method of filtering noise data of medical text of a device for filtering noise data of medical text stored in a medium to perform the method of filtering noise data of medical text according to any one of claims 1 to 8, combined with a computer that is hardware. computer program provided.
  10. 의료 텍스트의 노이즈 데이터 필터링 방법을 제공하기 위한 컴퓨팅 장치로서,A computing device for providing a method for filtering noise data of medical text,
    하나 이상의 코어를 포함하는 프로세서; 및a processor comprising one or more cores; and
    메모리;Memory;
    를 포함하고,including,
    상기 프로세서는,the processor,
    원격 진료 대화에 상응하는 음성 데이터를 텍스트 데이터로 변환하여 의료 텍스트를 생성하고,Converting voice data corresponding to a telemedicine conversation into text data to generate medical text;
    상기 의료 텍스트를 하나의 문장마다 단어별로 임베딩하며,Embedding the medical text for each word in each sentence;
    상기 임베딩된 단어들을 군집화하여 노이즈 단어 데이터를 식별하여 상기 식별한 노이즈 단어 데이터를 노이즈 사전에 저장하고,Clustering the embedded words to identify noise word data and storing the identified noise word data in a noise dictionary;
    상기 노이즈 사전에 저장된 노이즈 단어 데이터를 기반으로 노이즈 필터를 생성하며,generating a noise filter based on noise word data stored in the noise dictionary;
    상기 원격 진료 대화에 상응하는 새로운 의료 텍스트가 생성되는지를 확인하고, 및Check whether a new medical text corresponding to the telemedicine conversation is generated; and
    상기 새로운 의료 텍스트가 생성되면 상기 노이즈 필터를 통해 상기 새로운 의료 텍스트를 필터링하여 노이즈 단어 데이터가 제거된 의료 텍스트로 재구성하는 것을 특징으로 하는 컴퓨팅 장치.When the new medical text is generated, the new medical text is filtered through the noise filter to reconstruct the medical text from which noise word data is removed.
PCT/KR2022/020295 2021-12-14 2022-12-14 Method, device, and program for filtering noise data of medical text on basis of artificial intelligence WO2023113452A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210178444A KR102445098B1 (en) 2021-12-14 2021-12-14 Method, apparatus and program for filitering noise data of medical text based on artificial intelligence
KR10-2021-0178444 2021-12-14

Publications (1)

Publication Number Publication Date
WO2023113452A1 true WO2023113452A1 (en) 2023-06-22

Family

ID=83446633

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/020295 WO2023113452A1 (en) 2021-12-14 2022-12-14 Method, device, and program for filtering noise data of medical text on basis of artificial intelligence

Country Status (2)

Country Link
KR (1) KR102445098B1 (en)
WO (1) WO2023113452A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102445098B1 (en) * 2021-12-14 2022-09-20 (주)아이케어닥터 Method, apparatus and program for filitering noise data of medical text based on artificial intelligence

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8090724B1 (en) * 2007-11-28 2012-01-03 Adobe Systems Incorporated Document analysis and multi-word term detector
KR101806151B1 (en) * 2016-07-21 2017-12-07 숭실대학교산학협력단 Method and device for extracting alternative words automatically, recording medium for performing the method
US20190130282A1 (en) * 2017-10-31 2019-05-02 Microsoft Technology Licensing, Llc Distant Supervision for Entity Linking with Filtering of Noise
KR20210004057A (en) * 2019-07-03 2021-01-13 인하대학교 산학협력단 Machine Learning and Semantic Knowledge-based Big Data Analysis: A Novel Healthcare Monitoring Method and Apparatus Using Wearable Sensors and Social Networking Data
KR102445098B1 (en) * 2021-12-14 2022-09-20 (주)아이케어닥터 Method, apparatus and program for filitering noise data of medical text based on artificial intelligence

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101909094B1 (en) 2017-02-10 2018-10-17 강원대학교 산학협력단 Generating method of relation extraction training data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8090724B1 (en) * 2007-11-28 2012-01-03 Adobe Systems Incorporated Document analysis and multi-word term detector
KR101806151B1 (en) * 2016-07-21 2017-12-07 숭실대학교산학협력단 Method and device for extracting alternative words automatically, recording medium for performing the method
US20190130282A1 (en) * 2017-10-31 2019-05-02 Microsoft Technology Licensing, Llc Distant Supervision for Entity Linking with Filtering of Noise
KR20210004057A (en) * 2019-07-03 2021-01-13 인하대학교 산학협력단 Machine Learning and Semantic Knowledge-based Big Data Analysis: A Novel Healthcare Monitoring Method and Apparatus Using Wearable Sensors and Social Networking Data
KR102445098B1 (en) * 2021-12-14 2022-09-20 (주)아이케어닥터 Method, apparatus and program for filitering noise data of medical text based on artificial intelligence

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ESTER M ET AL: "A density-based algorithm for discovering clusters in large spatial databases with noise", PROCEEDINGS. INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY ANDDATA MINING, XX, XX, 1 January 1996 (1996-01-01), pages 226 - 231, XP002355949 *

Also Published As

Publication number Publication date
KR102445098B1 (en) 2022-09-20

Similar Documents

Publication Publication Date Title
WO2019164064A1 (en) System for interpreting medical image through generation of refined artificial intelligence reinforcement learning data, and method therefor
WO2021177730A1 (en) Apparatus for diagnosing disease causing voice and swallowing disorders and method for diagnosing same
WO2017213398A1 (en) Learning model for salient facial region detection
WO2021060899A1 (en) Training method for specializing artificial intelligence model in institution for deployment, and apparatus for training artificial intelligence model
WO2022019402A1 (en) Computer program and method for training artificial neural network model on basis of time series bio-signal
WO2019235828A1 (en) Two-face disease diagnosis system and method thereof
WO2023113452A1 (en) Method, device, and program for filtering noise data of medical text on basis of artificial intelligence
WO2020122432A1 (en) Electronic device, and method for displaying three-dimensional image thereof
WO2014106979A1 (en) Method for recognizing statistical voice language
WO2019164144A1 (en) Electronic device and natural language generation method thereof
WO2022114822A1 (en) Method and computing device for providing analysis information about vascular ultrasound image by utilizing artificial neural network
Chien et al. Identification of serious illness conversations in unstructured clinical notes using deep neural networks
WO2021246811A1 (en) Method and system for training neural network for determining severity
Khan et al. Stacked deep dense neural network model to predict alzheimer’s dementia using audio transcript data
WO2020159140A1 (en) Electronic device and control method therefor
CN112614559A (en) Medical record text processing method and device, computer equipment and storage medium
WO2022265480A1 (en) Method and device for analyzing interactions between drugs
WO2018212584A2 (en) Method and apparatus for classifying class, to which sentence belongs, using deep neural network
WO2022146050A1 (en) Federated artificial intelligence training method and system for depression diagnosis
WO2022039366A1 (en) Electronic device and control method thereof
WO2024005413A1 (en) Artificial intelligence-based method and device for extracting information from electronic document
WO2022270840A1 (en) Deep learning-based word recommendation system for predicting and improving foreign language learner's vocabulary ability
WO2021230470A1 (en) Electronic device and control method for same
WO2023282546A1 (en) Method for deciphering artificial knee joint loosening, and computing device therefor
WO2023140449A1 (en) Gallbladder polyp determination system and method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22907919

Country of ref document: EP

Kind code of ref document: A1