WO2020132793A1 - Artificial intelligence medical symptom recognition system based on span searching - Google Patents

Artificial intelligence medical symptom recognition system based on span searching Download PDF

Info

Publication number
WO2020132793A1
WO2020132793A1 PCT/CN2018/123074 CN2018123074W WO2020132793A1 WO 2020132793 A1 WO2020132793 A1 WO 2020132793A1 CN 2018123074 W CN2018123074 W CN 2018123074W WO 2020132793 A1 WO2020132793 A1 WO 2020132793A1
Authority
WO
WIPO (PCT)
Prior art keywords
span
patient
artificial intelligence
word
processor
Prior art date
Application number
PCT/CN2018/123074
Other languages
French (fr)
Inventor
Xiaoqing Yang
Zang Li
Original Assignee
Beijing Didi Infinity Technology And Development Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology And Development Co., Ltd. filed Critical Beijing Didi Infinity Technology And Development Co., Ltd.
Priority to CN201880038947.8A priority Critical patent/CN111615697A/en
Priority to PCT/CN2018/123074 priority patent/WO2020132793A1/en
Publication of WO2020132793A1 publication Critical patent/WO2020132793A1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/67ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for remote operation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Chemical & Material Sciences (AREA)
  • Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medicinal Chemistry (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

Embodiments of the disclosure provide artificial intelligence systems and methods for recognizing a medical symptom from a patient description. An exemplary artificial intelligence system includes a patient interaction interface configured to receive the patient description. The system further includes a storage device configured to store a plurality of entities corresponding to known medical symptoms. The system also includes a processor. The processor is configured to identify a plurality of spans from the patient description, and determine matching values between the plurality of spans and the plurality of entities. The processor is further configured to identify at least one pair of a span and a matched entity with the associated matching value higher than a threshold, and determine the medical symptom based on the matched entity.

Description

ARTIFICIAL INTELLIGENCE MEDICAL SYMPTOM RECOGNITION SYSTEM BASED ON SPAN SEARCHING TECHNICAL FIELD
The present disclosure relates to artificial intelligence (AI) systems and methods for recognizing a patient’s medical symptoms, and more particularly to, AI systems and methods for medical symptom recognition from the patient’s descriptions using span searching.
BACKGROUND
Pre-diagnosis is usually performed in hospitals to preliminarily determine the illnesses of patients before sending them to the right doctors. Pre-diagnosis is typically based on symptoms described by the patient. For example, if the patient says she has a fever and a running nose, she will be pre-diagnosed as having a cold or a flu and be sent to an internal medicine doctor. If the patient says that she has itchy rashes on her skin, she will be pre-diagnosed as having skin allergies and be sent to a dermatologist.
Pre-diagnosis is typically performed by medical practitioners, such as physicians or nurses. For example, hospitals usually have pre-diagnosis personnel available at the check-in desk to determine where the patient should be sent to. However, having practitioners perform the pre-diagnosis wastes valuable resources. Automated pre-diagnosis methods are used to improve the efficiency. For example, diagnosis robots are being developed to perform the pre-diagnosis. These automated methods provide a preliminary diagnosis based on patient’s described symptoms, e.g., based on preprogramed mappings between diseases and known symptoms.
Patient descriptions are, however, not accurate or clear. For example, the patient may be under the influence of the illness or medicine and could not express herself accurately. In addition, patients are not practitioners and are therefore not familiar with medical terminologies for describing symptoms. Indeed, patients, especially when describing symptoms orally, may use informal language while medical terminologies are usually formal. As a result, existing automated methods could not readily recognize medical symptoms from patient descriptions.
Embodiments of the disclosure address the above problems by providing improved artificial intelligence systems and methods for recognizing medical symptoms from patient’s descriptions using span searching.
SUMMARY
Embodiments of the disclosure provide an artificial intelligence system for for recognizing a medical symptom from a patient description. The artificial intelligence system includes a patient interaction interface configured to receive the patient description. The system further includes a storage device configured to store a plurality of entities corresponding to known medical symptoms. The system also includes a processor. The processor is configured to identify a plurality of spans from the patient description, and determine matching values between the plurality of spans and the plurality of entities. The processor is further configured to identify at least one pair of a span and a matched entity with the associated matching value higher than a threshold, and determine the medical symptom based on the matched entity.
Embodiments of the disclosure also provide an artificial intelligence method for recognizing a medical symptom from a patient description. The artificial intelligence method includes receiving, by a patient interaction interface, the patient description. The method further includes identifying, by a processor, a plurality of spans from the patient description. The method also includes determining, by the processor, matching values between the plurality of spans and a plurality of entities corresponding to known medical symptoms. The method additional includes identifying, by the processor, at least one pair of a span and a matched entity with the associated matching value higher than a threshold, and determining, by the processor, the medical symptom based on the matched entity.
Embodiments of the disclosure further provide a non-transitory computer-readable medium having instructions stored thereon that, when executed by a processor, causes the processor to perform an artificial intelligence method for recognizing a medical symptom from a patient description. The artificial intelligence method includes receiving the patient description. The method further includes identifying a plurality of spans from the patient description. The method also includes determining matching values between the plurality of spans and a plurality of entities corresponding to known medical symptoms. The method additional includes identifying at least one pair of a span and a matched entity with the associated matching value higher than a threshold, and determining the medical symptom based on the matched entity.
It is to be understood that both the foregoing general description and the following detailed description are exemplary and explanatory only and are not restrictive of the invention, as claimed.
BRIEF DESCRIPTION OF THE DRAWINGS
FIG. 1 illustrates a schematic diagram of an exemplary AI system for recognizing a medical symptom from a patient description, according to embodiments of the disclosure.
FIG. 2 illustrates a flowchart of an exemplary method for recognizing a medical symptom from a patient description, according to embodiments of the disclosure.
DETAILED DESCRIPTION
Reference will now be made in detail to the exemplary embodiments, examples of which are illustrated in the accompanying drawings. Wherever possible, the same reference numbers will be used throughout the drawings to refer to the same or like parts.
FIG. 1 illustrates a block diagram of an exemplary AI system 100 for recognizing a medical symptom from a patient description, according to embodiments of the disclosure. Consistent with the present disclosure, AI system 100 may receive patient description 103 from a patient terminal 120. For example, patient terminal 120 may be a mobile phone, a desktop computer, a laptop, a PDA, a robot, a kiosk, etc. Patient terminal 120 may include a patient interaction interface configured to receive patent description 103 provided by patient 130. In some embodiments, patient terminal 120 may include a keyboard, hard or soft, for patient 130 to type in patient description 103. Patient terminal 120 may additionally or alternatively include a touch screen for patient 130 to handwrite patient description 103. Accordingly, patient terminal 120 may record patient description 103 as texts. If the input is handwriting, patient terminal 120 may automatically recognize the handwriting and convert it to text information. In some other embodiments, patient terminal 120 may include a microphone, for recording patient description 103 provided by patient 130 orally. Patient terminal 120 may automatically transcribe the recorded audio data into texts. In some alternative embodiments, AI system 100 may receive patient description 103 in its original format as captured by patient terminal 120, and the handwriting recognition and audio transcription may be performed automatically by AI system 100.
In some embodiments, as shown in FIG. 1, AI system 100 may include a communication interface 102, a processor 104, a memory 106, and a storage 108. In some embodiments, AI system 100 may have different modules in a single device, such as an integrated circuit (IC) chip (e.g., implemented as an application-specific integrated circuit (ASIC) or a field-programmable gate array (FPGA) ) , or separate devices with dedicated functions. In some embodiments, one or more components of AI system 100 may be located  in a cloud, or may be alternatively in a single location (such as inside a mobile device) or distributed locations. Components of AI system 100 may be in an integrated device, or distributed at different locations but communicate with each other through a network (not shown) . Consistent with the president disclosure, AI system 100 may be configured to automatically recognize medical symptoms from patient description 103.
Communication interface 102 may send data to and receive data from components such as patient terminal 120 via communication cables, a Wireless Local Area Network (WLAN) , a Wide Area Network (WAN) , wireless networks such as radio waves, a cellular network, and/or a local or short-range wireless network (e.g., Bluetooth TM) , or other communication methods. In some embodiments, communication interface 102 may include an integrated services digital network (ISDN) card, cable modem, satellite modem, or a modem to provide a data communication connection. As another example, communication interface 102 may include a local area network (LAN) card to provide a data communication connection to a compatible LAN. Wireless links can also be implemented by communication interface 102. In such an implementation, communication interface 102 can send and receive electrical, electromagnetic or optical signals that carry digital data streams representing various types of information.
Consistent with some embodiments, communication interface 102 may receive data such as patient description 103 from patient terminal 120. Patient description 103 may be received as texts or in its original format as acquired by patient terminal 120, such as an audio or in handwriting. Patient description 103 may include one sentence or multiple sentences that describe the symptoms and feelings of patient 130. For example, patient 130 may describe her symptom as “I am having a recurring pain in the head, also feeling a bit dizzy, and my nose seems running too. ” When patient description 103 is originally provided by patient 130 orally, the description may additionally contain various spoken language words, such as, hmm, well, all right, you know, okay, so, etc. Communication interface 102 may further provide the received data to memory 106 and/or storage 108 for storage or to processor 104 for processing.
Processor 104 may include any appropriate type of general-purpose or special-purpose microprocessor, digital signal processor, or microcontroller. Processor 104 may be configured as a separate processor module dedicated to recognizing medical symptom (s) from patient description 103 by using span searching. Alternatively, processor 104 may be configured as a shared processor module for performing other functions unrelated to medical symptom recognition.
Memory 106 and storage 108 may include any appropriate type of mass storage provided to store any type of information that processor 104 may need to operate. Memory 106 and storage 108 may be a volatile or non-volatile, magnetic, semiconductor, tape, optical, removable, non-removable, or other type of storage device or tangible (i.e., non-transitory) computer-readable medium including, but not limited to, a ROM, a flash memory, a dynamic RAM, and a static RAM. Memory 106 and/or storage 108 may be configured to store one or more computer programs that may be executed by processor 104 to perform functions disclosed herein. For example, memory 106 and/or storage 108 may be configured to store program (s) that may be executed by processor 104 to generate diagnosis result 105 for patient 130 using span searching.
Memory 106 and/or storage 108 may be further configured to store information and data used by processor 104. For instance, memory 106 and/or storage 108 may be configured to store the various types of data (e.g., entities associated with known symptoms) . The entities associated with known symptoms may be provided or reviewed by medical professionals such as physicians or nurses. For example, entities may include “fever, ” “headache, ” “nausea, ” “migraine, ” “joint pain, ” “running nose, ” “bleeding, ” “swelling, ” “upset stomach, ” “vomit, ” etc. In some embodiments, when an entity contains a phrase, it may be further divided into words and stored separately. For example, “joint pain” may be further divided into two words “joint” and “pain. ” In some embodiments, the entities may be stored as a portable database. The entities may be periodically updated to include entities describing new symptoms.
In some embodiments, memory 106 and/or storage 108 may also store intermediate data such as the word segments and spans in patient description 103, and matching values between the spans and the entities, etc. Memory 106 and/or storage 108 may additionally store various learning models including their model parameters, such as a sentence segmentation model, a span-entity matching model, etc. that will be described. The various types of data may be stored permanently, removed periodically, or disregarded immediately after the data is processed.
As shown in FIG. 1, processor 104 may include multiple modules, such as a segmentation unit 140, a span-entity matching unit 142, a mention detection unit 144, a diagnosis unit 146, and the like. These modules (and any corresponding sub-modules or sub-units) can be hardware units (e.g., portions of an integrated circuit) of processor 104 designed for use with other components or software units implemented by processor 104 through executing at least part of a program. The program may be stored on a computer-readable  medium, and when executed by processor 104, it may perform one or more functions. Although FIG. 1 shows units 140-146 all within one processor 104, it is contemplated that these units may be distributed among multiple processors located closely or remotely with each other.
Segmentation unit 140 is configured to segment patient description 103 to multiple word segments. A word segment is the smallest unit in a sentence that has semantic meanings. In some embodiments, patient description 103 may be segmented using a sentence segmentation model trained using sample sentences and known word segments of those sentences. For example, the sample sentences may be manually segmented by people. Applying the segmentation model, patient description 103 is segmented into a plurality of word segments. The exemplary description above – “I am having a recurring pain in the head, also feeling a bit dizzy, and my nose seems running too” –can be segmented as follows:
I //am having //a //recurring //pain //in //the //head//, also //feeling //a bit //dizzy, and //my //nose //seems //running //too. ”
In some alternative embodiments, when patient description 103 contains multiple sentences, segmentation unit 140 may first divide patient description 103 into different sentences before segmenting each of the sentences into word segments. For example, the above description may be divided into three sentences and then segmented into word segments as follows:
I //am having //a //recurring //pain //in //the //head.
Also //feeling //a bit //dizzy.
And //my //nose //seems //running //too.
In some embodiments, segmentation unit 140 may be further configured to label each word segment as either a substantive word or a non-substantive word. Consistent with present disclosure, a “substantive word” is a word that has substantive meaning indicating or otherwise related to medical symptoms. A “non-substantive word” is any word that is not a substantive word.
In some embodiments, segmentation unit 140 may first determine whether a word segment is a notional word that has substantive meanings or a relational word that merely  expresses a grammatical relationship between notional words to express the meanings. In some embodiments, a notional word may denote a person or thing, an act, or a quality. Grammatically, notional words can make up a sentence with meanings. For example, notional words may include nouns, verbs, adjectives, numerals, qualifiers, pronouns, etc. In contrast, a relational word does not have independent meanings and it must be attached to a notional word to express a substantive meaning. Grammatically, relational words, by themselves, cannot make up a sentence. For example, relational words may include adverbs, articles, prepositions, conjunctions, particles, exclamations, etc. If segmentation unit 140 determines a word segment as a relational word, it automatically labels the word segment as “non-substantive. ” 
For those word segments remaining from the above distinction (between notional and relational words) , segmentation unit 140 then determines whether they are related to medical symptoms. Accordingly, segmentation unit 140 may further label certain notional words, such as nouns used as the subject, e.g., “I, ” “we, ” “you, ” “it” as non-substantive, and verbs and adjectives that do not meaningfully describe a symptom, e.g., “have, ” “seem, ” 
“look, ” “feel, ” and “alittle bit. ”
Using the exemplary patient description above, the following labels may be applied to the word segments, as shown in Table 1A-1C:
Figure PCTCN2018123074-appb-000001
Table 1A
Figure PCTCN2018123074-appb-000002
Table 1B
Figure PCTCN2018123074-appb-000003
Figure PCTCN2018123074-appb-000004
Table 1C
Based on the labeled word segments, segmentation unit 140 may identify spans from patient description 103. Consistent with the present disclosure, a “span” is a phrase containing all word segments between two substantive words. Therefore, a span starts with a first substantive word and ends with a second substantive word. The first and second substantive words may be the same or different. For example, in the first sentence of the exemplary description above, “recurring pain, ” “pain in the head, ” and “recurring pain in the head” may be identified as spans. In the second sentence, “dizzy” may be identified as a span by itself. In the third sentence, “nose seems running” may be identified as a span.
Span-entity matching unit 142 may be configured to match the identified spans with the entities associated with known symptoms stored in memory 106/storage 108. In some embodiments, for each span, span-entity matching unit 142 may traverse all the entities, and calculate matching values between the span and each entity. Span-entity matching unit 142 then identify the entity with the highest matching value as the “mention” of the span. In some embodiments, the matching value between a span and an entity may indicate the semantic similarity between the two. In some embodiments, the matching value may be determined using a learning network trained with sample spans and their associated mentions. In some embodiments, the matching value may be a probability value between 0-100%. For example, when a span, e.g., “headache” matches an existing entity, e.g., “headache” entirely, the matching value is 100%. As another example, the span “pain in the head” may be matched to entity “headache” at a 90%matching value.
In some embodiments, Span-entity matching unit 142 may create a table to record the matching values and matched entities. In some embodiments, the rows and columns may contain the word segments. Therefore, if there are N word segments in the sentence, the table may be (N+1) x (N+1) in size. Table 2 shows an exemplary table using the word segments in the sentence “I am having a recurring pain in my head” as an example. Since there are 8 word segments in the sentence, the table is 9x9 in size.
Figure PCTCN2018123074-appb-000005
Figure PCTCN2018123074-appb-000006
Table 2
The “substantive words” are marked as bold in Table 2. For example, Table 2 contains the substantive words “recurring, ” “pain, ” and “head. ” To identify the spans, the first substantive word that starts the span is selected from the first column of Table 2, and the second substantive word that ends the span is selected from the first row of Table 2. For example, the spans identified according to Table 2 include “recurring pain, ” “recurring pain in the head, ” “pain, ” and “pain in the head. ” For each identified span, span-entity matching unit 412 may traverse all the entities in the database and compute matching values between the span and the entities.
In some embodiments, span-entity matching unit 412 may record the highest matching value for a span in the table cell corresponding to the starting word and the ending word of the span. For example, matching value Pa is recorded for span “recurring pain” in the table cell corresponding to “recurring” in the column and “pain” in the row. Similarly, matching values Pb, Pc, and Pd may be recorded for spans “recurring pain in the head, ” “pain in the head, ” and “pain. ” In some embodiments, in addition to the matching value, the table cell may also record the respective matched entity. For example, entity “migraine” may be recorded in the same table cells that record matching value Pa and matching value Pb. Entity “headache” may be recorded in the same table cells that record matching value Pc and matching value Pd. In some embodiments, span-entity matching unit 142 may set remaining table cells to a preset value, such as 0 or a negative value.
Mention detection unit 144 may be configured to determine a mention for each span. In some embodiments, mention detection unit 144 may compare the recorded matching values to a threshold, such as 95%, 90%, 80%, etc. If a matching value exceeds the threshold, the respective matched entity will be assigned to the span as its mention.
In some alternative embodiments, for each span, span-entity matching unit 412 may first determine if it contains another span that already has a matched entity (i.e., a mention) .  If a mention is already matched for any span contained in the current span, the matching value is automatically set to a preset value, such as 0 or a negative value. For example, if “recurring pain” is already matched to an entity “migraine, ” span-entity matching unit 412 will not search the entities for “recurring pain in the head, ” but automatically set the matching value of “recurring pain in the head” to the preset value. Similarly, in some embodiments, span-entity matching unit 412 may set the matching value of a span to the preset value if the span is contained by another span that already has a matched entity. For example, if “recurring pain in the head” is already matched to an entity “migraine, ” span-entity matching unit 412 will automatically set the matching value of “recurring pain” to the preset value.
Diagnosis unit 146 may make a pre-diagnosis based on the mentions determined for the spans and provide diagnosis result 105. For example, units 140-144 may recognize symptoms described by several mentions detected from patient description 103 “I am having a recurring pain in the head, also feeling a bit dizzy, and my nose seems running too, ” such as “headache, ” “migraine, ” “faint, ” and “running nose. ” Based on the symptoms, diagnosis unit 146 may pre-diagnose the illness sustained by the patient. For example, diagnosis unit 146 may predict that the patient likely has a flu. In some embodiments, diagnosis unit 146 may use a learning model to predict the illness based on the symptoms. The learning model may be trained with sample symptoms of patients and the final diagnosis of the patients made by physicians.
Diagnosis result 105 may be provided to patient 130 through a display 150. Display 150 may include a display such as a Liquid Crystal Display (LCD) , a Light Emitting Diode Display (LED) , a plasma display, or any other type of display, and provide a Graphical User Interface (GUI) presented on the display for user input and data depiction. The display may include a number of different types of materials, such as plastic or glass, and may be touch-sensitive to receive inputs from the user. For example, the display may include a touch-sensitive material that is substantially rigid, such as Gorilla Glass TM, or substantially pliable, such as Willow Glass TM. In some embodiments, display 150 may be part of patient terminal 120.
For example, FIG. 2 illustrates a flowchart of an exemplary method 200 for recognizing a medical symptom from a patient description, according to embodiments of the disclosure. Method 200 may be implemented by AI system 100 and particularly processor 104 or a separate processor not shown in FIG. 1. Method 200 may include steps S202-S224 as described below. It is to be appreciated that some of the steps may be optional to perform  the disclosure provided herein. Further, some of the steps may be performed simultaneously, or in a different order than shown in FIG. 2.
In step S202, AI system 100 may receive a patient description. Patient description 103 may be received as texts or in its original format as acquired by patient terminal 120, such as an audio or in handwriting. If received as an audio, patient description 103 may be transcribed into texts. If received in handwriting, patient description 103 may be automatically recognized and convert into texts. Patient description 103 may include one sentence or multiple sentences that describe the symptoms of patient 130. For example, patient 130 may describe her symptom as “I am having a recurring pain in the head, also feeling a bit dizzy, and my nose seems running too. ”
In step S204, AI system 100 may segment patient description 103 into multiple word segments. In some embodiments, when patient description 103 contains multiple sentences, segmentation unit 140 may first divide patient description 103 into different sentences. For example, the above exemplary description may be divided into three sentences: “I am having a recurring pain in the head. ” “Also feeling a bit dizzy. ” and “And my nose seems running too. ” AI system 100 may further segment each of the sentences into word segments. In some embodiments, AI system 100 may apply a sentence segmentation model trained using sample sentences and known word segments of those sentences. The exemplary description above can be segmented as:
I //am having //a //recurring //pain //in //the //head.
Also //feeling //a bit //dizzy.
And //my //nose //seems //running //too.
In step S206, AI system 100 may label the word segments as substantive words or non-substantive words. In some embodiments, segmentation unit 140 may first determine whether a word segment is a notional word that has substantive meanings or a relational word that merely expresses a grammatical relationship between notional words to express the meanings. If segmentation unit 140 determines a word segment as a relational word, such as an adverb, an article, a preposition, a conjunction, a particle, or an exclamation, it automatically labels the word segment as “non-substantive. ”
For those word segments remaining from the above distinction (between notional and relational words) , AI system 100 then determines whether they are related to medical symptoms. Accordingly, AI system 100 may further label certain notional words, such as  nouns used as the subject, e.g., “I, ” “we, ” “you, ” “it” as non-substantive, and verbs and adjectives that do not meaningfully describe a symptom, e.g., “have, ” “seem, ” “look, ” “feel, ” and “alittle bit. ” For example, Table 1A-1C show labels assigned to the word segments in the exemplary patient description above.
In step S208, AI system 100 may generate a table using the word segments. In some embodiments, the first row and first column of the table may contain the word segments. Table 2 shows an exemplary table using the word segments in the sentence “I am having a recurring pain in my head” as an example. If there are N word segments in the sentence, the table may be (N+1) x (N+1) in size. As shown in Table 2, as there are 8 word segments in the sentence, the table is 9x9 in size. The table is to record matching values and matched entities of each span.
In step S210, AI system 100 identifies a span between two substantive words. In some embodiments, AI system 100 may select a first substantive word and a second substantive word and identify all the word segments between the two substantive words as a span. The first and second substantive words may be the same or different. For example, in the first sentence of the exemplary description above, “recurring pain, ” “pain in the head, ” and “recurring pain in the head” may be identified as spans. In the second sentence, “dizzy” may be identified as a span by itself. In the third sentence, “nose seems running” may be identified as a span.
In some embodiments, AI system 100 may select the first substantive word that starts the span from the first column of Table 2, and the second substantive word that ends the span from the first row of Table 2. For example, the spans identified according to Table 2 include “recurring pain, ” “recurring pain in the head, ” “pain, ” and “pain in the head. ”
In step S212, AI system 100 determines if it contains another span that already has a matched entity. If any span contained in the current span is already matched with an entity (S212: yes) , in step S214, the matching value is automatically set to a preset value, such as 0 or a negative value. For example, if “recurring pain” is already matched to an entity “migraine, ” AI system 100 will automatically set the matching value of “recurring pain in the head” to the preset value. After S214, method 200 proceeds to step S222. Otherwise, if no span contained in the current span is already matched with an entity (S212: no) , method 200 proceeds to step S216 to calculate the matching value.
In some alternative embodiments, as part of step S212, AI system 100 may determine if the current span is contained in any span that already has a matched entity. AI system 100 may set the matching value of the current span to the preset value if the span is  contained by another span that already has a matched entity (S212: yes) . For example, if “recurring pain in the head” is already matched to an entity “migraine, ” AI system 100 will automatically set the matching value of “recurring pain” to the preset value. Otherwise, if no span containing the current span is already matched with an entity (S212: no) , method 200 proceeds to step S216 to calculate the matching value.
In step S218, AI system 100 may be configured to match the span with the entities associated with known symptoms stored in memory 106/storage 108 and calculate matching values between the span and each entity. In some embodiments, AI system 100 may traverse all the entities to calculate the matching values.
In some embodiments, AI system 100 may identify the entity with the highest matching value as the “mention” of the span. In step S218, AI system 100 compare the highest matching value with a threshold, such as 95%, 90%, 80%, etc. If the highest matching value exceeds the threshold (S218: yes) , the respective matched entity will be assigned to the span as its mention. Accordingly, in step S220, AI system 100 records the highest matching value and the respective matched entity for the span in the table cell corresponding to the starting word and the ending word of the span. For example, in Table 2, matching value Pa and matched entity “migraine” are recorded for span “recurring pain” in the table cell corresponding to “recurring” in the column and “pain” in the row. As another example, matching value Pc and matched entity “headache” may be recorded for span “pain in the head. ” If the highest matching value does not exceed the threshold (S218: no) , method 200 proceeds directly to step S222.
In step S222, AI system 100 may determine if all span have been identified and matched with the entities. If not all spans are accounted for (S222: no) , method 200 returns to step S210 to identify another span. Otherwise, if all spans are accounted for (S222: yes) , method 200 proceeds to step S224, where AI system 100 makes a pre-diagnosis based on symptoms described by the matched entities. For example, medical symptoms detected from patient description 103 “I am having a recurring pain in the head, also feeling a bit dizzy, and my nose seems running too” may include “headache, ” “migraine, ” “faint, ” and “running nose. ” Based on the symptoms, AI system 100 may predict that the patient likely has a flu. In some embodiments, AI system 100 may use a learning model to predict the illness based on the symptoms. The learning model may be trained with sample symptoms of patients and the final diagnosis of the patients made by physicians.
Another aspect of the disclosure is directed to a non-transitory computer-readable medium storing instructions which, when executed, cause one or more processors to perform  the methods, as discussed above. The computer-readable medium may include volatile or non-volatile, magnetic, semiconductor, tape, optical, removable, non-removable, or other types of computer-readable medium or computer-readable storage devices. For example, the computer-readable medium may be the storage device or the memory module having the computer instructions stored thereon, as disclosed. In some embodiments, the computer-readable medium may be a disc or a flash drive having the computer instructions stored thereon.
It will be apparent to those skilled in the art that various modifications and variations can be made to the disclosed system and related methods. Other embodiments will be apparent to those skilled in the art from consideration of the specification and practice of the disclosed system and related methods.
It is intended that the specification and examples be considered as exemplary only, with a true scope being indicated by the following claims and their equivalents.

Claims (19)

  1. An artificial intelligence system for recognizing a medical symptom from a patient description, comprising:
    a patient interaction interface configured to receive the patient description;
    a storage device configured to store a plurality of entities corresponding to known medical symptoms; and
    a processor configured to:
    identify a plurality of spans from the patient description;
    determine matching values between the plurality of spans and the plurality of entities;
    identify at least one pair of a span and a matched entity with the associated matching value higher than a threshold; and
    determine the medical symptom based on the matched entity.
  2. The artificial intelligence system of claim 1, wherein to identify the plurality of spans, the processor is further configured to:
    segment the patient description into word segments;
    label each word segment as a substantive word or a non-substantive word; and
    identify the word segments between two substantive words as a span.
  3. The artificial intelligence system of claim 1, wherein the processor is further configured to traverse the plurality of entities for each span and compute the matching values between each entity and the span.
  4. The artificial intelligence system of claim 1, wherein the processor is further configured to:
    select spans that include the span in the identified pair; and
    automatically set the matching values associated with selected spans to a preset value.
  5. The artificial intelligence system of claim 4, wherein the preset value is 0.
  6. The artificial intelligence system of claim 2, wherein the storage device is further configured to store a table, wherein each cell of the table records the entity having the highest matching value with the span between the two substantive words corresponding to the cell and the matching value.
  7. The artificial intelligence system of claim 6, wherein the table is (N+1) by (N+1) in size, where N is a number of the word segments in the patient description.
  8. The artificial intelligence system of claim 6, wherein the processor is further configured to:
    detect that the highest matching value recorded by a selected cell exceeds the threshold; and
    determine the entity recorded by the selected cell to be a mention of the span between the two substantive words corresponding to the selected cell.
  9. The artificial intelligence system of claim 1, wherein the patient interaction interface is a keyboard configured to receive the patient description in the form of a text.
  10. The artificial intelligence system of claim 1, wherein the patient interaction interface is a microphone configured to receive the patient description in the form of an audio, wherein the processor is further configured to transcribe the audio to a text.
  11. An artificial intelligence method for recognizing a medical symptom from a patient description, comprising:
    receiving, by a patient interaction interface, the patient description;
    identifying, by a processor, a plurality of spans from the patient description;
    determining, by the processor, matching values between the plurality of spans and a plurality of entities corresponding to known medical symptoms;
    identifying, by the processor, at least one pair of a span and a matched entity with the associated matching value higher than a threshold; and
    determining, by the processor, the medical symptom based on the matched entity.
  12. The artificial intelligence method of claim 11, wherein identifying the plurality of spans further comprises:
    segmenting the patient description into word segments;
    labeling each word segment as a substantive word or a non-substantive word; and
    identifying the word segments between two substantive words as a span.
  13. The artificial intelligence method of claim 11, further comprising:
    select spans that include the span in the identified pair; and
    automatically set the matching values associated with selected spans to a preset value.
  14. The artificial intelligence method of claim 12, further comprising: recording the entity having the highest matching value with the span in a table cell corresponding to the two substantive words defining the span.
  15. The artificial intelligence method of claim 15, further comprising:
    detecting that the highest matching value recorded by a selected cell exceeds the threshold; and
    determining the entity recorded by the selected cell to be a mention of the span between the two substantive words corresponding to the selected cell.
  16. The artificial intelligence method of claim 11, wherein the patient interaction interface is a keyboard and the patient description is received in the form of a text.
  17. The artificial intelligence method of claim 11, wherein the patient interaction interface is a microphone and the patient description is received in the form of an audio, wherein method further comprises transcribing the audio to a text.
  18. Anon-transitory computer-readable medium having instructions stored thereon that, when executed by a processor, causes the processor to perform an artificial intelligence method for recognizing a medical symptom from a patient description, the artificial intelligence methods comprising:
    receiving the patient description;
    identifying a plurality of spans from the patient description;
    determining matching values between the plurality of spans and a plurality of entities corresponding to known medical symptoms;
    identifying at least one pair of a span and a matched entity with the associated matching value higher than a threshold; and
    determining the medical symptom based on the matched entity.
  19. The non-transitory computer-readable medium of claim 19, wherein the artificial intelligence method further comprises:
    segmenting the patient description into word segments;
    labeling each word segment as a substantive word or a non-substantive word; and identifying the word segments between two substantive words as a span.
PCT/CN2018/123074 2018-12-24 2018-12-24 Artificial intelligence medical symptom recognition system based on span searching WO2020132793A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201880038947.8A CN111615697A (en) 2018-12-24 2018-12-24 Artificial intelligence medical symptom recognition system based on text segment search
PCT/CN2018/123074 WO2020132793A1 (en) 2018-12-24 2018-12-24 Artificial intelligence medical symptom recognition system based on span searching

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/123074 WO2020132793A1 (en) 2018-12-24 2018-12-24 Artificial intelligence medical symptom recognition system based on span searching

Publications (1)

Publication Number Publication Date
WO2020132793A1 true WO2020132793A1 (en) 2020-07-02

Family

ID=71126765

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/123074 WO2020132793A1 (en) 2018-12-24 2018-12-24 Artificial intelligence medical symptom recognition system based on span searching

Country Status (2)

Country Link
CN (1) CN111615697A (en)
WO (1) WO2020132793A1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102243626A (en) * 2011-07-22 2011-11-16 中国科学院计算技术研究所 Translation rule extraction method and translation method based on dependency syntax tree
US8077984B2 (en) * 2008-01-04 2011-12-13 Xerox Corporation Method for computing similarity between text spans using factored word sequence kernels
CN107563120A (en) * 2017-09-13 2018-01-09 青岛海信医疗设备股份有限公司 Recommend method and device for the doctor of patient
CN107887036A (en) * 2017-11-09 2018-04-06 北京纽伦智能科技有限公司 Construction method, device and the clinical decision accessory system of clinical decision accessory system

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080228769A1 (en) * 2007-03-15 2008-09-18 Siemens Medical Solutions Usa, Inc. Medical Entity Extraction From Patient Data
CN106897559B (en) * 2017-02-24 2019-09-17 黑龙江特士信息技术有限公司 A kind of symptom and sign class entity recognition method and device towards multi-data source
CN108877921B (en) * 2017-05-12 2021-10-19 京东方科技集团股份有限公司 Medical intelligent triage method and medical intelligent triage system
CN108320808A (en) * 2018-01-24 2018-07-24 龙马智芯(珠海横琴)科技有限公司 Analysis of medical record method and apparatus, equipment, computer readable storage medium
CN108614885B (en) * 2018-05-03 2019-04-30 杭州认识科技有限公司 Knowledge mapping analysis method and device based on medical information

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8077984B2 (en) * 2008-01-04 2011-12-13 Xerox Corporation Method for computing similarity between text spans using factored word sequence kernels
CN102243626A (en) * 2011-07-22 2011-11-16 中国科学院计算技术研究所 Translation rule extraction method and translation method based on dependency syntax tree
CN107563120A (en) * 2017-09-13 2018-01-09 青岛海信医疗设备股份有限公司 Recommend method and device for the doctor of patient
CN107887036A (en) * 2017-11-09 2018-04-06 北京纽伦智能科技有限公司 Construction method, device and the clinical decision accessory system of clinical decision accessory system

Also Published As

Publication number Publication date
CN111615697A (en) 2020-09-01

Similar Documents

Publication Publication Date Title
US10665226B2 (en) System and method for data-driven socially customized models for language generation
US10740561B1 (en) Identifying entities in electronic medical records
CN108597519B (en) Call bill classification method, device, server and storage medium
US10318623B2 (en) Device for extracting information from a dialog
US10067924B2 (en) Method of improving NLP processing of real-world forms via element-level template correlation
US20180075368A1 (en) System and Method of Advising Human Verification of Often-Confused Class Predictions
US10169703B2 (en) System and method for analogy detection and analysis in a natural language question and answering system
WO2021000497A1 (en) Retrieval method and apparatus, and computer device and storage medium
US20180068221A1 (en) System and Method of Advising Human Verification of Machine-Annotated Ground Truth - High Entropy Focus
WO2021030915A1 (en) Systems and methods for extracting information from a dialogue
US9703773B2 (en) Pattern identification and correction of document misinterpretations in a natural language processing system
US20230089308A1 (en) Speaker-Turn-Based Online Speaker Diarization with Constrained Spectral Clustering
WO2021063089A1 (en) Rule matching method, rule matching apparatus, storage medium and electronic device
US10552461B2 (en) System and method for scoring the geographic relevance of answers in a deep question answering system based on geographic context of a candidate answer
US10902342B2 (en) System and method for scoring the geographic relevance of answers in a deep question answering system based on geographic context of an input question
CN111460175A (en) SNOMED-CT-based medical noun dictionary construction and expansion method
US20200273555A1 (en) Intelligent reminding method, device and electronic apparatus
WO2020113544A1 (en) Artificial intelligence medical symptom recognition system based on end-to-end learning
WO2021012225A1 (en) Artificial intelligence system for medical diagnosis based on machine learning
WO2020132793A1 (en) Artificial intelligence medical symptom recognition system based on span searching
CN111552780B (en) Medical scene search processing method and device, storage medium and electronic equipment
CN114020888A (en) Text generation method, device, equipment and storage medium
WO2021151323A1 (en) Method and apparatus for drug recommendation, device, and medium
WO2021012222A1 (en) Artificial intelligence system for processing patient descriptions
CN114528851A (en) Reply statement determination method and device, electronic equipment and storage medium

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18944504

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18944504

Country of ref document: EP

Kind code of ref document: A1