WO2022114823A1 - Method for assisting artificial intelligence reading using visual information-based reference search technology - Google Patents

Method for assisting artificial intelligence reading using visual information-based reference search technology Download PDF

Info

Publication number
WO2022114823A1
WO2022114823A1 PCT/KR2021/017561 KR2021017561W WO2022114823A1 WO 2022114823 A1 WO2022114823 A1 WO 2022114823A1 KR 2021017561 W KR2021017561 W KR 2021017561W WO 2022114823 A1 WO2022114823 A1 WO 2022114823A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
information
model
search
data
Prior art date
Application number
PCT/KR2021/017561
Other languages
French (fr)
Korean (ko)
Inventor
박보규
이현규
도신호
최용준
Original Assignee
두에이아이(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 두에이아이(주) filed Critical 두에이아이(주)
Publication of WO2022114823A1 publication Critical patent/WO2022114823A1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/20ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Definitions

  • the present disclosure relates to an artificial intelligence reading assistance method, apparatus, and computer program using visual information-based reference search technology.
  • Artificial intelligence is a software technology that implements half of the human thinking process, such as cognition, learning, reasoning, and judgment, with algorithm design.
  • AI-based business using such big data is gradually spreading.
  • Such artificial intelligence is used as a diagnostic aid in the medical field, contributing to maximizing the efficiency of diagnosis or reading.
  • a method of diagnosing whether a patient has the disease there is a method of collecting and testing decidual cells from the patient's body.
  • a sample of decidual cells is collected from a patient, and slides are made through Papanicolat staining and slide encapsulation. Slides with abnormal findings in the primary speculum results are read by a pathologist secondary to confirm the diagnosis regarding lesions.
  • Korean Patent Laid-Open Patent Publication No. 2002-0084787 discloses a cervical cancer diagnosis system and method for performing diagnosis through cervical imaging information, and a cervical cancer imaging terminal suitable therefor.
  • a clinical decision support or auxiliary diagnosis system that detects and classifies a cell region using computer vision technology plays an essential role in automatic medical image analysis.
  • An object of the present disclosure is to solve the above problems, and to provide a computing device that performs an AI reading assistance method using a visual information-based reference search technology.
  • an artificial intelligence reading assistance method using a visual information-based reference search technology performed in one or more processors of a computing device according to various embodiments of the present disclosure for solving the above problems.
  • the method includes: obtaining an inspection image including one or more objects; performing classification on the object by using a previously learned classification model; It may include performing a search for one or more similar images for the object using .
  • the performing of the similar image search may include: obtaining a visual feature of the object using a first model for extracting features based on content information included in the image; Obtaining attribute information corresponding to the object by using a second model for calculating a specific attribute, acquiring characteristic information about the object using visual characteristics of the object and attribute information of the object, and the object It may include searching for a similar image corresponding to the object by using the characteristic information of the.
  • the second model is a model for calculating probability information of a specific event corresponding to an image
  • the obtaining of the attribute information includes a probability value corresponding to the object using the second model.
  • the search model is a neural network model based on proxy-based metric learning, and increases the similarity between the target vector and the positive proxy, and the similarity between the target vector and the negative proxy. It is characterized in that it is learned in a direction to decrease , and the proxy may be a vector representing representativeness of embedding vectors for comparing the similarity between the object and images pre-stored in an image database.
  • the method further comprises: constructing a training data set for learning a classification model based on a plurality of image data and examination information for each image data, wherein the constructing of the training data set comprises: classifying the examination information for each image data into one or more predetermined categories; generating a learning input data set based on the plurality of image data; and learning output based on one or more categories corresponding to the respective image data. It may include generating a data set and matching and labeling a training output data set corresponding to each of the training input data sets.
  • the providing of the similar image search result may include selecting and providing an image having a high similarity to the object, and selecting an image having a high similarity to the object but classified into a different category from the object It may include the step of providing.
  • the examination image includes a plurality of cell images
  • performing the classification includes: classifying each of the plurality of cell images into one or more categories; generating diagnostic information corresponding to the examination image based on the classification result; and performing the similar image search may include performing a similar image search for at least some of the plurality of cell images.
  • the one or more categories may include at least one of a negative state, a low risk state, and a high risk state.
  • the generating of the diagnostic information corresponding to the examination image based on the classification result for each of the plurality of cell images may include: based on the number of cell images classified into each of the one or more categories and generating diagnostic information.
  • Each of the one or more categories may be characterized in that different weights are assigned to each other.
  • the generating of the diagnostic information may include updating the diagnostic information based on examination result information matched to each of the found similar images.
  • a computer program stored in a computer-readable storage medium when executed by one or more processors, causes the one or more processes to perform the following operations for performing an artificial intelligence reading assistance method using a visual information-based reference search technology, the operations comprising: : Acquiring an inspection image including one or more objects, performing classification on the object using a pre-learned classification model, and using a pre-learned search model according to the classification result for the object It may include an operation of performing one or more similar image searches for an object and an operation of providing the similar image search result.
  • a computing device for performing an artificial intelligence reading assistance method using a visual information-based reference search technology.
  • the computing device includes a processor including one or more cores, a memory for storing program codes executable in the processor, and a network unit for transmitting and receiving data to and from a user terminal, wherein the processor receives an inspection image including one or more objects obtained, classifying the object using a pre-learned classification model, and performing one or more similar image searches for the object using the pre-learned search model according to the classification result for the object,
  • the similar image search result may be provided.
  • FIG. 1 is a conceptual diagram illustrating a system in which various aspects of a computing device for performing an artificial intelligence reading assistance method using a visual information-based reference search technology related to an embodiment of the present disclosure can be implemented.
  • FIG. 2 is a block diagram of a computing device for performing an AI reading assistance method using a visual information-based reference search technology according to an embodiment of the present disclosure.
  • FIG. 3 illustrates an exemplary diagram for explaining one or more similar image search processes related to an embodiment of the present disclosure.
  • FIG. 4 illustrates an exemplary diagram for explaining one or more similar image search processes related to another embodiment of the present disclosure.
  • FIG. 5 is an exemplary diagram for explaining one or more similar image search processes related to another embodiment of the present disclosure.
  • FIG. 6 is an exemplary diagram for explaining a process of providing one or more similar images in response to an examination image related to an embodiment of the present disclosure.
  • FIG. 7 is a flowchart exemplarily illustrating steps for performing an AI reading assistance method using a visual information-based reference search technology related to an embodiment of the present disclosure.
  • FIG. 8 is a schematic diagram illustrating one or more network functions related to an embodiment of the present disclosure.
  • a component can be, but is not limited to being, a process running on a processor, a processor, an object, a thread of execution, a program, and/or a computer.
  • an application running on a computing device and the computing device may be a component.
  • One or more components may reside within a processor and/or thread of execution.
  • a component may be localized within one computer.
  • a component may be distributed between two or more computers.
  • these components can execute from various computer readable media having various data structures stored therein.
  • Components may communicate via a network such as the Internet with another system, for example, via a signal having one or more data packets (eg, data and/or signals from one component interacting with another component in a local system, distributed system, etc.) may communicate via local and/or remote processes depending on the data being transmitted).
  • a network such as the Internet
  • data packets eg, data and/or signals from one component interacting with another component in a local system, distributed system, etc.
  • a computer refers to all types of hardware devices including at least one processor, and may be understood as encompassing software configurations operating in the corresponding hardware device according to embodiments.
  • a computer may be understood to include, but is not limited to, smart phones, tablet PCs, desktops, notebooks, and user clients and applications running on each device.
  • each step described in this specification is described as being performed by a computer, but the subject of each step is not limited thereto, and at least a portion of each step may be performed in different devices according to embodiments.
  • FIG. 1 is a conceptual diagram illustrating a system in which various aspects of a computing device for performing an artificial intelligence reading assistance method using a visual information-based reference search technology related to an embodiment of the present disclosure can be implemented.
  • a system may include a computing device 100 , a user terminal 10 , an external server 20 , and a network.
  • the components illustrated in FIG. 1 are exemplary, and additional components may be present or some of the components illustrated in FIG. 1 may be omitted.
  • the computing device 100 , the user terminal 10 and the external server 20 according to embodiments of the present disclosure may mutually transmit/receive data for the system according to embodiments of the present disclosure through a network.
  • Networks include Public Switched Telephone Network (PSTN), x Digital Subscriber Line (xDSL), Rate Adaptive DSL (RADSL), Multi Rate DSL (MDSL), Very High Speed DSL (VDSL). ), a variety of wired communication systems such as Universal Asymmetric DSL (UADSL), High Bit Rate DSL (HDSL), and Local Area Network (LAN) can be used.
  • PSTN Public Switched Telephone Network
  • xDSL Digital Subscriber Line
  • RADSL Rate Adaptive DSL
  • MDSL Multi Rate DSL
  • VDSL Very High Speed DSL
  • UDADSL Universal Asymmetric DSL
  • HDSL High Bit Rate DSL
  • LAN Local Area Network
  • CDMA Code Division Multi Access
  • TDMA Time Division Multi Access
  • FDMA Frequency Division Multi Access
  • OFDMA Orthogonal Frequency Division Multi Access
  • SC-FDMA Single Carrier-FDMA
  • Various wireless communication systems may be used, such as other systems.
  • the network may be configured regardless of its communication mode, such as wired and wireless, and is composed of various communication networks such as a personal area network (PAN) and a wide area network (WAN).
  • PAN personal area network
  • WAN wide area network
  • the network may be a well-known World Wide Web (WWW), and may use a wireless transmission technology used for short-range communication, such as infrared (IrDA) or Bluetooth (Bluetooth).
  • IrDA infrared
  • Bluetooth Bluetooth
  • the user terminal 10 accesses the computing device 100 to obtain one or more similar images related to an examination image including one or more objects and diagnostic information corresponding to each similar image. It may be a terminal related to a user.
  • the examination image may mean medical-related image data obtained from the examinee for medical diagnosis
  • the diagnosis information may mean medical diagnosis information read by a specialist through the examination image.
  • the diagnosis information may include prediction information related to the onset of cervical cancer
  • the examination image may be an image of cervical cells for predicting the onset of cervical cancer.
  • the detailed description of the above-described diagnostic information and test image is only an example, and the present disclosure is not limited thereto.
  • the user terminal 10 may be a terminal related to an examiner (eg, a specialist) that provides a checkup result to a user (eg, the examinee).
  • an examiner eg, a specialist
  • the diagnosis information corresponding to the examination image received from the computing device 100 may be used as medical assistance information for reading the examination result of the examinee.
  • the user terminal 10 has a display, so it can receive a user's input and provide an output of any type to the user.
  • a user of the user terminal 10 is a medical professional, which may mean a doctor, a nurse, a clinical pathologist, a medical imaging specialist, or the like, and may be a technician repairing a medical device, but is not limited thereto.
  • the user may mean an administrator or a patient who performs a checkup using the system according to the disclosed embodiment in a medically vulnerable area.
  • the user terminal 10 may refer to any type of entity(s) in a system having a mechanism for communication with the computing device 100 .
  • the user terminal 10 is a personal computer (PC), a notebook (note book), a mobile terminal (mobile terminal), a smart phone (smart phone), a tablet PC (tablet pc), and a wearable device (wearable device) and the like, and may include all types of terminals capable of accessing a wired/wireless network.
  • the user terminal 10 may include an arbitrary server implemented by at least one of an agent, an application programming interface (API), and a plug-in.
  • the user terminal 10 may include an application source and/or a client application.
  • the external server 20 may be a server that stores an examination image including one or more objects, an image related to each object, and medical diagnosis or reading information related to each object image.
  • the external server 20 may be at least one of a hospital server and a government server, and information about an examination image including one or more objects, an image related to each object, and medical diagnosis or reading information related to each object image, etc.
  • It may be a server that stores Information stored in the external server 20 may be utilized as training data, verification data, and test data for learning the neural network in the present disclosure. That is, the external server 20 may be a server that stores information about a data set for training the neural network model of the present disclosure.
  • the computing device 100 of the present disclosure may build a training data set based on a plurality of object images from the external server 20 and read information about each object image, and includes one or more network functions through the training data set
  • a classification model for classifying each of one or more objects included in the examination image into one or more predetermined categories may be generated.
  • the external server 20 is a digital device, and may be a digital device equipped with a processor, such as a laptop computer, a notebook computer, a desktop computer, a web pad, and a mobile phone, and having a computing capability with a memory.
  • the external server 20 may be a web server that processes a service.
  • the above-described types of servers are merely examples, and the present disclosure is not limited thereto.
  • the computing device 100 may acquire an examination image.
  • the examination image may be medical-related image data and may include one or more objects.
  • the medical related image data may refer to image data obtained from a user (ie, an examinee) for medical diagnosis.
  • the medical-related image data may include X-ray, CT, or MRI image data, karyotype image data, blood vessel image data, and genome image data.
  • the one or more objects refer to objects included in medical-related image data, and may relate to a part of the examinee's body for medical diagnosis or reading.
  • the one or more objects may refer to organs, blood vessels, or cells such as liver, heart, uterus, brain, breast, lung, and abdomen.
  • the computing device 100 may classify an object using a pre-learned classification model.
  • the computing device 100 may classify one or more objects by processing an inspection image including one or more objects in a pre-learned classification model as an input.
  • the pre-trained classification model may be a neural network model for classifying one or more objects included in the corresponding examination image into one or more categories when an examination image is input.
  • the one or more categories may include, but are not limited to, at least one of, for example, a normal state, a low-risk state, and a high-risk state.
  • This classification model may be pre-trained by the processor 130 through the training data. That is, the pre-learned classification model may be a neural network model that detects an object in an examination image and classifies the detected object into a specific category.
  • the pre-trained classification model may include a plurality of uterus in the first examination image.
  • Each of the cervical cells may be detected, and each detected cervical cell may be classified into at least one of a category related to normal and a category related to abnormal.
  • the category related to the abnormality may mean a category for identifying objects affecting medical diagnosis or reading. That is, an object classified into an abnormal category among one or more objects included in the examination image may mean an object that is a criterion for determining the presence or absence of a disease (or whether additional examination is performed) related to the examinee who is the subject of the examination image. have.
  • a detailed description of the classification performed by the above-described first inspection image and classification model is only an example, and the present disclosure is not limited thereto.
  • the computing device 100 detects each of the one or more objects in order to identify the objects affecting the examination whether or not the examinee has a disease in the examination image, and each An object may be classified into each of one or more categories.
  • the computing device 100 may provide diagnostic information corresponding to the examination image.
  • the diagnostic information corresponding to the examination image means information for reading the examination result of the examinee, and may include at least one of diagnostic information regarding the presence or absence of a disease and prediction information regarding the incidence rate.
  • the diagnosis information may include diagnosis information related to whether the examinee has cervical cancer.
  • the diagnostic information may include diagnostic information related to whether the examinee has a lung tumor.
  • the diagnostic information may include diagnostic information related to whether the examinee has leukemia.
  • the detailed description of the above-described diagnostic information is only an example, and the present disclosure is not limited thereto.
  • the computing device 100 may generate diagnostic information corresponding to the examination image based on a classification result of each of one or more objects performed through a pre-learned classification model.
  • the computing device 100 may process an inspection image including one or more objects in the pre-learned classification model as an input.
  • the pre-trained classification model may classify each of one or more objects included in the examination image into one or more categories.
  • the one or more categories may include a category related to normal and a category related to abnormality.
  • the computing device 100 may generate diagnostic information based on the number of objects classified into categories related to abnormalities. For example, the computing device 100 may generate diagnostic information based on whether the number of objects classified into an abnormality-related category exceeds a predetermined threshold.
  • the previously determined threshold may be a reference value of an abnormal object that is a criterion for determining the presence or absence of a disease.
  • the computing device 100 indicates that no disease has occurred in response to the examination image. It is possible to generate diagnostic information including information and information that the incidence rate is 60% within 3 years.
  • the above-described number of classified objects, a predetermined threshold, and detailed description of diagnostic information are merely examples, and the present disclosure is not limited thereto.
  • the computing device 100 may obtain an examination image related to medical-related image data of the examinee, and provide diagnostic information including diagnostic information related to the presence or absence of disease and predictive information related to the incidence rate in response to the obtained examination image. have.
  • the computing device 100 may perform one or more similar image searches for an object using a pre-learned search model.
  • the computing device 100 may perform one or more similar image searches for an object according to a classification result of the object using a pre-learned search model.
  • the pre-learned search model may be a neural network model for retrieving one or more similar images having similarity to the corresponding object from the image database by inputting an object classified into a specific category (eg, a category related to abnormality).
  • a search model may be pre-trained by the processor 130 through training data. That is, the pre-learned search model may be a neural network model that searches for one or more similar images similar to the corresponding object based on the object classified into a specific category.
  • the one or more similar image searches may be performed through a similarity determination process for images previously stored in an image database.
  • the image database may store a plurality of object images and medical diagnosis information related to each object image.
  • the computing device 100 may classify a first object (ie, one cervical cell) among a plurality of cervical cells included in the first examination image into an abnormal category by using a pre-trained classification model.
  • the computing device 100 may search for one or more similar images corresponding to the first object by processing the first object classified into the abnormal category as an input of the pre-trained search model. That is, when the pre-learned search model receives a first object as an input, it is possible to search for one or more similar images by determining similarities between the first object and each of a plurality of objects included in the image database.
  • the computing device 100 may perform one or more similar image searches for the object according to the classification of the object.
  • the computing device 100 may perform a search for one or more similar images similar to an object classified into a specific category from the image database (ie, an object influencing the examinee's disease determination).
  • the computing device 100 may provide a similar image search result. Specifically, the computing device 100 may classify one or more objects into one or more categories by processing an inspection image including one or more objects as an input of a pre-learned classification model, and pre-learned according to the classification result of the objects. One or more similar image searches for an object may be performed using the search model. In other words, the computing device 100 detects a specific object classified into a category related to abnormality from an examination image including one or more objects by using the pre-trained neural network model, and detects one object having similarity to the object detected from the image database. By searching for the above similar images, it is possible to provide similar image search results. In this case, the search result provided by the computing device 100 may include one or more similar images and examination information corresponding to each similar image.
  • the computing device 100 identifies objects affecting medical diagnosis or reading from the examination image related to medical-related image data, and includes one or more similar images similar to each of the corresponding objects and a diagnosis corresponding to each similar image.
  • a medical diagnosis or reading of a user eg, a specialist
  • a user eg. a specialist
  • the computing device 100 may be a terminal or a server, and may include any type of device.
  • the computing device 100 is a digital device, and may be a digital device equipped with a processor, such as a laptop computer, a notebook computer, a desktop computer, a web pad, and a mobile phone, and having a computing power having a memory.
  • the computing device 100 may be a web server that processes a service.
  • the types of computing devices described above are merely examples, and the present disclosure is not limited thereto.
  • the computing device 100 may be a server that provides a cloud computing service. More specifically, the computing device 100 is a type of Internet-based computing, and may be a server that provides a cloud computing service that processes information not with a user's computer but with another computer connected to the Internet.
  • the cloud computing service may be a service that stores data on the Internet and allows the user to use it anytime and anywhere through Internet access without installing necessary data or programs on his/her computer. Easy to share and deliver with a click.
  • cloud computing service not only stores data on a server on the Internet, but also allows users to perform desired tasks using the functions of applications provided on the web without installing a separate program, and multiple people can simultaneously view documents. It may be a service that allows you to work while sharing.
  • the cloud computing service may be implemented in the form of at least one of Infrastructure as a Service (IaaS), Platform as a Service (PaaS), Software as a Service (SaaS), a virtual machine-based cloud server, and a container-based cloud server.
  • IaaS Infrastructure as a Service
  • PaaS Platform as a Service
  • SaaS Software as a Service
  • the computing device 100 of the present disclosure may be implemented in the form of at least one of the above-described cloud computing services.
  • the detailed description of the above-described cloud computing service is merely an example, and may include any platform for building the cloud computing environment of the present disclosure.
  • FIG. 2 is a block diagram of a computing device for performing an artificial intelligence reading assistance method using a visual information-based reference search technology according to an embodiment of the present disclosure.
  • the computing device 100 may include a network unit 110 , a memory 120 , and a processor 130 .
  • Components included in the aforementioned computing device 100 are exemplary and the scope of the present disclosure is not limited to the aforementioned components. That is, additional components may be included or some of the above-described components may be omitted according to implementation aspects for the embodiments of the present disclosure.
  • the computing device 100 may include the user terminal 10 and the network unit 110 for transmitting and receiving data to and from the external server 20 .
  • the network unit 110 transmits data for performing an artificial intelligence reading assistance method using a visual information-based reference search technology according to an embodiment of the present disclosure and a training data set for learning a neural network model to other computing devices, servers, and the like. can send and receive. That is, the network unit 110 may provide a communication function between the computing device 100 , the user terminal 10 , and the external server 20 .
  • the network unit 110 may receive the examination image data from the user terminal 10 .
  • the network unit 110 may receive a training data set for learning the classification model or the search model of the present disclosure from the external server 20 .
  • the network unit 110 may allow information transfer between the computing device 100 and the user terminal 10 and the external server 20 by calling a procedure to the computing device 100 .
  • the network unit 110 includes a Public Switched Telephone Network (PSTN), x Digital Subscriber Line (xDSL), Rate Adaptive DSL (RADSL), Multi Rate DSL (MDSL), VDSL (A variety of wired communication systems such as Very High Speed DSL), Universal Asymmetric DSL (UADSL), High Bit Rate DSL (HDSL), and Local Area Network (LAN) can be used.
  • PSTN Public Switched Telephone Network
  • xDSL Digital Subscriber Line
  • RADSL Rate Adaptive DSL
  • MDSL Multi Rate DSL
  • VDSL A variety of wired communication systems such as Very High Speed DSL), Universal Asymmetric DSL (UADSL), High Bit Rate DSL (HDSL), and Local Area Network (LAN) can be used.
  • LAN Local Area Network
  • the network unit 110 presented herein is CDMA (Code Division Multi Access), TDMA (Time Division Multi Access), FDMA (Frequency Division Multi Access), OFDMA (Orthogonal Frequency Division Multi Access), SC-FDMA (A variety of wireless communication systems can be used, such as Single Carrier-FDMA) and other systems.
  • CDMA Code Division Multi Access
  • TDMA Time Division Multi Access
  • FDMA Frequency Division Multi Access
  • OFDMA Orthogonal Frequency Division Multi Access
  • SC-FDMA A variety of wireless communication systems can be used, such as Single Carrier-FDMA
  • the network unit 110 may be configured regardless of its communication mode, such as wired and wireless, and may be composed of various communication networks such as a short-range network (PAN: Personal Area Network) and a local area network (WAN: Wide Area Network).
  • PAN Personal Area Network
  • WAN Wide Area Network
  • the network may be a well-known World Wide Web (WWW), and may use a wireless transmission technology used for short-range communication, such as infrared (IrDA) or Bluetooth (Bluetooth).
  • IrDA infrared
  • Bluetooth Bluetooth
  • the memory 120 may store a computer program for performing the artificial intelligence reading assistance method using the visual information-based reference search technology according to an embodiment of the present disclosure, and the stored computer program It may be read and driven by the processor 130 .
  • the memory 120 may store any type of information generated or determined by the processor 130 and any type of information received by the network unit 110 .
  • the memory 120 may store information on an examination image including one or more objects.
  • the memory 120 may store input/output data (eg, an examination image, one or more objects included in the examination image, diagnostic information corresponding to each of the one or more objects, and analysis generated in response to the examination image). information, etc.) may be temporarily or permanently stored.
  • the memory 120 is a flash memory type, a hard disk type, a multimedia card micro type, and a card type memory (eg, a SD or XD memory, etc.), Random Access Memory (RAM), Static Random Access Memory (SRAM), Read-Only Memory (ROM), Electrically Erasable Programmable Read-Only Memory (EEPROM), Programmable Read (PROM) -Only Memory), a magnetic memory, a magnetic disk, and an optical disk may include at least one type of storage medium.
  • the computing device 100 may operate in relation to a web storage that performs a storage function of the memory 120 on the Internet.
  • the description of the above-described memory is only an example, and the present disclosure is not limited thereto.
  • the processor 130 may be configured with one or more cores, and may include a central processing unit (CPU) and a general purpose graphics processing unit (GPGPU) of a computing device. , data analysis such as a tensor processing unit (TPU), and a processor for deep learning.
  • CPU central processing unit
  • GPU general purpose graphics processing unit
  • TPU tensor processing unit
  • the processor 130 may read a computer program stored in the memory 120 to perform data processing for deep learning according to an embodiment of the present disclosure. According to an embodiment of the present disclosure, the processor 130 may perform an operation for learning the neural network.
  • the processor 130 for learning of the neural network such as processing input data for learning in deep learning (DL), extracting features from input data, calculating an error, updating the weight of the neural network using backpropagation calculations can be performed.
  • DL deep learning
  • At least one of a CPU, a GPGPU, and a TPU may process learning of a network function.
  • the CPU and the GPGPU can process learning of a network function and data classification using the network function.
  • learning of a network function and data classification using the network function may be processed by using the processors of a plurality of computing devices together.
  • the computer program executed in the computing device according to an embodiment of the present disclosure may be a CPU, GPGPU or TPU executable program.
  • a network function may be used interchangeably with an artificial neural network and a neural network.
  • a network function may include one or more neural networks, and in this case, an output of the network function may be an ensemble of outputs of one or more neural networks.
  • the processor 130 may read a computer program stored in the memory 120 to provide a classification model according to an embodiment of the present disclosure. According to an embodiment of the present disclosure, the processor 130 may generate analysis information corresponding to image data. According to an embodiment of the present disclosure, the processor 130 may perform calculation for training the classification model.
  • the processor 130 may typically process the overall operation of the computing device 100 .
  • the processor 130 processes signals, data, information, etc. input or output through the above-described components or runs an application program stored in the memory 120, thereby providing or processing appropriate information or functions to the user or user terminal. can do.
  • the processor 130 may acquire an examination image including one or more objects. Acquisition of the examination image according to an embodiment of the present disclosure may include receiving or loading image data stored in the memory 120 . Also, the image data acquisition may be receiving or loading data from another storage medium, another computing device, or a separate processing module in the same computing device based on a wired/wireless communication means.
  • the examination image of the present disclosure may refer to medical-related image data obtained from an examinee for medical diagnosis.
  • the medical-related image data may include X-ray, CT, or MRI image data, karyotype image data, blood vessel image data, and genome image data.
  • the one or more objects refer to objects included in medical-related image data, and may relate to a part of the examinee's body for medical diagnosis or reading.
  • the one or more objects may refer to organs, blood vessels, or cells such as liver, heart, uterus, brain, breast, lung, and abdomen.
  • the examination image may include an image of a result obtained by smearing the cervical cells of the subject on a slide and performing necessary processing such as staining for the diagnosis of cervical cancer, and one or more objects, It may mean each of a plurality of cells included in the corresponding photographed image.
  • the detailed description of the above-described inspection image and one or more objects is only an example, and the present disclosure is not limited thereto. That is, according to various embodiments of the present disclosure, the examination image may further include various medical images (eg, chest Xray image, karyotype-related image, chromosome image, etc.) obtained from the examinee, and one or more objects may also be used for each examination. Various objects included in the image may be further included.
  • a separate camera module for acquiring an examination image may be provided in the computing device of the present disclosure.
  • auxiliary equipment such as a magnifying glass, a lens, and a microscope attached to or provided in the camera module may be used, and the camera module may take an enlarged image through this.
  • the processor 130 may perform image pre-processing on the inspection image.
  • the processor 130 may perform the step of resizing the image for each image included in the training data.
  • the processor 130 may downsize the image after upscaling, and the scaling method and order for the image are not limited thereto.
  • the processor 130 may obtain images of different resolutions for images through extended convolution in a network-based learning process, and may upscale them to transform them to be the same as the original resolution.
  • the processor 130 may perform image pre-processing by adjusting the color of the inspection image.
  • one or more objects included in the image may be stained after smearing. Accordingly, the color of the image can be adjusted so that the colors of the stained cell nucleus, cytoplasm, and cell membrane and other regions can be clearly distinguished.
  • the method of adjusting the color of the image is not limited, but color adjustment using a filter that adjusts brightness or saturation may be performed.
  • the processor 130 may classify each of one or more objects included in the examination image. Specifically, the processor 130 may classify one or more objects included in the examination image by using a pre-learned classification model. The processor 130 may process the inspection image as an input to the pre-learned classification model so that each of one or more objects is classified into one or more categories, respectively.
  • the classification model may be a neural network model trained to detect one or more objects included in the examination image and classify each object into at least one of one or more categories.
  • the one or more categories may include at least one of a category related to normal and a category related to abnormality.
  • the category related to the abnormality may mean a category for identifying objects affecting medical diagnosis or reading. That is, an object classified into a category related to abnormality among one or more objects included in the examination image may mean an object that serves as a criterion for determining the presence or absence of a disease related to the subject of the examination image.
  • the category related to the abnormality may be subdivided into at least two categories according to the degree of risk. For example, the category related to the abnormality may be subdivided into a low-risk state, a high-risk state, etc. according to diagnosis accuracy or a degree of predicting the likelihood of an onset.
  • the processor 130 may perform pre-learning on the classification model through a training data set including a plurality of training data.
  • the processor 130 may receive medical-related data from the external server 20 , and may build a learning data set based on the data. Specifically, the processor 130 may build a learning data set based on a plurality of cell image data received from the external server 20 and examination information for each cell image data.
  • the training data set may include a training input data set and a training output data set.
  • the processor 130 may build a learning input data set through a plurality of object images related to the inspection image, and may build a learning output data set through reading information for each of the plurality of object images.
  • the processor 130 may reclassify the read information for each of the plurality of object images into at least one of one or more predetermined categories.
  • the one or more categories may be characterized by fewer than the plurality of types of read information.
  • the examination image may be an examination image related to cervical cells, and a plurality of object images included in the examination image may be related to a plurality of cell images.
  • read information related to each of a plurality of cells in a cervical cancer reading process may relate to classifying each cell image into five classification criteria.
  • the five classification criteria related to readings related to cell images are normal, Atypical Squamous Cells of Undetermined Significance (ASC-US), Low-grade Squamous Intraepithelial Lesion (LSIL), High-grade Squamous Intraepithelial Lesion (HSIL), and Carcinoma.
  • a plurality of cell images related to cervical cells may be difficult to be utilized as learning data of a neural network because there is little data and images related to each classification are unbalanced. That is, the accuracy of the learned neural network may be somewhat lowered or the learning of the neural network itself may not be possible due to insufficiently secured learning data for learning the neural network or lack of diversity in classification.
  • the processor 130 may construct the learning output data by reclassifying the read information for each of the cell images into at least one of one or more predetermined categories.
  • the processor 130 may reclassify each examination information into at least one of one or more categories based on the number of read information related to each of the five classifications.
  • the number of cell images classified as normal is 2000
  • the number of cell images classified as ASC-US is 400
  • the number of cell images classified as LSIL is 1700
  • the number of cell images classified as HSIL is 1200
  • the number of cell images is classified as Carcinoma.
  • the number of imaged cells may be 1000. In this case, since each of the learning data classified into five detailed units is not balanced, the efficiency of learning may be reduced.
  • the processor 130 of the present disclosure integrates data related to ASC-US and LSIL and reclassifies it into a low-risk category, and integrates data related to HSIL and Carcinoma to a high-risk category can be reclassified as That is, the processor 130 may reclassify the classification of the existing five detailed units into three categories (normal, low risk, and high risk). In other words, the processor 130 may perform reclassification so that the number of data in each category is balanced. Accordingly, learning for various classifications is performed in a balanced manner, so that the learning efficiency of the neural network can be improved, and the accuracy of the neural network on which learning has been completed can be improved.
  • the reclassification performed by the processor 130 in the present disclosure is a classification based on relatively fewer categories than the existing detailed classification, it is possible to construct learning data with high utility in the medical field with little data and unbalanced learning data conditions. can make it possible That is, in consideration of the number of data included in each sub-unit of the learning output data related to the correct answer, by reclassifying each sub-unit into one or more categories, which are relatively small classifications, to generate the learning output data, the learned neural network is improved It is possible to perform a classification operation with accuracy.
  • the processor 130 may match and label the training output data set corresponding to each of the training input data sets. That is, through the above-described process, the processor 130 may build a training data set for training the classification model.
  • the classification model of the present disclosure may include a dimensionality reduction submodel (eg, an encoder) and a dimensionality reconstruction submodel (eg, a decoder).
  • the processor 130 may use the training input data as an input of the dimension reduction sub-model to train the dimension restoration sub-model to output training output data associated with the label of the training input data.
  • the processor 130 receives the learning input data related to the object image as an input to the dimension reduction sub-model, outputs a feature corresponding to the learning input data, and processes the output feature as an input of the dimension restoration sub-model to obtain the object image. It may be classified into at least one of one or more categories.
  • the processor 130 derives an error by comparing the output of the dimension restoration sub-model with the classification result and learning reclassification information (ie, classification related to the correct answer), and backpropagates the weight of each model based on the derived error. ) can be adjusted in this way.
  • the processor 130 adjusts the weights of one or more network functions so that the classification result, which is the output of the dimension restoration submodel, approaches the learning output data based on the error between the operation result and the learning output data of the dimensional restoration submodel for the training input data.
  • the dimensionality reduction sub-model receives the learning input data related to the object image from the processor 130 and designates a feature related to a specific vector of the learning input data as an output to learn an intermediate process in which the input data is converted into a feature. have.
  • the processor 130 may transfer the embedding (ie, object image feature) related to examination information (ie, information about reclassification) related to the object image from the dimension reduction sub-model to the dimension restoration sub-model.
  • the dimension restoration sub-model may classify the object image into at least one of one or more categories by inputting the features of the object image.
  • the cell nucleus and the cytoplasm may be recognized in the cell image of the processor 130, and a classification model based on the recognized area ratio of the cell nucleus and the cytoplasm weights can be adjusted.
  • the processor 130 calculates the area of the cell nucleus and the cytoplasm from the cell image included in the examination image, and the smaller the difference between the two areas, the greater the probability that the classification model will classify the cell image into a category related to abnormality. We can adjust the weight to the corresponding classification model to be high.
  • the classification model learned by the processor 130 may detect one or more objects included in the examination image, and classify each detected object into at least one of one or more categories.
  • the processor 130 may generate diagnostic information corresponding to the examination image based on the classification result of each of the plurality of object images.
  • the diagnostic information corresponding to the examination image means information for reading the examination result of the examinee, and may include at least one of diagnostic information regarding the presence or absence of a disease and prediction information regarding the incidence rate.
  • the diagnosis information may include diagnosis information related to whether the examinee has cervical cancer.
  • the diagnostic information may include diagnostic information related to whether the examinee has a lung tumor.
  • the diagnostic information may include diagnostic information related to whether the examinee has leukemia.
  • the detailed description of the above-described diagnostic information is only an example, and the present disclosure is not limited thereto.
  • the processor 130 may generate diagnostic information corresponding to the examination image based on a classification result of each of one or more objects performed through a pre-learned classification model.
  • the processor 130 may generate diagnostic information based on the number of object images classified into each of one or more categories.
  • the processor 130 may process an inspection image including one or more objects in the pre-learned classification model as an input.
  • the pre-learned classification model may classify each of one or more objects included in the examination image into one or more categories.
  • the one or more categories may include a category related to normal and a category related to abnormality.
  • the processor 130 may generate diagnostic information based on the number of objects classified into categories related to abnormality.
  • the processor 130 may generate diagnostic information based on whether the number of objects classified into an abnormality-related category exceeds a predetermined threshold.
  • the previously determined threshold may be a reference value of an abnormal object that is a criterion for determining the presence or absence of a disease.
  • the processor 130 provides information that no disease has occurred in response to the examination image. And it is possible to generate diagnostic information including information that the incidence rate within 3 years is 30%.
  • the above-described number of classified objects, a predetermined threshold, and detailed description of the diagnostic information are merely examples, and the present disclosure is not limited thereto.
  • the processor 130 may obtain a test image related to the medical-related image data of the examinee, and provide diagnostic information including diagnostic information related to the presence or absence of a disease and prediction information related to the incidence rate in response to the acquired test image. .
  • the processor 130 may perform one or more similar image searches for an object using a pre-learned search model.
  • the processor 130 may perform one or more similar image searches for the object according to the classification result of the object using the pre-learned search model.
  • the pre-learned search model may be a neural network model for retrieving one or more similar images having similarity to the corresponding object from the image database by inputting an object classified into a specific category (eg, a category related to abnormality). .
  • a search model may be pre-trained by the processor 130 through training data.
  • the search model is a neural network model based on proxy-based metric learning, in which the similarity between the target vector and the positive proxy is increased and the similarity between the target vector and the negative proxy is lowered.
  • the proxy may be a vector indicating representativeness of embedding vectors for comparing the similarity between the object and images previously stored in the image database.
  • the processor 130 may include a target target vector with features related to the first object, a vector similar to the first object, a target target similar vector, and a vector related to the second object as a target target dissimilar vector.
  • a search model can be trained using the training data. When a search model is trained using such training data, the search model classifies the target target vector and the Thursday target similar vector into the same group (or cluster), and divides the target target vector and target dissimilar vector into different groups. can be learned to classify.
  • the search model is trained to form clusters among similar data in a solution space.
  • the search model is trained such that the target vector is included in one cluster with the target similar vector, and the target dissimilar vector is included in a different cluster from the target vector and target similar vector.
  • Each cluster may be positioned to have a certain distance margin on the solution space of the learned search model.
  • the search model receives training data including a target target target vector, target target similar vector, and target target dissimilar vector, matches each data to the solution space, and searches so that it can be clustered according to the labeled cluster information in the solution space You can update the weights of one or more network functions included in the model. That is, the search model can be trained so that the distance between the target vector and the target similar vector in the solution space is close to each other, and the distance in the solution space between the target vector and the target dissimilar vector is far apart from each other. .
  • the search model can be trained using a proxy-based metric-based cost function.
  • the proxy-based metric-based cost function aims to separate input data of the same class from negative proxies related to different classes, and a first distance from a corresponding target target vector to a positive proxy representing representativeness of input data of the same class and A difference value between the second distance from the positive proxy to the negative proxy is at least a distance margin, and the method for training the search model may include reducing the first distance to less than or equal to a predetermined ratio of the distance margin.
  • the distance margin can always be positive.
  • the weights of one or more network functions included in the search model may be updated, and the weight update may be performed every iteration or every 1 epoch.
  • a search model that is a proxy-based metric learned model may be provided through the above process, and as input data of the search model is classified into clusters, a search for one or more similar images having similarity to a specific object may be performed.
  • Proxy-based metric learning unlike pair or triplet-based learning, compares embeddings of each data with embeddings representing the representativeness of a specific class, so the amount of computation in the mini-batch sampling process for learning can be significantly reduced. , and thus learning speed and efficiency can be improved.
  • the processor 130 may perform one or more similar image searches using characteristic information of the object.
  • the characteristic information of the object is information that considers the visual characteristics and the medical characteristics of the object together, and may be generated through the visual characteristics of the object and attribute information of the object.
  • the feature information may mean a feature vector output by the neural network model in response to input data. That is, the feature information may mean embedding in a vector space related to a specific input.
  • the neural network model that outputs a feature vector corresponding to a specific input may include one or more neural network models trained to output various feature vectors.
  • the first model may be a neural network model that takes the first input data as an input and outputs a visual feature vector corresponding to the first input data, and the second model uses the first input data as an input, It may be a neural network model that outputs a medical feature vector corresponding to the first input data. That is, the feature information in the present disclosure may include a feature vector related to each of a visual feature and a medical feature.
  • the processor 130 may acquire the visual characteristics of the object by using the first model for extracting the features based on content information included in the image.
  • the first model may be implemented through a dimension reduction sub-model (eg, an encoder) among the learned classification models.
  • the learned classification model may be a model that performs classification on each of one or more objects included in the inspection image, and the dimensionality reduction sub-model constituting it corresponds to each object by receiving each of the one or more objects as an input. You can output a vector that does. That is, the dimension reduction sub-model may be a model that outputs a vector related to the visual feature of each object image.
  • the first model may be implemented through a dimensionality reduction sub-model among the learned classification models, and a vector related to a visual feature related to the image may be output by receiving an image as an input.
  • a vector related to a visual feature related to the image may be output by receiving an image as an input.
  • the processor 130 may acquire a visual feature corresponding to the object image by using the first model.
  • the first model for extracting visual features from the image is implemented through a part of the pre-trained classification model, a separate learning data construction and learning process for implementing the neural network model may be omitted.
  • the first model of the present disclosure is not limited to only being implemented through the dimensionality reduction sub-model. That is, according to an embodiment of the present disclosure, a first model for extracting visual features corresponding to an image through various learning methods may be provided.
  • the processor 130 may obtain attribute information corresponding to the object by using the second model for calculating a specific attribute corresponding to the image.
  • the attribute information of the object may be information related to the reading result of the object.
  • the attribute information of the object may include information related to a reading result of pneumonia as there is a 94% probability that a specific object (eg, lung) is abnormal.
  • the second model may be a model for calculating probability information of a specific event corresponding to the image. That is, the processor 130 may obtain the attribute information of the object by obtaining a probability value corresponding to the object using the second model. In other words, the attribute information of the object may be obtained based on the probability value calculated through the second model.
  • the second model may be implemented including a pre-trained classification model.
  • the classification model of the present disclosure may be a neural network model trained to detect one or more objects included in the examination image by the processor 130 and to classify each detected object.
  • the second model may be characterized in that the probability value is calculated based on the classification result. For example, when the number of objects classified into an abnormality-related category exceeds a predetermined threshold, a high probability value corresponding to a specific disease may be calculated. That is, the probability value related to the classification result may be related to the diagnosis result of the examination image including the corresponding objects.
  • the second model may output a probability value related to each of one or more diagnosis names by receiving a specific examination image as an input.
  • the second model may output a first probability value related to pneumonia as 80% and calculate a second probability value related to lung cancer as 6% in response to the test image.
  • the processor 130 may acquire attribute information related to reading pneumonia corresponding to the highest 80% of the probability values output in response to each of one or more diagnosis names.
  • diagnosis name and probability value corresponding to each diagnosis name is merely an example, and the present disclosure is not limited thereto.
  • the processor 130 may acquire characteristic information about the object by using the visual characteristics of the object and attribute information of the object. Specifically, the processor 130 may acquire characteristic information about the object based on the visual characteristics of the object acquired through the first model and attribute information of the object acquired with the second model. That is, the acquired characteristic information may be information in which the visual characteristics of the object and the medical characteristics of the object are considered together.
  • the processor 130 may search for a similar image corresponding to the object by using the characteristic information of the object. That is, the processor 130 may search for a similar image corresponding to the object by using the characteristic information of the object in which the visual characteristics of the object and the medical characteristics of the object are considered together.
  • the processor 130 may assign a weight to at least one of the visual characteristics of the object and the attribute information of the object. That is, the processor 130 may perform a search in which at least one of a visual characteristic or a medical characteristic is further reflected in the search process using the characteristic information of the object.
  • the similar image search using the characteristic information may be a search in which the visual characteristics of the object are more reflected than the medical characteristics.
  • the similar image search using the characteristic information may be a search in which the medical characteristics of the object are more reflected than the visual characteristics.
  • the processor 130 may determine to assign a weight to at least one of the visual characteristics of the object and the attribute information of the object based on the probability value output by the second model. Specifically, the processor 130 assigns a weight to at least one of visual features and attribute information based on whether the probability value output by the second model exceeds a predetermined threshold probability value, so that similar image search focuses on visual features It is possible to determine whether the search is a search based on , or a search focused on medical characteristics. When the probability value output by the second model exceeds a predetermined threshold probability value, the processor 130 may determine that the reliability of the attribution information is equal to or greater than a reference value, and assign a weight to the attribution information related to the medical characteristic. In addition, when the probability value output by the second model is less than or equal to a predetermined threshold probability value, the processor 130 may determine that the reliability of the attribution information is somewhat low, and assign a weight to the attribution information related to the visual characteristic.
  • the similar image search performed in the present disclosure does not simply consider the visual similarity related to the image, but reflects the attribute information of the object related to the diagnostic information related to the object image (that is, the image related to a specific risk) Since it is performed through feature information that enables a search from), it is possible to search for a similar image that is medically closer.
  • accuracy and reliability of similar image search may be improved by assigning weights to further reflect relatively reliable features among visual features or medical features based on the calculated value of attribute information related to medical features.
  • the processor 130 may provide a similar image search result. Specifically, the processor 130 may classify one or more objects into one or more categories by processing an inspection image including one or more objects as an input of a pre-trained classification model, and may classify the one or more objects into one or more categories according to the classification results of the objects.
  • the search model may be used to perform one or more similar image searches for an object.
  • the processor 130 detects a specific object classified into a category related to abnormality from an examination image including one or more objects by using the pre-trained neural network model, and detects one or more objects having similarity to the object detected from the image database.
  • searching for similar images it is possible to provide similar image search results. For example, as shown in FIG. 4 , when the examination image is an x-ray image related to the lung, one or more similar images 320 may be provided as a similar image search result in relation to the lung image 310 which is an object. can
  • the search result provided by the processor 130 may include one or more similar images and a diagnostic record corresponding to each similar image.
  • the processor 130 may select and provide an image having a high similarity to the object.
  • the processor 130 may select and provide an image with high or low similarity to the object. For example, as shown in FIG. 5 , when the object image is a chromosome image 410 , the processor 130 corresponds to the chromosome image 410 to one or more similar images 420 and one or more dissimilar images. 430 may be provided.
  • the processor 130 may select and provide an image classified into a category different from the object although similar to the object is high.
  • the category different from the object may mean a category related to reading different from the reading of the corresponding object.
  • the processor 130 corresponds to the first object, except for diagnostic information related to 'pneumonia'.
  • One or more similar image searches may be performed.
  • the processor 130 may prevent information from being standardized through a similar image search corresponding to a specific category. In other words, it is possible to secure the diversity of similar images provided in response to the object.
  • the processor 130 identifies objects affecting medical diagnosis or reading in the examination image related to the medical-related image data, and records one or more similar images similar to each of the corresponding objects and a diagnosis record corresponding to each similar image.
  • a user eg, a specialist
  • the processor 130 may update the diagnosis information based on the examination information matched to each of one or more similar images. Specifically, the processor 130 may generate diagnostic information corresponding to the examination image. The diagnostic information may be generated based on the number of objects classified into categories related to abnormalities, and may include diagnostic information related to the presence or absence of a disease and prediction information related to an incidence rate.
  • the processor 130 detects a specific object classified into an abnormality-related category from an examination image including one or more objects by using the pre-trained neural network model, and detects one or more similarities having similarity to the object detected from the image database. By searching for an image, it is possible to provide a similar image search result.
  • the search result provided by the processor 130 may include one or more similar images and examination information corresponding to each similar image.
  • the processor 130 may update the diagnosis information based on the examination information corresponding to one or more similar images. Updating the diagnosis information may mean, for example, reflecting at least a part of information included in the diagnosis information to the diagnosis information. Updating the diagnostic information may mean that when the examination information corresponding to one or more similar images includes first read information having a different content from the diagnostic information, the first read information is reflected in the diagnostic information.
  • the diagnostic information generated by the processor 130 in response to the examination image includes reading information that corresponds to pneumonia
  • the examination information corresponding to the first similar image includes reading information corresponding to pulmonary tuberculosis
  • the second When the checkup information corresponding to the two similar images includes read information corresponding to pulmonary tuberculosis
  • the processor 130 based on 'pulmonary tuberculosis', which is checkup information matched to the first similar image and the second similar image, Diagnostic information including only read information related to ' can be updated to 'Pneumonia or pulmonary tuberculosis is suspected'.
  • the detailed description of the update of the diagnostic information described above is only an example, and the present disclosure is not limited thereto.
  • the processor 130 may update the diagnosis information based on the examination information matched to the similar image related to the object.
  • the diagnostic information is updated, since additional information not included in the existing diagnostic information may be provided, medical assistance may be performed through various types of read information.
  • the examination image may include a plurality of cell images.
  • the cell image may be a cervical cell image.
  • the processor 130 may classify each of the plurality of cell images into one or more categories.
  • the one or more categories may include at least one of a normal state, a low-risk state, and a high-risk state.
  • the processor 130 may process the examination image as an input to the classification model to detect a plurality of cell images, and classify each detected cell image into at least one of a normal state, a low risk state, and a high risk state. That is, as shown in FIG. 3 , the processor 130 may detect each of a plurality of cell images included in the examination image and classify each cell image into at least one of three categories.
  • the processor 130 may generate diagnostic information corresponding to the examination image based on the classification result for each of the plurality of cell images.
  • the diagnostic information may be generated based on the number of cell images classified into categories related to abnormalities, and may include diagnostic information related to the presence or absence of a disease and predictive information related to an incidence rate.
  • the processor 130 may perform a similar image search for at least some of the plurality of cell images. Specifically, the processor 130 detects each cell image from the examination image including one or more cell images by using the pre-trained neural network model, and searches for one or more similar images having similarity to the detected cell image from the image database. By doing so, it is possible to provide similar image search results.
  • the search result provided by the processor 130 may include one or more similar images and examination information corresponding to each similar image.
  • the processor 130 may detect one or more cell images 210 from the examination image.
  • the processor 130 may provide the search result 220 for one or more similar images corresponding to each of the one or more cell images 210 . That is, as shown in FIG. 3 , cells having a high degree of similarity may be sorted and displayed corresponding to each cell image. In this case, the degree of similarity between each cell image and one or more similar images may be displayed together.
  • FIG. 6 is an exemplary diagram for explaining a process of providing one or more similar images in response to an examination image related to an embodiment of the present disclosure.
  • the computing device 100 may provide one or more similar images in response to the examination image 501 .
  • the provision of one or more similar images may be for verification or medical assistance on a result (ie, diagnostic information) obtained through a classification model.
  • the provision of one or more similar images may be for verifying whether diagnostic information corresponding to an examination image obtained through a classification model is appropriate. That is, by providing one or more similar images to obtain an existing medical record in a similar situation, medical verification of whether the diagnosis information obtained through the classification model of the present disclosure is appropriate or a diagnosis assistance corresponding to the diagnosis information. can
  • the computing device 100 may search for one or more similar images by using characteristic information of each object included in the examination image 501 .
  • the characteristic information of the object may be information generated based on the visual characteristic 511 of the object and the attribute information 521 of the object.
  • the feature information may mean a feature vector output by the neural network model in response to input data. That is, the feature information may mean embedding in a vector space related to a specific input.
  • the neural network model that outputs a feature vector corresponding to a specific input may include one or more neural network models trained to output various feature vectors.
  • the first model may be a neural network model that takes the first input data as an input and outputs a visual feature vector corresponding to the first input data, and the second model uses the first input data as an input, It may be a neural network model that outputs a medical feature vector corresponding to the first input data. That is, the feature information in the present disclosure may include a feature vector related to each of a visual feature and a medical feature.
  • the computing device 100 may acquire the visual feature 511 by processing the examination image 501 as an input of the first model 510 .
  • the first model 510 may be implemented through a dimension reduction sub-model (eg, an encoder) among the learned classification models.
  • the learned classification model may be a model that performs classification on each of one or more objects included in the inspection image, and the dimensionality reduction sub-model constituting this may receive a vector corresponding to each of the one or more objects by inputting each of the one or more objects as an input. It can be printed out. That is, the dimension reduction sub-model may be a model that outputs a vector related to the visual feature of each object image.
  • the first model 510 may be implemented through a dimension reduction sub-model among the learned classification models, and may output a vector related to a visual feature related to the image by receiving an image as an input. That is, the computing device 100 may acquire the visual feature 511 corresponding to the object by using the first model 510 .
  • the first model 510 for extracting the visual features 511 from the image is implemented through a part of the pre-trained classification model, the separate learning data construction and learning process for implementing the neural network model will be omitted.
  • the computing device 100 may acquire attribute information 521 corresponding to the object by using the second model 520 that outputs a specific attribute corresponding to the image.
  • the attribute information of the object may be information related to the reading result of the object.
  • the second model 520 may be a model for calculating probability information of a specific event corresponding to the image.
  • the computing device 100 may obtain the attribute information 521 of the object by obtaining a probability value corresponding to the object by using the second model 520 .
  • the second model 520 may be implemented including a pre-trained classification model.
  • the classification model of the present disclosure is a neural network model trained to detect one or more objects included in an examination image by the computing device 100 and perform classification for each detected object, and calculate a probability value based on the classification result can do. For example, when the number of objects classified into an abnormality-related category exceeds a predetermined threshold, a high probability value corresponding to a specific disease may be calculated. That is, the probability value related to the classification result may be related to the diagnosis result of the examination image including the corresponding objects. Accordingly, the second model 520 implemented through the classification model may be characterized in that a probability value is calculated based on the classification result.
  • the second model 520 may output a probability value related to each of one or more diagnosis names by receiving the examination image 501 as an input. For example, in response to the examination image 501 , the second model 520 may output a first probability value related to pneumonia as 80% and calculate a second probability value related to lung cancer as 6%. In this case, the computing device 100 may acquire the attribute information 521 related to the reading of pneumonia corresponding to the highest 80% of the probability values output in response to each of one or more diagnosis names.
  • diagnosis name and probability value corresponding to each diagnosis name is merely an example, and the present disclosure is not limited thereto.
  • the computing device 100 may obtain the characteristic information 530 of the object by using the visual characteristic 511 of the object and the attribute information 521 of the object. Specifically, the computing device 100 determines the characteristic of the object based on the visual feature 511 of the object obtained through the first model 510 and the attribute information 521 of the object obtained through the second model 520 .
  • Information 530 may be obtained. That is, the acquired characteristic information 530 may be information in which the visual characteristics of the object and the medical characteristics of the object are considered together.
  • the computing device 100 may search for one or more similar images by using the characteristic information 530 of the object.
  • the computing device 100 may search for one or more similar images having a similarity to the feature information 530 .
  • the computing device 100 may calculate ( 540 ) the similarity probability based on the cosine similarity of the feature vector of each piece of information.
  • the cosine similarity may mean a similarity between two vectors obtained by using a cosine angle between the two vectors. For example, it may have a value of 1 if the directions of two vectors are perfectly equal, 0 if they form an angle of 90 degrees, and -1 if they have opposite reverberations by 180 degrees. That is, the cosine similarity may have a value of -1 or more and 1 or less, and it may be determined that the similarity is higher as the value is closer to 1.
  • the computing device 100 calculates the degree of similarity between the feature information 530 and the first image 541 , the second image 542 , and the n-th image 54n as shown in FIG. 6 , respectively. It can be calculated as 0.937, 0.265 and 0.717. In this case, the computing device 100 aligns each image based on the calculated similarity and provides it as one or more similar images, or only one image (eg, the second similar image having a similarity of 0.265 is removed) over a certain reference value. It can be provided as an image similar to the above.
  • the computing device 100 may provide one or more similar images by performing one or more similar image searches using the characteristic information 530 of the object in which the visual and medical characteristics corresponding to the examination image are considered together. have.
  • examination information may be matched to each of one or more similar images. That is, by acquiring an existing medical record in an image similar to the examination image, it is possible to verify whether the diagnostic information obtained through the classification model of the present disclosure is appropriate.
  • a search for one or more similar images corresponding to the examination image may be performed from the image database.
  • the first model 510 related to extraction of visual features and the second model 520 related to extraction of medical features may be utilized to search for one or more similar images.
  • a separate training data construction and training process for implementing each model may be omitted. have.
  • FIG. 7 is a flowchart exemplarily showing steps for performing an artificial intelligence reading assistance method using a visual information-based reference search technology related to an embodiment of the present disclosure.
  • the method may include acquiring an examination image including one or more objects ( 610 ).
  • the method may include performing classification on an object using a pre-learned classification model ( 620 ).
  • the method may include performing a search for one or more similar images for an object using a pre-learned search model according to the classification result of the object ( 630 ).
  • the method may include providing a similar image search result ( 640 ).
  • FIG. 8 is a schematic diagram illustrating one or more network functions related to an embodiment of the present disclosure.
  • a neural network may be composed of a set of interconnected computational units, which may generally be referred to as “nodes”. These “nodes” may also be referred to as “neurons”.
  • a neural network is configured to include at least one or more nodes. Nodes (or neurons) constituting neural networks may be interconnected by one or more “links”.
  • one or more nodes connected through a link may relatively form a relationship between an input node and an output node.
  • the concepts of an input node and an output node are relative, and any node in an output node relationship with respect to one node may be in an input node relationship in a relationship with another node, and vice versa.
  • an input node-to-output node relationship may be created around a link.
  • One or more output nodes may be connected to one input node through a link, and vice versa.
  • the value of the output node may be determined based on data input to the input node.
  • a node interconnecting the input node and the output node may have a weight.
  • the weight may be variable, and may be changed by a user or an algorithm in order for the neural network to perform a desired function. For example, when one or more input nodes are interconnected to one output node by respective links, the output node sets values input to input nodes connected to the output node and links corresponding to the respective input nodes. An output node value may be determined based on the weight.
  • one or more nodes are interconnected through one or more links to form an input node and an output node relationship in the neural network.
  • the characteristics of the neural network may be determined according to the number of nodes and links in the neural network, the correlation between the nodes and the links, and the value of a weight assigned to each of the links. For example, when the same number of nodes and links exist and there are two neural networks having different weight values between the links, the two neural networks may be recognized as different from each other.
  • a neural network may include one or more nodes. Some of the nodes constituting the neural network may configure one layer based on distances from the initial input node. For example, a set of nodes having a distance of n from the initial input node is You can configure n layers. The distance from the initial input node may be defined by the minimum number of links that must be passed to reach the corresponding node from the initial input node. However, the definition of such a layer is arbitrary for description, and the order of the layer in the neural network may be defined in a different way from the above. For example, a layer of nodes may be defined by a distance from the final output node.
  • the initial input node may mean one or more nodes to which data is directly input without going through a link in a relationship with other nodes among nodes in the neural network.
  • it may mean nodes that do not have other input nodes connected by a link.
  • the final output node may refer to one or more nodes that do not have an output node in relation to other nodes among nodes in the neural network.
  • the hidden node may mean nodes constituting the neural network other than the first input node and the last output node.
  • the neural network according to an embodiment of the present disclosure may be a neural network in which the number of nodes in the input layer may be the same as the number of nodes in the output layer, and the number of nodes decreases and then increases again as progresses from the input layer to the hidden layer.
  • the number of nodes in the input layer may be less than the number of nodes in the output layer, and the number of nodes may be reduced as the number of nodes progresses from the input layer to the hidden layer. have.
  • the neural network according to another embodiment of the present disclosure may be a neural network in which the number of nodes in the input layer may be greater than the number of nodes in the output layer, and the number of nodes increases as the number of nodes progresses from the input layer to the hidden layer.
  • the neural network according to another embodiment of the present disclosure may be a neural network in a combined form of the aforementioned neural networks.
  • a deep neural network may refer to a neural network including a plurality of hidden layers in addition to an input layer and an output layer.
  • Deep neural networks can be used to identify the latent structures of data. In other words, it can identify the potential structure of photos, texts, videos, voices, and music (e.g., what objects are in the photos, what the text and emotions are, what the texts and emotions are, etc.) .
  • Deep neural networks include convolutional neural networks (CNNs), recurrent neural networks (RNNs), auto encoders, generative adversarial networks (GANs), and restricted boltzmann machines (RBMs). machine), a deep trust network (DBN), a Q network, a U network, a Siamese network, and the like.
  • CNNs convolutional neural networks
  • RNNs recurrent neural networks
  • GANs generative adversarial networks
  • RBMs restricted boltzmann machines
  • machine a deep trust network
  • DNN deep trust network
  • Q network Q network
  • U network a Si
  • the neural network may be learned by at least one of teacher learning (supervised learning), unsupervised learning, and semi-supervised learning.
  • the training of the neural network is to minimize the error in the output.
  • iteratively input the training data into the neural network calculate the output of the neural network and the target error for the training data, and calculate the error of the neural network from the output layer of the neural network to the input layer in the direction to reduce the error. It is a process of updating the weight of each node in the neural network by backpropagation in the direction.
  • teacher learning learning data in which the correct answer is labeled in each learning data is used (ie, labeled learning data), and in the case of comparative learning, the correct answer may not be labeled in each learning data.
  • learning data in the case of teacher learning related to data classification may be data in which categories are labeled in each of the learning data.
  • the labeled training data is input to the neural network, and an error can be calculated by comparing the output (category) of the neural network with the label of the training data.
  • an error may be calculated by comparing the input training data with the neural network output.
  • the calculated error is back propagated in the reverse direction (ie, from the output layer to the input layer) in the neural network, and the connection weight of each node of each layer of the neural network may be updated according to the back propagation.
  • the change amount of the connection weight of each node to be updated may be determined according to a learning rate.
  • the computation of the neural network on the input data and the backpropagation of errors can constitute a learning cycle (epoch).
  • the learning rate may be applied differently according to the number of repetitions of the learning cycle of the neural network. For example, in the early stage of learning of a neural network, a high learning rate can be used to enable the neural network to quickly obtain a certain level of performance, thereby increasing efficiency, and using a low learning rate at a later stage of learning can increase accuracy.
  • the training data may be a subset of real data (that is, data to be processed using the trained neural network), and thus, the error on the training data is reduced, but the error on the real data is reduced.
  • Overfitting is a phenomenon in which errors on actual data increase by over-learning on training data as described above. For example, a phenomenon in which a neural network that has learned a cat by seeing a yellow cat does not recognize that it is a cat when it sees a cat other than yellow may be a type of overfitting. Overfitting can act as a cause of increasing errors in machine learning algorithms. In order to prevent such overfitting, various optimization methods can be used. In order to prevent overfitting, methods such as increasing training data, regularization, or dropout in which a part of nodes in the network are omitted in the process of learning, may be applied.
  • the data structure may include a neural network.
  • the data structure including the neural network may be stored in a computer-readable medium.
  • Data structures, including neural networks may also include data input to the neural network, weights of the neural network, hyperparameters of the neural network, data obtained from the neural network, activation functions associated with each node or layer of the neural network, and loss functions for learning the neural network.
  • a data structure comprising a neural network may include any of the components disclosed above.
  • the data structure including the neural network includes all or all of the data input to the neural network, the weights of the neural network, hyperparameters of the neural network, data obtained from the neural network, the activation function associated with each node or layer of the neural network, and the loss function for training the neural network.
  • a data structure including a neural network may include any other information that determines a characteristic of a neural network.
  • the data structure may include all types of data used or generated in the operation process of the neural network, and is not limited to the above.
  • Computer-readable media may include computer-readable recording media and/or computer-readable transmission media.
  • a neural network may be composed of a set of interconnected computational units, which may generally be referred to as nodes. These nodes may also be referred to as neurons.
  • a neural network is configured to include at least one or more nodes.
  • the data structure may include data input to the neural network.
  • a data structure including data input to the neural network may be stored in a computer-readable medium.
  • the data input to the neural network may include learning data input in a neural network learning process and/or input data input to the neural network in which learning is completed.
  • Data input to the neural network may include pre-processing data and/or pre-processing target data.
  • the preprocessing may include a data processing process for inputting data into the neural network.
  • the data structure may include data to be pre-processed and data generated by pre-processing.
  • the above-described data structure is merely an example, and the present disclosure is not limited thereto.
  • the data structure may include the weights of the neural network.
  • weight and parameter may be used interchangeably.
  • the data structure including the weight of the neural network may be stored in a computer-readable medium.
  • the neural network may include a plurality of weights.
  • the weight may be variable, and may be changed by a user or an algorithm in order for the neural network to perform a desired function. For example, when one or more input nodes are interconnected to one output node by respective links, the output node sets values input to input nodes connected to the output node and links corresponding to the respective input nodes. An output node value may be determined based on the parameter.
  • the above-described data structure is merely an example, and the present disclosure is not limited thereto.
  • the weight may include a weight variable in a neural network learning process and/or a weight in which neural network learning is completed.
  • the variable weight in the neural network learning process may include a weight at a time point at which a learning cycle starts and/or a weight variable during the learning cycle.
  • the weight for which neural network learning is completed may include a weight for which a learning cycle is completed.
  • the data structure including the weights of the neural network may include a data structure including the weights that vary in the neural network learning process and/or the weights on which the neural network learning is completed. Therefore, it is assumed that the above-described weights and/or combinations of weights are included in the data structure including the weights of the neural network.
  • the above-described data structure is merely an example, and the present disclosure is not limited thereto.
  • the data structure including the weights of the neural network may be stored in a computer-readable storage medium (eg, memory, hard disk) after being serialized.
  • Serialization can be the process of converting a data structure into a form that can be reconstructed and used later by storing it on the same or a different computing device.
  • the computing device may serialize the data structure to send and receive data over the network.
  • a data structure including weights of the serialized neural network may be reconstructed in the same computing device or in another computing device through deserialization.
  • the data structure including the weight of the neural network is not limited to serialization.
  • the data structure including the weights of the neural network is a data structure to increase computational efficiency while using the resources of the computing device to a minimum (e.g., B-Tree, Trie, m-way search tree, AVL tree, Red-Black Tree).
  • a minimum e.g., B-Tree, Trie, m-way search tree, AVL tree, Red-Black Tree.
  • the data structure may include hyper-parameters of the neural network.
  • the data structure including the hyperparameters of the neural network may be stored in a computer-readable medium.
  • the hyper parameter may be a variable variable by a user.
  • Hyperparameters are, for example, learning rate, cost function, number of iterations of the learning cycle, weight initialization (e.g., setting the range of weight values to be initialized for weights), Hidden Unit The number (eg, the number of hidden layers, the number of nodes of the hidden layer) may be included.
  • the above-described data structure is merely an example, and the present disclosure is not limited thereto.
  • Steps of a method or algorithm described in relation to an embodiment of the present disclosure may be implemented directly in hardware, as a software module executed by hardware, or by a combination thereof.
  • a software module may contain random access memory (RAM), read only memory (ROM), erasable programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), flash memory, hard disk, removable disk, CD-ROM, or It may reside in any type of computer-readable recording medium well known in the art to which the present disclosure pertains.
  • Components of the present disclosure may be implemented as a program (or application) to be executed in combination with a computer, which is hardware, and stored in a medium.
  • Components of the present disclosure may be implemented as software programming or software components, and similarly, embodiments may include various algorithms implemented as data structures, processes, routines, or combinations of other programming constructs, including C, C++ , may be implemented in a programming or scripting language such as Java, assembler, or the like. Functional aspects may be implemented in an algorithm running on one or more processors.
  • the various embodiments presented herein may be implemented as methods, apparatus, or articles of manufacture using standard programming and/or engineering techniques.
  • article of manufacture includes a computer program, carrier, or media accessible from any computer-readable device.
  • computer-readable media include magnetic storage devices (eg, hard disks, floppy disks, magnetic strips, etc.), optical disks (eg, CDs, DVDs, etc.), smart cards, and flash memory. devices (eg, EEPROMs, cards, sticks, key drives, etc.).
  • various storage media presented herein include one or more devices and/or other machine-readable media for storing information.
  • machine-readable medium includes, but is not limited to, wireless channels and various other media that can store, hold, and/or convey instruction(s) and/or data.
  • the present invention can be utilized in the field of visual information-based reference search technology using artificial intelligence.

Abstract

Disclosed in an embodiment is a method for assisting artificial intelligence reading using a visual information-based reference search technology, performed by one or more processors of a computing apparatus. The method may comprise the steps of: acquiring an inspection image including one or more objects; performing classification on the objects by using a pre-trained classification model; performing a search for one or more similar images for the objects by using a pre-trained search model, according to the result of the classification on the objects; and providing the result of the search for the similar images.

Description

시각정보 기반 참조 검색 기술을 이용한 인공지능 판독 보조방법Artificial intelligence reading assistance method using visual information-based reference search technology
본 개시는 시각정보 기반 참조 검색 기술을 이용한 인공지능 판독 보조방법, 장치 및 컴퓨터 프로그램에 관한 것이다. The present disclosure relates to an artificial intelligence reading assistance method, apparatus, and computer program using visual information-based reference search technology.
최근 4차 산업혁명의 패러다임 변화 속에서 새로운 시대를 이끄는 핵심 동인으로 인공지능이 세간의 주목을 받고 있다. 인공지능은 인지, 학습, 추론, 판단 등 인간사고 과정의 절반을 알고리즘 설계로 구현하는 SW기술로서, 특정 산업에 한정하기 않고 전 산업 영역에 걸쳐 생산성을 획기적으로 개선하는 범용기술의 특징을 가진다. 특히 의료 분야는 ICT 융합 의료기기의 증가로 인해 대규모 의료용 빅데이터의 확보가 용이해짐에 따라, 이러한 빅데이터를 활용한 AI 기반 비즈니스가 점차 확산되고 있는 추세이다. 이러한 인공지능은, 의료 분야에서 진단 보조로 활용되어 진단 또는 판독의 효율을 극대화시키는데 기여하고 있다.In the recent paradigm shift of the 4th industrial revolution, artificial intelligence is attracting attention as a key driver leading a new era. Artificial intelligence is a software technology that implements half of the human thinking process, such as cognition, learning, reasoning, and judgment, with algorithm design. In particular, in the medical field, as it becomes easier to secure large-scale medical big data due to the increase of ICT convergence medical devices, AI-based business using such big data is gradually spreading. Such artificial intelligence is used as a diagnostic aid in the medical field, contributing to maximizing the efficiency of diagnosis or reading.
구체적인 예를 들어, 환자의 유병 여부를 진단하는 방법으로는, 환자의 몸에서 탈락 세포를 채취하여 검사하는 방식이 있다. 환자로부터 탈락 세포의 샘플을 채집하여 파파니콜라 염색 및 슬라이드 봉입 과정을 거쳐 슬라이드를 제작하고, 이들 슬라이드를 스크리너(세포 병리기사, cytotechnologist)가 광학 현미경을 통해 1차로 검경한다. 1차 검경 결과에서 비정상 소견이 나온 슬라이드는 병리전문의가 2차로 판독하여 병변 여부에 관한 진단을 확정하는 방식이다.As a specific example, as a method of diagnosing whether a patient has the disease, there is a method of collecting and testing decidual cells from the patient's body. A sample of decidual cells is collected from a patient, and slides are made through Papanicolat staining and slide encapsulation. Slides with abnormal findings in the primary speculum results are read by a pathologist secondary to confirm the diagnosis regarding lesions.
그런데, 다수의 슬라이드를 스크리너가 일일이 수작업으로 검경하는 방식은 굉장히 오랜 시간이 소요된다. 더구나 자격을 갖춘 스크리너의 수가 상당히 적기 때문에 숙련된 병리기사의 숫자가 부족하다는 인적 한계도 존재한다.However, it takes a very long time for the screener to manually inspect multiple slides one by one. Moreover, there is a human limitation that the number of skilled pathologists is insufficient because the number of qualified screeners is quite small.
또한, 병리기사가 자신의 경험과 실력에 의존하여 검경하고 있기 때문에 해당 병리기사의 인간적인 한계로, 검경 당시의 컨디션에 따라서는 휴먼 에러가 발생할 수 있다. 이러한 문제를 해결하기 위해 1차 검경결과를 모아서 임의의 표본을 리뷰하는 방식으로 오류를 줄이고자 하는 현장의 시도가 있었으나, 문제의 원인을 구조적으로 해결하지는 못한다. 이와 관련하여 대한민국 공개특허 특2002-0084787은 자궁 경부 촬영 정보를 통한 진단을 수행하는 자궁경부암 진단 시스템 및 방법, 그에 적합한 자궁경부암촬영 단말기를 개시하고 있다. In addition, since the pathologist depends on his/her own experience and ability to perform a speculum, human error may occur depending on the condition at the time of the speculative due to the human limitations of the pathologist. In order to solve this problem, there have been attempts in the field to reduce errors by collecting the results of the primary speculum and reviewing random samples, but the cause of the problem cannot be solved structurally. In this regard, Korean Patent Laid-Open Patent Publication No. 2002-0084787 discloses a cervical cancer diagnosis system and method for performing diagnosis through cervical imaging information, and a cervical cancer imaging terminal suitable therefor.
이러한 현장에서 발생하는 문제의 배경에서, 다수의 슬라이드를 일관되고 신뢰성 있게 검경하여 진단결과를 제공할 수 있는 전자화된 수단의 필요가 대두되게 되었다.In the background of these problems occurring in the field, there is a need for an electronic means capable of providing diagnostic results by consistently and reliably examining multiple slides.
이에, 컴퓨터비전 기술을 이용하여 세포영역검출 및 분류 등을 수행하는 임상의사결정 지원 또는 보조 진단 시스템은, 의료 영상 자동 분석에 있어서 필수적인 역할을 수행하고 있다. Accordingly, a clinical decision support or auxiliary diagnosis system that detects and classifies a cell region using computer vision technology plays an essential role in automatic medical image analysis.
본 개시가 해결하고자 하는 과제는 상술한 문제점을 해결하기 위한 것으로서, 시각정보 기반 참조 검색 기술을 이용한 인공지능 판독 보조방법을 수행하는 컴퓨팅 장치를 제공하기 위함이다.An object of the present disclosure is to solve the above problems, and to provide a computing device that performs an AI reading assistance method using a visual information-based reference search technology.
본 개시가 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The problems to be solved by the present disclosure are not limited to the problems mentioned above, and other problems not mentioned will be clearly understood by those skilled in the art from the following description.
상술한 과제를 해결하기 위한 본 개시의 다양한 실시예에 따른 컴퓨팅 장치의 하나 이상의 프로세서에서 수행되는 시각정보 기반 참조 검색 기술을 이용한 인공지능 판독 보조 방법이 개시된다. 상기 방법은, 하나 이상의 객체를 포함하는 검사 이미지를 획득하는 단계, 기 학습된 분류 모델을 이용하여, 상기 객체에 대한 분류를 수행하는 단계, 상기 객체에 대한 분류 결과에 따라, 기 학습된 검색 모델을 이용하여 상기 객체에 대한 하나 이상의 유사 이미지 검색을 수행하는 단계 및 유사 이미지 검색결과를 제공하는 단계를 포함할 수 있다. Disclosed is an artificial intelligence reading assistance method using a visual information-based reference search technology performed in one or more processors of a computing device according to various embodiments of the present disclosure for solving the above problems. The method includes: obtaining an inspection image including one or more objects; performing classification on the object by using a previously learned classification model; It may include performing a search for one or more similar images for the object using .
대안적인 실시예에 따르면, 상기 유사 이미지 검색을 수행하는 단계는, 이미지에 포함된 콘텐츠 정보에 기반하여 특징을 추출하는 제1 모델을 이용하여 상기 객체의 시각적 특징을 획득하는 단계, 이미지에 대응하는 특정 속성을 산출하는 제2 모델을 이용하여 상기 객체에 대응하는 속성정보를 획득하는 단계, 상기 객체의 시각적 특징 및 상기 객체의 속성정보를 이용하여 상기 객체에 대한 특징정보를 획득하는 단계 및 상기 객체의 특징정보를 이용하여 상기 객체에 대응하는 유사 이미지를 검색하는 단계를 포함할 수 있다. According to an alternative embodiment, the performing of the similar image search may include: obtaining a visual feature of the object using a first model for extracting features based on content information included in the image; Obtaining attribute information corresponding to the object by using a second model for calculating a specific attribute, acquiring characteristic information about the object using visual characteristics of the object and attribute information of the object, and the object It may include searching for a similar image corresponding to the object by using the characteristic information of the.
대안적인 실시예에 따르면, 상기 제2 모델은, 이미지에 대응하는 특정 이벤트의 확률정보를 산출하는 모델이고, 상기 속성정보를 획득하는 단계는, 상기 제2 모델을 이용하여 상기 객체에 대응하는 확률값을 획득하는 단계를 포함할 수 있다. According to an alternative embodiment, the second model is a model for calculating probability information of a specific event corresponding to an image, and the obtaining of the attribute information includes a probability value corresponding to the object using the second model. may include the step of obtaining
대안적인 실시예에 따르면, 상기 검색 모델은, 프록시 기반 메트릭 학습 기반의 신경망 모델로, 목표 대상 벡터와 포지티브 프록시(positive proxy) 간의 유사도를 높이고, 상기 목표 대상 벡터와 네거티브 프록시(negative proxy) 간의 유사도를 낮추는 방향으로 학습되는 것을 특징으로 하며, 상기 프록시는, 상기 객체와 이미지데이터 베이스에 기 저장된 이미지들 간 유사도를 비교하기 위한 임베딩 벡터들의 대표성을 나타내는 벡터일 수 있다. According to an alternative embodiment, the search model is a neural network model based on proxy-based metric learning, and increases the similarity between the target vector and the positive proxy, and the similarity between the target vector and the negative proxy. It is characterized in that it is learned in a direction to decrease , and the proxy may be a vector representing representativeness of embedding vectors for comparing the similarity between the object and images pre-stored in an image database.
대안적인 실시예에 따르면, 복수의 이미지 데이터 및 각 이미지 데이터에 대한 검진 정보에 기초하여 분류 모델을 학습시키기 위한 학습 데이터 세트를 구축하는 단계를 더 포함하며, 상기 학습 데이터 세트를 구축하는 단계는, 상기 각 이미지 데이터에 대한 검진 정보를 사전 결정된 하나 이상의 카테고리로 분류하는 단계, 상기 복수의 이미지 데이터에 기초하여 학습 입력 데이터 세트를 생성하고, 상기 각 이미지 데이터에 대응하는 하나 이상의 카테고리에 기초하여 학습 출력 데이터 세트를 생성하는 단계 및 상기 학습 입력 데이터 세트 각각에 대응하는 학습 출력 데이터 세트를 매칭하여 라벨링하는 단계를 포함할 수 있다. According to an alternative embodiment, the method further comprises: constructing a training data set for learning a classification model based on a plurality of image data and examination information for each image data, wherein the constructing of the training data set comprises: classifying the examination information for each image data into one or more predetermined categories; generating a learning input data set based on the plurality of image data; and learning output based on one or more categories corresponding to the respective image data. It may include generating a data set and matching and labeling a training output data set corresponding to each of the training input data sets.
대안적인 실시예에 따르면, 상기 유사 이미지 검색결과를 제공하는 단계는, 상기 객체와 유사도가 높은 이미지를 선별하여 제공하는 단계 및 상기 객체와 유사도가 높지만, 상기 객체와 상이한 카테고리로 분류된 이미지를 선별하여 제공하는 단계를 포함할 수 있다. According to an alternative embodiment, the providing of the similar image search result may include selecting and providing an image having a high similarity to the object, and selecting an image having a high similarity to the object but classified into a different category from the object It may include the step of providing.
대안적인 실시예에 따르면, 상기 검사 이미지는, 복수의 세포 이미지를 포함하고, 상기 분류를 수행하는 단계는, 상기 복수의 세포 이미지 각각을 하나 이상의 카테고리로 분류하는 단계 및 상기 복수의 세포 이미지 각각에 대한 분류 결과에 기초하여 상기 검사 이미지에 대응하는 진단 정보를 생성하는 단계; 를 포함하고, 상기 유사 이미지 검색을 수행하는 단계는, 상기 복수의 세포 이미지 중 적어도 일부에 대한 유사 이미지 검색을 수행하는 단계를 포함할 수 있다. According to an alternative embodiment, the examination image includes a plurality of cell images, and performing the classification includes: classifying each of the plurality of cell images into one or more categories; generating diagnostic information corresponding to the examination image based on the classification result; and performing the similar image search may include performing a similar image search for at least some of the plurality of cell images.
대안적인 실시예에 따르면, 상기 하나 이상의 카테고리는, 정상(negative) 상태, 저위험(low risk) 상태 및 고위험(high risk) 상태 중 적어도 하나를 포함할 수 있다. According to an alternative embodiment, the one or more categories may include at least one of a negative state, a low risk state, and a high risk state.
대안적인 실시예에 따르면, 상기 복수의 세포 이미지 각각에 대한 분류 결과에 기초하여 상기 검사 이미지에 대응하는 진단 정보를 생성하는 단계는, 상기 하나 이상의 카테고리 각각으로 분류된 세포 이미지의 수에 기초하여 상기 진단 정보를 생성하는 단계를 포함하고, 상기 하나 이상의 카테고리 각각은, 서로 상이한 가중치가 부여된 것을 특징으로 할 수 있다.According to an alternative embodiment, the generating of the diagnostic information corresponding to the examination image based on the classification result for each of the plurality of cell images may include: based on the number of cell images classified into each of the one or more categories and generating diagnostic information. Each of the one or more categories may be characterized in that different weights are assigned to each other.
대안적인 실시예에 따르면, 상기 진단 정보를 생성하는 단계는, 검색된 유사 이미지 각각에 매칭된 검진 결과 정보에 기초하여 상기 진단 정보를 업데이트하는 단계를 포함할 수 있다.According to an alternative embodiment, the generating of the diagnostic information may include updating the diagnostic information based on examination result information matched to each of the found similar images.
본 개시의 다른 실시예에 따르면, 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램이 개시된다. 상기 컴퓨터 프로그램은, 하나 이상의 프로세서들에 의해 실행되는 경우, 상기 하나 이상의 프로세스들로 하여금 시각정보 기반 참조 검색 기술을 이용한 인공지능 판독 보조방법을 수행하기 위한 이하의 동작들을 수행하도록 하며, 상기 동작들은: 하나 이상의 객체를 포함하는 검사 이미지를 획득하는 동작, 기 학습된 분류 모델을 이용하여 상기 객체에 대한 분류를 수행하는 동작, 상기 객체에 대한 분류 결과에 따라, 기 학습된 검색 모델을 이용하여 상기 객체에 대한 하나 이상의 유사 이미지 검색을 수행하는 동작 및 상기 유사 이미지 검색결과를 제공하는 동작을 포함할 수 있다. According to another embodiment of the present disclosure, a computer program stored in a computer-readable storage medium is disclosed. The computer program, when executed by one or more processors, causes the one or more processes to perform the following operations for performing an artificial intelligence reading assistance method using a visual information-based reference search technology, the operations comprising: : Acquiring an inspection image including one or more objects, performing classification on the object using a pre-learned classification model, and using a pre-learned search model according to the classification result for the object It may include an operation of performing one or more similar image searches for an object and an operation of providing the similar image search result.
본 개시의 또 다른 실시예에 따르면, 시각정보 기반 참조 검색 기술을 이용한 인공지능 판독 보조방법을 수행하기 위한 컴퓨팅 장치가 개시된다. 상기 컴퓨팅 장치는, 하나 이상의 코어를 포함하는 프로세서, 상기 프로세서에서 실행가능한 프로그램 코드들을 저장하는 메모리 및 사용자 단말과 데이터를 송수신하는 네트워크부를 포함하고, 상기 프로세서는, 하나 이상의 객체를 포함하는 검사 이미지를 획득하고, 기 학습된 분류 모델을 이용하여 상기 객체에 대한 분류를 수행하고, 상기 객체에 대한 분류 결과에 따라, 기 학습된 검색 모델을 이용하여 상기 객체에 대한 하나 이상의 유사 이미지 검색을 수행하고, 그리고 상기 유사 이미지 검색결과를 제공할 수 있다. According to another embodiment of the present disclosure, a computing device for performing an artificial intelligence reading assistance method using a visual information-based reference search technology is disclosed. The computing device includes a processor including one or more cores, a memory for storing program codes executable in the processor, and a network unit for transmitting and receiving data to and from a user terminal, wherein the processor receives an inspection image including one or more objects obtained, classifying the object using a pre-learned classification model, and performing one or more similar image searches for the object using the pre-learned search model according to the classification result for the object, In addition, the similar image search result may be provided.
본 개시의 다양한 실시예에 따르면, 병리 전문가가 부족한 환경에서도 인공지능 모델을 활용한 이미지 검색 및 분석을 통해 다양한 병리증상 진단을 가능하게 하는 효과가 있다. According to various embodiments of the present disclosure, there is an effect of enabling diagnosis of various pathological symptoms through image search and analysis using an artificial intelligence model even in an environment in which pathologists are scarce.
또한, 진단 과정에서 발생할 수 있는 휴먼 에러를 방지하며, 일관된 정확도를 갖는 진단방법을 제공할 수 있는 효과가 있다.In addition, it is possible to prevent human errors that may occur during the diagnosis process and to provide a diagnosis method with consistent accuracy.
또한, 이미지에 대한 AI 판독 결과 및 이미지 데이터베이스에 저장된 판독소견(의무기록)을 함께 고려함으로써, 의사 간 진단 불일치가 많이 나타나는 모달리티와 판독명에 대해서도 향상된 신뢰도 담보하는 효과가 있다. In addition, by considering the AI reading result of the image and the reading opinion (medical record) stored in the image database, there is an effect of guaranteeing improved reliability even for modalities and reading names where there are many diagnostic discrepancies between doctors.
본 개시의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.Effects of the present disclosure are not limited to the effects mentioned above, and other effects not mentioned will be clearly understood by those skilled in the art from the following description.
다양한 양상들이 이제 도면들을 참조로 기재되며, 여기서 유사한 참조 번호들은 총괄적으로 유사한 구성요소들을 지칭하는데 이용된다. 이하의 실시예에서, 설명 목적을 위해, 다수의 특정 세부사항들이 하나 이상의 양상들의 총체적 이해를 제공하기 위해 제시된다. 그러나, 그러한 양상(들)이 이러한 구체적인 세부사항들 없이 실시될 수 있음은 명백할 것이다.Various aspects are now described with reference to the drawings, wherein like reference numbers are used to refer to like elements collectively. In the following example, for purposes of explanation, numerous specific details are set forth in order to provide a thorough understanding of one or more aspects. It will be evident, however, that such aspect(s) may be practiced without these specific details.
도 1은 본 개시의 일 실시예와 관련된 시각정보 기반 참조 검색 기술을 이용한 인공지능 판독 보조방법을 수행하기 위한 컴퓨팅 장치의 다양한 양태가 구현될 수 있는 시스템을 나타낸 개념도를 도시한다.1 is a conceptual diagram illustrating a system in which various aspects of a computing device for performing an artificial intelligence reading assistance method using a visual information-based reference search technology related to an embodiment of the present disclosure can be implemented.
도 2는 본 개시의 일 실시예와 관련한 시각정보 기반 참조 검색 기술을 이용한 인공지능 판독 보조방법을 수행하기 위한 컴퓨팅 장치의 블록 구성도를 도시한다.2 is a block diagram of a computing device for performing an AI reading assistance method using a visual information-based reference search technology according to an embodiment of the present disclosure.
도 3는 본 개시의 일 실시예와 관련된 하나 이상의 유사 이미지 검색 과정을 설명하기 위한 예시도를 도시한다. 3 illustrates an exemplary diagram for explaining one or more similar image search processes related to an embodiment of the present disclosure.
도 4는 본 개시의 다른 실시예와 관련된 하나 이상의 유사 이미지 검색 과정을 설명하기 위한 예시도를 도시한다.4 illustrates an exemplary diagram for explaining one or more similar image search processes related to another embodiment of the present disclosure.
도 5은 본 개시의 또 다른 실시예와 관련된 하나 이상의 유사 이미지 검색 과정을 설명하기 위한 예시도를 도시한다. 5 is an exemplary diagram for explaining one or more similar image search processes related to another embodiment of the present disclosure.
도 6은 본 개시의 일 실시예와 관련된 검사 이미지에 대응하여 하나 이상의 유사 이미지를 제공하는 과정을 설명하기 위한 예시적인 예시도이다.6 is an exemplary diagram for explaining a process of providing one or more similar images in response to an examination image related to an embodiment of the present disclosure.
도 7은 본 개시의 일 실시예와 관련된 시각정보 기반 참조 검색 기술을 이용한 인공지능 판독 보조방법을 수행하기 위한 단계들을 예시적으로 도시한 순서도이다.7 is a flowchart exemplarily illustrating steps for performing an AI reading assistance method using a visual information-based reference search technology related to an embodiment of the present disclosure.
도 8은 본 개시의 일 실시예와 관련된 하나 이상의 네트워크 함수를 나타낸 개략도이다.8 is a schematic diagram illustrating one or more network functions related to an embodiment of the present disclosure.
다양한 실시예들이 이제 도면을 참조하여 설명된다. 본 명세서에서, 다양한 설명들이 본 개시의 이해를 제공하기 위해서 제시된다. 그러나, 이러한 실시예들은 이러한 구체적인 설명 없이도 실행될 수 있음이 명백하다.Various embodiments are now described with reference to the drawings. In this specification, various descriptions are presented to provide an understanding of the present disclosure. However, it is apparent that these embodiments may be practiced without these specific descriptions.
본 명세서에서 사용되는 용어 "컴포넌트", "모듈", "시스템" 등은 컴퓨터-관련 엔티티, 하드웨어, 펌웨어, 소프트웨어, 소프트웨어 및 하드웨어의 조합, 또는 소프트웨어의 실행을 지칭한다. 예를 들어, 컴포넌트는 프로세서상에서 실행되는 처리과정(procedure), 프로세서, 객체, 실행 스레드, 프로그램, 및/또는 컴퓨터일 수 있지만, 이들로 제한되는 것은 아니다. 예를 들어, 컴퓨팅 장치에서 실행되는 애플리케이션 및 컴퓨팅 장치 모두 컴포넌트일 수 있다. 하나 이상의 컴포넌트는 프로세서 및/또는 실행 스레드 내에 상주할 수 있다. 일 컴포넌트는 하나의 컴퓨터 내에 로컬화 될 수 있다. 일 컴포넌트는 2개 이상의 컴퓨터들 사이에 분배될 수 있다. 또한, 이러한 컴포넌트들은 그 내부에 저장된 다양한 데이터 구조들을 갖는 다양한 컴퓨터 판독가능한 매체로부터 실행할 수 있다. 컴포넌트들은 예를 들어 하나 이상의 데이터 패킷들을 갖는 신호(예를 들면, 로컬 시스템, 분산 시스템에서 다른 컴포넌트와 상호작용하는 하나의 컴포넌트로부터의 데이터 및/또는 신호를 통해 다른 시스템과 인터넷과 같은 네트워크를 통해 전송되는 데이터)에 따라 로컬 및/또는 원격 처리들을 통해 통신할 수 있다.The terms “component,” “module,” “system,” and the like, as used herein, refer to a computer-related entity, hardware, firmware, software, a combination of software and hardware, or execution of software. For example, a component can be, but is not limited to being, a process running on a processor, a processor, an object, a thread of execution, a program, and/or a computer. For example, both an application running on a computing device and the computing device may be a component. One or more components may reside within a processor and/or thread of execution. A component may be localized within one computer. A component may be distributed between two or more computers. In addition, these components can execute from various computer readable media having various data structures stored therein. Components may communicate via a network such as the Internet with another system, for example, via a signal having one or more data packets (eg, data and/or signals from one component interacting with another component in a local system, distributed system, etc.) may communicate via local and/or remote processes depending on the data being transmitted).
더불어, 용어 "또는"은 배타적 "또는"이 아니라 내포적 "또는"을 의미하는 것으로 의도된다. 즉, 달리 특정되지 않거나 문맥상 명확하지 않은 경우에, "X는 A 또는 B를 이용한다"는 자연적인 내포적 치환 중 하나를 의미하는 것으로 의도된다. 즉, X가 A를 이용하거나; X가 B를 이용하거나; 또는 X가 A 및 B 모두를 이용하는 경우, "X는 A 또는 B를 이용한다"가 이들 경우들 어느 것으로도 적용될 수 있다. 또한, 본 명세서에 사용된 "및/또는"이라는 용어는 열거된 관련 아이템들 중 하나 이상의 아이템의 가능한 모든 조합을 지칭하고 포함하는 것으로 이해되어야 한다.In addition, the term “or” is intended to mean an inclusive “or” rather than an exclusive “or.” That is, unless otherwise specified or clear from context, "X employs A or B" is intended to mean one of the natural implicit substitutions. That is, X employs A; X employs B; or when X employs both A and B, "X employs A or B" may apply to either of these cases. It should also be understood that the term “and/or” as used herein refers to and includes all possible combinations of one or more of the listed related items.
또한, "포함한다" 및/또는 "포함하는"이라는 용어는, 해당 특징 및/또는 구성요소가 존재함을 의미하는 것으로 이해되어야 한다. 다만, "포함한다" 및/또는 "포함하는"이라는 용어는, 하나 이상의 다른 특징, 구성요소 및/또는 이들의 그룹의 존재 또는 추가를 배제하지 않는 것으로 이해되어야 한다. 또한, 달리 특정되지 않거나 단수 형태를 지시하는 것으로 문맥상 명확하지 않은 경우에, 본 명세서와 청구범위에서 단수는 일반적으로 "하나 또는 그 이상"을 의미하는 것으로 해석되어야 한다.Also, the terms "comprises" and/or "comprising" should be understood to mean that the feature and/or element in question is present. However, it should be understood that the terms "comprises" and/or "comprising" do not exclude the presence or addition of one or more other features, elements and/or groups thereof. Also, unless otherwise specified or unless it is clear from context to refer to a singular form, the singular in the specification and claims should generally be construed to mean “one or more”.
당업자들은 추가적으로 여기서 개시된 실시예들과 관련되어 설명된 다양한 예시적 논리적 블록들, 구성들, 모듈들, 회로들, 수단들, 로직들, 및 알고리즘 단계들이 전자 하드웨어, 컴퓨터 소프트웨어, 또는 양쪽 모두의 조합들로 구현될 수 있음을 인식해야 한다. 하드웨어 및 소프트웨어의 상호교환성을 명백하게 예시하기 위해, 다양한 예시적 컴포넌트들, 블록들, 구성들, 수단들, 로직들, 모듈들, 회로들, 및 단계들은 그들의 기능성 측면에서 일반적으로 위에서 설명되었다. 그러한 기능성이 하드웨어로 또는 소프트웨어로서 구현되는지 여부는 전반적인 시스템에 부과된 특정 어플리케이션(application) 및 설계 제한들에 달려 있다. 숙련된 기술자들은 각각의 특정 어플리케이션들을 위해 다양한 방법들로 설명된 기능성을 구현할 수 있다. 다만, 그러한 구현의 결정들이 본 개시내용의 영역을 벗어나게 하는 것으로 해석되어서는 안된다.Those skilled in the art will further appreciate that the various illustrative logical blocks, configurations, modules, circuits, means, logics, and algorithm steps described in connection with the embodiments disclosed herein may be implemented in electronic hardware, computer software, or combinations of both. It should be recognized that they can be implemented with To clearly illustrate this interchangeability of hardware and software, various illustrative components, blocks, configurations, means, logics, modules, circuits, and steps have been described above generally in terms of their functionality. Whether such functionality is implemented as hardware or software depends upon the particular application and design constraints imposed on the overall system. Skilled artisans may implement the described functionality in varying ways for each particular application. However, such implementation decisions should not be interpreted as causing a departure from the scope of the present disclosure.
제시된 실시예들에 대한 설명은 본 개시의 기술 분야에서 통상의 지식을 가진 자가 본 개시를 이용하거나 또는 실시할 수 있도록 제공된다. 이러한 실시예들에 대한 다양한 변형들은 본 개시의 기술 분야에서 통상의 지식을 가진 자에게 명백할 것이다. 여기에 정의된 일반적인 원리들은 본 개시의 범위를 벗어남이 없이 다른 실시예들에 적용될 수 있다. 그리하여, 본 개시는 여기에 제시된 실시예들로 한정되는 것이 아니다. 본 개시는 여기에 제시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위에서 해석되어야 할 것이다.Descriptions of the presented embodiments are provided to enable those of ordinary skill in the art to use or practice the present disclosure. Various modifications to these embodiments will be apparent to those skilled in the art of the present disclosure. The generic principles defined herein may be applied to other embodiments without departing from the scope of the present disclosure. Thus, the present disclosure is not limited to the embodiments presented herein. This disclosure is to be interpreted in the widest scope consistent with the principles and novel features presented herein.
본 명세서에서, 컴퓨터는 적어도 하나의 프로세서를 포함하는 모든 종류의 하드웨어 장치를 의미하는 것이고, 실시 예에 따라 해당 하드웨어 장치에서 동작하는 소프트웨어적 구성도 포괄하는 의미로서 이해될 수 있다. 예를 들어, 컴퓨터는 스마트폰, 태블릿 PC, 데스크톱, 노트북 및 각 장치에서 구동되는 사용자 클라이언트 및 애플리케이션을 모두 포함하는 의미로서 이해될 수 있으며, 또한 이에 제한되는 것은 아니다.In this specification, a computer refers to all types of hardware devices including at least one processor, and may be understood as encompassing software configurations operating in the corresponding hardware device according to embodiments. For example, a computer may be understood to include, but is not limited to, smart phones, tablet PCs, desktops, notebooks, and user clients and applications running on each device.
이하, 첨부된 도면을 참조하여 본 개시의 실시예를 상세하게 설명한다.Hereinafter, embodiments of the present disclosure will be described in detail with reference to the accompanying drawings.
본 명세서에서 설명되는 각 단계들은 컴퓨터에 의하여 수행되는 것으로 설명되나, 각 단계의 주체는 이에 제한되는 것은 아니며, 실시 예에 따라 각 단계들의 적어도 일부가 서로 다른 장치에서 수행될 수도 있다.Each step described in this specification is described as being performed by a computer, but the subject of each step is not limited thereto, and at least a portion of each step may be performed in different devices according to embodiments.
도 1은 본 개시의 일 실시예와 관련된 시각정보 기반 참조 검색 기술을 이용한 인공지능 판독보조 방법을 수행하기 위한 컴퓨팅 장치의 다양한 양태가 구현될 수 있는 시스템을 나타낸 개념도를 도시한다.1 is a conceptual diagram illustrating a system in which various aspects of a computing device for performing an artificial intelligence reading assistance method using a visual information-based reference search technology related to an embodiment of the present disclosure can be implemented.
본 개시의 실시예들에 따른 시스템은, 컴퓨팅 장치(100), 사용자 단말(10), 외부 서버(20) 및 네트워크를 포함할 수 있다. 도 1에서 도시되는 컴포넌트들은 예시적인 것으로서, 추가적인 컴포넌트들이 존재하거나 또는 도 1에서 도시되는 컴포넌트들 중 일부는 생략될 수 있다. 본 개시의 실시예들에 따른 컴퓨팅 장치(100), 사용자 단말(10) 및 외부 서버(20)는 네트워크를 통해, 본 개시의 일 실시예들에 따른 시스템을 위한 데이터를 상호 송수신할 수 있다.A system according to embodiments of the present disclosure may include a computing device 100 , a user terminal 10 , an external server 20 , and a network. The components illustrated in FIG. 1 are exemplary, and additional components may be present or some of the components illustrated in FIG. 1 may be omitted. The computing device 100 , the user terminal 10 and the external server 20 according to embodiments of the present disclosure may mutually transmit/receive data for the system according to embodiments of the present disclosure through a network.
본 개시의 실시예들에 따른 네트워크는 공중전화 교환망(PSTN: Public Switched Telephone Network), xDSL(x Digital Subscriber Line), RADSL(Rate Adaptive DSL), MDSL(Multi Rate DSL), VDSL(Very High Speed DSL), UADSL(Universal Asymmetric DSL), HDSL(High Bit Rate DSL) 및 근거리 통신망(LAN) 등과 같은 다양한 유선 통신 시스템들을 사용할 수 있다.Networks according to embodiments of the present disclosure include Public Switched Telephone Network (PSTN), x Digital Subscriber Line (xDSL), Rate Adaptive DSL (RADSL), Multi Rate DSL (MDSL), Very High Speed DSL (VDSL). ), a variety of wired communication systems such as Universal Asymmetric DSL (UADSL), High Bit Rate DSL (HDSL), and Local Area Network (LAN) can be used.
또한, 여기서 제시되는 네트워크는 CDMA(Code Division Multi Access), TDMA(Time Division Multi Access), FDMA(Frequency Division Multi Access), OFDMA(Orthogonal Frequency Division Multi Access), SC-FDMA(Single Carrier-FDMA) 및 다른 시스템들과 같은 다양한 무선 통신 시스템들을 사용할 수 있다.In addition, the networks presented herein include Code Division Multi Access (CDMA), Time Division Multi Access (TDMA), Frequency Division Multi Access (FDMA), Orthogonal Frequency Division Multi Access (OFDMA), Single Carrier-FDMA (SC-FDMA) and Various wireless communication systems may be used, such as other systems.
본 개시의 실시예들에 따른 네트워크는 유선 및 무선 등과 같은 그 통신 양태를 가리지 않고 구성될 수 있으며, 단거리 통신망(PAN: Personal Area Network), 근거리 통신망(WAN: Wide Area Network) 등 다양한 통신망으로 구성될 수 있다. 또한, 상기 네트워크는 공지의 월드와이드웹(WWW: World Wide Web)일 수 있으며, 적외선(IrDA: Infrared Data Association) 또는 블루투스(Bluetooth)와 같이 단거리 통신에 이용되는 무선 전송 기술을 이용할 수도 있다. 본 명세서에서 설명된 기술들은 위에서 언급된 네트워크들뿐만 아니라, 다른 네트워크들에서도 사용될 수 있다.The network according to the embodiments of the present disclosure may be configured regardless of its communication mode, such as wired and wireless, and is composed of various communication networks such as a personal area network (PAN) and a wide area network (WAN). can be In addition, the network may be a well-known World Wide Web (WWW), and may use a wireless transmission technology used for short-range communication, such as infrared (IrDA) or Bluetooth (Bluetooth). The techniques described herein may be used in the networks mentioned above, as well as in other networks.
본 개시의 일 실시예에 따르면, 사용자 단말(10)은 컴퓨팅 장치(100)에 엑세스하여 하나 이상의 객체를 포함하는 검사 이미지에 관련한 하나 이상의 유사 이미지 및 각 유사 이미지에 대응하는 진단 정보를 획득하고자 하는 사용자와 관련된 단말일 수 있다. 이 경우, 검사 이미지는 의학적인 진단을 위해 검진자로부터 획득되는 의료 관련 이미지 데이터를 의미할 수 있으며, 진단 정보는 해당 검사 이미지를 통해 전문의가 판독한 의료 진단 정보를 의미할 수 있다. 구체적인 예를 들어, 진단 정보는, 자궁경부암 발병에 관련한 예측 정보를 포함할 수 있으며, 검사 이미지는, 자궁경부암의 발병을 예측하기 위한 자궁경부 세포 이미지일 수 있다. 전술한 진단 정보 및 검사 이미지에 대한 구체적인 기재는 예시일 뿐, 본 개시는 이에 제한되지 않는다. According to an embodiment of the present disclosure, the user terminal 10 accesses the computing device 100 to obtain one or more similar images related to an examination image including one or more objects and diagnostic information corresponding to each similar image. It may be a terminal related to a user. In this case, the examination image may mean medical-related image data obtained from the examinee for medical diagnosis, and the diagnosis information may mean medical diagnosis information read by a specialist through the examination image. As a specific example, the diagnosis information may include prediction information related to the onset of cervical cancer, and the examination image may be an image of cervical cells for predicting the onset of cervical cancer. The detailed description of the above-described diagnostic information and test image is only an example, and the present disclosure is not limited thereto.
이러한, 사용자 단말(10)은 검진 결과를 사용자(예컨대, 검진자)에게 제공하는 검사자(예컨대, 전문의)와 관련한 단말일 수 있다. 사용자 단말(10)이 검진자에게 검진 결과를 제공하는 검사자에 관련한 단말인 경우, 컴퓨팅 장치(100)로부터 수신하는 검사 이미지에 대응하는 진단 정보는, 검진자의 검진 결과 판독을 위한 의료 보조 정보로 활용될 수 있다. 사용자 단말(10)은 디스플레이를 구비하고 있어서, 사용자의 입력을 수신하고, 사용자에게 임의의 형태의 출력을 제공할 수 있다. The user terminal 10 may be a terminal related to an examiner (eg, a specialist) that provides a checkup result to a user (eg, the examinee). When the user terminal 10 is a terminal related to an examiner that provides examination results to the examinee, the diagnosis information corresponding to the examination image received from the computing device 100 may be used as medical assistance information for reading the examination result of the examinee. can The user terminal 10 has a display, so it can receive a user's input and provide an output of any type to the user.
사용자 단말(10)의 사용자는 의료 전문가로서, 의사, 간호사, 임상 병리사, 의료 영상 전문가 등을 의미할 수 있으며, 의료 장치를 수리하는 기술자가 될 수 있으나, 이에 제한되지 않는다. 예를 들어, 사용자는 의료 취약지역에서 개시된 실시 예에 따른 시스템을 이용하여 검진을 수행하는 관리자 혹은 환자 본인을 의미할 수도 있다.A user of the user terminal 10 is a medical professional, which may mean a doctor, a nurse, a clinical pathologist, a medical imaging specialist, or the like, and may be a technician repairing a medical device, but is not limited thereto. For example, the user may mean an administrator or a patient who performs a checkup using the system according to the disclosed embodiment in a medically vulnerable area.
사용자 단말(10)은 컴퓨팅 장치(100)와 통신을 위한 메커니즘을 갖는 시스템에서의 임의의 형태의 엔티티(들)를 의미할 수 있다. 예를 들어, 이러한 사용자 단말(10)은 PC(personal computer), 노트북(note book), 모바일 단말기(mobile terminal), 스마트 폰(smart phone), 태블릿 PC(tablet pc) 및 웨어러블 디바이스(wearable device) 등을 포함할 수 있으며, 유/무선 네트워크에 접속할 수 있는 모든 종류의 단말을 포함할 수 있다. 또한, 사용자 단말(10)은 에이전트, API(Application Programming Interface) 및 플러그-인(Plug-in) 중 적어도 하나에 의해 구현되는 임의의 서버를 포함할 수도 있다. 또한, 사용자 단말(10)은 애플리케이션 소스 및/또는 클라이언트 애플리케이션을 포함할 수 있다.The user terminal 10 may refer to any type of entity(s) in a system having a mechanism for communication with the computing device 100 . For example, the user terminal 10 is a personal computer (PC), a notebook (note book), a mobile terminal (mobile terminal), a smart phone (smart phone), a tablet PC (tablet pc), and a wearable device (wearable device) and the like, and may include all types of terminals capable of accessing a wired/wireless network. In addition, the user terminal 10 may include an arbitrary server implemented by at least one of an agent, an application programming interface (API), and a plug-in. In addition, the user terminal 10 may include an application source and/or a client application.
본 개시의 일 실시예에 따르면, 외부 서버(20)는 하나 이상의 객체를 포함하는 검사 이미지, 각 객체에 관련한 이미지 및 각 객체 이미지에 관련한 의료 진단 또는 판독 정보 등을 저장하는 서버일 수 있다. 예를 들어, 외부 서버(20)는 병원 서버 및 정부 서버 중 적어도 하나일 수 있으며, 하나 이상의 객체를 포함하는 검사 이미지, 각 객체에 관련한 이미지 및 각 객체 이미지에 관련한 의료 진단 또는 판독 정보 등에 관한 정보를 저장하는 서버일 수 있다. 외부 서버(20)에 저장된 정보들은 본 개시에서의 신경망을 학습시키기 위한 학습 데이터, 검증 데이터 및 테스트 데이터로 활용될 수 있다. 즉, 외부 서버(20)는 본 개시의 신경망 모델을 학습시키기 위한 데이터 세트에 관한 정보를 저장하고 있는 서버일 수 있다.According to an embodiment of the present disclosure, the external server 20 may be a server that stores an examination image including one or more objects, an image related to each object, and medical diagnosis or reading information related to each object image. For example, the external server 20 may be at least one of a hospital server and a government server, and information about an examination image including one or more objects, an image related to each object, and medical diagnosis or reading information related to each object image, etc. It may be a server that stores Information stored in the external server 20 may be utilized as training data, verification data, and test data for learning the neural network in the present disclosure. That is, the external server 20 may be a server that stores information about a data set for training the neural network model of the present disclosure.
본 개시의 컴퓨팅 장치(100)는 외부 서버(20)로부터 복수의 객체 이미지 및 각 객체 이미지에 관한 판독 정보에 기반하여 학습 데이터 세트를 구축할 수 있으며, 학습 데이터 세트를 통해 하나 이상의 네트워크 함수를 포함하는 신경망 모델을 학습시킴으로써, 검사 이미지에 포함된 하나 이상의 객체 각각을 사전 결정된 하나 이상의 카테고리로 분류하기 위한 분류 모델을 생성할 수 있다. The computing device 100 of the present disclosure may build a training data set based on a plurality of object images from the external server 20 and read information about each object image, and includes one or more network functions through the training data set By training the neural network model, a classification model for classifying each of one or more objects included in the examination image into one or more predetermined categories may be generated.
외부 서버(20)는 디지털 기기로서, 랩탑 컴퓨터, 노트북 컴퓨터, 데스크톱 컴퓨터, 웹 패드, 이동 전화기와 같이 프로세서를 탑재하고 메모리를 구비한 연산 능력을 갖춘 디지털 기기일 수 있다. 외부 서버(20)는 서비스를 처리하는 웹 서버일 수 있다. 전술한 서버의 종류는 예시일 뿐이며 본 개시는 이에 제한되지 않는다.The external server 20 is a digital device, and may be a digital device equipped with a processor, such as a laptop computer, a notebook computer, a desktop computer, a web pad, and a mobile phone, and having a computing capability with a memory. The external server 20 may be a web server that processes a service. The above-described types of servers are merely examples, and the present disclosure is not limited thereto.
본 개시의 일 실시예에 따르면, 컴퓨팅 장치(100)는 검사 이미지를 획득할 수 있다. 검사 이미지는, 의료 관련 이미지 데이터일 수 있으며, 하나 이상의 객체를 포함할 수 있다. 여기서 의료 관련 이미지 데이터는, 의학적인 진단을 위해 사용자(즉, 검진자)로부터 획득되는 이미지 데이터를 의미할 수 있다. 예를 들어, 의료 관련 이미지 데이터는, X-ray, CT 또는 MRI 이미지 데이터, 핵형 이미지 데이터, 혈관 이미지 데이터 및 유전체 이미지 데이터 등을 포함할 수 있다. 하나 이상의 객체는, 의료 관련 이미지 데이터에 포함된 오브젝트들을 의미하는 것으로, 의료 진단 또는 판독을 위한 검진자의 신체의 일부에 관련한 것일 수 있다. 예를 들어, 하나 이상의 객체는, 간, 심장, 자궁, 뇌, 유방, 폐, 복부 등의 장기, 혈관 또는 세포들을 의미할 수 있다. According to an embodiment of the present disclosure, the computing device 100 may acquire an examination image. The examination image may be medical-related image data and may include one or more objects. Here, the medical related image data may refer to image data obtained from a user (ie, an examinee) for medical diagnosis. For example, the medical-related image data may include X-ray, CT, or MRI image data, karyotype image data, blood vessel image data, and genome image data. The one or more objects refer to objects included in medical-related image data, and may relate to a part of the examinee's body for medical diagnosis or reading. For example, the one or more objects may refer to organs, blood vessels, or cells such as liver, heart, uterus, brain, breast, lung, and abdomen.
본 개시의 일 실시예에 따르면, 컴퓨팅 장치(100)는 기 학습된 분류 모델을 이용하여 객체에 대한 분류를 수행할 수 있다. 구체적으로, 컴퓨팅 장치(100)는 기 학습된 분류 모델에 하나 이상의 객체를 포함하는 검사 이미지를 입력으로 처리하여 하나 이상의 객체에 대한 분류를 수행할 수 있다. 이 경우, 기 학습된 분류 모델은, 검사 이미지를 입력으로 하는 경우, 해당 검사 이미지에 포함된 하나 이상의 객체를 하나 이상의 카테고리로 분류하기 위한 신경망 모델일 수 있다. 하나 이상의 카테고리는, 예를 들어, 정상 상태, 저위험 상태 및 고위험 상태 중 적어도 하나를 포함할 수 있으나, 이에 제한되지는 않는다. 이러한 분류 모델은, 학습 데이터를 통해 프로세서(130)에 의해 사전 학습된 것일 수 있다. 즉, 기 학습된 분류 모델은, 검사 이미지에서 객체를 검출하고, 검출된 객체를 특정 카테고리로 분류하는 신경망 모델일 수 있다.According to an embodiment of the present disclosure, the computing device 100 may classify an object using a pre-learned classification model. Specifically, the computing device 100 may classify one or more objects by processing an inspection image including one or more objects in a pre-learned classification model as an input. In this case, the pre-trained classification model may be a neural network model for classifying one or more objects included in the corresponding examination image into one or more categories when an examination image is input. The one or more categories may include, but are not limited to, at least one of, for example, a normal state, a low-risk state, and a high-risk state. This classification model may be pre-trained by the processor 130 through the training data. That is, the pre-learned classification model may be a neural network model that detects an object in an examination image and classifies the detected object into a specific category.
구체적인 예를 들어, 제1 검사 이미지가, 복수의 자궁경부 세포를 포함하는 세포 이미지 데이터(즉, Pap smear에 관련한 이미지 데이터)인 경우, 기 학습된 분류 모델은, 제1 검사 이미지에서 복수의 자궁경부 세포 각각을 검출하고, 검출된 각 자궁경부 세포를 정상(normal)에 관련한 카테고리 및 비정상(abnormal)에 관련한 카테고리 중 적어도 하나로 분류할 수 있다. 이 경우, 비정상에 관련한 카테고리는, 의학적 진단 또는 판독에 영향을 미치는 객체들을 식별하기 위한 카테고리를 의미할 수 있다. 즉, 검사 이미지 내에 포함된 하나 이상의 객체 중 비정상에 관련한 카테고리로 분류된 객체는, 해당 검사 이미지의 대상인 검진자에 관련한 질병 유무(또는, 추가 검진 수행 여부)를 판별하는 기준이되는 객체를 의미할 수 있다. 전술한 제1 검사 이미지 및 분류 모델이 수행하는 분류에 대한 구체적인 기재는 예시일 뿐, 본 개시는 이에 제한되지 않는다.As a specific example, when the first examination image is cell image data including a plurality of cervical cells (ie, image data related to Pap smear), the pre-trained classification model may include a plurality of uterus in the first examination image. Each of the cervical cells may be detected, and each detected cervical cell may be classified into at least one of a category related to normal and a category related to abnormal. In this case, the category related to the abnormality may mean a category for identifying objects affecting medical diagnosis or reading. That is, an object classified into an abnormal category among one or more objects included in the examination image may mean an object that is a criterion for determining the presence or absence of a disease (or whether additional examination is performed) related to the examinee who is the subject of the examination image. have. A detailed description of the classification performed by the above-described first inspection image and classification model is only an example, and the present disclosure is not limited thereto.
즉, 컴퓨팅 장치(100)는 하나 이상의 객체를 포함하는 검사 이미지를 획득하는 경우, 해당 검사 이미지 내에서 검진자의 질병 유무 판독에 영향을 미치는 객체들을 식별하기 위하여, 하나 이상의 객체 각각을 검출하고, 각 객체를 하나 이상의 카테고리 각각으로 분류할 수 있다.That is, when acquiring an examination image including one or more objects, the computing device 100 detects each of the one or more objects in order to identify the objects affecting the examination whether or not the examinee has a disease in the examination image, and each An object may be classified into each of one or more categories.
본 개시의 일 실시예에 따르면, 컴퓨팅 장치(100)는 검사 이미지에 대응하는 진단 정보를 제공할 수 있다. 본 개시에서 검사 이미지에 대응하는 진단 정보는, 검진자의 검진 결과 판독을 위한 정보들을 의미하는 것으로, 질병 유무에 관한 진단 정보 및 발병률에 대한 예측 정보 중 적어도 하나를 포함할 수 있다. 예를 들어, 검사 이미지가 자궁경부암 진단에 관련한 세포 이미지 데이터인 경우, 진단 정보는 검진자의 자궁경부암 여부에 관련한 진단 정보를 포함할 수 있다. 다른 예를 들어, 검사 이미지가 흉부 X-ray에 관련한 X-ray 이미지 데이터인 경우, 진단 정보는, 검진자의 폐 종양 여부에 관련한 진단 정보를 포함할 수 있다. 또 다른 예를 들어, 검사 이미지가 핵형 분석을 위한 핵형 이미지 데이터인 경우, 진단 정보는 검진자의 백혈병 여부에 관련한 진단 정보를 포함할 수 있다. 전술한 진단 정보에 대한 구체적인 기재는 예시일 뿐, 본 개시는 이에 제한되지 않는다.According to an embodiment of the present disclosure, the computing device 100 may provide diagnostic information corresponding to the examination image. In the present disclosure, the diagnostic information corresponding to the examination image means information for reading the examination result of the examinee, and may include at least one of diagnostic information regarding the presence or absence of a disease and prediction information regarding the incidence rate. For example, when the examination image is cell image data related to the diagnosis of cervical cancer, the diagnosis information may include diagnosis information related to whether the examinee has cervical cancer. For another example, when the examination image is X-ray image data related to a chest X-ray, the diagnostic information may include diagnostic information related to whether the examinee has a lung tumor. As another example, when the test image is karyotype image data for karyotype analysis, the diagnostic information may include diagnostic information related to whether the examinee has leukemia. The detailed description of the above-described diagnostic information is only an example, and the present disclosure is not limited thereto.
구체적으로, 컴퓨팅 장치(100)는 기 학습된 분류 모델을 통해 수행한 하나 이상의 객체 각각의 분류 결과에 기초하여 검사 이미지에 대응하는 진단 정보를 생성할 수 있다. 컴퓨팅 장치(100)는 기 학습된 분류 모델에 하나 이상의 객체를 포함하는 검사 이미지를 입력으로 처리할 수 있다. 이 경우, 기 학습된 분류 모델은 검사 이미지에 포함된 하나 이상의 객체 각각을 하나 이상의 카테고리로 분류할 수 있다. 이 경우, 하나 이상의 카테고리는 정상에 관련한 카테고리 및 비정상에 관련한 카테고리를 포함할 수 있다. 컴퓨팅 장치(100)는 비정상에 관련한 카테고리로 분류된 객체의 수에 기초하여 진단 정보를 생성할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 비정상에 관련한 카테고리로 분류된 객체의 수가 미리 결정된 임계치를 초과하는지 여부에 기초하여 진단 정보를 생성할 수 있다. 이 경우, 이미 결정된 임계치는, 질병 유무 판독에 기준이되는 이상 객체의 기준치일 수 있다. 구체적인 예를 들어, 기 학습된 분류 모델을 통해 비정상에 관련한 카테고리로 분류된 객체의 수가 10이며, 미리 결정된 임계치가 15인 경우, 컴퓨팅 장치(100)는 해당 검사 이미지에 대응하여 질병이 발생되지 않았다는 정보 및 3년 이내 발병률이 60%라는 정보를 포함하는 진단 정보를 생성할 수 있다. 전술한 분류된 객체의 수, 미리 결정된 임계치, 진단 정보에 대한 구체적인 기재는 예시일 뿐, 본 개시는 이에 제한되지 않는다. Specifically, the computing device 100 may generate diagnostic information corresponding to the examination image based on a classification result of each of one or more objects performed through a pre-learned classification model. The computing device 100 may process an inspection image including one or more objects in the pre-learned classification model as an input. In this case, the pre-trained classification model may classify each of one or more objects included in the examination image into one or more categories. In this case, the one or more categories may include a category related to normal and a category related to abnormality. The computing device 100 may generate diagnostic information based on the number of objects classified into categories related to abnormalities. For example, the computing device 100 may generate diagnostic information based on whether the number of objects classified into an abnormality-related category exceeds a predetermined threshold. In this case, the previously determined threshold may be a reference value of an abnormal object that is a criterion for determining the presence or absence of a disease. As a specific example, if the number of objects classified into a category related to abnormality through the pre-learned classification model is 10 and the predetermined threshold is 15, the computing device 100 indicates that no disease has occurred in response to the examination image. It is possible to generate diagnostic information including information and information that the incidence rate is 60% within 3 years. The above-described number of classified objects, a predetermined threshold, and detailed description of diagnostic information are merely examples, and the present disclosure is not limited thereto.
즉, 컴퓨팅 장치(100)는 검진자의 의료 관련 이미지 데이터에 관련한 검사 이미지를 획득하고, 획득한 검사 이미지에 대응하여 질병 유무에 관련한 진단 정보 및 발병률에 관련한 예측 정보를 포함하는 진단 정보를 제공할 수 있다.That is, the computing device 100 may obtain an examination image related to medical-related image data of the examinee, and provide diagnostic information including diagnostic information related to the presence or absence of disease and predictive information related to the incidence rate in response to the obtained examination image. have.
본 개시의 일 실시예에 따르면, 컴퓨팅 장치(100)는 기 학습된 검색 모델을 이용하여 객체에 대한 하나 이상의 유사 이미지 검색을 수행할 수 있다. 구체적으로, 컴퓨팅 장치(100)는 기 학습된 검색 모델을 이용하여 객체에 대한 분류 결과에 따라 객체에 대한 하나 이상의 유사 이미지 검색을 수행할 수 있다. 이 경우, 기 학습된 검색 모델은, 특정 카테고리(예컨대, 비정상에 관련한 카테고리)로 분류된 객체를 입력으로 하여 이미지 데이터베이스로부터 해당 객체와 유사성을 가지는 하나 이상의 유사 이미지를 검색하기 위한 신경망 모델일 수 있다. 이러한 검색 모델은 학습 데이터를 통해 프로세서(130)에 의해 사전 학습된 것일 수 있다. 즉, 기 학습된 검색 모델은, 특정 카테고리로 분류된 객체에 기초하여 해당 객체와 유사한 하나 이상의 유사 이미지를 검색하는 신경망 모델일 수 있다.According to an embodiment of the present disclosure, the computing device 100 may perform one or more similar image searches for an object using a pre-learned search model. Specifically, the computing device 100 may perform one or more similar image searches for an object according to a classification result of the object using a pre-learned search model. In this case, the pre-learned search model may be a neural network model for retrieving one or more similar images having similarity to the corresponding object from the image database by inputting an object classified into a specific category (eg, a category related to abnormality). . Such a search model may be pre-trained by the processor 130 through training data. That is, the pre-learned search model may be a neural network model that searches for one or more similar images similar to the corresponding object based on the object classified into a specific category.
하나 이상의 유사 이미지 검색은, 이미지 데이터베이스에 기 저장된 이미지들에 대한 유사성 판별 과정을 통해 수행되는 것일 수 있다. 이 경우, 이미지 데이터베이스는, 복수의 객체 이미지 및 각 객체 이미지에 관련한 의료 진단 정보를 저장하고 있을 수 있다.The one or more similar image searches may be performed through a similarity determination process for images previously stored in an image database. In this case, the image database may store a plurality of object images and medical diagnosis information related to each object image.
구체적인 예를 들어, 컴퓨팅 장치(100)는 기 학습된 분류 모델을 활용하여 제1 검사 이미지에 포함된 복수의 자궁경부 세포 중 제1 객체(즉, 하나의 자궁경부 세포)를 비정상 카테고리로 분류할 수 있다. 이 경우, 컴퓨팅 장치(100)는 비정상 카테고리로 분류된 제1 객체를 기 학습된 검색 모델의 입력으로 처리하여 해당 제1 객체에 대응하는 하나 이상의 유사 이미지를 검색할 수 있다. 즉, 기 학습된 검색 모델은, 제1 객체를 입력으로 하는 경우, 해당 제1 객체와 이미지 데이터베이스에 포함된 복수의 객체들 각각의 유사성을 판별하여, 하나 이상의 유사 이미지를 검색할 수 있다.As a specific example, the computing device 100 may classify a first object (ie, one cervical cell) among a plurality of cervical cells included in the first examination image into an abnormal category by using a pre-trained classification model. can In this case, the computing device 100 may search for one or more similar images corresponding to the first object by processing the first object classified into the abnormal category as an input of the pre-trained search model. That is, when the pre-learned search model receives a first object as an input, it is possible to search for one or more similar images by determining similarities between the first object and each of a plurality of objects included in the image database.
즉, 컴퓨팅 장치(100)는 객체에 대한 분류에 따라 객체에 대한 하나 이상의 유사 이미지 검색을 수행할 수 있다. 다시 말해, 컴퓨팅 장치(100)는 이미지 데이터베이스로부터 특정 카테고리로 분류된 객체(즉, 검진자의 질병 유무 판독에 영향을 미치는 객체)와 유사한 하나 이상의 유사 이미지에 대한 검색을 수행할 수 있다.That is, the computing device 100 may perform one or more similar image searches for the object according to the classification of the object. In other words, the computing device 100 may perform a search for one or more similar images similar to an object classified into a specific category from the image database (ie, an object influencing the examinee's disease determination).
본 개시의 일 실시예에 따르면, 컴퓨팅 장치(100)는 유사 이미지 검색결과를 제공할 수 있다. 구체적으로, 컴퓨팅 장치(100)는 하나 이상의 객체를 포함하는 검사 이미지를 기 학습된 분류 모델의 입력으로 처리하여, 하나 이상의 객체를 하나 이상의 카테고리로 분류할 수 있으며, 객체의 분류 결과에 따라 기 학습된 검색 모델을 이용하여 객체에 대한 하나 이상의 유사 이미지 검색을 수행할 수 있다. 다시 말해, 컴퓨팅 장치(100)는 기 학습된 신경망 모델을 활용하여 하나 이상의 객체를 포함하는 검사 이미지로부터 비정상에 관련한 카테고리로 분류된 특정 객체를 검출하고, 이미지 데이터베이스로부터 검출된 객체와 유사성을 가지는 하나 이상의 유사 이미지를 검색함으로써, 유사 이미지 검색결과를 제공할 수 있다. 이 경우, 컴퓨팅 장치(100)가 제공하는 검색결과는, 하나 이상의 유사 이미지 및 각 유사 이미지에 대응하는 검진 정보를 포함할 수 있다.According to an embodiment of the present disclosure, the computing device 100 may provide a similar image search result. Specifically, the computing device 100 may classify one or more objects into one or more categories by processing an inspection image including one or more objects as an input of a pre-learned classification model, and pre-learned according to the classification result of the objects. One or more similar image searches for an object may be performed using the search model. In other words, the computing device 100 detects a specific object classified into a category related to abnormality from an examination image including one or more objects by using the pre-trained neural network model, and detects one object having similarity to the object detected from the image database. By searching for the above similar images, it is possible to provide similar image search results. In this case, the search result provided by the computing device 100 may include one or more similar images and examination information corresponding to each similar image.
즉, 컴퓨팅 장치(100)는 의료 관련 이미지 데이터에 관련한 검사 이미지에서, 의학적 진단 또는 판독에 영향을 미치는 객체들을 식별하고, 해당 객체들 각각과 유사한 하나 이상의 유사 이미지들 및 각 유사 이미지에 대응하는 진단 기록을 제공함으로써, 사용자(예컨대, 전문의)의 의학적인 진단 또는 판독을 보조할 수 있다. That is, the computing device 100 identifies objects affecting medical diagnosis or reading from the examination image related to medical-related image data, and includes one or more similar images similar to each of the corresponding objects and a diagnosis corresponding to each similar image. By providing a record, a medical diagnosis or reading of a user (eg, a specialist) may be aided.
일 실시예에서, 컴퓨팅 장치(100)는 단말 또는 서버일 수 있으며, 임의의 형태의 장치는 모두 포함할 수 있다. 컴퓨팅 장치(100)는 디지털 기기로서, 랩탑 컴퓨터, 노트북 컴퓨터, 데스크톱 컴퓨터, 웹 패드, 이동 전화기와 같이 프로세서를 탑재하고 메모리를 구비한 연산 능력을 갖춘 디지털 기기일 수 있다. 컴퓨팅 장치(100)는 서비스를 처리하는 웹 서버일 수 있다. 전술한 컴퓨팅 장치의 종류는 예시일 뿐이며 본 개시는 이에 제한되지 않는다.In an embodiment, the computing device 100 may be a terminal or a server, and may include any type of device. The computing device 100 is a digital device, and may be a digital device equipped with a processor, such as a laptop computer, a notebook computer, a desktop computer, a web pad, and a mobile phone, and having a computing power having a memory. The computing device 100 may be a web server that processes a service. The types of computing devices described above are merely examples, and the present disclosure is not limited thereto.
본 개시의 일 실시예에 따르면, 컴퓨팅 장치(100)는 클라우드 컴퓨팅 서비스를 제공하는 서버일 수 있다. 보다 구체적으로, 컴퓨팅 장치(100)는 인터넷 기반 컴퓨팅의 일종으로 정보를 사용자의 컴퓨터가 아닌 인터넷에 연결된 다른 컴퓨터로 처리하는 클라우드 컴퓨팅 서비스를 제공하는 서버일 수 있다. 상기 클라우드 컴퓨팅 서비스는 인터넷 상에 자료를 저장해 두고, 사용자가 필요한 자료나 프로그램을 자신의 컴퓨터에 설치하지 않고도 인터넷 접속을 통해 언제 어디서나 이용할 수 있는 서비스일 수 있으며, 인터넷 상에 저장된 자료들을 간단한 조작 및 클릭으로 쉽게 공유하고 전달할 수 있다. 또한, 클라우드 컴퓨팅 서비스는 인터넷 상의 서버에 단순히 자료를 저장하는 것뿐만 아니라, 별도로 프로그램을 설치하지 않아도 웹에서 제공하는 응용프로그램의 기능을 이용하여 원하는 작업을 수행할 수 있으며, 여러 사람이 동시에 문서를 공유하면서 작업을 진행할 수 있는 서비스일 수 있다. 또한, 클라우드 컴퓨팅 서비스는 IaaS(Infrastructure as a Service), PaaS(Platform as a Service), SaaS(Software as a Service), 가상 머신 기반 클라우드 서버 및 컨테이너 기반 클라우드 서버 중 적어도 하나의 형태로 구현될 수 있다. 즉, 본 개시의 컴퓨팅 장치(100)는 상술한 클라우드 컴퓨팅 서비스 중 적어도 하나의 형태로 구현될 수 있다. 전술한 클라우드 컴퓨팅 서비스의 구체적인 기재는 예시일 뿐, 본 개시의 클라우드 컴퓨팅 환경을 구축하는 임의의 플랫폼을 포함할 수도 있다.According to an embodiment of the present disclosure, the computing device 100 may be a server that provides a cloud computing service. More specifically, the computing device 100 is a type of Internet-based computing, and may be a server that provides a cloud computing service that processes information not with a user's computer but with another computer connected to the Internet. The cloud computing service may be a service that stores data on the Internet and allows the user to use it anytime and anywhere through Internet access without installing necessary data or programs on his/her computer. Easy to share and deliver with a click. In addition, cloud computing service not only stores data on a server on the Internet, but also allows users to perform desired tasks using the functions of applications provided on the web without installing a separate program, and multiple people can simultaneously view documents. It may be a service that allows you to work while sharing. In addition, the cloud computing service may be implemented in the form of at least one of Infrastructure as a Service (IaaS), Platform as a Service (PaaS), Software as a Service (SaaS), a virtual machine-based cloud server, and a container-based cloud server. . That is, the computing device 100 of the present disclosure may be implemented in the form of at least one of the above-described cloud computing services. The detailed description of the above-described cloud computing service is merely an example, and may include any platform for building the cloud computing environment of the present disclosure.
본 개시에서의 신경망에 대한 학습 방법, 학습 과정, 검사 이미지에 관련한 하나 이상의 유사 이미지를 제공하는 방법 및 시각정보 기반 참조 검색 기술을 이용한 인공지능 판독보조 방법에 대한 구체적인 구성 및 이에 따른 효과에 대한 구체적인 설명은 이하의 도 2를 참조하여 후술하도록 한다.Specific configuration and effect of the learning method for the neural network, the learning process, the method of providing one or more similar images related to the examination image, and the artificial intelligence reading assistance method using the visual information-based reference search technology in the present disclosure The description will be given later with reference to FIG. 2 below.
도 2는 본 개시의 일 실시예와 관련한 시각정보 기반 참조 검색 기술을 이용한 인공지능 판독보조 방법을 수행하기 위한 컴퓨팅 장치의 블록 구성도를 도시한다.2 is a block diagram of a computing device for performing an artificial intelligence reading assistance method using a visual information-based reference search technology according to an embodiment of the present disclosure.
도 2에 도시된 바와 같이, 컴퓨팅 장치(100)는 네트워크부(110), 메모리(120) 및 프로세서(130)를 포함할 수 있다. 전술한 컴퓨팅 장치(100)에 포함된 컴포넌트들은 예시적인 것으로 본 개시내용의 권리범위가 전술한 컴포넌트들로 제한되지 않는다. 즉, 본 개시내용의 실시예들에 대한 구현 양태에 따라서 추가적인 컴포넌트들이 포함되거나 전술한 컴포넌트들 중 일부가 생략될 수 있다.As shown in FIG. 2 , the computing device 100 may include a network unit 110 , a memory 120 , and a processor 130 . Components included in the aforementioned computing device 100 are exemplary and the scope of the present disclosure is not limited to the aforementioned components. That is, additional components may be included or some of the above-described components may be omitted according to implementation aspects for the embodiments of the present disclosure.
본 개시의 일 실시예에 따르면, 컴퓨팅 장치(100)는 사용자 단말(10) 및 외부 서버(20)와 데이터를 송수신하는 네트워크부(110)를 포함할 수 있다. 네트워크부(110)는 본 개시의 일 실시예에 따른 시각정보 기반 참조 검색 기술을 이용한 인공지능 판독보조 방법을 수행하기 위한 데이터들 및 신경망 모델을 학습시키기 위한 학습 데이터 세트 등을 다른 컴퓨팅 장치, 서버 등과 송수신할 수 있다. 즉, 네트워크부(110)는 컴퓨팅 장치(100)와 사용자 단말(10) 및 외부 서버(20) 간의 통신 기능을 제공할 수 있다. 예를 들어, 네트워크부(110)는 사용자 단말(10)로부터 검사 이미지 데이터를 수신할 수 있다. 다른 예를 들어, 네트워크부(110)는 외부 서버(20)로부터 본 개시의 분류 모델 또는 검색 모델을 학습시키기 위한 학습 데이터 세트를 수신할 수 있다. 추가적으로, 네트워크부(110)는 컴퓨팅 장치(100)로 프로시저를 호출하는 방식으로 컴퓨팅 장치(100)와 사용자 단말(10) 및 외부 서버(20) 간의 정보 전달을 허용할 수 있다.According to an embodiment of the present disclosure, the computing device 100 may include the user terminal 10 and the network unit 110 for transmitting and receiving data to and from the external server 20 . The network unit 110 transmits data for performing an artificial intelligence reading assistance method using a visual information-based reference search technology according to an embodiment of the present disclosure and a training data set for learning a neural network model to other computing devices, servers, and the like. can send and receive. That is, the network unit 110 may provide a communication function between the computing device 100 , the user terminal 10 , and the external server 20 . For example, the network unit 110 may receive the examination image data from the user terminal 10 . As another example, the network unit 110 may receive a training data set for learning the classification model or the search model of the present disclosure from the external server 20 . Additionally, the network unit 110 may allow information transfer between the computing device 100 and the user terminal 10 and the external server 20 by calling a procedure to the computing device 100 .
본 개시의 일 실시예에 따른 네트워크부(110)는 공중전화 교환망(PSTN: Public Switched Telephone Network), xDSL(x Digital Subscriber Line), RADSL(Rate Adaptive DSL), MDSL(Multi Rate DSL), VDSL(Very High Speed DSL), UADSL(Universal Asymmetric DSL), HDSL(High Bit Rate DSL) 및 근거리 통신망(LAN) 등과 같은 다양한 유선 통신 시스템들을 사용할 수 있다.The network unit 110 according to an embodiment of the present disclosure includes a Public Switched Telephone Network (PSTN), x Digital Subscriber Line (xDSL), Rate Adaptive DSL (RADSL), Multi Rate DSL (MDSL), VDSL ( A variety of wired communication systems such as Very High Speed DSL), Universal Asymmetric DSL (UADSL), High Bit Rate DSL (HDSL), and Local Area Network (LAN) can be used.
또한, 본 명세서에서 제시되는 네트워크부(110)는 CDMA(Code Division Multi Access), TDMA(Time Division Multi Access), FDMA(Frequency Division Multi Access), OFDMA(Orthogonal Frequency Division Multi Access), SC-FDMA(Single Carrier-FDMA) 및 다른 시스템들과 같은 다양한 무선 통신 시스템들을 사용할 수 있다.In addition, the network unit 110 presented herein is CDMA (Code Division Multi Access), TDMA (Time Division Multi Access), FDMA (Frequency Division Multi Access), OFDMA (Orthogonal Frequency Division Multi Access), SC-FDMA ( A variety of wireless communication systems can be used, such as Single Carrier-FDMA) and other systems.
본 개시에서 네트워크부(110)는 유선 및 무선 등과 같은 그 통신 양태를 가리지 않고 구성될 수 있으며, 단거리 통신망(PAN: Personal Area Network), 근거리 통신망(WAN: Wide Area Network) 등 다양한 통신망으로 구성될 수 있다. 또한, 상기 네트워크는 공지의 월드와이드웹(WWW: World Wide Web)일 수 있으며, 적외선(IrDA: Infrared Data Association) 또는 블루투스(Bluetooth)와 같이 단거리 통신에 이용되는 무선 전송 기술을 이용할 수도 있다. 본 명세서에서 설명된 기술들은 위에서 언급된 네트워크들뿐만 아니라, 다른 네트워크들에서도 사용될 수 있다.In the present disclosure, the network unit 110 may be configured regardless of its communication mode, such as wired and wireless, and may be composed of various communication networks such as a short-range network (PAN: Personal Area Network) and a local area network (WAN: Wide Area Network). can In addition, the network may be a well-known World Wide Web (WWW), and may use a wireless transmission technology used for short-range communication, such as infrared (IrDA) or Bluetooth (Bluetooth). The techniques described herein may be used in the networks mentioned above, as well as in other networks.
본 개시의 일 실시예에 따르면, 메모리(120)는 본 개시의 일 실시예에 따른 시각정보 기반 참조 검색 기술을 이용한 인공지능 판독보조 방법을 수행하기 위한 컴퓨터 프로그램을 저장할 수 있으며, 저장된 컴퓨터 프로그램은 프로세서(130)에 의하여 판독되어 구동될 수 있다. 또한, 메모리(120)는 프로세서(130)가 생성하거나 결정한 임의의 형태의 정보 및 네트워크부(110)가 수신한 임의의 형태의 정보를 저장할 수 있다. 또한, 메모리(120)는 하나 이상의 객체를 포함하는 검사 이미지에 대한 정보들을 저장할 수 있다. 예를 들어, 메모리(120)는 입/출력되는 데이터들(예를 들어, 검사 이미지, 검사 이미지에 포함된 하나 이상의 객체, 하나 이상의 객체 각각에 대응하는 진단 정보 및 검사 이미지에 대응하여 생성된 분석 정보 등)을 임시 또는 영구 저장할 수 있다.According to an embodiment of the present disclosure, the memory 120 may store a computer program for performing the artificial intelligence reading assistance method using the visual information-based reference search technology according to an embodiment of the present disclosure, and the stored computer program It may be read and driven by the processor 130 . In addition, the memory 120 may store any type of information generated or determined by the processor 130 and any type of information received by the network unit 110 . Also, the memory 120 may store information on an examination image including one or more objects. For example, the memory 120 may store input/output data (eg, an examination image, one or more objects included in the examination image, diagnostic information corresponding to each of the one or more objects, and analysis generated in response to the examination image). information, etc.) may be temporarily or permanently stored.
본 개시의 일 실시예에 따르면, 메모리(120)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 컴퓨팅 장치(100)는 인터넷(internet) 상에서 상기 메모리(120)의 저장 기능을 수행하는 웹 스토리지(web storage)와 관련되어 동작할 수도 있다. 전술한 메모리에 대한 기재는 예시일 뿐, 본 개시는 이에 제한되지 않는다.According to an embodiment of the present disclosure, the memory 120 is a flash memory type, a hard disk type, a multimedia card micro type, and a card type memory (eg, a SD or XD memory, etc.), Random Access Memory (RAM), Static Random Access Memory (SRAM), Read-Only Memory (ROM), Electrically Erasable Programmable Read-Only Memory (EEPROM), Programmable Read (PROM) -Only Memory), a magnetic memory, a magnetic disk, and an optical disk may include at least one type of storage medium. The computing device 100 may operate in relation to a web storage that performs a storage function of the memory 120 on the Internet. The description of the above-described memory is only an example, and the present disclosure is not limited thereto.
본 개시의 일 실시예에 따르면, 프로세서(130)는 하나 이상의 코어로 구성될 수 있으며, 컴퓨팅 장치의 중앙 처리 장치(CPU: central processing unit), 범용 그래픽 처리 장치(GPGPU: general purpose graphics processing unit), 텐서 처리 장치(TPU: tensor processing unit) 등의 데이터 분석, 딥러닝을 위한 프로세서를 포함할 수 있다.According to an embodiment of the present disclosure, the processor 130 may be configured with one or more cores, and may include a central processing unit (CPU) and a general purpose graphics processing unit (GPGPU) of a computing device. , data analysis such as a tensor processing unit (TPU), and a processor for deep learning.
프로세서(130)는 메모리(120)에 저장된 컴퓨터 프로그램을 판독하여 본 개시의 일 실시예에 따른 딥러닝을 위한 데이터 처리를 수행할 수 있다. 본 개시의 일 실시예에 따라 프로세서(130)는 신경망의 학습을 위한 연산을 수행할 수 있다. 프로세서(130)는 딥러닝(DL: deep learning)에서 학습을 위한 입력 데이터의 처리, 입력 데이터에서의 피처 추출, 오차 계산, 역전파(backpropagation)를 이용한 신경망의 가중치 업데이트 등의 신경망의 학습을 위한 계산을 수행할 수 있다.The processor 130 may read a computer program stored in the memory 120 to perform data processing for deep learning according to an embodiment of the present disclosure. According to an embodiment of the present disclosure, the processor 130 may perform an operation for learning the neural network. The processor 130 for learning of the neural network, such as processing input data for learning in deep learning (DL), extracting features from input data, calculating an error, updating the weight of the neural network using backpropagation calculations can be performed.
또한, 프로세서(130)는 CPU, GPGPU, 및 TPU 중 적어도 하나가 네트워크 함수의 학습을 처리할 수 있다. 예를 들어, CPU 와 GPGPU가 함께 네트워크 함수의 학습, 네트워크 함수를 이용한 데이터 분류를 처리할 수 있다. 또한, 본 개시의 일 실시예에서 복수의 컴퓨팅 장치의 프로세서를 함께 사용하여 네트워크 함수의 학습, 네트워크 함수를 이용한 데이터 분류를 처리할 수 있다. 또한, 본 개시의 일 실시예에 따른 컴퓨팅 장치에서 수행되는 컴퓨터 프로그램은 CPU, GPGPU 또는 TPU 실행가능 프로그램일 수 있다.Also, in the processor 130, at least one of a CPU, a GPGPU, and a TPU may process learning of a network function. For example, the CPU and the GPGPU can process learning of a network function and data classification using the network function. Also, in an embodiment of the present disclosure, learning of a network function and data classification using the network function may be processed by using the processors of a plurality of computing devices together. In addition, the computer program executed in the computing device according to an embodiment of the present disclosure may be a CPU, GPGPU or TPU executable program.
본 명세서에서 네트워크 함수는 인공 신경망, 뉴럴 네트워크와 상호 교환 가능하게 사용될 수 있다. 본 명세서에서 네트워크 함수는 하나 이상의 뉴럴 네트워크를 포함할 수도 있으며, 이 경우 네트워크 함수의 출력은 하나 이상의 뉴럴 네트워크의 출력의 앙상블(ensemble)일 수 있다.In the present specification, a network function may be used interchangeably with an artificial neural network and a neural network. In the present specification, a network function may include one or more neural networks, and in this case, an output of the network function may be an ensemble of outputs of one or more neural networks.
프로세서(130)는 메모리(120)에 저장된 컴퓨터 프로그램을 판독하여 본 개시의 일 실시예에 따른 분류 모델을 제공할 수 있다. 본 개시의 일 실시예에 따라, 프로세서(130)는 영상 데이터에 대응하는 분석 정보 생성을 수행할 수 있다. 본 개시의 일 실시예에 따라, 프로세서(130)는 분류 모델을 학습시키기 위한 계산을 수행할 수 있다.The processor 130 may read a computer program stored in the memory 120 to provide a classification model according to an embodiment of the present disclosure. According to an embodiment of the present disclosure, the processor 130 may generate analysis information corresponding to image data. According to an embodiment of the present disclosure, the processor 130 may perform calculation for training the classification model.
본 개시의 일 실시예에 따르면, 프로세서(130)는 통상적으로 컴퓨팅 장치(100)의 전반적인 동작을 처리할 수 있다. 프로세서(130)는 위에서 살펴본 구성요소들을 통해 입력 또는 출력되는 신호, 데이터, 정보 등을 처리하거나 메모리(120)에 저장된 응용 프로그램을 구동함으로써, 사용자 또는 사용자 단말에게 적정한 정보 또는, 기능을 제공하거나 처리할 수 있다.According to an embodiment of the present disclosure, the processor 130 may typically process the overall operation of the computing device 100 . The processor 130 processes signals, data, information, etc. input or output through the above-described components or runs an application program stored in the memory 120, thereby providing or processing appropriate information or functions to the user or user terminal. can do.
본 개시의 일 실시예에 따르면, 프로세서(130)는 하나 이상의 객체를 포함하는 검사 이미지를 획득할 수 있다. 본 개시의 일 실시예에 따른 검사 이미지의 획득은, 메모리(120)에 저장된 영상 데이터를 수신하거나, 또는 로딩(loading)하는 것일 수 있다. 또한, 영상 데이터의 획득은, 유/무선 통신 수단에 기초하여 다른 저장 매체, 다른 컴퓨팅 장치, 동일한 컴퓨팅 장치 내의 별도 처리 모듈로부터 데이터를 수신하거나 또는 로딩하는 것일 수 있다. According to an embodiment of the present disclosure, the processor 130 may acquire an examination image including one or more objects. Acquisition of the examination image according to an embodiment of the present disclosure may include receiving or loading image data stored in the memory 120 . Also, the image data acquisition may be receiving or loading data from another storage medium, another computing device, or a separate processing module in the same computing device based on a wired/wireless communication means.
본 개시의 검사 이미지는, 의학적인 진단을 위해 검진자로부터 획득되는 의료 관련 이미지 데이터를 의미할 수 있다. 예를 들어, 의료 관련 이미지 데이터는, X-ray, CT 또는 MRI 이미지 데이터, 핵형 이미지 데이터, 혈관 이미지 데이터 및 유전체 이미지 데이터 등을 포함할 수 있다. 하나 이상의 객체는, 의료 관련 이미지 데이터에 포함된 오브젝트들을 의미하는 것으로, 의료 진단 또는 판독을 위한 검진자의 신체의 일부에 관련한 것일 수 있다. 예를 들어, 하나 이상의 객체는, 간, 심장, 자궁, 뇌, 유방, 폐, 복부 등의 장기, 혈관 또는 세포들을 의미할 수 있다. The examination image of the present disclosure may refer to medical-related image data obtained from an examinee for medical diagnosis. For example, the medical-related image data may include X-ray, CT, or MRI image data, karyotype image data, blood vessel image data, and genome image data. The one or more objects refer to objects included in medical-related image data, and may relate to a part of the examinee's body for medical diagnosis or reading. For example, the one or more objects may refer to organs, blood vessels, or cells such as liver, heart, uterus, brain, breast, lung, and abdomen.
보다 구체적인 예를 들어, 검사 이미지는, 자궁경부암 진단을 위하여, 대상체의 자궁경부 세포를 슬라이드에 도말하고, 염색 등 필요한 처리를 수행한 결과물을 촬영한 이미지를 포함할 수 있으며, 하나 이상의 객체는, 해당 촬영 이미지 내에 포함된 복수의 세포 각각을 의미할 수 있다. 전술한 검사 이미지 및 하나 이상의 객체에 대한 구체적인 기재는 예시일 뿐, 본 개시는 이에 제한되지 않는다. 즉, 본 개시의 다양한 구현양태에 따라, 검사 이미지는, 검진자로부터 획득되는 다양한 의학적 이미지(예컨대, 흉부 Xray 이미지, karyotype 관련 이미지 및 염색체 이미지 등)들을 더 포함할 수 있으며, 하나 이상의 객체 또한 각 검사 이미지에 포함된 다양한 오브젝트들을 더 포함할 수 있다. For a more specific example, the examination image may include an image of a result obtained by smearing the cervical cells of the subject on a slide and performing necessary processing such as staining for the diagnosis of cervical cancer, and one or more objects, It may mean each of a plurality of cells included in the corresponding photographed image. The detailed description of the above-described inspection image and one or more objects is only an example, and the present disclosure is not limited thereto. That is, according to various embodiments of the present disclosure, the examination image may further include various medical images (eg, chest Xray image, karyotype-related image, chromosome image, etc.) obtained from the examinee, and one or more objects may also be used for each examination. Various objects included in the image may be further included.
일 실시예에서, 검사 이미지를 획득하기 위한 별도의 카메라 모듈이 본 개시의 컴퓨팅 장치에 구비될 수 있다. 추가적인 실시예에서, 카메라 모듈에 부착되거나 구비된 확대경, 렌즈 및 현미경 등의 보조장비가 이용될 수 있으며, 카메라 모듈은 이를 통해 확대된 이미지를 촬영할 수도 있다. In an embodiment, a separate camera module for acquiring an examination image may be provided in the computing device of the present disclosure. In an additional embodiment, auxiliary equipment such as a magnifying glass, a lens, and a microscope attached to or provided in the camera module may be used, and the camera module may take an enlarged image through this.
본 개시의 일 실시예에 따르면, 프로세서(130)는 검사 이미지에 대한 이미지 전처리를 수행할 수 있다. 프로세서(130)는 학습 데이터에 포함된 이미지 각각에 대하여 이미지를 리사이징하는 단계를 수행할 수 있다. 일 실시예에서, 프로세서(130)는 이미지를 업 스케일링 뒤 다운사이징할 수 있으며, 이미지에 대한 스케일링 방법 및 순서는 이에 제한되지 않는다. 실시예에서, 프로세서(130)는 네트워크에 기반한 학습 과정에서 확장된 컨볼루션을 통해 이미지에 대한 서로 다른 해상도의 영상을 얻을 수 있으며, 이를 업 스케일링 하여 원래의 해상도와 같도록 변형시킬 수도 있다.According to an embodiment of the present disclosure, the processor 130 may perform image pre-processing on the inspection image. The processor 130 may perform the step of resizing the image for each image included in the training data. In an embodiment, the processor 130 may downsize the image after upscaling, and the scaling method and order for the image are not limited thereto. In an embodiment, the processor 130 may obtain images of different resolutions for images through extended convolution in a network-based learning process, and may upscale them to transform them to be the same as the original resolution.
또한, 프로세서(130)는 검사 이미지의 색상을 조정하여 이미지 전처리를 수행할 수도 있다. 일 실시예에서, 이미지에 포함된 하나 이상의 객체는 도말 후 염색처리된 것일 수 있다. 이에 따라, 염색된 세포핵, 세포질 및 세포막과, 그 외의 영역의 색상을 명확하게 구분할 수 있도록 이미지의 색상을 조절할 수 있다. 이미지의 색상을 조절하는 방법은 제한되지 않으나, 명도나 채도 등을 조절하는 필터를 이용한 색상 조절이 수행될 수도 있다.Also, the processor 130 may perform image pre-processing by adjusting the color of the inspection image. In one embodiment, one or more objects included in the image may be stained after smearing. Accordingly, the color of the image can be adjusted so that the colors of the stained cell nucleus, cytoplasm, and cell membrane and other regions can be clearly distinguished. The method of adjusting the color of the image is not limited, but color adjustment using a filter that adjusts brightness or saturation may be performed.
본 개시의 일 실시예에 따르면, 프로세서(130)는 검사 이미지에 포함된 하나 이상의 객체 각각에 대한 분류를 수행할 수 있다. 구체적으로, 프로세서(130)는 기 학습된 분류 모델을 이용하여 검사 이미지에 포함된 하나 이상의 객체에 대한 분류를 수행할 수 있다. 프로세서(130)는 기 학습된 분류 모델에 검사 이미지를 입력으로 처리하여, 하나 이상의 객체 각각이 하나 이상의 카테고리 각각으로 분류되도록 할 수 있다. According to an embodiment of the present disclosure, the processor 130 may classify each of one or more objects included in the examination image. Specifically, the processor 130 may classify one or more objects included in the examination image by using a pre-learned classification model. The processor 130 may process the inspection image as an input to the pre-learned classification model so that each of one or more objects is classified into one or more categories, respectively.
분류 모델은, 검사 이미지에 포함된 하나 이상의 객체를 검출하고, 각 객체를 하나 이상의 카테고리 중 적어도 하나로 분류하도록 학습된 신경망 모델일 수 있다. 하나 이상의 카테고리는, 정상에 관련한 카테고리 및 비정상에 관련한 카테고리 중 적어도 하나를 포함할 수 있다. 이 경우, 비정상에 관련한 카테고리는, 의학적 진단 또는 판독에 영향을 미치는 객체들을 식별하기 위한 카테고리를 의미할 수 있다. 즉, 검사 이미지 내에 포함된 하나 이상의 객체 중 비정상에 관련한 카테고리로 분류된 객체는, 해당 검사 이미지의 대상인 검잔자에 관련한 질병 유무를 판별하는 기준이 되는 객체를 의미할 수 있다. 추가적인 실시예에서, 비정상에 관련한 카테고리는, 위험 정도에 따라, 적어도 둘 이상의 카테고리로 세분화될 수 있다. 예컨대, 비정상에 관련한 카테고리는 진단 정확도 또는 발병 가능성 예측 정도에 따라 저위험 상태 및 고위험 상태 등으로 세분화될 수 있다.The classification model may be a neural network model trained to detect one or more objects included in the examination image and classify each object into at least one of one or more categories. The one or more categories may include at least one of a category related to normal and a category related to abnormality. In this case, the category related to the abnormality may mean a category for identifying objects affecting medical diagnosis or reading. That is, an object classified into a category related to abnormality among one or more objects included in the examination image may mean an object that serves as a criterion for determining the presence or absence of a disease related to the subject of the examination image. In an additional embodiment, the category related to the abnormality may be subdivided into at least two categories according to the degree of risk. For example, the category related to the abnormality may be subdivided into a low-risk state, a high-risk state, etc. according to diagnosis accuracy or a degree of predicting the likelihood of an onset.
본 개시의 일 실시예에 따르면, 프로세서(130)는 복수의 학습 데이터를 포함하는 학습 데이터 세트를 통해 분류 모델에 대한 사전 학습을 수행할 수 있다. According to an embodiment of the present disclosure, the processor 130 may perform pre-learning on the classification model through a training data set including a plurality of training data.
이를 위해, 프로세서(130)는 외부 서버(20)로부터 의료 관련 데이터들을 수신할 수 있으며, 해당 데이터들에 기초하여 학습 데이터 세트를 구축할 수 있다. 구체적으로, 프로세서(130)는 외부 서버(20)로부터 수신한 복수의 세포 이미지 데이터 및 각 세포 이미지 데이터에 대한 검진 정보에 기초하여 학습 데이터 세트를 구축할 수 있다. 이 경우, 학습 데이터 세트는 학습 입력 데이터 세트 및 학습 출력 데이터 세트를 포함할 수 있다. 또한, 프로세서(130)는 검사 이미지에 관련한 복수의 객체 이미지를 통해 학습 입력 데이터 세트를 구축하고, 복수의 객체 이미지 각각에 대한 판독 정보를 통해 학습 출력 데이터 세트를 구축할 수 있다.To this end, the processor 130 may receive medical-related data from the external server 20 , and may build a learning data set based on the data. Specifically, the processor 130 may build a learning data set based on a plurality of cell image data received from the external server 20 and examination information for each cell image data. In this case, the training data set may include a training input data set and a training output data set. In addition, the processor 130 may build a learning input data set through a plurality of object images related to the inspection image, and may build a learning output data set through reading information for each of the plurality of object images.
프로세서(130)는 학습 출력 데이터 세트를 구축하는 과정에서, 복수의 객체 이미지 각각에 대한 판독 정보를 사전 결정된 하나 이상의 카테고리 중 적어도 하나로 재분류할 수 있다. 이 경우, 하나 이상의 카테고리는, 복수의 판독 정보의 종류보다 적은 것을 특징으로 할 수 있다.In the process of building the learning output data set, the processor 130 may reclassify the read information for each of the plurality of object images into at least one of one or more predetermined categories. In this case, the one or more categories may be characterized by fewer than the plurality of types of read information.
구체적인 예를 들어, 검사 이미지는 자궁경부 세포에 관한 검사 이미지일 수 있으며, 해당 검사 이미지에 포함된 복수의 객체 이미지는 복수의 세포 이미지에 관련한 것일 수 있다. 일반적으로 자궁경부암 판독 과정에서 복수의 세포 각각에 관련한 판독 정보는, 각 세포 이미지를 5개의 분류 기준으로 분류하는 것과 관련한 것일 수 있다. 예컨대, 세포 이미지에 관련한 판독에 관련한 5개의 분류 기준은, normal, ASC-US(Atypical Squamous Cells of Undetermined Significance), LSIL(Low-grade Squamous Intraepithelial Lesion), HSIL(High-grade Squamous Intraepithelial Lesion) 및 Carcinoma 일 수 있다. 다만, 자궁경부 세포에 관련한 복수의 세포 이미지는, 데이터가 적으며, 각각의 분류에 관련한 이미지가 불균형함에 따라, 신경망의 학습 데이터로 활용되기 어려울 수 있다. 즉, 신경망 학습시키기 위한 학습 데이터로써 충분하게 확보되지 않거나 분류의 다양성 결여로 인해, 학습된 신경망의 정확도가 다소 낮아지거나 또는 신경망의 학습 자체가 불가능할 수 있다.As a specific example, the examination image may be an examination image related to cervical cells, and a plurality of object images included in the examination image may be related to a plurality of cell images. In general, read information related to each of a plurality of cells in a cervical cancer reading process may relate to classifying each cell image into five classification criteria. For example, the five classification criteria related to readings related to cell images are normal, Atypical Squamous Cells of Undetermined Significance (ASC-US), Low-grade Squamous Intraepithelial Lesion (LSIL), High-grade Squamous Intraepithelial Lesion (HSIL), and Carcinoma. can be However, a plurality of cell images related to cervical cells may be difficult to be utilized as learning data of a neural network because there is little data and images related to each classification are unbalanced. That is, the accuracy of the learned neural network may be somewhat lowered or the learning of the neural network itself may not be possible due to insufficiently secured learning data for learning the neural network or lack of diversity in classification.
이에 따라, 프로세서(130)는 세포 이미지 각각에 대한 판독 정보를 사전 결정된 하나 이상의 카테고리 중 적어도 하나로 재분류하여 학습 출력 데이터를 구축할 수 있다.Accordingly, the processor 130 may construct the learning output data by reclassifying the read information for each of the cell images into at least one of one or more predetermined categories.
예를 들어, 프로세서(130)는 5개의 분류 각각에 관련한 판독 정보의 수에 기초하여, 각 검진 정보를 하나 이상의 카테고리 중 적어도 하나로 재분류할 수 있다.For example, the processor 130 may reclassify each examination information into at least one of one or more categories based on the number of read information related to each of the five classifications.
구체적인 예를 들어, normal로 분류된 세포 이미지 수가 2000개이며, ASC-US로 분류된 세포 이미지 수가 400개 LSIL로 분류된 세포 이미지 수가 1700개, HSIL로 분류된 세포 이미지 수가 1200개 및 Carcinoma로 분류된 세포 이미지 수가 1000개일 수 있다. 이 경우, 5개 세부 단위로 분류된 각각의 학습 데이터가 균형적이지 않음에 따라, 학습의 효율이 저감될 수 있다.As a specific example, the number of cell images classified as normal is 2000, the number of cell images classified as ASC-US is 400, the number of cell images classified as LSIL is 1700, the number of cell images classified as HSIL is 1200, and the number of cell images is classified as Carcinoma. The number of imaged cells may be 1000. In this case, since each of the learning data classified into five detailed units is not balanced, the efficiency of learning may be reduced.
본 개시의 프로세서(130)는 ASC-US 및 LSIL에 관련한 데이터를 통합하여 저위험(low-risk)의 카테고리로 재분류하고, HSIL 및 Carcinoma에 관련한 데이터를 통합하여 고위험(high-risk)의 카테고리로 재분류할 수 있다. 즉, 프로세서(130)는 기존 5개 세부 단위의 분류를 3개 카테고리(normal, 저위험 및 고위험)로 재분류할 수 있다. 다시 말해, 프로세서(130)는 각 카테고리 내에 각 데이터들의 수가 균형을 이루도록 재분류를 수행할 수 있다. 이에 따라, 다양한 분류를 위한 학습이 균형적으로 이루어져, 신경망의 학습 효율이 향상될 수 있으며, 학습이 완료된 신경망의 정확도가 향상될 수 있다.The processor 130 of the present disclosure integrates data related to ASC-US and LSIL and reclassifies it into a low-risk category, and integrates data related to HSIL and Carcinoma to a high-risk category can be reclassified as That is, the processor 130 may reclassify the classification of the existing five detailed units into three categories (normal, low risk, and high risk). In other words, the processor 130 may perform reclassification so that the number of data in each category is balanced. Accordingly, learning for various classifications is performed in a balanced manner, so that the learning efficiency of the neural network can be improved, and the accuracy of the neural network on which learning has been completed can be improved.
또한, 본 개시에서 프로세서(130)가 수행하는 재분류는 기존의 세부 분류 보다 비교적 적은 카테고리에 기반한 분류임에 따라, 데이터가 적고 불균형한 학습 데이터 조건의 의료 분야에서 높은 활용도를 가진 학습 데이터 구축을 가능하게 할 수 있다. 즉, 정답에 관련한 학습 출력 데이터의 세부 단위 각각에 포함된 데이터들의 수를 고려하여, 각 세부 단위를 비교적 적은 분류인 하나 이상의 카테고리로 재분류하여 학습 출력 데이터를 생성함으로써, 학습된 신경망으로 하여금 향상된 정확도의 분류 동작을 수행하도록 할 수 있다.In addition, as the reclassification performed by the processor 130 in the present disclosure is a classification based on relatively fewer categories than the existing detailed classification, it is possible to construct learning data with high utility in the medical field with little data and unbalanced learning data conditions. can make it possible That is, in consideration of the number of data included in each sub-unit of the learning output data related to the correct answer, by reclassifying each sub-unit into one or more categories, which are relatively small classifications, to generate the learning output data, the learned neural network is improved It is possible to perform a classification operation with accuracy.
또한, 프로세서(130)는 학습 입력 데이터 세트 각각에 대응하는 학습 출력 데이터 세트를 매칭하여 라벨링할 수 있다. 즉, 전술한 과정을 통해 프로세서(130)는 분류 모델을 학습시키기 위한 학습 데이터 세트를 구축할 수 있다.In addition, the processor 130 may match and label the training output data set corresponding to each of the training input data sets. That is, through the above-described process, the processor 130 may build a training data set for training the classification model.
본 개시의 분류 모델은, 차원 감소 서브 모델(예컨대, 인코더(encoder)) 및 차원 복원 서브 모델(예컨대, 디코더(decoder))을 포함할 수 있다. 프로세서(130)는 학습 입력 데이터를 차원 감소 서브 모델의 입력으로 하여 차원 복원 서브 모델이 학습 입력 데이터의 라벨과 연관된 학습 출력 데이터를 출력하도록 학습시킬 수 있다. The classification model of the present disclosure may include a dimensionality reduction submodel (eg, an encoder) and a dimensionality reconstruction submodel (eg, a decoder). The processor 130 may use the training input data as an input of the dimension reduction sub-model to train the dimension restoration sub-model to output training output data associated with the label of the training input data.
프로세서(130)는 차원 감소 서브 모델에 객체 이미지에 관련한 학습 입력 데이터를 입력으로 하여 해당 학습 입력 데이터에 대응하는 피처를 출력하고, 그리고 출력된 피처를 차원 복원 서브 모델의 입력으로 처리하여 객체 이미지를 하나 이상의 카테고리 중 적어도 하나로 분류하도록 할 수 있다. 프로세서(130)는 차원 복원 서브 모델의 출력이 분류 결과와 학습 재분류 정보(즉, 정답에 관련한 분류)를 비교하여 오차를 도출하고, 도출된 오차에 기초하여 각 모델의 가중치를 역전파(backpropagation) 방식으로 조정할 수 있다. 프로세서(130)는 학습 입력 데이터에 대한 차원 복원 서브 모델의 연산 결과와 학습 출력 데이터의 오차에 기초하여 차원 복원 서브 모델의 출력인 분류 결과가 학습 출력 데이터에 가까워지도록 하나 이상의 네트워크 함수의 가중치를 조정할 수 있다.The processor 130 receives the learning input data related to the object image as an input to the dimension reduction sub-model, outputs a feature corresponding to the learning input data, and processes the output feature as an input of the dimension restoration sub-model to obtain the object image. It may be classified into at least one of one or more categories. The processor 130 derives an error by comparing the output of the dimension restoration sub-model with the classification result and learning reclassification information (ie, classification related to the correct answer), and backpropagates the weight of each model based on the derived error. ) can be adjusted in this way. The processor 130 adjusts the weights of one or more network functions so that the classification result, which is the output of the dimension restoration submodel, approaches the learning output data based on the error between the operation result and the learning output data of the dimensional restoration submodel for the training input data. can
즉, 차원 감소 서브 모델은, 프로세서(130)로부터 객체 이미지에 관련한 학습 입력 데이터를 수신하여 학습 입력 데이터의 특정 벡터에 관련한 피처를 출력으로 지정하여 입력 데이터가 피처로 변환되는 중간 과정을 학습할 수 있다.That is, the dimensionality reduction sub-model receives the learning input data related to the object image from the processor 130 and designates a feature related to a specific vector of the learning input data as an output to learn an intermediate process in which the input data is converted into a feature. have.
또한, 프로세서(130)는 차원 감소 서브 모델로부터 객체 이미지에 관련한 검진 정보(즉, 재분류에 관한 정보)에 관련한 임베딩(즉, 객체 이미지 피처)를 차원 복원 서브 모델로 전달할 수 있다. 차원 복원 서브 모델은 객체 이미지의 피처를 입력으로 객체 이미지를 하나 이상의 카테고리 중 적어도 하나로 분류할 수 있다.In addition, the processor 130 may transfer the embedding (ie, object image feature) related to examination information (ie, information about reclassification) related to the object image from the dimension reduction sub-model to the dimension restoration sub-model. The dimension restoration sub-model may classify the object image into at least one of one or more categories by inputting the features of the object image.
추가적인 실시예에 따르면, 검사 이미지에 관련한 복수의 객체가 세포 이미지에 관련한 경우, 프로세서(130)의 세포 이미지에서 세포핵 및 세포질을 인식할 수 있으며, 인식된 세포핵 및 세포질의 면적 비율에 기초하여 분류 모델의 가중치를 조정할 수 있다. 구체적인 예를 들어, 프로세서(130)는 검사 이미지에 포함된 세포 이미지에서 세포핵 및 세포질의 면적을 계산하고, 두 면적 간의 차이가 작을수록 분류 모델이 해당 세포 이미지를 비정상에 관련한 카테고리로 분류시킬 확률이 높도록 해당 분류 모델에 가중치를 조정할 수 있다.According to an additional embodiment, when a plurality of objects related to the examination image are related to the cell image, the cell nucleus and the cytoplasm may be recognized in the cell image of the processor 130, and a classification model based on the recognized area ratio of the cell nucleus and the cytoplasm weights can be adjusted. For a specific example, the processor 130 calculates the area of the cell nucleus and the cytoplasm from the cell image included in the examination image, and the smaller the difference between the two areas, the greater the probability that the classification model will classify the cell image into a category related to abnormality. We can adjust the weight to the corresponding classification model to be high.
전술한 학습 과정을 통해, 프로세서(130)에 의해 학습된 분류 모델은, 검사 이미지에 포함된 하나 이상의 객체를 검출하고, 검출된 각 객체를 하나 이상의 카테고리 중 적어도 하나로 분류시킬 수 있다.Through the above-described learning process, the classification model learned by the processor 130 may detect one or more objects included in the examination image, and classify each detected object into at least one of one or more categories.
본 개시의 일 실시예에 따르면, 프로세서(130)는 복수의 객체 이미지 각각에 대한 분류 결과에 기초하여 검사 이미지에 대응하는 진단 정보를 생성할 수 있다. 본 개시에서 검사 이미지에 대응하는 진단 정보는, 검진자의 검진 결과 판독을 위한 정보들을 의미하는 것으로, 질병 유무에 관한 진단 정보 및 발병률에 대한 예측 정보 중 적어도 하나를 포함할 수 있다. 예를 들어, 검사 이미지가 자궁경부암 진단에 관련한 세포 이미지 데이터인 경우, 진단 정보는 검진자의 자궁경부암 여부에 관련한 진단 정보를 포함할 수 있다. 다른 예를 들어, 검사 이미지가 흉부 X-ray에 관련한 X-ray 이미지 데이터인 경우, 진단 정보는, 검진자의 폐 종양 여부에 관련한 진단 정보를 포함할 수 있다. 또 다른 예를 들어, 검사 이미지가 핵형 분석을 위한 핵형 이미지 데이터인 경우, 진단 정보는 검진자의 백혈병 여부에 관련한 진단 정보를 포함할 수 있다. 전술한 진단 정보에 대한 구체적인 기재는 예시일 뿐, 본 개시는 이에 제한되지 않는다.According to an embodiment of the present disclosure, the processor 130 may generate diagnostic information corresponding to the examination image based on the classification result of each of the plurality of object images. In the present disclosure, the diagnostic information corresponding to the examination image means information for reading the examination result of the examinee, and may include at least one of diagnostic information regarding the presence or absence of a disease and prediction information regarding the incidence rate. For example, when the examination image is cell image data related to the diagnosis of cervical cancer, the diagnosis information may include diagnosis information related to whether the examinee has cervical cancer. For another example, when the examination image is X-ray image data related to a chest X-ray, the diagnostic information may include diagnostic information related to whether the examinee has a lung tumor. As another example, when the test image is karyotype image data for karyotype analysis, the diagnostic information may include diagnostic information related to whether the examinee has leukemia. The detailed description of the above-described diagnostic information is only an example, and the present disclosure is not limited thereto.
구체적으로, 프로세서(130)는 기 학습된 분류 모델을 통해 수행한 하나 이상의 객체 각각의 분류 결과에 기초하여 검사 이미지에 대응하는 진단 정보를 생성할 수 있다. 프로세서(130)는 하나 이상의 카테고리 각각으로 분류된 객체 이미지의 수에 기초하여 진단 정보를 생성할 수 있다. 자세히 설명하면, 프로세서(130)는 기 학습된 분류 모델에 하나 이상의 객체를 포함하는 검사 이미지를 입력으로 처리할 수 있다. 이 경우, 기 학습된 분류 모델은, 검사 이미지에 포함된 하나 이상의 객체 각각을 하나 이상의 카테고리로 분류할 수 있다. 이 경우, 하나 이상의 카테고리는 정상에 관련한 카테고리 및 비정상에 관련한 카테고리를 포함할 수 있다. 프로세서(130)는 비정상에 관련한 카테고리로 분류된 객체의 수에 기초하여 진단 정보를 생성할 수 있다. 예를 들어, 프로세서(130)는 비정상에 관련한 카테고리로 분류된 객체의 수가 미리 결정된 임계치를 초과하는지 여부에 기초하여 진단 정보를 생성할 수 있다. 이 경우, 이미 결정된 임계치는, 질병 유무 판독에 기준이 되는 이상 객체의 기준치일 수 있다. 구체적인 예를 들어, 기 학습된 분류 모델을 통해 비정상에 관련한 카테고리로 분류된 객체의 수가 10이며, 미리 결정된 임계치가 15인 경우, 프로세서(130)는 해당 검사 이미지에 대응하여 질병이 발생되지 않았다는 정보 및 3년 이내 발병률이 30%라는 정보를 포함하는 진단 정보를 생성할 수 있다. 전술한 분류된 객체의 수, 미리 결정된 임계치, 진단 정보에 대한 구체적인 기재는 예시일 뿐, 본 개시는 이에 제한되지 않는다.Specifically, the processor 130 may generate diagnostic information corresponding to the examination image based on a classification result of each of one or more objects performed through a pre-learned classification model. The processor 130 may generate diagnostic information based on the number of object images classified into each of one or more categories. In more detail, the processor 130 may process an inspection image including one or more objects in the pre-learned classification model as an input. In this case, the pre-learned classification model may classify each of one or more objects included in the examination image into one or more categories. In this case, the one or more categories may include a category related to normal and a category related to abnormality. The processor 130 may generate diagnostic information based on the number of objects classified into categories related to abnormality. For example, the processor 130 may generate diagnostic information based on whether the number of objects classified into an abnormality-related category exceeds a predetermined threshold. In this case, the previously determined threshold may be a reference value of an abnormal object that is a criterion for determining the presence or absence of a disease. As a specific example, if the number of objects classified into a category related to abnormality through the pre-learned classification model is 10 and the predetermined threshold is 15, the processor 130 provides information that no disease has occurred in response to the examination image. And it is possible to generate diagnostic information including information that the incidence rate within 3 years is 30%. The above-described number of classified objects, a predetermined threshold, and detailed description of the diagnostic information are merely examples, and the present disclosure is not limited thereto.
즉, 프로세서(130)는 검진자의 의료 관련 이미지 데이터에 관련한 검사 이미지를 획득하고, 획득한 검사 이미지에 대응하여 질병 유무에 관련한 진단 정보 및 발병률에 관련한 예측 정보를 포함하는 진단 정보를 제공할 수 있다.That is, the processor 130 may obtain a test image related to the medical-related image data of the examinee, and provide diagnostic information including diagnostic information related to the presence or absence of a disease and prediction information related to the incidence rate in response to the acquired test image. .
본 개시의 일 실시예에 따르면, 프로세서(130)는 기 학습된 검색 모델을 이용하여 객체에 대한 하나 이상의 유사 이미지 검색을 수행할 수 있다. 구체적으로, 프로세서(130)는 기 학습된 검색 모델을 이용하여 객체에 대한 분류 결과에 따라 객체에 대한 하나 이상의 유사 이미지 검색을 수행할 수 있다. 이 경우, 기 학습된 검색 모델은, 특정 카테고리(예컨대, 비정상에 관련한 카테고리)로 분류된 객체를 입력으로 하여 이미지 데이터베이스로부터 해당 객체와 유사성을 가지는 하나 이상의 유사 이미지를 검색하기 위한 신경망 모델일 수 있다. 이러한 검색 모델은 학습 데이터를 통해 프로세서(130)에 의해 사전 학습된 것일 수 있다.According to an embodiment of the present disclosure, the processor 130 may perform one or more similar image searches for an object using a pre-learned search model. Specifically, the processor 130 may perform one or more similar image searches for the object according to the classification result of the object using the pre-learned search model. In this case, the pre-learned search model may be a neural network model for retrieving one or more similar images having similarity to the corresponding object from the image database by inputting an object classified into a specific category (eg, a category related to abnormality). . Such a search model may be pre-trained by the processor 130 through training data.
검색 모델은, 프록시 기반 메트릭 학습 기반의 신경망 모델로, 목표 대상 벡터와 포지티브 프록시(positive proxy) 간의 유사도를 높이고, 상기 목표 대상 벡터와 네거티브 프록시(negative proxy) 간의 유사도를 낮추는 방향으로 학습되는 것을 특징으로 할 수 있다. 프록시는, 객체와 이미지데이터 베이스에 기 저장된 이미지들 간 유사도를 비교하기 위한 임베딩 벡터들의 대표성을 나타내는 벡터일 수 있다.The search model is a neural network model based on proxy-based metric learning, in which the similarity between the target vector and the positive proxy is increased and the similarity between the target vector and the negative proxy is lowered. can be done with The proxy may be a vector indicating representativeness of embedding vectors for comparing the similarity between the object and images previously stored in the image database.
구체적인 예를 들어, 프로세서(130)는 제1 객체에 관련한 특징을 목표 대상 벡터, 제1 객체와 유사한 벡터를 목표 대상 시밀러 벡터 및 제2 객체에 관련한 벡터를 목표 대상 디스시밀러 벡터로 포함하는 학습 데이터를 이용하여 검색 모델을 학습시킬 수 있다. 이러한 학습 데이터를 이용하여 검색 모델을 학습시키는 경우, 검색 모델은 목표 대상 벡터와 목요 대상 시밀러 벡터를 같은 군(또는 클러스터)으로 분류하고, 목표 대상 벡터와 목표 대상 디스시밀러 벡터를 다른 군으로 분류하도록 학습될 수 있다.For a specific example, the processor 130 may include a target target vector with features related to the first object, a vector similar to the first object, a target target similar vector, and a vector related to the second object as a target target dissimilar vector. A search model can be trained using the training data. When a search model is trained using such training data, the search model classifies the target target vector and the Thursday target similar vector into the same group (or cluster), and divides the target target vector and target dissimilar vector into different groups. can be learned to classify.
보다 자세히 설명하면, 검색 모델은, 해공간 상에서 유사한 데이터들끼리 클러스터를 형성하도록 학습된다. 검색 모델은 목표 대상 벡터가 목표 대상 시밀러 벡터와 하나의 클러스터에 포함되고, 목표 대상 디스시밀러 벡터는, 목표 대상 벡터 및 목표 대상 시밀러 벡터와 상이한 클러스터에 포함되도록 학습된다. 학습된 검색 모델의 해공간 상에서 각각의 클러스터는 일정 거리 마진을 가지도록 위치할 수 있다.More specifically, the search model is trained to form clusters among similar data in a solution space. The search model is trained such that the target vector is included in one cluster with the target similar vector, and the target dissimilar vector is included in a different cluster from the target vector and target similar vector. Each cluster may be positioned to have a certain distance margin on the solution space of the learned search model.
검색 모델은 목표 대상 타겟 벡터, 목표 대상 시밀러 벡터, 목표 대상 디스시밀러 벡터를 포함하는 학습 데이터를 입력 받아 각각의 데이터들을 해공간에 매칭하고 해공간 상에서 라벨링 된 클러스터 정보에 따라 클러스터링 될 수 있도록 검색 모델에 포함된 하나 이상의 네트워크 함수의 가중치를 업데이트할 수 있다. 즉, 검색 모델은 목표 대상 벡터와 목표 대상 시밀러 벡터가 해공간 상에서의 거리가 서로 가까워지도록, 목표 대상 벡터 및 목표 대상 디스시밀러 벡터 사이의 해공간 상에서의 거리가 서로 멀어지도록 학습시킬 수 있다. 검색 모델은 프록시 기반 메트릭 기반 비용 함수를 사용하여 학습될 수 있다. 프록시 기반 메트릭 기반 비용 함수는, 동일한 분류인 입력 데이터들을 다른 분류에 관련한 네거티브 프록시로부터 분리하는 것을 목표로 하며, 해당 목표 대상 벡터로부터 동일한 분류인 입력 데이터들의 대표성을 나타내는 포지티브 프록시까지의 제1 거리와 해당 포지티브 프록시로부터 네거티브 프록시까지의 제2 거리 사이의 차이 값을 적어도 거리 마진으로 하며, 검색 모델을 학습시키는 방법은, 제1 거리를 거리 마진의 일정 비율 이하로 감소시키는 단계를 포함할 수 있다. 여기서 거리 마진은 항상 양수일 수 있다. 거리 마진에 도달하도록 하기 위하여 검색 모델에 포함된 하나 이상의 네트워크 함수의 가중치가 업데이트 될 수 있으며, 가중치 업데이트는 반복(iteration) 마다 또는 1 에포크 마다 수행될 수 있다.The search model receives training data including a target target target vector, target target similar vector, and target target dissimilar vector, matches each data to the solution space, and searches so that it can be clustered according to the labeled cluster information in the solution space You can update the weights of one or more network functions included in the model. That is, the search model can be trained so that the distance between the target vector and the target similar vector in the solution space is close to each other, and the distance in the solution space between the target vector and the target dissimilar vector is far apart from each other. . The search model can be trained using a proxy-based metric-based cost function. The proxy-based metric-based cost function aims to separate input data of the same class from negative proxies related to different classes, and a first distance from a corresponding target target vector to a positive proxy representing representativeness of input data of the same class and A difference value between the second distance from the positive proxy to the negative proxy is at least a distance margin, and the method for training the search model may include reducing the first distance to less than or equal to a predetermined ratio of the distance margin. Here the distance margin can always be positive. In order to reach the distance margin, the weights of one or more network functions included in the search model may be updated, and the weight update may be performed every iteration or every 1 epoch.
상술한 과정을 통해 프록시 기반 메트릭 학습된 모델인 검색 모델이 구비될 수 있으며, 해당 검색 모델의 입력 데이터를 클러스터로 분류함에 따라, 특정 객체와 유사성을 가지는 하나 이상의 유사 이미지에 대한 검색이 수행될 수 있다. 프록시 기반 메트릭 학습은, 페어 또는 트리플렛 기반의 학습 방식과는 다르게, 각 데이터의 임베딩을 특정 클래스의 대표성을 나타내는 임베딩과 비교하기 때문에 학습을 위한 mini-batch 샘플링 과정에서의 연산량이 대폭 감소될 수 있으며, 이에 따라 학습 속도 및 효율이 향상될 수 있다. A search model that is a proxy-based metric learned model may be provided through the above process, and as input data of the search model is classified into clusters, a search for one or more similar images having similarity to a specific object may be performed. have. Proxy-based metric learning, unlike pair or triplet-based learning, compares embeddings of each data with embeddings representing the representativeness of a specific class, so the amount of computation in the mini-batch sampling process for learning can be significantly reduced. , and thus learning speed and efficiency can be improved.
또한, 대표성에 관련한 정보(예컨대, global information)를 기준으로 학습되므로, 학습 과정에서 이상점(outlier)에 위치하는 데이터(즉, 동일 클래스로 분류되나 특이 샘플에 관련한 데이터)에 대한 영향이 최소화될 수 있다. 이는 특이 형태의 객체 이미지(예컨대, 특이 형태 세포 이미지)가 많은 의료 분야에서의 유사 이미지 검색 능력 향상에 기여할 수 있다.In addition, since it is learned based on representativeness-related information (eg, global information), the influence on data located at an outlier in the learning process (ie, data classified into the same class but related to a specific sample) will be minimized. can This may contribute to the improvement of similar image search ability in medical fields where there are many specific type object images (eg, specific type cell images).
본 개시의 일 실시예에 따르면, 프로세서(130)는 객체의 특징정보를 이용하여 하나 이상의 유사 이미지 검색을 수행할 수 있다. 이 경우, 객체의 특징정보는, 객체의 시각적인 특징과 의학적인 특징을 함께 고려한 정보로, 객체의 시각적 특징 및 객체의 속성정보를 통해 생성되는 것일 수 있다. 예컨대, 특징정보는, 신경망 모델이 입력 데이터에 대응하여 출력하는 특징 벡터를 의미할 수 있다. 즉, 특징정보는 특정 입력에 관련한 벡터 공간 상의 임베딩을 의미할 수 있다. 이 경우, 특정 입력에 대응하는 특징 벡터를 출력하는 신경망 모델은 다양한 특징 벡터를 출력하도록 학습된 하나 이상의 신경망 모델을 포함할 수 있다. 예를 들어, 제1 모델은 제1 입력 데이터를 입력으로 하여, 해당 제1 입력 데이터에 대응하는 시각적 특징 벡터를 출력하는 신경망 모델일 수 있으며, 제2 모델은 제1 입력 데이터를 입력으로 하여, 해당 제1 입력 데이터에 대응하는 의학적 특징 벡터를 출력하는 신경망 모델일 수 있다. 즉, 본 개시에서의 특징정보는, 시각적인 특징 및 의학적인 특징 각각에 관련한 특징 벡터를 포함할 수 있다.According to an embodiment of the present disclosure, the processor 130 may perform one or more similar image searches using characteristic information of the object. In this case, the characteristic information of the object is information that considers the visual characteristics and the medical characteristics of the object together, and may be generated through the visual characteristics of the object and attribute information of the object. For example, the feature information may mean a feature vector output by the neural network model in response to input data. That is, the feature information may mean embedding in a vector space related to a specific input. In this case, the neural network model that outputs a feature vector corresponding to a specific input may include one or more neural network models trained to output various feature vectors. For example, the first model may be a neural network model that takes the first input data as an input and outputs a visual feature vector corresponding to the first input data, and the second model uses the first input data as an input, It may be a neural network model that outputs a medical feature vector corresponding to the first input data. That is, the feature information in the present disclosure may include a feature vector related to each of a visual feature and a medical feature.
자세히 설명하면, 프로세서(130)는 이미지에 포함된 콘텐츠 정보에 기반하여 특징을 추출하는 제1 모델을 이용하여 객체의 시각적 특징을 획득할 수 있다. 이 경우, 제1 모델은, 학습된 분류 모델 중 차원 감소 서브 모델(예컨대, 인코더)을 통해 구현될 수 있다. 구체적으로, 학습된 분류 모델은, 검사 이미지에 포함된 하나 이상의 객체 각각에 대한 분류를 수행하는 모델일 수 있으며, 이를 구성하는 차원 감소 서브 모델은, 하나 이상의 객체 각각을 입력으로 하여 각 객체에 대응하는 벡터를 출력하는 출력할 수 있다. 즉, 차원 감소 서브 모델은, 각 객체 이미지의 시각적 특징에 관한 벡터를 출력하는 모델일 수 있다. 다시 말해, 제1 모델은 학습된 분류 모델 중 차원 감소 서브 모델을 통해 구현될 수 있으며, 이미지를 입력으로 하여 해당 이미지에 관련한 시각적인 특징에 관련한 벡터를 출력할 수 있다. 예컨대, 제1 모델의 출력에 관련한 특징 벡터 간의 거리가 가까운 경우, 입력에 관련한 이미지들이 시각적으로 유사하다는 것을 의미할 수 있으며, 출력에 관련한 특징 벡터 간의 거리가 먼 경우, 입력에 관련한 이미지들이 시각적으로 유사하지 않음을 의미할 수 있다. 다시 말해, 프로세서(130)는 제1 모델을 이용하여 객체 이미지에 대응하는 시각적 특징을 획득할 수 있다. 이 경우, 이미지에서 시각적 특징을 추출하는 제1 모델은 기 학습된 분류 모델의 일부를 통해 구현됨에 따라, 신경망 모델의 구현하기 위한 별도의 학습 데이터 구축 및 학습 과정이 생략될 수 있다. 다만, 본 개시의 제1 모델은, 차원 감소 서브 모델을 통해 구현되는 것만으로 제한되지 않는다. 즉, 본 개시의 실시예에 따라, 다양한 학습 방법을 통해 이미지에 대응하여 시각적 특징을 추출하는 제1 모델이 구비될 수도 있다.In more detail, the processor 130 may acquire the visual characteristics of the object by using the first model for extracting the features based on content information included in the image. In this case, the first model may be implemented through a dimension reduction sub-model (eg, an encoder) among the learned classification models. Specifically, the learned classification model may be a model that performs classification on each of one or more objects included in the inspection image, and the dimensionality reduction sub-model constituting it corresponds to each object by receiving each of the one or more objects as an input. You can output a vector that does. That is, the dimension reduction sub-model may be a model that outputs a vector related to the visual feature of each object image. In other words, the first model may be implemented through a dimensionality reduction sub-model among the learned classification models, and a vector related to a visual feature related to the image may be output by receiving an image as an input. For example, when the distance between the feature vectors related to the output of the first model is close, it may mean that the images related to the input are visually similar, and when the distance between the feature vectors related to the output is long, the images related to the input are visually It may mean that they are not similar. In other words, the processor 130 may acquire a visual feature corresponding to the object image by using the first model. In this case, since the first model for extracting visual features from the image is implemented through a part of the pre-trained classification model, a separate learning data construction and learning process for implementing the neural network model may be omitted. However, the first model of the present disclosure is not limited to only being implemented through the dimensionality reduction sub-model. That is, according to an embodiment of the present disclosure, a first model for extracting visual features corresponding to an image through various learning methods may be provided.
또한, 프로세서(130)는 이미지에 대응하는 특정 속성을 산출하는 제2 모델을 이용하여 객체에 대응하는 속성정보를 획득할 수 있다. 객체의 속성정보는, 객체의 판독 결과에 관련한 정보일 수 있다. 예컨대, 객체의 속성정보는, 특정 객체(예컨대, 폐)가 비정상일 확률이 94%임에 따라, 폐렴이라는 판독 결과에 관련한 정보를 포함할 수 있다.Also, the processor 130 may obtain attribute information corresponding to the object by using the second model for calculating a specific attribute corresponding to the image. The attribute information of the object may be information related to the reading result of the object. For example, the attribute information of the object may include information related to a reading result of pneumonia as there is a 94% probability that a specific object (eg, lung) is abnormal.
이 경우, 제2 모델은, 이미지에 대응하는 특정 이벤트의 확률정보를 산출하는 모델일 수 있다. 즉, 프로세서(130)는 제2 모델을 이용하여 객체에 대응하는 확률값을 획득하여 객체의 속성정보를 획득할 수 있다. 다시 말해, 제2 모델을 통해 산출된 확률값에 기초하여 객체의 속성정보가 획득될 수 있다.In this case, the second model may be a model for calculating probability information of a specific event corresponding to the image. That is, the processor 130 may obtain the attribute information of the object by obtaining a probability value corresponding to the object using the second model. In other words, the attribute information of the object may be obtained based on the probability value calculated through the second model.
일 실시예에 따르면, 제2 모델은 기 학습된 분류 모델을 포함하여 구현될 수 있다. 본 개시의 분류 모델은, 프로세서(130)에 의해 검사 이미지에 포함된 하나 이상의 객체를 검출하고, 검출된 각 객체에 대한 분류를 수행하도록 학습된 신경망 모델일 수 있다. 이 경우, 제2 모델은, 분류 결과에 기초하여 확률값을 산출하는 것을 특징으로 할 수 있다. 예컨대, 비정상에 관련한 카테고리로 분류된 객체의 수가 사전 결정된 임계치를 초과하는 경우, 특정 질병에 해당한다는 확률값을 높게 산출할 수 있다. 즉, 분류 결과에 관련한 확률값은 해당 객체들을 포함하는 검사 이미지에 대한 진단 결과에 관련한 것일 수 있다. According to an embodiment, the second model may be implemented including a pre-trained classification model. The classification model of the present disclosure may be a neural network model trained to detect one or more objects included in the examination image by the processor 130 and to classify each detected object. In this case, the second model may be characterized in that the probability value is calculated based on the classification result. For example, when the number of objects classified into an abnormality-related category exceeds a predetermined threshold, a high probability value corresponding to a specific disease may be calculated. That is, the probability value related to the classification result may be related to the diagnosis result of the examination image including the corresponding objects.
구체적인 예를 들어, 제2 모델은 특정 검사 이미지를 입력으로 하여 하나 이상의 진단명 각각에 관련한 확률값을 출력할 수 있다. 예컨대, 제2 모델은, 해당 검사 이미지에 대응하여 폐렴에 관련한 제1 확률값은 80%으로 출력하고, 폐암에 관련한 제2 확률값을 6%로 산출할 수 있다. 이 경우, 프로세서(130)는 하나 이상의 진단명 각각에 대응하여 출력된 확률값 중 가장 높은 80%에 대응하여 폐렴이라는 판독에 관련한 속성정보를 획득할 수 있다. 전술한, 진단명, 진단명 각각에 대응하는 확률값에 대한 구체적인 기재는 예시일 뿐, 본 개시는 이에 제한되지 않는다. As a specific example, the second model may output a probability value related to each of one or more diagnosis names by receiving a specific examination image as an input. For example, the second model may output a first probability value related to pneumonia as 80% and calculate a second probability value related to lung cancer as 6% in response to the test image. In this case, the processor 130 may acquire attribute information related to reading pneumonia corresponding to the highest 80% of the probability values output in response to each of one or more diagnosis names. The detailed description of the above-described diagnosis name and probability value corresponding to each diagnosis name is merely an example, and the present disclosure is not limited thereto.
또한, 프로세서(130)는 객체의 시각적 특징 및 객체의 속성정보를 이용하여 객체에 대한 특징정보를 획득할 수 있다. 구체적으로, 프로세서(130)는 제1 모델을 통해 획득한 객체의 시각적 특징 및 제2 모델을 획득한 객체의 속성정보에 기초하여 객체에 대한 특징정보를 획득할 수 있다. 즉, 획득되는 특징정보는, 객체의 시각적인 특징과 객체의 의학적인 특징이 함께 고려된 정보일 수 있다.Also, the processor 130 may acquire characteristic information about the object by using the visual characteristics of the object and attribute information of the object. Specifically, the processor 130 may acquire characteristic information about the object based on the visual characteristics of the object acquired through the first model and attribute information of the object acquired with the second model. That is, the acquired characteristic information may be information in which the visual characteristics of the object and the medical characteristics of the object are considered together.
또한, 프로세서(130)는 객체의 특징정보를 이용하여 객체에 대응하는 유사 이미지를 검색할 수 있다. 즉, 프로세서(130)는 객체의 시각적인 특징과 객체의 의학적인 특징이 함께 고려된 객체의 특징정보를 이용하여 객체에 대응하는 유사 이미지를 검색할 수 있다.Also, the processor 130 may search for a similar image corresponding to the object by using the characteristic information of the object. That is, the processor 130 may search for a similar image corresponding to the object by using the characteristic information of the object in which the visual characteristics of the object and the medical characteristics of the object are considered together.
일 실시예에 따르면, 프로세서(130)는 특징정보를 획득하는 과정에서, 객체의 시각적 특징 및 객체의 속성정보 중 적어도 하나의 정보에 대하여 가중치를 부여할 수 있다. 즉, 프로세서(130)는 객체의 특징정보를 활용한 검색 과정에서 시각적인 특징 또는 의학적인 특징 중 적어도 하나의 특징이 더 반영된 검색을 수행할 수 있다.According to an embodiment, in the process of acquiring the characteristic information, the processor 130 may assign a weight to at least one of the visual characteristics of the object and the attribute information of the object. That is, the processor 130 may perform a search in which at least one of a visual characteristic or a medical characteristic is further reflected in the search process using the characteristic information of the object.
예를 들어, 프로세서(130)가 객체의 시각적 특징에 가중치를 부가하는 경우, 특징정보를 활용한 유사 이미지 검색은, 의학적인 특징 보다 객체의 시각적인 특징이 더욱 반영된 검색일 수 있다. 다른 예를 들어, 프로세서(130)가 객체의 의학적인 특징에 가중치를 부가하는 경우, 특징정보를 활용한 유사 이미지 검색은 시각적인 특징 보다 객체의 의학적인 특징이 더욱 반영된 검색일 수 있다. For example, when the processor 130 adds weight to the visual characteristics of the object, the similar image search using the characteristic information may be a search in which the visual characteristics of the object are more reflected than the medical characteristics. As another example, when the processor 130 adds weight to the medical characteristics of the object, the similar image search using the characteristic information may be a search in which the medical characteristics of the object are more reflected than the visual characteristics.
일 실시예에서, 프로세서(130)는 제2 모델이 출력한 확률값에 기초하여 객체의 시각적 특징 및 객체의 속성정보 중 적어도 하나의 정보에 가중치를 부여할 것을 결정할 수 있다. 구체적으로, 프로세서(130)는 제2 모델이 출력한 확률값이 사전 결정된 임계 확률값을 초과하는지 여부에 기초하여 시각적 특징 및 속성정보 중 적어도 하나의 가중치를 부여함으로써, 유사 이미지 검색이 시각적인 특징을 중점으로 하는 검색인지 또는 의학적인 특징을 중점으로 하는 검색인지 여부를 결정할 수 있다. 프로세서(130)는 제2 모델이 출력한 확률값이 사전 결정된 임계 확률값을 초과하는 경우, 속성정보의 신뢰도가 기준치 이상인 것으로 판별하여 의학적인 특징에 관련한 속성정보에 가중치를 부여할 수 있다. 또한, 프로세서(130)는 제2 모델이 출력한 확률값이 사전 결정된 임계 확률값 이하인 경우, 속성정보의 신뢰도가 다소 낮은 것으로 판별하여 시각적인 특징에 관련한 속성정보에 가중치를 부여할 수 있다.In an embodiment, the processor 130 may determine to assign a weight to at least one of the visual characteristics of the object and the attribute information of the object based on the probability value output by the second model. Specifically, the processor 130 assigns a weight to at least one of visual features and attribute information based on whether the probability value output by the second model exceeds a predetermined threshold probability value, so that similar image search focuses on visual features It is possible to determine whether the search is a search based on , or a search focused on medical characteristics. When the probability value output by the second model exceeds a predetermined threshold probability value, the processor 130 may determine that the reliability of the attribution information is equal to or greater than a reference value, and assign a weight to the attribution information related to the medical characteristic. In addition, when the probability value output by the second model is less than or equal to a predetermined threshold probability value, the processor 130 may determine that the reliability of the attribution information is somewhat low, and assign a weight to the attribution information related to the visual characteristic.
전술한 바와 같이, 본 개시에서 수행되는 유사 이미지 검색은, 단순히 이미지에 관련한 시각적인 유사도만을 고려하는 것이 아닌, 객체 이미지에 관련한 진단 정보에 관련한 객체의 속성정보가 반영(즉, 특정 위험에 관련된 이미지로부터의 검색을 가능하게 하는 정보)된 특징정보를 통해 수행되는 것이므로, 의학적으로 보다 근접한 유사 영상의 검색이 가능해질 수 있다.As described above, the similar image search performed in the present disclosure does not simply consider the visual similarity related to the image, but reflects the attribute information of the object related to the diagnostic information related to the object image (that is, the image related to a specific risk) Since it is performed through feature information that enables a search from), it is possible to search for a similar image that is medically closer.
추가적으로, 의학적인 특징에 관련한 속성정보 산출값에 기초하여 시각적인 특징 또는 의학적인 특징 중 비교적 신뢰도를 가진 특징이 더욱 반영되도록 가중치를 부여함으로써, 유사 이미지 검색의 정확성 및 신뢰도가 향상될 수 있다. Additionally, accuracy and reliability of similar image search may be improved by assigning weights to further reflect relatively reliable features among visual features or medical features based on the calculated value of attribute information related to medical features.
본 개시의 일 실시예에 따르면, 프로세서(130)는 유사 이미지 검색결과를 제공할 수 있다. 구체적으로, 프로세서(130)는 하나 이상의 객체를 포함하는 검사 이미지를 기 학습된 분류 모델의 입력으로 처리하여, 하나 이상의 객체를 하나 이상의 카테고리로 분류할 수 있으며, 객체의 분류 결과에 따라 기 학습된 검색 모델을 이용하여 객체에 대한 하나 이상의 유사 이미지 검색을 수행할 수 있다. 다시 말해, 프로세서(130)는 기 학습된 신경망 모델을 활용하여 하나 이상의 객체를 포함하는 검사 이미지로부터 비정상에 관련한 카테고리로 분류된 특정 객체를 검출하고, 이미지 데이터베이스로부터 검출된 객체와 유사성을 가지는 하나 이상의 유사 이미지를 검색함으로써, 유사 이미지 검색결과를 제공할 수 있다. 예를 들어, 도 4에 도시된 바와 같이, 검사 이미지가 폐에 관련한 x-ray 이미지인 경우, 객체인 폐 이미지(310)에 관련하여 하나 이상의 유사 이미지(320)가 유사 이미지 검색결과로써 제공될 수 있다. According to an embodiment of the present disclosure, the processor 130 may provide a similar image search result. Specifically, the processor 130 may classify one or more objects into one or more categories by processing an inspection image including one or more objects as an input of a pre-trained classification model, and may classify the one or more objects into one or more categories according to the classification results of the objects. The search model may be used to perform one or more similar image searches for an object. In other words, the processor 130 detects a specific object classified into a category related to abnormality from an examination image including one or more objects by using the pre-trained neural network model, and detects one or more objects having similarity to the object detected from the image database. By searching for similar images, it is possible to provide similar image search results. For example, as shown in FIG. 4 , when the examination image is an x-ray image related to the lung, one or more similar images 320 may be provided as a similar image search result in relation to the lung image 310 which is an object. can
또한, 프로세서(130)가 제공하는 검색결과는, 하나 이상의 유사 이미지 및 각 유사 이미지에 대응하는 진단 기록을 포함할 수 있다.In addition, the search result provided by the processor 130 may include one or more similar images and a diagnostic record corresponding to each similar image.
일 실시예에 따르면, 프로세서(130)는 객체와 유사도가 높은 이미지를 선별하여 제공할 수 있다. According to an embodiment, the processor 130 may select and provide an image having a high similarity to the object.
추가적인 실시예에 따르면, 프로세서(130)는 객체와 유사도가 높은 이미지 또는 낮은 이미지를 선별하여 제공할 수도 있다. 예를 들어, 도 5에 도시된 바와 같이, 객체 이미지가 염색체 이미지(410)인 경우, 프로세서(130)는 해당 염색체 이미지(410)에 대응하여 하나 이상의 유사 이미지(420) 및 하나 이상의 비유사 이미지(430)를 제공할 수 있다. According to an additional embodiment, the processor 130 may select and provide an image with high or low similarity to the object. For example, as shown in FIG. 5 , when the object image is a chromosome image 410 , the processor 130 corresponds to the chromosome image 410 to one or more similar images 420 and one or more dissimilar images. 430 may be provided.
또한, 프로세서(130)는 객체와 유사도가 높지만, 객체와 상이한 카테고리로 분류된 이미지를 선별하여 제공할 수 있다. 이 경우, 객체와 상이한 카테고리는, 해당 객체에 대한 판독과 상이한 판독에 관련한 카테고리를 의미할 수 있다. 예를 들어, 제 1 객체가 폐렴이라는 진단 정보를 포함하는 경우, 프로세서(130)는 해당 제 1 객체에 대응하여 '폐렴'에 관련한 진단 정보를 제외한 다른 진단명(예컨대, 폐결핵)을 가진 카테고리 내에서 하나 이상의 유사 이미지 검색이 수행할 수 있다. In addition, the processor 130 may select and provide an image classified into a category different from the object although similar to the object is high. In this case, the category different from the object may mean a category related to reading different from the reading of the corresponding object. For example, when the first object includes diagnostic information of pneumonia, the processor 130 corresponds to the first object, except for diagnostic information related to 'pneumonia'. One or more similar image searches may be performed.
즉, 프로세서(130)는 특정 카테고리에 대응한 유사 이미지 검색을 통해 정보가 획일화되는 것을 방지할 수 있다. 다시 말해, 객체에 대응하여 제공하는 유사 이미지의 다양성을 확보할 수 있다. That is, the processor 130 may prevent information from being standardized through a similar image search corresponding to a specific category. In other words, it is possible to secure the diversity of similar images provided in response to the object.
따라서, 프로세서(130)는 의료 관련 이미지 데이터에 관련한 검사 이미지에서, 의학적 진단 또는 판독에 영향을 미치는 객체들을 식별하고, 해당 객체들 각각과 유사한 하나 이상의 유사 이미지들 및 각 유사 이미지에 대응하는 진단 기록을 제공함으로써, 사용자(예컨대, 전문의)의 의학적인 진단 또는 판독을 보조할 수 있다.Accordingly, the processor 130 identifies objects affecting medical diagnosis or reading in the examination image related to the medical-related image data, and records one or more similar images similar to each of the corresponding objects and a diagnosis record corresponding to each similar image. By providing , it is possible to assist a user (eg, a specialist) in medical diagnosis or reading.
다시 말해, 유사 영상의 AI 판독 결과 및 DB에 저장된 판독 소견을 제시하여, 전문의 간 진단 불일치가 많이 나타나는 모달리티와 판독명에 대해서도 향상된 판독 신뢰도를 담보하는 정보 제공을 가능하게 할 수 있다.In other words, by presenting the AI reading results of similar images and the reading findings stored in the DB, it is possible to provide information that guarantees improved reading reliability even for modalities and read names where there are many diagnostic discrepancies between specialists.
일 실시예에 따르면, 프로세서(130)는 하나 이상의 유사 이미지 각각에 매칭된 검진 정보에 기초하여 진단 정보를 업데이트할 수 있다. 구체적으로, 프로세서(130)는 검사 이미지에 대응하는 진단 정보를 생성할 수 있다. 진단 정보는 비정상에 관련한 카테고리로 분류된 객체의 수에 기초하여 생성될 수 있으며, 질병 유무에 관련한 진단 정보 및 발병률에 관련한 예측 정보를 포함할 수 있다. According to an embodiment, the processor 130 may update the diagnosis information based on the examination information matched to each of one or more similar images. Specifically, the processor 130 may generate diagnostic information corresponding to the examination image. The diagnostic information may be generated based on the number of objects classified into categories related to abnormalities, and may include diagnostic information related to the presence or absence of a disease and prediction information related to an incidence rate.
또한, 프로세서(130)는 기 학습된 신경망 모델을 활용하여 하나 이상의 객체를 포함하는 검사 이미지로부터 비정상에 관련한 카테고리로 분류된 특정 객체를 검출하고, 이미지 데이터베이스로부터 검출된 객체와 유사성을 가지는 하나 이상의 유사 이미지를 검색함으로써, 유사 이미지 검색결과를 제공할 수 있다. 이 경우, 프로세서(130)가 제공하는 검색결과는, 하나 이상의 유사 이미지 및 각 유사 이미지에 대응하는 검진 정보를 포함할 수 있다. In addition, the processor 130 detects a specific object classified into an abnormality-related category from an examination image including one or more objects by using the pre-trained neural network model, and detects one or more similarities having similarity to the object detected from the image database. By searching for an image, it is possible to provide a similar image search result. In this case, the search result provided by the processor 130 may include one or more similar images and examination information corresponding to each similar image.
이 경우, 프로세서(130)는 하나 이상의 유사 이미지에 대응하는 검진 정보에 기초하여 진단 정보를 업데이트할 수 있다. 진단 정보의 업데이트는, 예를 들어, 검진 정보들의 포함된 정보 중 적어도 일부를 진단 정보에 반영하는 것을 의미할 수 있다. 진단 정보의 업데이트는, 하나 이상의 유사 이미지에 대응하는 검진 정보가 진단 정보와 상이한 내용의 제 1 판독 정보를 포함하는 경우, 해당 제 1 판독 정보를 진단 정보에 반영하는 것을 의미할 수 있다. 구체적인 예를 들어, 프로세서(130)가 검사 이미지에 대응하여 생성된 진단 정보가 폐렴 해당한다는 판독 정보를 포함하며, 제 1 유사 이미지에 대응하는 검진 정보가 폐결핵에 해당하는 판독 정보를 포함하고, 제 2 유사 이미지에 대응하는 검진 정보가 폐결핵에 해당하는 판독 정보를 포함하는 경우, 프로세서(130)는, 제 1 유사 이미지 및 제 2 유사 이미지에 매칭된 검진 정보인 '폐결핵'에 기초하여 기존 '폐렴'에 관련한 판독 정보만을 포함하는 진단 정보를 '폐렴 또는 폐결핵이 의심됨'등으로 업데이트할 수 있다. 전술한 진단 정보의 업데이트에 관한 구체적인 기재는 예시일 뿐, 본 개시는 이에 제한되지 않는다. In this case, the processor 130 may update the diagnosis information based on the examination information corresponding to one or more similar images. Updating the diagnosis information may mean, for example, reflecting at least a part of information included in the diagnosis information to the diagnosis information. Updating the diagnostic information may mean that when the examination information corresponding to one or more similar images includes first read information having a different content from the diagnostic information, the first read information is reflected in the diagnostic information. As a specific example, the diagnostic information generated by the processor 130 in response to the examination image includes reading information that corresponds to pneumonia, the examination information corresponding to the first similar image includes reading information corresponding to pulmonary tuberculosis, and the second When the checkup information corresponding to the two similar images includes read information corresponding to pulmonary tuberculosis, the processor 130, based on 'pulmonary tuberculosis', which is checkup information matched to the first similar image and the second similar image, Diagnostic information including only read information related to ' can be updated to 'Pneumonia or pulmonary tuberculosis is suspected'. The detailed description of the update of the diagnostic information described above is only an example, and the present disclosure is not limited thereto.
즉, 프로세서(130)는 객체에 관련한 유사 이미지에 매칭된 검진 정보에 기초하여 진단 정보를 업데이트할 수 있다. 진단 정보가 업데이트되는 경우, 기존 진단 정보에 포함되지 않은 부가적인 정보를 제공할 수 있으므로, 다양한 유형의 판독 정보를 통한 의료 보조를 수행할 수 있다. That is, the processor 130 may update the diagnosis information based on the examination information matched to the similar image related to the object. When the diagnostic information is updated, since additional information not included in the existing diagnostic information may be provided, medical assistance may be performed through various types of read information.
본 개시의 일 실시예에 따르면, 검사 이미지는, 복수의 세포 이미지를 포함할 수 있다. 예컨대, 세포 이미지는, 자궁경부 세포 이미지일 수 있다. 또한, 프로세서(130)는 복수의 세포 이미지 각각을 하나 이상의 카테고리로 분류할 수 있다. 이 경우, 하나 이상의 카테고리는, 정상 상태, 저위험 상태 및 고위험 상태 중 적어도 하나를 포함할 수 있다. 구체적으로, 프로세서(130)는 분류 모델에 검사 이미지를 입력으로 처리하여 복수의 세포 이미지를 검출하고, 검출한 각 세포 이미지를 정상 상태, 저위험 상태 및 고위험 상태 중 적어도 하나로 분류할 수 있다. 즉, 도 3에 도시된 바와 같이, 프로세서(130)는 검사 이미지에 포함된 복수의 세포 이미지 각각을 검출하고 각 세포 이미지를 3개의 카테고리 중 적어도 하나로 분류할 수 있다. According to an embodiment of the present disclosure, the examination image may include a plurality of cell images. For example, the cell image may be a cervical cell image. Also, the processor 130 may classify each of the plurality of cell images into one or more categories. In this case, the one or more categories may include at least one of a normal state, a low-risk state, and a high-risk state. Specifically, the processor 130 may process the examination image as an input to the classification model to detect a plurality of cell images, and classify each detected cell image into at least one of a normal state, a low risk state, and a high risk state. That is, as shown in FIG. 3 , the processor 130 may detect each of a plurality of cell images included in the examination image and classify each cell image into at least one of three categories.
또한, 프로세서(130)는 복수의 세포 이미지 각각에 대한 분류 결과에 기초하여 검사 이미지에 대응하는 진단 정보를 생성할 수 있다. 진단 정보는 비정상에 관련한 카테고리로 분류된 세포 이미지의 수에 기초하여 생성될 수 있으며, 질병 유무에 관련한 진단 정보 및 발병률에 관련한 예측 정보를 포함할 수 있다.Also, the processor 130 may generate diagnostic information corresponding to the examination image based on the classification result for each of the plurality of cell images. The diagnostic information may be generated based on the number of cell images classified into categories related to abnormalities, and may include diagnostic information related to the presence or absence of a disease and predictive information related to an incidence rate.
또한, 프로세서(130)는 복수의 세포 이미지 중 적어도 일부에 대한 유사 이미지 검색을 수행할 수 있다. 구체적으로, 프로세서(130)는 기 학습된 신경망 모델을 활용하여 하나 이상의 세포 이미지를 포함하는 검사 이미지로부터 각 세포 이미지를 검출하고, 이미지 데이터베이스로부터 검출된 세포 이미지와 유사성을 가지는 하나 이상의 유사 이미지를 검색함으로써, 유사 이미지 검색결과를 제공할 수 있다. 이 경우, 프로세서(130)가 제공하는 검색결과는, 하나 이상의 유사 이미지 및 각 유사 이미지에 대응하는 검진 정보를 포함할 수 있다. 구체적인 예를 들어, 도 3을 참조하면, 프로세서(130)는 검사 이미지로부터 하나 이상의 세포 이미지(210)를 검출할 수 있다. 또한, 프로세서(130)는 하나 이상의 세포 이미지(210) 각각에 대응하여 하나 이상의 유사 이미지를 검색결과(220)를 제공할 수 있다. 즉, 도 3에 도시된 바와 같이, 각 세포 이미지에 대응하여 높은 유사도를 가진 세포 순으로 정렬되어 표시될 수 있다. 이 경우, 각 세포 이미지와 하나 이상의 유사 이미지 간의 유사도는 함께 표시될 수 있다. Also, the processor 130 may perform a similar image search for at least some of the plurality of cell images. Specifically, the processor 130 detects each cell image from the examination image including one or more cell images by using the pre-trained neural network model, and searches for one or more similar images having similarity to the detected cell image from the image database. By doing so, it is possible to provide similar image search results. In this case, the search result provided by the processor 130 may include one or more similar images and examination information corresponding to each similar image. As a specific example, referring to FIG. 3 , the processor 130 may detect one or more cell images 210 from the examination image. Also, the processor 130 may provide the search result 220 for one or more similar images corresponding to each of the one or more cell images 210 . That is, as shown in FIG. 3 , cells having a high degree of similarity may be sorted and displayed corresponding to each cell image. In this case, the degree of similarity between each cell image and one or more similar images may be displayed together.
도 6은 본 개시의 일 실시예와 관련된 검사 이미지에 대응하여 하나 이상의 유사 이미지를 제공하는 과정을 설명하기 위한 예시적인 예시도이다.6 is an exemplary diagram for explaining a process of providing one or more similar images in response to an examination image related to an embodiment of the present disclosure.
본 개시의 일 실시예에 따르면, 컴퓨팅 장치(100)는 검사 이미지(501)에 대응하여 하나 이상의 유사 이미지를 제공할 수 있다. 일 실시예에 따르면, 하나 이상의 유사 이미지의 제공은, 분류 모델을 통해 획득한 결과(즉, 진단 정보)에 대한 검증 또는 의학적 보조를 위한 것일 수 있다. 예컨대, 하나 이상의 유사 이미지 제공은, 분류 모델을 통해 획득한 검사 이미지에 대응하는 진단 정보가 적정한지 여부를 검증하기 위한 것일 수 있다. 즉, 하나 이상의 유사 이미지를 제공하여 유사한 상황에서의 기존 진료 기록을 획득함으로써, 본 개시의 분류 모델을 통해 획득한 진단 정보가 적정한지 여부에 대한 의학적 검증 또는 진단 정보에 대응하는 진단 보조를 수행할 수 있다.According to an embodiment of the present disclosure, the computing device 100 may provide one or more similar images in response to the examination image 501 . According to an embodiment, the provision of one or more similar images may be for verification or medical assistance on a result (ie, diagnostic information) obtained through a classification model. For example, the provision of one or more similar images may be for verifying whether diagnostic information corresponding to an examination image obtained through a classification model is appropriate. That is, by providing one or more similar images to obtain an existing medical record in a similar situation, medical verification of whether the diagnosis information obtained through the classification model of the present disclosure is appropriate or a diagnosis assistance corresponding to the diagnosis information. can
구체적으로, 컴퓨팅 장치(100)는 검사 이미지(501)에 포함된 각 객체의 특징정보를 이용하여 하나 이상의 유사 이미지 검색을 수행할 수 있다. 객체의 특징정보는, 객체의 시각적 특징(511) 및 객체의 속성정보(521)에 기반하여 생성되는 정보일 수 있다. 예컨대, 특징정보는, 신경망 모델이 입력 데이터에 대응하여 출력하는 특징 벡터를 의미할 수 있다. 즉, 특징정보는 특정 입력에 관련한 벡터 공간 상의 임베딩을 의미할 수 있다. 이 경우, 특정 입력에 대응하는 특징 벡터를 출력하는 신경망 모델은 다양한 특징 벡터를 출력하도록 학습된 하나 이상의 신경망 모델을 포함할 수 있다. 예를 들어, 제1 모델은 제1 입력 데이터를 입력으로 하여, 해당 제1 입력 데이터에 대응하는 시각적 특징 벡터를 출력하는 신경망 모델일 수 있으며, 제2 모델은 제1 입력 데이터를 입력으로 하여, 해당 제1 입력 데이터에 대응하는 의학적 특징 벡터를 출력하는 신경망 모델일 수 있다. 즉, 본 개시에서의 특징정보는, 시각적인 특징 및 의학적인 특징 각각에 관련한 특징 벡터를 포함할 수 있다.Specifically, the computing device 100 may search for one or more similar images by using characteristic information of each object included in the examination image 501 . The characteristic information of the object may be information generated based on the visual characteristic 511 of the object and the attribute information 521 of the object. For example, the feature information may mean a feature vector output by the neural network model in response to input data. That is, the feature information may mean embedding in a vector space related to a specific input. In this case, the neural network model that outputs a feature vector corresponding to a specific input may include one or more neural network models trained to output various feature vectors. For example, the first model may be a neural network model that takes the first input data as an input and outputs a visual feature vector corresponding to the first input data, and the second model uses the first input data as an input, It may be a neural network model that outputs a medical feature vector corresponding to the first input data. That is, the feature information in the present disclosure may include a feature vector related to each of a visual feature and a medical feature.
자세히 설명하면, 컴퓨팅 장치(100)는 검사 이미지(501)를 제1 모델(510)의 입력으로 처리하여 시각적 특징(511)을 획득할 수 있다. 이 경우, 제1 모델(510)은 학습된 분류 모델 중 차원 감소 서브 모델(예컨대, 인코더)을 통해 구현될 수 있다. 학습된 분류 모델은, 검사 이미지에 포함된 하나 이상의 객체 각각에 대한 분류를 수행하는 모델일 수 있으며, 이를 구성하는 차원 감소 서브 모델은, 하나 이상의 객체 각각을 입력으로 하여 각 객체에 대응하는 벡터를 출력하는 출력할 수 있다. 즉, 차원 감소 서브 모델은, 각 객체 이미지의 시각적 특징에 관한 벡터를 출력하는 모델일 수 있다. 다시 말해, 제1 모델(510)은 학습된 분류 모델 중 차원 감소 서브 모델을 통해 구현될 수 있으며, 이미지를 입력으로 하여 해당 이미지에 관련한 시각적인 특징에 관련한 벡터를 출력할 수 있다. 즉, 컴퓨팅 장치(100)는 제1 모델(510)을 이용하여 객체에 대응하는 시각적 특징(511)을 획득할 수 있다. 이 경우, 이미지에서 시각적 특징(511)을 추출하는 제1 모델(510)은 기 학습된 분류 모델의 일부를 통해 구현됨에 따라, 신경망 모델의 구현하기 위한 별도의 학습 데이터 구축 및 학습 과정이 생략될 수 있다.In more detail, the computing device 100 may acquire the visual feature 511 by processing the examination image 501 as an input of the first model 510 . In this case, the first model 510 may be implemented through a dimension reduction sub-model (eg, an encoder) among the learned classification models. The learned classification model may be a model that performs classification on each of one or more objects included in the inspection image, and the dimensionality reduction sub-model constituting this may receive a vector corresponding to each of the one or more objects by inputting each of the one or more objects as an input. It can be printed out. That is, the dimension reduction sub-model may be a model that outputs a vector related to the visual feature of each object image. In other words, the first model 510 may be implemented through a dimension reduction sub-model among the learned classification models, and may output a vector related to a visual feature related to the image by receiving an image as an input. That is, the computing device 100 may acquire the visual feature 511 corresponding to the object by using the first model 510 . In this case, as the first model 510 for extracting the visual features 511 from the image is implemented through a part of the pre-trained classification model, the separate learning data construction and learning process for implementing the neural network model will be omitted. can
또한, 컴퓨팅 장치(100)는 이미지에 대응하는 특정 속성을 출력하는 제2 모델(520)을 이용하여 객체에 대응하는 속성정보(521)를 획득할 수 있다. 객체의 속성정보는 객체의 판독 결과에 관련한 정보일 수 있다. 이 경우, 제2 모델(520)은, 이미지에 대응하는 특정 이벤트의 확률정보를 산출하는 모델일 수 있다. 컴퓨팅 장치(100)는 제2 모델(520)을 이용하여 객체에 대응하는 확률값을 획득하여 객체의 속성정보(521)를 획득할 수 있다. 이 경우, 제2 모델(520)은 기 학습된 분류 모델을 포함하여 구현될 수 있다. 본 개시의 분류 모델은, 컴퓨팅 장치(100)에 의해 검사 이미지에 포함된 하나 이상의 객체를 검출하고, 검출된 각 객체에 대한 분류를 수행하도록 학습된 신경망 모델이며, 분류 결과에 기초하여 확률값을 산출할 수 있다. 예컨대, 비정상에 관련한 카테고리로 분류된 객체의 수가 사전 결정된 임계치를 초과하는 경우, 특정 질병에 해당한다는 확률값을 높게 산출할 수 있다. 즉, 분류 결과에 관련한 확률값은 해당 객체들을 포함하는 검사 이미지에 대한 진단 결과에 관련한 것일 수 있다. 이에 따라, 분류 모델을 통해 구현되는 제2 모델(520)은, 분류 결과에 기초하여 확률값을 산출하는 것을 특징으로 할 수 있다.Also, the computing device 100 may acquire attribute information 521 corresponding to the object by using the second model 520 that outputs a specific attribute corresponding to the image. The attribute information of the object may be information related to the reading result of the object. In this case, the second model 520 may be a model for calculating probability information of a specific event corresponding to the image. The computing device 100 may obtain the attribute information 521 of the object by obtaining a probability value corresponding to the object by using the second model 520 . In this case, the second model 520 may be implemented including a pre-trained classification model. The classification model of the present disclosure is a neural network model trained to detect one or more objects included in an examination image by the computing device 100 and perform classification for each detected object, and calculate a probability value based on the classification result can do. For example, when the number of objects classified into an abnormality-related category exceeds a predetermined threshold, a high probability value corresponding to a specific disease may be calculated. That is, the probability value related to the classification result may be related to the diagnosis result of the examination image including the corresponding objects. Accordingly, the second model 520 implemented through the classification model may be characterized in that a probability value is calculated based on the classification result.
구체적인 예를 들어, 제2 모델(520)은 검사 이미지(501)를 입력으로 하여 하나 이상의 진단명 각각에 관련한 확률값을 출력할 수 있다. 예컨대, 제2 모델(520)은, 검사 이미지(501)에 대응하여 폐렴에 관련한 제1 확률값은 80%으로 출력하고, 폐암에 관련한 제2 확률값을 6%로 산출할 수 있다. 이 경우, 컴퓨팅 장치(100)는 하나 이상의 진단명 각각에 대응하여 출력된 확률값 중 가장 높은 80%에 대응하여 폐렴이라는 판독에 관련한 속성정보(521)를 획득할 수 있다. 전술한, 진단명, 진단명 각각에 대응하는 확률값에 대한 구체적인 기재는 예시일 뿐, 본 개시는 이에 제한되지 않는다.As a specific example, the second model 520 may output a probability value related to each of one or more diagnosis names by receiving the examination image 501 as an input. For example, in response to the examination image 501 , the second model 520 may output a first probability value related to pneumonia as 80% and calculate a second probability value related to lung cancer as 6%. In this case, the computing device 100 may acquire the attribute information 521 related to the reading of pneumonia corresponding to the highest 80% of the probability values output in response to each of one or more diagnosis names. The detailed description of the above-described diagnosis name and probability value corresponding to each diagnosis name is merely an example, and the present disclosure is not limited thereto.
또한, 컴퓨팅 장치(100)는 객체의 시각적 특징(511) 및 객체의 속성정보(521)를 이용하여 객체에 대한 특징정보(530)를 획득할 수 있다. 구체적으로, 컴퓨팅 장치(100)는 제1 모델(510)을 통해 획득한 객체의 시각적 특징(511) 및 제2 모델(520)을 획득한 객체의 속성정보(521)에 기초하여 객체에 대한 특징정보(530)를 획득할 수 있다. 즉, 획득되는 특징정보(530)는, 객체의 시각적인 특징과 객체의 의학적인 특징이 함께 고려된 정보일 수 있다.Also, the computing device 100 may obtain the characteristic information 530 of the object by using the visual characteristic 511 of the object and the attribute information 521 of the object. Specifically, the computing device 100 determines the characteristic of the object based on the visual feature 511 of the object obtained through the first model 510 and the attribute information 521 of the object obtained through the second model 520 . Information 530 may be obtained. That is, the acquired characteristic information 530 may be information in which the visual characteristics of the object and the medical characteristics of the object are considered together.
또한, 컴퓨팅 장치(100)는 객체의 특징정보(530)를 이용하여 하나 이상의 유사 이미지를 검색할 수 있다. 컴퓨팅 장치(100)는 특징정보(530)와 유사도를 가지는 하나 이상의 유사 이미지를 검색할 수 있다. 이 경우, 컴퓨팅 장치(100)는 각 정보의 특징 벡터가 코사인 유사도에 기반하여 유사 확률을 산출(540)할 수 있다. 코사인 유사도는, 두 벡터 간의 코사인 각도를 이용하여 구할 수 있는 두 벡터의 유사도를 의미할 수 있다. 예를 들어, 두 벡터의 방향이 완전치 동일한 경우에는 1의 값을 가지며, 90도의 각을 이루면 0, 180도로 반대의 반향을 가지면 -1의 값을 가질 수 있다. 즉, 코사인 유사도는, -1 이상 1 이하의 값을 가지며, 값이 1에 가까울수록 유사도가 높다고 판단하는 것일 수 있다. Also, the computing device 100 may search for one or more similar images by using the characteristic information 530 of the object. The computing device 100 may search for one or more similar images having a similarity to the feature information 530 . In this case, the computing device 100 may calculate ( 540 ) the similarity probability based on the cosine similarity of the feature vector of each piece of information. The cosine similarity may mean a similarity between two vectors obtained by using a cosine angle between the two vectors. For example, it may have a value of 1 if the directions of two vectors are perfectly equal, 0 if they form an angle of 90 degrees, and -1 if they have opposite reverberations by 180 degrees. That is, the cosine similarity may have a value of -1 or more and 1 or less, and it may be determined that the similarity is higher as the value is closer to 1.
구체적인 예를 들어, 컴퓨팅 장치(100)는 도 6에 도시된 바와 같이, 특징정보(530)와 제1 이미지(541), 제2 이미지(542) 및 제n 이미지(54n) 간 각각의 유사도를 0.937, 0.265 및 0.717로 산출할 수 있다. 이 경우, 컴퓨팅 장치(100)는 산출한 유사도에 기반하여 각 이미지를 정렬하여 하나 이상의 유사 이미지로써 제공하거나, 또는 일정 기준치 이상의 이미지(예컨대, 0.265의 유사도를 가지는 제2 유사 이미지는 제거)만을 하나 이상의 유사 이미지로써 제공할 수 있다.As a specific example, the computing device 100 calculates the degree of similarity between the feature information 530 and the first image 541 , the second image 542 , and the n-th image 54n as shown in FIG. 6 , respectively. It can be calculated as 0.937, 0.265 and 0.717. In this case, the computing device 100 aligns each image based on the calculated similarity and provides it as one or more similar images, or only one image (eg, the second similar image having a similarity of 0.265 is removed) over a certain reference value. It can be provided as an image similar to the above.
즉, 컴퓨팅 장치(100)는 검사 이미지에 대응하는 시각적인 특징과 의학적인 특징이 함께 고려된 객체의 특징정보(530)를 이용하여 하나 이상의 유사 이미지 검색을 수행하여 하나 이상의 유사 이미지를 제공할 수 있다. 이 경우, 하나 이상의 유사 이미지 각각에는 검진 정보가 매칭되어 있을 수 있다. 즉, 검사 이미지와 유사한 이미지에서의 기존 진료 기록을 획득함으로써, 본 개시의 분류 모델을 통해 획득한 진단 정보가 적정한지 여부에 대한 검증을 수행할 수 있다.That is, the computing device 100 may provide one or more similar images by performing one or more similar image searches using the characteristic information 530 of the object in which the visual and medical characteristics corresponding to the examination image are considered together. have. In this case, examination information may be matched to each of one or more similar images. That is, by acquiring an existing medical record in an image similar to the examination image, it is possible to verify whether the diagnostic information obtained through the classification model of the present disclosure is appropriate.
다시 말해, 분류 모델을 통해 획득한 결과(즉, 진단 정보)에 대한 검증 또는 의학적 보조를 위하여, 이미지 데이터베이스로부터 검사 이미지에 대응하는 하나 이상의 유사 이미지에 대한 검색이 수행될 수 있다. 이 경우, 하나 이상의 유사 이미지 검색에는 시각적 특징 추출에 관련한 제1 모델(510) 및 의학적 특징 추출에 관련한 제2 모델(520)이 활용될 수 있다. 일 실시예에서, 제1 모델(510) 및 제2 모델(520)은 학습된 분류 모델을 통해 구현될 수 있음에 따라, 각 모델의 구현하기 위한 별도의 학습 데이터 구축 및 학습 과정이 생략될 수 있다. In other words, for verification or medical assistance on a result obtained through the classification model (ie, diagnostic information), a search for one or more similar images corresponding to the examination image may be performed from the image database. In this case, the first model 510 related to extraction of visual features and the second model 520 related to extraction of medical features may be utilized to search for one or more similar images. In an embodiment, as the first model 510 and the second model 520 may be implemented through a learned classification model, a separate training data construction and training process for implementing each model may be omitted. have.
도 7은 본 개시의 일 실시예와 관련된 시각정보 기반 참조 검색 기술을 이용한 인공지능 판독보조 방법을 수행하기 위한 단계들을 예시적으로 도시한 순서도이다.7 is a flowchart exemplarily showing steps for performing an artificial intelligence reading assistance method using a visual information-based reference search technology related to an embodiment of the present disclosure.
본 개시의 일 실시예에 따르면, 상기 방법은, 하나 이상의 객체를 포함하는 검사 이미지를 획득하는 단계(610)를 포함할 수 있다.According to an embodiment of the present disclosure, the method may include acquiring an examination image including one or more objects ( 610 ).
본 개시의 일 실시예에 따르면, 상기 방법은, 기 학습된 분류 모델을 이용하여 객체에 대한 분류를 수행하는 단계(620)를 포함할 수 있다.According to an embodiment of the present disclosure, the method may include performing classification on an object using a pre-learned classification model ( 620 ).
본 개시의 일 실시예에 따르면, 상기 방법은, 객체에 대한 분류 결과에 따라, 기 학습된 검색 모델을 이용하여 객체에 대한 하나 이상의 유사 이미지 검색을 수행하는 단계(630)를 포함할 수 있다.According to an embodiment of the present disclosure, the method may include performing a search for one or more similar images for an object using a pre-learned search model according to the classification result of the object ( 630 ).
본 개시의 일 실시예에 따르면, 상기 방법은, 유사 이미지 검색결과를 제공하는 단계(640)를 포함할 수 있다.According to an embodiment of the present disclosure, the method may include providing a similar image search result ( 640 ).
전술한 도 7에 도시된 단계들은 필요에 의해 순서가 변경될 수 있으며, 적어도 하나 이상의 단계가 생략 또는 추가될 수 있다. 즉, 전술한 단계는 본 개시의 일 실시예에 불과할 뿐, 본 개시의 권리 범위는 이에 제한되지 않는다.The order of the steps illustrated in FIG. 7 described above may be changed if necessary, and at least one or more steps may be omitted or added. That is, the above-described steps are merely an embodiment of the present disclosure, and the scope of the present disclosure is not limited thereto.
도 8은 본 개시의 일 실시예와 관련된 하나 이상의 네트워크 함수를 나타낸 개략도이다.8 is a schematic diagram illustrating one or more network functions related to an embodiment of the present disclosure.
본 명세서에 걸쳐, 연산 모델, 신경망, 네트워크 함수, 뉴럴 네트워크(neural network)는 동일한 의미로 사용될 수 있다. 신경망은 일반적으로 “노드”라 지칭될 수 있는 상호 연결된 계산 단위들의 집합으로 구성될 수 있다. 이러한 “노드”들은 “뉴런(neuron)”들로 지칭될 수도 있다. 신경망은 적어도 하나 이상의 노드들을 포함하여 구성된다. 신경망들을 구성하는 노드(또는 뉴런)들은 하나 이상의“링크”에 의해 상호 연결될 수 있다.Throughout this specification, computational model, neural network, network function, and neural network may be used interchangeably. A neural network may be composed of a set of interconnected computational units, which may generally be referred to as “nodes”. These “nodes” may also be referred to as “neurons”. A neural network is configured to include at least one or more nodes. Nodes (or neurons) constituting neural networks may be interconnected by one or more “links”.
신경망 내에서, 링크를 통해 연결된 하나 이상의 노드들은 상대적으로 입력 노드 및 출력 노드의 관계를 형성할 수 있다. 입력 노드 및 출력 노드의 개념은 상대적인 것으로서, 하나의 노드에 대하여 출력 노드 관계에 있는 임의의 노드는 다른 노드와의 관계에서 입력 노드 관계에 있을 수 있으며, 그 역도 성립할 수 있다. 상술한 바와 같이, 입력 노드 대 출력 노드 관계는 링크를 중심으로 생성될 수 있다. 하나의 입력 노드에 하나 이상의 출력 노드가 링크를 통해 연결될 수 있으며, 그 역도 성립할 수 있다.In the neural network, one or more nodes connected through a link may relatively form a relationship between an input node and an output node. The concepts of an input node and an output node are relative, and any node in an output node relationship with respect to one node may be in an input node relationship in a relationship with another node, and vice versa. As described above, an input node-to-output node relationship may be created around a link. One or more output nodes may be connected to one input node through a link, and vice versa.
하나의 링크를 통해 연결된 입력 노드 및 출력 노드 관계에서, 출력 노드는 입력 노드에 입력된 데이터에 기초하여 그 값이 결정될 수 있다. 여기서 입력 노드와 출력 노드를 상호 연결하는 노드는 가중치(weight)를 가질 수 있다. 가중치는 가변적일 수 있으며, 신경망이 원하는 기능을 수행하기 위해, 사용자 또는 알고리즘에 의해 가변될 수 있다. 예를 들어, 하나의 출력 노드에 하나 이상의 입력 노드가 각각의 링크에 의해 상호 연결된 경우, 출력 노드는 상기 출력 노드와 연결된 입력 노드들에 입력된 값들 및 각각의 입력 노드들에 대응하는 링크에 설정된 가중치에 기초하여 출력 노드 값을 결정할 수 있다.In the relationship between the input node and the output node connected through one link, the value of the output node may be determined based on data input to the input node. Here, a node interconnecting the input node and the output node may have a weight. The weight may be variable, and may be changed by a user or an algorithm in order for the neural network to perform a desired function. For example, when one or more input nodes are interconnected to one output node by respective links, the output node sets values input to input nodes connected to the output node and links corresponding to the respective input nodes. An output node value may be determined based on the weight.
상술한 바와 같이, 신경망은 하나 이상의 노드들이 하나 이상의 링크를 통해 상호 연결되어 신경망 내에서 입력 노드 및 출력 노드 관계를 형성한다. 신경망 내에서 노드들과 링크들의 개수 및 노드들과 링크들 사이의 연관관계, 링크들 각각에 부여된 가중치의 값에 따라, 신경망의 특성이 결정될 수 있다. 예를 들어, 동일한 개수의 노드 및 링크들이 존재하고, 링크들 사이의 가중치 값이 상이한 두 신경망이 존재하는 경우, 두 개의 신경망들은 서로 상이한 것으로 인식될 수 있다.As described above, in a neural network, one or more nodes are interconnected through one or more links to form an input node and an output node relationship in the neural network. The characteristics of the neural network may be determined according to the number of nodes and links in the neural network, the correlation between the nodes and the links, and the value of a weight assigned to each of the links. For example, when the same number of nodes and links exist and there are two neural networks having different weight values between the links, the two neural networks may be recognized as different from each other.
신경망은 하나 이상의 노드들을 포함하여 구성될 수 있다. 신경망을 구성하는 노드들 중 일부는, 최초 입력 노드로부터의 거리들에 기초하여, 하나의 레이어(layer)를 구성할 수 있다, 예를 들어, 최초 입력 노드로부터 거리가 n인 노드들의 집합은, n 레이어를 구성할 수 있다. 최초 입력 노드로부터 거리는, 최초 입력 노드로부터 해당 노드까지 도달하기 위해 거쳐야 하는 링크들의 최소 개수에 의해 정의될 수 있다. 그러나, 이러한 레이어의 정의는 설명을 위한 임의적인 것으로서, 신경망 내에서 레이어의 차수는 상술한 것과 상이한 방법으로 정의될 수 있다. 예를 들어, 노드들의 레이어는 최종 출력 노드로부터 거리에 의해 정의될 수도 있다.A neural network may include one or more nodes. Some of the nodes constituting the neural network may configure one layer based on distances from the initial input node. For example, a set of nodes having a distance of n from the initial input node is You can configure n layers. The distance from the initial input node may be defined by the minimum number of links that must be passed to reach the corresponding node from the initial input node. However, the definition of such a layer is arbitrary for description, and the order of the layer in the neural network may be defined in a different way from the above. For example, a layer of nodes may be defined by a distance from the final output node.
최초 입력 노드는 신경망 내의 노드들 중 다른 노드들과의 관계에서 링크를 거치지 않고 데이터가 직접 입력되는 하나 이상의 노드들을 의미할 수 있다. 또는, 신경망 네트워크 내에서, 링크를 기준으로 한 노드 간의 관계에 있어서, 링크로 연결된 다른 입력 노드들 가지지 않는 노드들을 의미할 수 있다. 이와 유사하게, 최종 출력 노드는 신경망 내의 노드들 중 다른 노드들과의 관계에서, 출력 노드를 가지지 않는 하나 이상의 노드들을 의미할 수 있다. 또한, 히든 노드는 최초 입력 노드 및 최후 출력 노드가 아닌 신경망을 구성하는 노드들을 의미할 수 있다. 본 개시의 일 실시예에 따른 신경망은 입력 레이어의 노드의 개수가 출력 레이어의 노드의 개수와 동일할 수 있으며, 입력 레이어에서 히든 레이어로 진행됨에 따라 노드의 수가 감소하다가 다시 증가하는 형태의 신경망일 수 있다. 또한, 본 개시의 다른 일 실시예에 따른 신경망은 입력 레이어의 노드의 개수가 출력 레이어의 노드의 개수 보다 적을 수 있으며, 입력 레이어에서 히든 레이어로 진행됨에 따라 노드의 수가 감소하는 형태의 신경망일 수 있다. 또한, 본 개시의 또 다른 일 실시예에 따른 신경망은 입력 레이어의 노드의 개수가 출력 레이어의 노드의 개수보다 많을 수 있으며, 입력 레이어에서 히든 레이어로 진행됨에 따라 노드의 수가 증가하는 형태의 신경망일 수 있다. 본 개시의 또 다른 일 실시예에 따른 신경망은 상술한 신경망들의 조합된 형태의 신경망일 수 있다.The initial input node may mean one or more nodes to which data is directly input without going through a link in a relationship with other nodes among nodes in the neural network. Alternatively, in a relationship between nodes based on a link in a neural network, it may mean nodes that do not have other input nodes connected by a link. Similarly, the final output node may refer to one or more nodes that do not have an output node in relation to other nodes among nodes in the neural network. In addition, the hidden node may mean nodes constituting the neural network other than the first input node and the last output node. The neural network according to an embodiment of the present disclosure may be a neural network in which the number of nodes in the input layer may be the same as the number of nodes in the output layer, and the number of nodes decreases and then increases again as progresses from the input layer to the hidden layer. can Also, in the neural network according to another embodiment of the present disclosure, the number of nodes in the input layer may be less than the number of nodes in the output layer, and the number of nodes may be reduced as the number of nodes progresses from the input layer to the hidden layer. have. In addition, the neural network according to another embodiment of the present disclosure may be a neural network in which the number of nodes in the input layer may be greater than the number of nodes in the output layer, and the number of nodes increases as the number of nodes progresses from the input layer to the hidden layer. can The neural network according to another embodiment of the present disclosure may be a neural network in a combined form of the aforementioned neural networks.
딥 뉴럴 네트워크(DNN: deep neural network, 심층신경망)는 입력레이어와 출력 레이어 외에 복수의 히든 레이어를 포함하는 신경망을 의미할 수 있다. 딥 뉴럴 네트워크를 이용하면 데이터의 잠재적인 구조(latent structures)를 파악할 수 있다. 즉, 사진, 글, 비디오, 음성, 음악의 잠재적인 구조(예를 들어, 어떤 물체가 사진에 있는지, 글의 내용과 감정이 무엇인지, 음성의 내용과 감정이 무엇인지 등)를 파악할 수 있다. 딥 뉴럴 네트워크는 컨볼루션 뉴럴 네트워크(CNN: convolutional neural network), 리커런트 뉴럴 네트워크(RNN: recurrent neural network), 오토 인코더(auto encoder), GAN(Generative Adversarial Networks), 제한 볼츠만 머신(RBM: restricted boltzmann machine), 심층 신뢰 네트워크(DBN: deep belief network), Q 네트워크, U 네트워크, 샴 네트워크 등을 포함할 수 있다. 전술한 딥 뉴럴 네트워크의 기재는 예시일 뿐이며 본 개시는 이에 제한되지 않는다.A deep neural network (DNN) may refer to a neural network including a plurality of hidden layers in addition to an input layer and an output layer. Deep neural networks can be used to identify the latent structures of data. In other words, it can identify the potential structure of photos, texts, videos, voices, and music (e.g., what objects are in the photos, what the text and emotions are, what the texts and emotions are, etc.) . Deep neural networks include convolutional neural networks (CNNs), recurrent neural networks (RNNs), auto encoders, generative adversarial networks (GANs), and restricted boltzmann machines (RBMs). machine), a deep trust network (DBN), a Q network, a U network, a Siamese network, and the like. The description of the deep neural network described above is only an example, and the present disclosure is not limited thereto.
뉴럴 네트워크는 교사 학습(supervised learning), 비교사 학습(unsupervised learning) 및 반교사학습(semi supervised learning) 중 적어도 하나의 방식으로 학습될 수 있다. 뉴럴 네트워크의 학습은 출력의 오류를 최소화하기 위한 것이다. 뉴럴 네트워크의 학습에서 반복적으로 학습 데이터를 뉴럴 네트워크에 입력시키고 학습 데이터에 대한 뉴럴 네트워크의 출력과 타겟의 에러를 계산하고, 에러를 줄이기 위한 방향으로 뉴럴 네트워크의 에러를 뉴럴 네트워크의 출력 레이어에서부터 입력 레이어 방향으로 역전파(backpropagation)하여 뉴럴 네트워크의 각 노드의 가중치를 업데이트 하는 과정이다. 교사 학습의 경우 각각의 학습 데이터에 정답이 라벨링되어있는 학습 데이터를 사용하며(즉, 라벨링된 학습 데이터), 비교사 학습의 경우는 각각의 학습 데이터에 정답이 라벨링되어 있지 않을 수 있다. 즉, 예를 들어 데이터 분류에 관한 교사 학습의 경우의 학습 데이터는 학습 데이터 각각에 카테고리가 라벨링 된 데이터 일 수 있다. 라벨링된 학습 데이터가 뉴럴 네트워크에 입력되고, 뉴럴 네트워크의 출력(카테고리)과 학습 데이터의 라벨이 비교함으로써 오류(error)가 계산될 수 있다. 다른 예로, 데이터 분류에 관한 비교사 학습의 경우 입력인 학습 데이터가 뉴럴 네트워크 출력과 비교됨으로써 오류가 계산될 수 있다. 계산된 오류는 뉴럴 네트워크에서 역방향(즉, 출력 레이어에서 입력 레이어 방향)으로 역전파 되며, 역전파에 따라 뉴럴 네트워크의 각 레이어의 각 노드들의 연결 가중치가 업데이트 될 수 있다. 업데이트 되는 각 노드의 연결 가중치는 학습률(learning rate)에 따라 변화량이 결정될 수 있다. 입력 데이터에 대한 뉴럴 네트워크의 계산과 에러의 역전파는 학습 사이클(epoch)을 구성할 수 있다. 학습률은 뉴럴 네트워크의 학습 사이클의 반복 횟수에 따라 상이하게 적용될 수 있다. 예를 들어, 뉴럴 네트워크의 학습 초기에는 높은 학습률을 사용하여 뉴럴 네트워크가 빠르게 일정 수준의 성능을 확보하도록 하여 효율성을 높이고, 학습 후기에는 낮은 학습률을 사용하여 정확도를 높일 수 있다.The neural network may be learned by at least one of teacher learning (supervised learning), unsupervised learning, and semi-supervised learning. The training of the neural network is to minimize the error in the output. In the training of a neural network, iteratively input the training data into the neural network, calculate the output of the neural network and the target error for the training data, and calculate the error of the neural network from the output layer of the neural network to the input layer in the direction to reduce the error. It is a process of updating the weight of each node in the neural network by backpropagation in the direction. In the case of teacher learning, learning data in which the correct answer is labeled in each learning data is used (ie, labeled learning data), and in the case of comparative learning, the correct answer may not be labeled in each learning data. That is, for example, learning data in the case of teacher learning related to data classification may be data in which categories are labeled in each of the learning data. The labeled training data is input to the neural network, and an error can be calculated by comparing the output (category) of the neural network with the label of the training data. As another example, in the case of comparison learning related to data classification, an error may be calculated by comparing the input training data with the neural network output. The calculated error is back propagated in the reverse direction (ie, from the output layer to the input layer) in the neural network, and the connection weight of each node of each layer of the neural network may be updated according to the back propagation. The change amount of the connection weight of each node to be updated may be determined according to a learning rate. The computation of the neural network on the input data and the backpropagation of errors can constitute a learning cycle (epoch). The learning rate may be applied differently according to the number of repetitions of the learning cycle of the neural network. For example, in the early stage of learning of a neural network, a high learning rate can be used to enable the neural network to quickly obtain a certain level of performance, thereby increasing efficiency, and using a low learning rate at a later stage of learning can increase accuracy.
뉴럴 네트워크의 학습에서 일반적으로 학습 데이터는 실제 데이터(즉, 학습된 뉴럴 네트워크를 이용하여 처리하고자 하는 데이터)의 부분집합일 수 있으며, 따라서, 학습 데이터에 대한 오류는 감소하나 실제 데이터에 대해서는 오류가 증가하는 학습 사이클이 존재할 수 있다. 과적합(overfitting)은 이와 같이 학습 데이터에 과하게 학습하여 실제 데이터에 대한 오류가 증가하는 현상이다. 예를 들어, 노란색 고양이를 보여 고양이를 학습한 뉴럴 네트워크가 노란색 이외의 고양이를 보고는 고양이임을 인식하지 못하는 현상이 과적합의 일종일 수 있다. 과적합은 머신러닝 알고리즘의 오류를 증가시키는 원인으로 작용할 수 있다. 이러한 과적합을 막기 위하여 다양한 최적화 방법이 사용될 수 있다. 과적합을 막기 위해서는 학습 데이터를 증가시키거나, 레귤라이제이션(regularization), 학습의 과정에서 네트워크의 노드 일부를 생략하는 드롭아웃(dropout) 등의 방법이 적용될 수 있다.In the training of neural networks, in general, the training data may be a subset of real data (that is, data to be processed using the trained neural network), and thus, the error on the training data is reduced, but the error on the real data is reduced. There may be increasing learning cycles. Overfitting is a phenomenon in which errors on actual data increase by over-learning on training data as described above. For example, a phenomenon in which a neural network that has learned a cat by seeing a yellow cat does not recognize that it is a cat when it sees a cat other than yellow may be a type of overfitting. Overfitting can act as a cause of increasing errors in machine learning algorithms. In order to prevent such overfitting, various optimization methods can be used. In order to prevent overfitting, methods such as increasing training data, regularization, or dropout in which a part of nodes in the network are omitted in the process of learning, may be applied.
본 명세서에 걸쳐, 연산 모델, 신경망, 네트워크 함수, 뉴럴 네트워크(neural network)는 동일한 의미로 사용될 수 있다. (이하에서는 신경망으로 통일하여 기술한다.) 데이터 구조는 신경망을 포함할 수 있다. 그리고 신경망을 포함한 데이터 구조는 컴퓨터 판독가능 매체에 저장될 수 있다. 신경망을 포함한 데이터 구조는 또한 신경망에 입력되는 데이터, 신경망의 가중치, 신경망의 하이퍼 파라미터, 신경망으로부터 획득한 데이터, 신경망의 각 노드 또는 레이어와 연관된 활성 함수, 신경망의 학습을 위한 손실 함수를 포함할 수 있다. 신경망을 포함한 데이터 구조는 상기 개시된 구성들 중 임의의 구성 요소들을 포함할 수 있다. 즉 신경망을 포함한 데이터 구조는 신경망에 입력되는 데이터, 신경망의 가중치, 신경망의 하이퍼 파라미터, 신경망으로부터 획득한 데이터, 신경망의 각 노드 또는 레이어와 연관된 활성 함수, 신경망의 트레이닝을 위한 손실 함수 등 전부 또는 이들의 임의의 조합을 포함하여 구성될 수 있다. 전술한 구성들 이외에도, 신경망을 포함한 데이터 구조는 신경망의 특성을 결정하는 임의의 다른 정보를 포함할 수 있다. 또한, 데이터 구조는 신경망의 연산 과정에 사용되거나 발생되는 모든 형태의 데이터를 포함할 수 있으며 전술한 사항에 제한되는 것은 아니다. 컴퓨터 판독가능 매체는 컴퓨터 판독가능 기록 매체 및/또는 컴퓨터 판독가능 전송 매체를 포함할 수 있다. 신경망은 일반적으로 노드라 지칭될 수 있는 상호 연결된 계산 단위들의 집합으로 구성될 수 있다. 이러한 노드들은 뉴런(neuron)들로 지칭될 수도 있다. 신경망은 적어도 하나 이상의 노드들을 포함하여 구성된다.Throughout this specification, computational model, neural network, network function, and neural network may be used interchangeably. (Hereinafter, the neural network is unified and described.) The data structure may include a neural network. And the data structure including the neural network may be stored in a computer-readable medium. Data structures, including neural networks, may also include data input to the neural network, weights of the neural network, hyperparameters of the neural network, data obtained from the neural network, activation functions associated with each node or layer of the neural network, and loss functions for learning the neural network. have. A data structure comprising a neural network may include any of the components disclosed above. That is, the data structure including the neural network includes all or all of the data input to the neural network, the weights of the neural network, hyperparameters of the neural network, data obtained from the neural network, the activation function associated with each node or layer of the neural network, and the loss function for training the neural network. may be configured including any combination of In addition to the above-described configurations, a data structure including a neural network may include any other information that determines a characteristic of a neural network. In addition, the data structure may include all types of data used or generated in the operation process of the neural network, and is not limited to the above. Computer-readable media may include computer-readable recording media and/or computer-readable transmission media. A neural network may be composed of a set of interconnected computational units, which may generally be referred to as nodes. These nodes may also be referred to as neurons. A neural network is configured to include at least one or more nodes.
데이터 구조는 신경망에 입력되는 데이터를 포함할 수 있다. 신경망에 입력되는 데이터를 포함하는 데이터 구조는 컴퓨터 판독가능 매체에 저장될 수 있다. 신경망에 입력되는 데이터는 신경망 학습 과정에서 입력되는 학습 데이터 및/또는 학습이 완료된 신경망에 입력되는 입력 데이터를 포함할 수 있다. 신경망에 입력되는 데이터는 전처리(pre-processing)를 거친 데이터 및/또는 전처리 대상이 되는 데이터를 포함할 수 있다. 전처리는 데이터를 신경망에 입력시키기 위한 데이터 처리 과정을 포함할 수 있다. 따라서 데이터 구조는 전처리 대상이 되는 데이터 및 전처리로 발생되는 데이터를 포함할 수 있다. 전술한 데이터 구조는 예시일 뿐 본 개시는 이에 제한되지 않는다.The data structure may include data input to the neural network. A data structure including data input to the neural network may be stored in a computer-readable medium. The data input to the neural network may include learning data input in a neural network learning process and/or input data input to the neural network in which learning is completed. Data input to the neural network may include pre-processing data and/or pre-processing target data. The preprocessing may include a data processing process for inputting data into the neural network. Accordingly, the data structure may include data to be pre-processed and data generated by pre-processing. The above-described data structure is merely an example, and the present disclosure is not limited thereto.
데이터 구조는 신경망의 가중치를 포함할 수 있다. (본 명세서에서 가중치, 파라미터는 동일한 의미로 사용될 수 있다.) 그리고 신경망의 가중치를 포함한 데이터 구조는 컴퓨터 판독가능 매체에 저장될 수 있다. 신경망은 복수개의 가중치를 포함할 수 있다. 가중치는 가변적일 수 있으며, 신경망이 원하는 기능을 수행하기 위해, 사용자 또는 알고리즘에 의해 가변 될 수 있다. 예를 들어, 하나의 출력 노드에 하나 이상의 입력 노드가 각각의 링크에 의해 상호 연결된 경우, 출력 노드는 상기 출력 노드와 연결된 입력 노드들에 입력된 값들 및 각각의 입력 노드들에 대응하는 링크에 설정된 파라미터에 기초하여 출력 노드 값을 결정할 수 있다. 전술한 데이터 구조는 예시일 뿐 본 개시는 이에 제한되지 않는다.The data structure may include the weights of the neural network. (In this specification, weight and parameter may be used interchangeably.) And the data structure including the weight of the neural network may be stored in a computer-readable medium. The neural network may include a plurality of weights. The weight may be variable, and may be changed by a user or an algorithm in order for the neural network to perform a desired function. For example, when one or more input nodes are interconnected to one output node by respective links, the output node sets values input to input nodes connected to the output node and links corresponding to the respective input nodes. An output node value may be determined based on the parameter. The above-described data structure is merely an example, and the present disclosure is not limited thereto.
제한이 아닌 예로서, 가중치는 신경망 학습 과정에서 가변되는 가중치 및/또는 신경망 학습이 완료된 가중치를 포함할 수 있다. 신경망 학습 과정에서 가변되는 가중치는 학습 사이클이 시작되는 시점의 가중치 및/또는 학습 사이클 동안 가변되는 가중치를 포함할 수 있다. 신경망 학습이 완료된 가중치는 학습 사이클이 완료된 가중치를 포함할 수 있다. 따라서 신경망의 가중치를 포함한 데이터 구조는 신경망 학습 과정에서 가변되는 가중치 및/또는 신경망 학습이 완료된 가중치를 포함한 데이터 구조를 포함할 수 있다. 그러므로 상술한 가중치 및/또는 각 가중치의 조합은 신경망의 가중치를 포함한 데이터 구조에 포함되는 것으로 한다. 전술한 데이터 구조는 예시일 뿐 본 개시는 이에 제한되지 않는다.By way of example and not limitation, the weight may include a weight variable in a neural network learning process and/or a weight in which neural network learning is completed. The variable weight in the neural network learning process may include a weight at a time point at which a learning cycle starts and/or a weight variable during the learning cycle. The weight for which neural network learning is completed may include a weight for which a learning cycle is completed. Accordingly, the data structure including the weights of the neural network may include a data structure including the weights that vary in the neural network learning process and/or the weights on which the neural network learning is completed. Therefore, it is assumed that the above-described weights and/or combinations of weights are included in the data structure including the weights of the neural network. The above-described data structure is merely an example, and the present disclosure is not limited thereto.
신경망의 가중치를 포함한 데이터 구조는 직렬화(serialization) 과정을 거친 후 컴퓨터 판독가능 저장 매체(예를 들어, 메모리, 하드 디스크)에 저장될 수 있다. 직렬화는 데이터 구조를 동일하거나 다른 컴퓨팅 장치에 저장하고 나중에 다시 재구성하여 사용할 수 있는 형태로 변환하는 과정일 수 있다. 컴퓨팅 장치는 데이터 구조를 직렬화하여 네트워크를 통해 데이터를 송수신할 수 있다. 직렬화된 신경망의 가중치를 포함한 데이터 구조는 역직렬화(deserialization)를 통해 동일한 컴퓨팅 장치 또는 다른 컴퓨팅 장치에서 재구성될 수 있다. 신경망의 가중치를 포함한 데이터 구조는 직렬화에 한정되는 것은 아니다. 나아가 신경망의 가중치를 포함한 데이터 구조는 컴퓨팅 장치의 자원을 최소한으로 사용하면서 연산의 효율을 높이기 위한 데이터 구조(예를 들어, 비선형 데이터 구조에서 B-Tree, Trie, m-way search tree, AVL tree, Red-Black Tree)를 포함할 수 있다. 전술한 사항은 예시일 뿐 본 개시는 이에 제한되지 않는다.The data structure including the weights of the neural network may be stored in a computer-readable storage medium (eg, memory, hard disk) after being serialized. Serialization can be the process of converting a data structure into a form that can be reconstructed and used later by storing it on the same or a different computing device. The computing device may serialize the data structure to send and receive data over the network. A data structure including weights of the serialized neural network may be reconstructed in the same computing device or in another computing device through deserialization. The data structure including the weight of the neural network is not limited to serialization. Furthermore, the data structure including the weights of the neural network is a data structure to increase computational efficiency while using the resources of the computing device to a minimum (e.g., B-Tree, Trie, m-way search tree, AVL tree, Red-Black Tree). The foregoing is merely an example, and the present disclosure is not limited thereto.
데이터 구조는 신경망의 하이퍼 파라미터(Hyper-parameter)를 포함할 수 있다. 그리고 신경망의 하이퍼 파라미터를 포함한 데이터 구조는 컴퓨터 판독가능 매체에 저장될 수 있다. 하이퍼 파라미터는 사용자에 의해 가변되는 변수일 수 있다. 하이퍼 파라미터는 예를 들어, 학습률(learning rate), 비용 함수(cost function), 학습 사이클 반복 횟수, 가중치 초기화(Weight initialization)(예를 들어, 가중치 초기화 대상이 되는 가중치 값의 범위 설정), Hidden Unit 개수(예를 들어, 히든 레이어의 개수, 히든 레이어의 노드 수)를 포함할 수 있다. 전술한 데이터 구조는 예시일 뿐 본 개시는 이에 제한되지 않는다.The data structure may include hyper-parameters of the neural network. In addition, the data structure including the hyperparameters of the neural network may be stored in a computer-readable medium. The hyper parameter may be a variable variable by a user. Hyperparameters are, for example, learning rate, cost function, number of iterations of the learning cycle, weight initialization (e.g., setting the range of weight values to be initialized for weights), Hidden Unit The number (eg, the number of hidden layers, the number of nodes of the hidden layer) may be included. The above-described data structure is merely an example, and the present disclosure is not limited thereto.
본 개시의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 개시가 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.Steps of a method or algorithm described in relation to an embodiment of the present disclosure may be implemented directly in hardware, as a software module executed by hardware, or by a combination thereof. A software module may contain random access memory (RAM), read only memory (ROM), erasable programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), flash memory, hard disk, removable disk, CD-ROM, or It may reside in any type of computer-readable recording medium well known in the art to which the present disclosure pertains.
본 개시의 구성 요소들은 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 애플리케이션)으로 구현되어 매체에 저장될 수 있다. 본 개시의 구성 요소들은 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있으며, 이와 유사하게, 실시 예는 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립트 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다.Components of the present disclosure may be implemented as a program (or application) to be executed in combination with a computer, which is hardware, and stored in a medium. Components of the present disclosure may be implemented as software programming or software components, and similarly, embodiments may include various algorithms implemented as data structures, processes, routines, or combinations of other programming constructs, including C, C++ , may be implemented in a programming or scripting language such as Java, assembler, or the like. Functional aspects may be implemented in an algorithm running on one or more processors.
본 개시의 기술 분야에서 통상의 지식을 가진 자는 여기에 개시된 실시예들과 관련하여 설명된 다양한 예시적인 논리 블록들, 모듈들, 프로세서들, 수단들, 회로들 및 알고리즘 단계들이 전자 하드웨어, (편의를 위해, 여기에서 "소프트웨어"로 지칭되는) 다양한 형태들의 프로그램 또는 설계 코드 또는 이들 모두의 결합에 의해 구현될 수 있다는 것을 이해할 것이다. 하드웨어 및 소프트웨어의 이러한 상호 호환성을 명확하게 설명하기 위해, 다양한 예시적인 컴포넌트들, 블록들, 모듈들, 회로들 및 단계들이 이들의 기능과 관련하여 위에서 일반적으로 설명되었다. 이러한 기능이 하드웨어 또는 소프트웨어로서 구현되는지 여부는 특정한 애플리케이션 및 전체 시스템에 대하여 부과되는 설계 제약들에 따라 좌우된다. 본 개시의 기술 분야에서 통상의 지식을 가진 자는 각각의 특정한 애플리케이션에 대하여 다양한 방식들로 설명된 기능을 구현할 수 있으나, 이러한 구현 결정들은 본 개시의 범위를 벗어나는 것으로 해석되어서는 안 될 것이다.Those of ordinary skill in the art of the present disclosure will recognize that the various illustrative logical blocks, modules, processors, means, circuits, and algorithm steps described in connection with the embodiments disclosed herein include electronic hardware, (convenience For this purpose, it will be understood that it may be implemented by various forms of program or design code (referred to herein as "software") or a combination of both. To clearly illustrate this interchangeability of hardware and software, various illustrative components, blocks, modules, circuits, and steps have been described above generally in terms of their functionality. Whether such functionality is implemented as hardware or software depends upon the particular application and design constraints imposed on the overall system. A person skilled in the art of the present disclosure may implement the described functionality in various ways for each specific application, but such implementation decisions should not be interpreted as a departure from the scope of the present disclosure.
여기서 제시된 다양한 실시예들은 방법, 장치, 또는 표준 프로그래밍 및/또는 엔지니어링 기술을 사용한 제조 물품(article)으로 구현될 수 있다. 용어 "제조 물품"은 임의의 컴퓨터-판독가능 장치로부터 액세스 가능한 컴퓨터 프로그램, 캐리어, 또는 매체(media)를 포함한다. 예를 들어, 컴퓨터-판독가능 매체는 자기 저장 장치(예를 들면, 하드 디스크, 플로피 디스크, 자기 스트립, 등), 광학 디스크(예를 들면, CD, DVD, 등), 스마트 카드, 및 플래쉬 메모리 장치(예를 들면, EEPROM, 카드, 스틱, 키 드라이브, 등)를 포함하지만, 이들로 제한되는 것은 아니다. 또한, 여기서 제시되는 다양한 저장 매체는 정보를 저장하기 위한 하나 이상의 장치 및/또는 다른 기계-판독가능한 매체를 포함한다. 용어 "기계-판독가능 매체"는 명령(들) 및/또는 데이터를 저장, 보유, 및/또는 전달할 수 있는 무선 채널 및 다양한 다른 매체를 포함하지만, 이들로 제한되는 것은 아니다.The various embodiments presented herein may be implemented as methods, apparatus, or articles of manufacture using standard programming and/or engineering techniques. The term “article of manufacture” includes a computer program, carrier, or media accessible from any computer-readable device. For example, computer-readable media include magnetic storage devices (eg, hard disks, floppy disks, magnetic strips, etc.), optical disks (eg, CDs, DVDs, etc.), smart cards, and flash memory. devices (eg, EEPROMs, cards, sticks, key drives, etc.). Also, various storage media presented herein include one or more devices and/or other machine-readable media for storing information. The term “machine-readable medium” includes, but is not limited to, wireless channels and various other media that can store, hold, and/or convey instruction(s) and/or data.
제시된 프로세스들에 있는 단계들의 특정한 순서 또는 계층 구조는 예시적인 접근들의 일례임을 이해하도록 한다. 설계 우선순위들에 기반하여, 본 개시의 범위 내에서 프로세스들에 있는 단계들의 특정한 순서 또는 계층 구조가 재배열될 수 있다는 것을 이해하도록 한다. 첨부된 방법 청구항들은 샘플 순서로 다양한 단계들의 엘리먼트들을 제공하지만 제시된 특정한 순서 또는 계층 구조에 한정되는 것을 의미하지는 않는다.It is to be understood that the specific order or hierarchy of steps in the presented processes is an example of exemplary approaches. Based on design priorities, it is to be understood that the specific order or hierarchy of steps in the processes may be rearranged within the scope of the present disclosure. The appended method claims present elements of the various steps in a sample order, but are not meant to be limited to the specific order or hierarchy presented.
제시된 실시예들에 대한 설명은 임의의 본 개시의 기술 분야에서 통상의 지식을 가진 자가 본 개시를 이용하거나 또는 실시할 수 있도록 제공된다. 이러한 실시예들에 대한 다양한 변형들은 본 개시의 기술 분야에서 통상의 지식을 가진 자에게 명백할 것이며, 여기에 정의된 일반적인 원리들은 본 개시의 범위를 벗어남이 없이 다른 실시예들에 적용될 수 있다. 그리하여, 본 개시는 여기에 제시된 실시예들로 한정되는 것이 아니라, 여기에 제시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위에서 해석되어야 할 것이다.The description of the presented embodiments is provided to enable any person skilled in the art to make or use the present disclosure. Various modifications to these embodiments will be readily apparent to those skilled in the art, and the generic principles defined herein may be applied to other embodiments without departing from the scope of the present disclosure. Thus, the present disclosure is not intended to be limited to the embodiments presented herein, but is to be construed in the widest scope consistent with the principles and novel features presented herein.
상기와 같은 발명의 실시를 위한 최선의 형태에서 관련 내용을 기술하였다.The relevant content has been described in the best mode for carrying out the invention as described above.
본 발명은 인공지능을 활용한 시각정보 기반 참조 검색 기술 분야에서 활용될 수 있다.The present invention can be utilized in the field of visual information-based reference search technology using artificial intelligence.

Claims (12)

  1. 컴퓨팅 장치의 하나 이상의 프로세서에서 수행되는 방법에 있어서,A method performed on one or more processors of a computing device, comprising:
    하나 이상의 객체를 포함하는 검사 이미지를 획득하는 단계;acquiring an inspection image including one or more objects;
    기 학습된 분류 모델을 이용하여, 상기 객체에 대한 분류를 수행하는 단계;performing classification on the object by using a pre-learned classification model;
    상기 객체에 대한 분류 결과에 따라, 기 학습된 검색 모델을 이용하여 상기 객체에 대한 하나 이상의 유사 이미지 검색을 수행하는 단계; 및performing one or more similar image searches for the object using a pre-learned search model according to the classification result of the object; and
    상기 유사 이미지 검색결과를 제공하는 단계; 를 포함하는,providing the similar image search result; containing,
    시각정보 기반 참조 검색 기술을 이용한 인공지능 판독 보조방법.Artificial intelligence reading assistance method using visual information-based reference search technology.
  2. 제1 항에 있어서,According to claim 1,
    상기 유사 이미지 검색을 수행하는 단계는,The step of performing the similar image search comprises:
    이미지에 포함된 콘텐츠 정보에 기반하여 특징을 추출하는 제1 모델을 이용하여 상기 객체의 시각적 특징을 획득하는 단계; obtaining a visual feature of the object by using a first model for extracting features based on content information included in the image;
    이미지에 대응하는 특정 속성을 산출하는 제2 모델을 이용하여 상기 객체에 대응하는 속성정보를 획득하는 단계; obtaining attribute information corresponding to the object by using a second model for calculating a specific attribute corresponding to the image;
    상기 객체의 시각적 특징 및 상기 객체의 속성정보를 이용하여 상기 객체에 대한 특징정보를 획득하는 단계; 및obtaining characteristic information about the object by using the visual characteristics of the object and attribute information of the object; and
    상기 객체의 특징정보를 이용하여 상기 객체에 대응하는 유사 이미지를 검색하는 단계; 를 포함하는, searching for a similar image corresponding to the object by using the characteristic information of the object; containing,
    시각정보 기반 참조 검색 기술을 이용한 인공지능 판독 보조방법. Artificial intelligence reading assistance method using visual information-based reference search technology.
  3. 제2 항에 있어서,3. The method of claim 2,
    상기 제2 모델은,The second model is
    이미지에 대응하는 특정 이벤트의 확률정보를 산출하는 모델이고,It is a model that calculates probability information of a specific event corresponding to the image,
    상기 속성정보를 획득하는 단계는,The step of obtaining the attribute information includes:
    상기 제2 모델을 이용하여 상기 객체에 대응하는 확률값을 획득하는 단계; 를 포함하는, obtaining a probability value corresponding to the object by using the second model; containing,
    시각 정보 기반 참조 검색 기술을 이용한 인공지능 판독 보조방법.Artificial intelligence reading assistance method using visual information-based reference search technology.
  4. 제1 항에 있어서,According to claim 1,
    상기 검색 모델은,The search model is
    프록시 기반 메트릭 학습 기반의 신경망 모델로, 목표 대상 벡터와 포지티브 프록시(positive proxy) 간의 유사도를 높이고, 상기 목표 대상 벡터와 네거티브 프록시(negative proxy) 간의 유사도를 낮추는 방향으로 학습되는 것을 특징으로 하며,A neural network model based on proxy-based metric learning, characterized in that it is learned in a direction to increase the similarity between the target vector and the positive proxy and decrease the similarity between the target vector and the negative proxy,
    상기 프록시는,The proxy is
    상기 객체와 이미지데이터 베이스에 기 저장된 이미지들 간 유사도를 비교하기 위한 임베딩 벡터들의 대표성을 나타내는 벡터인,A vector indicating the representativeness of embedding vectors for comparing the degree of similarity between the object and images previously stored in the image database,
    시각 정보 기반 참조 검색 기술을 이용한 인공지능 판독 보조방법.Artificial intelligence reading assistance method using visual information-based reference search technology.
  5. 제1 항에 있어서,According to claim 1,
    복수의 이미지 데이터 및 각 이미지 데이터에 대한 검진 정보에 기초하여 분류 모델을 학습시키기 위한 학습 데이터 세트를 구축하는 단계;constructing a training data set for training a classification model based on a plurality of image data and examination information for each image data;
    를 더 포함하며, further comprising,
    상기 학습 데이터 세트를 구축하는 단계는, Building the training data set comprises:
    상기 각 이미지 데이터에 대한 검진 정보를 사전 결정된 하나 이상의 카테고리로 분류하는 단계; classifying the examination information for each image data into one or more predetermined categories;
    상기 복수의 이미지 데이터에 기초하여 학습 입력 데이터 세트를 생성하고, 상기 각 이미지 데이터에 대응하는 하나 이상의 카테고리에 기초하여 학습 출력 데이터 세트를 생성하는 단계; 및generating a training input data set based on the plurality of image data, and generating a training output data set based on one or more categories corresponding to the respective image data; and
    상기 학습 입력 데이터 세트 각각에 대응하는 학습 출력 데이터 세트를 매칭하여 라벨링하는 단계; 를 포함하는,matching and labeling a training output data set corresponding to each of the training input data sets; containing,
    시각 정보 기반 참조 검색 기술을 이용한 인공지능 판독 보조방법.Artificial intelligence reading assistance method using visual information-based reference search technology.
  6. 제1 항에 있어서,According to claim 1,
    상기 유사 이미지 검색결과를 제공하는 단계는, The step of providing the similar image search result comprises:
    상기 객체와 유사도가 높은 이미지를 선별하여 제공하는 단계; 및 selecting and providing an image having a high similarity to the object; and
    상기 객체와 유사도가 높지만, 상기 객체와 상이한 카테고리로 분류된 이미지를 선별하여 제공하는 단계; 를 포함하는,providing an image having a high degree of similarity to the object, but classified into a different category from the object; containing,
    시각 정보 기반 참조 검색 기술을 이용한 인공지능 판독 보조방법.Artificial intelligence reading assistance method using visual information-based reference search technology.
  7. 제1 항에 있어서,According to claim 1,
    상기 검사 이미지는, 복수의 세포 이미지를 포함하고, The inspection image includes a plurality of cell images,
    상기 분류를 수행하는 단계는,The step of performing the classification is:
    상기 복수의 세포 이미지 각각을 하나 이상의 카테고리로 분류하는 단계; 및classifying each of the plurality of cell images into one or more categories; and
    상기 복수의 세포 이미지 각각에 대한 분류 결과에 기초하여 상기 검사 이미지에 대응하는 진단 정보를 생성하는 단계; 를 포함하고,generating diagnostic information corresponding to the examination image based on a classification result of each of the plurality of cell images; including,
    상기 유사 이미지 검색을 수행하는 단계는,The step of performing the similar image search comprises:
    상기 복수의 세포 이미지 중 적어도 일부에 대한 유사 이미지 검색을 수행하는 단계; 를 포함하는,performing a similar image search for at least some of the plurality of cell images; containing,
    시각 정보 기반 참조 검색 기술을 이용한 인공지능 판독 보조방법.Artificial intelligence reading assistance method using visual information-based reference search technology.
  8. 제7 항에 있어서,8. The method of claim 7,
    상기 하나 이상의 카테고리는, The one or more categories are
    정상(negative) 상태, 저위험(low risk) 상태 및 고위험(high risk) 상태 중 적어도 하나를 포함하는,comprising at least one of a negative condition, a low risk condition, and a high risk condition;
    시각 정보 기반 참조 검색 기술을 이용한 인공지능 판독 보조방법.Artificial intelligence reading assistance method using visual information-based reference search technology.
  9. 제7 항에 있어서,8. The method of claim 7,
    상기 복수의 세포 이미지 각각에 대한 분류 결과에 기초하여 상기 검사 이미지에 대응하는 진단 정보를 생성하는 단계는,The step of generating diagnostic information corresponding to the examination image based on the classification result for each of the plurality of cell images includes:
    상기 하나 이상의 카테고리 각각으로 분류된 세포 이미지의 수에 기초하여 상기 진단 정보를 생성하는 단계; 를 포함하고,generating the diagnostic information based on the number of cell images classified into each of the one or more categories; including,
    상기 하나 이상의 카테고리 각각은,Each of the one or more categories,
    서로 상이한 가중치가 부여된 것을 특징으로 하는,Characterized in that different weights are given from each other,
    시각 정보 기반 참조 검색 기술을 이용한 인공지능 판독 보조방법.Artificial intelligence reading assistance method using visual information-based reference search technology.
  10. 제7 항에 있어서,8. The method of claim 7,
    상기 진단 정보를 생성하는 단계는, The generating of the diagnostic information comprises:
    검색된 유사 이미지 각각에 매칭된 검진 결과 정보에 기초하여 상기 진단 정보를 업데이트하는 단계; 를 포함하는, updating the diagnosis information based on examination result information matched to each of the found similar images; containing,
    시각 정보 기반 참조 검색 기술을 이용한 인공지능 판독 보조방법.Artificial intelligence reading assistance method using visual information-based reference search technology.
  11. 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램으로, 상기 컴퓨터 프로그램은 하나 이상의 프로세서들에 의해 실행되는 경우, 상기 하나 이상의 프로세서들로 하여금 시각 정보 기반 참조 검색 기술을 이용한 인공지능 판독 보조방법을 수행하기 위한 이하의 동작들을 수행하도록 하며, 상기 동작들은:A computer program stored in a computer-readable storage medium, wherein, when the computer program is executed by one or more processors, the following for causing the one or more processors to perform an artificial intelligence reading assistance method using a visual information-based reference search technology to perform the operations of:
    하나 이상의 객체를 포함하는 검사 이미지를 획득하는 동작; acquiring an inspection image including one or more objects;
    기 학습된 분류 모델을 이용하여, 상기 객체에 대한 분류를 수행하는 동작;performing classification on the object by using a pre-learned classification model;
    상기 객체에 대한 분류 결과에 따라, 기 학습된 검색 모델을 이용하여 상기 객체에 대한 하나 이상의 유사 이미지 검색을 수행하는 동작; 및performing, according to the classification result of the object, searching for one or more similar images for the object using a pre-learned search model; and
    상기 유사 이미지 검색결과를 제공하는 동작;providing the similar image search result;
    을 포함하는, containing,
    컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램. A computer program stored on a computer-readable storage medium.
  12. 하나 이상의 코어를 포함하는 프로세서;a processor including one or more cores;
    상기 프로세서에서 실행가능한 프로그램 코드들을 저장하는 메모리; 및a memory storing program codes executable by the processor; and
    사용자 단말과 데이터를 송수신하는 네트워크부;a network unit for transmitting and receiving data to and from the user terminal;
    를 포함하고,including,
    상기 프로세서는,The processor is
    하나 이상의 객체를 포함하는 검사 이미지를 획득하고, 기 학습된 분류 모델을 이용하여, 상기 객체에 대한 분류를 수행하고, 상기 객체에 대한 분류 결과에 따라, 기 학습된 검색 모델을 이용하여 상기 객체에 대한 하나 이상의 유사 이미지 검색을 수행하고, 상기 유사 이미지 검색결과를 제공하는,Obtaining an inspection image including one or more objects, performing classification on the object using a pre-learned classification model, and applying a pre-learned search model to the object according to the classification result for the object performing at least one similar image search for and providing the similar image search result;
    시각 정보 기반 참조 검색 기술을 이용한 인공지능 판독 보조방법을 수행하는 컴퓨팅 장치.A computing device that performs an artificial intelligence reading assistance method using a visual information-based reference search technology.
PCT/KR2021/017561 2020-11-27 2021-11-25 Method for assisting artificial intelligence reading using visual information-based reference search technology WO2022114823A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200163036A KR102304340B1 (en) 2020-11-27 2020-11-27 A method for assisting artificial intelligence reading using visual information-based reference search technology
KR10-2020-0163036 2020-11-27

Publications (1)

Publication Number Publication Date
WO2022114823A1 true WO2022114823A1 (en) 2022-06-02

Family

ID=77926211

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/017561 WO2022114823A1 (en) 2020-11-27 2021-11-25 Method for assisting artificial intelligence reading using visual information-based reference search technology

Country Status (2)

Country Link
KR (2) KR102304340B1 (en)
WO (1) WO2022114823A1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004351100A (en) * 2003-05-30 2004-12-16 Konica Minolta Medical & Graphic Inc System and method for medical image processing
JP2011215680A (en) * 2010-03-31 2011-10-27 Dainippon Screen Mfg Co Ltd Pathological diagnosis support device, pathological diagnosis support method, control program for pathological diagnosis support, and recording medium with the program recorded thereon
KR20190105460A (en) * 2018-03-05 2019-09-17 주식회사 인공지능연구원 Apparatus and Method for Generating Medical Diagonosis Report
KR20200115017A (en) * 2019-03-29 2020-10-07 에스프레스토 주식회사 Apparatus and method for searching image
KR102179583B1 (en) * 2020-03-11 2020-11-17 주식회사 딥노이드 Assistance diagnosis system for disease based on deep learning and assistance diagnosis method thereof

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004351100A (en) * 2003-05-30 2004-12-16 Konica Minolta Medical & Graphic Inc System and method for medical image processing
JP2011215680A (en) * 2010-03-31 2011-10-27 Dainippon Screen Mfg Co Ltd Pathological diagnosis support device, pathological diagnosis support method, control program for pathological diagnosis support, and recording medium with the program recorded thereon
KR20190105460A (en) * 2018-03-05 2019-09-17 주식회사 인공지능연구원 Apparatus and Method for Generating Medical Diagonosis Report
KR20200115017A (en) * 2019-03-29 2020-10-07 에스프레스토 주식회사 Apparatus and method for searching image
KR102179583B1 (en) * 2020-03-11 2020-11-17 주식회사 딥노이드 Assistance diagnosis system for disease based on deep learning and assistance diagnosis method thereof

Also Published As

Publication number Publication date
KR102304340B1 (en) 2021-09-23
KR20220074711A (en) 2022-06-03

Similar Documents

Publication Publication Date Title
WO2021060899A1 (en) Training method for specializing artificial intelligence model in institution for deployment, and apparatus for training artificial intelligence model
WO2022005090A1 (en) Method and apparatus for providing diagnosis result
WO2020027454A1 (en) Multi-layered machine learning system to support ensemble learning
WO2021137454A1 (en) Artificial intelligence-based method and system for analyzing user medical information
WO2022119162A1 (en) Medical image-based disease prediction method
WO2019117563A1 (en) Integrated predictive analysis apparatus for interactive telehealth and operating method therefor
WO2021210796A1 (en) Artificial intelligence-based cloud platform system for reading medical image
WO2022114822A1 (en) Method and computing device for providing analysis information about vascular ultrasound image by utilizing artificial neural network
US11893659B2 (en) Domain adaption
WO2021210797A1 (en) Artificial intelligence-based cloud platform system for reading medical images
Agustin et al. Classification of immature white blood cells in acute lymphoblastic leukemia L1 using neural networks particle swarm optimization
WO2022114823A1 (en) Method for assisting artificial intelligence reading using visual information-based reference search technology
WO2023239151A1 (en) Method and device for converting chest radiology data into numerical vector, and method and device for analyzing disease by using same
WO2023167448A1 (en) Method and apparatus for analyzing pathological slide image
Li et al. A proposed framework for machine learning-aided triage in public specialty ophthalmology clinics in Hong Kong
WO2021177532A1 (en) Method, apparatus, and computer program for determining chromosome abnormality through analysis of chromosome images aligned using artificial intelligence
WO2022186594A1 (en) Medical-image-based lesion analysis method
KR102334666B1 (en) A method for creating a face image
WO2021107471A1 (en) Medical data retrieval method
WO2021246625A1 (en) Artificial intelligence-based cloud platform system for reading medical image where expected execution time of individual layer is displayed
WO2022050713A1 (en) Method for reading chest image
KR20220074496A (en) A method for assisting artificial intelligence reading of cervical cancer using visual information-based reference search technology
WO2024034847A1 (en) Method for predicting lesion on basis of ultrasound image
WO2022164133A1 (en) Method of evaluating lesion in medical image
WO2022050578A1 (en) Method of determining disease

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21898649

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 14/09/2023)

122 Ep: pct application non-entry in european phase

Ref document number: 21898649

Country of ref document: EP

Kind code of ref document: A1