WO2023084276A1 - Método implementado por computador para el entrenamiento automático de algoritmos de detección temprana de enfermedades usando imágenes diagnósticas - Google Patents
Método implementado por computador para el entrenamiento automático de algoritmos de detección temprana de enfermedades usando imágenes diagnósticas Download PDFInfo
- Publication number
- WO2023084276A1 WO2023084276A1 PCT/IB2021/060421 IB2021060421W WO2023084276A1 WO 2023084276 A1 WO2023084276 A1 WO 2023084276A1 IB 2021060421 W IB2021060421 W IB 2021060421W WO 2023084276 A1 WO2023084276 A1 WO 2023084276A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- data
- training
- user
- algorithm
- information
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Definitions
- the present invention is located within the technical field of electronic engineering and computer science, and more specifically with devices that allow the development of processes based on algorithms for early detection of diseases.
- the present invention is aimed at a computer-implemented method for the automatic training of algorithms that allow early detection of diseases through the use of diagnostic images, where said process is deployed in the cloud and is based on the provision of a graphical interface that is accessed over the Internet, where the doctor or health professional enters the data set to be trained, such as videos or diagnostic images, in a specific format, preferably compressed format, with their respective annotations in a flat file that includes the final diagnosis given by the specialist, the coordinates of the lesions within the image and information on symptoms relevant to the diagnosis of the patient.
- a server designed for algorithm training starts experimentation using convolutional neural networks, testing multiple architectures and varying hyper parameters to obtain the best algorithm automatically and after hundreds of attempts.
- the process of the invention is responsible for carrying out hundreds of experiments with multiple algorithm configurations and selecting the computer vision algorithm with the greatest precision for the use case.
- machine learning is based on artificial intelligence that allows the same program to learn from the experiences and diagnoses made and thus, the diagnosis made is increasingly more precise.
- the method defined herein above is a computer-implemented method into which an ophthalmological image of an individual must be entered, to then evaluate said image using a machine learning classifier to generate a determination of the disease, condition, or ophthalmologic disorder, such determination has a sensitivity of at least 90% and a specificity of at least 90% when tested against independent data from a data set.
- this determination information is provided or displayed to the individual or to an involved third party, such as a physician or healthcare professional.
- WO 2016094330 discloses a series of methods and non-invasive tests to measure biomarkers, such as tumor antigens, and collect clinical parameters from patients.
- This prior also teaches computer-implemented methods of computer learning, to assess a probability that a patient has a disease, relative to a population of patients or a defined cohort.
- a classifier is generated using a machine learning system based on training data from retrospective data and a set of inputs, such as biomarkers and a clinical parameter, where each input has an associated weight and the classifier meets a statistic.
- receiver operator characteristic which specifies a sensitivity and a specificity, for the correct classification of patients. The classifier can then be used to assess the probability that a patient has cancer.
- CN 106980899 which teaches a deep learning model and system for predicting blood flow characteristics in a blood vessel from a tree of blood vessels, where the deep learning model comprises a neural network that is established for each point of the blood vessel trajectory, it receives at least one of image features, structural features and functional features of each point in the blood vessel as input, and predicts blood flow characteristics of each point in the blood vessel as output.
- the deep learning model can quickly and accurately predict the blood flow characteristics over the entire blood vessel trajectory, and the computation efficiency is greatly improved.
- the devices disclosed in the prior art all present the drawback and disadvantage that they require a high level of knowledge in technological terms and computer science, a fact that is very difficult for IT professionals to achieve. health, since they focus on their field of expertise, and do not have the knowledge or time to program or write code that allows these diagnoses to be made automatically.
- the present inventors have proposed a new computer-implemented method, which is designed to be used by health experts who have collections of medical videos or images and who wish to obtain computer vision models. based on automatic learning from the same data, where the doctor or professional from a graphical interface uploads the videos or real medical images, as well as a series of respective annotations in a flat file, gives an instruction in said graphical interface and starts creating algorithms.
- the user when starting the process, the user must select the optimization variable that will perform the method on the information provided, where said optimization variable can be to optimize for greater precision or for greater speed, and once this variable is selected, proceed sending a sign of images or files, preferably in compressed format, with a tabulation with comma-separated values of diagnoses given by the medical specialist and any other variable that may be available for the specific case, where all this information will also include the diagnostic images for training.
- the information received on said server is stored and classified, while said data is verified, and in the event of an error, it is returned to the user and a confirmation or action is sent to be followed by the latter to correct what was detected. require.
- the data is collected and fragmented in order to divide it into training data, test or test data, and validation data, which will then be preprocessed by storing them in two-dimensional data packages with identifiable names to training, testing and validation.
- training parameters are generated, multiple are created and optimized simultaneously, storing said algorithm in a model instance, using the test data to obtain performance measurements on the model instance during this training stage and discarding lower performing models.
- the best performing model instances are selected and the test data set is used to determine statistical performance metrics including a confusion matrix, a full classification report, some precision, among others.
- the best trained algorithm is selected, ordering the best models in descending order according to the optimization metric sent by the user in the first stage, that is, from according to the selected optimization variable.
- the selected algorithm is sent to the user in a predefined format for download and the performance metrics obtained from the test data set, while the information is sent to the end user via through the server in a call to the administration platform that the user uses to create the algorithm with the training information.
- Figure 1 corresponds to a schematic diagram that shows the interaction flow of the method steps showing separately the user/client section and the remote server where the method of the present invention is carried out.
- Figure 2 corresponds to a general flowchart of the computer-implemented method of the present invention, where the stages that are part of it are illustrated.
- the present invention is aimed at a computer-implemented method for the automatic training of algorithms that allow early detection of diseases through the use of diagnostic images, where the doctor or health professional enters the data set to be trained, such as videos or diagnostic images, in a specific format, with their respective annotations that include the final diagnosis given by the specialist, the coordinates of the lesions within the image, and information on symptoms relevant to the patient's diagnosis.
- Figures 1 and 2 present a method for training the early detection of diseases based on diagnostic images, wherein said method is implemented by computer and essentially comprises or consists, in general, without limitations, of the following stages or steps: a. Send information by the user, from his computer system to a remote platform or server, where said information includes the identification name of the algorithm to be built, the type of prediction, the prediction target column, the names of other columns, statistical optimization metrics, number of training hours, general optimization variable, and the data set in a file that can be easily interpreted and read by said server; b. Store and classify the information received by the user, where said storage and classification is done on the server and allows verification of the data sent by said server.
- the computer-implemented method of the present invention allows obtaining as a result the best algorithm for training diagnosis of diseases, all starting from a plurality of images that are uploaded by the user and with a preliminary diagnosis.
- the user when starting the method of the present invention, the user must select a general optimization variable, where said variable presents two options, which correspond to performing optimization for greater precision or optimization for greater speed.
- a general optimization variable where said variable presents two options, which correspond to performing optimization for greater precision or optimization for greater speed.
- the data set that is sent by the user for processing is sent in a compressed format, such as, but not limited to, .zip, which must include a tabulated data file with values separated by commas. , such as a .csv file, of diagnoses given by the medical specialist and any other variable that exists in the case, and a folder related to said .CSV file with the diagnostic images for training.
- a compressed format such as, but not limited to, .zip, which must include a tabulated data file with values separated by commas. , such as a .csv file, of diagnoses given by the medical specialist and any other variable that exists in the case, and a folder related to said .CSV file with the diagnostic images for training.
- the fragmentation of data is done in specific percentages, which correspond, in a non-limiting manner, to 60 to 80%, preferably 70% of training data, 15 to 20%, preferably 18% of test data. or testing, and 10 to 15%, preferably 12% validation data.
- the present invention also contemplates other data rates depending on the application.
- the preprocessing step of the data when these have been fragmented can be carried out based on the fact that with the three data packages built and according to the amount of data, data augmentation techniques are executed that include rotation. , width change, height change, vertical flip, horizontal flip, brightness change, zoom change, cuts. Additionally, optional post-data augmentation, you can run preprocessing techniques based on the type of medical images, such as image size, alter RGB or gray space, or add a custom preprocessing method that receives an image. and returns a preprocessed image.
- the list of values of the training parameter generation step is as extensive as desired, however, in a non-limiting way, it can include the following attributes, which are defined in detail.
- “learning rate” Reference to the aggressiveness on which each network parameter is updated in a given iteration of backward propagation (“backpropagation” as it is commonly known), values that are included as a reference: 1 e-2 , 1 e-3, 1 e-4, 1 e-5 (that is, from 1 e-5 to 1 e-2).
- Loss functions Loss function/s to use.
- optimizers Include a dictionary-type parameter where each possible optimizer is related to each possible parameter it has and ranges over which it can vary.
- pre_top_layer Controls the number of neurons to use in the layer prior to classification, a variation between 32 and 128 is recommended.
- class weights Internal parameter calculated when preparing the data, it assigns weight to each class to balance the cost function in problems with unbalanced classes.
- Multi-label Assumes true or false values depending on whether the model to be trained is multi-label or not according to the data sent by the user.
- metric threshold Internal value to make evaluations with the validation cohort, which defines the threshold over which a prediction is considered positive for some class. A value of: 0.5 is recommended.
- regression Internal value that takes true or false values depending on whether the task corresponds to regression.
- the creation and optimization of models can be carried out by loading the parameters in the selected architectures, selecting a single value within the ranges in Step e) of the present method, simultaneously training all the architectures, doing the evaluation using the validation data, and repeating that flow for five attempts of ten epochs each, varying each parameter. Then, we proceed to select the best parameters for each architecture under each of the possible optimizers sent. Finally, using the best configurations, we proceed to train for 35 more epochs, and once finished, select the control points with the best loss in validation to send to final evaluation with the test set.
- the sending of information to the user is done by sending said algorithm in h5 format for download and the performance metrics obtained in the test data set, at the time that it is sent.
- the information to the end user through the remote server in a call to the administration platform that the user initially used to create the training information algorithm.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
La presente invención se relaciona con un método implementado por computador para el entrenamiento automático de algoritmos que permiten llevar a cabo la detección temprana de enfermedades mediante el uso de imágenes diagnósticas, en donde dicho proceso es desplegado en la nube y se basa en la disposición de una interfaz gráfica a la que se accede por internet, donde el médico o profesional de la salud ingresa el conjunto de datos a entrenar, tales como vídeos o imágenes diagnósticas, en un formato específico, preferiblemente formato comprimido, con sus respectivas anotaciones en un archivo plano que incluye el diagnóstico final dado por el especialista, las coordenadas de las lesiones dentro de la imagen e información de síntomas relevantes para el diagnóstico del paciente. Una vez recibido los datos, un servidor diseñado para el entrenamiento de algoritmos inicia la experimentación mediante redes neuronales convolucionales probando múltiples arquitecturas y variando hiper parámetros para obtener el mejor algoritmo de forma automática y después de cientos de intentos. De este modo, el proceso de la invención se encarga de realizar cientos de experimentos con múltiples configuraciones de algoritmos y seleccionar el algoritmo de visión por computadora con mayor precisión para el caso de uso.
Description
MÉTODO IMPLEMENTADO POR COMPUTADOR PARA EL ENTRENAMIENTO AUTOMÁTICO DE ALGORITMOS DE DETECCIÓN TEMPRANA DE ENFERMEDADES USANDO IMÁGENES DIAGNÓSTICAS
CAMPO TÉCNICO
La presente invención se ubica dentro del campo técnico de la ingeniería electrónica y las ciencias de la computación, y más específicamente con aparatos que permiten desarrollar procesos basados en algoritmos para detección temprana de enfermedades.
Así, la presente invención está dirigida a un método implementado por computador para el entrenamiento automático de algoritmos que permiten llevar a cabo la detección temprana de enfermedades mediante el uso de imágenes diagnósticas, en donde dicho proceso es desplegado en la nube y se basa en la disposición de una interfaz gráfica a la que se accede por internet, donde el médico o profesional de la salud ingresa el conjunto de datos a entrenar, tales como vídeos o imágenes diagnósticas, en un formato específico, preferiblemente formato comprimido, con sus respectivas anotaciones en un archivo plano que incluye el diagnóstico final dado por el especialista, las coordenadas de las lesiones dentro de la imagen e información de síntomas relevantes para el diagnóstico del paciente. Una vez recibido los datos, un servidor diseñado para el entrenamiento de algoritmos inicia la experimentación mediante redes neuronales convolucionales probando múltiples arquitecturas y variando hiper parámetros para obtener el mejor algoritmo de forma automática y después de cientos de intentos. De este modo, el proceso de la invención se encarga de realizar cientos de experimentos con múltiples configuraciones de algoritmos y seleccionar el algoritmo de visión por computadora con mayor precisión para el caso de uso.
ANTECEDENTES DE LA INVENCIÓN
Actualmente, el uso de tecnologías de computación en el campo de las ciencias médicas es una ayuda muy deseada, toda vez que los profesionales de la salud pueden realizar un diagnóstico de forma más precisa y rápida a partir de una serie de parámetros predefinidos o precargados de acuerdo con experiencias pasadas o imágenes que se han obtenido de pacientes analizados previamente y de los que se tiene un diagnóstico ya establecido.
De este modo, la mayoría de los sistemas de computación y tecnologías que se utilizan para dicho fin se basan en aprendizaje de máquina o “machine learning” como se conoce usualmente, lo cual se basa en inteligencia artificial que permite que el mismo programa aprenda de las experiencias y diagnósticos realizados y así, cada vez es más preciso el diagnóstico realizado.
Así las cosas, en el estado del arte existe una pluralidad de divulgaciones relacionadas con dispositivos o herramientas, en general, que pueden ser usadas para ayudar a médicos o profesionales de la salud a la hora de realizar un diagnóstico de forma automática, dentro de las que se encuentra el documento US 201901 10753 relacionado con sistemas, métodos, dispositivos, y medios para llevar a cabo diagnóstico médico de enfermedades y condiciones oftalmológicas, donde éstos se basan en algoritmos de aprendizaje profundo que permite el análisis automático de imágenes oftalmológicas para generar una serie de predicciones de precisión comparable a expertos clínicos. Así, el método definido en esta anterioridad es un método implementado por computador al cual se le debe ingresar una imagen oftalmológica de un individuo, para luego evaluar dicha imagen usando un clasificador de aprendizaje por máquina para generar una determinación de la enfermedad, condición, o desorden oftalmológico, dicha determinación tiene una sensibilidad de por lo menos 90% y una especificidad de al menos 90% cuando se prueba contra datos independiente de una serie de datos. Finalmente, esta información de determinación es suministrada o mostrada al individuo o a un tercero involucrado, tal como un médico o profesional de la salud.
De otra parte, se tiene el documento WO 2016094330 que divulga una serie de métodos y pruebas no invasivas para medir biomarcadores, tales como antígenos de tumores, y recolectar parámetros clínicos de pacientes. Esta anterioridad también enseña métodos implementados por computador de aprendizaje por computador, para evaluar una probabilidad que un paciente tenga una enfermedad, con relación a una población de pacientes o una cohorte definida. Así, se genera un clasificador usando un sistema de aprendizaje de máquina basado en datos de entrenamiento de datos retrospectivos y un conjunto de entradas, tales como biomarcadores y un parámetro clínico, en donde cada entrada tiene un peso asociado y el clasificador cumple con una estadística de característica de operador receptor, que especifica una sensibilidad y una especificidad, para la correcta clasificación de pacientes. Luego, el clasificador puede ser usado para evaluar la probabilidad que un paciente tenga cáncer.
Finalmente, está el documento CN 106980899 que enseña un modelo de aprendizaje profundo y un sistema para predecir características de flujo sanguíneo en un vaso sanguíneo de un árbol de vasos sanguíneos, donde el modelo de aprendizaje profundo comprende una red neural que se establece para cada punto de la trayectoria de vaso sanguíneo, recibe por lo menos uno de características de imagen, características estructurales y características funcionales de cada punto en el vaso sanguíneo como entrada, y predice las características de flujo sanguíneo de cada punto en el vaso sanguíneo como salida. Así, el modelo de aprendizaje profundo puede predecir de forma rápida y precisa las características de flujo sanguíneo sobre toda la trayectoria de vaso sanguíneo, y la eficiencia del cálculo se mejora de forma considerable.
Ahora, partiendo del conocimiento existente en el estado del arte, y basándose en los documentos del arte previo como se mencionan anteriormente, si bien el aprendizaje de máquina ha demostrado múltiples beneficios en el apoyo de diagnóstico de enfermedades en la industria de la salud, su utilización requiere
de un conocimiento en ciencias de datos que la mayoría del personal de la salud no posee. Así, el problema que existe en la actual reside en que, a pesar que los médicos o profesionales de la salud poseen amplios bancos de datos de imágenes diagnósticas, conocimiento en práctica médica e interpretación de datos clínicos, ellos no tienen el conocimiento en ciencia de datos para crear algoritmos de aprendizaje de máquina por sí mismos. Y a pesar de que algunas instituciones entienden el gran valor que la ciencia de datos trae a su organización, el proceso interactivo toma mucho tiempo, es muy costoso y el talento necesario no suele estar disponible, especialmente en entornos sanitarios.
Así las cosas, se puede ver que en los dispositivos divulgados en el arte previo todos presentan el inconveniente y la desventaja que requieren de un conocimiento alto en términos tecnológicos y ciencias de la computación, hecho que es muy difícil de cumplir con los profesionales de la salud, toda vez que ellos se enfocan en su campo de experticia, y no tienen el conocimiento o el tiempo para programar o escribir un código que permita hacer estos diagnósticos de forma automática.
De acuerdo con la información anterior, es claro para el experto en la materia que en el estado del arte existe una necesidad por diseñar e implementar un método, proceso, sistema, dispositivo o aparato, que permita a instituciones sanitarias, médicos o investigadores entrenar modelos de aprendizaje automático de forma autónoma, personalizados para sus propios casos de uso y sin escribir una línea de código, donde los profesionales de la salud con poca o nula experiencia en aprendizaje de máquina (es decir, machine learning) solamente deben cargar su conjunto de datos estructurados, a través una interfaz gráfica y el dispositivo transforme ese conjunto de datos reales en un algoritmo descargadle y listo para ser usado en campo, de forma rápida, confiable y económica.
BREVE DESCRIPCIÓN DE LA INVENCIÓN
Considerando los problemas y/o necesidades anteriores mencionadas, los presentes inventores han propuesto un nuevo método implementado por computador, el cual está diseñado para ser utilizado por expertos de salud que tengan colecciones de videos o imágenes médicas y que deseen obtener modelos de visión por computadora basado en aprendizaje automático a partir de esos mismos datos, en donde el médico o profesional desde una interfaz gráfica, sube los videos o imágenes médicas reales, así como una serie de anotaciones respectivas en un archivo plano, da una instrucción en dicha interfaz gráfica e inicia la creación de algoritmos.
De acuerdo con la información cargada directamente por el médico o profesional de la salud, todos los modelos resultantes luego de aplicar el método o proceso de la presente invención son evaluados internamente de forma automática y se le presentan a dicho usuario (médico o profesional de la salud) una señe de algoritmos, tal como tres, con mayor precisión en un conjunto de validación escogido de forma aleatoria de los datos que se suministrados al comienzo. Finalmente, el médico puede descargar el modelo más adecuado desde la interfaz gráfica y usarlo en campo.
Así, al iniciar el proceso el usuario debe seleccionar la variable de optimización que realizará el método sobre la información suministrada, donde dicha variable de optimización puede ser para optimizar para mayor precisión o para mayor velocidad, y una vez se selecciona esta variable, se procede al envío de una señe de imágenes o archivos, preferiblemente en formato comprimido, con una tabulación con valores separados por coma de diagnósticos dados por el especialista médico y cualquier otra variable que se pueda tener del caso concreto, donde toda esta información contará también con las imágenes diagnósticas para el entrenamiento.
Estos documentos o archivos son enviados directamente a una estación remota, tal como un servidor que los recibe y empieza el proceso. Así, si la carga de los
documentos en la estación remota o servidor es exitosa, el usuario recibirá una respuesta positiva y allí es donde comienza el método como tal de creación de un servidor de entrenamiento dentro del método implementado por computador de la presente invención.
La información recibida en dicho servidor es almacenada y clasificada, al tiempo que se verifican dichos datos, y en caso de presentarse un error se retorna el mismo al usuario y se envía una confirmación o acción a seguir por parte de éste para corregir lo que se requiera.
Posteriormente, se procede a recopilar y fragmentar los datos con el fin de dividirlos en datos de entrenamiento, datos de prueba o testeo, y datos de validación, los cuales luego serán preprocesados mediante su almacenamiento en paquetes de datos de dos dimensiones con nombres identificables para entrenamiento, prueba y validación.
Luego, se procede a generar una serie de parámetros de entrenamiento, los cuales se seleccionan una vez la información es preprocesada usando una lista de valores que hayan funcionado previamente para la construcción de algoritmos de detección temprana de enfermedades usando imágenes diagnósticas.
Una vez se tienen los parámetros de entrenamiento generados, se crean y optimizan múltiples en simultáneo, almacenando dicho algoritmo en una instancia de modelo, usando los datos de prueba para obtener las mediciones de desempeño sobre la instancia de modelo durante esta etapa de entrenamiento y descartando los modelos de menor rendimiento.
Posteriormente, una vez creada la instancia de modelo, se seleccionan las instancias de modelo de mejor rendimiento y se utiliza el conjunto de datos de prueba para determinar las métricas estadísticas de desempeño incluyendo una matriz de confusión, un reporte completo de clasificación, unas métricas de precisión, entre otros.
Cuando se ha obtenido las evaluaciones de los modelos de acuerdo con lo definido anteriormente, se procede a seleccionar el mejor algoritmo entrenado, ordenando de forma descendente los mejores modelos según la métrica de optimización enviada por el usuario en la primera etapa, es decir, de acuerdo con la variable de optimización seleccionada.
Finalmente, una vez se han seleccionado los mejores algoritmos, se envía al usuario el algoritmo seleccionado en un formato predefinido para su descarga y las métricas de desempeño obtenidas en el conjunto de datos de prueba, al tiempo que se envía la información al usuario final por medio del servidor en un llamado a la plataforma de administración que utiliza el usuario para crear así el algoritmo con la información del entrenamiento.
BREVE DESCRIPCIÓN DE LAS FIGURAS
La presente invención se entiende de forma más clara a partir de las siguientes figuras donde se muestran los pasos asociados al presente método y/o proceso, así como los elementos novedosos con respecto al estado del arte, en donde las figuras no pretenden limitar el alcance de la invención, el cual está únicamente dado por las reivindicaciones adjuntas, en donde:
La Figura 1 corresponde a un diagrama esquemático que muestra el flujo de interacción de los pasos del método mostrando por separado la sección del usuaño/cliente y el servidor remoto donde se lleva a cabo el método de la presente invención.
La Figura 2 corresponde a un diagrama de flujo general del método implementado por computador de la presente invención, donde se ¡lustran las etapas que forman parte del mismo.
DESCRIPCIÓN DETALLADA DE LA INVENCIÓN
La presente invención está dirigida a un método implementado por computador para el entrenamiento automático de algoritmos que permiten llevar a cabo la detección temprana de enfermedades mediante el uso de imágenes diagnósticas, donde el médico o profesional de la salud ingresa el conjunto de datos a entrenar, tales como vídeos o imágenes diagnósticas, en un formato específico, con sus respectivas anotaciones que incluyen el diagnóstico final dado por el especialista, las coordenadas de las lesiones dentro de la imagen e información de síntomas relevantes para el diagnóstico del paciente.
De esta forma, las Figuras 1 y 2 presentan un método para entrenamiento de detección temprana de enfermedades con base en imágenes diagnósticas, en donde dicho método es implementado por computador y comprende o consiste esencialmente, en general, sin limitaciones, de las siguientes etapas o pasos: a. Enviar información por parte del usuario, desde su sistema de computación hacia una plataforma remota o servidor, donde dicha información incluye nombre de identificación del algoritmo a construir, tipo de predicción, columna objetivo de predicción, nombres de otras columnas, métrica estadística de optimización, número de horas de entrenamiento, variable de optimización general, y el conjunto de datos en un archivo que pueda ser interpretado y leído fácilmente por dicho servidor; b. Almacenar y clasificar la información recibida por parte de usuario, donde dicho almacenamiento y clasificación se hace en el servidor y permite realizar la verificación de los datos enviados por dicho servidor. Así, en caso de presentarse error en algún dato recibido, se retorna dicho error, y en caso de éxito se continúa con los pasos posteriores del método y se envía una confirmación de éxito al usuario; c. Fragmentar los datos previamente almacenados y clasificados dividiéndolos en datos de entrenamiento, datos de prueba o testeo, y datos de validación;
d. Preprocesar los datos fragmentados almacenándolos en un paquete de datos de dos dimensiones con nombres identif ¡cables para entrenamiento, prueba y validación; e. Generar parámetros de entrenamiento a partir de la información o datos preprocesados seleccionando los parámetros de entrenamiento con base en una lista de valores que hayan funcionado previamente para la construcción de algoritmos de detección temprana de enfermedades usando imágenes diagnósticas; f. Crear y optimizar modelos a partir de los parámetros de entrenamiento generados, mediante el envío del listado de parámetros e iniciando entrenamiento con los datos de entrenamiento de múltiples modelos en simultáneo, permitiendo almacenar dicho algoritmo en una instancia de modelo, usar los datos de testeo para obtener las métricas de desempeño sobre dicha instancia de modelo durante esta etapa de entrenamiento e ir descartando los modelos de menor rendimiento; g. Evaluar los modelos creados y optimizados una vez creada la instancia de modelo, mencionada previamente, seleccionando las mejores instancias de modelo que presentan el mejor rendimiento y con base en el conjunto de datos de prueba, determinar las métricas estadísticas de desempeño; h. Seleccionar el mejor algoritmo entrenado, una vez se cuentan con todas las evaluaciones para las instancias de modelos entrenados, ordenando en cierto orden determinado los mejores modelos según la métrica estadística de optimización seleccionada por el usuario; y i. Enviar la información final de regreso al usuario que corresponde a los mejores algoritmos seleccionados, donde dicha información es almacenada y clasificada para mostrar los resultados en la plataforma de almacenamiento de datos, enviando el algoritmo seleccionado en un formato para descarga por parte del usuario.
Así las cosas, el método implementado por computador de la presente invención permite obtener como resultado el mejor algoritmo para el entrenamiento de
diagnóstico de enfermedades, todo partiendo de una pluralidad de imágenes que son cargadas por el usuario y con un diagnóstico preliminar.
En una modalidad preferida, al comenzar el método de la presente invención el usuario debe seleccionar una variable de optimización general, donde dicha variable presenta dos opciones, las cuales corresponden a realizar optimización para mayor precisión u optimización para mayor velocidad. Esta información es altamente relevante porque en los pasos finales del método, se hará un ordenamiento de los algoritmos dependiendo del tipo de optimización que se desea llevar a cabo, para así poder enviar como resultado al usuario la mejor opción de acuerdo con su selección inicial.
De forma preferida, el conjunto de datos que son enviados por parte del usuario para su procesamiento, son remitidos en formato comprimido, tal como, pero no limitado a .zip, el cual debe incluir un archivo de datos tabulados con los valores separados por comas, tal como un archivo .csv, de diagnósticos dados por el especialista médico y cualquier otra variable que exista del caso y una carpeta relacionada a dicho archivo .CSV con las imágenes diagnósticas para entrenamiento.
Así mismo, preferiblemente, la fragmentación de datos se hace en unos porcentajes específicos, los cuales corresponden, de forma no limitante a 60 a 80%, preferiblemente 70% de datos de entrenamiento, 15 a 20%, preferiblemente 18% de datos de prueba o testeo, y 10 a 15%, preferiblemente 12% de datos de validación. Sin embargo, la presente invención también contempla otros porcentajes de datos dependiendo de la aplicación.
Ahora, el paso de preprocesamiento de los datos cuando éstos han sido fragmentados, puede ser llevado a cabo teniendo como base que con los tres paquetes de datos construidos y de acuerdo a la cantidad de datos, se ejecutan técnicas de aumentación de datos que incluye rotación, cambio de ancho, cambio de altura, giro vertical, giro horizontal, cambio de brillo, cambio de zoom,
cortes. Además, posterior y opcional a la aumentación de datos, se pueden ejecutar técnicas de preprocesamiento según el tipo de imágenes médicas, tal como tamaño de imagen, alterar el espacio de color RGB o grises, o agregar un método personalizado de preprocesamiento que recibe una imagen y retorna una imagen preprocesada.
De otra parte, de forma preferida, la lista de valores del paso de generación de parámetros de entrenamiento es tan extensiva como se desee, sin embargo, de forma no limitante, puede incluir los siguientes atributos, los cuales se definen de forma detallada.
• “arquitecturas”: donde cada diccionario se compone del nombre de una arquitectura y un tamaño objetivo para utilizar con cada una. Es posible incluir arquitecturas de fuente abierta o privadas de la compañía.
• “tasa de aprendizaje”: Referencia a la agresividad sobre la que se actualiza cada parámetro de la red en una iteración dada de propagación hacia atrás (“backpropagation” como es conocida comúnmente), valores que se incluyen como referencia: 1 e-2, 1 e-3, 1 e-4, 1 e-5 (es decir, de 1 e- 5 a 1 e-2).
• “funciones de pérdida”: Función/es de pérdida para utilizar.
• “optimizadores”: Incluir un parámetro tipo diccionario donde se relaciona cada posible optimizador con cada posible parámetro que tenga y rangos sobre los que puede variar.
• “pre_top_layer”: Controla la cantidad de neuronas a utilizar en la capa previa a clasificación, se recomienda una variación entre 32 a 128.
• “abandono”: Parámetro que controla cuánta probabilidad de utilizar abandono en las capas de clasificación, y se recomienda una variación entre 0.1 a 0.9.
• “regulariza on”: Controla la cantidad de regulañzación a utilizar en las capas densas en la última fase de la arquitectura (capas de clasificación), se recomienda: “11” o “l_1_2” con posibilidad de 0.001 a 0.1.
• “ruta de puntos de control”-. Parámetro interno de implementación que define una ruta de sistema para guardar los algoritmos de control, es decir, los que vayan maximizando la métrica de optimización escogida por el usuario en la etapa a) del presente método.
• “pesos de clase”: Parámetro interno calculado al preparar los datos, le asigna peso a cada clase para equilibrar la función de costo en problemas con clases desbalanceadas.
• “tamaño de lote”: Parámetro interno que controla la cantidad de imágenes que se le muestran a la red por actualización, se recomienda un valor de: 32
• “número de clases”: Parámetro interno calculado al inicio de la fuente de información contando el número de clases para fijar la cantidad de neuronas de salida para la red.
• “multi-etiqueta": Asume valores verdadero o falso dependiendo de si el modelo a entrenar es multi-etiqueta o no según los datos enviados por el usuario.
• “umbral métrico”: Valor interno para hacer evaluaciones con la cohorte de validación, el cual define el umbral sobre el que se considera una predicción como positiva para alguna clase, se recomienda un valor de: 0.5
• “nombre de proyecto”: Valor interno que se asigna al enviar un experimento desde la API.
• “tarea”: Valor interno que puede ser “datos”, “imágenes” o “detección de objeto” dependiendo del caso de predicción enviado por el usuario en la etapa a) del presente método.
• “regresión”: Valor interno que toma valores verdadero o falso dependiendo de si la tarea corresponde a regresión.
• “número de variables”: Valor interno, solo se puede asociar cuándo “tarea” es “datos” y es un conteo del número de variables clínicas a utilizar para entrenamiento.
En una modalidad preferida, la creación y optimización de modelos se puede llevar a cabo cargando los parámetros en las arquitecturas seleccionadas, seleccionando un valor único dentro de los rangos en la Etapa e) del presente método, entrenando simultáneamente todas las arquitecturas, haciendo la evaluación usando los datos de validación, y reiterando ese flujo durante cinco intentos de diez épocas cada uno variando cada parámetro. Luego, se procede a seleccionar los mejores parámetros para cada arquitectura bajo cada uno de los posibles optimizadores enviados. Finalmente, utilizando las mejores configuraciones, se procede a entrenar por 35 épocas más, y una vez termine, seleccionar los puntos de control con mejor pérdida en validación para enviar a evaluación final con el conjunto de prueba.
Por último, en una modalidad preferida, el envío de información al usuario, es decir, del algoritmo se hace enviando dicho algoritmo en formato h5 para su descarga y las métricas de desempeño obtenidas en el conjunto de datos de prueba, al tiempo que se envía la información al usuario final por medio del servidor remoto en un llamado a la plataforma de administración que utilizó el usuario inicialmente para crear el algoritmo de la información del entrenamiento.
La anterior descripción define las modalidades preferidas de la invención y se enumera una pluralidad de pasos que permiten llevar a obtener un resultado para el método que se desea proteger. Sin embargo, un experto en la materia entiende y conoce claramente que los pasos anteriormente definidos no están limitados a un orden específico, sino que se pueden llevar a cabo en cualquier orden, dependiendo de su aplicación, donde dicho orden de pasos pretende estar cubierto por el presente documento y se contempla la realización de los pasos del método en cualquier orden deseado.
Aunque la presente invención ha sido definida en términos de las modalidades y/o configuraciones preferidas que permiten obtener el resultado deseado, se entiende entonces que dentro de la presente divulgación se contemplan las múltiples modificaciones y/o alternativas que se puedan derivar de forma
evidente para un experto en la materia, razón por la cual el alcance de la presente invención no está definido únicamente por las implementaciones preferidas definidas acá, sino que, por el contrario, el mismo está enteramente definido por las reivindicaciones adjuntas.
Claims
REIVINDICACIONES Un método implementado por computador para el entrenamiento automático de algoritmos para detección temprana de enfermedades mediante imágenes diagnósticas, caracterizado porque comprende los pasos de: a. enviar información desde el usuario a una plataforma remota o servidor, que incluye nombre de identificación del algoritmo a construir, tipo de predicción, columna objetivo de predicción, nombres de otras columnas, métrica estadística de optimización, número de horas de entrenamiento, variable de optimización general, y el conjunto de datos; b. almacenar y clasificar la información recibida del usuario en el servidor y realizar verificación de los datos enviados; c. fragmentar los datos previamente almacenados y clasificados dividiéndolos en datos de entrenamiento, datos de prueba o testeo, y datos de validación; d. preprocesar los datos fragmentados almacenándolos en un paquete de datos con nombres identificables para entrenamiento, prueba y validación; e. generar parámetros de entrenamiento a partir de la información o datos preprocesados seleccionando los parámetros de entrenamiento con base en una lista de valores; f. crear y optimizar modelos a partir de los parámetros de entrenamiento generados, mediante el envío del listado de parámetros e iniciando entrenamiento con los datos de entrenamiento de múltiples modelos en simultáneo, permitiendo almacenar dicho algoritmo en una instancia de modelo, utilizar los datos de testeo para obtener métricas de desempeño sobre dicha instancia de modelo durante esta etapa de entrenamiento e ir descartando los modelos de menor rendimiento; g. evaluar los modelos creados y optimizados una vez creada la instancia de modelo, seleccionando las mejores instancias de modelo que presentan el mejor rendimiento y con base en el conjunto de datos de prueba, determinar las métricas estadísticas de desempeño;
h. seleccionar el mejor algoritmo entrenado, ordenando en cierto orden determinado los mejores modelos según la métrica estadística de optimización seleccionada por el usuario; y i. enviar la información final de regreso al usuario con los mejores algoritmos seleccionados, donde dicha información es almacenada y clasificada mostrando los resultados en la plataforma de almacenamiento de datos, enviando el algoritmo seleccionado. El método de acuerdo con la reivindicación 1 , caracterizado porque la variable de optimización general se selecciona de optimización de mayor precisión y optimización de mayor velocidad. El método de acuerdo con la reivindicación 1 , caracterizado porque el conjunto de datos que son enviados por parte del usuario para su procesamiento, son remitidos en un archivo de formato comprimido .zip, que incluye al menos un archivo de datos tabulados con los valores separados por comas .csv. El método de acuerdo con la reivindicación 1 , caracterizado porque en el paso b) si se presenta error en algún dato recibido, se retorna dicho error al usuario, y en caso de éxito se continúa con los pasos posteriores del método y se envía una confirmación de éxito al usuario. El método de acuerdo con la reivindicación 1 , caracterizado porque la fragmentación de datos se realiza en porcentajes definidos, los cuales corresponden a 60 a 80% datos de entrenamiento, 15 a 20% datos de prueba o testeo, y 10 a 15% de datos de validación. El método de acuerdo con la reivindicación 1 , caracterizado porque el paso de preprocesamiento de datos es llevado a cabo con técnicas de aumentación de datos que incluyen rotación, cambio de ancho, cambio de
altura, giro vertical, giro horizontal, cambio de brillo, cambio de zoom, cortes, tamaño de imagen, alteración de espacio de color RGB o grises. El método de acuerdo con la reivindicación 1 , caracterizado porque los parámetros de entrenamiento generados incluyen atributos seleccionados del grupo que consiste de arquitecturas, tasa de aprendizaje, funciones de pérdida, optimizadores, cantidad de neuronas a utilizar en la capa previa a clasificación, abandono, regulañzación, ruta de puntos de control, pesos de clase, tamaño de lote, número de clases, multi-etiqueta, umbral métrico, nombre de proyecto, tarea, regresión, y número de variables. El método de acuerdo con la reivindicación 1 , caracterizado porque la creación y optimización de modelos se lleva a cabo cargando los parámetros en las arquitecturas seleccionadas, seleccionando un valor único dentro de los rangos en la Etapa e), entrenando simultáneamente todas las arquitecturas, haciendo la evaluación usando los datos de validación, y reiterando ese flujo durante cinco intentos de diez épocas cada uno variando cada parámetro. El método de acuerdo con la reivindicación 8, caracterizado porque además comprende seleccionar los mejores parámetros para cada arquitectura bajo cada uno de los posibles optimizadores enviados, y seleccionar los puntos de control con mejor pérdida en validación para enviar a evaluación final con el conjunto de prueba. El método de acuerdo con la reivindicación 1 , caracterizado porque el envío de información al usuario del algoritmo se lleva a cabo enviando dicho algoritmo en formato h5.
17
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/IB2021/060421 WO2023084276A1 (es) | 2021-11-10 | 2021-11-10 | Método implementado por computador para el entrenamiento automático de algoritmos de detección temprana de enfermedades usando imágenes diagnósticas |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/IB2021/060421 WO2023084276A1 (es) | 2021-11-10 | 2021-11-10 | Método implementado por computador para el entrenamiento automático de algoritmos de detección temprana de enfermedades usando imágenes diagnósticas |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023084276A1 true WO2023084276A1 (es) | 2023-05-19 |
Family
ID=86335156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/IB2021/060421 WO2023084276A1 (es) | 2021-11-10 | 2021-11-10 | Método implementado por computador para el entrenamiento automático de algoritmos de detección temprana de enfermedades usando imágenes diagnósticas |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2023084276A1 (es) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2527459A1 (en) * | 2011-05-02 | 2012-11-28 | Rheinische Friedrich-Wilhelms-Universität Bonn | Blood-based gene detection of non-small cell lung cancer |
CN108268460A (zh) * | 2016-12-30 | 2018-07-10 | 广东精点数据科技股份有限公司 | 一种基于大数据的自动选择最优模型的方法 |
WO2020081747A1 (en) * | 2018-10-19 | 2020-04-23 | Oracle International Corporation | Mini-machine learning |
US20210233388A1 (en) * | 2016-08-22 | 2021-07-29 | Rapidsos, Inc. | Predictive analytics for emergency detection and response management |
US20210279868A1 (en) * | 2018-11-21 | 2021-09-09 | The Trustees Of Columbia University In The City Of New York | Medical imaging based on calibrated post contrast timing |
US20220008243A1 (en) * | 2018-11-08 | 2022-01-13 | Bruxa, Inc. | Systems and devices for monitoring and treating bruxism |
-
2021
- 2021-11-10 WO PCT/IB2021/060421 patent/WO2023084276A1/es unknown
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2527459A1 (en) * | 2011-05-02 | 2012-11-28 | Rheinische Friedrich-Wilhelms-Universität Bonn | Blood-based gene detection of non-small cell lung cancer |
US20210233388A1 (en) * | 2016-08-22 | 2021-07-29 | Rapidsos, Inc. | Predictive analytics for emergency detection and response management |
CN108268460A (zh) * | 2016-12-30 | 2018-07-10 | 广东精点数据科技股份有限公司 | 一种基于大数据的自动选择最优模型的方法 |
WO2020081747A1 (en) * | 2018-10-19 | 2020-04-23 | Oracle International Corporation | Mini-machine learning |
US20220008243A1 (en) * | 2018-11-08 | 2022-01-13 | Bruxa, Inc. | Systems and devices for monitoring and treating bruxism |
US20210279868A1 (en) * | 2018-11-21 | 2021-09-09 | The Trustees Of Columbia University In The City Of New York | Medical imaging based on calibrated post contrast timing |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019262835B2 (en) | Radiotherapy treatment plan modeling using generative adversarial networks | |
US10937164B2 (en) | Medical evaluation machine learning workflows and processes | |
KR102225894B1 (ko) | 딥 어텐션 네트워크를 이용하여 환자 의료 기록으로부터 질병 예후를 예측하는 방법 및 시스템 | |
RU2719922C2 (ru) | Адаптивная система управления лечением с механизмом управления потоком действий | |
CN105993016B (zh) | 用于为具有特定疾病的个体规划医疗的计算机化系统 | |
US12040078B2 (en) | Dental image analysis and treatment planning using an artificial intelligence engine | |
KR102333670B1 (ko) | 안구 이미지 기반의 진단 보조 이미지 제공 장치 | |
WO2016201499A1 (en) | Method and system for assessing mental state | |
CN106462655B (zh) | 临床诊断支持网络、系统及方法 | |
KR102394758B1 (ko) | 데이터의 특징점을 취합하여 기계 학습하는 방법 및 장치 | |
CN115036002A (zh) | 一种基于多模态融合模型的治疗效果预测方法及终端设备 | |
US20210196428A1 (en) | Artificial Intelligence (AI) based Decision-Making Model for Orthodontic Diagnosis and Treatment Planning | |
Al Turkestani et al. | Clinical decision support systems in orthodontics: a narrative review of data science approaches | |
EP3895600A1 (en) | Method for measuring volume of organ by using artificial neural network, and apparatus therefor | |
US11710572B2 (en) | Experience engine-method and apparatus of learning from similar patients | |
CN114041152A (zh) | 数据分析装置、数据分析方法以及数据分析程序 | |
WO2017194514A1 (en) | Diagnosis system | |
CN112927152B (zh) | Ct图像去噪处理方法、装置、计算机设备及介质 | |
WO2023084276A1 (es) | Método implementado por computador para el entrenamiento automático de algoritmos de detección temprana de enfermedades usando imágenes diagnósticas | |
US20200069969A1 (en) | Resource scheduling in adaptive radiation therapy planning | |
KR102596666B1 (ko) | 의료 영상 기반 통합 의료 서비스 제공 시스템 및 방법 | |
KR102553295B1 (ko) | 맞춤형으로 검사 일정을 추천하는 전자 장치, 제어 방법 및 컴퓨터프로그램 | |
US20240020825A1 (en) | Machine learning models for automated diagnosis of disease database entities | |
EP3839970A1 (en) | Estimating the risk of a subject reaching a particular medical outcome | |
Davar et al. | Identification of a Panel of Biomarkers for the Early Detection of Ovarian Cancer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21963902 Country of ref document: EP Kind code of ref document: A1 |