RU2790285C1 - Method and device for determination of gene association degree - Google Patents

Method and device for determination of gene association degree Download PDF

Info

Publication number
RU2790285C1
RU2790285C1 RU2021137368A RU2021137368A RU2790285C1 RU 2790285 C1 RU2790285 C1 RU 2790285C1 RU 2021137368 A RU2021137368 A RU 2021137368A RU 2021137368 A RU2021137368 A RU 2021137368A RU 2790285 C1 RU2790285 C1 RU 2790285C1
Authority
RU
Russia
Prior art keywords
association
gene
record
disease description
degree
Prior art date
Application number
RU2021137368A
Other languages
Russian (ru)
Inventor
Цзянь Чжоу
ЛинСян КУН
Цзиньань ВАН
Цзэнцюань ХЭ
Original Assignee
БиДжиАй Дженомикс Ко., Лтд.
БиДжиАй ХЕЛТ (ГК) КОМПАНИ ЛИМИТЕД
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by БиДжиАй Дженомикс Ко., Лтд., БиДжиАй ХЕЛТ (ГК) КОМПАНИ ЛИМИТЕД filed Critical БиДжиАй Дженомикс Ко., Лтд.
Application granted granted Critical
Publication of RU2790285C1 publication Critical patent/RU2790285C1/en

Links

Images

Abstract

FIELD: biotechnology.
SUBSTANCE: method for determination of a degree of association between a disease description record and a gene is described. By means of a unit for determination of a disease description record, the disease description record in a case description text is determined. For each of a set of given association databases: by means of a unit for determination of an association indicator, record data for a target association record(s) is determined in the given association database in accordance with the disease description record and gene identifiers, each of which corresponds to one of a set of genes, wherein each of given association databases stores records of association of the disease description record and gene identifiers corresponding to at least one of the set of genes. By means of the unit for determination of an association indicator, record data is entered into a given record matrix of gene association to determine an association indicator of the disease description record with the corresponding each of the set of genes from the given association database. By means of a unit for determination of a degree of association, degrees of association between the disease description record and each of the set of genes are determined in accordance with association indicators of the disease description record with gene identifiers corresponding to the set of genes from the set of given association databases. A corresponding device for determination of a degree of association between a disease description record and a gene, containing the above-mentioned units, is also described. In addition, a storage medium for determination of a degree of association between a disease description record and a gene is described. According to the invention, a program is stored on the storage medium, and, when executed by a processor, it implements a method for determination of a degree of gene association. A processor is disclosed for determination of a degree of association between a disease description record and a gene. According to the invention, the processor is used to execute a program, wherein the program, when executed, implements a method for determination of a degree of gene association. An electronic device for determination of a degree of association between a disease description record and a gene is presented, containing at least one processor, at least one processor-associated memory, and a bus. In this case, the processor communicates with memory via the bus, and the processor is used to call program commands from memory to implement a method for determination of a degree of gene association.
EFFECT: solution allows for an increase in a speed of determination of a degree of association between a disease description record and each of a set of genes.
15 cl, 6 dwg

Description

Настоящая заявка испрашивает приоритет в отношении китайской заявки на изобретение № 202011535972.2, поданной в Патентное ведомство Китайской Народной Республики 23 декабря 2020 г. под названием "METHOD AND DEVICE FOR DETERMINING A DEGREE OF GENE ASSOCIATION", все содержание которой включено сюда посредством ссылки.The present application claims priority over Chinese Invention Application No. 202011535972.2 filed with the Patent Office of the People's Republic of China on December 23, 2020 under the title "METHOD AND DEVICE FOR DETERMINING A DEGREE OF GENE ASSOCIATION", the entire content of which is hereby incorporated by reference.

Область техники, к которой относится изобретениеThe field of technology to which the invention belongs

Заявка относится к области техники генной ассоциации и, в частности, к способу и устройству определения степени генной ассоциации.The application relates to the field of gene association technology and, in particular, to a method and device for determining the degree of gene association.

Уровень техникиState of the art

В настоящее время, за счет углубления медицинских исследований идентификация патогенных генов, связанных с наследственными болезнями, будет играть важную вспомогательную роль для соответствующего персонала при исследовании и последующем лечении этих наследственных болезней.At present, due to the deepening of medical research, the identification of pathogenic genes associated with hereditary diseases will play an important supporting role for the relevant personnel in the investigation and subsequent treatment of these hereditary diseases.

Наследственная болезнь обычно связана с многочисленными патогенными генами. Множество клинической информации о фенотипе, описанной в записях описаний болезни, может существовать в тексте описания случаев для пациентов с наследственными болезнями. Различная клиническая информация о фенотипе может быть связана с одним или более патогенными генами. Патогенные гены, связанные с различной клинической информацией о фенотипе, могут быть одинаковыми или различающимися. В настоящее время были идентифицированы 5181 видов наследственных болезней и 15428 видов генов. То, как быстро определять ассоциацию между записями описания болезни и генами в тексте описания случая пациента стало неотложной технической проблемой для соответствующего персонала.Hereditary disease is usually associated with numerous pathogenic genes. A lot of clinical information about the phenotype described in case reports may exist in the text of case reports for patients with hereditary diseases. Various clinical information about the phenotype may be associated with one or more pathogenic genes. Pathogenic genes associated with different clinical phenotypic information may be the same or different. Currently, 5181 types of hereditary diseases and 15428 types of genes have been identified. How to quickly determine the association between disease description records and genes in the text of a patient's case report has become an urgent technical problem for the relevant personnel.

Сущность изобретенияThe essence of the invention

С точки зрения описанных выше проблем, настоящая заявка представляет способ и устройство определения степени генной ассоциации, чтобы преодолеть вышеупомянутую проблему или, по меньшей мере, частично решить вышеупомянутую проблему. Соответствующее техническое решение изложено ниже.In terms of the problems described above, the present application provides a method and apparatus for determining the degree of gene association in order to overcome the above problem or at least partially solve the above problem. The corresponding technical solution is presented below.

Способ определения степени генной ассоциации, содержащий этапы, на которых:A method for determining the degree of gene association, comprising the steps of:

определяют запись описания болезни в тексте описания случая;determining a disease description entry in the case description text;

для множества заданных баз данных ассоциации:for a set of given association databases:

определяют данные записи для целевой записи(-ей) ассоциации в заданной базе данных ассоциации согласно записи описания болезни и генным идентификаторам, каждый из которых соответствует одному из множества генов, где каждая из заданных баз данных ассоциации хранит записи ассоциации записи описания болезни и генных идентификаторов, соответствующих по меньшей мере одному из множества генов; determining record data for the target association record(s) in the given association database according to the disease description record and gene identifiers, each of which corresponds to one of the plurality of genes, where each of the given association databases stores association records of the disease description record and gene identifiers, corresponding to at least one of the plurality of genes;

вводят данные записи в заданную запись-матрицу генной ассоциации, чтобы определить показатель ассоциации записи описания болезни с каждым из множества генов из заданной базы данных ассоциации; иentering the entry data into a predetermined gene association entry matrix to determine an association score of the disease description entry with each of the plurality of genes in the predetermined association database; And

определяют степень ассоциации между записью описания болезни и каждым из множества генов в соответствии с показателями ассоциации записи описания болезни с генными идентификаторами, соответствующими множеству генов из множества заданных баз данных ассоциации.determining the degree of association between the disease description record and each of the plurality of genes according to the association scores of the disease description record with the gene identifiers corresponding to the plurality of genes from the plurality of predetermined association databases.

Как вариант, определение данных записи для целевой записи(-ей) ассоциации в заданной базе данных ассоциации в соответствии с записью описания болезни и генным идентификаторам, каждый из которых соответствует одному из множества генов, содержит этапы, на которых:Alternatively, determining entry data for the target association entry(s) in a given association database according to a disease description entry and gene identifiers, each corresponding to one of a plurality of genes, comprises the steps of:

для любого гена из множества генов определяют данные записи для целевой записи(-ей) ассоциации записи описания болезни и генного идентификатора, соответствующего гену из заданной базы данных ассоциации, соответственно, где данные записи для целевой записи(-ей) ассоциации содержат: первое количество записей ассоциации, содержащих как генный идентификатор гена, так и запись описания болезни, второе количество записей ассоциации, содержащих запись описания болезни, третье количество записей ассоциации, содержащих генный идентификатор гена, и общее количество записей ассоциации в заданной базе данных ассоциации.for any gene of the plurality of genes, record data is determined for the target association record(s) of the disease description record and the gene identifier corresponding to the gene from the given association database, respectively, where the record data for the target association record(s) contains: the first number of records associations containing both the gene identifier of the gene and the disease description record, a second number of association records containing the disease description record, a third number of association records containing the gene gene identifier, and the total number of association records in a given association database.

Как вариант, заданная запись-матрица генной ассоциации имеет вид:Alternatively, a given gene association matrix entry has the form:

Figure 00000001
,
Figure 00000001
,

где М – показатель ассоциации записи описания болезни с генным идентификатором, соответствующим гену в заданной информационной генной базе данных; Т1 – первое количество номер, Т2 - второе количество, Т3 - третье количество; ТS - общее количество.where M is the indicator of the association of a disease description record with a gene identifier corresponding to a gene in a given information gene database; T 1 - the first quantity number, T 2 - the second quantity, T 3 - the third quantity; T S - total.

Как вариант, определение степени ассоциации между записью описания болезни и каждым из множества генов в соответствии с показателем ассоциации записи описания болезни с генными идентификаторами, соответствующими множеству генов из множества заданных баз данных ассоциации, для любого гена содержит этапы, на которых:Alternatively, determining the degree of association between the disease description record and each of the plurality of genes according to the association score of the disease record with gene identifiers corresponding to the plurality of genes from the plurality of given association databases, for any gene, comprises the steps of:

взвешивают показатели ассоциации записи описания болезни с генным идентификатором, соответствующим гену из множества заданных информационных баз данных генной ассоциации, чтобы получить значение ассоциации между записью описания болезни и геном; иweighting association scores of the disease description record with a gene identifier corresponding to a gene from a plurality of predetermined gene association information databases to obtain an association value between the disease description record and the gene; And

определяют степень ассоциации между записью описания болезни и геном в соответствии со значением ассоциации.determining the degree of association between the disease description record and the gene according to the association value.

Как вариант, определение степени ассоциации между записью описания болезни и геном в соответствии со значением ассоциации содержит:Alternatively, determining the degree of association between a disease description record and a gene according to the association value comprises:

определение степени ассоциации между записью описания болезни и геном в соответствии с

Figure 00000002
, где L - степень ассоциации между записью описания болезни и геном, e – основание натурального логарифма и z - значение ассоциации.determining the degree of association between a disease description record and a genome according to
Figure 00000002
, where L is the degree of association between the disease description record and the genome, e is the base of the natural logarithm, and z is the value of the association.

Как вариант, процесс обучения заданной матрицы ассоциации запись- ген содержит этапы, на которых:Alternatively, the learning process for a given record-gene association matrix includes the steps of:

вводят в качестве обучающей информации данные записи для целевых записей ассоциации, содержащих множество записей описания болезни и генных идентификаторов множества генов из множества заданных информационных баз данных генной ассоциации, в текущую обучающую запись-матрицу генной ассоциации и определяют предсказываемые показатели ассоциации, соответствующие обучающей информации и множеству генов в заданных информационных базах данных генной ассоциации, соответственно;input as training information the record data for target association records containing a plurality of disease description records and gene identifiers of a plurality of genes from a plurality of given gene association information databases into the current gene association training record matrix and determine the predicted association indicators corresponding to the training information and the set genes in the given gene association information databases, respectively;

определяют предсказываемую степень ассоциации между множеством записей описаний болезни и множеством генов, соответственно, согласно определенным предсказываемым показателям ассоциации;determining a predictive degree of association between the plurality of disease description records and the plurality of genes, respectively, according to certain predictive association scores;

определяют ошибки между предсказываемыми степенями ассоциации и фактическими степенями ассоциации для множества записей описания болезни и множества генов;determining errors between predicted association rates and actual association rates for the plurality of disease description records and the plurality of genes;

определяют, находятся ли ошибки ниже заданного порога ошибки; determining if the errors are below a predetermined error threshold;

если да, определяют, что текущая обучающая запись-матрица генной ассоциации является записью-матрицей генной ассоциации; иif so, determining that the current training gene association matrix record is a gene association matrix record; And

в противном случае, корректируют параметры матрицы в текущей обучающей записи-матрице генной ассоциации посредством алгоритма нисходящего градиента, используя скорректированную обучающую запись-матрицу генной ассоциации в качестве текущей обучающей записи-матрицы генной ассоциации, и, возвращаясь к этапу ввода, как к обучающей информации, записывают данные целевой записи(-ей) ассоциации, содержащие множество записей описания болезни и генных идентификаторов множества генов из множества заданных баз данных генной ассоциации, в текущую обучающую запись-матрицу генной ассоциации и определяют предсказываемые показатели ассоциации, соответствующие обучающей информации и множеству генов в заданных информационных базах данных генной ассоциации, соответственно.otherwise, adjust the matrix parameters in the current training record-gene association matrix by means of a descending gradient algorithm, using the adjusted training record-gene association matrix as the current training record-gene association matrix, and returning to the input step as training information, writing data of the target association record(s) containing a plurality of disease description records and gene identifiers of a plurality of genes from a plurality of predetermined gene association databases into the current gene association training record matrix, and determining association predictive scores corresponding to the training information and the plurality of genes in the predetermined gene association information databases, respectively.

Устройство определения степени генной ассоциации, содержащее: блок записи описания болезни, блок определения показателя ассоциации и блок определения степени ассоциации;A gene association degree determination device, comprising: a disease description recording unit, an association indicator determination unit, and an association degree determination unit;

в котором блок определения записи описания болезни используется для определения записи описания болезни в тексте описания случая;wherein the disease description entry definition block is used to determine the disease description entry in the case description text;

блок определения показателя ассоциации используется для множества заданных баз данных ассоциации, чтобы определять данные записи для целевой записи(-ей) ассоциации в заданную базу данных ассоциации в соответствии с записью описания болезни и генными идентификаторами, каждый их которых соответствует одному из множества генов, где каждая из заданных баз данных ассоциации хранит записи ассоциации записи описания болезни и генных идентификаторов, соответствующих по меньшей мере одному из множества генов; и вводить данные записи в заданную запись-матрицу генной ассоциации для определения показателя ассоциации записи описания болезни с соответствующим каждым из множества генов из заданной базы данных ассоциации; иthe association indicator determining unit is used for the plurality of predetermined association databases to determine entry data for the association target record(s) in the predetermined association database in accordance with the disease description record and gene identifiers, each of which corresponds to one of the plurality of genes, where each from the given association databases, stores association records of the disease description record and gene identifiers corresponding to at least one of the plurality of genes; and inputting the entry data into a predetermined gene association entry matrix to determine an association score of the disease description entry with a corresponding each of the plurality of genes from the predetermined association database; And

блок определения степени ассоциации используется для определения степени ассоциации между записью описания болезни и каждым из множества генов в соответствии с показателем ассоциации записи описания болезни с генными идентификаторами, соответствующими множеству генов из множества заданных баз данных ассоциации.the association degree determining unit is used to determine the degree of association between the disease description entry and each of the plurality of genes according to the association score of the disease description record with the gene identifiers corresponding to the plurality of genes from the plurality of predetermined association databases.

Как вариант, блок определения показателя ассоциации конкретно используется для любого гена из множества генов, соответственно определяя данные записи для целевой записи(-ей) ассоциации, содержащие запись описания болезни и генный идентификатор, соответствующий гену из заданной базы данных ассоциации, причем данные записи для целевой записи(-ей) ассоциации содержат первое количество записей ассоциации, содержащих как генный идентификатор гена, так и запись описания болезни, второе количество записей ассоциации, содержащих запись описания болезни, третье количество записей ассоциации, содержащих генный идентификатор гена, и общее количество записей ассоциации в заданной базе данных ассоциации.Alternatively, the association indicator determination unit is specifically used for any gene of the plurality of genes, respectively determining the entry data for the target association entry(s) containing the disease description entry and the gene identifier corresponding to the gene from the predetermined association database, the entry data for the target association the association record(s) contain a first number of association records containing both the gene gene identifier and a disease description record, a second number of association records containing a disease description record, a third number of association records containing the gene gene identifier, and the total number of association records in given association database.

Как вариант, заданная запись-матрица генной ассоциации имеет вид: Alternatively, a given gene association matrix entry has the form:

Figure 00000001
,
Figure 00000001
,

где М – показатель ассоциации записи описания болезни с генным идентификатором, соответствующим гену из заданной информационной генной базы данных; Т1 - первое количество, Т2 - второе количество, Т3 - третье количество; ТS - общее количество.where M is the indicator of the association of a disease description record with a gene identifier corresponding to a gene from a given information gene database; T 1 - the first number, T 2 - the second number, T 3 - the third number; T S - total.

Как вариант, блок определения степени ассоциации содержит субблок получения значения ассоциации и субблок определения степени ассоциации,Alternatively, the association degree determination block comprises an association value obtaining sub-block and an association degree determination sub-block,

в котором субблок получения значения ассоциации используется для любого гена, взвешивая показатели ассоциации записи описания болезни с генным идентификатором, соответствующим гену из множества заданных информационных баз данных генной ассоциации, чтобы получить значение ассоциации между записью описания болезни и геном;wherein the association value obtaining sub-unit is used for any gene, weighting association scores of the disease description entry with a gene identifier corresponding to a gene from a plurality of predetermined gene association information databases to obtain an association value between the disease description entry and the gene;

субблок определения степени ассоциации используется для определения степени ассоциации между записью описания болезни и геном в соответствии со значением ассоциации.the association degree determination sub-unit is used to determine the degree of association between the disease description record and the gene according to the association value.

Как вариант, субблок определения степени ассоциации используется для определения степени ассоциации между записью описания болезни и геном в соответствии с

Figure 00000003
, где L - степень ассоциации между записью описания болезни и геном, e – основание натурального логарифма и z - значение ассоциации.Alternatively, the degree of association determination subunit is used to determine the degree of association between a disease description record and a gene according to
Figure 00000003
, where L is the degree of association between the disease description record and the genome, e is the base of the natural logarithm, and z is the value of the association.

Как вариант, устройство дополнительно содержит: блок определения предсказываемого показателя ассоциации, блок определения предсказываемой степени ассоциации, блок определения ошибки, блок сравнения ошибки, блок определения записи-матрицы генной ассоциации и блок корректировки параметров матрицы,Alternatively, the device further comprises: a predictive association index determination unit, a predictive degree of association determination unit, an error determination unit, an error comparison unit, a gene association matrix entry determination unit, and a matrix parameter correction unit,

в котором блок определения предсказываемого показателя ассоциации используется для ввода в качестве обучающей информации данных записи для целевых записей ассоциации, содержащих множество записей описания болезни и генных идентификаторов множества генов из множества заданных информационных баз данных генной ассоциации, в текущую обучающую запись-матрицу генной ассоциации, и для определения предсказываемых показателей ассоциации, соответствующих обучающей информации и множеству генов в заданных информационных базах данных генной ассоциации, соответственно;wherein the association predictor determination unit is used to input, as training information, record data for target association records containing a plurality of disease description records and gene identifiers of a plurality of genes from a plurality of predetermined gene association information databases into the current training gene association matrix record, and to determine predictive association scores corresponding to the training information and the plurality of genes in the given gene association information databases, respectively;

блок определения предсказываемой степени ассоциации используется для определения предсказываемой степени ассоциации между множеством записей описания болезни и множеством генов, соответственно, в соответствии с определенными предсказываемыми показателями ассоциации;a predictive degree of association determining unit is used to determine a predicted degree of association between the plurality of disease description records and the plurality of genes, respectively, in accordance with certain association predictive scores;

блок определения ошибки используется для определения ошибки между предсказываемыми степенями связи и фактическими степенями связи множества записей описания болезни и множества генов;an error determination unit is used to determine an error between the predicted degrees of relationship and the actual degrees of relationship of the plurality of disease description records and the plurality of genes;

блок сравнения ошибки используется для определения, находится ли ошибка ниже заданного порога ошибки, и если да, запускают блок определения записи-матрицы генной ассоциации, или, в противном случае, запускают блок корректировки параметров матрицы;an error comparer is used to determine if the error is below a predetermined error threshold, and if so, run a gene association matrix entry determiner, or otherwise run a matrix parameter adjuster;

блок определения записи-матрицы генной ассоциации используется для определения текущей обучающей записи-матрицы генной ассоциации в качестве записи-матрицы генной ассоциации;a gene association matrix entry determining unit is used to determine the current training gene association matrix entry as the gene association matrix entry;

блок корректировки параметров матрицы используется для корректировки параметров матрицы текущей обучающей записи-матрицы генной ассоциации посредством алгоритма нисходящего градиента, используя корректированную обучающую запись-матрицу генной ассоциации в качестве текущей обучающей записи-матрицы генной ассоциации, и для запуска блока определения предсказываемого показателя ассоциации.the matrix parameter adjustment block is used to adjust the matrix parameters of the current gene association matrix training record by a descending gradient algorithm, using the adjusted gene association training record as the current gene association training record matrix, and to start the predicted association indicator determination block.

Носитель запоминающего устройства, на котором хранится компьютерная программа, которая, когда исполняется процессором, осуществляет способ определения степени генной ассоциации, соответствующий любому из описанных выше способов.A storage medium that stores a computer program that, when executed by a processor, performs a method for determining the degree of gene association according to any of the methods described above.

Процессор для исполнения программы, где программа, когда исполняется, выполняет способ определения степени генной ассоциации в соответствии с любым из описанных выше способов.A processor for executing a program, wherein the program, when executed, performs a method for determining the degree of gene association in accordance with any of the methods described above.

Электронное устройство, содержащее по меньшей мере один процессор, по меньшей мере одну память, связанную с процессором, и шину; в котором процессор осуществляет связь с памятью через шину; процессор используется для вызова программных команд из памяти для выполнения способа определения степени генной ассоциации в соответствии с любым описанным выше способом.An electronic device comprising at least one processor, at least one memory associated with the processor, and a bus; in which the processor communicates with the memory through the bus; the processor is used to recall program instructions from memory to perform the method for determining the degree of gene association in accordance with any of the methods described above.

Компьютерный программный продукт, который, когда исполняется на электронном устройстве, выполнен с возможностью исполнения программы для инициализации этапов способа определения степени генной ассоциации в соответствии с любым из описанных выше способов.A computer program product that, when executed on an electronic device, is configured to execute a program to initialize the steps of a method for determining the degree of gene association in accordance with any of the methods described above.

С помощью описанной выше технической схемы способ и устройство определения степени генной ассоциации, представленные в этой заявке, способны определять запись описания болезни в тексте описания случая. Для множества заданных баз данных ассоциации данные записи для целевой записи(-ей) ассоциации в заданной базе данных ассоциации определяют в соответствии с записью описания болезни и генными идентификаторами, каждый из которых соответствует одному из множества генов, где каждая из заданных баз данных ассоциации хранит записи ассоциации записи описания болезни и генных идентификаторов, соответствующих по меньшей мере одному из множества генов; данные записи вводятся в заданную запись-матрицу генной ассоциации, чтобы определить показатель ассоциации записи описания болезни с соответствующим каждым из множества генов в заданной базе данных ассоциации; и степень ассоциации между записью описания болезни и каждым из множества генов определяют в соответствии с показателями ассоциации записи описания болезни с генными идентификаторами, соответствующими множеству генов во множестве заданных баз данных ассоциации. В этой заявке, определяя данные записи для целевой записи(-ей) ассоциации записи описания болезни и множества генов из каждой заданной базы данных ассоциации и вводя данные записи в заданную запись-матрицу генной ассоциации, определяют показатель ассоциации записи описания болезни с соответствующим каждым из множества генов в заданной базе данных ассоциации и степень ассоциации между записью описания болезни и множеством генов может быть быстро получена.Using the technical scheme described above, the method and device for determining the degree of gene association presented in this application is able to determine the record of the description of the disease in the text of the case description. For a plurality of given association databases, record data for the target association record(s) in a given association database is determined according to a disease description record and gene identifiers, each of which corresponds to one of the plurality of genes, where each of the given association databases stores records association of the disease description record and gene identifiers corresponding to at least one of the plurality of genes; the entry data is entered into a predetermined gene association entry matrix to determine an association score of the disease description entry with a corresponding each of the plurality of genes in the predetermined association database; and the degree of association between the disease description entry and each of the plurality of genes is determined according to the association scores of the disease description entry with gene identifiers corresponding to the plurality of genes in the plurality of predetermined association databases. In this application, by determining the record data for the target association record(s) of the disease description record and a plurality of genes from each given association database and entering the record data into a given gene association record matrix, the association score of the disease record with the corresponding each of the set is determined. genes in a given association database, and the degree of association between a disease description record and a plurality of genes can be quickly obtained.

Представленное выше является лишь кратким обзором технического решения в этой заявке. Чтобы понять технические средства настоящей заявки более ясно, она может быть реализована в соответствии с записью этого описания, а чтобы сделать вышеупомянутые и другие задачи, признаки и преимущества настоящей заявки более понятными, ниже будут представлены конкретные варианты осуществления настоящей заявки.The above is only a brief overview of the technical solution in this application. In order to understand the technical means of the present application more clearly, it can be implemented in accordance with the record of this description, and in order to make the above and other objects, features and advantages of the present application more clear, specific embodiments of the present application will be presented below.

Краткое описание чертежейBrief description of the drawings

Чтобы более ясно объяснить варианты осуществления настоящей заявки или технические решения предшествующего уровня техники, ниже будет приведено краткое введение в чертежи, необходимые для использования при описании вариантов осуществления или предшествующего уровня техники. Очевидно, что чертежи, показанные ниже, являются просто некоторыми из вариантов осуществления настоящей заявки. Специалист в данной области техники может также получить другие чертежи, соответствующие таким чертежам, при условии, что никакие изобретательские усилия не применяются.In order to more clearly explain the embodiments of the present application or the technical solutions of the prior art, a brief introduction to the drawings will be given below, necessary for use in describing the embodiments or the prior art. Obviously, the drawings shown below are just some of the embodiments of the present application. A person skilled in the art can also obtain other drawings corresponding to such drawings, provided that no inventive efforts are applied.

Фиг. 1 – блок-схема последовательности выполнения операций способа определения степени генной ассоциации, представленного в некоторых вариантах осуществления настоящей заявки;Fig. 1 is a flowchart of the method for determining the degree of gene association provided in some embodiments of the present application;

фиг. 2 - блок-схема последовательности выполнения операций способа определения степени генной ассоциации, представленного в некоторых вариантах осуществления настоящей заявки;fig. 2 is a flowchart of a method for determining the degree of gene association provided in some embodiments of the present application;

фиг. 3 - схема процесса обучения заданной записи-матрицы генной ассоциации, представленного в некоторых вариантах осуществления настоящей заявки;fig. 3 is a diagram of a learning process for a given gene association matrix record as provided in some embodiments of the present application;

фиг. 4 – блок-схема последовательности осуществления операций еще одного другого способа определения степени генной ассоциации, представленного в некоторых вариантах осуществления настоящей заявки;fig. 4 is a flowchart of yet another method for determining the degree of gene association provided in some embodiments of the present application;

фиг. 5 - структурная схема устройства определения степени генной ассоциации, представленного в некоторых вариантах осуществления настоящей заявки;fig. 5 is a block diagram of a device for determining the degree of gene association provided in some embodiments of the implementation of the present application;

фиг. 6 - структурная схема другого устройства определения степени генной ассоциации, представленного в некоторых вариантах осуществления настоящей заявки.fig. 6 is a block diagram of another device for determining the degree of gene association provided in some embodiments of the implementation of the present application.

Подробное описание предпочтительных вариантов осуществленияDetailed Description of the Preferred Embodiments

Примерные варианты осуществления настоящего раскрытия теперь будут описаны подробно со ссылкой на сопроводительные чертежи. Хотя на чертежах показаны примерные варианты осуществления настоящего раскрытия, следует понимать, что настоящее раскрытие может быть реализовано в различных формах и не должно ограничиваться представленными здесь вариантами осуществления. Скорее эти варианты осуществления изложены, чтобы позволить более полное понимание настоящего раскрытия и полностью представить специалистам в данной области техники объем защиты настоящего раскрытия.Exemplary embodiments of the present disclosure will now be described in detail with reference to the accompanying drawings. Although the drawings show exemplary embodiments of the present disclosure, it should be understood that the present disclosure may be implemented in various forms and should not be limited to the embodiments presented here. Rather, these embodiments are set forth to allow a more complete understanding of the present disclosure and to fully convey to those skilled in the art the scope of the present disclosure.

Как показано на фиг. 1, способ определения степени генной ассоциации, представленный в некоторых вариантах осуществления настоящей заявки, может содержать следующие этапы, на которых:As shown in FIG. 1, the method for determining the degree of gene association provided in some embodiments of the present application may comprise the following steps, where:

S100: определяют запись описания болезни в тексте описания случая.S100: define the record of the description of the disease in the text of the description of the case.

Текст описания случая может быть записью медицинских действий, таких как обследование медицинским персоналом и диагноз болезней пациентов. Как вариант, текст описания случая может быть предложениями или абзацами, составленными из множества слов. Запись описания болезни может быть записью, описывающей клиническую информацию о фенотипе болезни пациента.The text of the case description may be a record of medical activities such as examination by medical staff and diagnosis of patients' illnesses. Alternatively, the case description text may be sentences or multi-word paragraphs. The disease description record may be a record describing clinical information about a patient's disease phenotype.

Как вариант, записью описания болезни может быть проявление HPO или проявление наследственной болезни. HPO (human phenotype ontology, онтология человеческого фенотипа) является набором стандартного словаря, описывающего патологические фенотипы, вызванные человеческими болезнями. Набор стандартного словаря содержит многочисленные проявления HPO. Понятно, что проявления HPO могут быть выражены китайскими словами или словами на других языках, таких как английский язык. Проявление наследственной болезни может быть профессиональным названием, и/или аббревиатурой и/или одним из других определяемых пользователем названий болезней, где гены являются главной причиной болезней. Следует заметить, что определяемые пользователем названия в отрасли могут быть разговорными обозначениями болезней. Например, профессиональное название болезни "бронхиальная астма" может быть сокращено до "астма" и оно часто выражается как разговорное выражение для обозначения "свистящего дыхания". Следует понимать, что благодаря непрерывному углублению исследований наследственных болезней в области исследований и различным фактическим потребностям в различных областях применения, отраслевой персонал может создавать свои представления наследованных болезней в соответствии с потребностями исследования или фактическими потребностями применения.Alternatively, the disease description record may be an HPO manifestation or a hereditary disease manifestation. HPO (human phenotype ontology, ontology of the human phenotype) is a set of standard vocabulary describing pathological phenotypes caused by human diseases. The standard vocabulary set contains numerous manifestations of HPO. It is understood that manifestations of HPO may be expressed in Chinese words or words in other languages such as English. A hereditary disease manifestation may be a trade name, and/or an abbreviation and/or one of the other user-defined disease names where genes are the main cause of the diseases. It should be noted that user-defined industry names may be colloquial terms for diseases. For example, the professional name for the disease "bronchial asthma" can be shortened to "asthma" and is often expressed as a colloquial expression for "wheezing". It should be understood that due to the continuous deepening of research into hereditary diseases in the field of research and the different actual needs in different fields of application, industry personnel can create their representations of hereditary diseases in accordance with the needs of the study or the actual needs of the application.

Как вариант, в некоторых вариантах осуществления настоящей заявки, текст описания случая может быть сегментирован и структурированные представления описания болезни могут извлекаться от неструктурированного текста описания случая через извлечение именованных записей (named entity recognition, NER) при обработке естественного языка (natural language processing, NLP). Варианты осуществления настоящей заявки могут точно извлекать запись описания болезни из текста описания случая, используя упомянутую технологию извлечения именованных записей.Alternatively, in some embodiments of the present application, the text of the case description can be segmented and structured representations of the description of the disease can be extracted from the unstructured text of the case description through the extraction of named records (named entity recognition, NER) in natural language processing (NLP) . Embodiments of the present application can accurately extract a disease description entry from a case description text using said named entry extraction technology.

Следует понимать, что варианты осуществления настоящей заявки могут также извлекать запись описания болезни из текста описания случая через заранее установленные ключевые слова описания болезни.It should be understood that embodiments of the present application may also extract the disease description entry from the case description text via predetermined disease description keywords.

Следует понимать, что текст описания случая может содержать одно или более проявлений записи описания болезни и варианты осуществления настоящей заявки могут выполнять способ для определения степени генной ассоциации, представляемый вариантами осуществления настоящей заявки на любой записи описания болезни, определенной из текста описания случая.It should be understood that the case description text may contain one or more manifestations of the disease description entry, and embodiments of the present application may perform the method for determining the degree of gene association provided by the embodiments of the present application on any disease description record determined from the case description text.

S200: для множества заданных баз данных ассоциации определяют данные записи для одной или более целевых записей ассоциации из заданной базы данных ассоциации, соответствующие записи описания болезни и генным идентификаторам, каждый из которых соответствует одному из множества генов, причем каждая из заданных баз данных ассоциации хранит записи ассоциации записи описания болезни и генных идентификаторов, соответствующих по меньшей мере одному из множества генов; и вводят данные записи в заданную запись-матрицу генной ассоциации, чтобы определить показатель ассоциации записи описания болезни с соответствующим каждым из множества генов в заданной базе данных ассоциации.S200: for a plurality of given association databases, determining record data for one or more target association records from a given association database, corresponding disease description records and gene identifiers, each corresponding to one of the plurality of genes, each of the given association databases storing records association of the disease description record and gene identifiers corresponding to at least one of the plurality of genes; and entering the entry data into a predetermined gene association entry matrix to determine an association score of the disease description entry with a corresponding each of the plurality of genes in the predetermined association database.

Заданная база данных ассоциации может быть базой данных, созданной на основе общедоступной в отрасли базы данных болезней, чтобы связать пригодные для отображения записи с генными идентификаторами. Как вариант, общедоступные в отрасли базы данных болезней могут содержать: базу данных OMIM (disease-related gene, генов, связанных с болезнью) данных, базу данных ClinVar (genetic variation, наследственная изменчивость), базу данных HGMD (human gene mutation, мутация человеческих генов), базу данных HPO (standard terms of human phenotype, стандартные термины человеческого фенотипа) и базу данных Orphanet (rare disease-related, связанная с редкими заболеваниями). Варианты осуществления настоящей заявки могут соответственно создавать базы данных ассоциации для различных общедоступных в отрасли баз данных болезней. Как вариант, заданная база данных ассоциации может хранить записи ассоциации, которые отображают взаимосвязь ассоциации между записями описаний болезней и генными идентификаторами.The predetermined association database may be a database derived from an industry-wide disease database to associate displayable records with gene identifiers. Alternatively, industry-wide disease databases may contain: OMIM (disease-related gene) database, ClinVar (genetic variation) database, HGMD (human gene mutation) database. genes), the HPO (standard terms of human phenotype) database, and the Orphanet (rare disease-related) database. Embodiments of the present application may accordingly create association databases for various industry-wide disease databases. Alternatively, a given association database may store association records that represent an association relationship between disease description records and gene identifiers.

Как вариант, варианты осуществления настоящей заявки могут определять данные записи для целевой записи(-ей) ассоциации в заданной базе данных ассоциации в соответствии с записью описания болезни и генными идентификаторами, соответствующими множеству генов. Как вариант, данные записи для целевой записи(-ей) ассоциации могут быть количеством записей ассоциации, содержащих запись описания болезни и любой из множества генов из заданной базы данных ассоциации, или количеством записей ассоциации, содержащих генный идентификатор любого из множества генов в заданной базе данных ассоциации.Alternatively, embodiments of the present application may determine entry data for the target association entry(s) in a given association database in accordance with the disease description entry and gene identifiers corresponding to the plurality of genes. Alternatively, the record data for the target association record(s) may be the number of association records containing the disease description record and any of the plurality of genes from the given association database, or the number of association records containing the gene identifier of any of the plurality of genes in the given database. associations.

Как вариант, этап S200 может содержать для любого гена из множества генов, определение данных записи для целевой записи(-ей) ассоциации записи описания болезни и генного идентификатора, соответствующего гену в заданной базе данных ассоциации, соответственно. Данные записи для целевой записи(-ей) ассоциации содержат первое количество записей ассоциации, содержащих генный идентификатор гена и запись описания болезни, второе количество записей ассоциации, содержащих запись описания болезни, третье количество записей ассоциации, содержащих генный идентификатор гена, и общее количество записей ассоциации в заданной базе данных ассоциации.Alternatively, step S200 may comprise, for any gene of the plurality of genes, determining entry data for the target association entry(s) of the disease description entry and the gene identifier corresponding to the gene in the predetermined association database, respectively. The record data for the target association record(s) comprises a first number of association records containing the gene gene identifier and a disease description record, a second number of association records containing a disease description record, a third number of association records containing the gene gene identifier, and the total number of association records. in the given association database.

Следует понимать, что целевая запись(-и) ассоциации может быть записью(-ями) ассоциации в заданной базе данных ассоциации и может быть записью(-ями) ассоциации, содержащей генный идентификатор гена и запись описания болезни в заданной базе данных ассоциации, записью(-ями) ассоциации, содержащей запись описания болезни в заданной базе данных ассоциации, или записью(-ями) ассоциации, содержащей генный идентификатор гена.It should be understood that the target association record(s) may be an association record(s) in a given association database, and may be an association record(s) containing a gene identifier of a gene and a disease description record in a given association database, record( associations) containing a disease description record in a given association database, or an association record(s) containing the gene identifier of a gene.

Как вариант, заданная запись-матрица генной ассоциации может иметь вид:Alternatively, a given gene association matrix record may look like:

Figure 00000001
,
Figure 00000001
,

где M - показатель ассоциации записи описания болезни с генным идентификатором, соответствующим гену в заданной информационной генной базе данных; Т1 - первое количество, Т2 - второе количество, Т3 - третье количество и ТS - общее количество.where M is the indicator of the association of the disease description record with the gene identifier corresponding to the gene in the given gene information database; T 1 is the first quantity, T 2 is the second quantity, T 3 is the third quantity, and T S is the total quantity.

В вариантах осуществления настоящей заявки, вводя данные записи для определенной целевой записи(-ей) ассоциации в заданную запись-матрицу генной ассоциации, показатели ассоциации, выводимые из заданной записи-матрицы генной ассоциации, могут быть получены посредством вычисления. Следует заметить, что количество показателей ассоциации определенной записи описания болезни в отношении любого из множества генов является таким же, как количество, выводимое из множества заданных баз данных ассоциации. Например, полагая, что имеется пять заданных баз данных ассоциации для записи описания болезни и любого гена, в некоторых вариантах осуществления настоящей заявки, показатели ассоциации записи описания болезни с геном могут быть определены, основываясь на пяти заданных базах данных ассоциации, используя заданную запись-матрицу генной ассоциации, то есть, могут быть определены пять показателей ассоциации записи описания болезни с геном. Следует понимать, что пять показателей ассоциации могут быть одинаковыми или разными.In embodiments of the present application, by inputting entry data for a specific target association entry(s) into a given gene association entry matrix, association scores derived from the given gene association entry matrix can be obtained by calculation. It should be noted that the number of association scores of a particular disease description record with respect to any one of the plurality of genes is the same as the number derived from the plurality of given association databases. For example, assuming that there are five given association databases for a disease description record and any gene, in some embodiments of the present application, association scores of a disease description record with a gene can be determined based on the five given association databases using a given matrix record. gene association, that is, five indicators of the association of a disease description record with a gene can be determined. It should be understood that the five association measures may be the same or different.

S300: определяют степень ассоциации между записью описания болезни и каждым из множества генов в соответствии с показателями ассоциации записи описания болезни с генными идентификаторами, соответствующими множеству генов из множества заданных баз данных ассоциации.S300: determining the degree of association between the disease description entry and each of the plurality of genes according to the association scores of the disease description entry with the gene identifiers corresponding to the plurality of genes from the plurality of predetermined association databases.

Как вариант, в вариантах осуществления настоящей заявки для любого гена показатели ассоциации, соответствующие записи описания болезни и генному идентификатору, соответствующему гену из множества заданных информационных баз данных генной ассоциации, суммируются, чтобы получить значение ассоциации записи описания болезни и гена.Alternatively, in embodiments of the present application, for any gene, association scores corresponding to a disease description record and a gene identifier corresponding to a gene from a plurality of predetermined gene association information databases are summed to obtain an association value of the disease description record and the gene.

Как вариант, основываясь на способе, показанном на фиг. 1, другой способ определения степени генной ассоциации, представленный в некоторых вариантах осуществления настоящей заявки, показан на фиг. 2. Этап S300 может содержать:Alternatively, based on the method shown in FIG. 1, another method for determining the degree of gene association provided in some embodiments of the present application is shown in FIG. 2. Step S300 may comprise:

S310: для любого гена взвешивают показатели ассоциации записи описания болезни с генным идентификатором, соответствующим гену из множества заданных информационных баз данных генной ассоциации, чтобы получить значение ассоциации между записью описания болезни и геном.S310: For any gene, association scores of the disease description record with a gene identifier corresponding to a gene from a plurality of predetermined gene association information databases are weighted to obtain an association value between the disease description record and the gene.

В некоторых вариантах осуществления настоящей заявки вес может быть установлен для каждой заданной информационной базы данных генной ассоциации заранее, так чтобы после процедуры взвешивания могло быть получено более надежное значение ассоциации между записью описания болезни и геном. Для простоты понимания это поясняется здесь примером. Вес заданной информационной базы А данных генной ассоциации устанавливается равным w1, вес заданной информационной базы В данных генной ассоциации устанавливается равным w2, вес заданной информационной базы С данных генной ассоциации устанавливается равным w3, вес заданной информационной базы D данных генной ассоциации устанавливается равным w4 и вес заданной информационной базы Е данных генной ассоциации устанавливается равной w5 заранее; показатель ассоциации записи описания болезни с генным идентификатором гена, соответствующий заданной информационной генной базе А данных ассоциации, равен x1, показатель ассоциации, равен x2, показатель ассоциации, соответствующий заданной информационной генной базе В данных ассоциации, равен x2, показатель ассоциации, соответствующий заданной информационной генной базе C данных, равен x3, показатель ассоциации, соответствующий заданной информационной генной базе D данных, равен x4, и показатель ассоциации, соответствующий заданной информационной базе Е данных генной ассоциации, равен x5. Посредством процесса взвешивания, значение ассоциации между записью описания болезни и геном получают следующим образом:In some embodiments of the present application, a weight may be set for each given gene association information database in advance so that a more reliable association value between the disease description record and the gene can be obtained after the weighting procedure. For ease of understanding, this is illustrated here with an example. The weight of the given infobase A of the gene association data is set to w1, the weight of the given infobase B of the gene association data is set to w2, the weight of the given infobase C of the gene association data is set to w3, the weight of the given infobase D of the gene association data is set to w4, and the weight of the given infobase C of the gene association data is set to w4, and the weight of the given the information base E of the gene association data is set to w5 in advance; the association score of the disease description record with the gene identifier of the gene corresponding to the given association data gene information base A is x1, the association score is x2, the association score corresponding to the given gene base information B in the association data is x2, the association score corresponding to the given gene information base database C is x3, the association score corresponding to the predetermined gene association information database D is x4, and the association score corresponding to the predetermined gene association information database E is x5. Through a weighting process, the association value between the disease description record and the gene is obtained as follows:

Figure 00000004
Figure 00000004

S320: определяют степень ассоциации между записью описания болезни и геном в соответствии со значением ассоциации.S320: determining the degree of association between the disease description record and the gene according to the association value.

Как вариант, этап S320 может содержать:Alternatively, step S320 may comprise:

определение степени ассоциации между записью описания болезни и геном в соответствии с

Figure 00000005
, где L - степень ассоциации между записью описания болезни и геном, e – основание натурального логарифма и z - значение ассоциации.determining the degree of association between a disease description record and a genome according to
Figure 00000005
, where L is the degree of association between the disease description record and the genome, e is the base of the natural logarithm, and z is the value of the association.

Настоящая заявка представляет способ определения степени генной ассоциации, способный определять запись описания болезни в тексте описания случая. Для множества заданных баз данных ассоциации данные записи для записи(-ей) ассоциации в заданной базе данных ассоциации определяются в соответствии с записью описания болезни и генным идентификаторам, каждый из которых соответствует одному из множества генов, причем каждая из заданных баз данных ассоциации хранит записи ассоциации записи описания болезни и генных идентификаторов, соответствующих по меньшей мере одному из множества генов; данные записи вводятся в заданную запись-матрицу генной ассоциации, чтобы определить показатель ассоциации записи описания болезни с соответствующим каждым из множества генов в заданной базе данных ассоциации; и степень ассоциации между записью описания болезни и каждым из множества генов определяют в соответствии с показателями ассоциации записи описания болезни с генными идентификаторами, соответствующими множеству генов из множества заданных баз данных ассоциации. В настоящей заявке в результате определяют данные записи для целевых записей ассоциации записи описания болезни и множества генов в каждой заданной базе данных ассоциации и вводят данные записи в заданную запись-матрицу генной ассоциации, определяют показатель ассоциации записи описания болезни с каждым из множества генов из заданной базы данных ассоциации и степень ассоциации между записью описания болезни и множеством генов может быть быстро получена.The present application provides a method for determining the degree of gene association, capable of determining the record of the description of the disease in the text of the case description. For a plurality of predetermined association databases, record data for an association record(s) in a predetermined association database is determined according to a disease description record and gene identifiers, each corresponding to one of the plurality of genes, each of the predetermined association databases storing association records disease description records and gene identifiers corresponding to at least one of the plurality of genes; the entry data is entered into a predetermined gene association entry matrix to determine an association score of the disease description entry with a corresponding each of the plurality of genes in the predetermined association database; and the degree of association between the disease description entry and each of the plurality of genes is determined according to the association scores of the disease description entry with the gene identifiers corresponding to the plurality of genes from the plurality of predetermined association databases. In the present application, as a result, record data is determined for the target association records of the disease description record and a plurality of genes in each given association database, and the record data is entered into a given record-matrix of the gene association, the indicator of the association of the disease description record with each of the plurality of genes from the given database is determined. association data and the degree of association between a disease description record and a plurality of genes can be quickly obtained.

Как вариант, как показано на фиг. 3, процесс обучения заданной записи-матрицы генной ассоциации, представленный в некоторых вариантах осуществления настоящей заявки, может содержать этапы, на которых:Alternatively, as shown in FIG. 3, the learning process for a given gene association matrix record, provided in some embodiments of the present application, may include the steps of:

S10: вводят в качестве обучающей информации данные записи для целевых записей ассоциации, содержащие множество записей описаний болезни и генные идентификаторы множества генов из множества заданных информационных баз данных генной ассоциации, в текущую обучающую запись-матрицу генной ассоциации, и определяют предсказываемые показатели ассоциации, соответствующие обучающей информации и множеству генов в заданных информационных базах данных генной ассоциации, соответственно.S10: input as training information record data for target association records containing a plurality of disease description records and gene identifiers of a plurality of genes from a plurality of predetermined gene association information databases into the current gene association training record matrix, and determining association predictive indicators corresponding to the training information and a plurality of genes in the given gene association information databases, respectively.

Варианты осуществления настоящей заявки могут инициализировать обучающую запись-матрицу генной ассоциации в начале обучения. Этап S10 подобен этапу S200. Варианты осуществления настоящей заявки могут последовательно вводить данные записи для целевых записей ассоциации множества записей описаний болезни и генных идентификаторов, соответствующих множеству генов из множества заданных информационных баз данных генной ассоциации, в текущую обучающую запись-матрицу генной ассоциации, чтобы получить предсказываемый результат показателей ассоциации из текущей обучающей записи-матрицы генной ассоциации. Точно также, определенное количество предсказываемых показателей ассоциации записи описания болезни с любым из множества генов является таким же, как количество множества заданных баз данных ассоциации.Embodiments of the present application may initialize the gene association matrix training record at the start of training. Step S10 is similar to step S200. Embodiments of the present application may sequentially input record data for association target records of a plurality of disease description records and gene identifiers corresponding to a plurality of genes from a plurality of predetermined gene association information databases into the current training record gene association matrix to obtain a predicted association score result from the current training record-matrix of gene association. Likewise, a certain number of predictable indicators of association of a disease description record with any one of a plurality of genes is the same as the number of a plurality of given association databases.

S20: определяют предсказываемые степени ассоциации между множеством записей описаний болезни и множеством генов в соответствии с определенными предсказываемыми показателями ассоциации.S20: Predictable degrees of association between the plurality of disease description records and the plurality of genes are determined according to certain predictive rates of association.

Как вариант, в вариантах осуществления настоящей заявки для любого гена показатели ассоциации, соответствующие записи описания болезни и генного идентификатора, соответствующего гену из множества заданных информационных баз данных генной ассоциации, суммируются, чтобы получить значение ассоциации записи описания болезни и гена.Alternatively, in embodiments of the present application, for any gene, association scores corresponding to a disease description record and a gene identifier corresponding to a gene from a plurality of predetermined gene association information databases are summed to obtain an association value of the disease description record and the gene.

Как вариант, в вариантах осуществления настоящей заявки для любого гена показатели ассоциации, соответствующие записи описания болезни и генному идентификатору, соответствующему гену из множества заданных информационных баз данных генной ассоциации, взвешиваются, чтобы получить значение ассоциации между записью описания болезни и геном.Alternatively, in embodiments of the present application, for any gene, association scores corresponding to a disease description record and a gene identifier corresponding to a gene from a plurality of predetermined gene association information databases are weighted to obtain an association value between the disease description record and the gene.

В вариантах осуществления настоящей заявки степень ассоциации между записью описания болезни и геном может быть определена в соответствии со значением ассоциации.In embodiments of the present application, the degree of association between a disease description record and a gene may be determined according to an association value.

S30: определяют ошибки между предсказываемыми степенями ассоциации и фактическими степенями ассоциации множества записей описания болезни и множества генов.S30: determine the errors between the predicted degrees of association and the actual degrees of association of the plurality of disease description records and the plurality of genes.

Фактические степени ассоциации могут быть степенями ассоциации между множеством записей описаний болезни и множеством генов, определенными профессионалами в этой области. В вариантах осуществления настоящей заявки, было ли завершено обучение текущей обучающей записи-матрицы генной ассоциации, может быть определено в соответствии с ошибками между фактическими степенями ассоциации и предсказываемыми степенями ассоциации.The actual degrees of association may be degrees of association between a plurality of disease description records and a plurality of genes as determined by those skilled in the art. In embodiments of the present application, whether the training of the current gene association matrix training record has been completed can be determined according to the errors between the actual association rates and the predicted association rates.

S40: определяют, находятся ли ошибки ниже заданного порога ошибки; если да, то выполняют этап S50, или, в противном случае, выполняют этап S60.S40: determining if the errors are below a predetermined error threshold; if yes, then step S50 is performed, or otherwise, step S60 is performed.

Заданный порог ошибки может быть определен в вариантах осуществления настоящей заявки в соответствии с реальными потребностями, что не является здесь дополнительным ограничением.The given error threshold can be determined in the embodiments of the present application in accordance with actual needs, which is not an additional limitation here.

S50: определяют, что текущая обучающая запись-матрица генной ассоциации является записью-матрицей генной ассоциации.S50: It is determined that the current training gene association matrix record is a gene association matrix record.

S60: корректируют параметры матрицы в текущей обучающей записи-матрице генной ассоциации посредством алгоритма нисходящего градиента, используя скорректированную обучающую запись-матрицу генной ассоциации в качестве текущей обучающей записи-матрицы генной ассоциации, и возвращаются к этапу S10.S60: Adjusting the matrix parameters in the current training record gene association matrix by a descending gradient algorithm using the adjusted training record gene association matrix as the current training record gene association matrix, and returning to step S10.

Варианты осуществления настоящей заявки корректируют параметры матрицы посредством алгоритма нисходящего градиента и могут проверять и повторно формировать обучающую запись-матрицу генной ассоциации после корректировки параметров матрицы, так чтобы, используя окончательно полученную обучающую запись-матрицу генной ассоциации, можно было получить более точные показатели ассоциации, дополнительно уменьшая ошибки между фактическими степенями ассоциации и предсказываемыми степенями ассоциации.Embodiments of the present application adjust the matrix parameters through a descending gradient algorithm and can check and regenerate the training record gene association matrix after adjusting the matrix parameters so that using the final training record gene association matrix, more accurate association scores can be obtained, further reducing errors between actual association rates and predicted association rates.

Следует понимать, что варианты осуществления изобретения могут также корректировать вес каждой заданной информационной базы данных генной ассоциации посредством способ нисходящего градиента, когда определено, что ошибки не ниже заданного порога ошибки. Корректируя вес каждой заданной информационной базы данных генной ассоциации, ошибки между фактическими степенями ассоциации и предсказываемыми степенями ассоциации могут быть уменьшены.It should be understood that embodiments of the invention may also adjust the weight of each given gene association information database by a downward gradient method when it is determined that the errors are not below a given error threshold. By adjusting the weight of each given gene association information database, errors between actual association rates and predicted association rates can be reduced.

Как вариант, основываясь на способе, показанном на фиг. 1, на фиг. 4 показан другой способ определения степени генной ассоциации, представленный в некоторых вариантах осуществления настоящей заявки. После этапа S300 способ может дополнительно содержать этапы, на которых:Alternatively, based on the method shown in FIG. 1 in FIG. 4 shows another method for determining the degree of gene association provided in some embodiments of the present application. After step S300, the method may further comprise the steps of:

S400: сортируют множество генов в порядке убывания степени ассоциации между записью описания болезни и множеством генов.S400: The plurality of genes are sorted in descending order of the degree of association between the disease description record and the plurality of genes.

Следует понимать, что чем выше степень ассоциации между геном и записью описания болезни, тем ближе клинический фенотип болезни, описанный записью описания болезни, к фенотипу гена. Сортировка множества генов после определения степеней ассоциации между записью описания болезни и множеством генов полезна для соответствующего технического персонала, чтобы идентифицировать и отсеивать патогенные гены болезни, соответствующие записи описания болезни.It should be understood that the higher the degree of association between the gene and the disease description record, the closer the clinical phenotype of the disease described by the disease description record to the phenotype of the gene. Sorting the set of genes after determining the degrees of association between the disease description record and the set of genes is useful for the appropriate technicians to identify and screen out pathogenic disease genes corresponding to the disease description record.

В соответствии с упомянутыми выше вариантами осуществления способа, в некоторых вариантах осуществления настоящей заявки дополнительно представляется устройство определения степени генной ассоциации. Структура устройства показана на фиг. 5 и может содержать: блок 100 определения записи описания болезни, блок 200 определения показателя ассоциации и блок 300 определения степени ассоциации.In accordance with the above-mentioned embodiments of the method, in some embodiments of the implementation of the present application, a device for determining the degree of gene association is additionally provided. The structure of the device is shown in Fig. 5 and may include: a disease description record determination unit 100, an association index determination unit 200, and an association degree determination unit 300.

Блок 100 определения записи описания болезни используется для определения записи описания болезни в тексте описания случая.The disease description entry determination unit 100 is used to determine the disease description entry in the case description text.

Текст описания случая может быть записью медицинских действий, таких как обследование врачебным персоналом и диагноз болезней пациента. Как вариант, текст описания случая может быть предложениями или абзацами, составленными из множества слов. Запись описания болезни может быть записью, описывающей клиническую информацию о фенотипе болезни пациента.The text of the case description may be a record of medical activities such as examination by the medical staff and diagnosis of the patient's illnesses. Alternatively, the case description text may be sentences or multi-word paragraphs. The disease description record may be a record describing clinical information about a patient's disease phenotype.

Как вариант, запись описания болезни может быть записью HPO или записью наследственной болезни. HPO (human phenotype ontology, онтология человеческого фенотипа) является набором из стандартного словаря, описывающим патологические фенотипы, вызванные человеческими болезнями. Набор из стандартного словаря содержит многочисленные записи HPO. Понятно, что записи HPO могут быть китайскими словами или словами на других языках, таких как английский язык. Запись наследственной болезни может быть профессиональным названием и/или аббревиатурой и/или одним из других определяемых пользователем названий болезней, имеющих гены как главную причину болезней. Следует заметить, что определяемые пользователем названия могут быть разговорными выражениями обозначения болезней, принятыми в отрасли. Alternatively, the disease description record may be an HPO record or a hereditary disease record. HPO (human phenotype ontology, ontology of the human phenotype) is a set of standard vocabulary describing pathological phenotypes caused by human diseases. The standard dictionary set contains numerous HPO entries. It is understood that the HPO entries may be Chinese words or words in other languages such as English. An inherited disease entry can be a trade name and/or an abbreviation and/or one of the other user-defined disease names that have genes as the main cause of diseases. It should be noted that user-defined names may be industry colloquial expressions for diseases.

Например, профессиональное название болезни "бронхиальная астма" может быть сокращено до "астма" и оно часто выражается как разговорное выражение для обозначения "свистящего дыхания". Следует понимать, что благодаря непрерывному углублению исследований наследственных болезней в области исследований и различным фактическим потребностям в различных областях применения, отраслевой персонал может создавать свои записи наследственных болезней в соответствии с потребностями исследования или фактическими потребностями применения.For example, the professional name for the disease "bronchial asthma" can be shortened to "asthma" and is often expressed as a colloquial expression for "wheezing". It should be understood that due to the continuous deepening of research on hereditary diseases in the field of research and the different actual needs in different fields of application, industry personnel can create their records of hereditary diseases in accordance with the needs of the study or the actual needs of the application.

Как вариант, блок 100 определения записи описания болезни может сегментировать текст описания случая и затем извлекать структурированные записи описания болезни из неструктурированного текста описания случая через извлечение именованных записей (named entity recognition, NER) при обработке естественного языка (natural language processing, NLP). Варианты осуществления настоящей заявки могут точно извлекать запись описания болезни из текста описания случая, используя упомянутую технологию извлечения именованных записей.Alternatively, the disease description determination unit 100 may segment the case description text and then extract structured disease description records from the unstructured case description text via natural language processing (NLP) named entity recognition (NER) extraction. Embodiments of the present application can accurately extract a disease description entry from a case description text using said named entry extraction technology.

Следует понимать, что блок 100 определения записи описания болезни может также извлекать запись описания болезни из текста описания случая, предварительно устанавливая ключевые слова описания болезни.It should be understood that the disease description record determining unit 100 may also extract the disease description record from the case description text by setting disease description keywords in advance.

Блок 200 определения показателя ассоциации используется для множества заданных баз данных ассоциации: определяют данные записи для целевой записи(-ей) ассоциации в заданной базе данных ассоциации между записью описания болезни и генным идентификаторам каждого из соответствующего одного из множества генов, причем каждая из заданных баз данных ассоциации хранит записи ассоциации записи описания болезни и генных идентификаторов, соответствующих по меньшей мере одному из множества генов; и вводят данные записи в заданную запись-матрицу генной ассоциации, чтобы определить показатель ассоциации записи описания болезни с соответствующим каждым из множества генов из заданной базы данных ассоциации.The association indicator determining unit 200 is used for a plurality of predetermined association databases: determining the record data for the target association record(s) in the predetermined association database between the disease description record and the gene identifiers of each of the corresponding one of the plurality of genes, each of the predetermined databases the association stores association records of the disease description record and gene identifiers corresponding to at least one of the plurality of genes; and entering the entry data into a predetermined gene association entry matrix to determine an association score of the disease description entry with a corresponding each of the plurality of genes from the predetermined association database.

Заданная база данных ассоциации может быть базой данных, созданной, основываясь на общедоступной в отрасли базе данных болезней, чтобы связать отображаемые записи с генными идентификаторами. Как вариант, общедоступные в отрасли базы данных болезней могут содержать: базу данных OMIM (disease-related gene, генов, связанных с болезнью) данных, базу данных ClinVar (genetic variation, наследственная изменчивость), базу данных HGMD (human gene mutation, мутация человеческих генов), базу данных HPO (standard terms of human phenotype, стандартные термины человеческого фенотипа) и базу данных Orphanet (rare disease-related, связанная с редкими заболеваниями). Как вариант, заданная база данных ассоциации может хранить записи ассоциации, которые отображают взаимосвязь ассоциации между записями описаний болезней и генными идентификаторами.The predetermined association database may be a database created based on an industry-wide public disease database to associate mapped records with gene identifiers. Alternatively, industry-wide disease databases may contain: OMIM (disease-related gene) database, ClinVar (genetic variation) database, HGMD (human gene mutation) database. genes), the HPO (standard terms of human phenotype) database, and the Orphanet (rare disease-related) database. Alternatively, a given association database may store association records that represent an association relationship between disease description records and gene identifiers.

Как вариант, блок 200 определения показателя ассоциации может определять данные записи для целевой записи(-ей) ассоциации в заданной базе данных ассоциации в соответствии с записью описания болезни и генным идентификаторам, соответствующим множеству генов. Как вариант, данные записи для целевой записи(-ей) ассоциации могут быть количеством записей ассоциации, содержащих запись описания болезни и любой из множества генов из заданной базы данных ассоциации, или количеством записей ассоциации, включающих генный идентификатор любого из множества генов из заданной базы данных ассоциации.Alternatively, the association indicator determining unit 200 may determine the entry data for the target association entry(s) in the predetermined association database according to the disease description entry and the gene identifiers corresponding to the plurality of genes. Alternatively, the record data for the target association record(s) may be the number of association records containing the disease description record and any of a plurality of genes from a given association database, or the number of association records including the gene identifier of any of a plurality of genes from a given database. associations.

Как вариант, блок 200 определения показателя ассоциации конкретно используется для любого гена из множества генов, определяет данные записи целевой записи(-ей) ассоциации записи описания болезни и генного идентификатора, соответствующего гену в заданной базе данных ассоциации, соответственно. Данные записи для целевой записи(-ей) ассоциации содержат первое количество записей ассоциации, содержащих генный идентификатор гена и запись описания болезни, второе количество записей ассоциации, содержащих запись описания болезни, третье количество записей ассоциации, содержащих генный идентификатор гена, и общее количество записей ассоциации в заданной базе данных ассоциации.Alternatively, the association indicator determination unit 200 is specifically used for any gene of the plurality of genes, determines the entry data of the target association entry(s) of the disease description entry and the gene identifier corresponding to the gene in the predetermined association database, respectively. The record data for the target association record(s) comprises a first number of association records containing the gene gene identifier and a disease description record, a second number of association records containing a disease description record, a third number of association records containing the gene gene identifier, and the total number of association records. in the given association database.

Следует понимать, что целевая запись(-и) ассоциации может быть записью(-ями) ассоциации в заданной базе данных ассоциации и может быть записью(-ями) ассоциации, содержащей генный идентификатор гена и запись описания болезни в заданной базе данных ассоциации, причем запись(-и) ассоциации содержит запись описания болезни в заданной базе данных ассоциации или запись(-и) ассоциации, содержащую генный идентификатор гена.It should be understood that the target association record(s) may be an association record(s) in a given association database, and may be an association record(s) containing a gene identifier of a gene and a disease description record in a given association database, wherein the record The association(s) contains a disease description record in a given association database, or an association record(s) containing the gene identifier of the gene.

Как вариант, заданная запись-матрица генной ассоциации может иметь следующий вид:Alternatively, a given gene association matrix record may look like this:

Figure 00000001
,
Figure 00000001
,

где M – показатель ассоциации записи описания болезни с генным идентификатором, соответствующим гену из заданной информационной генной базы данных; T1 - первое количество, T2 - второе количество, T3 - третье количество и TS - общее количество.where M is the indicator of the association of the disease description record with the gene identifier corresponding to the gene from the given gene information database; T 1 is the first number, T 2 is the second number, T 3 is the third number, and T S is the total number.

Блок 200 определения показателя ассоциации используется, чтобы посредством ввода данных записи для определенной целевой записи(-ей) ассоциации в заданную запись-матрицу генной ассоциации, получить на выходе заданной записи-матрицы генной ассоциации показатель ассоциации путем вычисления. Следует заметить, что количество показателей ассоциации определенной записи описания болезни с любым из множества генов, является таким же, как количество заданных баз данных ассоциации.The association score determination unit 200 is used to, by inputting the entry data for the determined target association entry(s) into the predetermined gene association entry matrix, output the predetermined gene association matrix entry by calculation. It should be noted that the number of indicators of association of a particular disease description record with any of the plurality of genes is the same as the number of given association databases.

Блок 300 определения степени ассоциации используется для определения степени ассоциации между записью описания болезни и каждым из множества генов, соответствующих показателям ассоциации записи описания болезни с генными идентификаторами, соответствующими множеству генов из множества заданных баз данных ассоциации.The association degree determining unit 300 is used to determine the degree of association between the disease description entry and each of the plurality of genes corresponding to the association scores of the disease description record with gene identifiers corresponding to the plurality of genes from the plurality of predetermined association databases.

Как вариант, блок 300 определения степени ассоциации может использоваться для любого гена: суммируют показатели ассоциации, соответствующие записи описания и генному идентификатору, соответствующему гену из множества заданных информационных баз данных генной ассоциации, чтобы получить значение ассоциации записи описания болезни и гена.Alternatively, the association degree determination unit 300 may be used for any gene: the association scores corresponding to the description entry and the gene identifier corresponding to the gene from a plurality of predetermined gene association information databases are summed to obtain the association value of the disease description entry and the gene.

Как вариант, блок 300 определения степени ассоциации содержит субблок получения значения ассоциации и субблок определения степени ассоциации.Alternatively, the association degree determination block 300 comprises an association value obtaining sub-block and an association degree determination sub-block.

Субблок получения значения ассоциации используется для любого гена, взвешивая показатели ассоциации записи описания болезни с генным идентификатором, соответствующим гену из множества заданных информационных баз данных генной ассоциации, чтобы получить значение ассоциации между записью описания болезни и геном.The association value derivation sub-unit is used for any gene, weighting the association scores of a disease description record with a gene identifier corresponding to a gene from a plurality of predetermined gene association information databases to obtain an association value between the disease description record and the gene.

В вариантах осуществления настоящей заявки вес может быть установлен для каждой заданной информационной базы данных генной ассоциации заранее, так чтобы после обработки со взвешиванием могло быть получено более надежное значение ассоциации между записью описания болезни и геном.In embodiments of the present application, a weight may be set for each given gene association information database in advance so that after weighting processing, a more reliable association value between the disease description record and the gene can be obtained.

Субблок определения степени ассоциации используется для определения степени ассоциации между записью описания болезни и геном, соответствующим значению ассоциации.The association degree determination sub-unit is used to determine the degree of association between the disease description entry and the gene corresponding to the association value.

Как вариант, субблок определения степени ассоциации конкретно используется для определения степени ассоциации между записью описания болезни и геном в соответствии с

Figure 00000006
, где L - степень ассоциации между записью описания болезни и геном, e – основание натурального логарифма и z - значение ассоциации.Alternatively, the association degree determination subunit is specifically used to determine the degree of association between a disease description record and a gene according to
Figure 00000006
, where L is the degree of association between the disease description record and the genome, e is the base of the natural logarithm, and z is the value of the association.

В настоящей заявке представляется устройство определения степени генной ассоциации, выполненное с возможностью определения записи описания болезни в тексте описания случая. Для множества заданных баз данных ассоциации данные записи для целевой записи(-ей) ассоциации в заданной базе данных ассоциации определяются в соответствии с записью описания болезни и генным идентификаторам, каждый из которых соответствует одному из множества генов, причем каждая из заданных баз данных ассоциации хранит записи ассоциации записи описания болезни и генных идентификаторов, соответствующих по меньшей мере одному из множества генов; данные записи вводят в заданную запись-матрицу генной ассоциации, чтобы определить показатель ассоциации записи описания болезни с каждым из множества генов из заданной базы данных ассоциации; и определяют степень ассоциации между записью описания болезни и каждым из множества генов в соответствии с показателями ассоциации записи описания болезни с генными идентификаторами, соответствующими множеству генов из множества заданных баз данных ассоциации. В настоящей заявке путем определения данных записи для целевой записи(-ей) ассоциации записи описания болезни и множества генов из каждой заданной базы данных ассоциации и ввода данных записи в заданную запись-матрицу генной ассоциации, определяют показатель ассоциации записи описания болезни с каждым из множества генов в заданной базе данных ассоциации и степень ассоциации между записью описания болезни и множеством генов может быть быстро получена.In the present application, a device for determining the degree of gene association is provided, which is configured to determine the record of the description of the disease in the text of the case description. For a plurality of given association databases, record data for the target association record(s) in a given association database is determined according to a disease description record and gene identifiers, each corresponding to one of the plurality of genes, each of the given association databases storing records association of the disease description record and gene identifiers corresponding to at least one of the plurality of genes; the entry data is entered into a predetermined gene association entry matrix to determine an association score of the disease description entry with each of the plurality of genes in the predetermined association database; and determining the degree of association between the disease description entry and each of the plurality of genes according to the association scores of the disease description entry with the gene identifiers corresponding to the plurality of genes from the plurality of predetermined association databases. In the present application, by determining the record data for the target association record(s) of the disease description record and a plurality of genes from each given association database and entering the record data into a given gene association record matrix, the association score of the disease description record with each of the plurality of genes is determined. in a given association database, and the degree of association between a disease description record and a plurality of genes can be quickly obtained.

Как вариант, устройство определения степени генной ассоциации может дополнительно содержать: блок определения предсказываемого показателя ассоциация, блок определения предсказываемой степени ассоциации, блок определения ошибки, блок сравнения ошибки, блок определения записи-матрицы генной ассоциации и блок корректировки параметров матрицы.Alternatively, the gene association degree determination device may further comprise: a predictive association indicator determination unit, a predicted association degree determination unit, an error determination unit, an error comparison unit, a gene association matrix record determination unit, and a matrix parameter adjustment unit.

Блок определения предсказываемого показателя ассоциации используется для ввода в качестве обучающей информации данных записи для целевых записей ассоциации, содержащих множество записей описания болезни и генных идентификаторов множества генов из множества заданных информационных баз данных генной ассоциации в текущую обучающую запись-матрицу генной ассоциации, и определения предсказуемых показателей ассоциации, соответствующих обучающей информации и множеству генов в заданных информационных базах данных генной ассоциации, соответственно.The association predictive score determining unit is used to input, as training information, record data for target association records containing a plurality of disease description records and gene identifiers of a plurality of genes from a plurality of predetermined gene association information databases into the current gene association training record matrix, and determine predictable indicators. associations corresponding to the training information and the set of genes in the given gene association information databases, respectively.

Блок определения предсказываемой степени ассоциации используется для определения предсказываемой степени ассоциации между множеством записей описаний болезни и множеством генов в соответствии с определенными показателями ассоциации.The predictive degree of association determination unit is used to determine the predicted degree of association between the plurality of disease description records and the plurality of genes in accordance with the determined association scores.

Как вариант, блок определения предсказываемой степени ассоциации может использоваться для любого гена: показатели ассоциации, соответствующие записи описания болезни и генному идентификатору, соответствующему гену из множества заданных информационных баз данных генной ассоциации, суммируются, чтобы получить значение ассоциации записи описания болезни и гена.Alternatively, the predicted degree of association determination unit can be used for any gene: the association scores corresponding to the disease description record and the gene identifier corresponding to the gene from a plurality of predetermined gene association information databases are summed to obtain the association value of the disease description record and the gene.

Как вариант, блок определения предсказываемой степени ассоциации может использоваться для любого гена: показатели ассоциации, соответствующие записи описания болезни и генному идентификатору, соответствующему гену из множества заданных информационных баз данных генной ассоциации, взвешиваются, чтобы получить значение ассоциации записи описания болезни и гена.Alternatively, the predicted degree of association determination unit can be used for any gene: the association scores corresponding to the disease description record and the gene identifier corresponding to the gene from a plurality of predetermined gene association information databases are weighted to obtain the association value of the disease description record and the gene.

Блок определения предсказываемой степени ассоциации может использоваться для определения степень ассоциации между записью описания болезни и геном в соответствии со значением ассоциации.The predicted association degree determining unit may be used to determine the degree of association between the disease description record and the gene according to the association value.

Блок определения ошибки используется для определения ошибки между предсказываемыми степенями ассоциации и фактическими степенями ассоциации множества записей описания болезни и множества генов.An error determination block is used to determine an error between the predicted degrees of association and the actual degrees of association of the plurality of disease description records and the plurality of genes.

Фактические степени ассоциации может быть степенями ассоциации между множеством записей описания болезни и множеством генов, определенными профессионалами в этой области.The actual degrees of association may be the degrees of association between a plurality of disease description records and a plurality of genes as determined by those skilled in the art.

Блок сравнения ошибки используется для определения, находится ли ошибка ниже заданного порога ошибки, если да, вызывают блок определения записи-матрицы генной ассоциации, или, в противном случае, вызывают блок корректировки параметров матрицы.The error compare block is used to determine if the error is below a predetermined error threshold, if so, the gene association matrix record determination block is called, or otherwise, the matrix parameter adjustment block is called.

Блок определения записи-матрицы генной ассоциации используется для определения текущей обучающей записи-матрицы генной ассоциации как записи-матрицы генной ассоциации.The gene association matrix record determination unit is used to determine the current training gene association matrix record as a gene association matrix record.

Блок корректировки параметров матрицы используется для корректировки параметров матрицы в текущей обучающей записи-матрице генной ассоциации посредством алгоритма нисходящего градиента, используя корректированную обучающую запись-матрицу генной ассоциации в качестве текущей обучающей записи-матрицы генной ассоциации и вызывая блок 200 определения предсказываемого показателя ассоциации.The matrix parameter adjuster is used to adjust the matrix parameters in the current training record gene association matrix by a downward gradient algorithm, using the adjusted training record gene association matrix as the current training record gene association matrix and calling the predicted association score determination block 200 .

Как вариант, основываясь на устройстве, показанном на фиг. 5, на фиг. 6 показано другое устройство определения степени генной ассоциации, представленное в некоторых вариантах осуществления настоящей заявки. Устройство может дополнительно содержать блок 400 генной сортировки.Alternatively, based on the device shown in FIG. 5 in FIG. 6 shows another device for determining the degree of gene association provided in some embodiments of the present application. The device may further comprise a gene sorting unit 400 .

Блок 400 генной сортировки может использоваться для сортировки множества генов в нисходящем порядке степени ассоциации между записью описания болезни и множеством генов после того, как блок 300 определения степени ассоциации определяет степень ассоциации между записью описания болезни и множеством генов, соответственно.The gene sorter 400 may be used to sort the plurality of genes in descending order of the degree of association between the disease description record and the plurality of genes, after the degree of association determiner 300 determines the degree of association between the disease description record and the plurality of genes, respectively.

Устройство определения степени генной ассоциации содержит процессор и память. Блок 100 определения записи описания болезни, блок 200 определения показателя ассоциации и блок 300 определения степени ассоциации все хранятся в памяти в виде программных блоков. Вышеупомянутые программные блоки исполняются процессором для осуществления соответствующих функций.The device for determining the degree of gene association contains a processor and a memory. The disease description record determination unit 100, the association index determination unit 200, and the association degree determination unit 300 are all stored in memory as program blocks. The above program blocks are executed by the processor to perform the respective functions.

Процессор содержит ядро, которое вызывает соответствующие программные блоки из памяти. Могут обеспечиваться одно или более ядер, посредством которых определяют данные записи для целевых записей ассоциации, содержащих запись описания болезни и множество генов в каждой заданной базе данных ассоциации, вводят данные записи в заданную запись-матрицу генной ассоциации и определяют показатель ассоциации записи описания болезни с соответствующим каждым из множества генов из заданной базы данных ассоциации, и, корректируя основные параметры, степень ассоциации между записью описания болезни и множеством генов может быть быстро получена.The processor contains a core that calls the appropriate program blocks from memory. One or more cores may be provided that determine record data for target association records containing a disease description record and a plurality of genes in each given association database, enter the record data into a given gene association record matrix, and determine an association score of the disease description record with the corresponding each of the plurality of genes from a given association database, and by adjusting the basic parameters, the degree of association between the disease description record and the plurality of genes can be quickly obtained.

Некоторые варианты осуществления настоящей заявки представляют носитель запоминающего устройства, на котором хранится программа, которая, когда исполняется процессором, осуществляет способ определения степени генной ассоциации.Some embodiments of the present application provide a storage medium that stores a program that, when executed by a processor, performs a method for determining the degree of gene association.

Некоторые варианты осуществления настоящей заявки представляют процессор для исполнения программы, которая, когда исполняется, реализует способ определения степени генной ассоциации.Some embodiments of the present application provide a processor for executing a program that, when executed, implements a method for determining the degree of gene association.

Некоторые варианты осуществления настоящей заявки представляют электронное устройство, содержащее по меньшей мере один процессор, по меньшей мере одну память, связанную с процессором, и шину; причем процессор осуществляет связь с памятью через шину; процессор используется для вызова программных команд из памяти, чтобы выполнять вышеупомянутый способ определения степени генной ассоциации. Электронное устройство здесь может быть сервером, персональным компьютером, персональным компьютерным помощником или мобильным телефоном и т.д.Some embodiments of the present application represent an electronic device containing at least one processor, at least one memory associated with the processor, and a bus; wherein the processor communicates with the memory via a bus; the processor is used to call program instructions from the memory to carry out the above method for determining the degree of gene association. The electronic device here may be a server, a personal computer, a personal computer assistant or a mobile phone, etc.

Настоящая заявка дополнительно обеспечивает компьютерный программный продукт, который, когда исполняется на электронном устройстве, пригоден для исполнения программы, которая инициализирует этапы способа для определения степени генной ассоциации.The present application further provides a computer program product that, when executed on an electronic device, is capable of executing a program that initializes the method steps for determining the degree of gene association.

Настоящая заявка была описана со ссылкой на блок-схемы последовательности выполнения операций и/или блок-схемы способов, устройств, электронных устройств (систем) и компьютерные программные продукты, соответствующие вариантам осуществления настоящей заявки. Следует понимать, что каждый процесс и/или блок на блок-схемах последовательности выполнения операций и/или на блок-схемах и в комбинациях процессов и/или блоков на блок-схемах последовательности выполнения операций и/или на блок-схемах могут осуществляться командами компьютерной программы. Команды компьютерной программы могут подаваться на процессор универсального компьютера, компьютер специального назначения, встроенный процессор или на другое программируемое устройство, формирующее такую машину, чтобы команды, исполняемые процессором компьютера или другого программируемого устройства обработки данных создавали средство, осуществляющее функции, указанные в одном или более потоках блок-схем последовательности выполнения операций и/или в одном или более блоках блок-схем.The present application has been described with reference to flowcharts and/or flowcharts of methods, devices, electronic devices (systems), and computer program products corresponding to embodiments of the present application. It should be understood that each process and/or block in the flowcharts and/or flowcharts and in combinations of processes and/or blocks in the flowcharts and/or flowcharts may be executed by computer instructions. programs. Computer program instructions may be provided to the processor of a general purpose computer, a special purpose computer, an embedded processor, or other programmable device forming such a machine, such that instructions executed by the processor of the computer or other programmable data processing device produce a means that performs the functions specified in one or more threads. flowcharts and/or in one or more blocks of flowcharts.

В типичной конфигурации электронное устройство содержит один или более процессоров (CPU), память и шину. Электронное устройство может дополнительно содержать интерфейс ввода - вывода, сетевой интерфейс и т.п.In a typical configuration, an electronic device contains one or more processors (CPUs), memory, and a bus. The electronic device may further comprise an input/output interface, a network interface, or the like.

Память может содержать непостоянную память на считываемом компьютером носителе, оперативную память (RAM) и/или долговременную память, такую как постоянная память (ROM) или флэш-RAM. Память содержит по меньшей мере одну микросхему памяти. Память является примером считываемого компьютером носителя.The memory may include non-persistent memory on a computer-readable medium, random access memory (RAM) and/or non-volatile memory such as read only memory (ROM) or flash RAM. The memory contains at least one memory chip. Memory is an example of a computer-readable medium.

Считываемые компьютером носители содержат постоянный и непостоянный носители, съемные и несъемные носители и информационное запоминающее устройство может реализовываться любым способом или технологией. Информация может быть считываемыми компьютером командами, структурами данных, программными модулями или другими данными. Примеры компьютерных носителей запоминающего устройства содержат, но не ограничиваясь только этим, память с фазовыми переходами (phase change memory, PRAM), статическая оперативная память (static random access memory, SRAM), динамическая оперативная память (dynamic random access memory, DRAM), другие типы оперативной памяти (random access memory, RAM), постоянное запоминающее устройство (read-only memory, ROM), электрически стираемое программируемое постоянное запоминающее устройство (electrically erasable programmable read-only memory, EEPROM), флэш-память или другие технологии памяти, CD-ROM, цифровой универсальный диск (digital versatile disc, DVD) или другое оптическое запоминающее устройство, магнитные кассеты, магнитная лента, запоминающее устройство на магнитных дисках или другие устройства магнитного запоминающего устройства или любые другие носители долговременного хранения, которые могут использоваться для хранения информации, к которым могут получать доступ компьютерные устройства. Согласно приведенному здесь определению, считываемый компьютером носитель не содержит передаваемые носители, такие как сигналы модулированных данных и несущие волны.Computer-readable media includes persistent and non-permanent media, removable and non-removable media, and information storage may be implemented in any method or technology. The information may be computer-readable instructions, data structures, program modules, or other data. Examples of computer storage media include, but are not limited to, phase change memory (PRAM), static random access memory (SRAM), dynamic random access memory (DRAM), others. types of random access memory (RAM), read-only memory (ROM), electrically erasable programmable read-only memory (EEPROM), flash memory or other memory technologies, CD -ROM, digital versatile disc (DVD) or other optical storage device, magnetic cassettes, magnetic tape, magnetic disk storage device or other magnetic storage devices or any other durable storage media that can be used to store information, which can be accessed by computer devices oistva. As defined herein, computer-readable media does not include transmittable media such as modulated data signals and carrier waves.

Дополнительно, термины "содержит", "включает" или любые другие их вариации предназначены охватывать неисключающее сочетание, так чтобы процесс, способ, продукт или устройство, содержащие ряд факторов, могли содержать не только эти факторы, но также и другие факторы, явно не перечисленные, или факторы, внутренне свойственные этому процессу, способу, продукту или устройству. Без ограничения, фактор, определяемый словами "содержит...", не исключает существование других таких же факторов в процессе, способе, продукте или устройстве, содержащих такой фактор.Additionally, the terms "comprises", "comprises", or any other variations thereof are intended to cover a non-exclusive combination such that a process, method, product, or apparatus containing a number of factors may contain not only those factors, but also other factors not expressly listed. , or factors intrinsic to that process, method, product, or device. Without limitation, a factor defined by the words "comprises..." does not preclude the existence of other such factors in a process, method, product, or device containing such a factor.

Специалисты в данной области техники должны понимать, что, варианты осуществления настоящей заявки могут быть представлены как способ, система или компьютерный программный продукт. Поэтому варианты осуществления настоящей заявки могут принимать форму полностью аппаратного варианта осуществления, полностью программного варианта осуществления или варианта осуществления, содержащего как аппаратные, так и программные элементы. Кроме того, настоящая заявка может иметь форму одного или более компьютерных программных продуктов, содержащих исполняемые компьютером коды, которые могут реализовываться на исполняемом компьютером носителе данных (включая, но не ограничиваясь только этим, диски, CD-ROM, оптические диски и т.д.).Those skilled in the art will understand that, embodiments of the present application may be presented as a method, system, or computer program product. Therefore, embodiments of the present application may take the form of an entirely hardware embodiment, an entirely software embodiment, or an embodiment containing both hardware and software elements. In addition, the present application may take the form of one or more computer program products containing computer executable codes that may be implemented on a computer executable storage medium (including, but not limited to, discs, CD-ROMs, optical discs, etc. ).

Выше приведены только примеры настоящей заявки, которые не используются для ограничения настоящей заявки. Для специалистов в данной области техники настоящая заявка может иметь различные модификации и изменения. Любые модификации, эквивалентные замены или улучшения, сделанные в пределах записи и принципа настоящей заявки, должны включаться в рамки объема защиты формулы изобретения настоящей заявки.The above are only examples of the present application and are not used to limit the present application. For those skilled in the art, the present application may have various modifications and changes. Any modifications, equivalent substitutions or improvements made within the scope of the notation and principle of this application shall be included within the protection scope of the claims of this application.

Claims (46)

1. Способ определения степени ассоциации между записью описания болезни и геном, отличающийся тем, что содержит этапы, на которых:1. A method for determining the degree of association between a disease description record and a genome, characterized in that it contains the steps at which: определяют, посредством блока определения записи описания болезни, запись описания болезни в тексте описания случая;determining, by means of a disease description record determination unit, a disease description record in the case description text; для каждой из множества заданных баз данных ассоциации:for each of the set of given association databases: определяют, посредством блока определения показателя ассоциации, данные записи для целевой записи(-ей) ассоциации в заданной базе данных ассоциации в соответствии с записью описания болезни и генными идентификаторами, каждый из которых соответствует одному из множества генов, причем каждая из заданных баз данных ассоциации хранит записи ассоциации записи описания болезни и генных идентификаторов, соответствующих по меньшей мере одному из множества генов; determining, by means of an association indicator determining unit, record data for the target association record(s) in the given association database in accordance with the disease description record and gene identifiers, each of which corresponds to one of the plurality of genes, each of the given association databases storing association records of the disease description record and gene identifiers corresponding to at least one of the plurality of genes; вводят, посредством блока определения показателя ассоциации, данные записи в заданную запись-матрицу генной ассоциации, чтобы определить показатель ассоциации записи описания болезни с соответствующим каждым из множества генов из заданной базы данных ассоциации; иinputting, by means of an association score determining unit, the record data into a predetermined gene association record matrix to determine the association score of the disease description record with a corresponding each of the plurality of genes from the predetermined association database; And определяют, посредством блока определения степени ассоциации, степени ассоциации между записью описания болезни и каждым из множества генов в соответствии с показателями ассоциации записи описания болезни с генными идентификаторами, соответствующими множеству генов из множества заданных баз данных ассоциации.determining, by the association degree determining unit, the degree of association between the disease description record and each of the plurality of genes according to the association scores of the disease description record with the gene identifiers corresponding to the plurality of genes from the plurality of predetermined association databases. 2. Способ по п. 1, отличающийся тем, что определение данных записи для целевой записи(-ей) ассоциации в заданной базе данных ассоциации, соответствующей записи описания болезни и генным идентификаторам, каждый из которых соответствует одному из множества генов, содержит этапы, на которых:2. The method according to claim 1, characterized in that determining the entry data for the target association entry(s) in a given association database, the corresponding disease description entry and gene identifiers, each of which corresponds to one of the plurality of genes, comprises the steps of which: для любого гена из множества генов определяют данные записи для целевой записи(-ей) ассоциации записи описания болезни и генного идентификатора, соответствующего гену из заданной базы данных ассоциации, соответственно, причем данные записи для целевой записи(-ей) ассоциации содержат первое количество записей ассоциации, содержащих как генный идентификатор гена, так и запись описания болезни, второе количество записей ассоциации, содержащих запись описания болезни, третье количество записей ассоциации, содержащих генный идентификатор гена, и общее количество записей ассоциации в заданной базе данных ассоциации.for any gene from a plurality of genes, record data is determined for the target association record(s) of the disease description record and the gene identifier corresponding to the gene from the given association database, respectively, and the record data for the target association record(s) contains the first number of association records containing both the gene identifier of the gene and the disease description record, a second number of association records containing the disease description record, a third number of association records containing the gene gene identifier, and the total number of association records in the given association database. 3. Способ по п. 2, отличающийся тем, что заданная запись-матрица генной ассоциации имеет вид:3. The method according to claim 2, characterized in that the given record-matrix of the gene association has the form:
Figure 00000007
,
Figure 00000007
,
где М - показатель ассоциации записи описания болезни с генным идентификатором, соответствующим гену в заданной базе данных ассоциации; Т1 - первое количество, Т2 - второе количество, Т3 - третье количество; ТS - общее количество.where M is the association score of the disease description record with the gene identifier corresponding to the gene in the given association database; T 1 - the first number, T 2 - the second number, T 3 - the third number; T S - total. 4. Способ по любому из пп. 1-3, отличающийся тем, что степень определения ассоциации между записью описания болезни и каждым из множества генов, соответствующих показателям ассоциации записи описания болезни с генными идентификаторами, соответствующими множеству генов из множества заданных баз данных ассоциации, содержит для любого гена из множества генов этапы, на которых:4. The method according to any one of paragraphs. 1-3, characterized in that the degree of determination of the association between the disease description record and each of the plurality of genes corresponding to the indicators of the association of the disease description record with gene identifiers corresponding to the plurality of genes from the plurality of given association databases contains, for any gene from the plurality of genes, steps, where: взвешивают показатели ассоциации записи описания болезни с генным идентификатором, соответствующим гену из множества заданных баз данных ассоциации, чтобы получить значение ассоциации между записью описания болезни и геном; и weighting association scores of the disease description record with a gene identifier corresponding to a gene from a plurality of predetermined association databases to obtain an association value between the disease description record and the gene; And определяют степень ассоциации между записью описания болезни и геном в соответствии со значением ассоциации.determining the degree of association between the disease description record and the gene according to the association value. 5. Способ по п. 4, отличающийся тем, что определение степени ассоциации между записью описания болезни и геном в соответствии со значением ассоциации содержит этапы, на которых:5. The method according to claim 4, characterized in that determining the degree of association between the disease description record and the gene in accordance with the association value comprises the steps of: определяют степень ассоциации между записью описания болезни и геном в соответствии с
Figure 00000008
, где L - степень ассоциации между записью описания болезни и геном, e - основание натурального логарифма и z - значение ассоциации.
determine the degree of association between a disease description record and a gene according to
Figure 00000008
, where L is the degree of association between the disease description record and the genome, e is the base of the natural logarithm, and z is the value of the association.
6. Способ по любому из пп. 1-5, отличающийся тем, что способ дополнительно содержит этапы, на которых:6. The method according to any one of paragraphs. 1-5, characterized in that the method further comprises the steps of: вводят в качестве обучающей информации данные записи для целевой записи(-ей) ассоциации, содержащей множество записей описания болезни и генные идентификаторы множества генов из множества заданных баз данных ассоциации, в текущую обучающую запись-матрицу генной ассоциации, и определяют предсказываемые показатели ассоциации, соответствующие обучающей информации и множеству генов из заданных информационных баз данных генной ассоциации, соответственно;entering as training information the record data for the target association record(s) containing a plurality of disease description records and gene identifiers of a plurality of genes from a plurality of given association databases into the current gene association training record matrix, and determining association predictive indicators corresponding to the training information and a plurality of genes from predetermined gene association information databases, respectively; определяют предсказываемую степень ассоциации между множеством записей описания болезни и множеством генов в соответствии с определенными предсказываемыми показателями ассоциации;determining a predictable degree of association between the plurality of disease description records and the plurality of genes in accordance with certain predictive association scores; определяют ошибки между предсказываемой степенью ассоциации и фактический степенью ассоциации множества записей описания болезни и множества генов;determining errors between the predicted degree of association and the actual degree of association of the plurality of disease description records and the plurality of genes; определяют, находятся ли ошибки ниже заданного порога ошибки; determining if the errors are below a predetermined error threshold; если да, принимают решение, что текущая обучающая запись-матрица генной ассоциации является запись-матрица генной ассоциации; иif so, deciding that the current training gene association matrix record is a gene association matrix record; And в противном случае корректируют параметры матрицы в текущей обучающей записи-матрице генной ассоциации посредством алгоритма нисходящего градиента, используя скорректированную обучающую запись-матрицу генной ассоциации в качестве текущей обучающей записи-матрицы генной ассоциации, и возвращаются к этапу ввода в качестве обучающей информации, записывают данные целевых записей ассоциации, содержащие множество записей описания болезни и генные идентификаторы множества генов из множества заданных баз данных ассоциации, в текущую обучающую запись-матрицу генной ассоциации и определяют предсказываемые показатели ассоциации, соответствующие обучающей информации и множеству генов из заданных баз данных ассоциации, соответственно.otherwise, adjust the matrix parameters in the current training record-gene association matrix by a descending gradient algorithm, using the adjusted training record-gene association matrix as the current training record-gene association matrix, and return to the input step as training information, write the data of the target association records containing a plurality of disease description records and gene identifiers of a plurality of genes from a plurality of predetermined association databases into the current gene association training record matrix and determine predictive association scores corresponding to the training information and the plurality of genes from the predetermined association databases, respectively. 7. Устройство определения степени ассоциации между записью описания болезни и геном, отличающееся содержанием блока определения записи описания болезни, блока определения показателя ассоциации и блока определения степени ассоциации;7. A device for determining the degree of association between a disease description record and a gene, characterized by the content of a disease description record determination unit, an association indicator determination unit, and an association degree determination unit; в котором блок определения записи описания болезни используется для определения записи описания болезни в тексте описания случая;wherein the disease description entry definition block is used to determine the disease description entry in the case description text; блок определения показателя ассоциации используется для каждой из множества заданных баз данных ассоциации, чтобы определить данные записи для целевой записи(-ей) ассоциации в заданной базе данных ассоциации в соответствии с записью описания болезни и генными идентификаторами, каждый из которых соответствует одному из множества генов, причем каждая из заданных баз данных ассоциации хранит записи ассоциации записи описания болезни и генных идентификаторов, соответствующих по меньшей мере одному из множества генов; и вводят данные записи в заданную запись-матрицу генной ассоциации, чтобы определить показатель ассоциации записи описания болезни с соответствующим каждым из множества генов из заданной базы данных ассоциации; иthe association indicator determining unit is used for each of the plurality of predetermined association databases to determine the entry data for the target association entry(s) in the predetermined association database in accordance with the disease description entry and gene identifiers, each corresponding to one of the plurality of genes, wherein each of the given association databases stores association records of the disease description record and gene identifiers corresponding to at least one of the plurality of genes; and entering the entry data into a predetermined gene association entry matrix to determine an association score of the disease description entry with a corresponding each of the plurality of genes from the predetermined association database; And блок определения степени ассоциации используется для определения степени ассоциации между записью описания болезни и каждым из множества генов в соответствии с показателями ассоциации записи описания болезни и генными идентификаторами, соответствующими множеству генов из множества заданных баз данных ассоциации.the association degree determining unit is used to determine the degree of association between the disease description entry and each of the plurality of genes according to the association scores of the disease description record and the gene identifiers corresponding to the plurality of genes from the plurality of predetermined association databases. 8. Устройство по п. 7, отличающееся тем, что блок определения показателя ассоциации конкретно используется для любого гена из множества генов, соответственно определяет данные записи для целевой записи(-ей) ассоциации, содержащей запись описания болезни и генный идентификатор, соответствующий гену из заданной базы данных ассоциации, где данные записи для целевой записи(-ей) ассоциации содержат: первое количество записей ассоциации, содержащих как генный идентификатор гена, так и запись описания болезни, второе количество записей ассоциации, содержащих запись описания болезни, третье количество записей ассоциации, содержащих генный идентификатор гена, и общее количество записей ассоциации в заданной базе данных ассоциации.8. The device according to claim 7, characterized in that the association indicator determination unit is specifically used for any gene of the plurality of genes, respectively determines the entry data for the target association entry(s) containing the disease description entry and the gene identifier corresponding to the gene from the given association databases, where the record data for the target association record(s) comprises: a first number of association records containing both the gene identifier of the gene and a disease description record, a second number of association records containing a disease description record, a third number of association records containing the gene ID of the gene, and the total number of association records in the given association database. 9. Устройство по п. 8, отличающееся тем, что заданная запись-матрица генной ассоциации имеет вид:9. The device according to claim 8, characterized in that the given record-matrix of the gene association has the form:
Figure 00000007
,
Figure 00000007
,
где M - показатель ассоциации записи описания болезни с генным идентификатором, соответствующим гену из заданной базы данных ассоциации; T1 - первое количество, T2 - второе количество, T3 - третье количество и TS - общее количество.where M is the association score of a disease description record with a gene identifier corresponding to a gene from a given association database; T 1 is the first number, T 2 is the second number, T 3 is the third number, and T S is the total number. 10. Устройство по любому из пп. 7-9, отличающееся тем, что блок определения степени ассоциации содержит субблок получения значения ассоциации и субблок определения степени ассоциации,10. The device according to any one of paragraphs. 7-9, characterized in that the association degree determination block comprises an association value obtaining sub-block and an association degree determination sub-block, в котором субблок получения значения ассоциации используется для любого гена из множества генов, чтобы взвешивать показатели ассоциации записи описания болезни с генным идентификатором, соответствующим гену из множества заданных баз данных ассоциации, чтобы получить значение ассоциации между записью описания болезни и геном;wherein the association value obtaining sub-unit is used for any gene of the plurality of genes to weight association scores of the disease description record with the gene identifier corresponding to the gene from the plurality of predetermined association databases to obtain an association value between the disease description record and the gene; субблок определения степени ассоциации используют для определения степени ассоциации между записью описания болезни и геном в соответствии со значением ассоциации.the association degree determination sub-unit is used to determine the degree of association between the disease description record and the gene according to the association value. 11. Устройство по п. 10, отличающееся тем, что субблок определения степени ассоциации используется для определения степени ассоциации между записью описания болезни и геном в соответствии с
Figure 00000009
, где L - степень ассоциации между записью описания болезни и геном, e - основание натурального логарифма и z - значение ассоциации.
11. The device according to claim 10, characterized in that the degree of association determination sub-unit is used to determine the degree of association between the disease description record and the gene in accordance with
Figure 00000009
, where L is the degree of association between the disease description record and the genome, e is the base of the natural logarithm, and z is the value of the association.
12. Устройство по любому из пп. 7-11, отличающееся тем, что дополнительно содержит: блок определения предсказываемого показателя ассоциации, блок определения предсказываемой степени ассоциации, блок определения ошибки, блок сравнения ошибки, блок определения записи-матрицы генной ассоциации и блок корректировки параметров матрицы,12. The device according to any one of paragraphs. 7-11, characterized in that it additionally contains: a block for determining the predicted indicator of association, a block for determining the predicted degree of association, an error determination block, an error comparison block, a gene association matrix record determination block, and a matrix parameter correction block, в котором блок определения предсказываемого показателя ассоциации используется для ввода в качестве обучающей информации данных записи для целевых записей ассоциации, содержащих множество записей описания болезни и генных идентификаторов множества генов из множества заданных баз данных ассоциации, в текущую обучающую запись-матрицу генной ассоциации, и определения предсказываемых показателей ассоциации, соответствующих обучающей информации и множеству генов из заданных баз данных ассоциации, соответственно;wherein the association predictor determination unit is used to input, as training information, the record data for the target association records containing the plurality of disease description records and the gene identifiers of the plurality of genes from the plurality of predetermined association databases into the current training gene association matrix record, and determine the predicted association scores corresponding to the training information and a plurality of genes from the predetermined association databases, respectively; блок определения предсказываемой степени ассоциации используется для определения предсказываемой степени ассоциации между множеством записей описания болезни и множеством генов в соответствии с определенными предсказываемыми показателями ассоциации;a predictive degree of association determination unit is used to determine a predicted degree of association between the plurality of disease description records and the plurality of genes in accordance with certain predictive association rates; блок определения ошибки используется для определения ошибки между предсказываемой степенью ассоциации и фактический степенью ассоциации множества записей описания болезни и множества генов;an error determination unit is used to determine an error between a predicted degree of association and an actual degree of association of the plurality of disease description records and the plurality of genes; блок сравнения ошибки используется для определения, находятся ли ошибки ниже заданного порога погрешности, если да, вызывают блок определения записи-матрицы генной ассоциации, или, в противном случае, вызывают блок корректировки параметров матрицы;an error compare block is used to determine if the errors are below a predetermined error threshold, if so, call a gene association matrix record determination block, or otherwise call a matrix parameter adjustment block; блок определения записи-матрицы генной ассоциации используется для определения текущей обучающей записи-матрицы генной ассоциации в качестве записи-матрицы генной ассоциации;a gene association matrix entry determining unit is used to determine the current training gene association matrix entry as the gene association matrix entry; блок корректировки параметров матрицы используется для корректировки параметров матрицы в текущей обучающей записи-матрице генной ассоциации посредством алгоритма нисходящего градиента, используя корректированную обучающую запись-матрицу генной ассоциации в качестве текущей обучающей записи-матрицы генной ассоциации, и для вызова блока определения предсказываемого показателя ассоциации.the matrix parameter adjustment block is used to adjust the matrix parameters in the current gene association training record matrix by a descending gradient algorithm using the adjusted gene association training record matrix as the current gene association training record matrix, and to call the predicted association indicator determination block. 13. Носитель запоминающего устройства для определения степени ассоциации между записью описания болезни и геном, отличающийся тем, что программа хранится на носителе запоминающего устройства и, когда исполняется процессором, осуществляет способ определения степени генной ассоциации в соответствии с любым из пп. 1-6.13. A storage medium for determining the degree of association between a disease description record and a gene, characterized in that the program is stored on the storage medium and, when executed by the processor, performs a method for determining the degree of gene association in accordance with any one of paragraphs. 1-6. 14. Процессор для определения степени ассоциации между записью описания болезни и геном, отличающийся тем, что процессор используется для исполнения программы, причем программа, когда исполняется, выполняет способ определения степени генной ассоциации в соответствии с любым из пп. 1-6.14. A processor for determining the degree of association between a disease description record and a gene, characterized in that the processor is used to execute a program, wherein the program, when executed, performs the method for determining the degree of gene association in accordance with any one of paragraphs. 1-6. 15. Электронное устройство для определения степени ассоциации между записью описания болезни и геном, отличающееся тем, что содержит по меньшей мере один процессор, по меньшей мере одну память, связанную с процессором, и шину; 15. An electronic device for determining the degree of association between a disease description record and a gene, characterized in that it contains at least one processor, at least one memory associated with the processor, and a bus; в котором процессор осуществляет связь с памятью через шину и процессор используется для вызова программных команд из памяти, чтобы выполнить способ определения степени генной ассоциации в соответствии с любым из пп. 1-6.wherein the processor communicates with the memory via a bus, and the processor is used to call program instructions from the memory to perform the gene association degree determination method according to any one of claims. 1-6.
RU2021137368A 2020-12-23 2021-01-21 Method and device for determination of gene association degree RU2790285C1 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011535972.2 2020-12-23

Publications (1)

Publication Number Publication Date
RU2790285C1 true RU2790285C1 (en) 2023-02-16

Family

ID=

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109119132B (en) * 2018-08-03 2019-08-27 国家卫生健康委科学技术研究所 Method and system based on case history characteristic matching monogenic disease title
CN110349632A (en) * 2019-06-28 2019-10-18 广州序科码生物技术有限责任公司 A method of from PubMed document screening-gene keyword
RU2020114290A (en) * 2017-10-31 2021-12-01 ДжиИ ХЕЛТКЕР ЛИМИТЕД Medical system for diagnosing pathology and / or outcome of cognitive disease

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2020114290A (en) * 2017-10-31 2021-12-01 ДжиИ ХЕЛТКЕР ЛИМИТЕД Medical system for diagnosing pathology and / or outcome of cognitive disease
CN109119132B (en) * 2018-08-03 2019-08-27 国家卫生健康委科学技术研究所 Method and system based on case history characteristic matching monogenic disease title
CN110349632A (en) * 2019-06-28 2019-10-18 广州序科码生物技术有限责任公司 A method of from PubMed document screening-gene keyword

Similar Documents

Publication Publication Date Title
US20150066378A1 (en) Identifying Possible Disease-Causing Genetic Variants by Machine Learning Classification
WO2021073263A1 (en) Disease suffering risk prediction method and device
CN103870528B (en) Depth problem answers the method and system of intersystem problem classification and Feature Mapping
CN111653359A (en) Intelligent prediction model construction method and prediction system for hemorrhagic diseases
EP3874513A1 (en) Generalized biomarker model
CN111091907A (en) Health medical knowledge retrieval method and system based on similar case library
US7657396B1 (en) Forecasting outcomes based on analysis of text strings
CN111177309A (en) Medical record data processing method and device
RU2790285C1 (en) Method and device for determination of gene association degree
US20210330241A1 (en) A computer-implemented method, an apparatus and a computer program product for determining an updated set of words for use in an auditory verbal learning test
CN112667772B (en) Method and device for determining gene association degree
EP4270213A1 (en) Method for determining degree of association with genes, and related device
Parikh et al. A data-driven architecture using natural language processing to improve phenotyping efficiency and accelerate genetic diagnoses of rare disorders
JP6975682B2 (en) Medical information processing equipment, medical information processing methods, and medical information processing programs
CN115359865A (en) Case data pushing method and device, computer equipment and storage medium
KR20190010091A (en) Anonymization Device for Preserving Utility of Data and Method thereof
CN114548100A (en) Clinical scientific research auxiliary method and system based on big data technology
CN112732690A (en) Stabilizing system and method for chronic disease detection and risk assessment
CN112035594A (en) Bidding information extraction result screening system and method
JPWO2022134252A5 (en)
CN116631642B (en) Extraction method and device for clinical discovery event
CN114496115B (en) Automatic generation method and system for entity relation label
US20220108799A1 (en) System and method for transmitting a severity vector
WO2023178789A1 (en) Disease risk estimation network optimization method and apparatus, medium, and device
US20240004910A1 (en) Systems and methods for systematic literature review