RU2018109529A - Многоуровневая архитектура распознавания паттернов в биологических данных - Google Patents
Многоуровневая архитектура распознавания паттернов в биологических данных Download PDFInfo
- Publication number
- RU2018109529A RU2018109529A RU2018109529A RU2018109529A RU2018109529A RU 2018109529 A RU2018109529 A RU 2018109529A RU 2018109529 A RU2018109529 A RU 2018109529A RU 2018109529 A RU2018109529 A RU 2018109529A RU 2018109529 A RU2018109529 A RU 2018109529A
- Authority
- RU
- Russia
- Prior art keywords
- clusters
- specified
- components
- membership values
- subgroups
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Claims (35)
1. Система (100) для обнаружения паттернов в компонентах по меньшей мере одного биологического организма, реализуемая по меньшей мере одним аппаратным процессором и содержащая:
препроцессор (110) данных, выполненный с возможностью составления первого набора данных признаков из по меньшей мере одного из геномных или протеомных данных компонентов указанного по меньшей мере одного биологического организма; и
модуль (112) кластеризации, выполненный с возможностью
выбора множества подгрупп по меньшей мере одного из генов или белков,
идентификации кластеров указанных компонентов из частей первого набора данных признаков, соответствующего указанным выбранным подгруппам,
вычисления значений принадлежности для указанных компонентов, указывающих на принадлежность к указанным кластерам, и
выполнения процесса определения дополнительных кластеров для получения итоговых кластеров компонентов,
причем указанный процесс определения дополнительных кластеров осуществляют кластеризацию указанных компонентов на основании указанных значений принадлежности.
2. Система по п.1, в которой указанный модуль кластеризации также выполнен с возможностью повторения указанного процесса определения дополнительных кластеров для получения указанных итоговых кластеров,
причем каждое из повторений указанного процесса определения дополнительных кластеров включает определение других кластеров указанных компонентов из дополнительного набора данных признаков, состоящего по меньшей мере из части предшествующих значений принадлежности, определенных в результате предыдущего выполнения указанного процесса определения дополнительных кластеров.
3. Способ (200) обнаружения паттернов в компонентах по меньшей мере одного биологического организма, реализуемый по меньшей мере одним аппаратным процессором и включающий:
составление (202) первого набора данных признаков из по меньшей мере одного из геномных или протеомных данных компонентов указанного по меньшей мере одного биологического организма;
выбор (210) множества подгрупп по меньшей мере одного из генов или белков,
идентификацию (212) кластеров из частей первого набора данных признаков, соответствующего указанным выбранным подгруппам,
вычисление (214) значений принадлежности для указанных компонентов, указывающих на принадлежность к указанным кластерам; и
выполнение (208) процесса определения дополнительных кластеров для получения итоговых кластеров компонентов, причем в указанном процессе определения дополнительных кластеров осуществляют кластеризацию указанных компонентов на основании указанных значений принадлежности.
4. Способ по п. 3, в котором указанные значения принадлежности представляют собой первые значения принадлежности,
причем указанное выполнение (208) включает идентификацию (212) вторых кластеров указанных компонентов из второго набора данных признаков, состоящего по меньшей мере из части указанных первых значений принадлежности, и вычисление (214) вторых значений принадлежности для указанных компонентов, указывающих на принадлежность к указанным вторым кластерам.
5. Способ по п. 4, в котором указанное выполнение (208) включает выбор (210) различных подгрупп указанной по меньшей мере части указанных первых значений принадлежности и выполнение (212) подпроцесса определения кластеров для каждой из указанных различных подгрупп указанной по меньшей мере части указанных первых значений принадлежности для получения указанных вторых кластеров.
6. Способ по п. 4, в котором указанное определение (208) кластеров указанных компонентов включает формирование (216) указанного второго набора данных признаков путем определения степеней избыточности между кластерами указанных первых кластеров и отсечения (218) значений принадлежности по меньшей мере одного соответствующего кластера из указанных первых кластеров, соответствующая степень избыточности которого превышает пороговое значение.
7. Способ по п. 4, также включающий:
повторение указанного выполнения (208) для получения указанных итоговых кластеров, причем каждое из повторений указанного выполнения включает идентификацию (212) других кластеров указанных компонентов из дополнительного набора данных признаков, состоящего по меньшей мере из части предшествующих значений принадлежности, определенных в результате предыдущего указанного выполнения.
8. Способ по п.7, в котором по меньшей мере одно из указанных повторений указанного выполнения включает выбор (210) различных подгрупп указанной по меньшей мере части предшествующих значений принадлежности и выполнение (212) подпроцесса определения кластеров для каждой из указанных различных подгрупп указанной по меньшей мере части указанных предшествующих значений принадлежности.
9. Способ по п. 8, в котором по меньшей мере одно из указанных повторений указанного выполнения включает формирование (216) соответствующего набора данных признаков путем определения степеней избыточности между другими кластерами и отсечения (218) значений принадлежности по меньшей мере одного соответствующего кластера на указанных других кластеров, соответствующая степень избыточности которого превышает пороговое значение.
10. Способ по п. 3, в котором указанные значения принадлежности обозначают вероятность принадлежности к соответствующим кластерам.
11. Способ по п. 3, в котором по меньшей мере одно из указанных определения или выполнения включает отсечение (218) указанных различных подгрупп по меньшей мере одного из генов или белков на основании вычислений избыточности кластеров.
12. Способ по п. 3, также включающий:
отображение (226) представления по меньшей мере одной из указанных итоговых кластеров или подгрупп по меньшей мере одного из генов или белков, обозначающих указанные итоговые кластеры, причем указанное отображение включает отображение по меньшей мере одного из клинических или фенотипических аннотаций для указанных итоговых кластеров.
13. Способ по п. 12, в котором указанные аннотации содержат по меньшей мере одно из данных о реакции на лекарственное средство, вероятности рецидива заболевания или данных о подтипе заболевания.
14. Способ по п. 3, также включающий:
присвоение каждому из итоговых кластеров по меньшей мере одного из клинических переменных, клинических результатов, или клинических ярлыков;
причем по меньшей мере одной пробы биологических данных;
поиск по меньшей мере одного соответствия указанной по меньшей мере одной пробе биологических данных путем сравнения указанной пробы с представлениями указанных итоговых кластеров и
вывод по меньшей мере одного из клинических переменных, клинических результатов или клинических ярлыков, присвоенных представлению по меньшей мере одного из указанных итоговых кластеров, соответствующих указанной по меньшей мере одной пробе биологических данных, в качестве диагностической информации.
15. Компьютерочитаемый носитель (408), содержащий компьютерочитаемую программу, которая, при ее исполнении компьютером, обеспечивает возможность выполнения компьютером способа по п. 3.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562205778P | 2015-08-17 | 2015-08-17 | |
US62/205,778 | 2015-08-17 | ||
PCT/EP2016/069308 WO2017029249A1 (en) | 2015-08-17 | 2016-08-12 | Multi-level architecture of pattern recognition in biological data |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2018109529A true RU2018109529A (ru) | 2019-09-19 |
RU2018109529A3 RU2018109529A3 (ru) | 2020-02-28 |
Family
ID=58050900
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2018109529A RU2018109529A (ru) | 2015-08-17 | 2016-08-12 | Многоуровневая архитектура распознавания паттернов в биологических данных |
Country Status (6)
Country | Link |
---|---|
US (2) | US10832799B2 (ru) |
EP (1) | EP3338211A1 (ru) |
JP (1) | JP7041614B6 (ru) |
CN (1) | CN107924430A (ru) |
RU (1) | RU2018109529A (ru) |
WO (1) | WO2017029249A1 (ru) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109360658B (zh) * | 2018-11-01 | 2021-06-08 | 北京航空航天大学 | 一种基于词向量模型的疾病模式挖掘方法及装置 |
CN111670476B (zh) * | 2018-12-21 | 2023-04-25 | 北京哲源科技有限责任公司 | 患病风险预测方法、电子设备及存储介质 |
CN111401420B (zh) * | 2020-03-06 | 2023-04-18 | 普迪飞半导体技术(上海)有限公司 | 晶圆测试的异常数据聚类方法、装置、电子设备与介质 |
CN112215287B (zh) * | 2020-10-13 | 2024-04-12 | 中国光大银行股份有限公司 | 基于距离的多节聚类方法和装置、存储介质及电子装置 |
CN113721161B (zh) * | 2021-09-15 | 2024-03-19 | 摩拜(北京)信息技术有限公司 | 锂离子电池组的一致性评估方法及装置 |
WO2024062895A1 (ja) * | 2022-09-21 | 2024-03-28 | 富士フイルム株式会社 | 評価方法、可視化方法、評価装置、及び可視化装置 |
CN117610991A (zh) * | 2023-11-15 | 2024-02-27 | 国网冀北电力有限公司经济技术研究院 | 一种电力通信网可靠性分析方法、装置、设备及介质 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1252513A4 (en) | 2000-01-25 | 2007-07-18 | Affymetrix Inc | METHOD, SYSTEM AND SOFTWARE FOR OFFERING A GENOMIC WEB PORTAL |
WO2002034877A2 (en) * | 2000-10-24 | 2002-05-02 | Yissum Research Development Company Of The Hebrew University Of Jerusalem | A method and system useful for structural classification of unknown polypeptides |
US7043500B2 (en) | 2001-04-25 | 2006-05-09 | Board Of Regents, The University Of Texas Syxtem | Subtractive clustering for use in analysis of data |
US20030028504A1 (en) * | 2001-05-08 | 2003-02-06 | Burgoon David A. | Method and system for isolating features of defined clusters |
WO2003065282A1 (en) | 2002-02-01 | 2003-08-07 | Rosetta Inpharmatics Llc | Computer systems and methods for identifying genes and determining pathways associated with traits |
JP2005267282A (ja) | 2004-03-18 | 2005-09-29 | Kitakyushu Foundation For The Advancement Of Industry Science & Technology | 研究遺伝子産物関連度予測システム |
JP2007017282A (ja) * | 2005-07-07 | 2007-01-25 | Sony Corp | 生体情報処理装置および生体情報処理方法、学習装置および学習制御方法、プログラム並びに記録媒体 |
CA2699434A1 (en) * | 2006-09-15 | 2008-04-24 | Mcgill University | Stroma derived predictor of breast cancer |
US8195734B1 (en) * | 2006-11-27 | 2012-06-05 | The Research Foundation Of State University Of New York | Combining multiple clusterings by soft correspondence |
US8086409B2 (en) * | 2007-01-30 | 2011-12-27 | The Trustees Of Columbia University In The City Of New York | Method of selecting genes from continuous gene expression data based on synergistic interactions among genes |
WO2009146545A1 (en) * | 2008-06-05 | 2009-12-10 | University Health Network | Compositions and methods for classifying lung cancer and prognosing lung cancer survival |
JP2010157214A (ja) * | 2008-12-02 | 2010-07-15 | Sony Corp | 遺伝子クラスタリングプログラム、遺伝子クラスタリング方法及び遺伝子クラスター解析装置 |
EP2207119A1 (en) | 2009-01-06 | 2010-07-14 | Koninklijke Philips Electronics N.V. | Evolutionary clustering algorithm |
EP2553632A1 (en) * | 2010-03-29 | 2013-02-06 | Galderma Research & Development | Fuzzy clustering algorithm and its application on carcinoma tissue |
JP5854346B2 (ja) * | 2010-07-21 | 2016-02-09 | 公立大学法人秋田県立大学 | トランスクリプトーム解析方法、疾病判定方法、コンピュータプログラム、記憶媒体、及び解析装置 |
KR101188886B1 (ko) | 2010-10-22 | 2012-10-09 | 삼성에스디에스 주식회사 | 유전 정보 관리 시스템 및 방법 |
US9916538B2 (en) * | 2012-09-15 | 2018-03-13 | Z Advanced Computing, Inc. | Method and system for feature detection |
US9720998B2 (en) | 2012-11-19 | 2017-08-01 | The Penn State Research Foundation | Massive clustering of discrete distributions |
US20150302042A1 (en) | 2012-11-20 | 2015-10-22 | Hitachi, Ltd. | Data analysis apparatus and data analysis method |
US9690844B2 (en) | 2014-01-24 | 2017-06-27 | Samsung Electronics Co., Ltd. | Methods and systems for customizable clustering of sub-networks for bioinformatics and health care applications |
CN103745137B (zh) * | 2014-01-30 | 2017-03-15 | 思博奥科生物信息科技(北京)有限公司 | 一种跨芯片平台的基因表达数据整合方法 |
-
2016
- 2016-08-12 JP JP2018508176A patent/JP7041614B6/ja active Active
- 2016-08-12 CN CN201680048013.3A patent/CN107924430A/zh active Pending
- 2016-08-12 RU RU2018109529A patent/RU2018109529A/ru not_active Application Discontinuation
- 2016-08-12 US US15/749,694 patent/US10832799B2/en active Active
- 2016-08-12 WO PCT/EP2016/069308 patent/WO2017029249A1/en active Application Filing
- 2016-08-12 EP EP16753644.0A patent/EP3338211A1/en not_active Withdrawn
-
2020
- 2020-10-02 US US17/061,837 patent/US11710540B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2017029249A1 (en) | 2017-02-23 |
US11710540B2 (en) | 2023-07-25 |
CN107924430A (zh) | 2018-04-17 |
US20180225414A1 (en) | 2018-08-09 |
JP7041614B6 (ja) | 2022-05-31 |
US10832799B2 (en) | 2020-11-10 |
JP2018530815A (ja) | 2018-10-18 |
US20210020269A1 (en) | 2021-01-21 |
RU2018109529A3 (ru) | 2020-02-28 |
EP3338211A1 (en) | 2018-06-27 |
JP7041614B2 (ja) | 2022-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2018109529A (ru) | Многоуровневая архитектура распознавания паттернов в биологических данных | |
Binder et al. | Big data in medical science—a biostatistical view: Part 21 of a series on evaluation of scientific publications | |
Schbath et al. | Mapping reads on a genomic sequence: an algorithmic overview and a practical comparative analysis | |
US20140067813A1 (en) | Parallelization of synthetic events with genetic surprisal data representing a genetic sequence of an organism | |
Golestan Hashemi et al. | Intelligent mining of large-scale bio-data: Bioinformatics applications | |
Robin et al. | PanelomiX: a threshold-based algorithm to create panels of biomarkers | |
Chen et al. | Labeling network motifs in protein interactomes for protein function prediction | |
Badwan et al. | Machine learning approaches to predict drug efficacy and toxicity in oncology | |
Zhu et al. | Analysis of single-cell RNA-seq data by clustering approaches | |
Wei et al. | CALLR: a semi-supervised cell-type annotation method for single-cell RNA sequencing data | |
KR20220069943A (ko) | 단일 세포 rna-seq 데이터 처리 | |
Ahmed et al. | Accurate prediction of RNA 5-hydroxymethylcytosine modification by utilizing novel position-specific gapped k-mer descriptors | |
Ahmed et al. | Early detection of Alzheimer's disease using single nucleotide polymorphisms analysis based on gradient boosting tree | |
CN114496304A (zh) | 抗癌候选药物的admet性质预测方法及系统 | |
Varshavsky et al. | Accurate age prediction from blood using a small set of DNA methylation sites and a cohort-based machine learning algorithm | |
Serra et al. | Data integration in genomics and systems biology | |
Tran et al. | Metabolic pathway and graph identification of new potential drug targets for Plasmodium falciparum | |
LaPierre et al. | CAMIL: Clustering and Assembly with Multiple Instance Learning for phenotype prediction | |
Khuri et al. | A value-based approach for training of classifiers with high-throughput small molecule screening data | |
JPWO2020227137A5 (ru) | ||
Kovacevic et al. | Smart variant filtering | |
Kim et al. | EGGS: Extraction of gene clusters using genome context based sequence matching techniques | |
Mueller et al. | Comparing biological networks: a survey on graph classifying techniques | |
Ünal et al. | Identification of cancer patient subgroups via smoothed shortest path graph kernel | |
Ren et al. | SSCC: a novel computational framework for rapid and accurate clustering large single cell RNA-seq data 2 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FA92 | Acknowledgement of application withdrawn (lack of supplementary materials submitted) |
Effective date: 20200914 |