RU2018109529A - Многоуровневая архитектура распознавания паттернов в биологических данных - Google Patents

Многоуровневая архитектура распознавания паттернов в биологических данных Download PDF

Info

Publication number
RU2018109529A
RU2018109529A RU2018109529A RU2018109529A RU2018109529A RU 2018109529 A RU2018109529 A RU 2018109529A RU 2018109529 A RU2018109529 A RU 2018109529A RU 2018109529 A RU2018109529 A RU 2018109529A RU 2018109529 A RU2018109529 A RU 2018109529A
Authority
RU
Russia
Prior art keywords
clusters
specified
components
membership values
subgroups
Prior art date
Application number
RU2018109529A
Other languages
English (en)
Other versions
RU2018109529A3 (ru
Inventor
Костянтин ВОЛЯНСКИЙ
Невенка ДИМИТРОВА
Original Assignee
Конинклейке Филипс Н.В.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Конинклейке Филипс Н.В. filed Critical Конинклейке Филипс Н.В.
Publication of RU2018109529A publication Critical patent/RU2018109529A/ru
Publication of RU2018109529A3 publication Critical patent/RU2018109529A3/ru

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Claims (35)

1. Система (100) для обнаружения паттернов в компонентах по меньшей мере одного биологического организма, реализуемая по меньшей мере одним аппаратным процессором и содержащая:
препроцессор (110) данных, выполненный с возможностью составления первого набора данных признаков из по меньшей мере одного из геномных или протеомных данных компонентов указанного по меньшей мере одного биологического организма; и
модуль (112) кластеризации, выполненный с возможностью
выбора множества подгрупп по меньшей мере одного из генов или белков,
идентификации кластеров указанных компонентов из частей первого набора данных признаков, соответствующего указанным выбранным подгруппам,
вычисления значений принадлежности для указанных компонентов, указывающих на принадлежность к указанным кластерам, и
выполнения процесса определения дополнительных кластеров для получения итоговых кластеров компонентов,
причем указанный процесс определения дополнительных кластеров осуществляют кластеризацию указанных компонентов на основании указанных значений принадлежности.
2. Система по п.1, в которой указанный модуль кластеризации также выполнен с возможностью повторения указанного процесса определения дополнительных кластеров для получения указанных итоговых кластеров,
причем каждое из повторений указанного процесса определения дополнительных кластеров включает определение других кластеров указанных компонентов из дополнительного набора данных признаков, состоящего по меньшей мере из части предшествующих значений принадлежности, определенных в результате предыдущего выполнения указанного процесса определения дополнительных кластеров.
3. Способ (200) обнаружения паттернов в компонентах по меньшей мере одного биологического организма, реализуемый по меньшей мере одним аппаратным процессором и включающий:
составление (202) первого набора данных признаков из по меньшей мере одного из геномных или протеомных данных компонентов указанного по меньшей мере одного биологического организма;
выбор (210) множества подгрупп по меньшей мере одного из генов или белков,
идентификацию (212) кластеров из частей первого набора данных признаков, соответствующего указанным выбранным подгруппам,
вычисление (214) значений принадлежности для указанных компонентов, указывающих на принадлежность к указанным кластерам; и
выполнение (208) процесса определения дополнительных кластеров для получения итоговых кластеров компонентов, причем в указанном процессе определения дополнительных кластеров осуществляют кластеризацию указанных компонентов на основании указанных значений принадлежности.
4. Способ по п. 3, в котором указанные значения принадлежности представляют собой первые значения принадлежности,
причем указанное выполнение (208) включает идентификацию (212) вторых кластеров указанных компонентов из второго набора данных признаков, состоящего по меньшей мере из части указанных первых значений принадлежности, и вычисление (214) вторых значений принадлежности для указанных компонентов, указывающих на принадлежность к указанным вторым кластерам.
5. Способ по п. 4, в котором указанное выполнение (208) включает выбор (210) различных подгрупп указанной по меньшей мере части указанных первых значений принадлежности и выполнение (212) подпроцесса определения кластеров для каждой из указанных различных подгрупп указанной по меньшей мере части указанных первых значений принадлежности для получения указанных вторых кластеров.
6. Способ по п. 4, в котором указанное определение (208) кластеров указанных компонентов включает формирование (216) указанного второго набора данных признаков путем определения степеней избыточности между кластерами указанных первых кластеров и отсечения (218) значений принадлежности по меньшей мере одного соответствующего кластера из указанных первых кластеров, соответствующая степень избыточности которого превышает пороговое значение.
7. Способ по п. 4, также включающий:
повторение указанного выполнения (208) для получения указанных итоговых кластеров, причем каждое из повторений указанного выполнения включает идентификацию (212) других кластеров указанных компонентов из дополнительного набора данных признаков, состоящего по меньшей мере из части предшествующих значений принадлежности, определенных в результате предыдущего указанного выполнения.
8. Способ по п.7, в котором по меньшей мере одно из указанных повторений указанного выполнения включает выбор (210) различных подгрупп указанной по меньшей мере части предшествующих значений принадлежности и выполнение (212) подпроцесса определения кластеров для каждой из указанных различных подгрупп указанной по меньшей мере части указанных предшествующих значений принадлежности.
9. Способ по п. 8, в котором по меньшей мере одно из указанных повторений указанного выполнения включает формирование (216) соответствующего набора данных признаков путем определения степеней избыточности между другими кластерами и отсечения (218) значений принадлежности по меньшей мере одного соответствующего кластера на указанных других кластеров, соответствующая степень избыточности которого превышает пороговое значение.
10. Способ по п. 3, в котором указанные значения принадлежности обозначают вероятность принадлежности к соответствующим кластерам.
11. Способ по п. 3, в котором по меньшей мере одно из указанных определения или выполнения включает отсечение (218) указанных различных подгрупп по меньшей мере одного из генов или белков на основании вычислений избыточности кластеров.
12. Способ по п. 3, также включающий:
отображение (226) представления по меньшей мере одной из указанных итоговых кластеров или подгрупп по меньшей мере одного из генов или белков, обозначающих указанные итоговые кластеры, причем указанное отображение включает отображение по меньшей мере одного из клинических или фенотипических аннотаций для указанных итоговых кластеров.
13. Способ по п. 12, в котором указанные аннотации содержат по меньшей мере одно из данных о реакции на лекарственное средство, вероятности рецидива заболевания или данных о подтипе заболевания.
14. Способ по п. 3, также включающий:
присвоение каждому из итоговых кластеров по меньшей мере одного из клинических переменных, клинических результатов, или клинических ярлыков;
причем по меньшей мере одной пробы биологических данных;
поиск по меньшей мере одного соответствия указанной по меньшей мере одной пробе биологических данных путем сравнения указанной пробы с представлениями указанных итоговых кластеров и
вывод по меньшей мере одного из клинических переменных, клинических результатов или клинических ярлыков, присвоенных представлению по меньшей мере одного из указанных итоговых кластеров, соответствующих указанной по меньшей мере одной пробе биологических данных, в качестве диагностической информации.
15. Компьютерочитаемый носитель (408), содержащий компьютерочитаемую программу, которая, при ее исполнении компьютером, обеспечивает возможность выполнения компьютером способа по п. 3.
RU2018109529A 2015-08-17 2016-08-12 Многоуровневая архитектура распознавания паттернов в биологических данных RU2018109529A (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562205778P 2015-08-17 2015-08-17
US62/205,778 2015-08-17
PCT/EP2016/069308 WO2017029249A1 (en) 2015-08-17 2016-08-12 Multi-level architecture of pattern recognition in biological data

Publications (2)

Publication Number Publication Date
RU2018109529A true RU2018109529A (ru) 2019-09-19
RU2018109529A3 RU2018109529A3 (ru) 2020-02-28

Family

ID=58050900

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2018109529A RU2018109529A (ru) 2015-08-17 2016-08-12 Многоуровневая архитектура распознавания паттернов в биологических данных

Country Status (6)

Country Link
US (2) US10832799B2 (ru)
EP (1) EP3338211A1 (ru)
JP (1) JP7041614B6 (ru)
CN (1) CN107924430A (ru)
RU (1) RU2018109529A (ru)
WO (1) WO2017029249A1 (ru)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109360658B (zh) * 2018-11-01 2021-06-08 北京航空航天大学 一种基于词向量模型的疾病模式挖掘方法及装置
CN111670476B (zh) * 2018-12-21 2023-04-25 北京哲源科技有限责任公司 患病风险预测方法、电子设备及存储介质
CN111401420B (zh) * 2020-03-06 2023-04-18 普迪飞半导体技术(上海)有限公司 晶圆测试的异常数据聚类方法、装置、电子设备与介质
CN112215287B (zh) * 2020-10-13 2024-04-12 中国光大银行股份有限公司 基于距离的多节聚类方法和装置、存储介质及电子装置
CN113721161B (zh) * 2021-09-15 2024-03-19 摩拜(北京)信息技术有限公司 锂离子电池组的一致性评估方法及装置
WO2024062895A1 (ja) * 2022-09-21 2024-03-28 富士フイルム株式会社 評価方法、可視化方法、評価装置、及び可視化装置
CN117610991A (zh) * 2023-11-15 2024-02-27 国网冀北电力有限公司经济技术研究院 一种电力通信网可靠性分析方法、装置、设备及介质

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1252513A4 (en) 2000-01-25 2007-07-18 Affymetrix Inc METHOD, SYSTEM AND SOFTWARE FOR OFFERING A GENOMIC WEB PORTAL
WO2002034877A2 (en) * 2000-10-24 2002-05-02 Yissum Research Development Company Of The Hebrew University Of Jerusalem A method and system useful for structural classification of unknown polypeptides
US7043500B2 (en) 2001-04-25 2006-05-09 Board Of Regents, The University Of Texas Syxtem Subtractive clustering for use in analysis of data
US20030028504A1 (en) * 2001-05-08 2003-02-06 Burgoon David A. Method and system for isolating features of defined clusters
WO2003065282A1 (en) 2002-02-01 2003-08-07 Rosetta Inpharmatics Llc Computer systems and methods for identifying genes and determining pathways associated with traits
JP2005267282A (ja) 2004-03-18 2005-09-29 Kitakyushu Foundation For The Advancement Of Industry Science & Technology 研究遺伝子産物関連度予測システム
JP2007017282A (ja) * 2005-07-07 2007-01-25 Sony Corp 生体情報処理装置および生体情報処理方法、学習装置および学習制御方法、プログラム並びに記録媒体
CA2699434A1 (en) * 2006-09-15 2008-04-24 Mcgill University Stroma derived predictor of breast cancer
US8195734B1 (en) * 2006-11-27 2012-06-05 The Research Foundation Of State University Of New York Combining multiple clusterings by soft correspondence
US8086409B2 (en) * 2007-01-30 2011-12-27 The Trustees Of Columbia University In The City Of New York Method of selecting genes from continuous gene expression data based on synergistic interactions among genes
WO2009146545A1 (en) * 2008-06-05 2009-12-10 University Health Network Compositions and methods for classifying lung cancer and prognosing lung cancer survival
JP2010157214A (ja) * 2008-12-02 2010-07-15 Sony Corp 遺伝子クラスタリングプログラム、遺伝子クラスタリング方法及び遺伝子クラスター解析装置
EP2207119A1 (en) 2009-01-06 2010-07-14 Koninklijke Philips Electronics N.V. Evolutionary clustering algorithm
EP2553632A1 (en) * 2010-03-29 2013-02-06 Galderma Research & Development Fuzzy clustering algorithm and its application on carcinoma tissue
JP5854346B2 (ja) * 2010-07-21 2016-02-09 公立大学法人秋田県立大学 トランスクリプトーム解析方法、疾病判定方法、コンピュータプログラム、記憶媒体、及び解析装置
KR101188886B1 (ko) 2010-10-22 2012-10-09 삼성에스디에스 주식회사 유전 정보 관리 시스템 및 방법
US9916538B2 (en) * 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
US9720998B2 (en) 2012-11-19 2017-08-01 The Penn State Research Foundation Massive clustering of discrete distributions
US20150302042A1 (en) 2012-11-20 2015-10-22 Hitachi, Ltd. Data analysis apparatus and data analysis method
US9690844B2 (en) 2014-01-24 2017-06-27 Samsung Electronics Co., Ltd. Methods and systems for customizable clustering of sub-networks for bioinformatics and health care applications
CN103745137B (zh) * 2014-01-30 2017-03-15 思博奥科生物信息科技(北京)有限公司 一种跨芯片平台的基因表达数据整合方法

Also Published As

Publication number Publication date
WO2017029249A1 (en) 2017-02-23
US11710540B2 (en) 2023-07-25
CN107924430A (zh) 2018-04-17
US20180225414A1 (en) 2018-08-09
JP7041614B6 (ja) 2022-05-31
US10832799B2 (en) 2020-11-10
JP2018530815A (ja) 2018-10-18
US20210020269A1 (en) 2021-01-21
RU2018109529A3 (ru) 2020-02-28
EP3338211A1 (en) 2018-06-27
JP7041614B2 (ja) 2022-03-24

Similar Documents

Publication Publication Date Title
RU2018109529A (ru) Многоуровневая архитектура распознавания паттернов в биологических данных
Binder et al. Big data in medical science—a biostatistical view: Part 21 of a series on evaluation of scientific publications
Schbath et al. Mapping reads on a genomic sequence: an algorithmic overview and a practical comparative analysis
US20140067813A1 (en) Parallelization of synthetic events with genetic surprisal data representing a genetic sequence of an organism
Golestan Hashemi et al. Intelligent mining of large-scale bio-data: Bioinformatics applications
Robin et al. PanelomiX: a threshold-based algorithm to create panels of biomarkers
Chen et al. Labeling network motifs in protein interactomes for protein function prediction
Badwan et al. Machine learning approaches to predict drug efficacy and toxicity in oncology
Zhu et al. Analysis of single-cell RNA-seq data by clustering approaches
Wei et al. CALLR: a semi-supervised cell-type annotation method for single-cell RNA sequencing data
KR20220069943A (ko) 단일 세포 rna-seq 데이터 처리
Ahmed et al. Accurate prediction of RNA 5-hydroxymethylcytosine modification by utilizing novel position-specific gapped k-mer descriptors
Ahmed et al. Early detection of Alzheimer's disease using single nucleotide polymorphisms analysis based on gradient boosting tree
CN114496304A (zh) 抗癌候选药物的admet性质预测方法及系统
Varshavsky et al. Accurate age prediction from blood using a small set of DNA methylation sites and a cohort-based machine learning algorithm
Serra et al. Data integration in genomics and systems biology
Tran et al. Metabolic pathway and graph identification of new potential drug targets for Plasmodium falciparum
LaPierre et al. CAMIL: Clustering and Assembly with Multiple Instance Learning for phenotype prediction
Khuri et al. A value-based approach for training of classifiers with high-throughput small molecule screening data
JPWO2020227137A5 (ru)
Kovacevic et al. Smart variant filtering
Kim et al. EGGS: Extraction of gene clusters using genome context based sequence matching techniques
Mueller et al. Comparing biological networks: a survey on graph classifying techniques
Ünal et al. Identification of cancer patient subgroups via smoothed shortest path graph kernel
Ren et al. SSCC: a novel computational framework for rapid and accurate clustering large single cell RNA-seq data 2

Legal Events

Date Code Title Description
FA92 Acknowledgement of application withdrawn (lack of supplementary materials submitted)

Effective date: 20200914