JPWO2008032822A1 - サンプルデータ信頼性評価方法およびサンプルデータ信頼性評価装置 - Google Patents
サンプルデータ信頼性評価方法およびサンプルデータ信頼性評価装置 Download PDFInfo
- Publication number
- JPWO2008032822A1 JPWO2008032822A1 JP2008534408A JP2008534408A JPWO2008032822A1 JP WO2008032822 A1 JPWO2008032822 A1 JP WO2008032822A1 JP 2008534408 A JP2008534408 A JP 2008534408A JP 2008534408 A JP2008534408 A JP 2008534408A JP WO2008032822 A1 JPWO2008032822 A1 JP WO2008032822A1
- Authority
- JP
- Japan
- Prior art keywords
- sample
- sample data
- cluster
- reliability
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 162
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 abstract description 12
- 102000054765 polymorphisms of proteins Human genes 0.000 abstract description 7
- 108090000623 proteins and genes Proteins 0.000 abstract description 5
- 239000000523 sample Substances 0.000 description 310
- 238000012545 processing Methods 0.000 description 21
- 238000000034 method Methods 0.000 description 19
- 238000004364 calculation method Methods 0.000 description 18
- 238000002474 experimental method Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 230000010365 information processing Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 108700028369 Alleles Proteins 0.000 description 2
- 206010071602 Genetic polymorphism Diseases 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 239000003112 inhibitor Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013610 patient sample Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Artificial Intelligence (AREA)
- Analytical Chemistry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Genetics & Genomics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Complex Calculations (AREA)
Abstract
Description
つまり、ランダムな交配を行っていない集団、もしくは遺伝子多型に関する多型解析で頻度の少ない多型を含む多型データが得られた場合、従来の評価手法では、このような多型データの信頼性を評価することが困難であった。
102 制御部
102a サンプルデータ集合取得部
102b 注目サンプル設定部
102c 同クラスターサンプル間代表距離算出部
102d 異クラスターサンプル間代表距離算出部
102e 信頼性評価指標算出部
102f 信頼性評価部
102g 結果出力部
104 通信インターフェース部
106 記憶部
106a サンプルデータ集合ファイル
106b 注目サンプル関連データファイル
106c 評価結果データファイル
108 入出力インターフェース部
110 入力装置
112 出力装置
200 外部システム
300 ネットワーク
まず、本発明の概要について図1を参照して説明する。図1は、本発明の基本原理を示す原理構成図である。本発明は、概略的に以下の基本的特徴を有する。
つぎに、本実施の形態にかかるサンプルデータ信頼性評価装置100の構成について、図2から図4を参照して説明する。図2は、サンプルデータ信頼性評価装置100の構成を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。
つぎに、サンプルデータ信頼性評価装置100の制御部102が行うメイン処理の一例を、図5を参照して説明する。図5は、サンプルデータ信頼性評価装置100の制御部102が行うメイン処理の一例を示すフローチャートである。なお、ここでは、1つの実験に対応するサンプルデータ集合に基づく処理について説明する。
以上説明したように、本実施の形態によれば、サンプルデータ集合を取得し、サンプルデータ集合の中から注目サンプルを設定し、設定した注目サンプルについて同クラスターサンプル間平均距離および異クラスターサンプル間最小距離を算出し、サンプルデータ集合の全てのサンプルについて注目サンプルの設定・同クラスターサンプル間平均距離の算出および異クラスターサンプル間最小距離の算出を繰り返し行い、算出した同クラスターサンプル間平均距離および異クラスターサンプル間最小距離の注目サンプルごとの組に基づいて、同クラスターサンプル間平均距離と異クラスターサンプル間最小距離との比をサンプル信頼性評価指標として注目サンプルデータごとに算出すると共にサンプル信頼性評価指標の平均を注目サンプルデータ集合ごとに算出し、算出した複数のサンプルデータ信頼性評価指標に基づいて注目サンプルデータの信頼性を当該注目サンプルデータごとに評価すると共に算出した複数の平均に基づいて、注目サンプルデータ集合の信頼性を注目サンプルデータ集合ごとに評価する。これにより、特に遺伝子多型に関する多型解析で頻度の少ない多型を含む多型データが得られた場合であっても、このような多型データの信頼性を客観的に評価することができる。ここで、本実施の形態では、一例として、数式1に基づいて同クラスターサンプル間平均距離を代表距離として算出しているが、代表距離としては、平均距離の他に、例えば、中央値、最頻値、最大値と最小値を除外して、平均値を算出してもよく、あるいは平均値から分散の2倍以上離れているデータを除外して、新たに平均値を算出してもよい。
Claims (8)
- クラスタリングされたサンプルに関する複数のサンプルデータを要素とするサンプルデータ集合に基づいて、前記サンプルと当該サンプルが属するクラスターと同じ前記クラスターに属する前記サンプルとの間の代表距離である同クラスターサンプル間代表距離を算出する工程と、
前記サンプルデータ集合に基づいて、前記サンプルと当該サンプルが属する前記クラスターとは異なる前記クラスターに属する前記サンプルとの間の代表距離である異クラスターサンプル間代表距離を算出する工程と、
前記工程で算出した前記同クラスターサンプル間代表距離および前記異クラスターサンプル間代表距離に基づいて、前記サンプルデータの信頼性を評価するための指標である信頼性評価指標を算出する工程と、
前記工程で算出した前記信頼性評価指標に基づいて、前記サンプルデータ集合の部分集合もしくは前記サンプルデータ集合全体の前記信頼性を評価する工程と、
を含むことを特徴とするサンプルデータ信頼性評価方法。 - 前記同クラスターサンプル間代表距離は、前記サンプルと当該サンプルが属する前記クラスターと同じ前記クラスターに属する前記サンプルとの間の平均距離であり、
前記異クラスターサンプル間代表距離は、前記サンプルと当該サンプルが属する前記クラスターとは異なる前記クラスターに属する前記サンプルとの間の最小距離であり、
前記信頼性評価指標は、前記同クラスターサンプル間代表距離と前記異クラスターサンプル間代表距離との比、または当該比の平均であること
を特徴とする請求項1に記載のサンプルデータ信頼性評価方法。 - 前記サンプルデータ集合の前記部分集合もしくは前記サンプルデータ集合全体の前記信頼性の前記評価とは、前記信頼性の低い前記サンプルデータ集合の前記部分集合もしくは前記サンプルデータ集合全体の抽出、または前記クラスタリングに用いたアルゴリズムの前記信頼性の前記評価であること
を特徴とする請求項1または2に記載のサンプルデータ信頼性評価方法。 - 前記工程で算出した前記信頼性評価指標を出力する工程をさらに含むこと
を特徴とする請求項1から3のいずれか1つに記載のサンプルデータ信頼性評価方法。 - クラスタリングされたサンプルに関する複数のサンプルデータを要素とするサンプルデータ集合に基づいて、前記サンプルと当該サンプルが属するクラスターと同じ前記クラスターに属する前記サンプルとの間の代表距離である同クラスターサンプル間代表距離を算出する手段と、
前記サンプルデータ集合に基づいて、前記サンプルと当該サンプルが属する前記クラスターとは異なる前記クラスターに属する前記サンプルとの間の代表距離である異クラスターサンプル間代表距離を算出する手段と、
前記手段で算出した前記同クラスターサンプル間代表距離および前記異クラスターサンプル間代表距離に基づいて、前記サンプルデータの信頼性を評価するための指標である信頼性評価指標を算出する手段と、
前記手段で算出した前記信頼性評価指標に基づいて、前記サンプルデータ集合の部分集合もしくは前記サンプルデータ集合全体の前記信頼性を評価する手段と、
を備えたことを特徴とするサンプルデータ信頼性評価装置。 - 前記同クラスターサンプル間代表距離は、前記サンプルと当該サンプルが属する前記クラスターと同じ前記クラスターに属する前記サンプルとの間の平均距離であり、
前記異クラスターサンプル間代表距離は、前記サンプルと当該サンプルが属する前記クラスターとは異なる前記クラスターに属する前記サンプルとの間の最小距離であり、
前記信頼性評価指標は、前記同クラスターサンプル間代表距離と前記異クラスターサンプル間代表距離との比、または当該比の平均であること
を特徴とする請求項5に記載のサンプルデータ信頼性評価装置。 - 前記サンプルデータ集合の前記部分集合もしくは前記サンプルデータ集合全体の前記信頼性の前記評価とは、前記信頼性の低い前記サンプルデータ集合の前記部分集合もしくは前記サンプルデータ集合全体の抽出、または前記クラスタリングに用いたアルゴリズムの前記信頼性の前記評価であること
を特徴とする請求項5または6に記載のサンプルデータ信頼性評価装置。 - 前記手段で算出した前記信頼性評価指標を出力する手段をさらに備えたこと
を特徴とする請求項5から7のいずれか1つに記載のサンプルデータ信頼性評価装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008534408A JP5396081B2 (ja) | 2006-09-14 | 2007-09-14 | 遺伝子多型解析データ信頼性評価方法及び遺伝子多型解析データ信頼性評価装置 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006249837 | 2006-09-14 | ||
JP2006249837 | 2006-09-14 | ||
JP2008534408A JP5396081B2 (ja) | 2006-09-14 | 2007-09-14 | 遺伝子多型解析データ信頼性評価方法及び遺伝子多型解析データ信頼性評価装置 |
PCT/JP2007/067946 WO2008032822A1 (fr) | 2006-09-14 | 2007-09-14 | Procédé d'évaluation de fiabilité de données d'échantillon et dispositif d'évaluation de fiabilité de données d'échantillon |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2008032822A1 true JPWO2008032822A1 (ja) | 2010-01-28 |
JP5396081B2 JP5396081B2 (ja) | 2014-01-22 |
Family
ID=39183874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008534408A Active JP5396081B2 (ja) | 2006-09-14 | 2007-09-14 | 遺伝子多型解析データ信頼性評価方法及び遺伝子多型解析データ信頼性評価装置 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP2063370A1 (ja) |
JP (1) | JP5396081B2 (ja) |
CN (1) | CN101517580B (ja) |
WO (1) | WO2008032822A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019171115A1 (en) * | 2018-03-05 | 2019-09-12 | Omron Corporation | Method for controlling operations of mechanical device and method and device for determining reliability of data |
CN117130851B (zh) * | 2023-07-26 | 2024-03-26 | 是石科技(江苏)有限公司 | 一种高性能计算集群运行效率评价方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3936851B2 (ja) * | 2001-06-15 | 2007-06-27 | 日立ソフトウエアエンジニアリング株式会社 | クラスタリング結果評価方法及びクラスタリング結果表示方法 |
JP2005531853A (ja) * | 2002-06-28 | 2005-10-20 | アプレラ コーポレイション | Snp遺伝子型クラスタリングのためのシステムおよび方法 |
JP4516777B2 (ja) * | 2004-02-13 | 2010-08-04 | 新日本製鐵株式会社 | 薄板の表面欠陥の分布形態解析装置、薄板の表面欠陥の分布形態解析方法、コンピュータプログラム、及びコンピュータ読み取り可能な記録媒体 |
JP4041081B2 (ja) * | 2004-03-23 | 2008-01-30 | 東芝ソリューション株式会社 | 分割クラスタリング装置及び分割データ数決定方法 |
JP2006163894A (ja) * | 2004-12-08 | 2006-06-22 | Hitachi Software Eng Co Ltd | クラスタリングシステム |
-
2007
- 2007-09-14 WO PCT/JP2007/067946 patent/WO2008032822A1/ja active Application Filing
- 2007-09-14 CN CN200780034080.0A patent/CN101517580B/zh active Active
- 2007-09-14 EP EP07807350A patent/EP2063370A1/en not_active Withdrawn
- 2007-09-14 JP JP2008534408A patent/JP5396081B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
CN101517580A (zh) | 2009-08-26 |
CN101517580B (zh) | 2016-04-06 |
WO2008032822A1 (fr) | 2008-03-20 |
EP2063370A1 (en) | 2009-05-27 |
JP5396081B2 (ja) | 2014-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sathirapongsasuti et al. | Exome sequencing-based copy-number variation and loss of heterozygosity detection: ExomeCNV | |
Bravo et al. | Model-based quality assessment and base-calling for second-generation sequencing data | |
CN108920899B (zh) | 一种基于目标区域测序的单个外显子拷贝数变异预测方法 | |
US20240105282A1 (en) | Methods for detecting bialllic loss of function in next-generation sequencing genomic data | |
AU2019346427A1 (en) | Methods of normalizing and correcting RNA expression data | |
US20200105371A1 (en) | Method for finding variants from targeted sequencing panels | |
Zhang et al. | Statistical method evaluation for differentially methylated CpGs in base resolution next-generation DNA sequencing data | |
Sadasivan et al. | Rapid real-time squiggle classification for read until using rawmap | |
WO2021137563A1 (ko) | 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법 | |
KR102273257B1 (ko) | 리드 깊이 기반한 유전자 복제수 변이 검출 기법 및 분석장치 | |
Han et al. | Novel algorithms for efficient subsequence searching and mapping in nanopore raw signals towards targeted sequencing | |
Pei et al. | deCS: A tool for systematic cell type annotations of single-cell RNA sequencing data among human tissues | |
CN116189763A (zh) | 一种基于二代测序的单样本拷贝数变异检测方法 | |
US8024155B2 (en) | Sample data reliability evaluation method and sample data reliability evaluation apparatus | |
JP5396081B2 (ja) | 遺伝子多型解析データ信頼性評価方法及び遺伝子多型解析データ信頼性評価装置 | |
US20190108311A1 (en) | Site-specific noise model for targeted sequencing | |
WO2019132010A1 (ja) | 塩基配列における塩基種を推定する方法、装置及びプログラム | |
CN117730372A (zh) | 用于确定核苷酸碱基检出和碱基检出质量的信噪比度量 | |
JP2005038256A (ja) | 有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体 | |
Filipović | Genomic resources for population analyses of an invasive insect pest Oryctes rhinoceros | |
KR20190126606A (ko) | 엑소좀 miRNA를 기준으로 암 환자를 판별하는 방법 및 장치 | |
Tan et al. | FPfilter: A false-positive-specific filter for whole-genome sequencing variant calling from GATK | |
Brown et al. | Leveraging ancestry to improve causal variant identification in exome sequencing for monogenic disorders | |
WO2018192967A1 (en) | Use of off-target sequences for dna analysis | |
US20190311779A1 (en) | Methods for detecting variants in next-generation sequencing genomic data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20100312 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20100315 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100820 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121002 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121108 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130618 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130913 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20130920 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131015 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131021 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5396081 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |