WO2013097413A1 - 一种二倍体单体构建方法和系统 - Google Patents

一种二倍体单体构建方法和系统 Download PDF

Info

Publication number
WO2013097413A1
WO2013097413A1 PCT/CN2012/076324 CN2012076324W WO2013097413A1 WO 2013097413 A1 WO2013097413 A1 WO 2013097413A1 CN 2012076324 W CN2012076324 W CN 2012076324W WO 2013097413 A1 WO2013097413 A1 WO 2013097413A1
Authority
WO
WIPO (PCT)
Prior art keywords
matrix
annealing
annealing process
sequence
haplotype
Prior art date
Application number
PCT/CN2012/076324
Other languages
English (en)
French (fr)
Inventor
黄树嘉
孙鹏
吴红龙
汪建
王俊
杨焕明
Original Assignee
深圳华大基因科技服务有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳华大基因科技服务有限公司 filed Critical 深圳华大基因科技服务有限公司
Priority to US14/369,604 priority Critical patent/US20150120256A1/en
Publication of WO2013097413A1 publication Critical patent/WO2013097413A1/zh

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Definitions

  • the present invention relates to the field of bioinformatics, and in particular to a method and system for constructing diploid monomers. Background technique
  • SNP single nucleotide polymorphism
  • Haplotype Map Haplotype Map
  • haplotypes based on chromosomal fragment information
  • MFR minimum fragment removal
  • MEC minimum error correction
  • MSR minimum SNP removal
  • the greedy heuristic algorithm proposed by Levy et al. The core idea is based on the greedy heuristic algorithm to minimize the difference between known chromosome fragments and reconstructed haplotypes. When there is no sequencing error in the heterozygous SNP site in the fragment, the method can quickly obtain the optimal haplotype. When sequencing errors occur in heterozygous SNP loci, this method takes longer and results are less accurate.
  • HapCUT The core idea is to calculate the weight between SNP loci (based on MEC) by initializing the haplotype and establishing the chromosome fragment matrix, and constructing the bipartite graph according to the weight scale to divide the SNP into two categories. Optimal, and reconstruct the haplotype according to the optimal SNP classification results. When the data contains more chromosome fragments and heterozygous SNP sites, the method runs longer and the results obtained are usually only local optimal solutions rather than global optimal solutions.
  • ReFHap This method is similar to HapCUT in constructing bipartite graphs, but instead of classifying SNPs in them, all chromosome fragments are divided into two categories according to the degree of similarity between them. The two sets of chromosome fragments are used as the final result and are reconstituted according to their haplotypes. Although this method is short in time and has high accuracy, it still cannot get rid of the shortcomings that the result is easy to fall into the local optimal solution.
  • One technical problem to be solved in one aspect is to provide a highly accurate and fast method and system for constructing diploid monomers.
  • S, j 6 T, £(M, i, j) represents the difference between all numbers of the bases of the segments i and j that are identical in base type and base type differences; based on the objective function and the Initial reference temperature T.
  • the simulated annealing process is performed, and the final set S and T are output when convergence is reached; the haplotype h is inferred from the final set S and T by the minimum error correction model.
  • an initial reference temperature T. -
  • max - ⁇ , p r is the initial acceptance probability, and the max and min represent randomly generated K groups according to the matrix M by S and T
  • the set formed by the subset of fragments calculates the maximum and minimum values of the ⁇ values of each set of S and T, respectively, and ⁇ is a natural number greater than or equal to 2.
  • the Metropolis sampling stability criterion is used to determine whether to stop iterating into the anneal.
  • the convergence criterion of the simulated annealing process is: When the value of the objective function is kept constant for a predetermined number of times of continuous annealing, the entire algorithm is considered to have reached the final convergence.
  • the ternary characters ⁇ A, B, C ⁇ are ⁇ 0, 1, - ⁇ .
  • the method further comprises: filtering the SNP locus in the chromosome fragment to remove homozygous and SNP loci comprising more than two alleles.
  • a diploid monomer construction system comprising: a sequence matrix construction module for constructing a ternary character ⁇ A, B, according to all sequence segments including at least one common site; C ⁇ consists of a sequence fragment matrix M of mxn, wherein in the sequence fragment matrix M, the two alleles of the SNP site in the chromosome segment are respectively labeled with A and B, and m is the number of rows of the matrix, The number of chromosome fragments, n is the number of columns of the matrix, indicating the number of heterozygous SNP sites; an initial condition determination module for using the sequence of the sequence fragments
  • an initial reference temperature T. For T. -
  • max - min , Pr is the initial acceptance probability, and the max and ⁇ respectively represent the random generation of the group according to the matrix ⁇ by S and ⁇
  • the set formed by the subset of fragments calculates the maximum and minimum values of the ⁇ values of each set of S and ⁇ , respectively, and ⁇ is a natural number greater than or equal to 2.
  • j is the number of anneals
  • the simulated annealing iteration module determines whether to stop iterating into the annealing by Metropolis sampling stability criterion.
  • the simulated annealing process convergence criterion adopted by the simulated annealing iterative module is: When the value of the objective function of the predetermined number of consecutive annealings is kept constant, the whole algorithm is considered to have reached the final convergence goal.
  • system further comprises: a SNP site filtering module for filtering SNP sites in the chromosome fragment to remove homozygous and SNP sites comprising more than two alleles.
  • a SNP site filtering module for filtering SNP sites in the chromosome fragment to remove homozygous and SNP sites comprising more than two alleles.
  • the diploid monomer construction method and system of the present invention performs a simulated annealing process based on an objective function and an initial reference temperature, and outputs a final set S and T when converging,
  • the haplotype is inferred by the minimum error correction model, and the haplotype of the global optimal solution is obtained, which has high accuracy and high speed.
  • FIG. 1 is a flow chart showing one embodiment of a method for constructing a diploid monomer of the present invention
  • Figure 2 is a flow chart showing another embodiment of the method for constructing a diploid monomer of the present invention
  • Figure 3 is a flow chart showing still another embodiment of the method for constructing a diploid monomer of the present invention.
  • Figure 4 shows the effect of different ⁇ values on the cooling rate in the high temperature process annealing function
  • Figure 5 shows the effect of different ⁇ values of the low temperature process annealing function on the cooling rate
  • Figure 6 shows the effect of the degree of overlap between chromosome segments on the accuracy of haplotype reconstruction results
  • Figure 7 shows the relationship between the error rate of the reconstructed haplotype and the error rate of SNPs by sequencing at different depths
  • Figure 8 is a block diagram showing an embodiment of a diploid monomer building system of the present invention.
  • Figure 9 is a structural view showing another embodiment of the diploid monomer building system of the present invention.
  • Fig. 10 shows an example of a bipartite graph. detailed description
  • the basic idea of the present invention is that the simulated annealing algorithm will be obtained by sequencing.
  • the sequence fragment constructs a bipartite graph according to the degree of difference to achieve haplotype remodeling, aiming at the rapid and accurate completion of haplotype remodeling in the genome (eg human) in the context of massive sequencing data.
  • the simulated annealing algorithm is derived from the principle of solid annealing on a physical system.
  • the solid is heated to a sufficiently high temperature and then allowed to cool slowly.
  • the solid internal particles rise with temperature. It becomes disordered, and the internal energy increases.
  • the particles become orderly, reaching an equilibrium state at each temperature, and finally reaching the ground state at normal temperature, and the internal energy is minimized.
  • the algorithm is a random search algorithm for solving large-scale optimization problems. It is based on the similarity between the optimization problem solving process and the physical system annealing process.
  • the optimized objective function is equivalent to the internal energy of the metal.
  • the independent variable combination state space is equivalent to the internal energy state space of the metal; the solution process of the problem is to find a combined state to minimize (or maximize) the objective function value.
  • Simulated annealing is achieved by using the Metropolis criterion and appropriately controlling the temperature drop process to achieve the goal of solving global optimization problems in polynomial time.
  • the problem of reconstructing haplotypes is a problem of solving combinatorial optimizations.
  • the internal energy E is simulated as the objective function value f
  • the temperature T is evolved into the control parameter t, which is the simulated annealing algorithm for the solution optimization problem: starting from the initial solution i and the initial value t of the control parameter, Repeat the iteration of "generate new solution ⁇ calculate objective function difference ⁇ accept or discard" for the current solution, and gradually attenuate the t value.
  • the current solution at the end of the algorithm is the approximate approximate solution obtained. This is based on the Monte Carlo iterative solution method. A heuristic random search process.
  • the bipartite graph also known as the bipartite graph, is a special model in graph theory.
  • V1, V2 The subset
  • V1 vertex sets
  • V1 vertex sets
  • Fig. 1 is a flow chart showing an embodiment of a method for constructing a diploid monomer of the present invention.
  • step 102 constructs a sequence fragment matrix M of mxn composed of ternary characters ⁇ A, B, C ⁇ according to all sequence segments including at least one common site, wherein, in the sequence segment matrix M
  • the two alleles of the SNP locus in the chromosome fragment are labeled with A and B, respectively, m is the number of rows of the matrix, indicating the number of chromosome fragments, and n is the number of columns of the matrix, indicating the number of heterozygous SNP sites.
  • the two alleles of the SNP locus in the chromosome fragment are changed to 0 and 1 in the order of ASCII code, that is, the ASCII code is smaller with 0, the larger one is represented by 1, and all at least Fragments containing a common site are grouped together to form a two-dimensional matrix of mxn, denoted as M, where m is the number of rows of the matrix, representing the number of chromosome segments, n is the number of columns in the matrix, indicating the heterozygous SNP position
  • M two-dimensional matrix of mxn
  • S, j ⁇ , ⁇ (M, i, j) represents the segment between i and j
  • S, j ⁇ , ⁇ (M, i, j) represents the segment between i and j
  • Step 108 Perform a simulated annealing process based on the objective function and the initial reference temperature TO, and output the final set S and T when converging. The convergence is adjusted to be adjusted as needed by those skilled in the art.
  • the haplotype h is inferred from the final set S and T by a minimum error correction model (MEC).
  • MEC minimum error correction model
  • the segment matrix is constructed by the sequence segment, the simulated annealing process is performed based on the objective function and the initial reference temperature, and the final set S and T are output during convergence, and the haplotype is inferred by the minimum error correction model, thereby obtaining the global optimum.
  • the haplotype is solved with high accuracy.
  • the objective function considers the same and different base types between segments, and therefore can effectively avoid the disadvantages caused by insufficient utilization of information by considering only the scores of bases with different bases. This defect can be illustrated by the following example:
  • Fragment f 3 1011010111111 If only the sites with different base types are considered, the difference between f 2 and f 3 will be considered to be the smallest due to the incompleteness of the f 2 information, and in this case, the fact is that the difference from f 3 is It is the smallest.
  • the determination of the initial state (initial reference temperature) in one embodiment is described below:
  • the initial temperature function is T. Called ⁇ max
  • the matrix M is used to randomly generate a set of K (for example, 30 ⁇ 200) sets of two subsets of S and T, and then calculate the ⁇ values of each set of S and T, respectively. The largest difference between them is
  • a max max - min ; p r is the initial acceptance probability (for example, p r 0.9 ).
  • Fig. 2 is a flow chart showing another embodiment of the method for constructing a diploid monomer of the present invention.
  • a sequence segment matrix M of mxn composed of ternary characters ⁇ 0, 1, - ⁇ is constructed based on all sequence segments containing at least one common site.
  • Step 204 initializing two segment sets S according to the sequence segment matrix M
  • determining the scoring matrix s ⁇ a x , a 2 ) ⁇ )
  • ai and a 2 are respectively the ⁇ type of the ith sequence segment and the jth sequence segment in the matrix M at the same site coordinates.
  • the significance of the scoring matrix is to give a score of the degree of fragmentation difference by making the difference between the number of all base types of the fragments different from the base type, and the larger the score, the more the difference between the two fragments is. Big.
  • Annealing process is an important process of the algorithm, which affects the acceptance probability of state transition. In order to obtain the global optimal solution more accurately and avoid falling into the local optimal solution in the later stage of annealing, the annealing process is divided into two parts: high temperature annealing and low temperature. Annealing process.
  • the optimal solution range is locked by a high temperature annealing process.
  • High temperature annealing The purpose of the process is to quickly lock the range of the optimal solution (that is, the maximum value of ⁇ ) and narrow the solution interval.
  • the corresponding model perturbation is: ⁇ is a uniformly distributed random number in [0,1], [A ⁇ is the fluctuation range, and [ ⁇ , ⁇ ] For example, assuming 50 sequence segments, the fluctuation range is [1, 50].
  • step 212 when the high temperature annealing process is stable, the process proceeds to a low temperature annealing process, and when the convergence is reached, the final set S and enthalpy are output.
  • is a uniformly distributed random number in [0,1]
  • [AbBi] is the fluctuation range
  • mi 6 [Ai,Bi] can be seen from the annealing function.
  • the system undergoes a certain degree of tempering and temperature rise, which is beneficial to jump out of the local optimum solution that may enter during the high temperature annealing process.
  • Step 214 inferring the haplotype from the final set S and T by the minimum error correction model.
  • a complementary relationship can be used to accurately obtain another haplotype corresponding thereto.
  • the annealing process (including high temperature and low temperature) is divided into two closely connected steps (1) Metropolis sampling stability criterion: At the same annealing temperature t, the target function ⁇ value is stable, then iteratively enters annealing. At the same temperature t, the Metropolis sampling criterion is used to randomly extract a sequence fragment v from S or T, and if vGS, then TUv, if vGT, then SUv, and calculate the value after the transformation. If the ⁇ value becomes larger, the transformation is accepted. If the ⁇ value becomes smaller or unchanged, the value of the probability function ⁇ (- ⁇ ⁇ / ⁇ ) is calculated at this time, and compared with the random number between 0 and 1, to determine whether Accept the transformation.
  • Metropolis sampling stability criterion At the same annealing temperature t, the target function ⁇ value is stable, then iteratively enters annealing. At the same temperature t, the Metropolis sampling criterion is used to randomly extract a sequence
  • the SNP site is filtered to remove homozygous and SNP sites containing more than two alleles.
  • Fig. 3 is a flow chart showing still another embodiment of the method for constructing a diploid monomer of the present invention.
  • step 300 the SNP site is filtered to remove homozygous and A SNP site comprising more than two alleles.
  • step 302 a segment matrix M is constructed.
  • Step 304 Determine the target function and the initial reference temperature according to the sequence segment matrix M with the two segment sets S and T.
  • Step 306 Determine whether the segment sets S and ⁇ satisfy the algorithm convergence criterion. If so, the result is output (step 326), otherwise, step 308 is continued.
  • Step 308 judging whether the sampling stability criterion is met? If yes, proceed to step 310, otherwise, continue to step 314.
  • Step 310 Determine whether it is currently a high temperature annealing process? If so, then step 312a is followed by annealing using a high temperature annealing function; otherwise, step 312b is continued and annealing is performed using a low temperature annealing function.
  • Step 314 generating a new state from the current state.
  • Step 316 determining whether the acceptance function is established, and if so, accepting the new state (step 320), otherwise, maintaining the current state (step 318). Return to step 308.
  • step 308 judges that the "sampling stability criterion" is satisfied, the temperature is removed, and when the temperature is removed, the high temperature annealing process or the low temperature annealing process is required.
  • step 310 It is judged whether this is a high temperature annealing process (step 312a) or a low temperature annealing process (step 312b), if a high temperature process is used, a high temperature annealing function is used, and if it is a low temperature process, a low temperature annealing function is used.
  • the algorithm does not cross the high temperature and low temperature processes in the process of reconfiguring the haplotype. It must be two processes that are strictly separated, that is, after the high temperature annealing process, the next step is In the low-temperature annealing process, there is no phenomenon from the low-temperature annealing process to the high-temperature annealing process, and the temperature-recovering step is also a low-temperature process.
  • Figure 3 shows the flow of a singular-type reconstruction method based on simulated annealing with ⁇ as the objective function.
  • the following is an example to illustrate the setting of corresponding parameters in the annealing process.
  • the appropriate data type is an example to illustrate the setting of corresponding parameters in the annealing process. The appropriate data type.
  • Example parameters The values of ⁇ and ⁇ : The difference between the parameters ⁇ and ⁇ in the annealing function will affect the speed of cooling.
  • Example 1 Evaluation Index of Results SE: The applicant uses an exchange error rate (SE, also referred to as a reconstruction error rate) to evaluate the accuracy of the haplotype reconstruction results based on the present invention.
  • SE exchange error rate
  • the formula for calculating SE is:
  • SE min ⁇ d(h rec0 n S compt, h rea n), d(h reconstruc t, h real 2) ⁇ /n, where hreconstruct represents a haplotype in the reconstruction result, d(h reconstruct?h Rea il) and d(h reconstruct , h real2 ) represent the number of SNP mismatches between a reconstructed haplotype and two standard haplotypes generated by simulation, where n is the number of SNPs in the reconstruction result, then SE Expressed as a percentage of the minimum number of SNP sites that are inconsistent between the reconstructed results and the simulated real results. The smaller the SE value, the more similar the haplotype reconstructed from the simulated data is to the real result, and the higher the accuracy.
  • the overlap level of chromosome fragments is defined as:
  • n denotes the number of SNP sites (i.e., the number of columns of the above sequence matrix)
  • ⁇ N the number of SNP sites
  • Verlap _ level reflects the sequence fragment of the entire sequence matrix M and the proportion of the SNP locus and the adequacy of the available information. This weight can indicate the average number of times each SNP locus is reused. It also illustrates the degree of compactness between sequence segments, the more SNP sites that overlap each other (ie, the greater the number of times SNP sites are reused) or the compactness between sequence segments, then P. The larger verlap _ level is, the more information is available.
  • Each set of data consists of 50 pairs of standard haplotypes generated randomly and chromosomal fragments generated from haplotypes.
  • the standard haplotype data contains the same number of SNPs of 200, and the corresponding number of chromosome fragments generated is the same, but the number of SNPs contained in the chromosome fragments is increased by 5 per set from 10.
  • the deletion and transversion of SNPs in the chromosome fragments are also considered.
  • the probability of deletion of each heterozygous SNP locus in the chromosome fragment during the generation of the simulated data is 0.9, which is much higher than the actual situation. Under this condition, if the same result can be obtained, then the method of the present invention is It has practical application significance. At the same time, the probability of setting the transposition is 0.05.
  • 39 sets of simulated data generated by statistics The range of Poverlapjevel (that is, the degree of overlap) is from 0 ⁇ 18 to 0 ⁇ 90, and the corresponding SE (ie, reconstruction error rate) ranges from 0 to 0.03. As shown in Fig.
  • the abscissa is the degree of overlap (hereinafter referred to as ⁇ overlap level), and the ordinate is the reconstruction error rate (hereinafter referred to as SE).
  • SE reconstruction error rate
  • Embodiment 2 Relationship between SE and SNP transversion rate: In order to evaluate the relationship between SNP transversion rate and SE, the applicant generated simulation data of SNP transversion rate from low to high at different coverage depths.
  • the SNP coverage depth includes 10X, 20X, 30X, 40X, 50X, and each depth contains 7 sets of simulation data with SNP transversion rate of 0.01, 0.05, 0.1, 0.2, 0.3, 0.4, 0.5. Each set of data is randomly generated. 50 pairs of standard haplotypes and chromosomal fragments formed from haplotypes.
  • the formula for calculating the SNP coverage depth is:
  • m is the number of chromosome fragments
  • L is the average length of the chromosome fragments
  • d is the SNP deletion rate
  • N is the number of SNPs contained in the standard haplotype.
  • Figure 8 is a block diagram showing one embodiment of the diploid monomer building system of the present invention.
  • the diploid monomer construction system in this embodiment includes: a sequence matrix construction module 81, which is constructed by quaternion characters ⁇ A, B according to all sequence segments including at least one common site.
  • haplotype determining module 84 for each column j, j [1, n] , mj , 0 represents the number of zeros in the column, my represents the number of 1s in the column, hj indicates that the column is inferred
  • max - min , p r is the initial acceptance probability, and max and min respectively represent the random generation group according to the matrix ⁇
  • the simulated annealing iteration module determines whether to stop the iterative entry annealing by the Metropolis sampling stability criterion; the simulated annealing process convergence criterion adopted by the simulated annealing iterative module is: when continuously annealing a predetermined number of objective functions When the value ⁇ remains the same, the entire algorithm is considered to have reached the final convergence.
  • Fig. 9 is a structural view showing another embodiment of the diploid monomer building system of the present invention.
  • a SNP site filtering module 90 may be further included for filtering SNP sites in the chromosome segment to remove homozygous and SNP sites containing more than two alleles.
  • annealing stability determining unit 932 determining whether the high temperature annealing process is stable, when the high temperature annealing process is stable, transferring to a low temperature annealing process; low temperature annealing performing unit 933, performing a low temperature annealing process
  • Figures 8-9 can be implemented by separate computing processing devices or integrated into a single device implementation. They are shown in boxes in Figures 8 to 9 to illustrate their function. These functional blocks can be implemented in hardware, software, firmware, middleware, microcode, hardware description speech, or any combination thereof. For example, one or both of the functional blocks can be implemented by code running on a microprocessor, digital signal processor (DSP), or any other suitable computing device.
  • a code can represent a procedure, a function, a subprogram, a program, a routine, a subroutine, a module, or any combination of instructions, data structures, or program statements.
  • the code can be located on a computer readable medium.
  • the computer readable medium can include one or more storage devices including, for example, RAM memory, flash memory, ROM memory, EPROM memory, EEPROM memory, registers, ⁇ i, mobile hard disk, CD-ROM, or any other form known in the art. Storage medium.
  • the computer readable medium can also include The carrier that encodes the data signal.
  • this patent proposes a new haplotype reconstruction method and system, which can determine the global optimal solution of the objective function in a short time, and then complete Monomeric remodeling.

Abstract

本发明公开一种二倍体单体构建方法和系统,涉及生物信息学领域。该方法包括:将根据所有至少包含有一个共同位点的序列片段集合在一起构建由三元字符{A,B,C}组成的m×n的序列片段矩阵M;根据序列片段矩阵M初始化两个片段集合S和T,S∪T=M,并且S∩T=Φ,Φ表示空集;确定目标函数ζ(S,T)=∑∑ε(M,i,j)和初始参考温度T0,ε(M,i,j)表示片段i和j之间碱基型相同的所有数目和碱基型不同的所有数目之差值;基于目标函数和初始参考温度T0进行模拟退火过程,达到收敛时输出最终的集合S和T;根据最终的集合S和T通过最小错误纠正模型推断出单体型h。本发明的二倍体单体构建方法和系统,能够获得全局最优解的单体型,准确性高、速度快。

Description

一种二倍体单体构建方法和系统 技术领域
本发明涉及生物信息学领域, 特别涉及一种二倍体单体构 建方法和系统。 背景技术
在基因组中不同个体 DNA序列上的同一个位点上单个碱 基 的 差 异 称 为 单 核 苷 酸 多 态 ( single nucleotide polymorphism, 简称 SNP ) 。 SNP 是基因组中最常见的遗传 变异, 据估计人类群体中大约存在一千万左右的 SNP 位点, 其中大约 90%是人类群体间共有的。 单体型 (haplotype )指 的是位于一条染色体上或某一区域的一组相关联的 SNP 等位 位点。 单体型是描述人类基因组遗传差异的一种主要方式, 同 时也广泛用于基因组关联研究, 群体遗传学研究等。
2002 年美国、 英国、 中国等国家发起了国际单体型图 ( Haplotype Map , HapMap ) 计划, 目的是创建一个公共 的, 基因组范围的常见人类序列变异的数据库, 为临床表型的 基因研究提供有价值的信息。 随着 HapMap I期、 Π期、 m期 计划的逐步完成, 各国科学家已经对非裔、 亚裔、 欧裔等十一 个不同群体一千多个样本的数百万 SNP 进行了成功分型, 构 建了不同群体的单体型图谱。 除此之外, 对人类基因组结构了 解的不断深入(包括基因组中的 SNP, 纯合 \杂合缺失, 染色 体倒位, 拷贝数变异等等) , 使得对单体型的结构和在群体中 的分布也有了越来越清晰的认识。 同时, 随着二代测序技术的 曰趋成熟和广泛应用, 获得了大量人类基因组中染色体的片段 信息。 这使可以不用再完全依赖统计学方法基于群体的 SNP 基因型信息重构单个个体的单体型, 而可以通过拼接单个个体 含有杂合 SNP 位点的染色体片段来直接完成重构。 有多篇文 献已经证明, 基于片段拼接方式构建的单体型具有更高的准确 性和完整性。
为了基于染色体片段信息构建单体型, 很多研究提出了不 同的目标函数用于获得最佳的单体型重构结果, 包括最少片段 移除 ( minimum fragment removal, MFR ) , 最少错误校正 ( minimum error correction, MEC ) , 最少 SNP 移除 ( minimum SNP removal, MSR )等等。 目前, 有许多方法以 MEC 为目标函数对单体型进行重构 (即使得重构的单体型与 已知的染色体片段间差异最小) , 这些方法有:
1. Levy etal.等提出的贪婪启发式算法: 其核心思想是基于 贪婪启发式算法使已知的染色体片段与重构的单体型间有最少 的差异。 当片段中杂合 SNP位点不存在测序错误时, 该方法 可以很快获得最优的单体型。 当杂合 SNP 位点存在测序错误 时, 该方法耗时较长且结果的准确性较低。
2. HapCUT: 其核心思想是通过初始化单体型和建立染色 体片段矩阵计算 SNP位点间的权值(基于 MEC ) , 根据权值 大小构建二分图将 SNP 分为两类, 多次迭代后取最优, 并按 照最优的 SNP 分类结果对单体型进行重构。 当数据包含较多 的染色体片段和杂合 SNP 位点时, 该方法运行时间较长且获 得的结果通常只是局部最优解而不是全局最优解。
3. ReFHap: 该方法与 HapCUT 类似都是构建二分图, 但 不是对其中的 SNP 进行分类, 而是将所有的染色体片段按照 彼此相似程度的高低分为两类, 多次迭代取其中差异最高的两 类染色体片段集合作为最终结果并根据其对单体型进行重构。 该方法虽然耗时较短且具有较高的准确性, 但是仍无法摆脱结 果容易陷入局部最优解的缺点。
综上所述, 开发一种新的准确性高、 耗时短、 可以得到全 局最优解的单体型重构方法是 待解决的问题 发明内容
^开的一个方面要解决的一个技术问题是提供一种准确性 高、 速度快的二倍体单体构建方法和系统。
根据本发明的一个方面, 提供一种二倍体单体构建方法, 包括: 根据所有至少包含有一个共同位点的序列片段构建由三 元字符 {A,B,C}组成的 m x n 的序列片段矩阵 M, 其中, 在所 述序列片段矩阵 M中将染色体片段中 SNP位点的两个等位碱 基分别用 A和 B标记, m为矩阵的行数, 表示染色体片段的 数目, n为矩阵的列数, 表示杂合 SNP位点的数目; 根据所述 序列片段矩阵 M初始化两个片段集合 S和 T, S U T=M, 并且 S fl T= >, φ表示空集; 确定目标函数 (S,T) = ∑∑£(M,i,j) 和 初始参考温度 T。, 其中 S, j 6 T, £(M,i,j)表示片段 i和 j之 间碱基型相同的所有数目和碱基型不同的所有数目之差值;基 于所述目标函数和所述初始参考温度 T。进行模拟退火过程, 达到收敛时输出最终的集合 S和 T; 根据所述最终的集合 S和 T通过最小错误纠正模型推断出单体型 h。
可选地, 初始参考温度 T。为 T。=-|厶 max|/ln(pr), 其中, I厶 max|= max- ζπήη, pr为初始接受概率, 所述 maxmin表示根据 矩阵 M随机生成 K组由 S和 T两个片段子集所构成的集合分 别计算每一组 S和 T的 ζ值中的最大值和最小值, Κ为大于等 于 2的自然数。
可选地, 基于所述目标函数和所述初始参考温度 Τ。进行 模拟退火过程包括:通过高温退火过程锁定最优解范围, 高温退 火函数为: T=TQexp(-a(j-l)1/2); 当所述高温退火过程稳定时, 转入低温退火过程, 低温退火函数为: T=T。exp(-(x(j-k。/p)1/2); 其中 T。为初始参考温度, j表示退火次数, k。表示高温状态下 退火的次数, =0.98, β=1.2。
可选地, 通过 Metropolis抽样稳定准则判断是否停止迭代 进入退火。
可选地, 模拟退火过程收敛准则为: 当连续退火预定数次 目标函数的值 ζ都保持不变时则认为整个算法已达到最终收敛 目。
可选地, 三元字符 {A,B,C}为 {0,1,-}。
可选地, 根据所述最终的集合 S和 T通过最小错误纠正模 型推断出单体型 h 包括: 对于每一列 j, j 6 [1 , n] , mj,。表示 该列中 0的数目, 表示该列中 1 的数目, hj表示该列被推 断出来的碱基型; 若 !!^,。〉!!^, 则 hj=0; 若 my >mj,。, 则 hj=l ; 若非以上两种情形, 则 hj= - 。
可选地, 该方法还包括: 对染色体片段中 SNP 位点进行 过滤, 去掉纯合及包含两个以上等位碱基的 SNP位点。
根据本发明的另一方面, 提供一种二倍体单体构建系统, 包括: 序列矩阵构建模块, 用于根据所有至少包含有一个共同 位点的序列片段构建由三元字符 {A,B,C}组成的 m x n的序列片 段矩阵 M, 其中, 在所述序列片段矩阵 M 中将染色体片段中 SNP位点的两个等位碱基分别用 A和 B标记, m为矩阵的行 数, 表示染色体片段的数目, n为矩阵的列数, 表示杂合 SNP 位点的数目; 初始条件确定模块, 用于根据所述序列片段矩阵
M初始化两个片段集合 s和 τ, S U T=M, 并且 s n T= >, Φ 表示空集; 确定目标函数 (S,T) = ∑∑£(M,i,j) 和初始参考温度 T0, 其中 S, j 6 T, £(M,i,j)表示片段 i和 j之间 型相同 的所有数目和碱基型不同的所有数目之差值;模拟退火迭代模 块, 用于基于所述目标函数和所述初始参考温度 T。进行模拟 退火过程, 达到收敛时输出最终的集合 S和 T; 单体型确定模 块, 用于根据所述最终的集合 S和 T通过最小错误纠正模型推 断出单体型 h。
可选地, 初始参考温度 T。为 T。=-|厶 max|/ln(pr), 其中, I厶 max|= max- min, Pr为初始接受概率, 所述 max和 ζπήη分别表示 根据矩阵 Μ随机生成 Κ组由 S和 Τ两个片段子集所构成的集 合分别计算每一组 S和 Τ的 ζ值中的最大值和最小值, Κ为大 于等于 2的自然数。
可选地, 模拟退火迭代模块包括:高温退火执行单元, 用 于通过高温退火过程锁定最优解范围, 其中, 高温退火函数 为: T=T。exp(-a(j-l)1/2); 退火稳定判断单元, 用于判断高温退 火过程是否稳定, 当所述高温退火过程稳定时, 转入低温退火 过程; 低温退火执行单元, 用于执行低温退火过程, 其中, 低 温退火函数为: T=T。exp(-a(j-k。/p)1/2); 其中 T。为初始参考温 度, j 表示退火次数, k。表示高温状态下退火的次数, =0.98, β=1·2。
可选地, 模拟退火迭代模块通过 Metropolis抽样稳定准则 判断是否停止迭代进入退火。
可选地, 模拟退火迭代模块采用的模拟退火过程收敛准则 为: 当连续退火预定数次目标函数的值 ζ都保持不变时则认为 整个算法已达到最终收敛目。
可选地, 单体型确定模块对于每一列 j, j [1 , n] , mj,0 表示该列中 0的数目, ιημ表示该列中 1 的数目, hj表示该列 被推断出来的碱基型; 若 m !!!^ , 则判断 hj=0 ; 若 mj l >mj 0 , 则判断 hj=l; 若非以上两种情形, 则判断 hj= - 。
可选地, 该系统还包括: SNP位点过滤模块, 用于对染色 体片段中 SNP 位点进行过滤, 去掉纯合及包含两个以上等位 碱基的 SNP位点。
本发明的二倍体单体构建方法和系统, 基于目标函数和初 始参考温度进行模拟退火过程, 收敛时输出最终的集合 S和 T, 通过最小错误纠正模型推断出单体型, 从而获得全局最优解的单 体型, 准确性高、 速度快。 附图说明
图 1示出本发明的二倍体单体构建方法的一个实施例的流程 图;
图 2示出本发明的二倍体单体构建方法的另一个实施例的流 程图;
图 3示出本发明的二倍体单体构建方法的又一个实施例的流 程图;
图 4 示出高温过程退火函数不同 α取值对降温速度的影 响;
图 5 示出低温过程退火函数不同 β 取值对降温速度的影 响;
图 6示出染色体片段间重叠程度对单体型重构结果准确性 的影响;
图 7示出重构出来的单体型的错误率在不同深度下与 SNP 由测序带来的错误率之间的关系;
图 8 示出本发明的二倍体单体构建系统的一个实施例的结 构图;
图 9 示出本发明的二倍体单体构建系统的另一个实施例的 结构图;
图 10示出二分图示例。 具体实施方式
下面参照附图对本发明进行更全面的描述, 其中说明本发明 的示例性实施例。
本发明的基本思路在于基于模拟退火算法将通过测序所得 的序列片段按照差异度构建出二分图从而实现单体型重构的方 法, 旨在海量测序数据背景下, 快速准确的完成 (例如人类) 基因组中单体型的重构。
一、 模拟退火( simulate annealing ) 算法的简要说明: 模拟退火算法来源于物理系统上固体退火的原理, 将固体 加温至充分高, 再让其徐徐冷却, 加温时, 固体内部粒子随温 升变为无序状, 内能增大, 而通过徐徐冷却时粒子渐趋有序, 在每个温度都达到平衡态, 最后在常温时达到基态, 内能减为 最小。 根据 Metropolis准则, 粒子在温度 T时趋于平衡的概率 为 e-A E/(kT), 其中 E为温度 T时的内能, Δ Ε为其改变量, k为 Boltzmaim常数(数值为: K=l .3806505 x 10-23 J/K ) 。 该 算法是一种用于求解大规模优化问题的随机搜索算法, 它以优 化问题求解过程与物理系统退火过程之间的相似性为基础; 优 化的目标函数相当于金属的内能; 优化问题的自变量组合状态 空间相当于金属的内能状态空间; 问题的求解过程就是找一个 组合状态, 使目标函数值最小 (或最大) 。 利用 Metropolis准 则并适当地控制温度的下降过程实现模拟退火, 从而达到在多 项式时间内求解全局优化问题的目标。
重构单体型的问题, 是一个求解组合优化的问题。 用固体 退火模拟组合优化问题, 将内能 E模拟为目标函数值 f, 温度 T 演化成控制参数 t, 即得到解组合优化问题的模拟退火算 法: 由初始解 i和控制参数初值 t开始, 对当前解重复 "产生 新解→计算目标函数差→接受或舍弃" 的迭代, 并逐步衰减 t 值, 算法终止时的当前解即为所得近似最优解, 这是基于蒙特 卡罗迭代求解法的一种启发式随机搜索过程。
二、 二分图 ( Bipartite graph ) 的基本概念:
二分图又称作二部图, 是图论中的一种特殊模型。 设 G=(V,E)是一个无向图, 如果顶点 V可分割为两个互不相交的 子集 (V1,V2), 并且图中的每条边(i, j ) 所关联的两个顶点 i 和 j分别属于这两个不同的顶点集 ( VI; j ^ V2 ), 则称图 G为一个二分图, 如图 10所示。
图 1示出本发明的二倍体单体构建方法的一个实施例的流程 图。
如图 1 所示, 步骤 102, 根据所有至少包含有一个共同位点 的序列片段构建由三元字符 {A,B,C}组成的 m x n的序列片段矩阵 M, 其中, 在序列片段矩阵 M中将染色体片段中 SNP位点的两 个等位 ^分别用 A和 B标记, m为矩阵的行数, 表示染色体 片段的数目, n 为矩阵的列数, 表示杂合 SNP位点的数目。 例 如, 将染色体片段中 SNP位点的两个等位碱基按照 ASCII码 的顺序改用 0和 1标记, 即 ASCII码较小的用 0表示, 较大的 则用 1表示, 并将所有至少包含有一个共同位点的片段集合在 一起构建成一个 m x n 的二维矩阵, 记为 M, 其中 m为矩阵 的行数, 表示染色体片段的数目, n 为矩阵的列数, 表示杂合 SNP位点的数目, 若某染色体片段不包含某一 SNP位点则在 矩阵中该点记为 "-" 。 从而构建出一个由 {1,0,-}三元字符组成 的 m x n的序列片段矩阵。
步骤 104, 根据序列片段矩阵 M初始化两个片段集合 S和 τ, S U T=M, 并且 s n T= >, Φ表示空集。 片段集合 s和 τ可 以随^ 取。
步碌 106, 确定目标函数 (S,T) = ∑∑ ε (M,i,j)和初始参考 温度 T0, 其中 S, j Τ, ε (M,i,j)表示片段 i和 j之间 型 相同的所有数目和 ^型不同的所有数目之差值。 假设片段集 S 中所有的序列片段都来自于同一个单体型, 而片段集 T中所有的 序列片段则完全来自于另外一个单体型, 那么此时这两个集合 S 和 T的差异将达到最大。 当 (S,T)的值达到最大时, 则可以认为 S和 T中所有的片段皆分别来自于不同的两个单体型。 稍后将通 过一个例子介绍初始参考温度的选取。
步骤 108, 基于目标函数和初始参考温度 TO进行模拟退火过 程, 收敛时输出最终的集合 S和 T。 收敛^ Γ以由本领域 的技术人员根据需要进行选 调整。
步骤 110, 根据最终的集合 S 和 T通过最小错误纠正模型 ( MEC )推断出单体型 h。 例如, 通过最小^纠正模型推断出 单体型 h: 对于每一列 j ( j G [l, n] ), mj,。表示该列中 0 的数 目, my表示该列中 1 的数目, hj表示该列被推断出来的>?½ 型。 若 m >mj l, 则
Figure imgf000011_0001
若 my >mj 0, 则 hrl; 若非以上两 种情形则 hj= -表示无法确定。
上述实施例中, 通过序列片段构建片段矩阵, 基于目标函数 和初始参考温度进行模拟退火过程, 收敛时输出最终的集合 S和 T, 通过最小错误纠正模型推断出单体型, 从而获得全局最优解 的单体型, 准确性高。 目标函数同时考虑了片段间碱基型的相 同与不同, 因此还能够有效避免只考虑碱基型不相同位点的分 值这种由于信息量利用不足所带来的缺陷。 该缺陷可以通过以 下例子进行说明:
片段 1011111011111
片段 f2: 1011001
片段 f3: 1011010111111 若只是考虑碱基型不相同的位点将由于 f2信息的不全而致 使认为 f2和 f3的差异最小, 而在这情形下, 事实则是 和 f3的 差异才是最小的。
下面介绍一个实施例中初始状态(初始参考温度)的确定: 初温函数为 T。叫厶 max|/ln(pr), 其中 T。表示初始参考温度。 利用 矩阵 M随机生成 K (例如, 30~200 )组由 S和 T两个片段子集 所构成的集合, 然后分别计算每一组 S和 T的 ζ值, 这 Κ个 ζ值 间最大的差值即为 |Amax |, 即 |Amax max-min; pr为初始接受概 率(例如, pr=0.9 )。
图 2示出本发明的二倍体单体构建方法的另一个实施例的流 程图。
如图 2 所示, 步骤 202, 将根据所有至少包含有一个共同位 点的序列片段集合在一起构建由三元字符 {0,1,-}组成的 mxn 的 序列片段矩阵 M。
步骤 204, 根据序列片段矩阵 M初始化两个片段集合 S和
T。
步骤 206, 确定目标函数 ζ ,Τ) = ∑∑ ε (M,i,j)o 例如, 确 定打分矩阵: s{ax, a2) ― )
Figure imgf000012_0001
其中, ai, a2分别为矩阵 M中第 i条序列片段和第 j条 序列片段在同一位点坐标上的^ ^型。 片段 i和片段 j 的差异 分值记为 c(M,i,j )=∑ε(Μ [i,k] ,M [j ,k] ) , 其中 k G [1,η】,也即是计 算片段 i和 j之间^ ^型相同的所有数目与^ ^型不同的所有 数目之差值。 该打分矩阵的意义在于通过将片段间所有碱基型 相同的数目与碱基型不同的数目做差, 从而给出片段差异程度 的分值, 分值越大表示两个片段间的差异就越大。
步骤 208, 根据初温函数 -|Amax|/ln(pr)确定初始参考温度 T0=-|Amax|/ln(pr)。
退火过程是算法的一个重要过程, 影响着状态转换时的接 受概率, 为了更准确地获得全局最优解避免在退火的后期陷入 局部最优解, 将退火过程分为两个: 高温退火和低温退火过 程。
步骤 210, 通过高温退火过程锁定最优解范围。 高温退火过 程的目的在于快速锁定最优解(也即 ζ最大值) 的范围, 缩小 解区间。 高温退火函数例如为: T=T。exp(-a(j-l)1/2), 其中 T0 为初始温度, j 是迭代次数, a=0.98。 相应的模型扰动方式 为:
Figure imgf000013_0001
μ是 [0,1】内均匀分布的随机数, [A^为 波动范围, 并且 [Αί,Βί] 例如, 假设有 50 个序列片段, 那么波动范围就为 [1, 50】。
步骤 212, 当高温退火过程稳定时转入低温退火过程, 达 到收敛时输出最终的集合 S和 Τ。 当高温退火过程稳定时 (判 断稳定与否的条件参见下文实施例中的说明) , 则转入低温退 火过程。 低温退火函数例如为: T=T。exp(-(x(j-k。/p)1/2), 其中 T0为初始温度, j 表示退火次数, ko表示高温状态下退火的次 数, α=0.98, β=1.2。 相应的模型扰动方式为: 111 =1^+ (8「 Ai), μ 是 [0,1】内均匀分布的随机数, [AbBi]为波动范围, 并且 mi 6 [Ai,Bi] 从该退火函数可以看出, 在刚进入低温阶段时, 系统进行了一定程度的回火升温, 这一升温有利于跳出在高温 退火过程可能进入的局部最优解。
步骤 214, 根据最终的集合 S和 T通过最小错误纠正模型推 断出单体型。 对于每一列 j ( j 6 [1, n] ) , mj,。表示该列中 0的 数目, ιημ表示该列中 1 的数目, hj表示该列被推断出来的碱 基型。 若 m >mj l, 则 hj=0; 若 则 hj=l; 若非以 上两种情形则 hj= - 表示无法确定。 当 h确定之后, 利用互补 的关系就能准确的获得与其相对应的另一个单体型。
上述实施例中, 通过高温和低温两次退火过程, 设定双阈 值的方法来构建二分图, 最终就能重构出二倍体基因组的两条 单体型 H= ( hl, h2 ) , 既保证了单体型重构的准确性, 又能 提高收敛速度, 耗时短。
退火过程 (包括高温和低温) 中分为两个紧密相连的步 ( 1 ) Metropolis抽样稳定准则: 在同一退火温度 t下目标 函数 ζ值达到稳定, 则停止迭代进入退火。 在同一温度 t 下, 采用 Metropolis抽样准则每次都随机从 S或 T 中抽取一条序 列片段 v, 若 vGS, 则 TUv, 若 vGT, 则 SUv, 并计算经此 变换后 ζ的值。 若 ζ值变大则接受变换, 若 ζ值变小或不变则 计算此时接受概率函数 ρ(-Δ ζ/Τ)的值, 将其与 0~1 之间的 随机数比较, 判断是否接受变换。 具体的 Metropolis抽样准则 如下: 假设第 i-1次迭代得到的目标函数的值为 ζ。ld, 第 i次经 过变换后目标函数的值为 ζ newJ 二者的差值为 Δ ζ = ζ new - ζ old. 其中 new ^ 。ld。 生成位于 [0, 1】间的随机数 ρ, 若 p<exp(-A ζ/Τ)则接受变换, 并令 。ld= new; 若 ρ>εχρ(-Δ ζ /Τ)则取消变换, 并回滚到上一状态。 重复上述抽样步骤 (m 为序列片段的数目 ) , 当目标函数值连续 W 次 (例如, 若 m<10, W= 15 m; ^ m>10, W=150)没有变化, 认为达到 Metropolis抽样稳定准则, 此时停止 Metropolis抽样, 返回当 前所得最优解以及相对应的状态, 接着利用退火函数进行退火 降温, 然后再次进入 Metropolis抽样过程进行判断。
( 2 ) 算法收敛准则: 当连续退火 N 次, (例如, 若 m<10, N=5xm次, 若 m>10, N=50次, m为矩阵中序列片段 的数目) , 目标函数的值 ζ都保持不变时则认为整个算法已达 到最终收敛, 将此时得到的两个集合 S和 Τ作为最终最优解输 出, 并停止算法。
通常来说, 在构建序列片段矩阵前可以对染色体片段中
SNP位点进行过滤, 去掉纯合及包含两个以上等位碱基的 SNP 位点。
图 3示出本发明的二倍体单体构建方法的又一个实施例的流 程图。
如图 3所示, 步骤 300, 对 SNP位点进行过滤, 去掉纯合及 包含两个以上等位碱基的 SNP位点。
步骤 302, 构 列片段矩阵 M。
步骤 304, 根据序列片段矩阵 M随;^始化两个片段集合 S 和 T, 确定目标函数和初始参考温度。
步骤 306, 判断片段集合 S和 Τ是否满足算法收敛准则? 如 果是, 输出结果(步骤 326 ), 否则, 继续步骤 308。
步骤 308, 判断是否满足抽样稳定准则? 如果是, 则继续步 骤 310, 否则, 继续步骤 314。
步骤 310, 判断当前是否属于高温退火过程? 如果是, 则继 续步骤 312a, 采用高温退火函数进行退火; 否则, 继续步骤 312b, 采用低温退火函数进行退火。
步骤 314, 由当前状态产生新状态。
步骤 316, 判断接受函数是否成立, 如果是, 则接受新状态 (步骤 320 ), 否则, 保持当前状态不变(步骤 318 )。 返回步骤 308。
需要指出, 在图 3中步骤的序号并不表示该步骤的执行先后 顺序。 在步骤 308判断满足了 "抽样稳定准则" 之后进入退温过 程, 而退温的时候需要选择高温退火过程还是低温退火过程, 这 两个过程用到的是两个不同的退温函数, 步骤 310判断这个时候 是高温退火过程(步骤 312a )还是低温退火过程(步骤 312b ), 如果为高温过程就用高温退火函数, 如果是低温过程就用低温退 火函数。 不过需要特别说明的一点就是: 算法在重构单体型的过 程中高温和低温过程是不会交叉出现的, 一定是严格分开的两个 过程, 即在经过高温退火过程之后, 接下来的就是低温退火过 程, 不会出现从低温退火过程进入高温退火过程的现象, 回温步 骤也算低温过程。
图 3 示出了以 ζ为目标函数基于模拟退火的单体型重构方 法流程, 下面将以实例具体阐述退火过程中相应参数的设定及 适合的数据类型。
实施例参数 α和 β的取值: 退火函数中参数 α和 β的不同 取值将影响降温的速度。 申请人模拟了在初温 Τ。=100, 降温次 数 j 6 [1,100] , 取值分别为 0.98、 0.95、 0.9 时, 退火温度 Τ 下降的情况。 从图 4 中可以看到当(X值减小时, 退火温度下降 速度无明显差异。 但为了加快高温退火的速度以减少迭代次 数, 在本发明中选取 α=0.98。 申请人模拟了在初温 Τ。=100, 降温次数 j [51,150】, 高温退火次数 k。=50, β取值分别为 1、 1.2、 1.5时, 退火温度 Τ下降的情况。 从图 5可以看到当 β值 减小时, 退火温度下降速度差异明显。 回火升温有助于结果跳 出局部最优解, 为了不使低温退火速度过快在本发明中 β=1·2。
实施例一: 结果评估指标 SE : 申请人使用交变错误率 ( switch error, SE , 也可称为重构错误率) 来评估基于本发 明的单体型重构结果的准确性。 计算 SE的公式为:
SE=min{d(hrec0nStruct, hrean), d(hreconstruct, hreal2)}/n, 其中 hreconstruct表示重构结果中的一条单体型, d(h reconstruct? hreail)和 d(hreconstruct, hreal2)表示一条重构单体型与模拟产生的两条标准 单体型间 SNP 不匹配的数目, n表示为重构结果中 SNP的数 目, 那么 SE就表示为重构结果与模拟的真实结果间 SNP位点 不一致最小数目的百分比。 SE 值越小则表明根据模拟数据重 构的单体型与真实结果越相似, 准确性就越高。
先评价 SE 与序列片段重叠程度的关系: 染色体片段重叠 程度 ( overlap level )定义为:
Poverlap_level=∑ N。V x ),
其中, m表示序列片段的数目 (即上述序列矩阵 M 的行 数) , n表示 SNP位点的数目 (即上述序列矩阵的列数) , ∑ N。verlap表示所有存在于两条以及两条以上序列片段的 SNP位点 深度之总和。 如下表 1中的例子:
Figure imgf000017_0002
表 1
∑ NoveriaP = 4+4+2 = 10
m=3
n=13
Figure imgf000017_0001
P。verlap_level反映了整个序列矩阵 M 中那些存在重叠关系的 序列片段以及 SNP 位点所占到的比重及可利用信息的充裕程 度, 这个比重既能说明每个 SNP 位点平均被重用到的次数还 能说明序列片段间的紧凑程度, 片段间相互重叠的 SNP 位点 越多 (即 SNP 位点平均被重用到的次数越大)或序列片段间 约紧凑, 那么 P。verlap_level就越大, 可利用的信息也越充裕。
申请人随机生成了 39 套模拟数据, 用于评估染色体片段 间重叠程度与 SE的关系。 每套数据由随机产生的 50对标准单 体型及根据单体型生成的染色体片段组成。 每套数据间, 标准 单体型数据包含的 SNP数目相同为 200, 相应生成的染色体片 段数相同为 20, 但染色体片段包含的 SNP数目则是由 10开始 每套增加 5。 为了使模拟数据更接近真实数据, 还考虑了染色 体片段中 SNP 的缺失及颠换。 在生成模拟数据过程中染色体 片段每个杂合 SNP位点缺失的概率为 0.9, 这个概率是远高于 实际情况的, 在这个条件下假如同样能得到好的结果那么就说 明本发明的方法是很有实际应用意义的, 同时, 设置发生颠换 的概率为 0.05。 最后, 通过统计生成的 39 套模拟数据 Poverlapjevel (即重叠程度) 的范围为 0·18~0·90, 相应的 SE (即 重构错误率) 范围为 0~0.03。 见图 6, 横坐标为重叠程度(下 称 Ρ overlap level ) , 纵坐标为重构错误率 (下称 SE ) , 可以看 出, 随着 P overlap— level的升高 SE 迅速下降, 要注意的是, 在这 种数据之下重构错误率最高也不到 0.03, 相当于准确性至少是 97% , 这个准确性已经相当高了, 而当 P。verlap_level达到 20% (也就是图中的 0.2 ) 以上时, SE已经在 0.01以下。 这表明本 发明中实施例的方法在进行单体型重构时可以获得极高的准确 度。
实施例二: SE与 SNP颠换率的关系: 为了评估 SNP颠换 率与 SE间的关系, 申请人生成了 SNP在不同覆盖深度下颠换 率由低到高的模拟数据。
SNP覆盖深度包括 10X, 20X, 30X, 40X, 50X, 每个深 度又包含 SNP颠换率为 0.01, 0.05, 0.1 , 0.2, 0.3, 0.4, 0.5 的 7套模拟数据, 每套数据由随机产生的 50对标准单体型及 根据单体型生成的染色体片段组成。 SNP覆盖深度的计算公式 为:
C=m L (L-d)/N,
其中 m表示染色体片段数, L 表示染色体片段的平均长 度, d表示 SNP 缺失率, N表示标准单体型含有的 SNP 数 目。 对于不同深度的模拟数据 N=200, 1=20, m分别为 110, 220, 330, 440, 550。 通过计算不同深度下 SE和 SNP错误率 的值, 如图 7 所示, 从图中可以很明显得看出随着 SNP 由于 测序导致的错误率的增加单体型重构的错误率也在不断增加, 特别是当 SNP错误率达到 0.3以上之后重构的错误率就直接增 大到 0.25以上, 这是不可接受的, 但是一般情形下, 测序并不 会带来如此大的错误率, 一般都在 0.001 以下, 特殊请况下个 别最大到达 0.05, 因此本发明实施例的方法同样具备实际意 义。
图 8 示出本发明的二倍体单体构建系统的一个实施例的结 构图。 如图 8所示, 该实施例中二倍体单体构建系统包括: 序 列矩阵构建模块 81, 将根据所有至少包含有一个共同位点的序 列片段集合在一起构建由三元字符 {A,B,C}组成的 m X n的序列 片段矩阵 M, 其中, 在序列片段矩阵 M 中将染色体片段中 SNP位点的两个等位碱基分别用 A和 B标记, m为矩阵的行 数, 表示染色体片段的数目, n为矩阵的列数, 表示杂合 SNP 位点的数目; 初始条件确定模块 82, 根据序列片段矩阵 M初 始化两个片段集合 s和 τ, S U T=M, 并且 s fi T= >, Φ表示 空集; 确定目标函数 (S,T) =∑∑£(M,i,j) 和初始参考温度 T0, 其中 S, j 6 T, £(M,i,j)表示片段 i和 j之间 型相同的所 有数目和碱基型不同的所有数目之差值; 模拟退火迭代模块 83, 基于目标函数和初始参考温度 T。进行模拟退火过程, 达 到收敛时输出最终的集合 S和 T; 单体型确定 84, 根据最终的 集合 S和 T通过最小错误纠正模型推断出单体型 h。 在一个实 施例中, 单体型确定模块 84对于每一列 j, j [1, n] , mj,0表 示该列中 0的数目, my表示该列中 1 的数目, hj表示该列被 推断出来的碱基型; 若 m >mj l , 则判断 hj=0; 若 mj l >mj 0 , 则判断 hj=l; 若非以上两种情形, 则判断 hj= - 。
在一个实施例中, 初始参考温度 T。通过如下方式确定: T0=-| A max|/ln(pr), 其中, | A max|= max- min, pr为初始接受概 率, max和 min分别表示根据矩阵 Μ随机生成 Κ组由 S和 Τ 两个片段子集所构成的集合分别计算每一组 S和 Τ的 ζ值中的 最大值和最小值, Κ为大于等于 2的自然数。
在一个实施例中, 模拟退火迭代模块通过 Metropolis抽样 稳定准则判断是否停止迭代进入退火; 模拟退火迭代模块采用 的模拟退火过程收敛准则为: 当连续退火预定数次目标函数的 值 ζ都保持不变时则认为整个算法已达到最终收敛目。
图 9 示出本发明的二倍体单体构建系统的另一个实施例的 结构图。 如图 9 所示, 该实施例中, 还可以包括 SNP位点过 滤模块 90, 用于对染色体片段中 SNP位点进行过滤, 去掉纯 合及包含两个以上等位碱基的 SNP位点。 在一个实施例中, 模拟退火迭代模块 93 包括:高温退火执行单元 931, 通过高温 退火过程锁定最优解范围, 其中, 高温退火函数为: T=T。exp (- a(j-l)1/2); 退火稳定判断单元 932, 判断高温退火过程是否稳 定, 当所述高温退火过程稳定时, 转入低温退火过程; 低温退 火执行单元 933, 执行低温退火过程, 其中, 低温退火函数 为: T=T0exp(-a(j-k0/p)1/2); 其中 T。为初始参考温度, j表示退 火次数, k。表示高温状态下退火的次数, α=0.98, β=1.2。
对于图 8和图 9中名斗装置或单元的功能, 可以参考上文中 关于本发明方法的实施例中对应部分的说明, 为简洁起见, 在此 不再伴述。
本领域的技术人员应当理解, 对于图 8 至图 9 中的各个装 置, 可以通过单独的计算处理设备实现, 或者将其集成为一个独 立的设备实现。 在图 8至图 9中用框示出以说明它们的功能。 这 些功能块可以用硬件、 软件、 固件、 中间件、 微代码、 硬件描述 语音或者它们的任意组合来实现。 举例来说, 一个或者两个功能 块都可以利用运行在微处理器、 数字信号处理器(DSP )或任何 其他适当计算设备上的代码实现。 代码可以表示过程、 功能、 子 程序、 程序、 例行程序、 子例行程序、 模块或者指令、 数据结构 或程序语句的任意组合。 代码可以位于计算机可读介质中。 计算 机可读介质可以包括一个或者多个存储设备, 例如, 包括 RAM 存储器、 闪存存储器、 ROM 存储器、 EPROM 存储器、 EEPROM存储器、 寄存器、 ^ i、 移动硬盘、 CD-ROM或本领 域公知的其他任何形式的存储介质。 计算机可读介质还可以包括 编码数据信号的载波。
本领域技术人员将意识到硬件、 固件和软件配置在这些情况 下的可替换性, 以及如何最好地实现每个特定应用地该功能。
本专利在已有的成熟测序技术及单体型重构方法的基础上 提出一种新的单体型重构方法和系统, 可以在较短时间内确定 目标函数的全局最优解, 进而完成单体性的重构。
本发明的描述是为了示例和描述起见而给出的, 而并不是无 遗漏的或者将本发明限于所公开的形式。 很多修改和变化对于本 领域的普通技术人员而言是显然的。 选# ^描述实施例是为了更 好说明本发明的原理和实际应用, 并且使本领域的普通技术人员 能够理解本发明从而设计适于特定用途的带有各种修改的各种实 施例。

Claims

权 利 要 求
1. 一种二倍体单体构建方法, 其特征在于, 包括: 根据所有至少包含有一个共同位点的序列片段构建由三元 字符 {A,B,C}组成的 m x n 的序列片段矩阵 M, 其中, 在所述 序列片段矩阵 M中将染色体片段中 SNP位点的两个等位 分别用 A和 B标记, m为矩阵的行数, 表示染色体片段的数 目, n为矩阵的列数, 表示杂合 SNP位点的数目;
根据所述序列片段矩阵 M初始化两个片段集合 S和 T, S U T=M, 并且 S fl T= >, φ表示空集;
确定目标函数 (S,T) =∑∑£(M,i,j) 和初始参考温度 To, 其 中 S, j 6 T, £(M,i,j)表示片段 i和 j之间 型相同的所有 数目和^ ^型不同的所有数目之差值;
基于所述目标函数和所述初始参考温度 T。进行模拟退火 过程, 达到收敛条件时输出最终的集合 S和 T;
根据所述最终的集合 S和 T通过最小错误纠正模型推断出 单体型 h。
2. 根据权利要求 1 所述的方法, 其特征在于, 所述初始 参考温度 Τ。为 T。=-|厶 max|/ln(pr), 其中, | A max|= max— ζπΰη ' pr 为初始接受概率, 所述 maxmin表示根据矩阵 M随机生成 K 组由 S和 T两个片段子集所构成的集合分别计算每一组 S和 T 的 ζ值中的最大值和最小值, Κ为大于等于 2的自然数。
3. 根据权利要求 1 所述的方法, 基于所述目标函数和所 述初始参考温度 Τ。进行模拟退火过程包括:
通过高温退火过程锁定最优解范围, 高温退火函数为: T=T0exp(-a(j-l)1 2);
当所述高温退火过程稳定时, 转入低温退火过程, 低温退 火函数为: Τ=Τ χρ(-αα- β)12); 其中 T。为初始参考温度, j表示退火次数, k。表示高温状 态下退火的次数, =0.98, β=1.2。
4. 根据权利要求 3 所述的方法, 其特征在于, 通过 Metropolis抽样稳定准则判断是否停止迭代进入退火。
5. 根据权利要求 1 所述的方法, 其特征在于, 所述模拟 退火过程收敛准则为:
当连续退火预定数次目标函数的值 ζ都保持不变时则认为 整个算法已达到最终收敛目。
6. 根据权利要求 1 所述的方法, 其特征在于, 所述三元 字符 {A,B,C}为 {0,1,-}。
7. 根据权利要求 1 所述的方法, 其特征在于, 所述根据 所述最终的集合 S和 T通过最小错误纠正模型推断出单体型 h 包括:
对于每一列 j, j ^ [1 , n] , mj,。表示该列中 0的数目, my 表示该列中 1的数目, hj表示该列被推断出来的 型;
若 mj 0 > hl, 则 hj=0;
若 mj ! >mj 0, 则 hj=l;
若非以上两种情形, 则 hj= - 。
8. 根据权利要求 1所述的方法, 其特征在于, 还包括: 对染色体片段中 SNP位点进行过滤, 去掉纯合及包含两 个以上等位威基的 SNP位点。
9. 一种二倍体单体构建系统, 其特征在于, 包括: 序列矩阵构建模块, 用于根据所有至少包含有一个共同位 点的序列片段构建由三元字符 {A,B,C}组成的 m x n的序列片段 矩阵 M, 其中, 在所述序列片段矩阵 M 中将染色体片段中 SNP位点的两个等位碱基分别用 A和 B标记, m为矩阵的行 数, 表示染色体片段的数目, n为矩阵的列数, 表示杂合 SNP 位点的数目; 初始条件确定模块, 用于根据所述序列片段矩阵 M 初始 化两个片段集合 s和 τ, S U T=M, 并且 s fi T= >, Φ表示空 集; 确定目标函数 (S,T) =∑∑£(M,i,j) 和初始参考温度 T。, 其 中 S, j 6 T, £(M,i,j)表示片段 i和 j之间 型相同的所有 数目和^ ^型不同的所有数目之差值;
模拟退火迭代模块, 用于基于所述目标函数和所述初始参 考温度 T。进行模拟退火过程, 达到收敛时输出最终的集合 S 和 τ;
单体型确定模块, 用于根据所述最终的集合 S和 T通过最 小错误纠正模型推断出单体型 h。
10. 根据权利要求 9所述的系统, 其特征在于, 所述初始 参考温度 Τ。为 T。=-|厶 max|/ln(pr), 其中, | A max|= max— ζπΰη ' pr 为初始接受概率, 所述 maxmin分别表示根据矩阵 M随机生 成 K组由 S和 T两个片段子集所构成的集合分别计算每一组 S 和 T的 ζ值中的最大值和最小值, Κ为大于等于 2的自然数。
11. 根据权利要求 9所述的系统, 所述模拟退火迭代模块 包括:
高温退火执行单元, 用于通过高温退火过程锁定最优解范 围, 其中, 高温退火函数为: T=T。exp(-a(j-l)1/2);
退火稳定判断单元, 用于判断高温退火过程是否稳定, 当 所述高温退火过程稳定时, 转入低温退火过程;
低温退火执行单元, 用于执行低温退火过程, 其中, 低温 退火函数为: T=T。exp(-a(j-k。/p)1/2);
其中 T。为初始参考温度, j表示退火次数, k。表示高温状 态下退火的次数, =0.98, β=1.2。
12. 根据权利要求 9所述的系统, 其特征在于, 所述模拟 退火迭代模块通过 Metropolis抽样稳定准则判断是否停止迭代 进入退火。
13. 根据权利要求 9所述的系统, 其特征在于, 所述模拟 退火迭代模块采用的模拟退火过程收敛准则为:
当连续退火预定数次目标函数的值 ζ都保持不变时则认为 整个算法已达到最终收敛目。
14. 根据权利要求 9所述的系统, 其特征在于, 所述单体 型确定模块对于每一列 j, j ^ [1, n] , mj,。表示该列中 0 的数 目, 表示该列中 1 的数目, hj表示该列被推断出来的>?½ 型;
若!^,。〉!!!^, 则判断 hj=0;
^ m i >mj,0, 则判断 hj=l ;
若非以上两种情形, 则判断 hj= - 。
15. 根据权利要求 9所述的系统, 其特征在于, 还包括: SNP位点过滤模块, 用于对染色体片段中 SNP位点进行 过滤, 去掉纯合及包含两个以上等位碱基的 SNP位点。
PCT/CN2012/076324 2011-12-31 2012-05-31 一种二倍体单体构建方法和系统 WO2013097413A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/369,604 US20150120256A1 (en) 2011-12-31 2012-05-31 Method of reconstructing haplotype of diploid and system thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201110456562.3 2011-12-31
CN201110456562 2011-12-31

Publications (1)

Publication Number Publication Date
WO2013097413A1 true WO2013097413A1 (zh) 2013-07-04

Family

ID=48696317

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2012/076324 WO2013097413A1 (zh) 2011-12-31 2012-05-31 一种二倍体单体构建方法和系统

Country Status (2)

Country Link
US (1) US20150120256A1 (zh)
WO (1) WO2013097413A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106526338A (zh) * 2016-10-19 2017-03-22 天津大学 基于模拟退火的室内射线跟踪参数校正方法
CN110430593A (zh) * 2019-08-17 2019-11-08 胡洋 一种边缘计算用户任务卸载方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160034423A1 (en) * 2014-08-04 2016-02-04 Microsoft Corporation Algorithm for Optimization and Sampling
CN105046105B (zh) * 2015-07-09 2018-02-02 天津诺禾医学检验所有限公司 染色体跨度的单体型图及其构建方法
US10176296B2 (en) * 2017-05-17 2019-01-08 International Business Machines Corporation Algebraic phasing of polyploids
CN111383714B (zh) * 2018-12-29 2023-07-28 安诺优达基因科技(北京)有限公司 模拟目标疾病仿真测序文库的方法及其应用

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030190652A1 (en) * 2002-01-25 2003-10-09 De La Vega Francisco M. Methods of validating SNPs and compiling libraries of assays
CN101256602A (zh) * 2008-03-18 2008-09-03 中南大学 基于优化解集合的个体单体型重建方法
CN102191311A (zh) * 2010-03-10 2011-09-21 常州楚天生物科技有限公司 一种通用寡核苷酸序列库的构建及应用

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002101631A1 (en) * 2001-06-08 2002-12-19 President And Fellows Of Harvard College Haplotype determination
US20130196862A1 (en) * 2009-07-17 2013-08-01 Natera, Inc. Informatics Enhanced Analysis of Fetal Samples Subject to Maternal Contamination
US8877442B2 (en) * 2010-12-07 2014-11-04 The Board Of Trustees Of The Leland Stanford Junior University Non-invasive determination of fetal inheritance of parental haplotypes at the genome-wide scale

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030190652A1 (en) * 2002-01-25 2003-10-09 De La Vega Francisco M. Methods of validating SNPs and compiling libraries of assays
CN101256602A (zh) * 2008-03-18 2008-09-03 中南大学 基于优化解集合的个体单体型重建方法
CN102191311A (zh) * 2010-03-10 2011-09-21 常州楚天生物科技有限公司 一种通用寡核苷酸序列库的构建及应用

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106526338A (zh) * 2016-10-19 2017-03-22 天津大学 基于模拟退火的室内射线跟踪参数校正方法
CN110430593A (zh) * 2019-08-17 2019-11-08 胡洋 一种边缘计算用户任务卸载方法
CN110430593B (zh) * 2019-08-17 2022-05-13 胡洋 一种边缘计算用户任务卸载方法

Also Published As

Publication number Publication date
US20150120256A1 (en) 2015-04-30

Similar Documents

Publication Publication Date Title
Pouyet et al. Background selection and biased gene conversion affect more than 95% of the human genome and bias demographic inferences
WO2013097413A1 (zh) 一种二倍体单体构建方法和系统
Willems et al. Population-scale sequencing data enable precise estimates of Y-STR mutation rates
Cariou et al. Is RAD‐seq suitable for phylogenetic inference? An in silico assessment and optimization
Li et al. Low-coverage sequencing: implications for design of complex trait association studies
Sun et al. Identifying splicing sites in eukaryotic RNA: support vector machine approach
Tirosh et al. Comparative analysis indicates regulatory neofunctionalization of yeast duplicates
Hovmöller et al. Effects of missing data on species tree estimation under the coalescent
US11322225B2 (en) Systems and methods for determining effects of therapies and genetic variation on polyadenylation site selection
US20190338349A1 (en) Methods and systems for high fidelity sequencing
Bellos et al. cnvHiTSeq: integrative models for high-resolution copy number variation detection and genotyping using population sequencing data
Wang et al. CNVeM: copy number variation detection using uncertainty of read mapping
Sun et al. Introducing heuristic information into ant colony optimization algorithm for identifying epistasis
Rhee et al. Survey of computational haplotype determination methods for single individual
Morris Direct analysis of unphased SNP genotype data in population‐based association studies via Bayesian partition modelling of haplotypes
JP2022549737A (ja) In vitro受精に関する多遺伝子リスクスコア
Wang et al. Role of SNPs in the Biogenesis of Mature miRNAs
JP2023506084A (ja) ゲノム瘢痕アッセイ及び関連する方法
CN106570350B (zh) 单核苷酸多态位点分型算法
Fadziso et al. Identical by Descent (IBD): Investigation of the Genetic Ties between Africans, Denisovans, and Neandertals
Paşaniuc et al. Imputation-based local ancestry inference in admixed populations
Zhao et al. Large-scale study of long non-coding RNA functions based on structure and expression features
Olyaee et al. AROHap: An effective algorithm for single individual haplotype reconstruction based on asexual reproduction optimization
Treangen et al. A novel heuristic for local multiple alignment of interspersed DNA repeats
Kimmel et al. Association mapping and significance estimation via the coalescent

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12863346

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14369604

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC, FORM 1205N DATED 26-11-2014

122 Ep: pct application non-entry in european phase

Ref document number: 12863346

Country of ref document: EP

Kind code of ref document: A1