WO2008059165A2 - Methods and tools for determining the origin of an individual - Google Patents

Methods and tools for determining the origin of an individual Download PDF

Info

Publication number
WO2008059165A2
WO2008059165A2 PCT/FR2007/052330 FR2007052330W WO2008059165A2 WO 2008059165 A2 WO2008059165 A2 WO 2008059165A2 FR 2007052330 W FR2007052330 W FR 2007052330W WO 2008059165 A2 WO2008059165 A2 WO 2008059165A2
Authority
WO
WIPO (PCT)
Prior art keywords
snps
alleles
allele
individual
markers
Prior art date
Application number
PCT/FR2007/052330
Other languages
French (fr)
Other versions
WO2008059165A3 (en
Inventor
Jean-Paul Moisan
Chrystelle Richard
Original Assignee
Institut Genetique Nantes Atlantique (Igna)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institut Genetique Nantes Atlantique (Igna) filed Critical Institut Genetique Nantes Atlantique (Igna)
Publication of WO2008059165A2 publication Critical patent/WO2008059165A2/en
Publication of WO2008059165A3 publication Critical patent/WO2008059165A3/en

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Definitions

  • the present application relates to methods of analyzing nucleic acid samples for determining the ethnogeographic origin of an individual. It also concerns a precise collection of genetic markers and tools (primers, probes, chips, etc.) that can be used to determine this origin, as well as kits and analysis tools.
  • the invention can be used in a variety of contexts, such as in forensic expertise, and in research studies (migration and / or population dispersal).
  • VNTRs variable number of tandem repeats
  • a genetic test for determining the traits of an individual has been proposed in WO2004 / 016768.
  • this test requires the analysis of a very large number of genetic markers, namely 176 AIMs (Ancestry Informative Markers).
  • these markers are indifferently located in or out of the coding regions of genes.
  • the analysis of coding sequences poses problems from a regulatory point of view in a number of countries such as France.
  • the present application proposes methods and tools for determining the ethnogeographic origin of an individual. More particularly, the present invention results from the identification of precise sets of genetic markers that make it possible to predict the membership of an individual to a particular ethnogeographic group, in the absence of a witness or evidence in the survey.
  • a first subject of the invention thus resides in a method for analyzing a sample comprising nucleic acids, making it possible to determine the ethnogeographic origin of an individual from whom the sample originates, the method comprising comprising the determination (in vitro or ex vivo).
  • the sample of nucleic acid eg, DNA
  • alleles of a set of nucleotide polymorphisms (SNPs) located in non-coding regions of the genome to obtain a set of alleles, this set of alleles being an indication of the ethnogeographic group.
  • a particular object of the invention is a method for determining the ethnogeographic origin of an individual, comprising determining (in vitro or ex vivo), in a sample of nucleic acid (eg, DNA), from the individual, alleles of a set of nucleotide polymorphisms (SNPs) located in non-coding regions of the genome, to obtain a set of alleles, this set of alleles being an indication of the ethnogeographic group to which the individual belongs.
  • the set of SNPs comprises at least 5 SNPs chosen from the SNPs described in Table 1, preferably at least 6, 7, 8, 9, 10, 15, 20, 25 or 30 SNPs described in Table 1.
  • the set of SNPs comprises at least 9 SNPs chosen from the SNPs described in Table 1. Examples of sets of SNPs that can be used in the present invention are described later in the text and in FIGS. the experimental part.
  • the set of alleles determined from the DNA sample of the individual is typically compared to one or more sets of reference alleles characteristic of ethnogeographic groups, thus making it possible to calculate the probability of belonging to one of these groups, for example by a Bayesian method.
  • the sets of reference alleles are characteristic sets of the European, Saharan, Asian, North African and / or Indian populations, this list not being exhaustive.
  • alleles are determined by sequencing, selective hybridization and / or selective amplification, and / or - the nucleic acid sample is derived from a fluid or biological tissue of the individual; and / or the nucleic acid sample is from a forensic sample; and / or the nucleic acid from the individual is amplified beforehand.
  • kits usable for the implementation of a method as defined above comprising a set of nucleotide probes specific for at least one allele, preferably each allele, SNPs. of the set of SNPs and / or a set of nucleotide primers allowing specific amplification of at least one allele, preferably of each allele, SNPs of the set of SNPs.
  • the nucleotide probes are advantageously immobilized on a support.
  • a product or a device comprising a support on which nucleotide probes are immobilized, said probes being specific for at least one allele, preferably each SNPs allele of the set of SNPs defined above.
  • the invention also relates to the use of a set of nucleotide probes specific for at least one allele, preferably each SNPs allele of the set of SNPs defined above and / or a set of primers. nucleotides allowing a specific amplification of at least one allele, preferably of each allele, SNPs of the set of SNPs defined above, for determining in vitro the ethnogeographic origin of an individual or a sample.
  • the invention can be used from samples from any individual, of any age or origin, and can be implemented for example in the context of forensic expertise, or for migration and / or dispersion studies. populations.
  • Figure 3 Assignment of samples from sub-Saharan Africa, East Asia and Europe to genetic groups derived from the analysis of the 32 SNPs in the study (Groups I to V) by Bayesian calculation. Each individual is represented by a vertical line partitioned in X segments that represent the fraction belonging to each X genetic group. The origin of individuals is as follows: 1 to 115 (sub-Saharan Africa); 116 to 231 (East Asia) and 232 to 348 (Europe).
  • Figure 4. Ethogeographic inference on genotypes of the 9 group I SNPs (Fst> 0.8) of individuals from sub-Saharan Africa (1 to 115), East Asia (116 to 231), Europe ( 232 to 348).
  • the international project HapMap 9 '10 launched in 2002, aims to map all the variations common to individuals among the 3 billion nucleotide pairs composing the human genome, and to define the structure of the link blocks .
  • This study was conducted on 270 DNAs from 3 different continental populations (Africa, Asia and Europe) which makes it possible to avoid listing the rare polymorphisms.
  • a new methodology for genetic studies of complex disease mapping is linkage disequilibrium in mixed populations (MALD) 16 '17.
  • MALD is based on the analysis of mixed origin patients such as Africans American or Hispanic Americans. MALD must be effective in the case of more frequent diseases in certain populations 18 (examples: multiple sclerosis where the genetic risk is higher in Europeans, prostate cancer is more common among Africans). In this perspective, many teams are working to form a dense mapping markers distributed throughout the genome and having a great difference between the parental populations 19.
  • a simple measure of population differentiation is the Fst (Wright Fixing Index) statistic, which measures the fraction of total genetic variation due to inter-population differences. The Fst is quantified by the variation of the allelic frequency on the tested loci and on a set of population. Its value is between 0 (no genetic difference) and 1 (fixed difference between populations) 20 .
  • This silent phenotype is due to a transition within the FY * B gene promoter (Blood group duffy System [MIM 110700]).
  • Another example of selection is the capacity to digest milk in adulthood (lactase persistence [MIM 223100]), a characteristic that varies with the populations associated in Europeans with two polymorphisms located far upstream of the lactase gene.
  • the allelic frequency of these SNPs is very variable between populations of European and African / Asian origin 27 ' 28 ' 29 .
  • the study of Fst of more than 20,000 SNPs spread across the genome suggests that at least 174 genes are subjected to natural selection 30. Recently, Hinds et al.
  • the present application results from the identification of precise and selected genetic markers to allow the characterization of the ethnogeographic origin of individuals (or samples from individuals). More specifically, the invention shows that the ethnogeographic origin of individuals can be determined on the basis of a limited number of genetic markers located in non-coding regions of the genome.
  • 32 SNPs were selected and tested on a panel of individuals from 5 populations (Europe, Asia, Africa, North Africa and India). The genotyping of the SNPs was performed by the allelic discrimination technique which combines the amplification of the DNA portion carrying the variant and the detection of this variant using two probes specific to one or the other of the alleles. A panel of about 100 DNAs per population was tested for each individual while the population of India was characterized on 56 DNAs. Genotyping each of these SNPs allowed us to calculate the allelic frequency of each SNP in each of the groups. These SNPs have a very different frequency between the DNAs of sub-Saharan Africa, Asia, Europe and North Africa.
  • the genetic markers identified are not directly correlated with a typical distinctive pheno character between populations, as is for example the color of the skin. Indeed, this character is linked to extremely strong selection forces, which implies that the same skin color can reflect a common adaptation as well as a common genetic origin. So even if the sub-Saharan African, the tribal people of South India and the Abrares have similar skin pigmentation, they do not have more similarities between them than other populations 31.
  • the identified genetic markers are located in non-coding regions of the genome, which ensures compliance with French legislation (Article 706-54 of the Code of criminal Procedure).
  • the markers used are preferentially localized on the most possible chromosomes and, in the case where they are located on the same chromosome, the most distant possible.
  • the markers of the invention are of the SNP type, and are mainly transitions or transversions, which facilitates their analysis.
  • Single nucleotide polymorphisms SNPs are the most abundant form of variation in the human genome and it is estimated that the global population shares about 10 million sites (or 1 variant every 300 bases) 9 . They correspond to the change of a single nucleotide, by transition, transversion, insertion or deletion, on a DNA sequence.
  • the list of identified SNPs is described in Table 1 with, for each SNP, the two alleles encountered. This list makes it possible to define (sub) sets of SNPs characteristic of the ethnogeographic origin of human individuals, comprising at least one, preferably at least 5 SNPs represented in Table 1. It is understood that these sets of SNPs can also include additional SNPs.
  • a first object of the invention thus lies in a method for determining the ethnogeographic origin of an individual, comprising determining, in a sample of DNA from the individual, the alleles of a precise set of SNPs located in non-coding regions of the genome, said set comprising at least 5 SNPs selected from the SNPs described in Table 1, preferably at least 6, 7, 8, 9, 10, 15, 20, 25 or 30 SNPs described in FIG. Table 1, to obtain a set of alleles, this set of alleles being an indication of the ethnogeographic group to which the individual belongs.
  • Another object of the invention resides in a method for analyzing a sample containing nucleic acids, the method comprising determining, in said sample, alleles of a precise set of SNPs located in non-coding regions of the genome, said set comprising at least 5 SNPs selected from the SNPs described in Table 1, preferably at least 6, 7, 8, 9, 10, 15, 20, 25 or 30 SNPs described in Table 1, to obtain a set of alleles, this set of alleles being an indication of the ethnogeographic group from which the sample comes.
  • the set of SNPs comprises all 32 SNPs mentioned in Table 1, and the method comprises a determination of each allele of said SNPs.
  • the set of SNPs comprises at least the 9 SNPs of group I as defined in Table 4, namely SNPs M1, M2, M5, M6, M7, M9, M15, M24. and M30.
  • SNPs M1, M2, M5, M6, M7, M9, M15, M24. and M30 Such a set of SNPs makes it possible to determine the membership of an individual in the African, Asian or European group.
  • the set of SNPs comprises at least 5 SNPs among the SNPs M1, M2, M3, M4, M5, M6, M7, M8 and M9.
  • Such a set of SNPs makes it possible to determine the membership of an individual in the African group (see Table 3 for specific alleles).
  • the set of SNPs comprises at least the SNPs M20, M21, M22, M23, M24, M25, M26, M27, M28, M29, M30, M31 and M32.
  • Such a set of SNPs makes it possible to determine the membership of an individual in the European group (see Table 3 for specific alleles).
  • the set of SNPs comprises at least 5 SNPs among the SNPs MlO, MiI, M12, M13, M14, M15, M16, M17, M18 and M19.
  • Such a set of SNPs makes it possible to determine the membership of an individual in the Asian group (see Table 3 for specific alleles). Examples of population-specific reference profiles are provided in Table 5.
  • the set of SNPs can be supplemented by other markers or SNPs, in order to further refine the method, if it is useful. Nevertheless, the sets of markers of the invention can make it possible to determine the ethnogeographic origin of the individuals with total reliability.
  • the determination of the set of alleles can be performed simultaneously, parallel or sequentially.
  • Different techniques can be used to determine alleles of a SNP in a sample, such as, for example, allele-specific hybridization (5 'nuclease assay, LightCycler, chip hybridization, etc.), primer extension ( minisequencing, SNAPshot, pyrosequencing, allele-specific extension, mass spectrometry), oligonucleotide-specific ligation, invasive cleavage, sequencing, selective hybridization, use of oligonucleotide-coated probes, amplification nucleic acid, or ligation-PCR or any molecular biology technique useful for genotyping.
  • allele-specific hybridization 5 'nuclease assay, LightCycler, chip hybridization, etc.
  • primer extension minisequencing, SNAPshot, pyrosequencing, allele-specific extension, mass spectrometry
  • oligonucleotide-specific ligation oligonucleotide-specific ligation
  • a nucleic probe eg an oligonucleotide
  • SDA strand displacement amplification
  • ASO oligonucleotides specific for alleles
  • Southern blotting Southern blotting
  • SSCA conformational analysis electrophoresis, etc.
  • the reaction can be carried out in solution or on a solid support.
  • the method comprises the detection of the presence or absence of an allele by selective hybridization and / or by selective amplification.
  • nucleic probes preferably immobilized on a support, such as a solid or semi-solid support having at least one surface, flat or not, allowing the immobilization of nucleic probes.
  • a support such as a solid or semi-solid support having at least one surface, flat or not, allowing the immobilization of nucleic probes.
  • Such supports are for example a blade, ball, membrane, filter, column, plate, etc. They can be made of any compatible material, such as glass, silica, plastic, fiber, metal, polymer, etc.
  • Nucleic probes can be any nucleic acid (DNA, RNA, PNA, etc.), preferably single-stranded, comprising a specific sequence of an allele of an SNP.
  • the probes typically comprise from 5 to 300 bases, preferably from 8 to 150, more preferably less than 100, and even more preferentially less than 60, 50, 40 or 30 bases.
  • the probes may be synthetic oligonucleotides, produced on the basis of the sequences of the alleles to be detected, according to conventional synthesis techniques. Such oligonucleotides typically have from 10 to 50 bases, preferably from 20 to 40, for example about 25 bases.
  • oligonucleotides or probes are used to detect an allele of interest. This may include specific oligonucleotides centered differently on the SNP to be analyzed.
  • a pair of probes can be used to analyze each biallelic SNP, one member of which is perfectly matched to one of the alleles and whose other member is perfectly matched to the other allele.
  • a pair of probes can be used to analyze each biallelic SNP, one member of which is perfectly matched to one of the alleles and whose other member is perfectly matched to the other allele.
  • probes usable for the implementation of the invention are described in Table 2.
  • the probes may be synthesized beforehand and then deposited on the support, or synthesized directly in situ, on the support, according to methods known per se to those skilled in the art.
  • the probes can also be manufactured by genetic techniques, for example by amplification, recombination, ligation, etc.
  • the probes thus defined constitute another object of the present application, as well as their uses (essentially in vitro) for determining the ethnogeographic origin of an individual.
  • the hybridization can be carried out under standard conditions known to those skilled in the art and adjustable by it (see for example Sambrook et al., (1989) Molecular Cloning, CoId Spring Harbor Laboratory Press).
  • the hybridization can be carried out under conditions of high, medium or low stringency, depending on the desired level of sensitivity, the quantity of available material, etc.
  • suitable hybridization conditions include a temperature of 55 to 65 ° C for 2 to 18 hours.
  • different washes can be performed to remove unhybridized molecules, typically in SSC buffers comprising SDS, such as a buffer comprising 0.1 to 10 X SSC and 0.5-0.01% SDS.
  • the selective amplification is preferably carried out using a primer or a pair of primers for amplifying a region of the nucleic acid carrying the SNP to be analyzed.
  • the primer may be specific for a sequence of the SNP or a region flanking the sequence of the SNP in a nucleic acid of the sample.
  • the primer typically comprises a single-stranded nucleic acid, preferably between 5 and 50 bases in length, preferably between 5 and 30.
  • Such primers are another object of the present application, as well as their use (essentially in vitro) to determine the ethnogeographic origin of an individual.
  • another object of the invention lies in the use (in vitro) of a nucleotide primer allowing the amplification of an SNP as defined above to determine the ethnogeographic origin of an individual.
  • Another particular object of the invention resides in the use (in vitro) of a set of nucleotide primers allowing the amplification of a set of SNPs as defined above, in order to determine the ethnogeographic origin of An individual
  • the method of the invention can be performed from any sample comprising nucleic acids.
  • a sample of tissue (bone, muscle) or biological fluid comprising nucleic acids typically a sample of blood, sperm, saliva, urine, stool, hair, skin, etc.
  • the method may further be practiced from partially damaged, degraded nucleic acid and / or in very small amounts.
  • the sample can be obtained by any technique known per se, for example by sampling, by non-invasive techniques, from collections or sample banks, seals containing samples taken on crime scenes or crime, etc. .
  • the sample may also be pre-treated to facilitate the accessibility of the nucleic acids, for example by lysis (mechanical, chemical, enzymatic, etc.), purification, centrifugation, separation, dilution, etc.
  • the sample can also be labeled, to facilitate the determination of the presence of nucleic acids (fluorescent, radioactive, luminescent, chemical, enzymatic labeling, etc.).
  • the nucleic acids of the sample can be amplified prior to the SNPs analysis step.
  • a sample of the individual is taken.
  • the sample is optionally processed to make the nucleic acids more accessible and / or to amplify the nucleic acids (or a fraction thereof).
  • the nucleic acids are then brought into contact with nucleic probes as defined above (optionally immobilized on a support) and the hybridization profile obtained is determined, making it possible to determine or predict the ethnogeographic group of membership of the individual.
  • the acids nuclei are contacted with nucleic primers as defined above and the amplification product is analyzed, making it possible to determine or predict the ethnogeographic group belonging to the individual.
  • kits usable for the implementation of a method as defined above comprising a set of nucleotide probes specific for at least one allele, preferably each allele, SNPs. a set of SNPs as defined above and / or a set of nucleotide primers allowing specific amplification of each SNP of a set of SNPs as defined above.
  • the nucleotide probes are advantageously immobilized on a support.
  • hybridization or amplification refers to the fact that hybridization or amplification makes it possible to discriminate, according to the conditions used, between two alleles of an SNP.
  • a specific probe of an allele hybridizes, under appropriate conditions, only to this allele.
  • a specific primer of an allele makes it possible, under appropriate conditions, to amplify only this allele.
  • a product comprising a support on which nucleotide probes are immobilized, said probes being specific for at least one allele, preferably each SNPs allele of a set of nucleotides.
  • the support can be any solid or semi-solid support having at least one surface, flat or not, allowing the immobilization of nucleic acids or polypeptides.
  • Such supports are for example a blade, ball, membrane, filter, column, plate, etc. They can be made of any compatible material, such as glass, silica, plastic, fiber, metal, polymer, polystyrene, teflon, etc.
  • the reagents can be immobilized on the surface of the support by known techniques, or, in the case of nucleic acids, synthesized directly in situ on the support. Immobilization techniques include passive adsorption 32 Ia covalent bond. Techniques are described for example in WO90 / 03382, WO99 / 46403.
  • the probes immobilized on the support can be ordered according to a pre-established scheme, to facilitate the detection and identification of formed complexes, and in a variable and adaptable density.
  • the invention can be used to determine the probability of membership of any individual to any ethnogeographic group, such as for example the European, Saharan African, Asian, North African and / or Indian populations, this list not being exhaustive.
  • NCBI National Center for Biotechnology Information
  • dbSNP genotypic SNPs database
  • the selected genetic markers are all SNPs and are transitions or transversions. For the sake of French law (Article 706-54 of the Code of criminal Procedure), all markers were chosen from non-coding regions of the genome. In addition, efforts have been made to select markers for as many chromosomes as possible and, in the case where they are located on the same chromosome, the most distant possible for a given marker group.
  • the SNPs of our study were selected on the basis of their discriminant allelic frequency between the 3 continental populations of Africa, Asia and Europe.
  • Table 3 shows the distribution of the alleles of each marker among the different populations. We can distinguish 3 groups:
  • the validation of the markers was carried out in two stages. Firstly, a first-order screening of 24 DNAs from 3 different continental origins (sub-Saharan Africa, East Asia and Europe: prescreening plate) allowed the selection of markers with the most discriminating allelic frequency between these three groups. The genetic markers selected for the study were then tested on a panel of 92 individuals per population.
  • Taqman primers and probes for all markers were custom synthesized (Custom TaqMan® SNP Genotyping Assays, Applied Biosystems, Table 2) with the exception of the null GUCY2D and FY markers for which marketed TaqMan tests were used.
  • SNP Genotyping Assays (respectively C_11951988_20, C1576961410, C321130820, Applied Biosystems).
  • an allelic discrimination PCR was carried out in a reaction volume of 11 .mu.l in the presence of 5 ng of DNA, 5.5 .mu.l of Taqman Master Mix (Applied Bioystems) and 0.275 .mu.l of 4OX of Custom TaqMan® SNP. Genotyping Assays, ie 0.55 ⁇ l of 2OX of TaqMan® SNP Genotyping Assays. After amplification on thermal cycler 7500 (15 min at 95 ° followed by 40 cycles of 15 sec at 92 ° and 1 min at 60 °) the plate is read in end point, and all the data is interpreted using the software Sequence Detection System 1.2 (SDS 1.2, Applied Biosystems). Typical geno data for all SNPs tested are expressed as 11 (homozygous allele 1), 12 (heterozygous) and 22 (homozygous allele 2).
  • Markers M1 to M19 distinguish Africa from Asia, while values close to zero are observed for M20 to M32.
  • the markers M1 to M9 that have the highest Fst, greater than 0.70, which shows that for these markers a very small part of the observed variance (less than 30% ) is due to differences within populations.
  • the markers MlO to M32 generally have an Fst of between 0.41 and 0.92.
  • some values of Fst indicate a weak diversification for the markers M17, M21, M22 (Fst of 0.23 to 0.37).
  • a hierarchy of the informativity of the markers can be established according to the values of Fst ( Figure 2). Of the five groups of markers (Table 4), group I collects the most informative SNPs whose Fst are greater than 0.80.
  • Groups II to IV include markers whose Fst are between 0.40 and 0.80.
  • the markers M17, M21 and M22 of the group V are the least discriminating with Fst less than 0.4.
  • the 9 markers of group I are therefore sufficient to distinguish the 3 genetic clusters present in the populations of Africa, Asia and Europe.
  • the use of the 32 markers M1 to M32 makes it possible to refine the proportions of membership of each individual. This is due to the fact that, among the 9 markers, only one allows discrimination Asia versus Africa / Europe (M15) and two differentiate Europe from Asia and Africa (M24 and M30).
  • the genotypes obtained for the North African population were integrated with those of the 348
  • Ref SNP ID rs1389600 Allele Organism: human (U. U. U.M.M.RTM) Alleles: GfT Molecule Type Genomic
  • Ref SNP ID rs16867765 Allele Organism: human (/ . / (; Mo s ⁇ g / cf; s) Alleles: A / T Type of Molecule Genomic

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

The present application relates to methods for determining the ethnogeographic origin of an individual based on a nucleic acid sample. It also relates to genetic markers and to tools (primers, probes, chips, etc.) that can be used for determining this origin, and also to analytical kits and tools. The invention can be used in various contexts, such as in the case of legal expertise.

Description

Méthodes et outils pour déterminer l'origine d'un sujet Methods and tools to determine the origin of a subject
IntroductionIntroduction
La présente demande concerne des méthodes d'analyse d'échantillons d'acide nucléique permettant de déterminer l'origine ethnogéographique d'un individu. Elle concerne également une collection précise de marqueurs génétiques et des outils (amorces, sondes, puces, etc.) utilisables pour déterminer cette origine, ainsi que des kits et outils d'analyse. L'invention peut être utilisée dans différents contextes, tels que dans le cadre d'expertises judiciaires, et dans des études de recherche (migrations et/ou de dispersion de populations).The present application relates to methods of analyzing nucleic acid samples for determining the ethnogeographic origin of an individual. It also concerns a precise collection of genetic markers and tools (primers, probes, chips, etc.) that can be used to determine this origin, as well as kits and analysis tools. The invention can be used in a variety of contexts, such as in forensic expertise, and in research studies (migration and / or population dispersal).
La découverte, dans les années 1980, par Jeffreys et al.1'2 que les séquences minisatellites (ou « variable number of tandem repeats », VNTRs) pouvaient fournir une empreinte génétique unique et originale (à l'exclusion des vrais jumeaux) a placé l'ADN au cœur de l'expertise judiciaire3. Cet intérêt n'a cessé de croître et désormais l'analyse des STRs (« short tandem repeats ») procure aux autorités d'une part la capacité de confondre des suspects et de relier leur empreinte génétique à celle de traces trouvées sur le lieu d'un crime4 mais aussi d'identifier des cadavres de personnes disparues et d'identité connue. Cette technologie a d'ores et déjà permis de résoudre de nombreuses affaires et a apporté la lumière sur certaines erreurs de justice. Depuis quelques années, de nombreux gouvernements ont instigué la création de bases de données (fichier national d'empreintes génétiques, FNAEG) regroupant les profils STRs des individus ayant commis des actes délictueux. Ceci permet de comparer le profil ADN retrouvé sur la scène d'un crime à l'ensemble des profils stockés dans le fichier et de montrer ainsi l'implication d'un individu. En revanche, cette méthode ne permet en aucun cas de procurer des indices quant à l'appartenance d'un individu à un groupe humain précis, informations cruciales dans la recherche de suspects ou dans l'identification de vestiges humains ne se réclamant d'aucun sujet à l'identité connue.The discovery, in the 1980s, by Jeffreys et al. 1 ' 2 that minisatellite sequences (or "variable number of tandem repeats", VNTRs) could provide a unique and original genetic fingerprint (excluding identical twins) placed DNA at the heart of forensic expertise 3 . This interest has continued to grow and now the analysis of the STRs ("short tandem repeats") provides the authorities with the ability to confuse suspects and link their genetic fingerprint with traces found at the workplace. 'a crime 4 but also to identify corpses of missing persons of known identity. This technology has already made it possible to solve many cases and shed light on certain errors of justice. In recent years, many governments have instigated the creation of national DNA fingerprint databases (FNAEG), which group together the STRs profiles of individuals who have committed criminal acts. This makes it possible to compare the DNA profile found on the scene of a crime with the set of profiles stored in the file and thus to show the involvement of an individual. However, this method does not in any way provide clues as to the membership of an individual to a specific human group, crucial information in the search for suspects or in the identification of human remains not claiming any subject to the known identity.
Un test génétique pour déterminer les traits d'un individu a été proposé dans la demande WO2004/016768. Toutefois, ce test requiert l'analyse d'un très grand nombre de marqueurs génétiques, à savoir 176 AIMs (Ancestry Informative Markers). D'autre part, ces marqueurs sont localisés de manière indifférente dans ou en dehors des régions codantes de gènes. L'analyse de séquences codantes pose des problèmes d'un point de vue réglementaire dans un certain nombre de pays comme la France.A genetic test for determining the traits of an individual has been proposed in WO2004 / 016768. However, this test requires the analysis of a very large number of genetic markers, namely 176 AIMs (Ancestry Informative Markers). On the other hand, these markers are indifferently located in or out of the coding regions of genes. The analysis of coding sequences poses problems from a regulatory point of view in a number of countries such as France.
Ainsi, il n'existe aujourd'hui aucune méthode génétique simple permettant d'obtenir des informations sur l'origine ethnogéographique d'un individu en l'absence de tout témoin oculaire.Thus, there is currently no simple genetic method to obtain information on the ethnogeographic origin of an individual in the absence of any eyewitness.
Résumé de l'InventionSummary of the Invention
La présente demande propose des méthodes et outils permettant de déterminer l'origine ethnogéographique d'un individu. Plus particulièrement, la présente invention résulte de l'identification d'ensembles précis de marqueurs génétiques permettant de prédire l'appartenance d'un individu à un groupe ethnogéographique particulier, en l'absence de témoin ou d'indices à l'enquête.The present application proposes methods and tools for determining the ethnogeographic origin of an individual. More particularly, the present invention results from the identification of precise sets of genetic markers that make it possible to predict the membership of an individual to a particular ethnogeographic group, in the absence of a witness or evidence in the survey.
Un premier objet de l'invention réside ainsi dans une méthode pour analyser un échantillon comprenant des acides nucléiques, permettant de déterminer l'origine ethnogéographique d'un individu duquel provient l'échantillon, la méthode comprenant comprenant la détermination (in vitro ou ex vivo), dans l'échantillon d'acide nucléique (e.g., d'ADN), des allèles d'un ensemble de polymorphismes de nucléotides (SNPs) localisés dans des régions non-codantes du génome, pour obtenir un ensemble d'allèles, cet ensemble d'allèles étant une indication du groupe ethnogéographique.A first subject of the invention thus resides in a method for analyzing a sample comprising nucleic acids, making it possible to determine the ethnogeographic origin of an individual from whom the sample originates, the method comprising comprising the determination (in vitro or ex vivo). ), in the sample of nucleic acid (eg, DNA), alleles of a set of nucleotide polymorphisms (SNPs) located in non-coding regions of the genome, to obtain a set of alleles, this set of alleles being an indication of the ethnogeographic group.
Un objet particulier de l'invention réside dans une méthode pour déterminer l'origine ethnogéographique d'un individu, comprenant la détermination (in vitro ou ex vivo), dans un échantillon d'acide nucléique (e.g., d'ADN), provenant de l'individu, des allèles d'un ensemble de polymorphismes de nucléotides (SNPs) localisés dans des régions non-codantes du génome, pour obtenir un ensemble d'allèles, cet ensemble d'allèles étant une indication du groupe ethnogéographique auquel l'individu appartient. Avantageusement, l'ensemble de SNPs comprend au moins 5 SNPs choisis parmi les SNPs décrits dans le tableau 1, de préférence au moins 6, 7, 8, 9, 10, 15, 20, 25 ou 30 SNPs décrits dans le tableau 1. Dans un mode de mise en œuvre particulier, l'ensemble de SNPs comprend au moins 9 SNPs choisis parmi les SNPs décrits dans le tableau 1. Des exemples d'ensembles de SNPs utilisables dans la présente invention sont décrits dans la suite du texte et dans la partie expérimentale.A particular object of the invention is a method for determining the ethnogeographic origin of an individual, comprising determining (in vitro or ex vivo), in a sample of nucleic acid (eg, DNA), from the individual, alleles of a set of nucleotide polymorphisms (SNPs) located in non-coding regions of the genome, to obtain a set of alleles, this set of alleles being an indication of the ethnogeographic group to which the individual belongs. Advantageously, the set of SNPs comprises at least 5 SNPs chosen from the SNPs described in Table 1, preferably at least 6, 7, 8, 9, 10, 15, 20, 25 or 30 SNPs described in Table 1. In a particular embodiment, the set of SNPs comprises at least 9 SNPs chosen from the SNPs described in Table 1. Examples of sets of SNPs that can be used in the present invention are described later in the text and in FIGS. the experimental part.
Comme il sera décrit en détail dans la suite du texte, l'ensemble d'allèles déterminé à partir de l'échantillon d'ADN de l'individu est typiquement comparé à un ou plusieurs ensembles d'allèles de référence caractéristiques de groupes ethnogéographiques, permettant ainsi de calculer la probabilité d'appartenance de l'individu à l'un de ces groupes, par exemple par une méthode Bayésienne. Avantageusement, les ensembles d'allèles de référence sont des ensembles caractéristiques des populations européenne, africaine saharienne, asiatique, nord-africaine et/ou indienne, cette liste n'étant pas exhaustiveAs will be described in detail in the rest of the text, the set of alleles determined from the DNA sample of the individual is typically compared to one or more sets of reference alleles characteristic of ethnogeographic groups, thus making it possible to calculate the probability of belonging to one of these groups, for example by a Bayesian method. Advantageously, the sets of reference alleles are characteristic sets of the European, Saharan, Asian, North African and / or Indian populations, this list not being exhaustive.
Dans des modes de réalisation préféré, les allèles sont déterminés par séquençage, hybridation sélective et/ou amplification sélective, et/ou - l'échantillon d'acide nucléique provient d'un fluide ou tissu biologique de l'individu ; et/ou l'échantillon d'acide nucléique provient d'un prélèvement médico- légal ; et/ou l'acide nucléique provenant de l'individu est amplifié préalablement.In preferred embodiments, alleles are determined by sequencing, selective hybridization and / or selective amplification, and / or - the nucleic acid sample is derived from a fluid or biological tissue of the individual; and / or the nucleic acid sample is from a forensic sample; and / or the nucleic acid from the individual is amplified beforehand.
Un autre objet de la présente demande réside dans un kit utilisable pour la mise en œuvre d'une méthode telle que définie ci-dessus, comprenant un ensemble de sondes nucléotidiques spécifiques d'un allèle au moins, de préférence de chaque allèle, des SNPs de l'ensemble de SNPs et/ou un ensemble d'amorces nucléotidiques permettant une amplification spécifique d'un allèle au moins, de préférence de chaque allèle, des SNPs de l'ensemble de SNPs. Les sondes nucléotidiques sont avantageusement immobilisées sur un support. Un autre objet de la présente demande réside dans un produit (ou un dispositif) comprenant un support sur lequel sont immobilisées des sondes nucléotidiques, lesdites sondes étant spécifiques d'un allèle au moins, de préférence de chaque allèle des SNPs de l'ensemble de SNPs défini ci-dessus.Another object of the present application lies in a kit usable for the implementation of a method as defined above, comprising a set of nucleotide probes specific for at least one allele, preferably each allele, SNPs. of the set of SNPs and / or a set of nucleotide primers allowing specific amplification of at least one allele, preferably of each allele, SNPs of the set of SNPs. The nucleotide probes are advantageously immobilized on a support. Another subject of the present application resides in a product (or a device) comprising a support on which nucleotide probes are immobilized, said probes being specific for at least one allele, preferably each SNPs allele of the set of SNPs defined above.
L'invention concerne également l'utilisation d'un ensemble de sondes nucléotidiques spécifiques d'un allèle au moins, de préférence de chaque allèle des SNPs de l'ensemble de SNPs défini ci-dessus et/ou d'un ensemble d'amorces nucléotidiques permettant une amplification spécifique d'un allèle au moins, de préférence de chaque allèle, des SNPs de l'ensemble de SNPs défini ci-dessus, pour déterminer in vitro l'origine ethnogéographique d'un individu ou d'un échantillon.The invention also relates to the use of a set of nucleotide probes specific for at least one allele, preferably each SNPs allele of the set of SNPs defined above and / or a set of primers. nucleotides allowing a specific amplification of at least one allele, preferably of each allele, SNPs of the set of SNPs defined above, for determining in vitro the ethnogeographic origin of an individual or a sample.
L'invention peut être utilisée à partir d'échantillons provenant de tout individu, de tout âge ou origine, et peut être mise en œuvre par exemple que dans le cadre d'expertises judiciaires, ou pour des études de migration et/ou de dispersion de populations.The invention can be used from samples from any individual, of any age or origin, and can be implemented for example in the context of forensic expertise, or for migration and / or dispersion studies. populations.
Légende des FiguresLegend of Figures
Figure 1. Fst inter-populations et global pour chaque marqueur.Figure 1. Fst between populations and overall for each marker.
Figure 2. Fst global pour chaque marqueur par ordre croissantFigure 2. Overall Fst for each marker in ascending order
Figure 3. Assignement des échantillons d'Afrique subsaharienne, d'Asie de l'Est et d'Europe aux groupes génétiques déduits de l'analyse des 32 SNPs de l'étude (Groupes I à V) par calcul Bayésien. Chaque individu est représenté par une ligne verticale partitionnée en X segments qui représentent la fraction d'appartenance à chaque groupe génétique X. L'origine des individus est la suivante : 1 à 115 (Afrique subsaharienne) ; 116 à 231 (Asie de l'Est) et 232 à 348 (Europe). Figure 4. Inférence ethnogéographique réalisée sur les génotypes des 9 SNPs du groupe I (Fst supérieurs à 0.8) des individus d'Afrique subsaharienne (1 à 115), d'Asie de l'Est (116 à 231), d'Europe (232 à 348).Figure 3. Assignment of samples from sub-Saharan Africa, East Asia and Europe to genetic groups derived from the analysis of the 32 SNPs in the study (Groups I to V) by Bayesian calculation. Each individual is represented by a vertical line partitioned in X segments that represent the fraction belonging to each X genetic group. The origin of individuals is as follows: 1 to 115 (sub-Saharan Africa); 116 to 231 (East Asia) and 232 to 348 (Europe). Figure 4. Ethogeographic inference on genotypes of the 9 group I SNPs (Fst> 0.8) of individuals from sub-Saharan Africa (1 to 115), East Asia (116 to 231), Europe ( 232 to 348).
Figure 5 Inférence ethnogéographique réalisée sur les génotypes des 32 SNPs de l'étude (Groupes I à V) des individus d'Afrique subsaharienne (1 à 115), d'Asie de l'Est (116 à 231), d'Europe (232 à 348), du nord de l'Afrique (349 à 463) avec 3 clusters génétiques (X=3).Figure 5 Ethnogeographic inference on the genotypes of the 32 SNPs of the study (Groups I to V) of individuals from sub-Saharan Africa (1 to 115), East Asia (116 to 231), Europe ( 232 to 348), northern Africa (349 to 463) with 3 genetic clusters (X = 3).
Figure 6 Inférence ethnogéographique réalisée sur les génotypes des 32 SNPs de l'étude (Groupes I à V) des individus d'Afrique subsaharienne (1 à 115), d'Asie de l'Est (116 à 231), d'Europe (232 à 348), du nord de l'Afrique (349 à 463) avec 4 clusters génétiques (X=4).Figure 6 Ethnogeographic inference made on the genotypes of the 32 SNPs of the study (Groups I to V) of individuals from sub-Saharan Africa (1 to 115), East Asia (116 to 231), Europe ( 232 to 348), northern Africa (349 to 463) with 4 genetic clusters (X = 4).
Figure 7 Inférence ethnogéographique réalisée sur les génotypes des 32 SNPs de l'étude (Groupes I à V) des individus d'Afrique subsaharienne (1 à 115), d'Asie de l'Est (116 à 231), d'Europe (232 à 348), du nord de l'Afrique (349 à 463) et d'Inde (464 à 519) avec 5 clusters génétiques (X=5).Figure 7 Ethnogeographic inference on the genotypes of the 32 SNPs in the study (Groups I to V) of individuals from sub-Saharan Africa (1 to 115), East Asia (116 to 231), Europe ( 232 to 348), North Africa (349 to 463) and India (464 to 519) with 5 genetic clusters (X = 5).
Description Détaillée de l'InventionDetailed Description of the Invention
L'étude de la diversité humaine et de la structure des populations a fait l'objet de nombreux travaux de recherche durant ces dernières années. Lewontin5, un des pionniers de ces recherches, a mis en évidence en étudiant un grand nombre de marqueurs biochimiques de groupes sanguins sur différentes populations que 85.5% des variations étaient observées au sein même des populations alors que seulement 6.3% des différences étaient observées entre les populations. La conclusion était donc que la majorité des différences résidant au sein même des populations, la notion même de « race » n'avait aucune réalité du point de vue génétique. D'autres études sur la diversité ont ensuite été menées avec l'analyse de marqueurs ADN sur les autosomes (par distinction avec l'ADN mitochondrial et le chromosome Y) de type RFLP, STR et SNP6. La conclusion reste identique à celle de Lewontin : environ 83 à 88% des variations autosomales sont trouvés au sein des populations alors que 9 à 13% sont trouvés entre les groupes continentaux. Cette extrême similarité entre les populations humaines s'explique en grande partie par l'origine récente d'un ancêtre commun à toutes les populations en Afrique7'8.The study of human diversity and population structure has been the subject of much research in recent years. Lewontin 5 , one of the pioneers of this research, found by studying a large number of biochemical markers of blood groups on different populations that 85.5% of variations were observed within populations while only 6.3% of differences were observed between populations. populations. The conclusion was, therefore, that the majority of the differences residing within populations, the very notion of "race" had no genetic reality. Further diversity studies were then conducted with the analysis of DNA markers on autosomes (by distinction with mitochondrial DNA and Y chromosome) of the RFLP, STR and SNP 6 type . The conclusion remains the same as that of Lewontin: approximately 83 to 88% of Autosomal variations are found within populations while 9 to 13% are found between continental groups. This extreme similarity between human populations is explained largely by the recent origin from a common ancestor to all populations in Africa 7 '8.
Après le séquençage du génome humain et en dépit de toutes les avancées réalisées dans le domaine biomédical, les facteurs génétiques à l'origine des maladies communes restent largement inconnus.After the sequencing of the human genome and despite all the advances made in the biomedical field, the genetic factors causing common diseases remain largely unknown.
Le projet international HapMap9'10, lancé en 2002, s'est fixé pour objectif de cartographier l'ensemble des variations communes aux individus parmi les 3 milliards de paires de nucléotides composant le génome humain, et de définir la structure des blocs de liaison. Cette étude a été menée sur 270 ADN de 3 populations continentales différentes (Afrique, Asie et Europe) ce qui permet d'éviter de répertorier les polymorphismes rares. Un projet similaire au projet HapMap, réalisé par la société Perlegen, a permis de cartographier 1.586.383 SNPs répartis uniformément le long du génome chez 71 individus issus de 3 populations (Afrique, Asie et Europe)11.The international project HapMap 9 '10 , launched in 2002, aims to map all the variations common to individuals among the 3 billion nucleotide pairs composing the human genome, and to define the structure of the link blocks . This study was conducted on 270 DNAs from 3 different continental populations (Africa, Asia and Europe) which makes it possible to avoid listing the rare polymorphisms. A project similar to the HapMap project, carried out by the Perlegen company, made it possible to map 1,586,383 SNPs distributed uniformly along the genome in 71 individuals from 3 populations (Africa, Asia and Europe) 11 .
Même si on sait que les variants qui sont proches physiquement sont souvent liés entre eux, le phénomène de déséquilibre de liaison reste complexe et varie d'une région du génome à l'autre et aussi entre les populations12.Although it is known that variants that are physically close are often linked together, the linkage disequilibrium phenomenon remains complex and varies from one region of the genome to another and also between populations 12 .
En ce qui concerne les études d'associations, leur succès réside dans l'estimation de la différence allélique de certains marqueurs entre une cohorte de patients atteints d'une maladie (les cas) et des personnes saines (les témoins). La recherche de faibles effets génétiques peut ainsi se retrouver biaisée s'il existe une stratification entre les deux populations comparées13,14. L'étude de marqueurs présentant des spécificités populationnelles peut ainsi permettre de détecter d'éventuelles stratifications entre les deux cohortes15.With regard to association studies, their success lies in estimating the allelic difference of certain markers between a cohort of patients with a disease (the cases) and healthy people (the controls). The search for low genetic effects can thus be biased if there is a stratification between the two populations compared 13 , 14 . The study of markers presenting population specificities can thus make it possible to detect possible stratifications between the two cohorts 15 .
Une nouvelle méthodologie pour l'étude génétique de maladies complexes est la cartographie par déséquilibre de liaison dans des populations mixtes (MALD)16'17. LeA new methodology for genetic studies of complex disease mapping is linkage disequilibrium in mixed populations (MALD) 16 '17. The
MALD est basé sur l'analyse de patients d'origine mixte tels que des africains américains ou des hispano américains. Le MALD doit s'avérer performant dans le cas des maladies plus fréquentes dans certaines populations18 (exemples : la sclérose multiple où le risque génétique est plus important chez les européens, le cancer de la prostate plus fréquent chez les africains). Dans cette perspective, de nombreuses équipes travaillent pour constituer une cartographie dense de marqueurs répartis le long du génome et présentant une grande différence entre les populations parentales19. Une mesure simple de la différentiation entre les populations est la statistique Fst (indice de fixation de Wright), qui mesure la fraction de la variation génétique totale due à des différences inter-populations. Le Fst est quantifié par la variation de la fréquence allélique sur les loci testés et sur un set de population. Sa valeur est comprise entre 0 (pas de différence génétique) et 1 (différence fixée entre les populations)20. Son calcul est un moyen de détecter d'éventuelles signatures de sélection naturelle qui engendrent alors une déviation systématique du Fst pour le gène soumis à la sélection et les marqueurs génétiques environnants21'22'23. Le phénomène de sélection naturelle le plus illustre chez l'homme est celui s'exerçant sur le locus du groupe sanguin Duffy, formé de 3 allèles FY*B, FY*A et FYW24. Les 3 allèles présentent une très forte différentiation en fonction des régions géographiques considérées. Ainsi, la distribution de l'allèle silencieux (qui correspond à une absence de l'antigène Fy sur les globules rouges) est superposable aux zones endémiques de la malaria liée au Plasmodium vivax et est fixée chez les populations subsahariennes23'25'26. Ce phénotype silencieux est du à une transition au sein du promoteur du gène FY*B (Blood groupe duffy System [MIM 110700]). Un autre exemple de sélection est la capacité de digérer le lait à l'âge adulte (lactase persistance [MIM 223100]), caractéristique variable selon les populations associée chez les européens à deux polymorphismes situés très en amont du gène lactase. La fréquence allélique de ces SNPs est très variable entre les populations d'origine européennes et africaines/asiatiques27'28'29. L'étude du Fst de plus de 20.000 SNPs répartis dans le génome suggère qu'au moins 174 gènes seraient soumis à la sélection naturelle30. Récemment, Hinds et al. ont remis en question cette approche systématique sur le génome en soulignant que les forts Fst se localisent tout autant dans les régions géniques que non géniques et affectent de la même façon les SNPs codants non synonymes et synonymes11. Les marqueurs génétiques idéaux pour distinguer deux populations sont donc ceux qui présentent la fixation d'un allèle dans une population et son absence dans l'autre. En réalité, de tels loci, dits privés, sont rares dans le génome10'11. Tout autant répartis dans les régions géniques que non géniques ou codantes et non codantes, ils ne semblent pas être les produits de la sélection naturelle.MALD is based on the analysis of mixed origin patients such as Africans American or Hispanic Americans. MALD must be effective in the case of more frequent diseases in certain populations 18 (examples: multiple sclerosis where the genetic risk is higher in Europeans, prostate cancer is more common among Africans). In this perspective, many teams are working to form a dense mapping markers distributed throughout the genome and having a great difference between the parental populations 19. A simple measure of population differentiation is the Fst (Wright Fixing Index) statistic, which measures the fraction of total genetic variation due to inter-population differences. The Fst is quantified by the variation of the allelic frequency on the tested loci and on a set of population. Its value is between 0 (no genetic difference) and 1 (fixed difference between populations) 20 . Its calculation is a means of detecting any natural selection signatures that then generate a systematic deviation of Fst for the gene under selection and the surrounding genetic markers 21 ' 22 ' 23 . The most obvious natural selection phenomenon in humans is that of the Duffy blood group locus, made up of 3 FY * B, FY * A and FYW 24 alleles. The 3 alleles show a very strong differentiation according to the geographic regions considered. Thus, the distribution of the silent allele (which corresponds to an absence of the Fy antigen on the red blood cells) is superimposed on the endemic areas of Plasmodium vivax-related malaria and is fixed in the sub-Saharan populations 23 ' 25 ' 26 . This silent phenotype is due to a transition within the FY * B gene promoter (Blood group duffy System [MIM 110700]). Another example of selection is the capacity to digest milk in adulthood (lactase persistence [MIM 223100]), a characteristic that varies with the populations associated in Europeans with two polymorphisms located far upstream of the lactase gene. The allelic frequency of these SNPs is very variable between populations of European and African / Asian origin 27 ' 28 ' 29 . The study of Fst of more than 20,000 SNPs spread across the genome suggests that at least 174 genes are subjected to natural selection 30. Recently, Hinds et al. have questioned this systematic approach to the genome by emphasizing that strong Fst are localized in both gene and non-gene regions and similarly affect non-synonymous and synonymous coding SNPs 11 . The ideal genetic markers for distinguishing two populations are therefore those with allele attachment in one population and absence in the other. In reality, such loci, called private, are rare in the genome 10 '11. Just as widely distributed in gene regions as they are non-genic or coding and non-coding, they do not seem to be the products of natural selection.
La présente demande résulte de l'identification de marqueurs génétiques précis et sélectionnés pour permettre la caractérisation de l'origine ethnogéographique des individus (ou d'échantillons provenant d'individus). Plus spécifiquement, l'invention montre que l'origine ethnogéographique d'individus peut être déterminée sur la base d'un nombre restreint de marqueurs génétiques localisés dans des régions non-codantes du génome. Ainsi, 32 SNPs ont été sélectionnés et testés sur un panel d'individus originaires de 5 populations (Europe, Asie, Afrique, Afrique du Nord et Inde). Le génotypage des SNPs a été réalisé par la technique de discrimination allélique qui combine l'amplification de la portion d'ADN portant le variant et la détection de ce variant à l'aide de 2 sondes spécifiques de l'un ou l'autre des allèles. Un panel d'une centaine d'ADNs par population a été testé pour chacun des individus tandis que la population d'Inde a été caractérisée sur 56 ADNs. Le génotypage de chacun de ces SNPs nous a permis de calculer la fréquence allélique de chaque SNP, et ce dans chacun des groupes. Ces SNPs présentent une fréquence très différente entre les ADNs de l'Afrique subsaharienne, de l'Asie, de l'Europe et de l'Afrique du Nord.The present application results from the identification of precise and selected genetic markers to allow the characterization of the ethnogeographic origin of individuals (or samples from individuals). More specifically, the invention shows that the ethnogeographic origin of individuals can be determined on the basis of a limited number of genetic markers located in non-coding regions of the genome. Thus, 32 SNPs were selected and tested on a panel of individuals from 5 populations (Europe, Asia, Africa, North Africa and India). The genotyping of the SNPs was performed by the allelic discrimination technique which combines the amplification of the DNA portion carrying the variant and the detection of this variant using two probes specific to one or the other of the alleles. A panel of about 100 DNAs per population was tested for each individual while the population of India was characterized on 56 DNAs. Genotyping each of these SNPs allowed us to calculate the allelic frequency of each SNP in each of the groups. These SNPs have a very different frequency between the DNAs of sub-Saharan Africa, Asia, Europe and North Africa.
Les marqueurs génétiques identifiés ne sont pas en corrélation directe avec un caractère phéno typique très distinctif entre les populations, comme l'est par exemple la couleur de la peau. En effet, ce caractère est lié à des forces de sélection extrêmement fortes ce qui implique qu'une même couleur de peau peut tout autant refléter une adaptation commune qu'une origine génétique commune. Ainsi même si les africains subsahariens, les populations tribales du sud de l'Inde et les aborigènes possèdent une pigmentation de peau similaire, ils ne présentent pas plus de similarité entre eux qu'avec d'autres populations31. De plus, les marqueurs génétiques identifiés sont localisés dans des régions non codantes du génome, ce qui assure la conformité avec la législation française (article 706-54 du code de procédure pénale).The genetic markers identified are not directly correlated with a typical distinctive pheno character between populations, as is for example the color of the skin. Indeed, this character is linked to extremely strong selection forces, which implies that the same skin color can reflect a common adaptation as well as a common genetic origin. So even if the sub-Saharan African, the tribal people of South India and the Aborigines have similar skin pigmentation, they do not have more similarities between them than other populations 31. In addition, the identified genetic markers are located in non-coding regions of the genome, which ensures compliance with French legislation (Article 706-54 of the Code of Criminal Procedure).
Par ailleurs, les marqueurs utilisés sont préférentiellement localisés sur le plus de chromosomes possibles et, dans le cas où ils sont localisés sur le même chromosome, les plus distants possibles.Moreover, the markers used are preferentially localized on the most possible chromosomes and, in the case where they are located on the same chromosome, the most distant possible.
Enfin, les marqueurs de l'invention sont de type SNPs, et sont principalement des transitions ou des transversions, ce qui facilite leur analyse. Les polymorphismes de nucléotides (« SNPs », Single Nucleotide Polymorphisms) constituent la forme la plus abondante de variation dans le génome humain et on estime que la population mondiale partage environ 10 millions de sites (soit 1 variant tous les 300 bases)9. Ils correspondent au changement d'un seul nucleotide, par transition, transversion, insertion ou délétion, sur une séquence d'ADN.Finally, the markers of the invention are of the SNP type, and are mainly transitions or transversions, which facilitates their analysis. Single nucleotide polymorphisms (SNPs) are the most abundant form of variation in the human genome and it is estimated that the global population shares about 10 million sites (or 1 variant every 300 bases) 9 . They correspond to the change of a single nucleotide, by transition, transversion, insertion or deletion, on a DNA sequence.
La liste des SNPs identifiés est décrite dans le tableau 1 avec, pour chaque SNP, les deux allèles rencontrés. Cette liste permet de définir des (sous-)ensembles de SNPs caractéristiques de l'origine ethnogéographique d'individus humains, comprenant au moins un, de préférence au moins 5 SNPs représentés dans le tableau 1. Il est entendu que ces ensembles de SNPs peuvent comprendre, en outre, des SNPs supplémentaires.The list of identified SNPs is described in Table 1 with, for each SNP, the two alleles encountered. This list makes it possible to define (sub) sets of SNPs characteristic of the ethnogeographic origin of human individuals, comprising at least one, preferably at least 5 SNPs represented in Table 1. It is understood that these sets of SNPs can also include additional SNPs.
Un premier objet de l'invention réside ainsi dans une méthode pour déterminer l'origine ethnogéographique d'un individu, comprenant la détermination, dans un échantillon d'ADN provenant de l'individu, des allèles d'un ensemble précis de SNPs localisés dans des régions non-codantes du génome, ledit ensemble comprenant au moins 5 SNPs choisis parmi les SNPs décrits dans le tableau 1, de préférence au moins 6, 7, 8, 9, 10, 15, 20, 25 ou 30 SNPs décrits dans le tableau 1, pour obtenir un ensemble d'allèles, cet ensemble d'allèles étant une indication du groupe ethnogéographique auquel l'individu appartient. Un autre objet de l'invention réside dans une méthode pour analyser un échantillon contenant des acides nucléiques, la méthode comprenant la détermination, dans ledit échantillon, des allèles d'un ensemble précis de SNPs localisés dans des régions non- codantes du génome, ledit ensemble comprenant au moins 5 SNPs choisis parmi les SNPs décrits dans le tableau 1, de préférence au moins 6, 7, 8, 9, 10, 15, 20, 25 ou 30 SNPs décrits dans le tableau 1, pour obtenir un ensemble d'allèles, cet ensemble d' allèles étant une indication du groupe ethnogéographique dont l'échantillon provient.A first object of the invention thus lies in a method for determining the ethnogeographic origin of an individual, comprising determining, in a sample of DNA from the individual, the alleles of a precise set of SNPs located in non-coding regions of the genome, said set comprising at least 5 SNPs selected from the SNPs described in Table 1, preferably at least 6, 7, 8, 9, 10, 15, 20, 25 or 30 SNPs described in FIG. Table 1, to obtain a set of alleles, this set of alleles being an indication of the ethnogeographic group to which the individual belongs. Another object of the invention resides in a method for analyzing a sample containing nucleic acids, the method comprising determining, in said sample, alleles of a precise set of SNPs located in non-coding regions of the genome, said set comprising at least 5 SNPs selected from the SNPs described in Table 1, preferably at least 6, 7, 8, 9, 10, 15, 20, 25 or 30 SNPs described in Table 1, to obtain a set of alleles, this set of alleles being an indication of the ethnogeographic group from which the sample comes.
Dans un premier mode de mise en œuvre particulier, l'ensemble de SNPs comprend la totalité des 32 SNPs mentionnés dans le Tableau 1, et la méthode comprend une détermination de chaque allèle desdits SNPs.In a first particular embodiment, the set of SNPs comprises all 32 SNPs mentioned in Table 1, and the method comprises a determination of each allele of said SNPs.
Dans un autre mode de mise en œuvre, l'ensemble de SNPs comprend au moins les 9 SNPs du groupe I tel que défini dans le Tableau 4, à savoir les SNPs Ml, M2, M5, M6, M7, M9, M15, M24 et M30. Un tel ensemble de SNPs permet de déterminer l'appartenance d'un individu au groupe africain, asiatique ou européen.In another embodiment, the set of SNPs comprises at least the 9 SNPs of group I as defined in Table 4, namely SNPs M1, M2, M5, M6, M7, M9, M15, M24. and M30. Such a set of SNPs makes it possible to determine the membership of an individual in the African, Asian or European group.
Dans un autre mode de mise en œuvre, l'ensemble de SNPs comprend au moins 5 SNPs parmi les SNPs Ml, M2, M3, M4, M5, M6, M7, M8 et M9. Un tel ensemble de SNPs permet de déterminer l'appartenance d'un individu au groupe africain (voir Tableau 3 pour les allèles spécifiques).In another embodiment, the set of SNPs comprises at least 5 SNPs among the SNPs M1, M2, M3, M4, M5, M6, M7, M8 and M9. Such a set of SNPs makes it possible to determine the membership of an individual in the African group (see Table 3 for specific alleles).
Dans un autre mode de mise en œuvre, l'ensemble de SNPs comprend au moins les 5 SNPs M20, M21, M22, M23, M24, M25, M26, M27, M28, M29, M30, M31 et M32. Un tel ensemble de SNPs permet de déterminer l'appartenance d'un individu au groupe européen (voir Tableau 3 pour les allèles spécifiques).In another embodiment, the set of SNPs comprises at least the SNPs M20, M21, M22, M23, M24, M25, M26, M27, M28, M29, M30, M31 and M32. Such a set of SNPs makes it possible to determine the membership of an individual in the European group (see Table 3 for specific alleles).
Dans un autre mode de mise en œuvre, l'ensemble de SNPs comprend au moins 5 SNPs parmi les SNPs MlO, Mi l, M12, M13, M14, M15, M16, M17, M18 et M19. Un tel ensemble de SNPs permet de déterminer l'appartenance d'un individu au groupe asiatique (voir Tableau 3 pour les allèles spécifiques). Des exemples de profils de référence caractéristiques de populations sont fournis dans le Tableau 5.In another embodiment, the set of SNPs comprises at least 5 SNPs among the SNPs MlO, MiI, M12, M13, M14, M15, M16, M17, M18 and M19. Such a set of SNPs makes it possible to determine the membership of an individual in the Asian group (see Table 3 for specific alleles). Examples of population-specific reference profiles are provided in Table 5.
Il est entendu que l'ensemble de SNPs peut être complété par d'autres marqueurs ou SNPs, afin d'affiner d'avantage la méthode, si cela est utile. Néanmoins, les ensembles de marqueurs de l'invention peuvent permettre de déterminer l'origine ethnogéographique des individus avec une fiabilité totale.It is understood that the set of SNPs can be supplemented by other markers or SNPs, in order to further refine the method, if it is useful. Nevertheless, the sets of markers of the invention can make it possible to determine the ethnogeographic origin of the individuals with total reliability.
La détermination de l'ensemble d'allèles peut être réalisée de manière simultanée, parallèle ou séquentielle.The determination of the set of alleles can be performed simultaneously, parallel or sequentially.
Différentes techniques peuvent être utilisées pour déterminer des allèles d'un SNP dans un échantillon, comme par exemple l'hybridation spécifique d'allèles (5' nuclease assay, LightCycler, hybridation sur puces, etc.), l'extension d'amorces (miniséquençage, SNAPshot, pyroséquençage, extension spécifique d'allèles, spectrométrie de masse), la ligation spécifique d'oligonucléotides, le clivage invasif, le séquençage, l'hybridation sélective, l'utilisation de supports revêtus d'oligonucléotides sondes, l'amplification d'acide nucléique, ou ligation-PCR ou par toute technique de biologie moléculaire utile pour le génotypage. Ces méthodes peuvent comprendre l'utilisation d'une sonde nucléique (par exemple un oligonucléotide) capable de détecter sélectivement ou spécifiquement un allèle du SNP dans l'échantillon. L'amplification peut être réalisée selon différentes méthodes connues en soi de l'homme du métier, telles que la PCR, la LCR, l'amplification par déplacement de brin (SDA), l'emploi d'oligonucléotides spécifiques d'allèles (ASO), l'amplification spécifique d'allèle, le Southern blot, l'analyse conformationnelle SSCA, l'électrophorèse, etc.Different techniques can be used to determine alleles of a SNP in a sample, such as, for example, allele-specific hybridization (5 'nuclease assay, LightCycler, chip hybridization, etc.), primer extension ( minisequencing, SNAPshot, pyrosequencing, allele-specific extension, mass spectrometry), oligonucleotide-specific ligation, invasive cleavage, sequencing, selective hybridization, use of oligonucleotide-coated probes, amplification nucleic acid, or ligation-PCR or any molecular biology technique useful for genotyping. These methods may include the use of a nucleic probe (eg an oligonucleotide) capable of selectively or specifically detecting an SNP allele in the sample. The amplification can be carried out according to various methods known per se to those skilled in the art, such as PCR, CSF, strand displacement amplification (SDA), the use of oligonucleotides specific for alleles (ASO ), allele-specific amplification, Southern blotting, SSCA conformational analysis, electrophoresis, etc.
Plusieurs méthodes de détection peuvent être utilisées pour analyser les produits de chaque type de réaction : fluorescence, luminescence, mesure de taille, mesure de masse, etc.). Par ailleurs, la réaction peut être réalisée en solution ou sur un support solide. Selon un mode préféré de mise en oeuvre, la méthode comprend la détection de la présence ou de l'absence d'un allèle par hybridation sélective et/ou par amplification sélective.Several detection methods can be used to analyze the products of each type of reaction: fluorescence, luminescence, size measurement, mass measurement, etc.). Moreover, the reaction can be carried out in solution or on a solid support. According to a preferred embodiment, the method comprises the detection of the presence or absence of an allele by selective hybridization and / or by selective amplification.
L'hybridation sélective est typiquement réalisée en utilisant des sondes nucléiques, de préférence immobilisées sur un support, tel qu'un support solide ou semi-solide présentant au moins une surface, plane ou non, permettant l'immobilisation de sondes nucléiques. De tels supports sont par exemple une lame, bille, membrane, filtre, colonne, plaque, etc. Ils peuvent être réalisés en tout matériau compatible, comme notamment du verre, silice, plastique, fibre, métal, polymère, etc. Les sondes nucléiques peuvent être tout acide nucléique (ADN, ARN, PNA, etc.), de préférence simple-brin, comprenant une séquence spécifique d'un allèle d'un SNP. Les sondes comprennent typiquement de 5 à 300 bases, de préférence de 8 à 150, plus préférentiellement moins de 100, et encore plus préférentiellement moins de 60, 50, 40 ou 30 bases. Les sondes peuvent être des oligonucléotides synthétiques, produits sur la base des séquences des allèles à détecter, selon des techniques de synthèse classique. De tels oligonucléotides comportent typiquement de 10 à 50 bases, de préférence de 20 à 40, par exemple 25 bases environ.Selective hybridization is typically performed using nucleic probes, preferably immobilized on a support, such as a solid or semi-solid support having at least one surface, flat or not, allowing the immobilization of nucleic probes. Such supports are for example a blade, ball, membrane, filter, column, plate, etc. They can be made of any compatible material, such as glass, silica, plastic, fiber, metal, polymer, etc. Nucleic probes can be any nucleic acid (DNA, RNA, PNA, etc.), preferably single-stranded, comprising a specific sequence of an allele of an SNP. The probes typically comprise from 5 to 300 bases, preferably from 8 to 150, more preferably less than 100, and even more preferentially less than 60, 50, 40 or 30 bases. The probes may be synthetic oligonucleotides, produced on the basis of the sequences of the alleles to be detected, according to conventional synthesis techniques. Such oligonucleotides typically have from 10 to 50 bases, preferably from 20 to 40, for example about 25 bases.
Dans un mode particulier de mise en œuvre, on utilise plusieurs oligonucléotides (ou sondes) différents pour détecter un allèle d'intérêt. Il peut s'agir notamment d'oligonucléotides spécifiques centrés différemment sur le SNP à analyser.In a particular mode of implementation, several different oligonucleotides (or probes) are used to detect an allele of interest. This may include specific oligonucleotides centered differently on the SNP to be analyzed.
Dans un autre mode de réalisation, on peut utiliser, pour analyser chaque SNP bi- allélique, un couple de sonde dont un membre est parfaitement apparié à l'un des allèles et dont l'autre membre est parfaitement apparié à l'autre allèle. Bien entendu, il est possible de combiner ces deux modes de réalisation.In another embodiment, a pair of probes can be used to analyze each biallelic SNP, one member of which is perfectly matched to one of the alleles and whose other member is perfectly matched to the other allele. Of course, it is possible to combine these two embodiments.
Des exemples spécifiques de sondes utilisables pour la mise en œuvre de l'invention sont décrits dans le tableau 2. Les sondes peuvent être synthétisées préalablement puis déposées sur le support, ou synthétisées directement in situ, sur le support, selon des méthodes connues en soi de l'homme du métier. Les sondes peuvent également être fabriquées par des techniques génétiques, par exemple par amplification, recombinaison, ligation, etc.Specific examples of probes usable for the implementation of the invention are described in Table 2. The probes may be synthesized beforehand and then deposited on the support, or synthesized directly in situ, on the support, according to methods known per se to those skilled in the art. The probes can also be manufactured by genetic techniques, for example by amplification, recombination, ligation, etc.
Les sondes ainsi définies constituent un autre objet de la présente demande, ainsi que leurs utilisations (essentiellement in vitro) pour déterminer l'origine ethnogéographique d'un individu.The probes thus defined constitute another object of the present application, as well as their uses (essentially in vitro) for determining the ethnogeographic origin of an individual.
L'hybridation peut être réalisée dans des conditions classiques, connues de l'homme du métier et ajustables par celui-ci (voir par exemple Sambrook et al, (1989) Molecular Cloning, CoId Spring Harbor Laboratory Press). En particulier, l'hybridation peut être réalisée dans des conditions de stringence élevée, moyenne ou faible, selon le niveau de sensibilité recherché, la quantité de matériel disponible, etc. Par exemple, des conditions appropriées d'hybridation incluent une température comprise entre 55 et 65°C pendant 2 à 18 heures. Après l'hybridation, différents lavages peuvent être réalisés pour éliminer les molécules non-hybridées, typiquement dans des tampons SSC comprenant du SDS, tels que un tampon comprenant 0,1 à 10 X SSC et 0,5-0,01% SDS.The hybridization can be carried out under standard conditions known to those skilled in the art and adjustable by it (see for example Sambrook et al., (1989) Molecular Cloning, CoId Spring Harbor Laboratory Press). In particular, the hybridization can be carried out under conditions of high, medium or low stringency, depending on the desired level of sensitivity, the quantity of available material, etc. For example, suitable hybridization conditions include a temperature of 55 to 65 ° C for 2 to 18 hours. After hybridization, different washes can be performed to remove unhybridized molecules, typically in SSC buffers comprising SDS, such as a buffer comprising 0.1 to 10 X SSC and 0.5-0.01% SDS.
L'amplification sélective est de préférence réalisée en utilisant une amorce ou une paire d'amorces permettant l'amplification d'une région de l'acide nucléique portant le SNP à analyser. L'amorce peut être spécifique d'une séquence du SNP ou d'une région flanquant la séquence du SNP dans un acide nucléique de l'échantillon. L'amorce comprend typiquement un acide nucléique simple-brin, d'une longueur comprise avantageusement entre 5 et 50 bases, de préférence entre 5 et 30.The selective amplification is preferably carried out using a primer or a pair of primers for amplifying a region of the nucleic acid carrying the SNP to be analyzed. The primer may be specific for a sequence of the SNP or a region flanking the sequence of the SNP in a nucleic acid of the sample. The primer typically comprises a single-stranded nucleic acid, preferably between 5 and 50 bases in length, preferably between 5 and 30.
Des exemples spécifiques d'amorces utilisables pour la mise en œuvre de l'invention sont décrits dans le tableau 2.Specific examples of primers usable for the implementation of the invention are described in Table 2.
De telles amorces constituent un autre objet de la présente demande, ainsi que leur utilisation (essentiellement in vitro) pour déterminer l'origine ethnogéographique d'un individu. A cet égard, un autre objet de l'invention réside dans l'utilisation (in vitro) d'une amorce nucléotidique permettant l'amplification d'un SNP tel que défini ci-dessus pour déterminer l'origine ethnogéographique d'un individu. Un autre objet particulier de l'invention réside dans l'utilisation (in vitro) d'un ensemble d'amorces nucléotidiques permettant l'amplification d'un ensemble de SNPs tels que définis ci-dessus, pour déterminer l'origine ethnogéographique d'un individuLa méthode de l'invention peut être réalisée à partir de tout échantillon comportant des acides nucléiques. On peut citer avantageusement un échantillon de tissu (os, muscle) ou fluide biologique comportant des acides nucléiques, typiquement un échantillon de sang, sperme, salive, urine, selles, poil, peau, etc. La méthode peut en outre être pratiquée à partir d'acide nucléique partiellement endommagé, dégradé et/ou en très faibles quantités.Such primers are another object of the present application, as well as their use (essentially in vitro) to determine the ethnogeographic origin of an individual. In this regard, another object of the invention lies in the use (in vitro) of a nucleotide primer allowing the amplification of an SNP as defined above to determine the ethnogeographic origin of an individual. Another particular object of the invention resides in the use (in vitro) of a set of nucleotide primers allowing the amplification of a set of SNPs as defined above, in order to determine the ethnogeographic origin of An individual The method of the invention can be performed from any sample comprising nucleic acids. Advantageously, a sample of tissue (bone, muscle) or biological fluid comprising nucleic acids, typically a sample of blood, sperm, saliva, urine, stool, hair, skin, etc., may be advantageously mentioned. The method may further be practiced from partially damaged, degraded nucleic acid and / or in very small amounts.
L'échantillon peut être obtenu par toute technique connue en soi, par exemple par prélèvement, par des techniques non invasives, à partir de collections ou banques d'échantillons, des scellés contenant des prélèvements obtenus sur des scènes de crime ou de délit, etc. L'échantillon peut par ailleurs être pré-traité pour faciliter l'accessibilité des acides nucléiques, par exemple par lyse (mécanique, chimique, enzymatique, etc.), purification, centrifugation, séparation, dilution, etc. L'échantillon peut également être marqué, pour faciliter la détermination de la présence des acides nucléiques (marquage fluorescent, radioactif, luminescent, chimique, enzymatique, etc.). Par ailleurs, les acides nucléiques de l'échantillon peuvent être amplifiés préalablement à l'étape d'analyse des SNPs.The sample can be obtained by any technique known per se, for example by sampling, by non-invasive techniques, from collections or sample banks, seals containing samples taken on crime scenes or crime, etc. . The sample may also be pre-treated to facilitate the accessibility of the nucleic acids, for example by lysis (mechanical, chemical, enzymatic, etc.), purification, centrifugation, separation, dilution, etc. The sample can also be labeled, to facilitate the determination of the presence of nucleic acids (fluorescent, radioactive, luminescent, chemical, enzymatic labeling, etc.). Moreover, the nucleic acids of the sample can be amplified prior to the SNPs analysis step.
Selon un exemple particulier de mise en œuvre de l'invention, on prélève un échantillon de l'individu. L'échantillon est éventuellement traité de manière à rendre les acides nucléiques plus accessibles et/ou pour amplifier les acides nucléiques (ou une fraction de ceux-ci). Les acides nucléiques sont ensuite mis en contact avec des sondes nucléiques telles que définies ci-avant (éventuellement immobilisées sur un support) et le profil d'hybridation obtenu est déterminé, permettant de déterminer ou de prévoir le groupe ethnogéographique d'appartenance de l'individu. En variante, les acides nucléiques sont mis en contact avec des amorces nucléiques telles que définies ci-avant et le produit d'amplification est analysé, permettant de déterminer ou de prévoir le groupe ethnogéographique d'appartenance de l'individu.According to a particular example of implementation of the invention, a sample of the individual is taken. The sample is optionally processed to make the nucleic acids more accessible and / or to amplify the nucleic acids (or a fraction thereof). The nucleic acids are then brought into contact with nucleic probes as defined above (optionally immobilized on a support) and the hybridization profile obtained is determined, making it possible to determine or predict the ethnogeographic group of membership of the individual. Alternatively, the acids nuclei are contacted with nucleic primers as defined above and the amplification product is analyzed, making it possible to determine or predict the ethnogeographic group belonging to the individual.
Un autre objet de la présente demande réside dans un kit utilisable pour la mise en œuvre d'une méthode telle que définie ci-dessus, comprenant un ensemble de sondes nucléotidiques spécifiques d'un allèle au moins, de préférence de chaque allèle, des SNPs d'un ensemble de SNPs tel que défini ci-dessus et/ou un ensemble d'amorces nucléotidiques permettant une amplification spécifique de chaque SNP d'un ensemble de SNPs tel que défini ci-dessus. Les sondes nucléotidiques sont avantageusement immobilisées sur un support.Another object of the present application lies in a kit usable for the implementation of a method as defined above, comprising a set of nucleotide probes specific for at least one allele, preferably each allele, SNPs. a set of SNPs as defined above and / or a set of nucleotide primers allowing specific amplification of each SNP of a set of SNPs as defined above. The nucleotide probes are advantageously immobilized on a support.
Le terme "spécifique", lorsqu'il se rapporte à une hybridation ou à une amplification, désigne le fait que l'hybridation ou l'amplification permet de discriminer, selon les conditions mises en œuvre, entre deux allèles d'un SNP. Ainsi, une sonde spécifique d'un allèle s'hybride, dans des conditions appropriées, uniquement à cet allèle. De même, une amorce spécifique d'un allèle permet, dans des conditions appropriées, l'amplification uniquement de cet allèle.The term "specific", when referring to hybridization or amplification, refers to the fact that hybridization or amplification makes it possible to discriminate, according to the conditions used, between two alleles of an SNP. Thus, a specific probe of an allele hybridizes, under appropriate conditions, only to this allele. Similarly, a specific primer of an allele makes it possible, under appropriate conditions, to amplify only this allele.
Un autre objet de la présente demande réside dans un produit (ou un dispositif) comprenant un support sur lequel sont immobilisées des sondes nucléotidiques, lesdites sondes étant spécifiques d'un allèle au moins, de préférence de chaque allèle des SNPs d'un ensemble de SNPs défini ci-dessus. Le support peut être tout support solide ou semi-solide présentant au moins une surface, plane ou non, permettant l'immobilisation d'acides nucléiques ou de polypeptides. De tels supports sont par exemple une lame, bille, membrane, filtre, colonne, plaque, etc. Ils peuvent être réalisés en tout matériau compatible, comme notamment du verre, silice, plastique, fibre, métal, polymère, polystyrène, téflon, etc. Les réactifs peuvent être immobilisés sur la surface du support par des techniques connues, ou, dans le cas des acides nucléiques, synthétisés directement in situ sur le support. Des techniques d'immobilisation incluent l'adsorption passive 32Ia liaison covalente. Des techniques sont décrites par exemple dans WO90/03382, WO99/46403. Les sondes immobilisées sur le support peuvent être ordonnées selon un schéma pré-établi, pour faciliter la détection et l'identification des complexes formés, et selon une densité variable et adaptable.Another subject of the present application resides in a product (or a device) comprising a support on which nucleotide probes are immobilized, said probes being specific for at least one allele, preferably each SNPs allele of a set of nucleotides. SNPs defined above. The support can be any solid or semi-solid support having at least one surface, flat or not, allowing the immobilization of nucleic acids or polypeptides. Such supports are for example a blade, ball, membrane, filter, column, plate, etc. They can be made of any compatible material, such as glass, silica, plastic, fiber, metal, polymer, polystyrene, teflon, etc. The reagents can be immobilized on the surface of the support by known techniques, or, in the case of nucleic acids, synthesized directly in situ on the support. Immobilization techniques include passive adsorption 32 Ia covalent bond. Techniques are described for example in WO90 / 03382, WO99 / 46403. The probes immobilized on the support can be ordered according to a pre-established scheme, to facilitate the detection and identification of formed complexes, and in a variable and adaptable density.
L'invention est utilisable pour déterminer la probabilité d'appartenance de tout individu à tout groupe ethnogéographique, tel que par exemple les populations européenne, africaine saharienne, asiatique, nord-africaine et/ou indienne, cette liste n'étant pas exhaustive.The invention can be used to determine the probability of membership of any individual to any ethnogeographic group, such as for example the European, Saharan African, Asian, North African and / or Indian populations, this list not being exhaustive.
D'autres aspects et avantages de la présente invention apparaîtront à la lecture des exemples qui suivent, qui doivent être considérés comme illustratifs et non limitatifs.Other aspects and advantages of the present invention will appear on reading the examples which follow, which should be considered as illustrative and not limiting.
EXEMPLESEXAMPLES
1. Matériels et Méthodes1. Materials and Methods
1.1. Sélection des marqueurs1.1. Selection of markers
Une étude exhaustive de chaque chromosome a été menée sur la base de données de SNPs (dbSNP) du National Center for Biotechnology Information (NCBI), en recherchant parmi les SNPs génotypes sur les 3 populations d'Asie de l'Est, d'Europe et d'Afrique ceux qui présentaient le plus de différence entre les fréquences alléliques. Cela a abouti à la sélection d'une centaine de SNPs répartis dans le génome. Parmi ces SNPs, les 32 présentant le plus fort pouvoir discriminant ont été retenus.A comprehensive study of each chromosome was conducted on the National Center for Biotechnology Information (NCBI) SNPs database (dbSNP), searching for genotypic SNPs from the 3 populations of East Asia, Europe and from Africa those with the most difference between allelic frequencies. This resulted in the selection of about 100 SNPs distributed in the genome. Among these SNPs, the 32 with the highest discriminating power were retained.
La séquence complète des 32 SNPs est présentée dans le Tableau 1.The complete sequence of the 32 SNPs is presented in Table 1.
Les marqueurs génétiques sélectionnés sont tous de type SNPs et sont des transitions ou des transversions. Par souci vis-à-vis de la législation française (article 706-54 du code de procédure pénale), tous les marqueurs ont été choisis dans des régions non codantes du génome. Par ailleurs, on s'est efforcés de choisir les marqueurs sur le plus de chromosomes possibles et, dans le cas où ils sont localisés sur le même chromosome, les plus distants possibles pour un groupe de marqueur donné. Les SNPs de notre étude ont été sélectionnés sur la base de leur fréquence allélique discriminante entre les 3 populations continentales d'Afrique, d'Asie et d'Europe.The selected genetic markers are all SNPs and are transitions or transversions. For the sake of French law (Article 706-54 of the Code of Criminal Procedure), all markers were chosen from non-coding regions of the genome. In addition, efforts have been made to select markers for as many chromosomes as possible and, in the case where they are located on the same chromosome, the most distant possible for a given marker group. The SNPs of our study were selected on the basis of their discriminant allelic frequency between the 3 continental populations of Africa, Asia and Europe.
Parmi les 32 SNPs sélectionnés, seuls les SNPs associés aux gènes GUCY2D19, FY33 et LAC28 (respectivement M31, M9, M32) ont été décrits dans la littérature comme présentant une discrimination allélique possible entre des populations. Toutefois, aucun ensemble de SNPs selon l'invention n'a été décrit antérieurement, permettant de renseigner de manière fiable sur l'appartenance ethnogéographique d'individus.Of the 32 SNPs selected, only the SNPs associated with the GUCY2D 19 , FY 33 and LAC 28 genes (respectively M31, M9, M32) have been described in the literature as having possible allelic discrimination between populations. However, no set of SNPs according to the invention has been described previously, making it possible to provide reliable information on the ethnogeographic membership of individuals.
Le tableau 3 présente la répartition des allèles de chaque marqueur parmi les différentes populations. On peut distinguer 3 groupes :Table 3 shows the distribution of the alleles of each marker among the different populations. We can distinguish 3 groups:
SNPs permettant de distinguer les africains des européens ET des asiatiques : groupe Ml à M9SNPs to distinguish Africans from Europeans and Asians: group Ml to M9
SNPs permettant de distinguer les asiatiques des européens ET des africains : groupe MlO à M19SNPs to distinguish Asians from Europeans and Africans: group MlO to M19
SNPs permettant de distinguer les européens des africains ET des asiatiques : groupe M20 à M32SNPs to distinguish Europeans from Africans AND Asians: group M20 to M32
Nous avons privilégié les marqueurs présentant des différences alléliques maximales entre les populations puisque, pour des marqueurs bialléliques tels que les SNPs, on peut considérer que l'informativité sera maximale si l'un des allèles est limité à une seule population. 1.2. Echantillons d'ADNWe favored markers with maximal allelic differences between populations since, for biallelic markers such as SNPs, we can consider that the informativeness will be maximum if one of the alleles is limited to a single population. 1.2. DNA samples
La validation des marqueurs a été réalisée en deux étapes. Tout d'abord, un criblage de première intention sur 24 ADN de 3 origines continentales différentes (Afrique subsaharienne, Asie de l'Est et Europe : plaque dite de préscreening) a permis de sélectionner les marqueurs présentant la fréquence allélique la plus discriminante entre ces trois groupes. Les marqueurs génétiques retenus pour l'étude ont ensuite été testés sur un panel de 92 individus par population.The validation of the markers was carried out in two stages. Firstly, a first-order screening of 24 DNAs from 3 different continental origins (sub-Saharan Africa, East Asia and Europe: prescreening plate) allowed the selection of markers with the most discriminating allelic frequency between these three groups. The genetic markers selected for the study were then tested on a panel of 92 individuals per population.
En plus de valider nos marqueurs sur les 3 populations citées ci-dessus, nous avons testé les ADN de 112 individus nord africains et 56 indiens. Tous ces individus sont issus de grands-parents originaires de la zone géographique d'intérêt. Les ADN ont été extraits à partir du sang de donneur à l'aide du kit Nucléon Bac2 (Amersham) et quantifiés par le kit Quantifiler (Applied Biosystems).In addition to validating our markers on the 3 populations mentioned above, we tested the DNA of 112 North African and 56 Indian individuals. All these individuals come from grandparents from the geographical area of interest. The DNAs were extracted from the donor blood using the Nucleon Bac2 kit (Amersham) and quantified by the Quantifiler kit (Applied Biosystems).
1.3. Validation des marqueurs par Taqman1.3. Validation of markers by Taqman
Les amorces et les sondes Taqman de l'ensemble des marqueurs ont été synthétisées à façon (Custom TaqMan® SNP Genotyping Assays, Applied Biosystems, Tableau 2) à l'exception des marqueurs GUCY2D et FY nul pour lesquels on a exploité des tests commercialisés TaqMan® SNP Genotyping Assays (respectivement C_11951988_20, C 15769614 10, C 3211308 20, Applied Biosystems).Taqman primers and probes for all markers were custom synthesized (Custom TaqMan® SNP Genotyping Assays, Applied Biosystems, Table 2) with the exception of the null GUCY2D and FY markers for which marketed TaqMan tests were used. SNP Genotyping Assays (respectively C_11951988_20, C1576961410, C321130820, Applied Biosystems).
Pour chacun des tests, une PCR de discrimination allélique a été réalisée dans un volume réactionnel de 11 μl en présence de 5 ng d'ADN, 5.5 μl de Taqman Master Mix (Applied Bioystems) et soit 0.275 μl de 4OX de Custom TaqMan® SNP Genotyping Assays, soit 0.55 μl de 2OX de TaqMan® SNP Genotyping Assays. Après amplification sur thermocycleur 7500 (15 min à 95° suivi de 40 cycles de 15 sec à 92° et 1 min à 60°) la plaque est lue en point final, et l'ensemble des données est interprété à l'aide du logiciel Séquence Détection System 1.2 (SDS 1.2, Applied Biosystems). Les données géno typiques pour l'ensemble des SNPs testés sont exprimées de la façon suivante : 11 (homozygote allèle 1), 12 (hétérozygote) et 22 (homozygote allèle 2).For each of the tests, an allelic discrimination PCR was carried out in a reaction volume of 11 .mu.l in the presence of 5 ng of DNA, 5.5 .mu.l of Taqman Master Mix (Applied Bioystems) and 0.275 .mu.l of 4OX of Custom TaqMan® SNP. Genotyping Assays, ie 0.55 μl of 2OX of TaqMan® SNP Genotyping Assays. After amplification on thermal cycler 7500 (15 min at 95 ° followed by 40 cycles of 15 sec at 92 ° and 1 min at 60 °) the plate is read in end point, and all the data is interpreted using the software Sequence Detection System 1.2 (SDS 1.2, Applied Biosystems). Typical geno data for all SNPs tested are expressed as 11 (homozygous allele 1), 12 (heterozygous) and 22 (homozygous allele 2).
1.4. Estimation des Fst et analyse de l'inférence ethno géographique :1.4. Estimation of Fst and analysis of ethno geographical inference:
La différentiation des populations pour chacun des loci a été estimée à l'aide de l'indice de fixation Fst de Wright calculé suivant les formules de Weir et Cokerham 34'35. Un logiciel, basé sur des calculs Bayésiens, permet de calculer l'inférence des individus à un groupe ethnogéographique Ce programme utilise les données géno typiques de plusieurs loci indépendants pour rechercher la structure des populations. Pour chaque individu, le logiciel estime la proportion d'appartenance par rapport à chaque population soumise au calcul.Population differentiation for each locus was estimated using the fastening Fst Wright index calculated according to the formulas and Weir Cokerham 34 '35. Software, based on Bayesian calculations, calculates the inference of individuals to an ethnogeographic group This program uses geno data typical of several independent loci to search for the population structure. For each individual, the software estimates the proportion of membership in relation to each population subjected to the calculation.
2. Résultats2. Results
2.1. Distribution des Fst2.1. Distribution of Fst
Après la compilation de l'ensemble des génotypes obtenus en Taqman, la proportion de la variation attribuée aux différences entre populations (Fst) a été calculée pour chaque paire de population et pour chaque locus (Figure 1), une forte valeur de Fst reflète le fait qu'une population montre une grande différence de fréquence allélique par rapport à l'autre ou aux deux autres (Fst global).After the compilation of all the Taqman genotypes, the proportion of the variation attributed to the differences between populations (Fst) was calculated for each pair of population and for each locus (Figure 1), a high value of Fst reflects the a population shows a large difference in allelic frequency with respect to the other one or two (global Fst).
La différentiation entre les populations d'Europe et d'Asie de l'Est, reflétée par le Fst Europe Asie, est obtenue avec les marqueurs MlO à M32 tandis que les loci Ml à M9 restent monomorphes chez ces deux populations (Fst proche ou égal à 0). Les loci discriminants ont un Fst interpopulation supérieur à 0.4 mis à part les marqueurs M17 et M22.The differentiation between the populations of Europe and East Asia, as reflected by Fst Europe Asia, is obtained with the markers MlO to M32 while the loci Ml to M9 remain monomorphic in these two populations (Fst close or equal to 0). Discriminant loci have an interpopulation Fst greater than 0.4 apart from the M17 and M22 markers.
L'Europe se différencie très significativement de l'Afrique par les marqueurs Ml à M9 et M20 à M32, avec des Fst supérieurs à 0.5 (sauf pour les loci M20 à M23) et ce sont cette fois les marqueurs MlO à Ml 9 qui présentent une différentiation très faible.Europe differs very significantly from Africa by the markers M1 to M9 and M20 to M32, with Fst greater than 0.5 (except for the M20 to M23 loci) and this time the markers Ml0 to Ml9 present a very weak differentiation.
Les marqueurs Ml à M19 permettent de distinguer l'Afrique de l'Asie alors que des valeurs proches de zéro sont observés pour les locus M20 à M32.Markers M1 to M19 distinguish Africa from Asia, while values close to zero are observed for M20 to M32.
En ce qui concerne le Fst global, c'est incontestablement les marqueurs Ml à M9 qui présentent le plus fort Fst, supérieur à 0.70, ce qui met en évidence que pour ces marqueurs une très faible part de la variance observée (inférieure à 30%) est due à des différences à l'intérieur des populations. Les marqueurs MlO à M32 présentent globalement un Fst compris entre 0.41 et 0.92. En revanche, certaines valeurs de Fst indiquent une diversification faible pour les marqueurs M17, M21, M22 (Fst de 0.23 à 0.37). Une hiérarchisation de l'informativité des marqueurs peut être établie d'après les valeurs de Fst (Figure 2). Parmi les cinq groupes de marqueurs (Tableau 4), le groupe I rassemble les SNPs les plus informatifs dont les Fst sont supérieurs à 0.80. On peut noter qu'il s'agit principalement des marqueurs discriminant l'Afrique de l'Europe et de l'Asie. Les groupes II à IV comprennent les marqueurs dont les Fst sont compris entre 0.40 et 0.80. Les marqueurs M17, M21 et M22 du groupe V sont les moins discriminants avec des Fst inférieures à 0.4.With regard to the global Fst, it is undeniably the markers M1 to M9 that have the highest Fst, greater than 0.70, which shows that for these markers a very small part of the observed variance (less than 30% ) is due to differences within populations. The markers MlO to M32 generally have an Fst of between 0.41 and 0.92. On the other hand, some values of Fst indicate a weak diversification for the markers M17, M21, M22 (Fst of 0.23 to 0.37). A hierarchy of the informativity of the markers can be established according to the values of Fst (Figure 2). Of the five groups of markers (Table 4), group I collects the most informative SNPs whose Fst are greater than 0.80. It can be noted that these are mainly markers discriminating Africa from Europe and Asia. Groups II to IV include markers whose Fst are between 0.40 and 0.80. The markers M17, M21 and M22 of the group V are the least discriminating with Fst less than 0.4.
2.2. Inférence de l'origine ethno géographique2.2. Inference of ethno geographical origin
2.2.1.Inférence avec les 32 marqueurs des groupes I à V2.2.1.Inference with the 32 markers of groups I to V
L'ensemble des génotypes des 32 marqueurs sur les ADN d'Afrique (n=115, ADN 1 à 115), d'Asie (n=116, ADN 116 à 231) et d'Europe (n=117, ADN 232 à 348) ont été soumis au logiciel de calcul Baysésien en s 'affranchissant du label de la population. . L'assignement de chacun des ADN d'origine différente aux groupes génétiques est illustré par la figure 3. Les 3 clusters génétiques définis par l'algorithme séparent les 3 populations d'Afrique subsaharienne, d'Asie de l'Est et d'Europe sans ambiguïté. Il apparaît donc que l'assignation et la clusterisation basés sur l'analyse des 32 SNPs sélectionnés, sont en parfait accord avec l'origine ethnogéographique des individus.All genotypes of the 32 markers on DNA from Africa (n = 115, DNA 1 to 115), Asia (n = 116, DNA 116 to 231) and Europe (n = 117, DNA 232 to 348) have been submitted to the Baysesian calculation software without the label of the population. . The assignment of each DNA of different origin to genetic groups is illustrated in Figure 3. The 3 genetic clusters defined by the algorithm separate the 3 populations of Sub-Saharan Africa, East Asia and Europe without ambiguity. It thus appears that the assignment and clustering based on the analysis of the 32 SNPs selected, are in perfect agreement with the ethnogeographic origin of the individuals.
La fiabilité du test pour des échantillons d'Afrique subsaharienne, d'Asie de l'Est et d'Europe est absolue puisque tous les échantillons soumis sont correctement assignés.The reliability of the test for samples from sub-Saharan Africa, East Asia and Europe is absolute since all submitted samples are correctly assigned.
2.2.2.Inférence avec les 9 marqueurs du groupe I2.2.2.Inference with the 9 markers of group I
Nous avons ensuite testé si les marqueurs du groupe I qui présentent la plus forte informativité étaient suffisants pour déterminer les origines ethnogéographiques dans le calcul Bayésien (Figure 4). La soumission des seuls génotypes des marqueurs Ml, M2, M5, M6, M7, M9, M15, M24, M30 suffit pour distinguer 3 clusters génétiques au sein des 3 populations d'origine différente. Les échantillons sont tous correctement assignés, même si le calcul avec les seuls 9 SNPs du groupe I fait apparaître une légère proportion d'admixture, notamment chez les asiatiques, non observée avec les 32 marqueurs.We then tested whether group I markers with the highest informativeness were sufficient to determine ethnogeographic origins in Bayesian computation (Figure 4). Submission of the only genotypes of the M1, M2, M5, M6, M7, M9, M15, M24, M30 markers is sufficient to distinguish 3 genetic clusters within the 3 populations of different origin. The samples are all correctly assigned, even if the calculation with the only 9 SNPs in group I shows a slight proportion of admixture, especially among Asians, not observed with the 32 markers.
Les 9 marqueurs du groupe I sont donc suffisants pour distinguer les 3 clusters génétiques présents au sein des populations d'Afrique, d'Asie et d'Europe. L'utilisation des 32 marqueurs Ml à M32 permet d'affiner les proportions d'appartenance de chaque individu. Ceci est lié au fait que, parmi les 9 marqueurs, un seul permet la discrimination Asie versus Afrique/Europe (M 15) et deux différentient l'Europe de l'Asie et de l'Afrique (M24 et M30).The 9 markers of group I are therefore sufficient to distinguish the 3 genetic clusters present in the populations of Africa, Asia and Europe. The use of the 32 markers M1 to M32 makes it possible to refine the proportions of membership of each individual. This is due to the fact that, among the 9 markers, only one allows discrimination Asia versus Africa / Europe (M15) and two differentiate Europe from Asia and Africa (M24 and M30).
La détermination de l'origine ethnogéographique des individus avec seulement 9 marqueurs est donc parfaitement fiable mais au niveau individuel la proportion d'appartenance au groupe d'origine avec l'ensemble des marqueurs est meilleure.The determination of the ethnogeographic origin of individuals with only 9 markers is therefore perfectly reliable, but at the individual level the proportion of belonging to the original group with all the markers is better.
2.3. Inférence de l'origine ethnogéographique de populations intermédiaires2.3. Inference of the ethnogeographic origin of intermediate populations
Après avoir validé notre test sur les 3 populations continentales d'Afrique, d'Asie et d'Europe, nous avons cherché à déterminer les origines ethnogéographiques de deux populations « intermédiaires » en choisissant des individus d'Afrique du Nord (n=l 15) et d'Inde (n=56).After having validated our test on the 3 continental populations of Africa, Asia and Europe, we sought to determine the ethnogeographical origins of two "intermediate" populations by selecting individuals from North Africa (n = 15). ) and India (n = 56).
Les génotypes obtenus pour la population nord africaine ont été intégrés à ceux des 348The genotypes obtained for the North African population were integrated with those of the 348
ADN d'Afrique, d'Asie et d'Europe et soumis au calcul Bayésien (Figures 5 et 6).DNA from Africa, Asia and Europe and Bayesian calculations (Figures 5 and 6).
Si on considère 3 groupes génétiques (Figure 5), l'algorithme Bayésien sépare les populations d'Afrique, d'Asie et d'Europe tandis que la population nord africaine se présente comme un mélange des 3 groupes précédents avec une très forte prédominance du groupe Europe. Certains individus présentent toutefois une très forte appartenance au cluster génétique africain (N°367-389-423-448-454). Si cette fois on considère 4 groupes génétiques (figure 6), la population d'Afrique du Nord apparaît alors comme un groupe génétique à part entière, distinct des 3 autres. En moyenne, 81.2% du pool génétique de la population nord africaine appartient à ce quatrième cluster, ce qui souligne l'entité de ce groupe. Il est intéressant de noter que ce quatrième groupe est issu d'une séparation du groupe Europe et que les individus qui présentaient de forts mélanges avec l'Afrique conservent globalement les mêmes proportions d'admixture (N°367-389-423-454). En dépit de ce quatrième cluster, certains individus présentent tout de même une forte plus forte appartenance à l'Europe (N°401-408-424-446). De même une certaine proportion de métissage avec le quatrième cluster, inhérent à la forte similitude entre certains génotypes nord africains et européens, apparaît chez certains individus européens (N° 401-408-424-446). L'inclusion des échantillons d'Inde aux 4 populations précédentes conduit à une simulation sur 519 échantillons (Figure 7) et conduit à un nouveau cluster génétique qui définit la population originaire d'Inde. Tout comme pour l'Afrique du Nord, la composante européenne est très importante chez certains individus (N°466-475). Il apparaît très clairement sur la figure 7 que parmi les individus du nord de l'Afrique et d'Inde, qui restent caractérisés par un cluster génétique qui leur est propre, nombreux sont ceux qui ont un pourcentage d'appartenance très élevé aux trois autres groupes. Ceci représente un contraste très fort avec les individus subsahariens, asiatiques et européens.If we consider 3 genetic groups (Figure 5), the Bayesian algorithm separates the populations of Africa, Asia and Europe while the North African population presents itself as a mixture of the 3 preceding groups with a very strong predominance of Europe group. Some individuals, however, have a strong affiliation to the African genetic cluster (N ° 367-389-423-448-454). If this time we consider 4 genetic groups (Figure 6), the population of North Africa appears then as a separate genetic group, separate from the other 3. On average, 81.2% of the genetic pool of the North African population belongs to this fourth cluster, which underlines the entity of this group. It is interesting to note that this The fourth group is the result of a division of the Europe group and the individuals with strong mixtures with Africa generally retain the same admixture proportions (N ° 367-389-423-454). Despite this fourth cluster, some individuals still have a strong stronger sense of belonging to Europe (N ° 401-408-424-446). Similarly, a certain proportion of miscegenation with the fourth cluster, inherent to the strong similarity between certain North African and European genotypes, appears in certain European individuals (N ° 401-408-424-446). The inclusion of Indian samples in the previous 4 populations leads to a simulation of 519 samples (Figure 7) and leads to a new genetic cluster that defines the native Indian population. As for North Africa, the European component is very important for some individuals (N ° 466-475). It is very clear in Figure 7 that among the individuals in northern Africa and India, which remain characterized by a genetic cluster of their own, many have a very high percentage of membership in the other three. groups. This represents a very strong contrast with sub-Saharan, Asian and European individuals.
3. Discussion3. Discussion
Nous avons montré par l'analyse de 32 SNPs sur une collection d'ADN d'Afrique subsaharienne, d'Asie de l'Est et d'Europe que les données génétiques permettent d'assigner avec une fiabilité totale les échantillons à des groupes correspondants aux zones continentales majeures. Des études antérieures avaient montré qu'un minimum de 60 séquences AIu ou microsatellites 36 ou encore très récemment de 10 SNPs 37 étaient nécessaires au bon assignement des échantillons. Dans notre cas, l'utilisation des 9 marqueurs qui présentent les valeurs de Fst les plus élevées suffit pour déterminer l'origine ethnogéographique des individus. De plus, le nombre total de marqueurs reste très modeste et facile à mettre en oeuvre du point de vue technique. De plus, il apparaît que même si les marqueurs de l'invention ont été sélectionnés pour leurs fréquences alléliques discriminantes entre les populations d'Afrique, d'Asie et d'Europe, ils permettent aussi de distinguer les populations du nord Afrique et de l'Inde. Ces deux dernières populations apparaissent comme des intermédiaires avec les populations Asie et Europe du fait des marqueurs choisis et des histoires respectives de peuplement. Dans le cas d'une analyse comprenant 3 groupes génétiques, l'Afrique du Nord est assignée majoritairement à l'Europe tandis que l'Inde est incluse dans le cluster Asie. We have shown by the analysis of 32 SNPs on a collection of DNA from sub-Saharan Africa, East Asia and Europe that the genetic data make it possible to assign with total reliability the samples to corresponding groups major continental areas. Previous studies had shown that a minimum of 60 AIu or microsatellite sequences 36 or very recently 10 SNPs 37 were necessary for proper sample assignment. In our case, the use of the 9 markers with the highest Fst values is sufficient to determine the ethnogeographic origin of the individuals. In addition, the total number of markers remains very modest and easy to implement from a technical point of view. Moreover, it appears that even if the markers of the invention have been selected for their discriminant allelic frequencies between the populations of Africa, Asia and Europe, they also make it possible to distinguish the populations of North Africa and Africa. 'India. These last two populations appear as intermediaries with the Asian populations and Europe because of the selected markers and the respective settlement histories. In the case of an analysis comprising 3 genetic groups, North Africa is assigned mainly to Europe while India is included in the Asia cluster.
Tableau 1 Liste des SNPsTable 1 List of SNPs
Réf SNP ID: rs2814778 Allèle Organisme: humain (HOT,O ^agfe/7s) Allèles: A/G Type de molécule: GenomiqueRef SNP ID: rs2814778 allele Organism: Human (HOT, O ^ ag e f / 7s) Alleles: A / G MOLECULE TYPE: Genomic
GGCTGTCAGCGCCTGTGCTTCCAAG \ TAAGAGCCAAGGACTAATGAGGGCCGGCTGTCAGCGCCTGTGCTTCCAAG \ TAAGAGCCAAGGACTAATGAGGGCC
Réf SNP ID: rs2816 Allèle Organisme: humain
Figure imgf000025_0001
Allèles: C/T Type de molécule: Genomique
Ref SNP ID: rs2816 Allele Organism: human
Figure imgf000025_0001
Alleles: C / T Type of molecule: Genomic
ACACTGCATTGCTGGGCTGTGTTCC CGGGCTCTTCTGGACCTTGCACCGTACACTGCATTGCTGGGCTGTGTTCC CGGGCTCTTCTGGACCTTGCACCGT
Réf SNP ID: rs 182549 Allèle Organisme: humain (U_ύ_mn_ sdf_>jύfi Allèles: C/TRef SNP ID: rs 182549 Allele Organism: human (U_ύ_mn_ sdf_> jύfi Alleles: C / T
Type de molécule: GenomiqueMolecule type: Genomic
actgggacaaaggtgtgagccaccg >_ Λ gcccagctGAGAATGCTGTTTTTAAactgggacaaaggtgtgagccaccg> _ Λ gcccagctGAGAATGCTGTTTTTAA
Réf SNP ID: rs2335853 Allèle Organisme: humain (Homo sap,ens) Allèles: A/G Type de molécule: GenomiqueRef SNP ID: rs2335853 Allele Organism: human (Homo sap, ens) Alleles: A / G Molecule type: Genomic
CTCGTTAATGGGTACTCAGTGAATC v CAAACTCTTAAGGATAGAAAGGGGTCTCGTTAATGGGTACTCAGTGAATC v CAAACTCTTAAGGATAGAAAGGGGT
Réf SNP ID: rs2495813 Allèle Organisme: humain (Hθ;no_Srfj)/g»f_) Allèles: C/T Type de molécule GenomiqueRef SNP ID: rs2495813 Allele Organism: human (Hθ; no_Srfj) / g »f_) Alleles: C / T Type of molecule Genomic
ACATTTCTTGTACTCAGGGCTGGTG TATGGGAGAGCTGGAGGTTGCTGTC Réf SNP ID: rs857455 Allèle Organisme: humain
Figure imgf000026_0001
Allèles: A/G Type de molécule Génomique
ACATTTCTTGTACTCAGGGCTGGTG TATGGGAGAGCTGGAGGTTGCTGTC Ref SNP ID: rs857455 Allele Organism: human
Figure imgf000026_0001
Alleles: A / G Type of Molecule Genomics
aaaatctttgtgaaagtttctctgt ^ v> tggagataaaaagatggtacccgtgaaaatctttgtgaaagtttctctgt ^ v> tggagataaaaagatggtacccgtg
Réf SNP ID: rs7326934 Allèle Organisme: humain (HGIVQ sapiens) Allèles: C/G Type de molécule GénomiqueRef SNP ID: rs7326934 Allele Organism: human (HGIVQ sapiens) Alleles: C / G Type of Molecule Genomic
GTGATTTCAAGCATCCTGATTTACA • • TTGCTCACTCAGCCACTCAGAGATGGTGATTTCAAGCATCCTGATTTACA • • TTGCTCACTCAGCCACTCAGAGATG
Réf SNP ID: rs17031237 Allèle Organisme: humain (Homo sapiens) Allèles: C/G Type de molécule GénomiqueRef SNP ID: rs17031237 Allele Organism: human (Homo sapiens) Alleles: C / G Molecule type Genomic
GCGAGCACCAGAAATGACAGGCTCA > > > TGGGGACACGGCAGATAGGTCCCCGGCGAGCACCAGAAATGACAGGCTCA>>> TGGGGACACGGCAGATAGGTCCCCG
Réf SNP ID: rs8079412 Allèle Organisme: humain {Homo sapiens) Allèles: A/T Type de molécule GénomiqueRef SNP ID: rs8079412 Allele Organism: human {Homo sapiens) Alleles: A / T Molecule type Genomic
TGATTATTTCCATTTCACTGATGAG ^ TATACAGTCCCAGGAAGGGCAGGTGTGATTATTTCCATTTCACTGATGAG ^ TATACAGTCCCAGGAAGGGCAGGTG
Réf SNP ID: rs17092950 Allèle Organisme: humain (H_Grno_sag_{eπs) Allèles: C/G Type de molécule GénomiqueRef SNP ID: rs17092950 Allele Organism: human (H_Grno_sag_ {eπs) Alleles: C / G Type of Molecule Genomic
AGCTCACTAGACTACAGGT AAGGAG v v> AGACAGAC AGTAAAC AAATCATGGAAGCTCACTAGACTACAGGT AAGGAG v v> AGACAGAC AGTAAAC AAATCATGGA
Réf SNP ID: rs12261591 Allèle Organisme: humain Allèles: C/T Type de molécule Génomique CTAGGGCAAATGAAAGAGGGAAACA GGATGGCATGGATGCTTTCAGAAGARef SNP ID: rs12261591 Allele Organism: human Alleles: C / T Molecule type Genomic CTAGGGCAAATGAAAGAGGGAAACA GGATGGCATGGATGCTTTCAGAAGA
Réf SNP ID: rs522153 Allèle Organisme: humain (Hcnc sapiens) Allèles: A/G Type de molécule GenomiqueRef SNP ID: rs522153 Allele Organism: human (Hcnc sapiens) Alleles: A / G Molecule type Genomic
AGTGACAGATAAAGTGAAGGGCAAT V ATTTCTGACATTTGCTGCCAGGATCAGTGACAGATAAAGTGAAGGGCAAT V ATTTCTGACATTTGCTGCCAGGATC
Réf SNP ID: rs4427950 Allèle Organisme: humain (honio sapiens) Allèles: C/T Type de molécule GenomiqueRef SNP ID: rs4427950 Allele Organism: human (honio sapiens) Alleles: C / T Type of Molecule Genomic
TGCTGTGTGTTACAATAGCCCTACA >. AGGCTTTGGAAACAATAACACAACCTGCTGTGTGTTACAATAGCCCTACA>. AGGCTTTGGAAACAATAACACAACC
Réf SNP ID: rs2007542 Allèle Organisme: humain (Hcnc sapiens) Allèles: C/T Type de molécule GenomiqueRef SNP ID: rs2007542 Allele Organism: human (Hcnc sapiens) Alleles: C / T Type of molecule Genomic
CTCAACAGGGGTTCTGATGATTTGC ATctgcagttatctggagacttgagCTCAACAGGGGTTCTGATGATTTGC ATctgcagttatctggagacttgag
Réf SNP ID: rs1389600 Allèle Organisme: humain (Uf.'.UlQ.M^M.R^) Allèles: GfT Type de molécule GenomiqueRef SNP ID: rs1389600 Allele Organism: human (U. U. U.M.M.RTM) Alleles: GfT Molecule Type Genomic
TTAGTAAGGTGGAAGAAGACCCTAT CAATGGGTGGCACTATCTCCATATTTTAGTAAGGTGGAAGAAGACCCTAT CAATGGGTGGCACTATCTCCATATT
Réf SNP ID: rs12594144 Allèle Organisme: humain (honio sapiens) Allèles: A/C Type de molécule GenomiqueRef SNP ID: rs12594144 Allele Organism: human (honio sapiens) Alleles: A / C Molecule type Genomic
CAGTCTGGGTCCTAATTGTTTGTGA ^ v. TCTTTTTCAGGGTGGGAGCAGGGTGCAGTCTGGGTCCTAATTGTTTGTGA ^ v. TCTTTTTCAGGGTGGGAGCAGGGTG
Réf SNP ID: rs4830702 Allèle Organisme: humain (Ho1HO sapiens) Allèles: A/G Type de molécule GénomiqueRef SNP ID: rs4830702 Allele Organism: human (Ho 1 HO sapiens) Alleles: A / G Genomic molecule type
GTGAGGGGAGAGCTGCTTCAGACGA - i. GGTGAGGAGTGACATGGACAGTGTGGTGAGGGGAGAGCTGCTTCAGACGA - i. GGTGAGGAGTGACATGGACAGTGTG
Réf SNP ID: rs10918999 Allèle Organisme: humain {Homo sapiens) Allèles: C/T Type de molécule GénomiqueRef SNP ID: rs10918999 Allele Organism: human {Homo sapiens) Alleles: C / T Type of Molecule Genomic
TTTGATTGGATTTCCATTTTCAGGGL< 1 ATAATCCATTTTCAAGATGTATCAATTTGATTGGATTTCCATTTTCAGGG L <1 ATAATCCATTTTCAAGATGTATCAA
Réf SNP ID: rs16867765 Allèle Organisme: humain (/./(;mo s^g/çf;s) Allèles: A/T Type de molécule GénomiqueRef SNP ID: rs16867765 Allele Organism: human (/ . / (; Mo s ^ g / cf; s) Alleles: A / T Type of Molecule Genomic
TCAAGATCTGTCACGGGAAGAATTT^ ^ 1 AAAAAACTGGCGGCTAAGCAGAATGTCAAGATCTGTCACGGGAAGAATTT ^ ^ 1 AAAAAACTGGCGGCTAAGCAGAATG
Réf SNP ID: rs16938528 Allèle Organisme: humain {Homo sapiens) Allèles: A/G Type de molécule GénomiqueRef SNP ID: rs16938528 Allele Organism: human {Homo sapiens) Alleles: A / G Type of Molecule Genomic
GTTTCACATTAGCGATAACGAGAGA V ^ CTGGTGAGATCTTCTTCCCAGAATGGTTTCACATTAGCGATAACGAGAGA V ^ CTGGTGAGATCTTCTTCCCAGAATG
Réf SNP ID: rs10842028 Allèle Organisme: humain {Homo sapiens) Allèles: C/T Type de molécule GénomiqueRef SNP ID: rs10842028 Allele Organism: human {Homo sapiens) Alleles: C / T Type of Molecule Genomic
CACTCTCACCTTGGTTAGGCCTGTG v. 1 GTCTCTCATAGATCCTTGTTACAGCCACTCTCACCTTGGTTAGGCCTGTG v. 1 GTCTCTCATAGATCCTTGTTACAGC
Réf SNP ID: rs4414866 Allèle Organisme: humain (HGIVQ sapiens) Allèles: C/T Type de molécule GénomiqueRef SNP ID: rs4414866 Allele Organism: human (HGIVQ sapiens) Alleles: C / T Molecule type Genomic
ATTTCTTTGTATTGTTTTCTCCCAG - ; GATGCAAATTATATTAAATATAATA Réf SNP ID: rs1297321 Allèle Organisme: humain (Homo sapiens) Allèles: A/G Type de molécule GenomiqueATTTCTTTGTATTGTTTTCTCCCAG -; GATGCAAATTATATTAAATATAATA Ref SNP ID: rs1297321 Allele Organism: human (Homo sapiens) Alleles: A / G Molecule type Genomic
CTGAAACCATCAGATAACACAAATC [ A/G] TGATGGCTAAAATACATTGTTGAACCTGAAACCATCAGATAACACAAATC [A / G] TGATGGCTAAAATACATTGTTGAAC
Réf SNP ID: rs7161203 Allèle Organisme: humain (Homo sapiens) Allèles: A/C Type de molécule GenomiqueRef SNP ID: rs7161203 Allele Organism: human (Homo sapiens) Alleles: A / C Molecule type Genomic
TATCTAGCTTAGAACATCCCTAAGA [ A/C] GTCAGTTGTTCATATTTTGACAGCATATCTAGCTTAGAACATCCCTAAGA [A / C] GTCAGTTGTTCATATTTTGACAGCA
Réf SNP ID: rs1441098 Allèle Organisme: humain (Homo sapiens) Allèles: A/T Type de molécule GenomiqueRef SNP ID: rs1441098 Allele Organism: human (Homo sapiens) Alleles: A / T Molecule type Genomic
CGCTTGCCAAGAGTGTGGAATCTCA [ A/T] TTCTTCCCACCTTCCTACCATCTTTCGCTTGCCAAGAGTGTGGAATCTCA [A / T] TTCTTCCCACCTTCCTACCATCTTT
Réf SNP ID: rs35397 Allèle Organisme: humain (Homo sapiens) Allèles: G/T Type de molécule GenomiqueRef SNP ID: rs35397 Allele Organism: human (Homo sapiens) Alleles: G / T Molecule type Genomic
TCAGTGTCTTCACAGCTGCAACTTA [ G/T] GTAAGTGGAGGTTAAGAGGCTCAGATCAGTGTCTTCACAGCTGCAACTTA [G / T] GTAAGTGGAGGTTAAGAGGCTCAGA
Réf SNP ID: rs10189663 Allèle Organisme: humain (Homo sapiens) Allèles: A/T Type de molécule GenomiqueRef SNP ID: rs10189663 Allele Organism: human (Homo sapiens) Alleles: A / T Molecule type Genomic
TTCTTCTTCCATAAAATGCACCACC [ A/T] TGGACAGTCAAAAGAAGTAATTTAATTCTTCTTCCATAAAATGCACCACC [AT / T] TGGACAGTCAAAAGAAGTAATTTAA
Réf SNP ID: rs260692 Allèle Organisme: humain (hcrπo sapiens) Allèles: C/T Type de molécule GenomiqueRef SNP ID: rs260692 Allele Organism: human (hcrπo sapiens) Alleles: C / T Type of molecule Genomic
AATGTTTGGAAATAATTCCACAAAC V GTGTAGCATGACAAAAACATACTTAAATGTTTGGAAATAATTCCACAAAC V GTGTAGCATGACAAAAACATACTTA
Réf SNP ID: rs7866023 Allèle Organisme: humain (H_Grno_scβ> _{f_πs) Allèles: C/T Type de molécule GenomiqueRef SNP ID: rs7866023 Allele Organism: human (H_Grno_scβ> _ {f_πs) Alleles: C / T Type of Molecule Genomic
GGAGTAGAAACTACTCTCTGCAGCA GTACTTTCATTTTATACCCTACCAGGGAGTAGAAACTACTCTCTGCAGCA GTACTTTCATTTTATACCCTACCAG
Réf SNP ID: rs5981317 Allèle Organisme: humain (H_Grno_scβ> _{f_πs) Allèles: C/T Type de molécule GenomiqueRef SNP ID: rs5981317 Allele Organism: human (H_Grno_scβ> _ {f_πs) Alleles: C / T Type of molecule Genomic
TTACGCACTGCCTAGAGTACAGCTA •, n GAAGACAATTTTCTAATTCACAGAATTACGCACTGCCTAGAGTACAGCTA •, n GAAGACAATTTTCTAATTCACAGAA
Réf SNP ID: rs973649 Allèle Organisme: humain (Ho1HO sapiens) Allèles: C/T Type de molécule GenomiqueRef SNP ID: rs973649 Allele Organism: human (Ho 1 HO sapiens) Alleles: C / T Molecule type Genomic
tatagcacacagcgctcaaaagata \. ctgtGagccaggtgtgctggccctgtatagcacacagcgctcaaaagata \. ctgtGagccaggtgtgctggccctg
Réf SNP ID: rs2413887 Allèle Organisme: humain (Uf.'.iïlQ Sjβif ns) Allèles: C/T Type de molécule GenomiqueRef SNP ID: rs2413887 Allele Organism: Human (Uf 'iïlQ Sjβif ns..) Alleles: C / T type molecule Genomics
GAATCAGTTTTATAACTGGGGACTT v TGTTTTTAATAATATTTTGTTATTA Tableau 2. Liste des amorces et des sondes utilisées dans les assays Taqman synthétisés à façon.
Figure imgf000031_0001
Figure imgf000032_0001
GAATCAGTTTTATAACTGGGGACTT v TGTTTTTAATAATATTTTGTTATTA Table 2. List of primers and probes used in custom synthesized Taqman assays.
Figure imgf000031_0001
Figure imgf000032_0001
Tableau 3. Liste des SNPs de l'étude et ségrégation des allèles par population
Figure imgf000032_0002
Tableau 4. Classification de l'informativité des marqueurs selon leurs valeurs Fst.
Table 3. List of SNPs in the study and segregation of alleles by population
Figure imgf000032_0002
Table 4. Classification of the informativity of the markers according to their values Fst.
Figure imgf000033_0001
Tableau 5 Exemples de profils de référence caractéristiques de populations.
Figure imgf000034_0001
Références bibliographiques
Figure imgf000033_0001
Table 5 Examples of reference profiles characteristic of populations.
Figure imgf000034_0001
Bibliographical references
I Jeffreys AJ, Wilson V, Thein SL: Individual-specific 'fingerprints' of human DNA. Nature 1985; 316: 76-79. 2 Jeffreys AJ, Wilson V, Thein SL: Hypervariable 'minisatellite' régions in humanI Jeffreys AJ, Wilson V, Thein SL: Individual-specific 'fingerprints' of human DNA. Nature 1985; 316: 76-79. 2 Jeffreys AJ, Wilson V, Thein SL: Hypervariable 'minisatellite' regions in human
DNA. Nature 1985; 314: 67-73.DNA. Nature 1985; 314: 67-73.
3 Jeffreys AJ: Genetic fingerprinting. Nat Med 2005; 11: 1035-1039.3 Jeffreys AJ: Genetic fingerprinting. Nat Med 2005; 11: 1035-1039.
4 Jobling MA, GiIl P: Encoded évidence: DNA in forensic analysis. Nat Rev Genêt 2004; 5: 739-751. 5 Lewontin RC: The apportionment of human diversity. Evol. Biol 1972; 6: 381-4 Jobling MA, GiI P: Encoded evidence: DNA in forensic analysis. Nat Rev Genet 2004; 5: 739-751. 5 Lewontin RC: The Apportionment of Human Diversity. Evol. Biol 1972; 6: 381-
398.398.
6 Barbujani G, Magagni A, Minch E, Cavalli-Sforza LL: An apportionment of human DNA diversity. Proc Natl Acad Sci USA 1997; 94: 4516-4519.6 Barbujani G, Magagni A, Minch E, Cavalli-Sforza LL: An apportionment of human DNA diversity. Proc Natl Acad Sci USA 1997; 94: 4516-4519.
7 Tishkoff SA, Verrelli BC: Patterns of human genetic diversity: implications for human evolutionary history and disease. Annu Rev Genomics Hum Genêt 2003;7 Tishkoff SA, Verrelli BC: Patterns of human genetic diversity: implications for human evolutionary history and disease. Annu Rev Genomics Hum Genet 2003;
4: 293-340.4: 293-340.
8 Pakendorf B, Stoneking M: Mitochondrial DNA and human évolution. Annu Rev Genomics Hum Genêt 2005; 6: 165-183.8 Pakendorf B, Stoneking M: Mitochondrial DNA and human evolution. Annu Rev Genomics Hum Genet 2005; 6: 165-183.
9 The International HapMap Project. Nature 2003; 426: 789-796. 10 Altshuler D, Brooks LD, Chakravarti A, Collins FS, DaIy MJ, Donnelly P: A haplotype map of the human génome. Nature 2005; 437: 1299-1320.9 The International HapMap Project. Nature 2003; 426: 789-796. Altshuler D, Brooks LD, Chakravarti A, Collins FS, DaIy MJ, Donnelly P: A haplotype map of the human genome. Nature 2005; 437: 1299-1320.
I I Hinds DA, Stuve LL, Nilsen GB et a Whole-genome patterns of common DNA variation in three human populations. Science 2005; 307: 1072-1079.Hinds DA, Stuve LL, Nilsen GB and Whole-genome patterns of common DNA variation in three human populations. Science 2005; 307: 1072-1079.
12 Wall JD, Pritchard JK: Haplotype blocks and linkage disequilibrium in the human génome. Nat Rev Genêt 2003; 4: 587-597.12 Wall JD, Pritchard JK: Haplotype blocks and disequilibrium linkage in the human genome. Nat Rev Genet 2003; 4: 587-597.
13 Hinds DA, Stokowski RP, Patil N et ah Matching stratégies for genetic association studies in structured populations. Am J Hum Genêt 2004; 74: 317- 325.13 DA Hinds, Stokowski RP, Patil N and Matching Strategies for Genetic Structures. Am J Hum Genet 2004; 74: 317-325.
14 Campbell CD, Ogburn EL, Lunetta KL et a Demonstrating stratification in a European American population. Nat Genêt 2005; 37: 868-872.14 Campbell CD, Ogburn EL, KL Lunetta and Demonstrating Stratification in a European American population. Nat Genet 2005; 37: 868-872.
15 Freedman ML, Reich D, Penney KL et a Assessing the impact of population stratification on genetic association studies. Nat Genêt 2004; 36: 388-393.Freedman ML, Reich D, Penney KL and Assessing the impact of population stratification on genetic association studies. Nat Genet 2004; 36: 388-393.
16 Chakraborty R, Weiss KM: Admixture as a tool for finding linked gènes and detecting that différence from allelic association between loci. Proc Natl Acad Sci USA 1988; 85: 9119-9123.16 Chakraborty R, Weiss KM: Admixture as a tool for finding genes and detecting that difference from allelic association between loci. Proc Natl Acad Sci USA 1988; 85: 9119-9123.
17 Smith MW, O'Brien SJ: Mapping by admixture linkage disequilibrium: advances, limitations and guidelines. Nat Rev Genêt 2005; 6: 623-632.17 Smith MW, O'Brien SJ: Mapping by admixture disequilibrium linkage: advances, limitations and guidelines. Nat Rev Genet 2005; 6: 623-632.
18 Chakraborty R, Weiss KM: Frequencies of complex diseases in hybrid populations. Am JPhys Anthropol 1986; 70: 489-503. 19 Shriver MD, Parra EJ, Dios S et a Skin pigmentation, biogeographical ancestry and admixture mapping. Hum Genêt 2003; 112: 387-399.18 Chakraborty R, Weiss KM: Frequencies of complex diseases in hybrid populations. Am JPhys Anthropol 1986; 70: 489-503. 19 Shriver MD, Parra EJ, Dios S and Skin pigmentation, biogeographical ancestry and admixture mapping. Hum Genet 2003; 112: 387-399.
20 Kittles RA, Weiss KM: Race, ancestry, and gènes: implications for defining disease risk. Annu Rev Genomics Hum Genêt 2003; 4: 33-67.20 Kittles RA, Weiss KM: Race, ancestry, and genes: implications for defining disease risk. Annu Rev Genomics Hum Genet 2003; 4: 33-67.
21 Rana BK, Hewett-Emmett D, Jin L et a High polymorphism at the human melanocortin 1 receptor locus. Genetics 1999; 151: 1547-1557.Rana BK, Hewett-Emmett D, Jin L and High polymorphism at the human melanocortin 1 receptor locus. Genetics 1999; 151: 1547-1557.
22 Hollox EJ, Poulter M, Zvarik M et a Lactase haplotype diversity in the Old World. Am J Hum Genêt 2001; 68: 160-172. 23 Hamblin MT, Thompson EE, Di Rienzo A: Complex signatures of natural sélection at the Duffy blood group locus. Am J Hum Genêt 2002; 70: 369-383.22 Hollox EJ, Poulter M, Zvarik M and Lactase haplotype diversity in the Old World. Am J Hum Genet 2001; 68: 160-172. 23 Hamblin MT, Thompson EE, Di Rienzo A: Complex signatures of natural selection at the Duffy blood group locus. Am J Hum Genet 2002; 70: 369-383.
24 Jobling MA, Hurles ME, Tyler-Smith C: Human evolutionary genetics. Origins, peoples and disease. Garland Science, 2004. 25 Wellems TE, Fairhurst RM: Malaria-protective traits at odds in Africa? Nat Genêt 2005; 37: 1160-1162.24 Jobling MA, Hurles ME, Tyler-Smith C: Human evolutionary genetics. Origins, peoples and disease. Garland Science, 2004. 25 Wellems TE, Fairhurst RM: Malaria-protective traits at odds in Africa? Nat Genet 2005; 37: 1160-1162.
26 Kwiatkowski DP: How malaria has affected the human génome and what human genetics can teach us about malaria. Am J Hum Genêt 2005; 77: 171-192.26 Kwiatkowski DP: How malaria has affected the human genome and what human genetics can teach us about malaria. Am J Hum Genet 2005; 77: 171-192.
27 Bersaglieri T, Sabeti PC, Patterson N et a Genetic signatures of strong récent positive sélection at the lactase gène. Am J Hum Genêt 2004; 74: 1111-1120.27 Bersaglieri T, Sabeti PC, Patterson N and Genetic signatures of strong recent positive selection at the lactase gene. Am J Hum Genet 2004; 74: 1111-1120.
28 Mulcare CA, Weale ME, Jones AL et a The T allele of a single-nucleotide polymorphism 13.9 kb upstream of the lactase gène (LCT) (C-13.9kbT) does not predict or cause the lactase-persistence phenotype in Africans. Am J Hum Genêt 2004; 74: 1102-1110. 29 Hollox E: Evolutionary genetics: genetics of lactase persistence—fresh lessons in the history of milk drinking. Eur JHum Genêt 2005; 13: 267-269.28 Mulcare CA, ME Weale, AL Jones and The T allele of a single-nucleotide polymorphism 13.9 kb upstream of the lactase gene (LCT) (C-13.9kbT) does not predict the cause of lactase-persistence phenotype in Africans. Am J Hum Genet 2004; 74: 1102-1110. 29 Hollox E: Evolutionary genetics: the genetics of lactase persistence-fresh lessons in the history of milk drinking. Eur JHum Genet 2005; 13: 267-269.
30 Akey JM, Zhang G, Zhang K, Jin L, Shriver MD: Interrogating a high-density SNP map for signatures of natural sélection. Génome Res 2002; 12: 1805-1814.30 Akey JM, Zhang G, Zhang K, L Jin, Shriver MD: High-density SNP map for signatures of natural selection. Genome Res 2002; 12: 1805-1814.
31 The use of racial, ethnie, and ancestral catégories in human genetics research. Am J Hum Genêt 2005; 77: 519-532.31 The use of racial, ethnic, and ancestral categories in human genetics research. Am J Hum Genet 2005; 77: 519-532.
32 Inouye S, Hondo R: Microplate hybridization of amplified viral DNA segment. J Clin Microbiol 1990; 28: 1469-1472.32 Inouye S, Hondo R: Microplate hybridization of amplified viral DNA segment. J Clin Microbiol 1990; 28: 1469-1472.
33 Parra EJ, Marcini A, Akey J et a Estimating African American admixture proportions by use of population-specific alleles. Am J Hum Genêt 1998; 63: 1839-1851.33 Parra EJ, Marcini A, Akey J and Estimating African American admixture proportions by use of population-specific alleles. Am J Hum Genet 1998; 63: 1839-1851.
34 Weir BS, Cockerham CC: Estimating F-statistics for the analysis of population structure. Evolution 1984; 38: 1358-1370.34 Weir BS, Cockerham CC: Estimating F-statistics for the analysis of population structure. Evolution 1984; 38: 1358-1370.
35 Weir BS, HiIl WG: Estimating F-statistics. Annu Rev Genêt 2002; 36: 721-750.Weir BS, Hi WG: Estimating F-statistics. Annu Rev Genet 2002; 36: 721-750.
36 Bamshad MJ, Wooding S, Watkins WS, Ostler CT, Batzer MA, Jorde LB: Human population genetic structure and inference of group membership. Am J36 Bamshad MJ, Wooding S, WS Watkins, Ostler CT, Batzer MA, Jorde LB: Human population genetic structure and inference of group membership. Am J
Hum Genêt 2003; 72: 578-589.Hum Genet 2003; 72: 578-589.
37 Lao O, van Duijn K, Kersbergen P, de Knijff P, Kayser M: Proportioning Whole-Genome Single-Nucleotide-Polymorphism Divers ity for the Identification of Géographie Population Structure and Genetic Ancestry. Am J Hum Genêt 2006; 78: 680-690. 37 Lao O, van Duijn K, Kersbergen P, Knijff P, Kayser M: Proportioning Whole-Genome Single-Nucleotide-Polymorphism Diversity for the Identification of Geography Population Structure and Genetic Ancestry. Am J Hum Genet 2006; 78: 680-690.

Claims

REVENDICATIONS
1. Méthode pour déterminer l'origine ethnogéographique d'un individu, comprenant la détermination, dans un échantillon d'acide nucléique, de préférence d'ADN, provenant de l'individu, des allèles d'un ensemble de polymorphismes de nucléotides (SNPs) localisés dans des régions non-codantes du génome, pour obtenir un ensemble d'allèles, cet ensemble d'allèles étant une indication du groupe ethnogéographique auquel l'individu appartient, l'ensemble de SNPs comprenant au moins 5 SNPs choisis parmi les SNPs identifiés dans le Tableau 1.A method for determining the ethnogeographic origin of an individual, comprising determining, in a nucleic acid sample, preferably DNA, from the individual, alleles of a set of nucleotide polymorphisms (SNPs) ) located in non-coding regions of the genome, to obtain a set of alleles, this set of alleles being an indication of the ethnogeographic group to which the individual belongs, the set of SNPs comprising at least 5 SNPs selected from the SNPs identified in Table 1.
2. Méthode selon la revendication 1, caractérisée en ce que l'ensemble de SNPs comprend au moins 6, 7, 8, 9, 10, 15, 20, 25 ou 30 SNPs identifiés dans le Tableau 1.2. Method according to claim 1, characterized in that the set of SNPs comprises at least 6, 7, 8, 9, 10, 15, 20, 25 or 30 SNPs identified in Table 1.
3. Méthode selon la revendication 1 ou 2, caractérisée en ce que l'ensemble de SNPs comprend la totalité des 32 SNPs mentionnés dans le Tableau 1.3. Method according to claim 1 or 2, characterized in that the set of SNPs comprises all 32 SNPs mentioned in Table 1.
4. Méthode selon la revendication 1 ou 2, caractérisée en ce que l'ensemble de SNPs comprend au moins les 9 SNPs Ml, M2, M5, M6, M7, M9, M15, M24 et M30 tels que définis dans le tableau 3.4. Method according to claim 1 or 2, characterized in that the set of SNPs comprises at least the 9 SNPs M1, M2, M5, M6, M7, M9, M15, M24 and M30 as defined in Table 3.
5. Méthode selon la revendication 1 ou 2, caractérisée en ce que l'ensemble de SNPs comprend5. Method according to claim 1 or 2, characterized in that the set of SNPs comprises
- au moins 5 SNPs parmi les SNPs Ml, M2, M3, M4, M5, M6, M7, M8 et M9 présentés dans le tableau 3; ou - au moins 5 SNPs parmi les SNPs M20, M21, M22, M23, M24, M25, M26, M27,at least 5 SNPs among the SNPs M1, M2, M3, M4, M5, M6, M7, M8 and M9 shown in Table 3; or - at least 5 SNPs among the SNPs M20, M21, M22, M23, M24, M25, M26, M27,
M28, M29, M30, M31 et M32 présentés dans le tableau 3; ouM28, M29, M30, M31 and M32 shown in Table 3; or
- au moins 5 SNPs parmi les SNPs MlO, Mi l, M12, M13, M14, M15, M16, M17, Ml 8 et Ml 9 présentés dans le tableau 3.at least 5 SNPs among the MlO, MiI, M12, M13, M14, M15, M16, M17, M18 and M13 SNPs shown in Table 3.
6. Méthode selon l'une des revendications 1 à 5, caractérisée en ce que l'ensemble d'allèles déterminé à partir de l'échantillon d'acide nucléique de l'individu est comparé à un ou plusieurs ensembles d'allèles de référence caractéristiques de groupes ethnogéographiques, et en ce que la probabilité d'appartenance de l'individu à l'un de ces groupes est calculée.6. Method according to one of claims 1 to 5, characterized in that the set of alleles determined from the nucleic acid sample of the individual is compared to one or more sets of reference alleles. group characteristics ethnogeographic, and in that the probability of belonging to one of these groups is calculated.
7. Méthode selon la revendication 6, caractérisée en ce que les ensembles d'allèles de référence sont des ensembles caractéristiques des populations européenne, africaine saharienne, asiatique, nord-africaine et/ou indienne.7. Method according to claim 6, characterized in that the sets of reference alleles are characteristic sets of the European, Saharan, Asian, North African and / or Indian populations.
8. Méthode selon la revendication 6 ou 7, caractérisée en ce que la probabilité d'appartenance de l'individu à l'un des groupes de référence est calculée par une méthode Bayésienne.8. Method according to claim 6 or 7, characterized in that the probability of membership of the individual to one of the reference groups is calculated by a Bayesian method.
9. Méthode selon l'une quelconque des revendications précédentes, caractérisée en ce que les allèles sont déterminés par séquençage, hybridation sélective et/ou amplification sélective.9. Method according to any one of the preceding claims, characterized in that the alleles are determined by sequencing, selective hybridization and / or selective amplification.
10. Méthode selon l'une quelconque des revendications précédentes, caractérisée en ce que l'échantillon d'acide nucléique provient d'un fluide ou tissu biologique de l'individu.10. Method according to any one of the preceding claims, characterized in that the nucleic acid sample comes from a fluid or biological tissue of the individual.
11. Méthode selon l'une quelconque des revendications précédentes, caractérisée en ce que l'échantillon d'acide nucléique provient d'un prélèvement médico-légal.11. Method according to any one of the preceding claims, characterized in that the nucleic acid sample comes from a medico-legal sample.
12. Méthode selon l'une quelconque des revendications précédentes, caractérisée en ce que l'acide nucléique provenant de l'individu est amplifié préalablement.12. Method according to any one of the preceding claims, characterized in that the nucleic acid from the individual is amplified beforehand.
13. Kit pour la mise en œuvre d'une méthode selon l'une quelconque des revendications 1 à 12, comprenant un ensemble de sondes nucléotidiques spécifiques d'un allèle au moins, de préférence de chaque allèle, des SNPs de l'ensemble de SNPs et/ou un ensemble d'amorces nucléotidiques permettant une amplification spécifique d'un allèle au moins, de préférence de chaque allèle des SNPs de l'ensemble de SNPs.Kit for the implementation of a method according to any one of claims 1 to 12, comprising a set of nucleotide probes specific for at least one allele, preferably each allele, SNPs of the set of SNPs and / or a set of nucleotide primers for specific amplification of at least one allele, preferably each SNPs allele of the set of SNPs.
14. Kit selon la revendication 13, caractérisé en ce que les sondes nucléotidiques sont immobilisées sur un support. 14. Kit according to claim 13, characterized in that the nucleotide probes are immobilized on a support.
15. Produit comprenant un support sur lequel sont immobilisées des sondes nucléotidiques, lesdites sondes étant spécifiques de chaque allèle des SNPs d'un ensemble de SNPs défini dans l'une quelconque des revendications 1 à 5.15. A product comprising a support on which nucleotide probes are immobilized, said probes being specific for each SNPs allele of a set of SNPs defined in any one of claims 1 to 5.
16. Utilisation d'un ensemble de sondes nucléotidiques spécifiques d'un allèle au moins des SNPs d'un ensemble de SNPs défini dans l'une quelconque des revendications 1 à 5 et/ou d'un ensemble d'amorces nucléotidiques permettant une amplification spécifique de chaque SNP d'un ensemble des SNPs défini dans l'une quelconque des revendications 1 à 5, pour déterminer in vitro l'origine ethnogéographique d'un individu.16. Use of a set of nucleotide probes specific for an allele at least SNPs of a set of SNPs defined in any one of claims 1 to 5 and / or a set of nucleotide primers for amplification specific to each SNP of a set of SNPs defined in any one of claims 1 to 5 for determining in vitro the ethnogeographic origin of an individual.
17. Acide nucléique comprenant une séquence choisie parmi les séquences données dans le tableau 2. 17. Nucleic acid comprising a sequence chosen from the sequences given in Table 2.
PCT/FR2007/052330 2006-11-15 2007-11-13 Methods and tools for determining the origin of an individual WO2008059165A2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0654911 2006-11-15
FR0654911A FR2914316A1 (en) 2006-11-15 2006-11-15 METHODS AND TOOLS FOR DETERMINING THE ORIGIN OF A SUBJECT.

Publications (2)

Publication Number Publication Date
WO2008059165A2 true WO2008059165A2 (en) 2008-05-22
WO2008059165A3 WO2008059165A3 (en) 2008-10-02

Family

ID=39366231

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2007/052330 WO2008059165A2 (en) 2006-11-15 2007-11-13 Methods and tools for determining the origin of an individual

Country Status (2)

Country Link
FR (1) FR2914316A1 (en)
WO (1) WO2008059165A2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110273005A (en) * 2019-05-25 2019-09-24 深圳市早知道科技有限公司 A method of the similitude compared with ancients based on SNP parting
CN111118168A (en) * 2018-11-01 2020-05-08 中国科学院北京基因组研究所 SNP marker combination for deducing main ethnic group of northwest China and adjacent middle and Asia countries
CN112011622A (en) * 2019-05-29 2020-12-01 公安部物证鉴定中心 Method and system for analyzing non-east Asia and European population sources of individuals with unknown sources

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004016768A2 (en) * 2002-08-19 2004-02-26 Dnaprint Genomics, Inc. Compositions and methods for inferring ancestry

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004016768A2 (en) * 2002-08-19 2004-02-26 Dnaprint Genomics, Inc. Compositions and methods for inferring ancestry

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ALLOCCO DOMINIC J ET AL: "Geography and genography: prediction of continental origin using randomly selected single nucleotide polymorphisms." BMC GENOMICS 2007, ARTICLE NO. 68, vol. 8, 10 mars 2007 (2007-03-10), XP002481390 ISSN: 1471-2164 *
MULCARE CHARLOTTE A ET AL: "The T allele of a single-nucleotide polymorphism 13.9 kb upstream of the lactase gene (LCT) (C-13.9kbT) does not predict or cause the lactase-persistence phenotype in Africans" AMERICAN JOURNAL OF HUMAN GENETICS, vol. 74, no. 6, juin 2004 (2004-06), pages 1102-1110, XP002481388 ISSN: 0002-9297 cité dans la demande *
PARRA E J ET AL: "Estimating african american admixture proportions by use of population-specific alleles" AMERICAN JOURNAL OF HUMAN GENETICS, AMERICAN SOCIETY OF HUMAN GENETICS, CHICAGO, IL, US, vol. 63, 1 janvier 1998 (1998-01-01), pages 1839-1851, XP002310801 ISSN: 0002-9297 cité dans la demande *
SHRIVER MARK D ET AL: "Skin pigmentation, biogeographical ancestry and admixture mapping." HUMAN GENETICS, vol. 112, no. 4, avril 2003 (2003-04), pages 387-399, XP002481389 ISSN: 0340-6717 cité dans la demande *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111118168A (en) * 2018-11-01 2020-05-08 中国科学院北京基因组研究所 SNP marker combination for deducing main ethnic group of northwest China and adjacent middle and Asia countries
CN111118168B (en) * 2018-11-01 2022-04-29 中国科学院北京基因组研究所 SNP marker combination for deducing main ethnic group of northwest China and adjacent middle and Asia countries
CN110273005A (en) * 2019-05-25 2019-09-24 深圳市早知道科技有限公司 A method of the similitude compared with ancients based on SNP parting
CN112011622A (en) * 2019-05-29 2020-12-01 公安部物证鉴定中心 Method and system for analyzing non-east Asia and European population sources of individuals with unknown sources

Also Published As

Publication number Publication date
WO2008059165A3 (en) 2008-10-02
FR2914316A1 (en) 2008-10-03

Similar Documents

Publication Publication Date Title
US9920370B2 (en) Haplotying of HLA loci with ultra-deep shotgun sequencing
KR101752137B1 (en) Genetic polymorphic markers for determining type of moisture skin and use thereof
EP3006571B1 (en) Hla gene multiplex dna typing method and kit
JP2007526764A (en) APOE gene marker related to age of onset of Alzheimer&#39;s disease
Dunn Novel approaches and technologies in molecular HLA typing
US20050255498A1 (en) APOC1 genetic markers associated with age of onset of Alzheimer&#39;s Disease
WO2008059165A2 (en) Methods and tools for determining the origin of an individual
CN116323979A (en) Methods, compositions and kits for HLA typing
KR101761801B1 (en) Composition for determining nose phenotype
WO2021152257A1 (en) Simple and rapid hla genotyping method
JP2007510404A (en) NTRK1 gene marker associated with age of onset of Alzheimer&#39;s disease
KR101985659B1 (en) Method for identification of Baekwoo breed using single nucleotide polymorphism markers
JP2007514417A (en) NTRK1 gene marker associated with progression of Alzheimer&#39;s disease
KR102083675B1 (en) Method for identification of Chikso breed using single nucleotide polymorphism markers
US20050255495A1 (en) SLC5A7 genetic markers associated with age of onset of Alzheimer&#39;s disease
KR101700623B1 (en) Novel SNP marker for discriminating level of amylase within porcine blood and use thereof

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07858688

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 07858688

Country of ref document: EP

Kind code of ref document: A2