KR20220114958A - 형질전환 식물체에서 차세대 염기서열 분석을 위한 프로브 세트의 제조 방법 - Google Patents

형질전환 식물체에서 차세대 염기서열 분석을 위한 프로브 세트의 제조 방법 Download PDF

Info

Publication number
KR20220114958A
KR20220114958A KR1020210018615A KR20210018615A KR20220114958A KR 20220114958 A KR20220114958 A KR 20220114958A KR 1020210018615 A KR1020210018615 A KR 1020210018615A KR 20210018615 A KR20210018615 A KR 20210018615A KR 20220114958 A KR20220114958 A KR 20220114958A
Authority
KR
South Korea
Prior art keywords
dna
region
vector
probe
generation sequencing
Prior art date
Application number
KR1020210018615A
Other languages
English (en)
Inventor
여윤구
박진만
최규홍
신진희
성동렬
김현정
Original Assignee
주식회사 엘지화학
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엘지화학 filed Critical 주식회사 엘지화학
Priority to KR1020210018615A priority Critical patent/KR20220114958A/ko
Publication of KR20220114958A publication Critical patent/KR20220114958A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/16Assays for determining copy number or wherein the copy number is of special importance
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/13Plant traits

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

목적 유전자를 포함하는 T-DNA 를 포함하는 벡터가 도입된 식물에서 표적 특이적 차세대 염기서열 분석을 위한 프로브 세트의 제조 방법, 상기 제조된 프로브 세트를 이용한 차세대 염기서열 분석 방법, 및 도입된 목적 유전자의 염색체 내 삽입된 위치 및/또는 유전자의 카피수를 확인하는 방법에 관한 것이다.

Description

형질전환 식물체에서 차세대 염기서열 분석을 위한 프로브 세트의 제조 방법 {Method for manufacturing probe set used for next generation sequencing in transgenic plant}
목적 유전자를 포함하는 T-DNA 를 포함하는 벡터가 도입된 식물에서 표적 특이적 차세대 염기서열 분석을 위한 프로브 세트의 제조 방법, 상기 제조된 프로브 세트를 이용한 차세대 염기서열 분석 방법, 및 도입된 목적 유전자의 염색체 내 삽입된 위치 및/또는 유전자의 카피수를 확인하는 방법에 관한 것이다.
T-DNA 시스템을 이용하여 외래 유전자를 식물에 도입하여 형질전환 식물을 개발함에 있어서, 외래 유전자가 식물 염색체의 어디에 삽입되었는지를 확인하는 것은 반드시 필요한 작업이다. 형질전환체의 DNA 를 품질관리(QC)하는 목적은 크게 2가지이다. 하나는, 향후 상용 품종 출시를 위해서는 T-DNA 가 1 카피만 들어가 있으며, 삽입된 위치가 식물체의 유전자 발현에 영향을 주지 않는다는 분석 결과를 제공해야 하기 때문이고, 다른 하나는, 다수의 형질전환체를 모두 생육하기 위해서는 시간과 공간이 많이 필요하므로 DNA 조기 선별에 의해 개발에 필요한 비용을 절감하고 상품 출시 기간을 단축시킬 수 있기 때문이다.
그러나 도입된 외래 유전자의 삽입 위치와 카피 수를 확인하기 위해서는 단순한 PCR 로는 확인이 어렵고, 정량적 PCR (qPCR) 또는 서던 블랏과 같은 추가적인 실험 수행이 요구된다. 종래에는 서던 블롯이 주로 이용되었으나, 최근에는 Real-time PCR 분석법 또는 차세대 염기서열 분석(NGS: next generation sequencing)을 이용하여 도입된 외래 유전자의 삽입 위치와 카피 수를 확인하는 분석법이 활용되고 있다.
그러나, NGS 는 비용 단가가 높을 뿐만 아니라, 형질전환체의 DNA 를 추출하여 이를 모두 분석하는 전장 유전체 염기서열 분석법(WGS: whole genome sequencing)의 경우 생산되는 염기서열 데이터의 1% 미만이 T-DNA 서열에 해당하기 때문에 외래 유전자의 삽입 위치를 정확하게 판별하기 위해서는 약 10X 정도 (예를 들어, 콩의 경우 10Gb)의 데이터를 생산해야 신뢰성 있는 분석이 가능하므로 분석비용이 상승하는 문제가 있다.
국내특허공개 10-2014-0024357 (2014.2.28)
본 발명은, 목적 유전자를 포함하는 T-DNA 를 포함하는 벡터가 도입된 식물의 게놈에 대하여 차세대 염기서열 분석(NGS)을 위한 NGS 라이브러리 제작에 들어가기 전에, T-DNA를 특이적으로 검출할 수 있는 프로브 세트를 처리하여 게놈의 특정 영역만 포획하여 분석함으로써, 기존의 전장 유전체 염기서열 분석(WGS)보다 온-타겟(on-target) 비율이 높으면서 높은 해상도로 도입된 목적 유전자의 염색체 내 삽입된 위치를 확인하거나 도입된 목적 유전자의 카피수를 확인할 수 있는 분석법을 제공하는 데에 그 목적이 있다.
일예는, 목적 유전자를 포함하는 T-DNA 를 포함하는 벡터가 도입된 식물에서 차세대 염기서열 분석을 위한 프로브 세트의 제조 방법으로서, 상기 프로브 세트가: 상기 벡터의 LB (left border) 영역에 특이적인 프로브; 상기 벡터의 RB (right border) 영역에 특이적인 프로브; 상기 벡터의 T-DNA 영역 중에서 목적 유전자가 아닌 부위에 특이적인 프로브; 및 상기 벡터의 T-DNA 영역을 제외한 영역에 특이적인 프로브를 포함하도록 디자인하는 단계를 포함하는, 프로브 세트의 제조 방법을 제공한다.
다른 예는, 목적 유전자를 포함하는 T-DNA 를 포함하는 벡터가 도입된 식물의 게놈 샘플로부터 DNA 를 절편화하여 차세대 염기서열 분석용 라이브러리를 생성하는 단계; 및 상기 라이브러리에 상기 방법에 의해 제조된 프로브 세트를 처리하여 프로브에 특이적으로 결합한 DNA 절편들을 선별하는 단계; 상기 선별된 DNA 절편들에 대하여 차세대 염기서열 분석을 수행하는 단계를 포함하는, 차세대 염기서열 분석 방법을 제공한다.
다른 예는, 목적 유전자를 포함하는 T-DNA 를 포함하는 벡터가 도입된 식물의 게놈 샘플로부터 DNA 를 절편화하여 차세대 염기서열 분석용 라이브러리를 생성하는 단계; 및 상기 라이브러리에 상기 방법에 의해 제조된 프로브 세트를 처리하여 프로브에 특이적으로 결합한 DNA 절편들을 선별하는 단계; 상기 선별된 DNA 절편들에 대하여 차세대 염기서열 분석을 수행하는 단계를 포함하는, 도입된 목적 유전자의 염색체 내 삽입된 위치를 확인하는 방법을 제공한다.
다른 예는, 목적 유전자를 포함하는 T-DNA 를 포함하는 벡터가 도입된 식물의 게놈 샘플로부터 DNA 를 절편화하여 차세대 염기서열 분석용 라이브러리를 생성하는 단계; 및 상기 라이브러리에 상기 방법에 의해 제조된 프로브 세트를 처리하여 프로브에 특이적으로 결합한 DNA 절편들을 선별하는 단계; 상기 선별된 DNA 절편들에 대하여 차세대 염기서열 분석을 수행하는 단계를 포함하는, 도입된 목적 유전자의 카피수를 확인하는 방법을 제공한다.
본 발명의 한 측면에 따라, 목적 유전자를 포함하는 T-DNA 를 포함하는 벡터가 도입된 식물에서 차세대 염기서열 분석을 위한 프로브 세트의 제조 방법으로서, 상기 프로브 세트가: 상기 벡터의 LB (left border) 영역에 특이적인 프로브; 상기 벡터의 RB (right border) 영역에 특이적인 프로브; 상기 벡터의 T-DNA 영역 중에서 목적 유전자가 아닌 부위에 특이적인 프로브; 및 상기 벡터의 T-DNA 영역을 제외한 영역에 특이적인 프로브를 포함하도록 디자인하는 단계를 포함하는, 제조 방법이 제공된다.
일 구현예에서, 상기 벡터의 LB 영역에 특이적인 프로브는, 1X 내지 10X 타일링 밀도(tiling density) 로 타일링되는 프로브들로 구성될 수 있다. 또한, 상기 벡터의 RB 영역에 특이적인 프로브는, 1X 내지 10X 타일링 밀도로 타일링되는 프로브들로 구성될 수 있다. 또한, 상기 벡터의 T-DNA 영역 중에서 목적 유전자가 아닌 부위에 특이적인 프로브는, 1X 내지 10X 타일링 밀도로 타일링되는 프로브들로 구성될 수 있다. 또한, 상기 벡터의 T-DNA 영역을 제외한 영역에 특이적인 프로브는, 1X 내지 10X 타일링 밀도로 타일링되는 프로브들로 구성될 수 있다.
다른 구현예에서, 상기 프로브 세트는 도입된 목적 유전자의 염색체 내 삽입된 위치를 확인하기 위한 차세대 염기서열 분석에 사용될 수 있다.
다른 구현예에서, 상기 프로브 세트는 도입된 목적 유전자의 카피수를 확인하기 위한 차세대 염기서열 분석에 사용될 수 있다.
본 발명의 다른 측면에 따라, 목적 유전자를 포함하는 T-DNA 를 포함하는 벡터가 도입된 식물의 게놈 샘플로부터 DNA 를 절편화하여 차세대 염기서열 분석용 라이브러리를 생성하는 단계; 및 상기 라이브러리에 상기 방법에 의해 제조된 프로브 세트를 처리하여 프로브에 특이적으로 결합한 DNA 절편들을 선별하는 단계; 및 상기 선별된 DNA 절편들에 대하여 차세대 염기서열 분석을 수행하는 단계를 포함하는, 차세대 염기서열 분석 방법이 제공된다.
본 발명의 다른 측면에 따라, 목적 유전자를 포함하는 T-DNA 를 포함하는 벡터가 도입된 식물의 게놈 샘플로부터 DNA 를 절편화하여 차세대 염기서열 분석용 라이브러리를 생성하는 단계; 및 상기 라이브러리에 상기 방법에 의해 제조된 프로브 세트를 처리하여 프로브에 특이적으로 결합한 DNA 절편들을 선별하는 단계; 및 상기 선별된 DNA 절편들에 대하여 차세대 염기서열 분석을 수행하는 단계를 포함하는, 도입된 목적 유전자의 염색체 내 삽입된 위치를 확인하는 방법이 제공된다.
본 발명의 다른 측면에 따라, 목적 유전자를 포함하는 T-DNA 를 포함하는 벡터가 도입된 식물의 게놈 샘플로부터 DNA 를 절편화하여 차세대 염기서열 분석용 라이브러리를 생성하는 단계; 및 상기 라이브러리에 상기 방법에 의해 제조된 프로브 세트를 처리하여 프로브에 특이적으로 결합한 DNA 절편들을 선별하는 단계; 및 상기 선별된 DNA 절편들에 대하여 차세대 염기서열 분석을 수행하는 단계를 포함하는, 도입된 목적 유전자의 카피수를 확인하는 방법이 제공된다.
이하, 본 발명을 보다 상세히 설명한다.
용어, "T-DNA (transfer DNA)"는 아그로박테리움 투메파시엔스 (Agrobacterium tumefaciens)에 존재하는 Ti(tumor-inducing) 플라스미드 또는 아그로박테리움 리조게네스 (Agrobacterium rhizogenes)에 존재하는 Ri(root-inducing) 플라스미드의 일부로서 식물 세포에 전이되어 식물 게놈에 통합되는 특정 영역을 말한다.
용어, "목적 유전자를 포함하는 T-DNA 를 포함하는 벡터"는, T-DNA 가 식물세포로 전이되는 원리를 이용하여, 식물에 도입하고자 하는 목적 유전자를 T-DNA 에 삽입하여, T-DNA 가 식물 세포에 전이될 수 있도록 하는 벡터를 말한다.
상기 벡터에서, T-DNA 영역은 T-DNA 의 전이에 필요한 영역인 LB(left border)와 RB(right border), 및 식물에 도입하고자 하는 목적 유전자를 필수적으로 포함한다. LB 와 RB 는 T-DNA의 양쪽 말단에 위치하며, 목적 유전자는 LB 와 RB 사이에 위치한다.
"목적 유전자"란, 외부로부터 식물 내에 도입하고자 하는 유전자를 말하며, 주로 식물에서 발현시키고자 하는 목적 생성물(RNA 또는 단백질 등)을 암호화하는 소정의 길이의 폴리뉴클레오티드 서열 또는 외인성 핵산서열을 의미할 수 있다. 목적 유전자에는 특별한 제한이 없고, 외인성 단백질, 내인성 단백질, 또는 리포터 단백질을 암호화하는 유전자를 포함하며, 천연 형태 또는 돌연변이 형태의 단백질을 암호화할 수 있다. 외인성 단백질은 특정 조직 또는 세포에 천연으로 존재하지 않는 단백질을 말하며, 내인성 단백질은 특정 조직 또는 세포에 천연으로 존재하는 유전자에 의해 발현된 단백질을 말한다. 또한, 리포터 단백질은 리포터 유전자에 의해 발현되며 그 존재에 의해서 세포 내에서의 그의 발현이나 활성을 정량하거나 검출하기 위해 사용되는 표지 단백질을 말한다. 목적 유전자의 서열은 절단된 형태, 융합된 형태, 또는 태그된 형태일 수 있으며, cDNA 또는 gDNA일 수 있으나, 이에 제한되지 않는다.
바람직한 일예로, 목적 유전자는 식물에 특정 표현형이나 형질을 부여하는 유전자, 예를 들면 제초제-내성 유전자, 질병 내성 유전자, 산업상 또는 제약상 유용한 화합물을 코딩하는 유전자, 바람직한 농업 형질을 코딩하는 유전자, 번식에 유용한 마커를 코딩하는 유전자 등일 수 있으나, 이에 제한되지 않는다.
좌측 경계(LB:left border)와 우측 경계(RB:right border) 영역은 T-DNA의 양쪽 말단에 위치하며 식물 세포로 이동할 때 절단되는 부위이다. LB와 RB 영역은 통상적으로 약 20 내지 30bp, 또는 약 25bp 의 반복 서열로 구성된, Ti 또는 Ri 플라스미드의 고도로 보존된 서열일 수 있으나, 필요에 따라 적절히 변형될 수 있다.
본원의 벡터에서 T-DNA는 목적 유전자가 식물 세포 내에서 발현될 수 있도록 하는 전사 및 해독 발현 조절 서열을 더욱 포함할 수 있다. 예를 들어, 발현 조절 서열로는, 전사를 실시하기 위한 프로모터, 그러한 전사를 조절하기 위한 임의의 오퍼레이터 서열, 및/또는 전사 및 해독의 종결을 조절하는 서열을 포함할 수 있다. 개시 코돈 및 종결 코돈은 일반적으로 목적 단백질을 코딩하는 핵산 서열의 일부로 간주되며, 식물 세포에 전이되었을 때 작용을 나타내야 하며 코딩 서열과 인프레임(in frame)에 있어야 한다. 프로모터는 전사조절인자들이 결합하는 DNA 염기서열 부위를 의미하며, T-DNA 에 원래 포함된 천연 프로모터를 사용할 수도 있고, 필요에 따라서는 목적 유전자의 발현율을 높이기 위하여 강력하고 안정적인 유전자 발현을 유도할 수 있는 프로모터를 사용할 수도 있다. 프로모터는 구성적 또는 유도성일 수 있다.
또한, T-DNA 는 형질전환체의 선발을 가능하게 하는 선별 마커 유전자를 더욱 포함할 수 있다. 마커 유전자들의 예로는, 항생제(예를 들어, 테트라사이클린, 암피실린, 카나마이신, 네오마이신, 하이그로마이신, 블레오마이신, 메토트렉세이트 또는 스펙티노마이신)에 내성을 부여하는 항생제 내성 유전자; 제초제(예를 들어, 포스피노트리신, 글리포세이트, 이미다졸리논, 술포닐우레아, 트리아졸로피리미딘, 클로로술푸론, 브로목시닐, 또는 달라폰) 에 내성을 부여하는 제초제 내성 유전자; 또는 표현형상의 변화 또는 효소적 특성을 제공하는 리포터 유전자(예를 들어, 글루쿠로니다제, 루시퍼라아제, β-갈락토시다아제, β-락타마제, 클로람페니콜 아세틸 트랜스퍼라아제(CAT), 형광 단백질(예를 들어, 녹색 형광 단백질(GFP), 황색 형광 단백질(YFP)) 코딩 유전자 등)을 예시할 수 있으나 이에 제한되지 않는다.
그 외에, T-DNA 는 링커, 인핸서, 복제가능단위, polyA 서열, 정제용 태그 또는 식물 세포에서 유전자의 발현을 조절하는 것으로 알려진 기타 다른 서열 및 이들의 여러 조합을 선택적으로 포함할 수 있다.
본원의 벡터에서, 천연 T-DNA 영역에 원래 존재하는 유전자들, 예를 들어 Ti 또는 Ri 플라스미드의 T-DNA에 존재하는 종양 유도 유전자들, 털뿌리 유도 유전자들, 또는 오파인 합성 유전자는 일부 또는 전부가 제거되거나 불활성화될 수 있다.
본원의 벡터에서, LB로부터 시작하여 목적유전자 및 RB를 포함하는 영역을 T-DNA 영역이라고 하고, 나머지 영역을 비-T-DNA 영역이라 칭하기로 한다.
일예로, 비-T-DNA 영역은 vir 유전자들이 포함된 vir 영역을 포함할 수 있다. vir 영역에 위치한 일군의 vir 유전자들에 의하여 생성된 vir 단백질들은 T-DNA의 LB와 RB 서열을 절제하여 T-DNA 가 식물 세포로 이동할 수 있도록 한다. 또한, 비-T-DNA 영역은, 벡터의 복제를 위하여 박테리아(예를 들어, 대장균) 내에서 작동될 수 있는 복제 원점을 포함할 수 있다. 또한, 비-T-DNA 영역은, 형질전환체의 선발을 위한 적절한 선별 마커 유전자(예를 들어, 항생제 내성 유전자, 제초제 내성 유전자 또는 리포터 유전자)를 더욱 포함할 수 있다. 또한, 천연 비-T-DNA 영역에 원래 존재하는 유전자들, 예를 들어 오파인 분해효소 생성 유전자와 같은 불필요한 유전자는 제거 또는 불활성화될 수 있다.
다른 예로, 비-T-DNA 영역은 벡터의 복제를 위하여 박테리아(예를 들어, 대장균) 내에서 작동될 수 있는 복제 원점을 포함하나, vir 영역은 포함하지 않을 수 있다. 이 경우 목적 유전자를 포함하는 T-DNA 를 포함하는 본원의 벡터는, vir 영역을 포함하나 T-DNA 는 포함하지 않는 벡터와 함께 아그로박테리움 내에 도입시키고, 상기 두 벡터를 포함하는 아그로박테리움으로 식물을 감염시킴으로써 식물 세포 내에 T-DNA 를 전달할 수 있다.
다른 예로, 비-T-DNA 영역은 벡터의 복제를 위하여 박테리아(예를 들어, 대장균) 내에서 작동될 수 있는 복제 원점과, vir 영역의 일부만을 포함할 수 있다. 이 경우, 목적 유전자를 포함하는 T-DNA 를 포함하는 본원의 벡터는, 완전한 vir 영역을 포함하나 T-DNA 는 포함하지 않는 벡터와 함께 아그로박테리움 내에 도입시키고, 상기 두 벡터를 포함하는 아그로박테리움으로 식물을 감염시킴으로써 식물 세포 내에 T-DNA 를 전달할 수 있다.
다른 예로, 본원의 벡터는 중간(셔틀) 벡터일 수 있다. 중간 벡터는 아그로박테리움 세포 내에서 독립적인 복제는 불가능하지만, 박테리아(예를 들어, 대장균) 내에서 조작 및 복제가 가능하다. 이러한 중간 벡터는 T-DNA 영역을 포함하며, 구체적으로는 LB(left border)와 RB(right border), 및 목적 유전자를 필수적으로 포함하고, 그 외 선별 마커 유전자, 클로닝 링커, 클로닝 폴리링커 등을 포함할 있다. 대장균과 같은 박테리아 내에서 유전자 클로닝, 조작 및 복제된 중간 벡터는 아그로박테리움 내에 도입되며, 상동 재조합에 의해 중간 벡터가 Ti 또는 Ri 플라스미드 또는 이들의 유도체 내에 통합될 수 있다. 이와 같은 통합된 플라스미드는, Ti 또는 Ri 플라스미드가 제공하는 복제 원점 및 vir 영역과 함께 아그로박테리움 내에서 안정적으로 유지될 수 있다.
본원의 벡터는, 식물을 감염시킬 수 있는 아그로박테리움 종의 박테리아(예를 들어, 아그로박테리움 투메파시엔스 또는 아그로박테리움 리조게네스) 내로 도입된 후, 아그로박테리움으로 식물을 감염시킴으로써 식물 세포 내에 T-DNA 를 전달할 수 있다. 아그로박테리움으로의 도입은 당업계에 공지된 다양한 방법들을 사용할 수 있다. 예를 들어, 벡터는 접합(conjugation)에 의해, 또는 전기 천공에 의해, 또는 화학적으로 매개되는 직접 형질전환에 의해 아그로박테리움 내로 도입될 수 있다. 본원의 벡터가 도입된 아그로박테리움으로 식물을 감염시키는 것은 당업계에 공지된 다양한 방법들을 사용할 수 있다. 예를 들어, 식물체의 일부분에 상처를 입히고 그 부분에 아그로박테리움을 감염시키거나, 식물의 캘러스를 아그로박테리움으로 감염시키거나, 원형질체 또는 식물 외식편(예를 들어, 잎 조각, 줄기 세그먼트, 원형질체 또는 현탁액에서 배양된 세포 등)과 아그로박테리움을 공동 배양할 수 있다. 이와 같이 형질전환된 세포들은 당업계에 공지된 다양한 방법들을 사용하여 선별할 수 있는데, 예를 들어, 마커 유전자의 발현 여부를 분석하거나, 형질전환된 세포들이 의도된 특성을 발현하는지 여부를 분석하거나, 형질전환체의 DNA 서열을 분석하는 등의 방법으로 선별할 수 있다. 또한 형질전환된 식물로부터 전체 식물을 재생시킬 수 있다.
본원에서 "프로브" 는 표적 핵산 서열에 특이적으로 혼성화할 수 있는, 짧게는 수 염기 내지 길게는 수백 염기에 해당하는 올리고뉴클레오티드를 말한다. 본 발명의 목적상, 프로브는, 차세대 염기서열 분석용 라이브러리로부터 관심 게놈 영역에 해당하는 DNA 절편들만을 선별하기 위해 사용되는 포획(capture) 프로브이다. 표적 핵산에 특이적으로 혼성화한다는 것은, 프로브와 표적 간에 안정적이고 특이한 결합이 일어나도록 충분히 상보적임을 의미한다. 프로브는 표적 서열에 100% 상보적일 필요는 없으며, 예를 들어 엄격한 혼성화 조건에서 비-표적 서열에의 비-특이적 결합을 회피하기에 충분한 정도의 상보성이 존재할 수 있다.
포획 프로브들은 비-포획된 서열들로부터의 선별을 위해 적절한 물질로 표지되거나 특정 포획 기질(예를 들어, 비드)에 결합될 수 있다. 예를 들어, 프로브 끝에는 바이오틴(biotin)이 붙어 있어 아비딘(avidin)이 붙은 자성 비드(magnetic bead)에 결합 가능하다. 따라서 프로브에 결합된 표적 핵산은 자성 비드에 함께 붙게 되므로 자석을 이용하여 선별이 가능할 수 있다.
본원의 프로브들은, 목적 유전자를 포함하는 T-DNA 를 포함하는 벡터가 도입된 식물의 게놈에 대하여 차세대 염기서열 분석에 들어가기 전에, 차세대 염기서열 분석용 라이브러리로부터 게놈의 특정 영역, 예를 들어 T-DNA 영역에 해당하는 DNA 절편들만 포획하고, 이들 포획된 DNA 절편들에 대한 차세대 염기서열 분석을 수행함으로써, 전장 유전체 염기서열 분석(WGS)보다 온-타겟(on-target) 비율이 높으면서 높은 해상도로 도입된 목적 유전자의 염색체 내 삽입된 위치를 확인하거나 도입된 목적 유전자의 카피수를 확인할 수 있다.
본원의 프로브 세트는, 목적 유전자를 포함하는 T-DNA 를 포함하는 벡터의 LB 영역에 특이적인 프로브; 상기 벡터의 RB 영역에 특이적인 프로브; 상기 벡터의 T-DNA 영역 중에서 목적 유전자가 아닌 부위에 특이적인 프로브; 및 상기 벡터의 T-DNA 영역을 제외한 영역에 특이적인 프로브를 포함한다. 상기 각 프로브는 단일 또는 복수의 프로브로 구성될 수 있다.
"복수의"는 2 이상의 구성요소를 포함하는 것을 말한다.
바람직한 일 구현예로, 상기 벡터의 LB 영역에 특이적인 프로브는, 1X 내지 10X 타일링 밀도(tiling density) 또는 그 이상으로 타일링되는 프로브들로 구성될 수 있다. 또한, 상기 벡터의 RB 영역에 특이적인 프로브는, 1X 내지 10X 타일링 밀도 또는 그 이상으로 타일링되는 프로브들로 구성될 수 있다. 또한, 상기 벡터의 T-DNA 영역 중에서 목적 유전자가 아닌 부위에 특이적인 프로브는, 1X 내지 10X 타일링 밀도 또는 그 이상으로 타일링되는 프로브들로 구성될 수 있다. 또한, 상기 벡터의 T-DNA 영역을 제외한 영역에 특이적인 프로브는, 1X 내지 10X 타일링 밀도 또는 그 이상으로 타일링되는 프로브들로 구성될 수 있다.
타일링(tiling)이란 표적 영역에 대하여 프로브들을 일정한 간격으로 순차적으로 디자인하되, 임의의 이웃한 두 프로브들이 바로 인접하거나 일정 부분 겹치도록 하는 것을 말한다. 표적 영역이 n 종의 프로브에 의해 커버될 때, n X 타일링 밀도(또는 또는 타일링 뎁스(tiling depth))를 가진다고 할 수 있다. 예를 들어, 5X 타일링 밀도란, 표적 영역이 5종의 프로브들에 의해 커버되는 것을 말하며, 이들은 표적 영역에 대하여 일정한 간격으로 순차적으로 혼성화하되, 임의의 이웃한 프로브들은 바로 인접하거나 일정 부분 동일한 서열을 가지게 된다.
본원의 일예에서, 본원의 벡터의 LB 영역 또는 RB 영역에 특이적인 프로브는, 1X 내지 10X 타일링 밀도 또는 그 이상으로 타일링되는 프로브들로 구성될 수 있다. 이 때 표적 영역인 LB 영역 또는 RB 영역은 통상적으로 약 25bp 의 반복 서열로 구성된 고도로 보존된 서열이거나, 상기 LB 또는 RB 영역과 이에 인접한 서열들을 포함하는 25bp 이상, 50bp 이상, 100bp 이상, 150bp 이상, 200bp 이상, 250bp 이상, 또는 300bp 이상일 수 있고, 500bp 이하, 450bp 이하, 400bp 이하, 또는 350bp 이하일 수 있으며, 상기 수치의 상한과 하한의 임의의 조합의 범위 내일 수 있으나, 이에 제한되지 않는다. 일 구현예에서는 300 내지 350bp의 영역을 예시할 수 있으나, 그 길이는 사용하는 프로브의 길이나 DNA 절편의 크기를 감안하여 적절히 조절 가능하다. 바람직한 구체예에서, 상기 LB 영역 또는 RB 영역에 특이적인 프로브는 각각 1X 타일링 밀도 이상, 예를 들어 1X, 2X, 3X, 4X, 5X, 6X, 7X, 8X, 또는 10X 타일링 밀도 또는 그 이상일 수 있고, 예를 들어 1X 내지 10X 타일링 밀도, 2X 내지 10X 타일링 밀도, 3X 내지 10X 타일링 밀도, 4X 내지 10X 타일링 밀도, 5X 내지 10X 타일링 밀도, 5X 내지 9X 타일링 밀도, 5X 내지 8X 타일링 밀도, 5X 내지 7X 타일링 밀도, 또는 5X 내지 6X 타일링 밀도 등일 수 있으나, 이에 제한되지 않고 당업자에 의해 적절히 조절 가능하다.
본원의 다른예에서, 본원의 벡터의 T-DNA 영역 중에서 목적 유전자가 아닌 부위에 특이적인 프로브는, 1X 내지 10X 타일링 밀도 또는 그 이상으로 타일링되는 프로브들로 구성될 수 있다. 이 때 표적 영역은 T-DNA 영역, 즉 목적 유전자가 위치하는, LB 영역과 RB 영역을 양쪽 말단으로 하는 내부 영역이며, 프로브들은 목적 유전자 이외의 서열에 특이적으로 혼성화하도록 디자인된다. 바람직한 구체예에서, 상기 T-DNA 영역 중에서 목적 유전자가 아닌 부위에에 특이적인 프로브는 1X 내지 10X 타일링 밀도 또는 그 이상, 예를 들어 1X, 2X, 3X, 4X, 8X, 9X, 10X 타일링 밀도 또는 그 이상일 수 있고, 예를 들어 2X 내지 10X 타일링 밀도, 2X 내지 9X 타일링 밀도, 2X 내지 8X 타일링 밀도, 2X 내지 7X 타일링 밀도, 2X 내지 6X 타일링 밀도, 2X 내지 5X 타일링 밀도, 2X 내지 4X 타일링 밀도, 3X 내지 10X 타일링 밀도, 3X 내지 9X 타일링 밀도, 3X 내지 8X 타일링 밀도, 3X 내지 7X 타일링 밀도, 3X 내지 6X 타일링 밀도, 3X 내지 5X 타일링 밀도, 3X 내지 4X 타일링 밀도, 4X 내지 10X 타일링 밀도, 4X 내지 9X 타일링 밀도, 4X 내지 8X 타일링 밀도, 4X 내지 7X 타일링 밀도, 4X 내지 6X 타일링 밀도, 또는 4X 내지 5X 타일링 밀도 등일 수 있으나, 이에 제한되지 않고 당업자에 의해 적절히 조절 가능하다.
본원의 다른예에서, 본원의 벡터의 T-DNA 영역을 제외한 영역에 특이적인 프로브는, 1X 내지 10X 타일링 밀도 또는 그 이상으로 타일링되는 프로브들로 구성될 수 있다. 이 때 표적 영역은 T-DNA 영역을 제외한 영역, 즉 목적 유전자가 위치하지 않는, LB 영역과 RB 영역을 양쪽 말단으로 하는 외부 영역, 다시 말해 비-T-DNA 영역이다. 비-T-DNA 영역은 통상적으로 식물에 도입되지 않는 영역이지만, 드물게는 특정 식물들에서 T-DNA가 경계 서열들에서 절제되지 않는 것이 관찰되며, 이 경우 T-DNA 외의 DNA 성분이 함께 식물에 도입됨으로써 식물이 예측하지 못한 특성을 가질 가능성이 있다. 따라서, 비-T-DNA 영역에 특이적으로 혼성화하는 프로브를 포함함으로써, 식물 내 비-T-DNA 서열들의 존재 여부를 확인함으로써 비-T-DNA 서열들이 식물 염색체로 전달되지 않는 것을 보장할 수 있다. 바람직한 구체예에서, 상기 T-DNA 영역 중에서 목적 유전자가 아닌 부위에에 특이적인 프로브는 단일 프로브이거나 (1X 타일링 밀도), 2X 타일링 밀도 이상, 예를 들어 1X 내지 10X, 또는 2X, 3X, 4X, 8X, 9X, 10X 타일링 밀도 또는 그 이상일 수 있으나, 이에 제한되지 않고 당업자에 의해 적절히 조절 가능하다.
바람직한 일예로, 본원의 프로브 세트는 서열번호 1의 벡터 서열을 기반으로 제작할 수 있으며, LB 시작 위치를 기준으로 LB 영역에 해당하는 1에서 336bp 영역은 5X 타일링 밀도로, T-DNA 영역에 해당하는 337에서 2,365bp 영역 및 3,083에서 3,173bp 영역은 각각 2X 타일링 밀도로, RB 영역에 해당하는 3,174에서 3,509bp 영역은 5X 타일링 밀도로, 전체 비-T-DNA 영역인 3,510 에서 10,047bp 영역에 대하여 1X 타일링 밀도로 프로브를 제작할 수 있다. 상기 비-T-DNA 영역 중 RB 바로 바깥 부분에 해당하는 3,510에서 3,630bp 영역과 LB 바로 바깥 부분인 9,927bp에서 10,047 bp 영역에는 벡터 서열의 잔존 여부를 보다 정확하게 추적하기 위해 1X 타일링 밀도를 추가할 수 있다. 2,366에서 3,082bp 영역은 목적 유전자에 따라 서열이 달라지는 영역으로서 여기에서는 프로브를 제작하지 않을 수 있다.
본원의 프로브 세트는, 차세대 염기서열 분석에 사용될 수 있고, 궁극적으로는 차세대 염기서열 분석을 통해 도입된 목적 유전자의 염색체 내 삽입된 위치를 확인하거나 도입된 목적 유전자의 카피수를 확인하는데 사용될 수 있다.
이에, 본원 발명은 목적 유전자를 포함하는 T-DNA 를 포함하는 벡터가 도입된 식물의 게놈 샘플로부터 DNA 를 절편화하여 차세대 염기서열 분석용 라이브러리를 생성하는 단계; 및 상기 라이브러리에 전술한 프로브 세트를 처리하여 프로브에 특이적으로 결합한 DNA 절편들을 선별하는 단계; 상기 선별된 DNA 절편들에 대하여 차세대 염기서열 분석을 수행하는 단계를 포함하는, 차세대 염기서열 분석 방법을 제공한다.
또한, 본원 발명은 목적 유전자를 포함하는 T-DNA 를 포함하는 벡터가 도입된 식물의 게놈 샘플로부터 DNA 를 절편화하여 차세대 염기서열 분석용 라이브러리를 생성하는 단계; 및 상기 라이브러리에 전술한 프로브 세트를 처리하여 프로브에 특이적으로 결합한 DNA 절편들을 선별하는 단계; 상기 선별된 DNA 절편들에 대하여 차세대 염기서열 분석을 수행하는 단계를 포함하는, 도입된 목적 유전자의 염색체 내 삽입된 위치를 확인하는 방법을 제공한다.
또한, 본원 발명은 목적 유전자를 포함하는 T-DNA 를 포함하는 벡터가 도입된 식물의 게놈 샘플로부터 DNA 를 절편화하여 차세대 염기서열 분석용 라이브러리를 생성하는 단계; 및 상기 라이브러리에 전술한 프로브 세트를 처리하여 프로브에 특이적으로 결합한 DNA 절편들을 선별하는 단계; 상기 선별된 DNA 절편들에 대하여 차세대 염기서열 분석을 수행하는 단계를 포함하는, 도입된 목적 유전자의 카피수를 확인하는 방법을 제공한다.
"차세대 염기서열 분석(NGS)"은 DNA 가닥을 각각 하나씩 분석하는 기존의 직접 연기서열 분석법(예를 들어, 생어(Sanger) 염기서열 분석 또는 모세관 전기영동-기반의 염기서열 분석 등)에 비하여, 많은 수의 DNA 조각을 병렬적으로 처리하여 짧은 시간에 고-처리량의 염기서열 분석이 가능한 기술을 말하며, 예를 들어 수천 또는 수백만개의 비교적 작은 시퀀스 리드(read)들을 한번에 생산한다. 차세대 염기서열 분석은, 통상적으로, 검체로부터 게놈 DNA를 추출하여 이를 특정 크기로 절편화(fragmentation)시킨 후 장비가 인식할 수 있는 특정 염기서열을 가진 올리고뉴클레오티드를 결합시키고 증폭하여 라이브러리(library)를 제작하고, 대용량 염기서열 분석 장비를 사용하여 각 라이브러리 DNA 절편들의 염기서열을 분석하여 초기 시퀀싱 데이터를 생성하고, 이후 초기 데이터의 가공(trimming), 맵핑(mapping), 유전체 변이, 유전자 복제수 또는 구조적 변화의 검출 등의 생물정보학(bioinformatics)을 이용한 분석 단계를 수행하여 이루어진다. 차세대 염기서열 분석에는 검체의 게놈 DNA 를 추출하여 이를 모두 분석하는 전장 유전체 염기서열 분석(WGS: whole genome sequencing), 단백질을 코딩하는 엑솜 영역만을 포획하여 염기서열을 분석하는 전장 엑솜 염기서열 분석 (Whole-exome sequencing, WES), 표적 영역을 선별하여 분석하는 표적 염기서열 분석(Targeted sequencing) 등이 있다.
주요 NGS 플랫폼으로는 일루미나(Illumina)(예를 들어, iSeq, MiniSeq, MiSeq, NextSeq, HiSeq, NovaSeq 등), 써모피셔사이언티픽(Thermo Fisher Scientific) (예를 들어, Ion Personal Genome Machine(PGM) 및 Ion S5 System 등), 퍼시픽바이오사이언스(Pacific Biosciences) (예를 들어, Sequel), 옥스포드나노포어(Oxford Nanopore Technologies) 등의 회사에서 제공하는 플랫폼 및/또는 장비들을 이용할 수 있으나, 이에 제한되지 않는다.
본원에서 차세대 염기서열 분석용 라이브러리를 생성하는 단계는, 게놈 DNA를 특정 크기로 무작위적으로 절편화하여, 염기서열 분석에 들어갈 수 있도록 시료를 준비하는 단계이다. 바람직한 일예로, 게놈 DNA를 특정 크기로 무작위적으로 절편화하고, 생성된 DNA 절편들에 대용량 염기서열 분석 장비가 인식할 수 있는 올리고뉴클레오티드(예를 들어, 어댑터(adaptor))를 결합시킨다. 어댑터는 샘플을 구별할 수 있는 고유의 염기서열인 인덱스(index) 또는 바코드(barcode)를 포함하므로, 각 장비에서는 약속된 인덱스 또는 바코드 염기서열을 판독한 후 해당 라이브러리 DNA 가 어느 샘플에서 유래되었는지를 분류할 수 있다. 어댑터가 결합된 DNA 절편들은 염기서열 분석에 충분한 양으로 PCR 증폭할 수 있고, 증폭된 산물들을 정제한 후, 라이브러리 풀링(pooling)하여 차세대 염기서열 분석용 라이브러리를 생성할 수 있다.
"DNA 절편화(fragmentation)"는 검체 샘플에서 추출된 핵산을 NGS 장비에서 분석 가능한 크기로 적절하게 절단하는 것을 말한다. 절편화는 물리적 또는 효소적 방법으로 무작위적으로 이루어질 수 있다. 물리적 방법의 예로, 장비에서 초음파를 발생시켜 생성되는 에너지를 이용하여 핵산을 절단하고, 발생되는 에너지와 노출되는 시간을 조정하여 절편화 길이를 조절할 수 있다. 효소적 방법의 예로, 핵산을 무작위적으로 절단하는 뉴클레아제(nuclease), 프레그멘타제(fragmentase) 또는 트랜스포사제(transposase) 등의 효소를 적절한 조건에 처리를 하여 원하는 크기의 핵산 절편을 얻을 수 있다.
바람직하게, 본원에서 라이브러리에 포함된 DNA 절편들의 크기는 250 내지 450bp 일 수 있다. 상기 길이보다 짧아질 경우 T-DNA 와 식물체가 합해진 부위(junction)의 위치 파악이 어려울 수 있으며 paired-end 로 염기서열 분석을 할 경우 동일 부분을 중복적으로 읽게 되는 문제가 있다. 또한 상기 길이보다 길어질 경우 온-타겟 비율이 낮아지는 문제가 있다. 이에, 본원에서는 DNA 절편의 전체 서열 중 프로브와 일치하는 서열이 높을수록 프로브에 혼성화하는 DNA 의 양이 많아짐에 착안하여 DNA 절편의 길이를 250 내지 450bp, 예를 들어, 250 내지 400bp, 또는 250 내지 350bp, 또는 300 내지 450bp, 또는 300 내지 400bp, 또는 300 내지 350bp, 또는 350bp 로 제공함을 특징으로 한다. 위의 DNA 절편의 길이는 콩 게놈의 크기 및 구조를 감안하여 선정되었으나 이에 국한되지 않으며 연구 목적 및 연구 대상 종에 따라 적절히 변경하는 것이 가능하다.
본원에서 전술한 프로브 세트를 처리하여 프로브에 특이적으로 결합한 DNA 절편들을 선별하는 단계는, 적절한 표지 물질 또는 포획 기질(예를 들어, 비드)을 이용할 수 있다. 예를 들어, 프로브 끝에는 바이오틴(biotin)이 붙어 있어 아비딘(avidin)이 붙은 자성 비드(magnetic bead)에 결합 가능하다. 따라서 프로브에 결합된 표적 핵산은 자성 비드에 함께 붙게 되므로 자석을 이용하여 선별이 가능하다. 선택적으로, 라이브러리에 포함된 어댑터에 의한 비특이적인 교합을 방지 하기 위해 블로킹 올리고뉴클레오티드를 첨가할 수도 있다.
본원에서 상기 선별된 DNA 절편들에 대하여 차세대 염기서열 분석을 수행하는 단계는, 당업계에 공지되고 이용가능한 임의의 차세대 염기서열 분석 플랫폼 및 장비를 이용하여 수행할 수 있다. 염기서열 분석은, 장비가 염기쌍을 한쪽 끝에서부터 읽어, DNA 를 한쪽 끝에서만 염기서열 분석하는 방법 (single-end sequencing) 또는 장비가 염기쌍을 양쪽 끝에서부터 읽어, DNA 를 양쪽 끝에서 염기서열 분석하는 방법 (pair-ended sequencing) 등을 포함하나, 이에 제한되지 않는다.
대용량 염기서열 분석 장비를 사용하여 각 라이브러리 DNA 절편들의 염기서열을 분석하면, 보통 100 내지 200bp 정도의 염기로 구성된 짧은 서열 조각인 리드(시퀀스 리드)를 생성하여 염기서열을 해독한 결과 초기 시퀀싱 데이터 (raw data) 가 생성되고 이를 보통 FASTQ 형식의 파일로 저장하게 된다. 이후 초기 데이터의 가공(trimming), 맵핑(mapping), 유전체 변이 또는 유전자 복제수 또는 구조적 변화의 검출 등의 생물정보학(bioinformatics)을 이용한 분석 단계가 이루어질 수 있다.
일예로, 초기 시퀀싱 데이터에는 기술적 한계와 실험적 원인에 의한 다양한 오류의 가능성이 존재하므로, 당업계 공지되고 이용가능한 다양한 방법을 사용하여 데이터의 품질 관리(QC: quality control)을 수행할 수 있다. 예를 들어, 시퀀스 리드의 끝 부분(어댑터 서열)을 일괄적으로 제거하여 품질이 우수한 부위만을 분석에 활용할 수 있고, 추정 오류 확률을 수치로 나타낸 Phred 점수를 각 염기의 품질을 나타내는 지표로 활용하여 일정 점수 이상을 충족하는 염기들을 선별하여 분석에 활용할 수 있으나, 이에 제한되지 않는다. 정확도가 낮은 염기를 FASTQ 파일에서 제거하는 작업을 가지치기(trimming)라고 한다.
맵핑(mapping) 또는 정렬(alignment)은 생성된 시퀀스 리드를 표준 유전체 염기서열(Reference Genome)과 비교하는 작업을 말한다. 표준 염기서열로는 공지된 식물 유전체 염기서열을 사용할 수 있으며, 맵핑을 통하여 리드의 염기서열과 일치하는 위치를 표준 유전체 염기서열에서 찾을 수 있다. 맵핑에는 당업계 공지되고 이용가능한 다양한 방법(알고리즘)을 사용할 수 있다. 시퀀스 리드들의 맵핑 결과는 SAM (sequence alignment map) 파일로 저장되며 이를 이진(binary) 형식으로 압축한 파일을 BAM (binary alignment map) 파일이라 한다. BAM 파일에는 유전체 위치, 맵핑의 정확도를 나타내는 점수(MAPQ), 시퀀스 리드에서 표준 유전체 염기서열과 다른 염기를 표시해주는 정보(CIGAR string), paired-end 시퀀싱에서 같은 가닥의 반대편 시퀀스 리드(mate)의 정보 등이 기록된다.
본원에서는 차세대 염기서열 분석 결과에 대하여 생물정보학(bioinformatics)을 이용한 분석을 통해 도입된 목적 유전자의 염색체 내 삽입된 위치를 확인하거나 도입된 목적 유전자의 카피수를 확인할 수 있으며, 이러한 분석에는 당업계 널리 알려지고 이용가능한 방법을 사용할 수 있다. 예를 들어, 생물정보학적 분석을 통해 T-DNA를 포함하는 벡터로부터 유래한 시퀀스 리드들을, 형질전환된 식물체 게놈 서열 데이터셋에서 선발하여 추가 분석을 실시할 수 있다. DNA 삽입체와 인접(franking) DNA 의 접합부(junction) 는 각 삽입부위마다 특유하므로, 접합부를 포함하는 시퀀스 리드를 분석함으로써 도입된 목적 유전자의 삽입 위치를 확인할 수 있으며, 삽입체의 양 말단 서열을 분석함으로써 도입된 목적 유전자의 카피 수를 확인할 수 있다.
본원에서 제공하는 프로브 세트 및 이를 이용한 차세대 염기서열 분석 방법을 이용하면, 프로브 세트를 한번 사용하는 단일 포획(single capture)에서도 온-타겟 리드(포획 영역에서 맵핑된 시퀀스 리드)의 양을 증가시켜 온-타겟 비율을 높일 수 있고 높은 해상도로 도입된 목적 유전자의 염색체 내 삽입된 위치를 확인하거나 도입된 목적 유전자의 카피수를 확인할 수 있다.
온-타겟(on-target) 비율이 높으면서 높은 해상도로 도입된 목적 유전자의 염색체 내 삽입된 위치를 확인하거나 도입된 목적 유전자의 카피수를 확인할 수 있는 분석법을 제공한다.
도 1은 본 발명의 일 실시예에 따른 프로브 제작 방법의 일례를 모식화한 것이다. T-DNA의 LB 영역을 시작점으로 프로브를 디자인하는 구간과 타일링 밀도가 제시되어 있다. 동일한 프로브 세트를 다양한 형질전환체에 활용할 수 있도록 적색으로 표시된 목적 유전자 영역(Gene)에는 프로브를 디자인하지 않았다.
도 2는 동일한 형질전환체를 대상으로 전장 유전체 염기서열 분석법으로 생산한 시퀀스 리드와 본 발명의 일 실시예에 따른 방법으로 생산한 시퀀스 리드의 분석 결과 비교한 것이다. 도면은 시퀀스 분석 소프트웨어인 IGV를 이용하여 작성하였으며, 도면은 크게 세 부위로 나뉜다. 이 중 상단부는 식물 유전체 상의 위치를 나타내며, 중단부는 형질전환체 1을 전장 유전체 염기서열 분석법으로 분석한 결과를 나타낸다. 마지막으로 하단부는 동일한 형질전환체 1을 본원의 일 실시예에 따른 방법으로 분석한 결과를 나타내고 있다. 도면은 식물 유전체 중 Gm17 염색체의 11,677,858bp 부터 11,680,565bp 영역을 나타내고 있으며, 전장 유전체 염기서열 분석법(중단부)에서는 상기 영역 전반에 걸쳐 시퀀스 리드가 분포하고 있다. 11.679,000bp 근처에서 집중적으로 발견되는 세로선은 식물 유전체에 T-DNA가 삽입된 접합 부위를 나타내며, 본 발명의 분석 결과(하단부)에서 접합 부위 근처의 서열만이 집중적으로 탐지된 것을 볼 수 있다.
도 3은 본 발명으로 실시예에 따른 방법으로 형질전환체 1의 시퀀스 리드를 생산 및 분석한 후, 탐지된 서열 중 T-DNA 부분만을 표시한 것이다. T-DNA 전체에 걸쳐 프로브를 디자인함으로써 형질전환체에 T-DNA 중 어느 부분이 삽입되었는지 확인하였다. 5,000bp 근처의 공백 부분은 본원의 발명에서는 탐지하지 않는 목적 유전자에 해당하는 부분이다.
이하 본 발명을 다음의 실시예에 의하여 보다 구체적으로 설명하고자 한다. 그러나 이들은 본 발명을 예시하기 위한 것일 뿐이며, 본 발명의 범위가 이들 실시예에 의하여 제한되는 것은 아니다.
실시예 1. Wet Lab(Wet Laboratory) 실험
Agilent사의 SureSlectXT Target Enrichment System for Illumina Platform 에서 제공하는 시약을 사용하여 프로토콜 대로 실험을 수행하였다(https://www.agilent.com/cs/library/usermanuals/Public/G7530-90000.pdf 참조). 실험은 크게 1) Library 제작, 2) Hybridization 과 capture, 3) Capture 이후 증폭, 4) QC using TapeStation과 샘플 pooling 의 네 가지 단계로 구성되어 있다.
첫번째로, Library 제작을 위해 가장 먼저 Target Capture Sequencing 분석을 위해 콩 형질전환체로부터 genomic DNA를 추출하였다. 샘플별 200 ng (나노그람)의 DNA를 Covaris ME220 기기로 shearing 하여 350 bp size로 fragmented DNA를 준비하였다. Shearing 이후의 DNA는 Agilent사의 TapeStation 4200을 사용하여 DNA 분포가 목적한 350 bp 부근에서 peak를 이루고 있는 것을 확인하였다. 이후 SureSelect XT Library prep Kit ILM을 사용하여 End Repair master mix를 제조하고 앞에서 준비한 DNA에 추가하였다. 이후 PCR 기기를 사용하여 30분 동안 20oC에 있게 하여 DNA를 repair 하였다. 이후 AMPure XP Beads를 사용하여 repaired DNA를 제외한 잔여물을 제거하였다. 잔여물이 제거된 repaired DNA에 adapter를 부착하기 위하여 T4 DNA ligase와 T4 ligase buffer,SureSelect Adaptor Oligo mix를 넣은 이후 PCR 기기를 이용하여 15분 동안 20℃에 있도록 하였다. 이후 AMPure XP Beads를 다시 한번 사용하여 버퍼 등의 남은 시약을 제거하고 PCR 방법을 통하여 Adaptor ligated library의 양을 증폭시켰다. PCR 온도와 시간은 맨 처음 98℃ 2분, 그리고 98℃ 30초, 65℃ 30초, 72℃ 10분의 과정을 6회 반복하고 72℃에 10분으로 설정하였다. PCR 이후에는 AMPure XP beads를 사용하여 다시 잔여물을 제거하였다.
두번째 실험 단계인 Hybridization 과 capture에서는 형질전환체의 T-DNA 서열에 맞도록 주문 제작한 target-specific probe를 위의 과정을 통해 가공된 DNA에 hybridization하고 capture하였다. 구체적으로, 프로브는 서열번호 1의 벡터 서열을 기반으로 제작한 것으로, LB 시작 위치를 기준으로 LB 영역에 해당하는 1에서 336bp 영역은 5X 타일링 밀도로, T-DNA 영역에 해당하는 337에서 2,365bp 영역 및 3,083에서 3,173bp 영역은 각각 2X 타일링 밀도로, RB 영역에 해당하는 3,174에서 3,509bp 영역은 5X 타일링 밀도로, 전체 비-T-DNA 영역인 3,510 에서 10,047bp 영역에 대하여 1X 타일링 밀도로 프로브를 제작하였다. 또한 상기 비-T-DNA 영역 중 RB 바로 바깥 부분에 해당하는 3,510에서 3,630bp 영역과 LB 바로 바깥 부분인 9,927bp에서 10,047 bp 영역에는 벡터 서열의 잔존 여부를 보다 정확하게 추적하기 위해 1X 타일링 밀도를 추가하였다 (도 1 참조). 샘플당 DNA의 농도는 750 ng이며 부피는 3.4-uL이 되도록 준비한 이후 kit에서 제공된 Hybridization buffer 1,2,3,4와 SureSelect Block mix를 추가한 이후 PCR 기기를 사용하여 5분 동안 95℃에 있도록 하고 이후 65℃의 온도가 유지되도록 하였다. 샘플이 담긴 튜브가 65℃ 상태에서 20ul의 Hybridization Buffer mixture와 25%의 RNase Block Solution의 mix를 준비하였다가 샘플 튜브의 뚜껑을 넣고 추가한 후 pipetting을 통해 잘 섞어주었다. 이후 샘플들을 65℃에서 16 시간 동안 인큐베이션하여 target probe와 매칭되는 서열을 가진 gDNA library가 hybridization 되도록 하였다. 이후 SureSelect에서 제공하는 streptavidin-coated magnetic beads를 사용하여 probe와 hybridization된 gDNA만을 선별적으로 capture하는 과정을 거쳤다. 이후 Wash buffer를 사용하여 capture되지 않은, 즉 target probe와 매칭하는 서열이 없는 gDNA들을 제거하였다.
세번째 단계에서는 시퀀싱 기기에서 여러 샘플들의 데이터가 한번의 run에서 동시에 생산되고 이후 샘플별 데이터를 구분할 수 있게 하는 indexing primer를 사용하여 post-capture PCR 증폭을 수행하였다. Forward primer는 샘플에 관계없이 동일한 SureSelect ILM Indexing Post-Capture Forward PCR primer를 사용하고 reverse primer에는 샘플을 구분할 수 있는 SureSelect 8 bp indexes 를 사용하였다. PCR 온도와 시간은 맨 처음 98℃ 2분, 그리고 98℃ 30초, 65℃ 30초, 72℃ 1분의 과정을 14회 반복하였고 72℃에 10분으로 설정하였다. PCR 증폭 이후 PCR 버퍼 등의 잔여물은 AMPure XP Beads를 사용하여 제거하였다.
네번째 단계에서는 Agilent사의 TapeStation 4200 기기와 High Sensitivity D1000 ScreenTape를 사용하여 index가 부착된 DNA library의 사이즈 분포가 목표한대로 350bp에서 peak를 가지는지 확인하였다. 이후 샘플별로 동일한 농도로 희석하여 섞는 pooling 과정을 거쳐 Illumina사의 Hi-Seq 기기를 사용하여 염기서열 데이터를 생산하였다.
실시예 2. Dry Lab(Dry Laboratory) 분석
본 발명으로부터 생산된 시퀀스 리드를 분석하기에 앞서, 먼저 벡터 서열 (서열번호 1)과 형질전환 식물체인 콩의 표준 유전체(Glycine max v2.1)를 결합한 혼성 참조 유전체(hybrid reference genome)를 생성하였다. 상기 혼성 참조 유전체에서 벡터 서열은 콩의 염색체 20개와 엽록체, 미토콘드리아를 포함한 22개의 서열과 독립적인 23번째 서열로 간주하였다.
다음은 본 발명으로부터 생산된 시퀀스 리드에 CutAdapt (v2.1) 소프트웨어 등을 적용하여 Illumina Truseq 어댑터 서열 및 Phred 점수가 낮은 염기 서열을 일괄 제거하였다. 그 다음, 정제된 시퀀스 리드를 상기 혼성 참조 유전체에 맵핑하여 SAM 또는 BAM 파일을 생성하였다. 맵핑은 bwa 소프트웨어(v0.7.17-r1188) 등을 이용할 수 있으며, 맵핑이 완료되면 samtools 소프트웨어(v1.1) 등을 이용하여 맵핑 결과의 정렬(sorting), PCR 증폭으로 인한 중복 서열(duplicate) 확인을 실시하였다.
DNA 삽입 부위의 게놈은 식물체의 본래 게놈과 삽입된 서열이 이어진 접합 부위(junction)를 갖게 된다. 본 발명에 의해 생산된 시퀀스 리드는 상기 접합 부위를 직접 포함하고 있을 수 있으며, 또는 상기 접합 부위를 직접 포함하지 않지만 이를 중심으로 시퀀스 리드의 메이트 페어(mate pair)가 접합 부위의 좌우에서 각각 생성될 수 있다. 후자의 경우 시퀀스 리드의 메이트 페어 중 하나는 상기 혼성 참조 유전체 중 식물체의 염색체에, 다른 하나는 벡터 서열에 맵핑된다.
위와 같은 현상은 여러 가지 생물정보학 분석법을 이용해 탐색할 수 있으며, 본 발명에서는 구조변이(Structural Variation) 탐색 소프트웨어 중 하나인 Lumpy 소프트웨어(v0.2.13)를 활용하였다. 상기 혼성 참조 유전체에서 벡터 서열을 하나의 염색체로 간주한다면, T-DNA 삽입은 구조변이 중 하나인 염색체 전좌(translocation)와 유사한 현상으로 치환할 수 있으며, 이는 Lumpy와 같은 구조변이 탐색 소프트웨어로 탐지가 가능하다. 마지막으로 탐색된 전좌 구조변이 중 이를 지지하는(supporting) 시퀀싱 리드와 메이트 페어의 숫자를 기반으로 필터링을 실시하여 오류나 노이즈를 제거하였다.
최종 결과물에서 전좌 구조변이의 숫자를 기반으로 목적 유전자의 카피수를 확인할 수 있으며, 본 발명에서는 목적 유전자 이외의 영역에서도 프로브를 생산하기 때문에, 전좌 구조변이가 탐지 결과 중 벡터 상의 위치를 활용하여 목적 유전자 이외의 영역이 도입되었지 여부도 판단할 수 있다. 아래 표 1은 1점의 콩 형질전환체에서 본원의 기술을 적용하여 시퀀싱 리드의 온 타겟 비율과 유전자 삽입 위치를 탐지한 것이다.
Sample 시퀀스 리드 생산량 중복 제거 리드 T-DNA에 맵핑된 리드 온 타겟 비율 삽입 위치
형질전환체 1번 1,358,539 883,867 415,573 47.02% Gm17:11,679,199-11,679,213
이상의 설명으로부터, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허 청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
<110> LG CHEM, LTD. <120> Method for manufacturing probe set used for next generation sequencing in transgenic plant <130> DPP20203475KR <160> 1 <170> KopatentIn 1.71 <210> 1 <211> 10047 <212> DNA <213> Artificial Sequence <220> <223> pB2GW7.0 <400> 1 tggcaggata tattgtggtg taaacaaatt gacgcttaga caacttaata acacattgcg 60 gacgttttta atgtactgaa ttaacgccga attgaattat cagcttgcat gccggtcgat 120 ctagtaacat agatgacacc gcgcgcgata atttatccta gtttgcgcgc tatattttgt 180 tttctatcgc gtattaaatg tataattgcg ggactctaat cataaaaacc catctcataa 240 ataacgtcat gcattacatg ttaattatta catgcttaac gtaattcaac agaaattata 300 tgataatcat cgcaagaccg gcaacaggat tcaatcttaa gaaactttat tgccaaatgt 360 ttgaacgatc tgcttgactc taggggtcat cagatttcgg tgacgggcag gaccggacgg 420 ggcggcaccg gcaggctgaa gtccagctgc cagaaaccca cgtcatgcca gttcccgtgc 480 ttgaagccgg ccgcccgcag catgccgcgg ggggcatatc cgagcgcctc gtgcatgcgc 540 acgctcgggt cgttgggcag cccgatgaca gcgaccacgc tcttgaagcc ctgtgcctcc 600 agggacttca gaaggtgggt gtagagcgtg gagcccagtc ccgtccgctg gtggcggggg 660 gagacgtaca cggtcgactc ggccgtccag tcgtaggcgt tgcgtgcctt ccagggaccc 720 gcgtaggcga tgccggcgac ctcgccgtcc acctcggcga cgagccaggg atagcgctcc 780 cgcagacgga cgaggtcgtc cgtccactcc tgcggttcct gcggctcggt acggaagttg 840 accgtgcttg tctcgatgta gtggttgacg atggtgcaga ccgccggcat gtccgcctcg 900 gtggcacggc ggatgtcggc cgggcgtcgt tctgggctca tggtagatcc cctcgatcga 960 gttgagagtg aatatgagac tctaattgga taccgagggg aatttatgga acgtcagtgg 1020 agcatttttg acaagaaata tttgctagct gatagtgacc ttaggcgact tttgaacgcg 1080 caataatggt ttctgacgta tgtgcttagc tcattaaact ccagaaaccc gcggctcagt 1140 ggctccttca acgttgcggt tctgtcagtt ccaaacgtaa aacggcttgt cccgcgtcat 1200 cggcgggggt cataacgtga ctcccttaat tctccgctca tgatcgataa ttcgagctct 1260 cccatatggt cgactagagc caagctgatc tcctttgccc cggagatcac catggacgac 1320 tttctctatc tctacgatct aggaagaaag ttcgacggag aaggtgacga taccatgttc 1380 accaccgata atgagaagat tagcctcttc aatttcagaa agaatgctga cccacagatg 1440 gttagagagg cctacgcggc aggtctcatc aagacgatct acccgagtaa taatctccag 1500 gagatcaaat accttcccaa gaaggttaaa gatgcagtca aaagattcag gactaactgc 1560 atcaagaaca cagagaaaga tatatttctc aagatcagaa gtactattcc agtatggacg 1620 attcaaggct tgcttcataa accaaggcaa gtaatagaga ttggagtctc taagaaagta 1680 gttcctactg aatcaaaggc catggagtca aaaattcaga tcgaggatct aacagaactc 1740 gccgtgaaga ctggcgaaca gttcatacag agtcttttac gactcaatga caagaagaaa 1800 atcttcgtca acatggtgga gcacgacact ctcgtctact ccaagaatat caaagataca 1860 gtctcagaag accaaagggc tattgagact tttcaacaaa gggtaatatc gggaaacctc 1920 ctcggattcc attgcccagc tatctgtcac ttcatcaaaa ggacagtaga aaaggaaggt 1980 ggcacctaca aatgccatca ttgcgataaa ggaaaggcta tcgttcaaga tgcccctgcc 2040 gacagtggtc ccaaagatgg acccccaccc acgaggagca tcgtggaaaa agaagacgtt 2100 ccaaccacgt cttcaaagca agtggattga tgtgatatct ccactgacgt aagggatgac 2160 gcacaatccc actatccttc gcaagaccct tcctctatat aaggaagttc atttcatttg 2220 gagaggactc cggtattttt acaacaatta ccacaacaaa acaaacaaca aacaacatta 2280 caatttacta ttctagtcga cccaagcttg gctgcaggtc gacggatccc cgggaattct 2340 aagaggagtc caccatggta gatctatggt gagcaagggc gaggagctgt tcaccggggt 2400 ggtgcccatc ctggtcgagc tggacggcga cgtaaacggc cacaagttca gcgtgtccgg 2460 cgagggcgag ggcgatgcca cctacggcaa gctgaccctg aagttcatct gcaccaccgg 2520 caagctgccc gtgccctggc ccaccctcgt gaccaccttc acctacggcg tgcagtgctt 2580 cagccgctac cccgaccaca tgaagcagca cgacttcttc aagtccgcca tgcccgaagg 2640 ctacgtccag gagcgcacca tcttcttcaa ggacgacggc aactacaaga cccgcgccga 2700 ggtgaagttc gagggcgaca ccctggtgaa ccgcatcgag ctgaagggca tcgacttcaa 2760 ggaggacggc aacatcctgg ggcacaagct ggagtacaac tacaacagcc acaacgtcta 2820 tatcatggcc gacaagcaga agaacggcat caaggtgaac ttcaagatcc gccacaacat 2880 cgaggacggc agcgtgcagc tcgccgacca ctaccagcag aacaccccca tcggcgacgg 2940 ccccgtgctg ctgcccgaca accactacct gagcacccag tccgccctga gcaaagaccc 3000 caacgagaag cgcgatcaca tggtcctgct ggagttcgtg accgccgccg ggatcactca 3060 cggcatggac gagctgtaca agtctagagg tgaacaaaag ttgatttctg aagaagattt 3120 gaacggtgaa caaaagctaa tctccgagga agacttgaac ggtgaacaaa aattaatctc 3180 agaagaagac ttgccgggcg gccatgctag agtccgcaaa aatcaccagt ctctctctac 3240 aaatctatct ctctctattt ttctccagaa taatgtgtga gtagttccca gataagggaa 3300 ttagggttct tatagggttt cgctcatgtg ttgagcatat aagaaaccct tagtatgtat 3360 ttgtatttgt aaaatacttc tatcaataaa atttctaatt cctaaaacca aaatccagtg 3420 acctagctta gcttgagctt ggatcagatt gtcgtttccc gccttcagtt taaactatca 3480 gtgtttgaca ggatatattg gcgggtaaac ctaagagaaa agagcgttta ttagaataat 3540 cggatattta aaagggcgtg aaaaggttta tccgttcgtc catttgtatg tgcatgccaa 3600 ccacagggtt cccctcggga tcaaagtact ttaaagtact ttaaagtact ttaaagtact 3660 ttgatccaac ccctccgctg ctatagtgca gtcggcttct gacgttcagt gcagccgtct 3720 tctgaaaacg acatgtcgca caagtcctaa gttacgcgac aggctgccgc cctgcccttt 3780 tcctggcgtt ttcttgtcgc gtgttttagt cgcataaagt agaatacttg cgactagaac 3840 cggagacatt acgccatgaa caagagcgcc gccgctggcc tgctgggcta tgcccgcgtc 3900 agcaccgacg accaggactt gaccaaccaa cgggccgaac tgcacgcggc cggctgcacc 3960 aagctgtttt ccgagaagat caccggcacc aggcgcgacc gcccggagct ggccaggatg 4020 cttgaccacc tacgccctgg cgacgttgtg acagtgacca ggctagaccg cctggcccgc 4080 agcacccgcg acctactgga cattgccgag cgcatccagg aggccggcgc gggcctgcgt 4140 agcctggcag agccgtgggc cgacaccacc acgccggccg gccgcatggt gttgaccgtg 4200 ttcgccggca ttgccgagtt cgagcgttcc ctaatcatcg accgcacccg gagcgggcgc 4260 gaggccgcca aggcccgagg cgtgaagttt ggcccccgcc ctaccctcac cccggcacag 4320 atcgcgcacg cccgcgagct gatcgaccag gaaggccgca ccgtgaaaga ggcggctgca 4380 ctgcttggcg tgcatcgctc gaccctgtac cgcgcacttg agcgcagcga ggaagtgacg 4440 cccaccgagg ccaggcggcg cggtgccttc cgtgaggacg cattgaccga ggccgacgcc 4500 ctggcggccg ccgagaatga acgccaagag gaacaagcat gaaaccgcac caggacggcc 4560 aggacgaacc gtttttcatt accgaagaga tcgaggcgga gatgatcgcg gccgggtacg 4620 tgttcgagcc gcccgcgcac gtctcaaccg tgcggctgca tgaaatcctg gccggtttgt 4680 ctgatgccaa gctggcggcc tggccggcca gcttggccgc tgaagaaacc gagcgccgcc 4740 gtctaaaaag gtgatgtgta tttgagtaaa acagcttgcg tcatgcggtc gctgcgtata 4800 tgatgcgatg agtaaataaa caaatacgca aggggaacgc atgaaggtta tcgctgtact 4860 taaccagaaa ggcgggtcag gcaagacgac catcgcaacc catctagccc gcgccctgca 4920 actcgccggg gccgatgttc tgttagtcga ttccgatccc cagggcagtg cccgcgattg 4980 ggcggccgtg cgggaagatc aaccgctaac cgttgtcggc atcgaccgcc cgacgattga 5040 ccgcgacgtg aaggccatcg gccggcgcga cttcgtagtg atcgacggag cgccccaggc 5100 ggcggacttg gctgtgtccg cgatcaaggc agccgacttc gtgctgattc cggtgcagcc 5160 aagcccttac gacatatggg ccaccgccga cctggtggag ctggttaagc agcgcattga 5220 ggtcacggat ggaaggctac aagcggcctt tgtcgtgtcg cgggcgatca aaggcacgcg 5280 catcggcggt gaggttgccg aggcgctggc cgggtacgag ctgcccattc ttgagtcccg 5340 tatcacgcag cgcgtgagct acccaggcac tgccgccgcc ggcacaaccg ttcttgaatc 5400 agaacccgag ggcgacgctg cccgcgaggt ccaggcgctg gccgctgaaa ttaaatcaaa 5460 actcatttga gttaatgagg taaagagaaa atgagcaaaa gcacaaacac gctaagtgcc 5520 ggccgtccga gcgcacgcag cagcaaggct gcaacgttgg ccagcctggc agacacgcca 5580 gccatgaagc gggtcaactt tcagttgccg gcggaggatc acaccaagct gaagatgtac 5640 gcggtacgcc aaggcaagac cattaccgag ctgctatctg aatacatcgc gcagctacca 5700 gagtaaatga gcaaatgaat aaatgagtag atgaatttta gcggctaaag gaggcggcat 5760 ggaaaatcaa gaacaaccag gcaccgacgc cgtggaatgc cccatgtgtg gaggaacggg 5820 cggttggcca ggcgtaagcg gctgggttgt ctgccggccc tgcaatggca ctggaacccc 5880 caagcccgag gaatcggcgt gagcggtcgc aaaccatccg gcccggtaca aatcggcgcg 5940 gcgctgggtg atgacctggt ggagaagttg aaggccgcgc aggccgccca gcggcaacgc 6000 atcgaggcag aagcacgccc cggtgaatcg tggcaagcgg ccgctgatcg aatccgcaaa 6060 gaatcccggc aaccgccggc agccggtgcg ccgtcgatta ggaagccgcc caagggcgac 6120 gagcaaccag attttttcgt tccgatgctc tatgacgtgg gcacccgcga tagtcgcagc 6180 atcatggacg tggccgtttt ccgtctgtcg aagcgtgacc gacgagctgg cgaggtgatc 6240 cgctacgagc ttccagacgg gcacgtagag gtttccgcag ggccggccgg catggccagt 6300 gtgtgggatt acgacctggt actgatggcg gtttcccatc taaccgaatc catgaaccga 6360 taccgggaag ggaagggaga caagcccggc cgcgtgttcc gtccacacgt tgcggacgta 6420 ctcaagttct gccggcgagc cgatggcgga aagcagaaag acgacctggt agaaacctgc 6480 attcggttaa acaccacgca cgttgccatg cagcgtacga agaaggccaa gaacggccgc 6540 ctggtgacgg tatccgaggg tgaagccttg attagccgct acaagatcgt aaagagcgaa 6600 accgggcggc cggagtacat cgagatcgag ctagctgatt ggatgtaccg cgagatcaca 6660 gaaggcaaga acccggacgt gctgacggtt caccccgatt actttttgat cgatcccggc 6720 atcggccgtt ttctctaccg cctggcacgc cgcgccgcag gcaaggcaga agccagatgg 6780 ttgttcaaga cgatctacga acgcagtggc agcgccggag agttcaagaa gttctgtttc 6840 accgtgcgca agctgatcgg gtcaaatgac ctgccggagt acgatttgaa ggaggaggcg 6900 gggcaggctg gcccgatcct agtcatgcgc taccgcaacc tgatcgaggg cgaagcatcc 6960 gccggttcct aatgtacgga gcagatgcta gggcaaattg ccctagcagg ggaaaaaggt 7020 cgaaaaggtc tctttcctgt ggatagcacg tacattggga acccaaagcc gtacattggg 7080 aaccggaacc cgtacattgg gaacccaaag ccgtacattg ggaaccggtc acacatgtaa 7140 gtgactgata taaaagagaa aaaaggcgat ttttccgcct aaaactcttt aaaacttatt 7200 aaaactctta aaacccgcct ggcctgtgca taactgtctg gccagcgcac agccgaagag 7260 ctgcaaaaag cgcctaccct tcggtcgctg cgctccctac gccccgccgc ttcgcgtcgg 7320 cctatcgcgg ccgctggccg ctcaaaaatg gctggcctac ggccaggcaa tctaccaggg 7380 cgcggacaag ccgcgccgtc gccactcgac cgccggcgcc cacatcaagg caccctgcct 7440 cgcgcgtttc ggtgatgacg gtgaaaacct ctgacacatg cagctcccgg agacggtcac 7500 agcttgtctg taagcggatg ccgggagcag acaagcccgt cagggcgcgt cagcgggtgt 7560 tggcgggtgt cggggcgcag ccatgaccca gtcacgtagc gatagcggag tgtatactgg 7620 cttaactatg cggcatcaga gcagattgta ctgagagtgc accatatgcg gtgtgaaata 7680 ccgcacagat gcgtaaggag aaaataccgc atcaggcgct cttccgcttc ctcgctcact 7740 gactcgctgc gctcggtcgt tcggctgcgg cgagcggtat cagctcactc aaaggcggta 7800 atacggttat ccacagaatc aggggataac gcaggaaaga acatgtgagc aaaaggccag 7860 caaaaggcca ggaaccgtaa aaaggccgcg ttgctggcgt ttttccatag gctccgcccc 7920 cctgacgagc atcacaaaaa tcgacgctca agtcagaggt ggcgaaaccc gacaggacta 7980 taaagatacc aggcgtttcc ccctggaagc tccctcgtgc gctctcctgt tccgaccctg 8040 ccgcttaccg gatacctgtc cgcctttctc ccttcgggaa gcgtggcgct ttctcatagc 8100 tcacgctgta ggtatctcag ttcggtgtag gtcgttcgct ccaagctggg ctgtgtgcac 8160 gaaccccccg ttcagcccga ccgctgcgcc ttatccggta actatcgtct tgagtccaac 8220 ccggtaagac acgacttatc gccactggca gcagccactg gtaacaggat tagcagagcg 8280 aggtatgtag gcggtgctac agagttcttg aagtggtggc ctaactacgg ctacactaga 8340 aggacagtat ttggtatctg cgctctgctg aagccagtta ccttcggaaa aagagttggt 8400 agctcttgat ccggcaaaca aaccaccgct ggtagcggtg gtttttttgt ttgcaagcag 8460 cagattacgc gcagaaaaaa aggatctcaa gaagatcctt tgatcttttc tacggggtct 8520 gacgctcagt ggaacgaaaa ctcacgttaa gggattttgg tcatgcatga tatatctccc 8580 aatttgtgta gggcttatta tgcacgctta aaaataataa aagcagactt gacctgatag 8640 tttggctgtg agcaattatg tgcttagtgc atctaacgct tgagttaagc cgcgccgcga 8700 agcggcgtcg gcttgaacga atttctagct agacattatt tgccgactac cttggtgatc 8760 tcgcctttca cgtagtggac aaattcttcc aactgatctg cgcgcgaggc caagcgatct 8820 tcttcttgtc caagataagc ctgtctagct tcaagtatga cgggctgata ctgggccggc 8880 aggcgctcca ttgcccagtc ggcagcgaca tccttcggcg cgattttgcc ggttactgcg 8940 ctgtaccaaa tgcgggacaa cgtaagcact acatttcgct catcgccagc ccagtcgggc 9000 ggcgagttcc atagcgttaa ggtttcattt agcgcctcaa atagatcctg ttcaggaacc 9060 ggatcaaaga gttcctccgc cgctggacct accaaggcaa cgctatgttc tcttgctttt 9120 gtcagcaaga tagccagatc aatgtcgatc gtggctggct cgaagatacc tgcaagaatg 9180 tcattgcgct gccattctcc aaattgcagt tcgcgcttag ctggataacg ccacggaatg 9240 atgtcgtcgt gcacaacaat ggtgacttct acagcgcgga gaatctcgct ctctccaggg 9300 gaagccgaag tttccaaaag gtcgttgatc aaagctcgcc gcgttgtttc atcaagcctt 9360 acggtcaccg taaccagcaa atcaatatca ctgtgtggct tcaggccgcc atccactgcg 9420 gagccgtaca aatgtacggc cagcaacgtc ggttcgagat ggcgctcgat gacgccaact 9480 acctctgata gttgagtcga tacttcggcg atcaccgctt cccccatgat gtttaacttt 9540 gttttagggc gactgccctg ctgcgtaaca tcgttgctgc tccataacat caaacatcga 9600 cccacggcgt aacgcgcttg ctgcttggat gcccgaggca tagactgtac cccaaaaaaa 9660 cagtcataac aagccatgaa aaccgccact gcgccgttac caccgctgcg ttcggtcaag 9720 gttctggacc agttgcgtga gcgcatacgc tacttgcatt acagcttacg aaccgaacag 9780 gcttatgtcc actgggttcg tgcccgaatt gatcacaggc agcaacgctc tgtcatcgtt 9840 acaatcaaca tgctaccctc cgcgagatca tccgtgtttc aaacccggca gcttagttgc 9900 cgttcttccg aatagcatcg gtaacatgag caaagtctgc cgccttacaa cggctctccc 9960 gctgacgccg tcccggactg atgggctgcc tgtatcgagt ggtgattttg tgccgagctg 10020 ccggtcgggg agctgttggc tggctgg 10047

Claims (10)

  1. 목적 유전자를 포함하는 T-DNA 를 포함하는 벡터가 도입된 식물에서 차세대 염기서열 분석을 위한 프로브 세트의 제조 방법으로서,
    상기 프로브 세트가:
    상기 벡터의 LB (left border) 영역에 특이적인 프로브;
    상기 벡터의 RB (right border) 영역에 특이적인 프로브;
    상기 벡터의 T-DNA 영역 중에서 목적 유전자가 아닌 부위에 특이적인 프로브; 및
    상기 벡터의 T-DNA 영역을 제외한 영역에 특이적인 프로브를 포함하도록 디자인하는 단계를 포함하는, 제조 방법.
  2. 제1항에 있어서,
    상기 프로브 세트가:
    상기 벡터의 LB 영역에 특이적인 프로브는, 1X 내지 10X 타일링 밀도(tiling density) 로 타일링되는 프로브들로 구성되고,
    상기 벡터의 RB 영역에 특이적인 프로브는, 1X 내지 10X 타일링 밀도로 타일링되는 프로브들로 구성되고,
    상기 벡터의 T-DNA 영역 중에서 목적 유전자가 아닌 부위에 특이적인 프로브는, 1X 내지 10X 타일링 밀도로 타일링되는 프로브들로 구성되고,
    상기 벡터의 T-DNA 영역을 제외한 영역에 특이적인 프로브는, 1X 내지 10X 타일링 밀도로 타일링되는 프로브들로 구성되는, 제조 방법.
  3. 제1항에 있어서,
    상기 프로브 세트는 도입된 목적 유전자의 염색체 내 삽입된 위치를 확인하기 위한 차세대 염기서열 분석에 사용되는 것인, 제조 방법.
  4. 제1항에 있어서,
    상기 프로브 세트는 도입된 목적 유전자의 카피수를 확인하기 위한 차세대 염기서열 분석에 사용되는 것인, 제조 방법.
  5. 목적 유전자를 포함하는 T-DNA 를 포함하는 벡터가 도입된 식물의 게놈 샘플로부터 DNA 를 절편화하여 차세대 염기서열 분석용 라이브러리를 생성하는 단계; 및
    상기 라이브러리에 제1항 내지 제4항 중 어느 한 항의 방법에 의해 제조된 프로브 세트를 처리하여 프로브에 특이적으로 결합한 DNA 절편들을 선별하는 단계;
    상기 선별된 DNA 절편들에 대하여 차세대 염기서열 분석을 수행하는 단계를 포함하는,
    차세대 염기서열 분석 방법.
  6. 제5항에 있어서,
    상기 라이브러리에 포함된 DNA 절편들의 크기가 250 내지 450bp 인, 방법.
  7. 목적 유전자를 포함하는 T-DNA 를 포함하는 벡터가 도입된 식물의 게놈 샘플로부터 DNA 를 절편화하여 차세대 염기서열 분석용 라이브러리를 생성하는 단계; 및
    상기 라이브러리에 제1항 내지 제4항 중 어느 한 항의 방법에 의해 제조된 프로브 세트를 처리하여 프로브에 특이적으로 결합한 DNA 절편들을 선별하는 단계;
    상기 선별된 DNA 절편들에 대하여 차세대 염기서열 분석을 수행하는 단계를 포함하는,
    도입된 목적 유전자의 염색체 내 삽입된 위치를 확인하는 방법.
  8. 제7항에 있어서,
    상기 라이브러리에 포함된 DNA 절편들의 크기가 250 내지 450bp 인, 방법.
  9. 목적 유전자를 포함하는 T-DNA 를 포함하는 벡터가 도입된 식물의 게놈 샘플로부터 DNA 를 절편화하여 차세대 염기서열 분석용 라이브러리를 생성하는 단계; 및
    상기 라이브러리에 제1항 내지 제4항 중 어느 한 항의 방법에 의해 제조된 프로브 세트를 처리하여 프로브에 특이적으로 결합한 DNA 절편들을 선별하는 단계;
    상기 선별된 DNA 절편들에 대하여 차세대 염기서열 분석을 수행하는 단계를 포함하는,
    도입된 목적 유전자의 카피수를 확인하는 방법.
  10. 제9항에 있어서,
    상기 라이브러리에 포함된 DNA 절편들의 크기가 250 내지 450bp 인, 방법.
KR1020210018615A 2021-02-09 2021-02-09 형질전환 식물체에서 차세대 염기서열 분석을 위한 프로브 세트의 제조 방법 KR20220114958A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210018615A KR20220114958A (ko) 2021-02-09 2021-02-09 형질전환 식물체에서 차세대 염기서열 분석을 위한 프로브 세트의 제조 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210018615A KR20220114958A (ko) 2021-02-09 2021-02-09 형질전환 식물체에서 차세대 염기서열 분석을 위한 프로브 세트의 제조 방법

Publications (1)

Publication Number Publication Date
KR20220114958A true KR20220114958A (ko) 2022-08-17

Family

ID=83110820

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210018615A KR20220114958A (ko) 2021-02-09 2021-02-09 형질전환 식물체에서 차세대 염기서열 분석을 위한 프로브 세트의 제조 방법

Country Status (1)

Country Link
KR (1) KR20220114958A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140024357A (ko) 2011-04-05 2014-02-28 다우 아그로사이언시즈 엘엘씨 트랜스진 경계의 고-처리량 분석

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140024357A (ko) 2011-04-05 2014-02-28 다우 아그로사이언시즈 엘엘씨 트랜스진 경계의 고-처리량 분석

Similar Documents

Publication Publication Date Title
CN108203714B (zh) 一种棉花基因的编辑方法
CN110283840B (zh) 陆地棉基因组的精确高效编辑方法
CN110551752B (zh) xCas9n-epBE碱基编辑系统及其在基因组碱基替换中的应用
CN109593781B (zh) 陆地棉基因组的精准高效编辑方法
CN110656114B (zh) 一种烟草色素合成相关的基因及其应用
CN110760538B (zh) 一种创制枯萎病抗性西瓜种质材料的方法
CN111662367A (zh) 一种水稻抗白叶枯病蛋白及其编码基因与应用
CN109321576A (zh) 一种无腺体低棉酚棉花种质的创制方法
CN106834338A (zh) 拟南芥基因rem16的表达载体及其在调控植株开花期中的应用
KR20220114958A (ko) 형질전환 식물체에서 차세대 염기서열 분석을 위한 프로브 세트의 제조 방법
CN115058439A (zh) 云锦杜鹃samt基因过表达载体及其构建方法和应用
CN109485707B (zh) 蛋白质OsVPE1在调控植物液泡无机磷输出能力中的应用
CN109232726B (zh) 蛋白质OsVPE2在调控植物液泡无机磷输出能力中的应用
CN113281521B (zh) 用于植物应激颗粒相关蛋白快速鉴定的Gateway双元质粒载体、其构建方法及应用
CN114480456A (zh) 用于检测多种融合基因的标准质粒及检测试剂盒
CN113490741A (zh) 通过天然miRNA的基因组编辑抑制靶基因表达
CN111394385A (zh) 一种快速鉴定水稻双向启动子的方法
CN108841862A (zh) 一种含有ha蛋白融合标签的植物表达质粒载体及其载体的构建方法
TW201210471A (en) Method for enhancing thermotolerance of plant and applicatibility of transgenic plant
CN113122516B (zh) 一种植物epsps突变体及其在植物中的应用
CN109337925B (zh) 一种以黄花蒿悬浮细胞系为受体的转AaADS基因提高黄花蒿中青蒿素含量的方法
CN107815435A (zh) 具有增强的纤维素生产能力的葡糖醋杆菌
CN105316333A (zh) 植物花药特异表达启动子pTaASG005的鉴定和应用
CN115466319A (zh) 高粱SbMS1蛋白及其编码基因与应用
CN114591996B (zh) 一种凝结芽孢杆菌h-1的表达载体及其构建方法与应用

Legal Events

Date Code Title Description
A201 Request for examination