KR20200125549A - 크로마틴 면역 침강과 연동한 차세대 염기서열 분석 데이터를 자동으로 분석하는 방법 - Google Patents

크로마틴 면역 침강과 연동한 차세대 염기서열 분석 데이터를 자동으로 분석하는 방법 Download PDF

Info

Publication number
KR20200125549A
KR20200125549A KR1020200138443A KR20200138443A KR20200125549A KR 20200125549 A KR20200125549 A KR 20200125549A KR 1020200138443 A KR1020200138443 A KR 1020200138443A KR 20200138443 A KR20200138443 A KR 20200138443A KR 20200125549 A KR20200125549 A KR 20200125549A
Authority
KR
South Korea
Prior art keywords
program
chip
data
seq
sequence
Prior art date
Application number
KR1020200138443A
Other languages
English (en)
Inventor
노태영
장인순
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Priority to KR1020200138443A priority Critical patent/KR20200125549A/ko
Publication of KR20200125549A publication Critical patent/KR20200125549A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 자동 분석 프로그램을 이용하여 크로마틴 면역 침강과 연동한 차세대 염기서열 분석(ChIP-Seq) 데이터를 자동으로 분석하는 방법과 상기 방법을 수행하기 위해 컴퓨터로 실행시킬 수 있는 프로그램을 기록한 기록매체에 관한 것으로, 본 발명의 ChIP-Seq 자동 분석 프로그램은 별도의 입출력 파일의 포맷을 통일하거나 모듈을 따로 구성할 필요가 없고 입출력 위치 지정만으로 ChIP-Seq 데이터 분석의 전 과정을 자동으로 진행할 수 있으며, 보조프로그램들의 기본적인 설정이 ENCODE ChIP-Seq 가이드라인에 최적화되어 있기 때문에 생물정보학적 사전 지식이 없는 사용자라도 ChIP-Seq 데이터 분석을 쉽고 빠르게 진행할 수 있다. 상기 프로그램을 암 조직과 같은 환자 샘플에서 확보한 ChIP-Seq 데이터 분석에 적용할 경우 암특이적 바이오마커 발굴을 용이하게 할 수 있으며 이를 통해 진단, 치료용 타겟 발굴, 신약 개발 등에 적용이 가능하다.

Description

크로마틴 면역 침강과 연동한 차세대 염기서열 분석 데이터를 자동으로 분석하는 방법 {A Method for automatic analysis of Chromatin-immunoprecipitation-Sequencing data}
본 발명은 크로마틴 면역 침강(Chromatin-immunoprecipitation, ChIP)과 연동한 차세대 염기서열 분석(Next-generation Sequencing, NGS) 데이터(ChIP-Seq)를 자동으로 처리 및 분석하는 방법에 관한 것으로, 상세하게는 미가공 ChIP-Seq 서열 데이터를 전처리 및 정제한 후 게놈 참조서열에 정렬하여 예상되는 단백질의 결합 지점을 피크 콜링(Peak calling) 프로그램을 이용하여 확인하고, 그 결과를 탐색 프로그램으로 주석을 달아 요약된 형태의 데이터로 보고하는 단계를 포함하는 자동 분석 처리 방법에 관한 것이다.
크로마틴 면역침강(Chromatin-immunoprecipitation, ChIP)은 DNA와 특정 단백질 간의 상호 작용을 탐색하기 위한 생물학적 기술로, DNA-단백질 간 공유결합을 유도하여 결합된 DNA를 초음파 또는 효소를 사용하여 수 백 베이스쌍의 크기로 자른 후 특정 단백질에 대응하는 항체를 사용하여 침전함으로서 원하는 DNA 조각만을 얻어내는 방법이다. ChIP을 통해 얻어낸 DNA 조각을 통해 게놈 상에서 특정한 단백질이 결합하는 위치 및 서열 정보를 파악할 수 있다.
차세대 염기서열 분석(Next-generation Sequencing, NGS)은 대용량의 데이터를 빠른 시간에 생산할 수 있으므로 개인 유전체 해독에 필요한 시간과 비용을 획기적으로 절감시킨 기술이며, 시간이 지남에 따라 시퀀싱 플랫폼은 발전하고 분석 가격은 점점 저렴해지고 있고 멘델성 유전질환과 희귀 질환, 암 등에서 차세대 염기서열 분석법을 이용해 질병의 원인 유전자를 찾는데 성공하고 있다. 차세대 염기서열 분석법은 검체로부터 DNA를 추출한 이후 기계적으로 조각화(fragmentation) 시킨 이후 특정 크기를 가지는 라이브러리(library)를 제작하여 시퀀싱에 사용한다. 대용량 시퀀싱 장비를 사용하여 한 개의 염기단위로 4가지 종류의 상보적 뉴클레오타이드(nucleotide) 결합 및 분리 반응을 반복하면서 초기 시퀀싱 데이터를 생산하게 되고, 이후에 초기 데이터의 가공(Trimming), 매핑(Mapping), 유전체 변이의 동정 및 변이 정보의 해석 (Annotation) 등 생물정보학(Bioinformatics)을 이용한 분석 단계를 수행하여 질병 및 다양한 생물학적 형태 (phenotype)에 영향을 미치거나 가능성이 높은 유전체 변이를 발굴하여 혁신적인 치료제 개발 및 산업화를 통한 새로운 부가가치 창출에 기여하고 있다(한국 공개특허 10-2016-0122563 참조).
상기 크로마틴 면역침강 기술을 차세대 시퀀싱(Next-generation Sequencing, NGS) 기술과 결합한 ChIP-Seq을 통해 DNA와 결합하는 단백질의 프로파일을 특정 지역뿐만이 아닌 게놈 전체적인 맥락에서 볼 수 있으며, DNA-단백질 간 상호 작용 정보 및 이를 바탕으로 형성되는 크로마틴 3차원 구조 정보를 필요로 하는 유전자 발현 조절 연구에서 중요한 툴로 활용되고 있다.
ENCODE 또는 modENCODE 프로젝트로 대표되는 대규모 ChIP-Seq 데이터베이스를 구축하기 위한 기본적인 실험 프로토콜, 데이터 선택 기준, 데이터 분석 기준 및 보고 방법에 대한 논의가 꾸준히 이루어져왔으며, 2012년 ENCODE에서 정립한 ChIP-Seq 관련 데이터 생산에 관한 가이드라인이 일반적으로 적용되고 있다.
ENCODE 가이드라인에 맞추어 ChIP-Seq 데이터를 분석하기 위한 연구가 전세계적으로 활발히 진행 중이나, 미가공 서열 데이터로부터 최종 분석 결과를 얻기까지의 과정이 전부 서로 다른 입출력파일의 형태를 가진 독립된 모듈로 구성되어 있기 때문에 각 절차 별 파일의 입출력 포맷이 다르므로, ChIP-Seq 분석을 하기 위해서는 파일의 입출력 포맷을 통일하고 분석 모듈을 사용자가 직접 구성해야 하는 어려움이 있고, 사용하는 프로그램의 개수가 많으며, 이들 프로그램에 대해 적용되는 옵션 또한 다양하기 때문에 생물정보학적 지식을 갖추지 않은 대부분의 연구자들이 관련 프로그램을 사용하기에 많은 제약이 따른다.
본 발명자들은 상기와 같은 종래의 ChIP-Seq 분석 프로그램의 문제점을 해결할 수 있는 방법을 개발하기 위해 노력한 결과, ChIP-Seq 데이터를 자동으로 분석하는 프로그램을 개발 하였는바, 이에 기초하여 본 발명을 완성하였다.
상기와 같은 목적을 달성하기 위하여, 본 발명은 (a) 미가공된 크로마틴 면역 침강과 연동한 차세대 염기서열(ChIP-Seq) 분석 데이터를 전처리 및 정제하는 단계;
(b) 상기 전처리 및 정제된 데이터를 게놈 참조서열에 맵핑 툴을 사용하여 정렬 및 후처리하는 단계;
(c) 상기 정렬 및 후처리된 데이터를 피크 콜링(Peak calling) 하는 단계;
(d) 상기 피크 콜링한 데이터에 탐색 프로그램을 사용하여 주석을 다는 단계; 및
(e) 상기 (a) 내지 (d) 단계의 결과를 요약된 형태의 데이터로 제공하는 단계;
를 포함하는, 크로마틴 면역 침강과 연동한 차세대 염기서열(ChIP-Seq) 분석 데이터를 자동으로 분석하는 방법을 제공한다.
본 발명의 일구현예로, 상기 (a) 단계에서 전처리는, 일루미나(Illumina) 유니버셜 어댑터 서열(AGATCGGAAGAGC)을 컷어댑트(Cutadapt) 프로그램을 사용하여 어댑터 서열을 제거할 수 있다.
본 발명의 다른 구현예로, 상기 (a) 단계에서 정제는, 프레드(Phred) 퀄리티 점수가 20 이상인 염기의 개수가 80% 이상인 서열만을 분리하여 정제할 수 있다.
본 발명의 또 다른 구현예로, 상기 (b) 단계의 게놈 참조서열은 게놈 레퍼런스 컨소시엄 데이터베이스(Genome Reference Consortium)의 마우스 mm9, 마우스 mm10, 인간 hg19, 또는 인간 hg38 게놈일 수 있다.
본 발명의 또 다른 구현예로, 상기 (b) 단계에서 맵핑 툴은 BWA, Bowtie, 또는 Bowtie2 프로그램일 수 있다.
본 발명의 또 다른 구현예로, 상기 (b) 단계에서 후처리는, Samtools 및 Picard 프로그램을 사용하여 게놈 상에 유일하게 정렬된 서열만을 보존하는 것일 수 있다.
본 발명의 또 다른 구현예로, 상기 (c) 단계에서 Peak calling은, MACS2 또는 PeakRanger-BCP 프로그램을 사용하여 단백질이 결합한 위치를 확인하는 것일 수 있다.
본 발명의 또 다른 구현예로, 상기 (d) 단계에서 탐색 프로그램은 Homer 프로그램의 annotatePeaks.pl 및 findMotifsGenome.pl 보조프로그램일 수 있다.
본 발명의 또 다른 구현예로, 상기 (d) 단계에서 주석은 부위(region) 정보, 근접한 유전자의 이름, Ensembl 유전자 ID, Entrez 유전자 ID 및 해당하는 유전자의 기능 정보로 이루어지는 군으로부터 선택되는 하나 이상일 수 있다.
본 발명의 또 다른 구현예로, 상기 (e) 단계의 요약된 형태의 데이터는 .bed 파일, .bedGraph 파일 또는 .tsv 파일일 수 있다.
또한, 본 발명은 상기 ChIP-Seq 데이터를 자동으로 분석하는 방법을 수행하기 위해 컴퓨터로 실행시킬 수 있는 프로그램을 기록한 기록매체를 제공한다.
본 발명의 일구현예로, 상기 기록매체는 CD-ROM, DVD-ROM, 이동식 저장장치, ROM, RAM, 또는 인터넷을 통한 전송의 형태일 수 있다.
본 발명의 다른 구현예로, 상기 기록매체에 기록된 정보는 컴파일된 바이너리 파일(binary file), 텍스트 파일, 또는 쉘 스크립트의 형태로 나타낼 수 있다.
본 발명의 ChIP-Seq 자동 분석 프로그램은 시퀀싱을 통해 직접적으로 생산하거나 공개 데이터베이스에서 다운로드한 미가공 ChIP-Seq 서열 데이터 및 게놈 참조서열 데이터만을 입력으로 사용하기 때문에 별도의 입출력 파일의 포맷을 통일하거나 모듈을 따로 구성할 필요가 없고 입출력 위치 지정만으로 ChIP-Seq 데이터 분석의 전 과정을 자동으로 진행할 수 있다. 본 발명의 ChIP-Seq 자동 분석 프로그램은 보조프로그램들의 기본적인 설정이 ENCODE ChIP-Seq 가이드라인에 최적화되어 있기 때문에 생물정보학적 사전 지식이 없는 사용자라도 ChIP-Seq 데이터 분석을 쉽고 빠르게 진행할 수 있어 유용하게 사용될 수 있다. 상기 프로그램을 암 조직과 같은 환자 샘플에서 확보한 ChIP-Seq 데이터 분석에 적용할 경우 암특이적 바이오마커 발굴을 용이하게 할 수 있으며 이를 통해 진단, 치료용 타겟 발굴, 신약 개발 등에 적용이 가능할 것으로 기대된다.
도 1은 본 발명의 일 실시예에 따른 ChIP-Seq 자동 분석 프로그램의 작업 과정을 보여주는 흐름도를 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 ChIP-Seq 자동 분석 프로그램의 실행 방법 및 프로그램의 초기 설정을 위한 스크립트 정보를 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른 ChIP-Seq 자동 분석 프로그램을 통해 얻은 peak에 대해 탐색 프로그램을 이용하여 주석을 단 결과의 예시적인 출력을 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 ChIP-Seq 자동 분석 프로그램의 결과물을 요약된 형태의 데이터로 제공한 파일의 예시적인 출력을 나타낸 도면이다.
본 발명은 다양한 변경을 통해 여러 가지 실시예를 가질 수 있는 바, 도면에 예시된 특정 실시예 및 이에 따른 예시적인 출력은 발명의 내용을 특정한 실시 형태로 제한하고자 하는 것이 아니며, 단순히 특정 실시예를 설명하기 위해 사용된 것이다. 비록 도면에 예시된 특정 실시예가 ChIP-Seq 자동 분석 프로그램의 구체적인 개념 및 구성을 기술하기는 하였지만 본 발명의 사상, 개념, 기술 범위에 일치하는 다양한 변경이 적용된 예시에 대해서도 사용될 수 있다.
이하, 본 발명을 상세히 설명한다.
본 발명은 (a) 미가공된 크로마틴 면역 침강과 연동한 차세대 염기서열(ChIP-Seq) 분석 데이터를 전처리 및 정제하는 단계;
(b) 상기 전처리 및 정제된 데이터를 게놈 참조서열에 맵핑 툴을 사용하여 정렬 및 후처리하는 단계;
(c) 상기 정렬 및 후처리된 데이터를 피크 콜링(Peak calling) 하는 단계;
(d) 상기 피크 콜링한 데이터에 탐색 프로그램을 사용하여 주석을 다는 단계; 및
(e) 상기 (a) 내지 (d) 단계의 결과를 요약된 형태의 데이터로 제공하는 단계;
를 포함하는, 크로마틴 면역 침강과 연동한 차세대 염기서열 분석(ChIP-Seq) 데이터를 자동으로 분석하는 방법을 제공한다.
본 발명에서 상기 (a) 단계는 미가공된 크로마틴 면역 침강과 연동한 차세대 염기서열(ChIP-Seq) 분석 데이터를 어댑터 서열을 제거하여 전처리 하고 프레드(Phred) 퀄리티가 20 이상인 염기의 개수가 80% 이상인 서열만을 분리하여 자동으로 정제하는 단계이다.
이 때, 상기 미가공된 ChIP-Seq 데이터는 사용자가 직접 시퀀싱을 진행한 ChIP-Seq 데이터 또는 공개 데이터베이스에서 다운로드한 ChIP-Seq 데이터일 수 있으나, 이에 제한되지 않는다.
또한, 상기 (a) 단계에서 전처리는, 일루미나(Illumina) 유니버셜 어댑터 서열(AGATCGGAAGAGC)을 컷어댑트(Cutadapt) 프로그램을 사용하여 어댑터 서열을 제거하는 것일 수 있으나, 이에 제한되지 않는다.
또한, 상기 (a) 단계에서 정제는, FASTX-Toolkit의 fastq_quality_filter 프로그램을 사용하여 Phred 퀄리티가 20 이상인 염기의 개수가 80% 이상인 서열만을 분리하여 낮은 퀄리티의 서열을 제거하는 것일 수 있으나, 상기 조건에 제한되지는 않는다.
본 발명에서 상기 (b) 단계는 상기 전처리 및 정제된 데이터를 게놈 레퍼런스 컨소시엄 데이터베이스(Genome Reference Consortium)의 게놈 참조서열에 맵핑 툴을 사용하여 자동으로 정렬한 다음 후처리 하는 단계이다.
이 때, 상기 게놈 참조서열은 게놈 레퍼런스 컨소시엄 데이터베이스(Genome Reference Consortium)의 마우스 mm9, 마우스 mm10, 인간 hg19, 또는 인간 hg38 게놈일 수 있으나, 이에 제한되지 않는다.
또한, 상기 맵핑 툴은 BWA, Bowtie, 또는 Bowtie2 프로그램일 수 있으나, 이에 제한되지 않는다.
또한, 상기 후처리는 Samtools 및 Picard 프로그램을 사용하여 게놈 상에 유일하게 정렬된 서열만을 보존할 수 있으나, 상기 프로그램에 제한되는 것은 아니다.
본 발명에서 상기 (c) 단계는 상기 정렬 및 후처리된 데이터에 피크 콜링(Peak calling) 프로그램을 사용하여 단백질이 결합한 위치를 확인하는 단계이다.
이 때, 상기 Peak calling 프로그램은 MACS2 또는 PeakRanger-BCP 프로그램일 수 있으나, 이에 제한되지 않는다.
본 발명에서 상기 (d) 단계는 상기 피크 콜링한 데이터에 탐색 프로그램을 사용하여 자동으로 주석을 다는 단계이다.
이 때, 상기 탐색 프로그램은 Homer 프로그램의 annotatePeaks.pl 및 findMotifsGenome.pl 보조프로그램일 수 있으나, 이에 제한되지 않는다.
또한, 상기 주석은 부위(region) 정보, 근접한 유전자의 이름, Ensembl 유전자 ID, Entrez 유전자 ID 및 해당하는 유전자의 기능 정보로 이루어지는 군으로부터 선택되는 하나 이상인 것일 수 있으나, 이에 제한되지는 않는다.
본 발명에서 상기 (e) 단계는 상기 (a) 내지 (d) 단계의 결과를 요약된 형태의 데이터로 제공하는 단계이다.
이 때, 상기 요약된 형태의 데이터는 .bed 파일, .bedGraph 파일 또는 .tsv 파일일 수 있으나, 이에 제한되지 않는다.
또한, 본 발명은 상기 ChIP-Seq 데이터를 자동으로 분석하는 방법을 수행하기 위해 컴퓨터로 실행시킬 수 있는 프로그램을 기록한 기록매체를 제공한다.
이 때, 상기 기록매체는 컴퓨터에 의해 직접 판독 및 액세스될 수 있는 데이터가 저장되는 모든 종류의 기록매체를 말하며, CD-ROM, DVD-ROM 등의 광학기록매체, 이동식 저장장치, ROM, RAM 등의 물리적 기록매체, 또는 인터넷을 통한 전송의 형태로 구현될 수 있으나, 이에 제한되지 않는다.
또한, 상기 기록매체에 프로그램을 기록하는 것은 선택한 기록매체의 종류 및 액세스 방법을 바탕으로 하며, 기록매체에 기록된 정보는 컴파일된 바이너리 파일(binary file), 텍스트 파일, 또는 쉘 스크립트의 형태로 나타낼 수 있으나, 이에 제한되지 않는다.
본 발명의 일실시예에서는 자동 분석 프로그램을 사용하여 미가공 ChIP-Seq 데이터의 자동 분석을 실시하였다(실시예 및 도 1 내지 도 4 참조).
이하, 본 발명의 바람직한 실시예를 첨부도면을 참조하여 상세히 설명하기로 한다. 다만, 이 실시예는 오로지 본 발명을 예시하기 위한 것으로서, 본 발명의 범위가 이들 실시예에 의해 제한되는 것으로 해석되지는 않는다 할 것이다.
실시예 . 자동 분석 프로그램을 사용하여 미가공 ChIP - Seq 데이터를 자동으로 분석하는 방법
자동 분석 프로그램 사용의 전 과정은 도 1에 나타낸 바와 같이 데이터 전처리 및 정제 과정, 게놈 참조서열에의 맵핑 및 후처리 과정, Peak calling 과정, 탐색 프로그램을 사용해 주석을 다는 과정 및 요약된 데이터를 보고하는 과정으로 구성하여 미가공 ChIP-Seq 데이터의 자동 분석을 실시하였으며, 본 발명의 ChIP-Seq 자동 분석 프로그램의 실행 방법과 프로그램의 초기 설정을 위한 스크립트 정보는 도 2에 나타내었다.
데이터 전처리 및 정제 과정에서는 Illumina 유니버설 어댑터 서열(AGATCGGAAGAGC)을 Cutadapt 프로그램을 사용하여 시퀀싱 어댑터를 제거하는 과정과, FASTX-Toolkit의 fastq_quality_filter 프로그램을 사용하여 Phred 퀄리티가 20 이상인 염기의 개수가 80% 이상인 서열만을 분리하여 낮은 퀄리티의 서열을 제거하는 과정을 동시에 수행하였으며, Paired-end 옵션에 대해서는 정제가 끝난 후 다시 짝을 맞추는 과정을 추가하였다. 정제 과정 전 또는 후에 서열 데이터의 상태를 확인하는 작업을 추가하였다.
정제를 마친 서열 데이터는 Genome Reference Consortium 데이터베이스의 게놈 참조서열에 맵핑 툴인 BWA, Bowtie 또는 Bowtie2를 사용하여 정렬하였다. 정렬된 데이터에 Samtools 및 Picard 프로그램을 사용하여 게놈 참조서열 상에 유일하게 정렬된 서열만을 추출하는 후처리를 진행하며, 기준을 통과한 서열만을 이후 분석에 사용하였다. 정렬된 데이터의 후처리 전 또는 후에 정렬된 데이터의 상태를 확인하는 작업을 추가하였다.
후처리가 진행된 서열 데이터에 Peak calling 프로그램을 사용하여 단백질의 결합 위치를 확인하였다. 사용하는 프로그램은 DNA에 결합하는 단백질의 특성을 기반으로 하며, 수백 bp의 좁은 결합 프로파일을 보이는 단백질의 경우 MACS2, 수 kbp의 넓은 결합 프로파일을 보이는 단백질의 경우 PeakRanger-BCP를 사용하였다. 결과 데이터는 .bed 파일로 추출되며, 이 파일은 데이터 제공 과정 및 추가적인 분석에 사용되었다.
Peak calling 과정에서 추출된 .bed 파일을 대상으로 탐색 프로그램인 Homer의 annotatePeaks.pl 및 findMotifsGenome.pl 보조프로그램을 사용하여 주석을 달며, 이는 도 3에 나타낸 바와 같이, Peak 위치에서 가장 가까운 유전자의 이름, 유전자의 ID, 해당 유전자의 생물학적 특징 및 모티프 등의 정보를 Peak의 위치 정보와 함께 표시하였다. 결과 데이터는.tsv 파일로 추출되어 엑셀 등의 프로그램으로 확인하였다.
Peak calling 과정에서 사용한 원본 데이터는 Homer의 makeUCSCfile 프로그램을 통해 .bedGraph 파일로 추출되며 이는 genome browser 등의 프로그램을 통해 시각화가 가능하였다. 생성된 .bedGraph 파일은 도 4에 나타낸 바와 같이, Peak 지역의 정보가 담긴 .bed 파일 및 주석이 달린 .tsv 파일과 함께 요약되어 제공되었다.
이상으로 본 발명 내용의 특정한 부분을 상세히 기술하였는바, 당업계의 통상의 지식을 가진 자에게 있어서, 이러한 구체적 기술은 단지 바람직한 실시 양태일 뿐이며, 이에 의해 본 발명의 범위가 제한되는 것이 아닌 점은 명백할 것이다. 따라서 본 발명의 실질적인 범위는 첨부된 청구항들과 그것들의 등가물에 의하여 정의된다고 할 것이다.

Claims (13)

  1. (a) 미가공된 크로마틴 면역 침강과 연동한 차세대 염기서열(ChIP-Seq) 분석 데이터를 전처리 및 정제하는 단계;
    (b) 상기 전처리 및 정제된 데이터를 게놈 참조서열에 맵핑 툴을 사용하여 정렬 및 후처리하는 단계;
    (c) 상기 정렬 및 후처리된 데이터를 피크 콜링(Peak calling) 하는 단계;
    (d) 상기 피크 콜링한 데이터에 탐색 프로그램을 사용하여 주석을 다는 단계; 및
    (e) 상기 (a) 내지 (d) 단계의 결과를 요약된 형태의 데이터로 제공하는 단계;
    를 포함하는, 크로마틴 면역 침강과 연동한 차세대 염기서열 분석(ChIP-Seq) 데이터를 자동으로 분석하는 방법.
  2. 제1항에 있어서,
    상기 (a) 단계에서 전처리는, 일루미나(Illumina) 유니버셜 어댑터 서열(AGATCGGAAGAGC)을 컷어댑트(Cutadapt) 프로그램을 사용하여 어댑터 서열을 제거하는 것을 특징으로 하는, 방법.
  3. 제1항에 있어서,
    상기 (a) 단계에서 정제는, 프레드(Phred) 퀄리티 점수가 20 이상인 염기의 개수가 80% 이상인 서열만을 분리하여 정제하는 것을 특징으로 하는, 방법.
  4. 제1항에 있어서,
    상기 (b) 단계의 게놈 참조서열은 게놈 레퍼런스 컨소시엄 데이터베이스(Genome Reference Consortium)의 마우스 mm9, 마우스 mm10, 인간 hg19, 또는 인간 hg38 게놈인 것을 특징으로 하는, 방법.
  5. 제1항에 있어서,
    상기 (b) 단계에서 맵핑 툴은 BWA, Bowtie, 또는 Bowtie2 프로그램인 것을 특징으로 하는, 방법.
  6. 제1항에 있어서,
    상기 (b) 단계에서 후처리는, Samtools 및 Picard 프로그램을 사용하여 게놈 상에 유일하게 정렬된 서열만을 보존하는 것을 특징으로 하는, 방법.
  7. 제 1항에 있어서,
    상기 (c) 단계에서 Peak calling은, MACS2 또는 PeakRanger-BCP 프로그램을 사용하여 단백질이 결합한 위치를 확인하는 것을 특징으로 하는, 방법.
  8. 제 1항에 있어서,
    상기 (d) 단계에서 탐색 프로그램은 Homer 프로그램의 annotatePeaks.pl 및 findMotifsGenome.pl 보조프로그램인 것을 특징으로 하는, 방법.
  9. 제1항에 있어서,
    상기 (d) 단계에서 주석은 부위(region) 정보, 근접한 유전자의 이름, Ensembl 유전자 ID, Entrez 유전자 ID 및 해당하는 유전자의 기능 정보로 이루어지는 군으로부터 선택되는 하나 이상인 것을 특징으로 하는, 방법.
  10. 제 1항에 있어서,
    상기 (e) 단계의 요약된 형태의 데이터는 .bed 파일, .bedGraph 파일 또는 .tsv 파일인 것을 특징으로 하는, 방법.
  11. 상기 제1항의 방법을 수행하기 위해 컴퓨터로 실행시킬 수 있는 프로그램을 기록한 기록매체.
  12. 제11항에 있어서,
    상기 기록매체는 CD-ROM, DVD-ROM, 이동식 저장장치, ROM, 또는 RAM인 것을 특징으로 하는, 기록매체.
  13. 제11항에 있어서,
    상기 기록매체에 기록된 정보는 컴파일된 바이너리 파일(binary file), 텍스트 파일, 또는 쉘 스크립트의 형태로 나타내는 것을 특징으로 하는, 기록매체.

KR1020200138443A 2020-10-23 2020-10-23 크로마틴 면역 침강과 연동한 차세대 염기서열 분석 데이터를 자동으로 분석하는 방법 KR20200125549A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200138443A KR20200125549A (ko) 2020-10-23 2020-10-23 크로마틴 면역 침강과 연동한 차세대 염기서열 분석 데이터를 자동으로 분석하는 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200138443A KR20200125549A (ko) 2020-10-23 2020-10-23 크로마틴 면역 침강과 연동한 차세대 염기서열 분석 데이터를 자동으로 분석하는 방법

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020180029442A Division KR20190108014A (ko) 2018-03-13 2018-03-13 크로마틴 면역 침강과 연동한 차세대 염기서열 분석 데이터를 자동으로 분석하는 방법

Publications (1)

Publication Number Publication Date
KR20200125549A true KR20200125549A (ko) 2020-11-04

Family

ID=73571425

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200138443A KR20200125549A (ko) 2020-10-23 2020-10-23 크로마틴 면역 침강과 연동한 차세대 염기서열 분석 데이터를 자동으로 분석하는 방법

Country Status (1)

Country Link
KR (1) KR20200125549A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113838534A (zh) * 2021-09-16 2021-12-24 中国医学科学院血液病医院(中国医学科学院血液学研究所) 一种基于Tn5矫正的ATAC-seq生物信息学分析方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113838534A (zh) * 2021-09-16 2021-12-24 中国医学科学院血液病医院(中国医学科学院血液学研究所) 一种基于Tn5矫正的ATAC-seq生物信息学分析方法及装置
CN113838534B (zh) * 2021-09-16 2023-08-01 中国医学科学院血液病医院(中国医学科学院血液学研究所) 一种基于Tn5矫正的ATAC-seq生物信息学分析方法及装置

Similar Documents

Publication Publication Date Title
US11492656B2 (en) Haplotype resolved genome sequencing
El-Metwally et al. Next generation sequencing technologies and challenges in sequence assembly
IL285319B2 (en) Suppressing errors in sequenced DNA fragments using common reads with unique molecular indices
KR20080026153A (ko) 다이태그 서열의 처리 방법 및/또는 게놈 맵핑
CN110178184B (zh) 致癌剪接变体确定
Masoudi-Nejad et al. Next generation sequencing and sequence assembly: methodologies and algorithms
EP3625802B1 (en) Scansoft : a method for the detection of genomic deletions and duplications in massive parallel sequencing data
CN112735517A (zh) 一种检测染色体联合缺失的方法、装置和存储介质
Kim et al. Unraveling metagenomics through long-read sequencing: A comprehensive review
KR20200125549A (ko) 크로마틴 면역 침강과 연동한 차세대 염기서열 분석 데이터를 자동으로 분석하는 방법
JP5825790B2 (ja) 核酸情報処理装置およびその処理方法
WO2012096016A1 (ja) 核酸情報処理装置およびその処理方法
KR20210040714A (ko) 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치
JP2015228819A (ja) Hla遺伝子のdnaタイピング方法及び当該方法のデータ解析に使用するコンピュータプログラム
CN117043867A (zh) 用于检测用于测序的核苷酸样品玻片内的气泡的机器学习模型
US20210202041A1 (en) Protein homolog discovery
KR20190108014A (ko) 크로마틴 면역 침강과 연동한 차세대 염기서열 분석 데이터를 자동으로 분석하는 방법
JP2022021661A (ja) シングルセルゲノム配列とメタゲノム配列を統合する新規処理法
Albanese et al. Genome recovery, functional profiling, and taxonomic classification from metagenomes
CN117935933B (zh) Cdkn2a/b纯合性缺失的分析方法及系统
CN114882943B (zh) 一种分析体细胞变异的方法及装置
Ferros et al. NEXT-GENERATION SEQUENCING AND ITS DATA ANALYSIS
EP4332975A1 (en) Method for eliminating non-natural sequence portions from fastq sequence data
JP5952480B2 (ja) 核酸情報処理装置およびその処理方法
Cervi et al. The MetaGens algorithm for metagenomic database lossy compression and subject alignment

Legal Events

Date Code Title Description
A107 Divisional application of patent
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E601 Decision to refuse application