KR20220042300A - 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 방법, 구현 시스템 및 매체 - Google Patents

생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 방법, 구현 시스템 및 매체 Download PDF

Info

Publication number
KR20220042300A
KR20220042300A KR1020217034664A KR20217034664A KR20220042300A KR 20220042300 A KR20220042300 A KR 20220042300A KR 1020217034664 A KR1020217034664 A KR 1020217034664A KR 20217034664 A KR20217034664 A KR 20217034664A KR 20220042300 A KR20220042300 A KR 20220042300A
Authority
KR
South Korea
Prior art keywords
sequence
negative
frequent
sequences
similarity
Prior art date
Application number
KR1020217034664A
Other languages
English (en)
Inventor
시앙쥔 동
위에 루
Original Assignee
치루 유니버시티 오브 테크놀로지
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN202011022788.8A external-priority patent/CN112182497B/zh
Application filed by 치루 유니버시티 오브 테크놀로지 filed Critical 치루 유니버시티 오브 테크놀로지
Publication of KR20220042300A publication Critical patent/KR20220042300A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

본 발명은 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 방법, 구현 시스템 및 매체에 관한 것이다. 여기에는 (1) DNA 시퀀스 중의 자모를 숫자로 나타내고, 여러 블록으로 분할하며, 획득한 여러 블록은 빈발 패턴 마이닝의 데이터 세트로 사용하는 데이터 전처리 단계; (2) f-NSP 알고리즘을 사용해 데이터 세트를 마이닝하는 빈발 패턴 마이닝 단계; (3) 최대 빈발 포지티브, 네거티브 시퀀스 패턴을 그래픽으로 나타내고, 최대 빈발 포지티브, 네거티브 시퀀스 패턴을 디지털 시퀀스로 변환하는 단계; 및 (4) 상이한 DNA 시퀀스의 유사도를 구하고, 유사도가 가장 작은 대응하는 DNA 시퀀스를 연구할 DNA 시퀀스로 선택하는 DNA 시퀀스의 유사성 분석 단계가 포함된다. 본 발명은 네거티브 시퀀스를 효과적으로 표현하고 분석할 수 있으며, 상이한 최대 빈발 패턴 조합을 선택하여 상이한 분석 결과를 얻을 수 있으므로, 컴퓨터 메모리와 시간의 소모를 크게 절약한다.

Description

생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 방법, 구현 시스템 및 매체
본 발명은 의사결정 가능한 고효율의 네거티브 시퀀스 규칙의 응용 기술 분야에 속하며, 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 방법, 구현 방법 및 매체에 관한 것이다.
최근 우리는 방대한 생물학적 시퀀스 데이터를 획득하였으며, DNA 및 단백질 시퀀싱 기술의 발달로 생물학적 시퀀스 데이터에 포함된 다양한 정보, 특히 DNA 시퀀스 중의 유전 및 조절 정보, 단백질 시퀀스 구조와 기능의 관계를 해석하는 분석 도구에 대한 수요가 증가하고 있으며, 시퀀스 유사성 분석이 널리 사용되고 있다. 우리는 새로운 DNA 시퀀스를 획득할 때마다 유사성 분석을 통해 그것이 어떤 공지된 시퀀스와 유사한지 증명하기를 원한다. 공지된 시퀀스와 상동성을 가진다면 새로운 시퀀스의 기능을 재측정하는 시간과 노력을 크게 줄일 수 있다. 생물학적 시퀀스가 방대하기 때문에 이는 매우 중요하다. 생물학적 시퀀스 분석에서 시퀀스 패턴 마이닝 알고리즘은 동시에 발생하는 생물학적 시퀀스를 식별하고 DNA 또는 단백질 시퀀스 중의 관계를 발견하는 데 도움이 되므로, 결실된 염기쌍 시퀀스를 연구하는 것은 단일하게 빈발한 시퀀스 패턴을 마이닝하는 것보다 더 의미가 있다. 생물정보학 연구에서 생물학적 시퀀스의 유사성 분석은 단순한 기계적 비교가 아니라 다양해야 하며, 보조적 분석과 판단을 위해 많은 수학적, 통계학적 방법을 더 사용해야 한다. 시퀀스 유사성 분석에서 비교는 가장 일반적으로 사용되는 고전적인 연구 수단이다. 시퀀스의 유사성을 생물학적 시퀀스 수준에서 분석하여 그 구조적 기능과 진화적 연관성이 유전자 인식, 분자 진화, 생명 기원 연구의 기초라고 추측하고 있으나, 시퀀스 비교에는 치환 행렬과 널값(null value) 패널티의 두 가지 문제점이 있으며 이는 유사성 점수에 영향을 미친다. 대략적인 비교 방법은 같거나 다른 경우에만 적용하여 두 염기의 관계를 설명한다. 생물학적 시퀀스의 유사성 분석은 단백질 시퀀스에 저장된 정보를 추출하는 데 사용되며, 이를 위해 많은 수학적 방법이 제안되었다. 생물학적 시퀀스의 그래픽 표현은 생물학자들이 다른 복잡한 이론이나 실험 방법을 선택하는 데 도움이 되도록 임의 시퀀스의 정보 내용을 식별할 수 있다. 그래픽 표현은 유전 데이터의 가시적 정성 검사를 제공할 뿐만 아니라 행렬 등 대상을 통해 수학적 설명을 더 제공한다. 대부분의 수학적 방식은 2-D 및 3-D를 기반으로 표시된다.
시퀀스 패턴 마이닝에 있어서, 포지티브 시퀀스 패턴(Positive Sequential Pattern, PSP) 마이닝은 이미 발생한 이벤트(행위)만 고려하므로, 종래의 시퀀스 패턴 마이닝의 원리와 다르다. 네거티브 시퀀스 패턴(Negative Sequential Pattern, NSP) 마이닝은 발생하지 않은 이벤트(행위), 즉 시퀀스에 존재하지 않는 항목도 고려한다. 이는 인간에게 보다 포괄적인 의사 결정 정보를 제공할 수 있다. 예를 들어 캠퍼스의 다양한 현재 상황은 학생의 학습 및 삶에 미치는 영향의 정도가 다르다. 의료 사기 행위가 의심되는 보험 가입자는 불량 의약품 구매 기록을 삭제하며, 결실된 유전자 단편은 잠재적인 질병 등을 유발할 수 있다. 그러나 이는 사람들이 간과하는 경우가 종종 있어 데이터 마이닝에 종사하는 작업자들이 점점 더 주목 받고 있다. 특히 생물학적 시퀀스 분석에서 시퀀스 패턴 마이닝 알고리즘은 동시에 발생하는 생물학적 시퀀스를 식별하고 DNA 또는 단백질 시퀀스 중의 관계를 발견하는 데 도움이 되므로, 결실된 염기쌍 시퀀스를 연구하는 것은 단일하게 빈발한 시퀀스 패턴을 마이닝하는 것보다 더 의미가 있다. 생물학적 데이터 분석 또는 생물학적 데이터 마이닝에는 일부 중요한 문제가 있다. 예를 들어 동시 발생 생물학적 시퀀스를 찾고, 생물학적 시퀀스에 대해 효과적인 분류를 진행하고 생물학적 시퀀스에 대해 클러스터 분석을 수행하는 것 등이 있다. 시퀀스 패턴 마이닝 알고리즘은 동시에 발생하는 생물학적 시퀀스를 식별하고 DNA 또는 단백질 시퀀스 중의 관계를 발견하는 데 도움이 된다. 생물학적 시퀀스 데이터에는 가치 있는 생물학적 정보가 많이 포함되어 있는 경우가 많다. 예를 들어 생물학적 시퀀스에서 빈번하게 나타나는 유전자 및 단백질 단편에는 알려지지 않은 정보가 많이 포함되어 있으며, 이러한 정보를 마이닝하는 것은 매우 중요하다. 인체에 대한 특정 박테리아의 공격은 유전자의 특정 단편에 의해 영향을 받으며, 일부 가변 수의 직렬 반복 시퀀스의 극단적 확장은 신경계와 관련된 질병을 유발할 수 있다. 또한 DNA 시퀀스에서 빈발 패턴의 발견은 생물 유전 특성을 해석하는 효과적인 방법이 될 것이다. 이러한 빈발 패턴은 종종 생물학적 시퀀스에 숨겨진 데이터의 가능한 경향과 특정 이벤트의 관련 마커로 사용된다. 따라서 단백질 또는 DNA 등 생물학적 시퀀스 중 빈발 모드의 마이닝은 중요한 가치를 갖는다.
현재 존재하는 유사성 분석 방법은 주로 PSP에 대한 것이며, 앞서 우리가 마이닝한 NSP의 경우 통일된 유사성 측정 방법이 여전히 부족하다. 시퀀스 비교에는 몇 가지 단점이 있어 사람들로 하여금 DNA 서열의 유사성을 비교하기 위한 다른 방법을 찾도록 만든다. 우리는 생물학적 데이터에서 NSP의 존재는 불가피하며, 심지어 일부 질병 유발 유전자에도 필수적이라는 것을 알고 있다. 이는 우리로 하여금 염기 시퀀스가 결실된 DNA의 유사성을 분석하는 방법을 찾도록 만들었다.
종래 기술의 결함을 보완하기 위해, 본 발명은 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 방법을 제공한다.
본 발명은 상기 유사성 분석 방법의 구현 시스템을 더 제공한다.
DNA 시퀀스의 유사성을 효과적으로 분석하기 위해서는 다음과 같은 주요 문제를 고려해야 한다. (1) 디지털 시퀀스를 이용해 DNA 메인 시퀀스를 효과적으로 나타내야 한다. (2) DNA 시퀀스 특징으로 볼 수 있는 적합한 기술자를 획득 및 선택하고 디지털 시퀀스를 기반으로 이를 특성화해야 한다. (3) 상이한 길이의 DNA 시퀀스를 효과적으로 처리하고 그 일관성을 유지해야 한다. (4) 네거티브 시퀀스에 대해 효과적인 유사성 분석을 수행해야 한다.
용어 해석:
1. DNA 시퀀스는 유전자 시퀀스로도 불리며, 일련의 자모로 표시되는 실제 또는 가상의 유전자 정보를 휴대한 DNA 분자의 기본 구조이다.
2. f-NSP 알고리즘은 f-NSP가 비트맵을 사용해 PSP 데이터를 저장하고, 비트 연산을 통해 NSC 지지도를 계산한다. 이는 size가 1보다 큰 PSP에 대한 비트맵을 생성한다. 포지티브 시퀀스가 제i 데이터 시퀀스에 포함되면, 우리는 이 포지티브 시퀀스의 비트맵 제i 위치를 1로 설정하고, 그렇지 않으면 0으로 설정한다. 각 비트맵의 길이는 데이터 시퀀스에 포함된 시퀀스의 수와 같다. 우리는 새로운 비트맵 저장 구조를 채택하여 비트 또는(OR) 연산을 사용해 원래의 합집합 연산을 대체할 수 있다. 각 비트맵의 길이는 데이터베이스 중 시퀀스의 수량과 같다. s가 하나의 포지티브 시퀀스라고 가정하면, 그 비트맵은 B(s)로 표시하며 획득한 비트맵 중 "1"의 개수는 N(B(s))로 나타낸다. 하나의 m-size와 n-neg-size의 네거티브 시퀀스 ns를 제공하며, 그 지지도는 다음과 같다.
sup(ns) = sup(MPS(ns)) - N(
Figure pct00001
{B(p(1-negMSi))}) (1)
ns가 하나의 네거티브 요소만 포함하는 경우, 시퀀스 ns의 지지도는 다음과 같다.
sup(ns)=sup(MPS(ns))-sup(p(ns)) (2)
특히 단일 요소 네거티브 시퀀스 <¬G>의 경우 다음과 같다.
sup(<¬G>)=|D|-sup(<G>) (3)
f-NSP 알고리즘은 하기 단계를 포함한다. 1. GSP 알고리즘을 기반으로 시퀀스 데이터 중에서 모든 PSP 알고리즘을 조회한다. 모든 PSPs와 이들의 비트맵은 하나의 해시 테이블 PSPHash에 보관된다. 2. NSC(네거티브 후보 시퀀스) 생성 방법을 사용해 각 PSP에 NSCs를 생성한다. 3. 공식 (2)와 (3)을 사용해 1-neg-size의 nsc의 지지도를 계산한다. 공식 (1)을 통해 다른 nsc의 지지도를 용이하게 계산할 수 있다. 구체적으로 우리는 먼저 1-negMSSnsc에서 각 1-neg-MS’의 비트맵을 획득한다. 다음으로 OR 연산을 사용해 비트맵의 합집합을 획득한다. 그 후 공식 (1)에 따라 nsc의 지지도를 계산한다. 마지막으로 하나의 nsc가 하나의 NSP인지 여부는 min_sup와의 지지도를 비교함으로써 확정된다. 4. 결과를 반환하고 전체 알고리즘을 종료한다.
3. GSP 알고리즘은 너비 우선 검색 전략을 기반으로 한 마이닝 알고리즘이다. 상기 알고리즘은 데이터베이스를 한 차례 스캔하여 해당 데이터베이스에 포함된 빈발 항목 세트를 획득한 다음, 상응하는 연결 및 전지 방법을 통해 길이가 끊임없이 단계적으로 증가하는 후보 시퀀스를 생성한다. 또한 데이터베이스를 반복 스캔하는 패턴을 기반으로 후보 시퀀스의 지지도를 획득하여 포지티브 시퀀스 패턴을 판정한다. GSP 알고리즘은 전형적인 유사 Apriori 알고리즘이다. Apriori 알고리즘을 기반으로 GSP 알고리즘을 분류 수준, 시간 제약, 슬라이딩 시간 윈도 기술에 추가하여 알고리즘을 전반적으로 최적화한다. 동시에 GSP는 데이터 세트의 스캔 조건을 더 한정하고, 스캔이 필요한 후보 시퀀스의 수량을 줄여 불필요한 패턴 생성을 줄인다.
4. 복소 평면은 복수 평면으로도 부르며, z=a+bi 이며, 대응하는 좌표는 (a, b)이다. 여기에서 a는 복소 평면 내의 횡좌표를 나타내고, b는 복소 평면 내의 종좌표를 나타낸다. 실수 a를 나타내는 점이 모두 x축 상에 있으므로 x축은 "실축"으로도 불린다. 순허수 b를 나타내는 점은 모두 y축에 있으므로 y축은 "허축"으로도 불린다. y축 상에는 하나의 실점, 즉 원점 "0"만 있다.
5. 퓨린 피리미딘 다이어그램은 간단히 말해서 평면 상에 벡터를 그리고 DNA 시퀀스 중 상이한 염기쌍을 정확하게 표현한 것이다. 여기에서 우리는 복소 평면에 하나의 퓨린 피리미딘 다이어그램을 구성하며, 제1, 2사분면은 퓨린(A, ¬A, G 및 ¬G)이고, 제4사분면은 피리미딘(T, ¬T, C 및 ¬C)이다. 4개의 뉴클레오티드 A, G, C 및 이에 대응하는 네거티브 시퀀스를 나타내는 단위 벡터는 다음과 같다. 이처럼 상이한 염기쌍을 고유하게 나타낼 수 있으며 염기쌍 사이는 공액 관계가 충족된다. 이러한 퓨린 피리미딘 다이어그램은 DNA 시퀀스와 그 시간 시퀀스가 일대일 대응하는 특성에 부합한다.
6. DTW(Dynamic Time Warping)은 그 목적이 비교적 간단하다. 먼저 음성 인식 분야에 널리 사용되며, 시간 계획과 거리 측정도를 결합한 비선형 계획 기술이고, 동시에 두 시간 시퀀스 사이의 최대 유사성, 즉 최소 거리를 계산하는 데 사용된다.
7. Apriori 성질은 어느 하나의 빈발 항목 세트의 모든 비어있지 않은(non-empty) 서브 세트도 반드시 빈발이어야 한다.
본 발명의 기술적 해결책은 하기와 같다.
생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 방법은 하기 단계를 포함한다.
(1) 데이터 전처리
처리할 각 시퀀스 또는 게놈에 대해 빈발 패턴 마이닝을 수행하기 전에 모두 전처리를 수행해야 한다. DNA 시퀀스 중의 자모를 숫자로 표시한다. DNA 시퀀스 길이가 매우 길기 때문에 숫자로 표시한 DNA 시퀀스를 여러 블록으로 분할한다. 각 블록 염기 수량은 동일하여, 획득한 여러 블록은 빈발 패턴 마이닝의 데이터 세트로 사용된다.
(2) 빈발 패턴 마이닝
f-NSP 알고리즘을 사용해 데이터 세트를 마이닝하여 최대 빈발 포지티브, 네거티브 시퀀스 패턴을 획득한다.
(3) 최대 빈발 포지티브, 네거티브 시퀀스 패턴을 그래픽으로 표시한다.
(4) DNA 시퀀스의 유사성을 분석한다.
상이한 DNA 시퀀스의 유사도를 구하며, 유사도가 작을수록 DNA 시퀀스가 더욱 유사하다.
유사성 행렬은 DNA 유사성 분석 알고리즘의 효율성을 평가하는 데 사용할 수 있다. 측면에서 상이한 종 간의 진화 또는 유전적 관계를 밝힐 수 있다. DNA 시퀀스 간의 거리 계산은 DNA 유사성 분석의 기초이며, 유클리드 거리(Euclidean distance)와 상관각은 가장 일반적으로 사용되는 거리 계산 방법이다. 또한 시퀀스 사이의 유클리드 거리가 짧을수록 DNA 시퀀스가 더 유사하다고 규정한다. 두 벡터 사이의 상관각이 작을수록 DNA 시퀀스가 더 유사하다.
본 발명에 따르면, 바람직하게는 단계 (2)에서 f-NSP 알고리즘을 사용하여 데이터 세트를 마이닝하고, 데이터 세트는 D이고, 여기에는 하기 단계가 포함된다.
A. GSP 알고리즘을 사용해 모든 포지티브 빈발 시퀀스를 획득하고, 각 포지티브 빈발 시퀀스에 대응하는 비트맵을 해시 테이블에 저장한다.
a. 데이터 세트를 스캔하여 길이가 1인 모든 시퀀스 패턴을 획득하여 원시 시드 세트 P1에 넣는다.
b. 원시 시드 세트 P1로부터 길이가 1인 시퀀스 패턴을 획득하고, 이들을 연결 연산을 통해 길이가 2인 후보 시퀀스 세트 C2를 생성한다. Apriori 성질을 사용하여 후보 시퀀스 세트 C2에 대해 전지 작업을 수행한 다음, 후보 시퀀스 세트 C2 스캔을 통해 그 중 남은 시퀀스의 지지도를 확정한다. 지지도가 최소 지지도보다 높은 시퀀스 패턴을 저장하고, 길이가 2인 시퀀스 패턴 L2를 출력하며 길이가 2인 시드 세트로 사용한다. 길이가 점차 증가하는 후보 시퀀스를 생성하는 데 사용된다. 상기 방법에 따라 새로운 시퀀스 패턴을 마이닝할 때까지 계속 길이가 3인 시퀀스 패턴 L3, 길이가 4인 시퀀스 패턴 L4......길이가 n+1인 시퀀스 패턴 Ln+1을 출력하여, 시퀀스 패턴, 즉 모든 포지티브 빈발 시퀀스를 획득한다. 최소 지지도는 인위적으로 설정한 지지도 임계치 min_sup이며, 다음과 같이 설명된다.
L1→C2→L2→C3→L3→C4→L4......Ln+1을 생성할 수 없으면 정지한다.
B. 모든 포지티브 빈발 시퀀스를 기반으로 상응하는 NSC를 생성한다.
NSC는 네거티브 후보 시퀀스를 의미하며, 포지티브 빈발 시퀀스는 포지티브 시퀀스로 통칭하고, 포지티브 시퀀스 중에서 모든 중복이 아닌(nonredundant) NSC를 생성하기 위해 NSC를 생성하는 핵심 과정은 포지티브 패턴을 갖는 비연속 요소를 그 네거티브 파트너로 변환하며, 하나의 k-size의 PSP에 있어서 NSCs는 임의 m개의 인접하지 않은 요소를 그 음수로 변환하여 생성한 것이며, ¬를 이용해 표시하고, m=1, 2, ..., [k / 2]이고,[k / 2]는 k/2보다 작지 않은 최소 정수이고, k-size는 시퀀스의 크기가 k인 것을 의미하며, 예를 들어 시퀀스 S={A T T C C}이고, 그 크기는 5-size이다. NSCs는 모든 네거티브 후보 시퀀스를 의미한다.
예를 들어 <A T C C>의 NSC는 다음을 포함한다. (1) m=1일 때, <¬AT C C>, <A ¬T C C>, <AT ¬C C>, <ATC ¬C>이고, (2) m=2일 때, <¬AT ¬C C>, <A ¬T C ¬C>이다. 여기에서 2개의 연속된 네거티브 항목이 나오는 것을 허용하지 않도록 규정한다.
C. 비트 연산을 이용해 네거티브 후보 시퀀스의 지지도를 신속하게 계산한다.
NSCs를 생성한 후 그 지지도를 계산한다. 네거티브 후보 시퀀스의 지지도가 충족되면 네거티브 빈발 시퀀스 패턴을 획득한다. NSCs의 지지도의 계산은 다음과 같이, 하나의 m-size와 n-neg-size 네거티브 시퀀스 ns가 주어지면, ∀1-negMSi∈1-negMSns, 1≤i≤n에 대해, 데이터 세트 D 중 ns의 지지도는,
sup(ns) = sup(MPS(ns)) - N(
Figure pct00002
{B(p(1-negMSi))})이고, m-size는 시퀀스 크기가 m인 것을 의미하고, ns=<a1a2......am>가 하나의 네거티브 시퀀스라고 가정할 경우, ns‘가 ns 중 모든 포지티브 요소로만 구성되면 ns’를 ns의 최대 포지티브 서브 시퀀스로 부르며, MPS(ns)로 정의하고, 예를 들어 MPS(<¬T C G ¬A>)=<CG>이다. 이 시퀀스의 MPS(ns)와 ns 중 하나의 네거티브 요소 a로 구성된 시퀀스는 1-neg-size 최대 서브 시퀀스로 부르며, 1-negMS로 정의한다. 예를 들어 <¬ATC¬G>이며, 그 1-negMS는 <¬ATC>와 <TC¬G>이다.
빈발 패턴 마이닝을 통해 12가지 최대 빈발 포지티브, 네거티브 시퀀스 패턴을 획득한다.
본 발명에 따르면 바람직하게는, 단계 (3)에서 최대 빈발 포지티브, 네거티브 시퀀스 패턴을 그래픽으로 표시한다. 여기에는 다음이 포함된다. 복소 평면에 하나의 퓨린 피리미딘 다이어그램을 구성하고, 퓨린 피리미딘 다이어그램에서 제1, 제2 사분면은 퓨린이며, A, ¬A, G 및 ¬G를 포함하고, 제3, 제4 사분면은 피리미딘이며, T, ¬T, C 및 ¬C를 포함한다. 4개의 뉴클레오티드 A, G, T, C 및 그 대응하는 네거티브 시퀀스의 단위 벡터 ¬A, ¬G, ¬T, ¬C는 식 (I) 내지 식 (VIII)와 같다.
Figure pct00003
식 (I) 내지 식 (VIII)에 있어서, b와 d는 0이 아닌 실수이고,
Figure pct00004
,
Figure pct00005
, A와 T는 공액이고, G와 C도 공액이다. 즉,
Figure pct00006
,
Figure pct00007
이고, A, T, C, G는 현실에 존재하는 염기쌍을 나타내며, ¬A, ¬T, ¬C, ¬G가 나타내는 것은 DNA 시퀀스 중 원래 나타나야 하지만 나타나지 않은 염기쌍으로, 결실된 염기쌍이라고 부르기도 하며 A, G, T, C 및 그 대응하는 네거티브 시퀀스의 단위 벡터로 부르기도 한다.
이러한 표시 방법을 통해 하나의 DNA 시퀀스 염기
Figure pct00008
를 하나의 디지털 시퀀스
Figure pct00009
로 환원하며, 이는 식 (IX)와 같다.
Figure pct00010
(Ⅸ)
식 (IX)에서 s(0)=0이고, 여기에서 y(j)는 식 (X)를 충족시킨다.
Figure pct00011
(Ⅹ)
식 (X)에서 j는 시퀀스 S 중 제0, 1, 2, ...n 위치 상의 염기 유형을 나타내고, n은 연구된 DNA 시퀀스의 길이이다.
상기 단계를 통해 "퓨린 피리미딘 다이어그램" 중 유일하게 원시의 DNA 시퀀스의 시간 시퀀스를 획득한다.
식 (X)을 이용해 12가지 최대 빈발 포지티브, 네거티브 시퀀스 패턴을 디지털 시퀀스로 변환한다. 예를 들어 시퀀스 Human1는 식 (IX) - (X)에서 획득한 복합 디지털 시퀀스는 s(H1)= {0.866+0.5i,1.366-0.366i,2.2321+0.134i,3.0981+0.634i,3.5981+1.5i, 4.4641+2i}이고, 패턴 구성의 시간 시퀀스는 S(H1)={1.0000,1.4142,2.2361,3.1623,3.8982,4.8916}이다. 이러한 방법을 통해 12가지 빈발 시퀀스 패턴 변환 후의 시간 시퀀스를 얻을 수 있다.
본 발명에 있어서 바람직하게는, 단계 (4)에서 거리 행렬을 구하며, 거리 행렬은 상이한 DNA 시퀀스의 유사도를 나타내는 데 사용된다.
본 발명에 있어서 바람직하게는, 단계 (4)에서 DTW 알고리즘을 통해 거리 행렬을 구하고, DNA 시퀀스를 변환하여 획득한 시간 시퀀스를
Figure pct00012
,
Figure pct00013
로 설정하며, 그 길이는 각각 m과 n이다. 그 시간 위치에 따라 정렬을 수행하고,
Figure pct00014
행렬
Figure pct00015
를 구성하고, 행렬 중의 각 요소는
Figure pct00016
이며, 행렬에서 한 세트의 인접한 행렬 요소의 집합을 만곡 경로라고 부르며
Figure pct00017
로 기록한다. W의 제k 요소는
Figure pct00018
이며, 이 경로는 하기 조건을 충족시킨다.
Figure pct00019
Figure pct00020
Figure pct00021
에 대해 반드시
Figure pct00022
를 충족시켜야 하며
Figure pct00023
이고, DTW 알고리즘은 동적 계획 아이디어를 이용하여 최소 만곡 대가를 갖는 최적의 경로를 찾는다. 이는 식 (XI)와 같다.
Figure pct00024
(XI)
여기에서 i=2, 3, ..., m이고, j=2, 3, ..., n이다. D(m,n)는
Figure pct00025
중 만곡 경로의 최소 누적값이다.
상기 유사성 분석 방법의 구현 시스템은 순차적으로 연결된 데이터 전처리 모듈, 빈발 패턴 마이닝 모듈, 그래픽 표시 모듈, 유사성 분석 모듈을 포함한다. 상기 데이터 전처리 모듈은 단계 (1)을 실행하도록 구성되고, 상기 빈발 패턴 마이닝 모듈은 단계 (2)를 실행하도록 구성되고, 상기 그래픽 표시 모듈은 단계 (3)을 실행하도록 구성되고, 상기 유사성 분석 모듈은 단계 (4)를 실행하도록 구성된다.
컴퓨터 판독 가능 저장 매체에 있어서, 상기 컴퓨터 판독 가능 저장 매체는 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 프로그램이 저장되고, 상기 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 프로그램이 프로세서에 의해 실행되면, 어느 하나의 상기 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 방법의 단계가 구현되는 것을 특징으로 한다.
1. 본 발명은 네거티브 시퀀스를 효과적으로 표현하고 분석할 수 있으며, 상이한 최대 빈발 패턴 조합을 선택하여 상이한 분석 결과를 얻을 수 있다.
2. 본 발명에서 선택한 것은 빈발 패턴으로 수행하는 유사성 분석으로, 컴퓨터의 메모리 및 시간의 소모를 크게 절약시킨다.
도 1은 본 발명의 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 방법의 흐름도이다.
도 2는 본 발명의 퓨린 피리미딘 다이어그램의 개략도이다.
도 3은 본 발명의 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 방법의 구현 시스템의 구조도이다.
도 4는 실시예에서 비트 또는(OR) 연산 과정의 개략도이다.
도 5(a)는 최대 빈발 시퀀스 Human1, Opossum2, Rat2 and Chimpanzee2에 대해 유사성 분석을 수행한 후 그린 계통수의 개략도이다.
도 5(b)는 최대 빈발 시퀀스 Human2, Opossum1, Rat2 and Chimpanzee1에 대해 유사성 분석을 수행한 후 그린 계통수의 개략도이다.
도 6(a)는 최대 빈발 시퀀스 Human2, Opossum2, Rat2 and Chimpanzee1에 대해 유사성 분석을 수행한 후 그린 계통수의 개략도이다.
도 6(b)는 최대 빈발 시퀀스 Human3, Opossum3, Rat3 and Chimpanzee3에 대해 유사성 분석을 수행한 후 그린 계통수의 개략도이다.
도 7은 정규화 물종 거리의 개략도이다.
이하에서는 첨부 도면과 실시예를 참고하여 본 발명을 더욱 상세하게 설명하나, 본 발명은 이에 한정되지 않는다.
실시예 1
생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 방법은 도 1에 도시된 바와 같이 하기 단계를 포함한다.
(1) 데이터 전처리
처리할 각 시퀀스 또는 게놈에 대해 빈발 패턴 마이닝을 수행하기 전에 모두 전처리를 수행해야 한다. DNA 시퀀스 중의 자모를 숫자로 표시한다. DNA 시퀀스 길이가 매우 길기 때문에 숫자로 표시한 DNA 시퀀스를 여러 블록으로 분할한다. 각 블록 염기 수량은 동일하여, 획득한 여러 블록을 빈발 패턴 마이닝의 데이터 세트로 사용된다.
본 발명에서 각 시퀀스는 먼저 여러 블록으로 분할되며, 각 블록은 동일한 수량의 연속 기로 구성된다. 이러한 블록은 서로 독립적이며 블록의 크기는 실제로 바뀔 수 있다. 마지막 블록의 크기가 지정한 클록 크기보다 작을 경우 이 블록은 버리는 점에 유의한다. 명확함을 위해 이하는 분할 블록의 예시이다. 본 예시에서 2개 시퀀스 S1와 S2가 있다. 블록 크기가 15라고 가정하면, 이 2개 시퀀스는 각각 2개와 3개 블록으로 분할된다. 마지막 하나의 크기가 3인 블록은 버린다. 여기에서 각 분할된 블록은 모두 곡선과 직선으로 표시된다. 이는 시퀀스 차단이라고도 부르며, 이는 중요한 단계로, 두 가지 주요한 장점을 가져온다. 먼저, 시퀀스의 미세 입도 정보를 포획할 수 있으며, 여기에는 위치 정보와 정렬 정보가 포함된다. 다음으로, 긴 시퀀스의 경우에도 차단은 시퀀스 처리의 메모리와 시간 소모를 줄일 수 있다.
Figure pct00026
현재 시퀀스 유사성 연구에 사용할 수 있는 DNA 시퀀스는 매우 적으며, 더 적합한 DNA 시퀀스를 모색하는 것은 여전히 문제로 남아있다. 15개 물종으로부터 유래한 헤모글로빈 유전자의 3개 엑손 시퀀스는 가장 일반적으로 사용하는 DNA 시퀀스이다. 이 3개 유전자 시퀀스에는 제1, 제2 및 제3 엑손이 포함되고, 시퀀스의 평균 길이는 각각 92개 염기, 222개 염기 및 114개 염기이다. 여기에서 11개의 상이한 물종의 β 유전자의 제1 엑손은 가장 광범위하게 응용되는 DNA 시퀀스 데이터이다.
선택한 데이터 세트는 4개 물종으로부터의 β-단백질 유전자의 제1 엑손이며, 표 1과 같다.
표 1
Figure pct00027
(2) 빈발 패턴 마이닝
f-NSP 알고리즘을 사용해 데이터 세트를 마이닝하여 최대 빈발 포지티브, 네거티브 시퀀스 패턴을 획득한다.
(3) 최대 빈발 포지티브, 네거티브 시퀀스 패턴을 그래픽으로 표시한다.
(4) DNA 시퀀스의 유사성을 분석한다.
상이한 DNA 시퀀스의 유사도를 구하며, 유사도가 작을수록 DNA 시퀀스가 더욱 유사하다.
유사성 행렬은 DNA 유사성 분석 알고리즘의 효율성을 평가하는 데 사용할 수 있다. 측면에서 상이한 종 간의 진화 또는 유전적 관계를 밝힐 수 있다. DNA 시퀀스 간의 거리 계산은 DNA 유사성 분석의 기초이며, 유클리드 거리(Euclidean distance)와 상관각은 가장 일반적으로 사용되는 거리 계산 방법이다. 또한 시퀀스 사이의 유클리드 거리가 짧을수록 DNA 시퀀스가 더 유사하다고 규정한다. 두 벡터 사이의 상관각이 작을수록 DNA 시퀀스가 더 유사하다.
실시예 2
실시예 1에 따른 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 방법과 차이점은 다음과 같다.
단계 (2)에서 f-NSP 알고리즘을 사용하여 데이터 세트를 마이닝하고, 데이터 세트는 D이고, 여기에는 하기 단계가 포함된다.
A. GSP 알고리즘을 사용해 모든 포지티브 빈발 시퀀스를 획득하고, 각 포지티브 빈발 시퀀스에 대응하는 비트맵을 해시 테이블에 저장한다.
a. 데이터 세트를 스캔하여 길이가 1인 모든 시퀀스 패턴을 획득하여 원시 시드 세트 P1에 넣는다.
b. 원시 시드 세트 P1로부터 길이가 1인 시퀀스 패턴을 획득하고, 이들을 연결 연산을 통해 길이가 2인 후보 시퀀스 세트 C2를 생성한다. Apriori 성질을 사용하여 후보 시퀀스 세트 C2에 대해 전지 작업을 수행한 다음, 후보 시퀀스 세트 C2 스캔을 통해 그 중 남은 시퀀스의 지지도를 확정한다. 지지도가 최소 지지도보다 높은 시퀀스 패턴을 저장하고, 길이가 2인 시퀀스 패턴 L2를 출력하며 길이가 2인 시드 세트로 사용한다. 길이가 점차 증가하는 후보 시퀀스를 생성하는 데 사용된다. 상기 방법에 따라 새로운 시퀀스 패턴을 마이닝할 때까지 계속 길이가 3인 시퀀스 패턴 L3, 길이가 4인 시퀀스 패턴 L4......길이가 n+1인 시퀀스 패턴 Ln+1을 출력하여, 시퀀스 패턴, 즉 모든 포지티브 빈발 시퀀스를 획득한다. 최소 지지도는 인위적으로 설정한 지지도 임계치 min_sup이며, 다음과 같이 설명된다.
L1→C2→L2→C3→L3→C4→L4......Ln+1을 생성할 수 없으면 정지한다.
도 4를 사용해 비트 또는 연산(OR)을 설명한다. 시퀀스 S가 sup(s)≥min_sup이면, 빈발(포지티브) 시퀀스 패턴으로 부르며, sup(s)<min_sup이면 빈발하지 않은 시퀀스 패턴으로 부른다. 하나의 포지티브 빈발 시퀀스가 <G C T A>이고 sup (C A)=5라고 가정하면, 네거티브 후보 생성 방법에 따라, 네거티브 후보 시퀀스 ns는 <¬GC ¬TA>이다. 이에 상응하여 MPS(ns) =<CA>, P(1-negMS1)=<GCA>, P(1-negMS2)=<C TA>이다. B (<G CA>) = |1|0|0|1|0|, B (<C TA>) = |1|1|0|1|0|라고 가정하면 B(<GCA>)ORB(<CTA>)의 비트맵은 도 4와 같다. 따라서 용이하게 N(unionbitmap)=4를 획득한 후 공식 1에서 sup (<¬GC ¬TA>)=1을 얻는다.
B. 모든 포지티브 빈발 시퀀스를 기반으로 상응하는 NSC를 생성한다.
NSC는 네거티브 후보 시퀀스를 의미하며, 포지티브 빈발 시퀀스는 포지티브 시퀀스로 통칭하고, 포지티브 시퀀스 중에서 모든 중복이 아닌(nonredundant) NSC를 생성하기 위해 NSC를 생성하는 핵심 과정은 포지티브 패턴을 갖는 비연속 요소를 그 네거티브 파트너로 변환하며, 하나의 k-size의 PSP에 있어서 NSCs는 임의 m개의 인접하지 않은 요소를 그 음수로 변환하여 생성한 것이며, ¬를 이용해 표시하고, m=1, 2, …,[k / 2]이고, [k / 2]는 k/2보다 작지 않은 최소 정수이고, k-size는 시퀀스의 크기가 k인 것을 의미하며, 예를 들어 S={A T T C C}이고, 그 크기는 5-size이다. NSCs는 모든 네거티브 후보 시퀀스를 의미한다.
예를 들어 <A T C C>의 NSC는 다음을 포함한다. (1) m=1일 때, <¬AT C C>, <A ¬T C C>, <AT ¬C C>, <ATC ¬C>이고, (2) m=2일 때, <¬AT ¬C C>, <A ¬T C ¬C>이다. 여기에서 2개의 연속된 네거티브 항목이 나오는 것을 허용하지 않도록 규정한다.
C. 비트 연산을 이용해 네거티브 후보 시퀀스의 지지도를 신속하게 계산한다.
NSCs를 생성한 후 그 지지도를 계산한다. 네거티브 후보 시퀀스의 지지도가 충족되면 네거티브 빈발 시퀀스 패턴을 획득한다. NSCs의 지지도의 계산은 다음과 같이, 하나의 m-size와 n-neg-size 네거티브 시퀀스 ns가 주어지면, ∀1-negMSi∈1-negMSns, 1≤i≤n에 대해, 데이터 세트 D 중 ns의 지지도는,
sup(ns) = sup(MPS(ns)) - N(
Figure pct00028
{B(p(1-negMSi))})이고, m-size는 시퀀스 크기가 m인 것을 의미하고, ns=<a1a2…am>가 하나의 네거티브 시퀀스라고 가정할 경우, ns‘가 ns 중 모든 포지티브 요소로만 구성되면 ns’를 ns의 최대 포지티브 서브 시퀀스로 부르며, MPS(ns)로 정의하고, 예를 들어 MPS(<¬T C G ¬A>)=<CG>이다. 이 시퀀스의 MPS(ns)와 ns 중 하나의 네거티브 요소 a로 구성된 시퀀스는 1-neg-size 최대 서브 시퀀스로 부르며, 1-negMS로 정의한다. 예를 들어 <¬ATC¬G>이며, 그 1-negMS는 <¬ATC>와 <TC¬G>이다.
빈발 패턴 마이닝을 통해 12가지 최대 빈발 포지티브, 네거티브 시퀀스 패턴을 획득한다.
최대 빈발 시퀀스 패턴이다. 하나의 DNA 시퀀스 S가 주어지며, 해당 시퀀스는 염기 시퀀스이고, S = <s1 s2 ... sn>이고, 여기에서 si(1 ≤ i ≤ n)은 하나의 문자의 문자 세트 Ω= {A、T、C、G}이다. 하나의 패턴이 < sk sk+1... sm>(1 ≤ k ≤ m ≤ n)인 지지도가 최소 지지보다 작지 않으면, 이 시퀀스가 바로 빈발 시퀀스이다. 최대 빈발 패턴은 초시퀀스가 모두 빈발하지 않는 패턴을 나타낸다. min_sup=0.3을 설정하며, 다양한 최대 빈발 시퀀스 패턴을 획득한다. 그중 12가지 빈발 시퀀스 패턴을 선택하여 시퀀스 패턴 분석의 데이터 세트로 사용한다. 이 12가지 빈발 시퀀스 패턴은 표 2와 같다.
표 2
Figure pct00029
실시예 3
실시예 1에 따른 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 방법과 차이점은 다음과 같다. 단계 (3)에서 최대 빈발 포지티브, 네거티브 시퀀스 패턴을 그래픽으로 표시한다. 여기에는 다음이 포함된다. 복소 평면에 하나의 퓨린 피리미딘 다이어그램을 구성하고, 퓨린 피리미딘 다이어그램에서 제1, 제2 사분면은 퓨린이며, A, ¬A, G 및 ¬G를 포함하고, 제3, 제4 사분면은 피리미딘이며, T, ¬T, C 및 ¬C를 포함한다.
Figure pct00030
4개의 뉴클레오티드 A, G, T, C 및 그 대응하는 네거티브 시퀀스의 단위 벡터 ¬A, ¬G, ¬T, ¬C는 식 (I) 내지 식 (VIII)와 같다.
식 (I) 내지 식 (VIII)에 있어서, b와 d는 0이 아닌 실수이고,
Figure pct00031
,
Figure pct00032
, A와 T는 공액이고, G와 C도 공액이다. 즉,
Figure pct00033
Figure pct00034
이고, A, T, C, G는 현실에 존재하는 염기쌍을 나타내며, ¬A, ¬T, ¬C, ¬G가 나타내는 것은 DNA 시퀀스 중 원래 나타나야 하지만 나타나지 않은 염기쌍으로, 결실된 염기쌍이라고 부르기도 하며 A, G, T, C 및 그 대응하는 네거티브 시퀀스의 단위 벡터로 부르기도 한다. 도 2에 도시된 바와 같다.
이러한 표시 방법을 통해 하나의 DNA 시퀀스 염기
Figure pct00035
를 하나의 디지털 시퀀스
Figure pct00036
로 환원하며, 이는 식 (IX)와 같다.
Figure pct00037
(Ⅸ)
식 (IX)에서 s(0)=0이고, 여기에서 y(j)는 식 (X)를 충족시킨다.
Figure pct00038
(Ⅹ)
식 (X)에서 j는 시퀀스 S 중 제0, 1, 2, ...n 위치 상의 염기 유형을 나타내고, n은 연구된 DNA 시퀀스의 길이이다.
상기 단계를 통해 "퓨린 피리미딘 다이어그램" 중 유일하게 원시의 DNA 시퀀스의 시간 시퀀스를 획득한다.
식 (X)을 이용해 12가지 최대 빈발 포지티브, 네거티브 시퀀스 패턴을 디지털 시퀀스로 변환한다. 예를 들어 시퀀스 Human1는 식 (IX) - (X)에서 획득한 복합 디지털 시퀀스는 s(H1)= {0.866+0.5i,1.366-0.366i,2.2321+0.134i,3.0981+0.634i,3.5981+1.5i, 4.4641+2i}이고, 패턴 구성의 시간 시퀀스는 S(H1)={1.0000,1.4142,2.2361,3.1623,3.8982,4.8916}이다. 이러한 방법을 통해 12가지 빈발 시퀀스 패턴 변환 후의 시간 시퀀스를 얻을 수 있다.
실시예 4
실시예 1에 따른 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 방법과 차이점은 다음과 같다.
단계 (4)에서 DTW 알고리즘을 통해 거리 행렬을 구하며, 거리 행렬은 상이한 DNA 시퀀스의 유사도를 표시하는 데 사용된다.
DNA 시퀀스를 변환하여 획득한 시간 시퀀스를
Figure pct00039
,
Figure pct00040
로 설정하며, 그 길이는 각각 m과 n이다. 그 시간 위치에 따라 정렬을 수행하고,
Figure pct00041
행렬
Figure pct00042
를 구성하고, 행렬 중의 각 요소는
Figure pct00043
이며, 행렬에서 한 세트의 인접한 행렬 요소의 집합을 만곡 경로라고 부르며
Figure pct00044
로 기록한다. W의 제k 요소는
Figure pct00045
이며, 이 경로는 하기 조건을 충족시킨다.
Figure pct00046
Figure pct00047
Figure pct00048
에 대해 반드시
Figure pct00049
를 충족시켜야 하며
Figure pct00050
이고, DTW 알고리즘은 동적 계획 아이디어를 이용하여 최소 만곡 대가를 갖는 최적의 경로를 찾는다. 이는 식 (XI)와 같다.
Figure pct00051
(XI)
여기에서 i=2, 3, ..., m이고, j=2, 3, ..., n이다. D(m,n)는
Figure pct00052
중 만곡 경로의 최소 누적값이다.
12가지 빈발 시퀀스 변환 후의 시간 시퀀스에 대해 DTW 거리 측정을 수행함으로써, 각각 8가지 PSPs와 4가지 NSP 사이의 거리 행렬을 획득한다. 각각 표 3, 표 4와 같다.
표 3
Figure pct00053
표 4
Figure pct00054
공지된 바에 따르면, Human, Chimpanzee은 영장류 동물에 속하며, Rat는 설치류 동물에 속하고, Opossum은 후수류(Metatheria) 동물에 속한다. 본 발명에 따른 방법의 전체적인 변화는 그 분류와 일치하므로, 본 발명에서 제공하는 방법은 유효하며 실행 가능한 것이다. 또한 제안된 방법은 짧은 시퀀스와 긴 시퀀스 모두에 효과적이며, 본 발명에서 사용하는 데이터는 마이닝 후의 빈발 패턴이기 때문에 비교에 사용되는 시퀀스의 길이가 일반적으로 짧아지고 원래 시퀀스의 특성이 유지된다. 따라서 계산이 매우 간단하고 컴퓨터의 메모리 소모를 절약한다. 4가지 물종 간의 유사성 비교를 통해 상이한 패턴 조합이 상이한 결과를 얻는다는 것을 알 수 있으며 이러한 결과는 상이한 고려 하에서 유용할 수 있다.
특정 몇몇 최대 빈발 시퀀스, 시퀀스의 거리 행렬(표 3, 표 4 참고), 표 3 및 표 4에 나열된 상이한 데이터 세트의 유사도를 무작위로 선택하며, 클러스터링이 합리적으로 수행될 수 있는 경우 본 발명의 방법을 이용하여 계통수를 구성한다. 분자 진화 유전학 분석 MEGA5는 시퀀스 비교와 계통수 구축에 사용되는 것으로 사용자 친화적인 소프트웨어이다. 계통발생수는 다양한 생물의 유전 또는 진화 관계를 요약한 것으로 하나의 나무와 같은 분지도이다. 도 5(a)는 최대 빈발 시퀀스 Human1, Opossum2, Rat2 and Chimpanzee2에 대해 유사성 분석을 수행한 후 그린 계통수의 개략도이다. 도 5(b)는 최대 빈발 시퀀스 Human2, Opossum1, Rat2, and Chimpanzee1에 대해 유사성 분석을 수행한 후 그린 계통수의 개략도이다. 도 6(a)는 최대 빈발 시퀀스 Human2, Opossum2, Rat2 and Chimpanzee1에 대해 유사성 분석을 수행한 후 그린 계통수의 개략도이다. 도 6(b)는 최대 빈발 시퀀스 Human3, Opossum3, Rat3 and Chimpanzee3에 대해 유사성 분석을 수행한 후 그린 계통수의 개략도이다. 본 발명은 4가지 빈발 패턴의 조합을 선택해 4가지의 상이한 분류 결과를 획득하였으며, 이는 모두 물종의 진화 규칙에 부합한다.
정규화 처리 데이터를 통해 본 발명의 결과와 기타 방법을 비교한다. 도 7은 정규화 물종 거리의 개략도이다. 여기에서 종좌표는 정규화 거리이다. 도 7은 본 방법과 2가지 비교 방법의 결과 및 MEGA 결과 간의 Pearson 상관 계수를 나타냈다. 표 5는 4가지 방법과 기타 물종 및 인간 간의 거리를 상세히 설명하였다.
표 5
Figure pct00055
표 5에서 괄호 값은 정규화된 0 내지 1 사이의 실제 거리이다. Ref.[1] 참고 ZhiyiMo,WenZhu,Yi Sun,Qilin Xiang,MingZheng,MinChen,ZejunLi. One novel representation of DNA sequence based on the global and local position information.[J]. Scientific reports,2018,8(1). Ref.[2] 참고 Yu Hong-Jie,Huang De-Shuang. Graphical representation for DNA sequences via joint diagonalization of matrix pencil.[J]. IEEE Journal of Biomedical & Health Informatics, 2013, 17(3):503-511. 본 방법과 2가지 비교 방법 결과 간의 Pearson 상관 계수를 계산하였다.
본 발명의 방법과 MEGA의 상관 계수가 가장 높은 것은 본 발명의 방법이 DNA 시퀀스 간의 유사성을 더욱 정확하게 계산함을 의미한다. 또한 도 7에서 알 수 있듯이, 본 발명의 방법과 MEGA 계산의 곡선이 더욱 근접하며, 이는 본 발명의 방법과 MEGA의 상관성이 가장 높음을 의미한다.
비교에서 알 수 있듯이, 이러한 방법을 통해 네거티브 시퀀스를 효과적으로 표현하고 분석할 수 있으며, 상이한 최대 빈발 패턴 조합을 선택하여 상이한 분석 결과를 얻을 수 있다. 상기에서 선택한 것은 빈발 패턴으로 수행하는 유사성 분석으로, 컴퓨터의 메모리 및 시간의 소모를 크게 절약시킨다. 이 방법도 MEGA와 가장 높은 상관성을 갖는다.
실시예 5
실시예 1 내지 4 중 어느 하나에 따른 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 방법의 구현 시스템은 도 3에 도시된 바와 같이, 순차적으로 연결된 데이터 전처리 모듈, 빈발 패턴 마이닝 모듈, 그래픽 표시 모듈, 유사성 분석 모듈을 포함한다. 데이터 전처리 모듈은 단계 (1)을 실행하도록 구성되고, 빈발 패턴 마이닝 모듈은 단계 (2)를 실행하도록 구성되고, 그래픽 표시 모듈은 단계 (3)을 실행하도록 구성되고, 유사성 분석 모듈은 단계 (4)를 실행하도록 구성된다.
실시예 6
컴퓨터 판독 가능 저장 매체에 있어서, 컴퓨터 판독 가능 저장 매체는 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 프로그램이 저장되고, 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 프로그램이 프로세서에 의해 실행되면, 실시예 1 내지 4 중 어느 하나의 상기 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 방법의 단계가 구현되는 것을 특징으로 한다.

Claims (7)

  1. 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 방법에 있어서,
    하기의 단계,
    (1) 데이터 전처리 단계;
    DNA 시퀀스 중의 자모를 숫자로 표시하고; DNA 시퀀스 길이가 매우 길기 때문에 숫자로 표시한 DNA 시퀀스를 여러 블록으로 분할하고, 각 블록 염기 수량은 동일하여, 획득한 여러 블록은 빈발 패턴 마이닝의 데이터 세트로 사용되고;
    (2) 빈발 패턴 마이닝 단계;
    f-NSP 알고리즘을 사용해 데이터 세트를 마이닝하여 최대 빈발 포지티브, 네거티브 시퀀스 패턴을 획득하고;
    (3) 최대 빈발 포지티브, 네거티브 시퀀스 패턴을 그래픽으로 표시하는 단계;
    (4) DNA 시퀀스의 유사성을 분석하는 단계;를 포함하고,
    상이한 DNA 시퀀스의 유사도를 구하며, 유사도가 작을수록 DNA 시퀀스가 더욱 유사한 것을 특징으로 하는 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 방법.
  2. 제1항에 있어서,
    단계 (2)에서 f-NSP 알고리즘을 사용해 데이터 세트를 마이닝하며, 데이터 세트는 D이고, 여기에는,
    A. GSP 알고리즘을 사용해 모든 포지티브 빈발 시퀀스를 획득하고, 각 포지티브 빈발 시퀀스에 대응하는 비트맵을 해시 테이블에 저장하는 단계;
    a. 데이터 세트를 스캔하여 길이가 1인 모든 시퀀스 패턴을 획득하여 원시 시드 세트 P1에 넣는 단계;
    b. 원시 시드 세트 P1로부터 길이가 1인 시퀀스 패턴을 획득하고, 이들을 연결 연산을 통해 길이가 2인 후보 시퀀스 세트 C2를 생성하고, Apriori 성질을 사용하여 후보 시퀀스 세트 C2에 대해 전지 작업을 수행한 다음, 후보 시퀀스 세트 C2 스캔을 통해 그 중 남은 시퀀스의 지지도를 확정하고, 지지도가 최소 지지도보다 높은 시퀀스 패턴을 저장하고, 길이가 2인 시퀀스 패턴 L2를 출력하며 길이가 2인 시드 세트로 사용하고, 상기 방법에 따라 새로운 시퀀스 패턴이 마이닝되지 않을 때까지 계속 길이가 3인 시퀀스 패턴 L3, 길이가 4인 시퀀스 패턴 L4,......길이가 n+1인 시퀀스 패턴 Ln+1을 출력하여 시퀀스 패턴, 즉 모든 포지티브 빈발 시퀀스를 획득하며, 최소 지지도는 인위적으로 설정한 지지도 임계치 min_sup인 단계;
    B. 모든 포지티브 빈발 시퀀스를 기반으로 상응하는 NSC를 생성하는 단계;
    NSC는 네거티브 후보 시퀀스를 의미하며, 포지티브 빈발 시퀀스는 포지티브 시퀀스로 통칭하고, 하나의 k-size의 PSP에 있어서 NSCs는 임의 m개의 인접하지 않은 요소를 그 음수로 변환하여 생성한 것이며, ¬를 이용해 표시하고, m=1, 2, …, [k / 2]이고,[k / 2]는 k/2보다 작지 않은 최소 정수이고, k-size는 시퀀스의 크기가 k인 것을 의미하며, NSCs는 모든 네거티브 후보 시퀀스를 의미하고,
    C. 비트 연산을 이용해 네거티브 후보 시퀀스의 지지도를 신속하게 계산하는 단계가 포함되고,
    NSCs의 지지도의 계산은 다음과 같이, 하나의 m-size와 n-neg-size 네거티브 시퀀스 ns가 주어지면, ∀1-negMSi∈1-negMSns, 1≤i≤n에 대해, 데이터 세트 D 중 ns의 지지도는,
    sup(ns) = sup(MPS(ns)) - N(
    Figure pct00056
    {B(p(1-negMSi))})이고, m-size는 시퀀스 크기가 m인 것을 의미하고, ns=<a1a2...am>가 하나의 네거티브 시퀀스라고 가정할 경우, ns‘가 ns 중 모든 포지티브 요소로만 구성되면 ns’를 ns의 최대 포지티브 서브 시퀀스로 부르며, MPS(ns)로 정의하고, 이 시퀀스의 MPS(ns)와 ns 중 하나의 네거티브 요소 a로 구성된 시퀀스는 1-neg-size 최대 서브 시퀀스로 부르며, 1-negMS로 정의하고,
    빈발 패턴 마이닝을 통해 12가지 최대 빈발 포지티브, 네거티브 시퀀스 패턴을 획득하는 것을 특징으로 하는 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 방법.
  3. 제1항에 있어서,
    단계 (3)에서, 최대 빈발 포지티브, 네거티브 시퀀스 패턴을 그래픽으로 표시하고, 여기에는, 복소 평면에 하나의 퓨린 피리미딘 다이어그램을 구성하고, 퓨린 피리미딘 다이어그램에서 제1, 제2 사분면은 퓨린이며, A, ¬A, G 및 ¬G를 포함하고, 제3, 제4 사분면은 피리미딘이며, T, ¬T, C 및 ¬C를 포함하고; 4개의 뉴클레오티드 A, G, T, C 및 그 대응하는 네거티브 시퀀스의 단위 벡터 ¬A, ¬G, ¬T, ¬C는 식 (I) 내지 식 (VIII)와 같고,
    Figure pct00057

    식 (I) 내지 식 (VIII)에 있어서, b와 d는 0이 아닌 실수이고,
    Figure pct00058
    ,
    Figure pct00059
    , A와 T는 공액이고, G와 C도 공액이고, 즉,
    Figure pct00060
    ,
    Figure pct00061
    이고, A, T, C, G는 현실에 존재하는 염기쌍을 나타내며, ¬A, ¬T, ¬C, ¬G가 나타내는 것은 DNA 시퀀스 중 원래 나타나야 하지만 나타나지 않은 염기쌍으로, 결실된 염기쌍이라고 부르기도 하며, A, G, T, C 및 그 대응하는 네거티브 시퀀스의 단위 벡터로 부르기도 하고;
    이러한 표시 방법을 통해, 하나의 DNA 시퀀스 염기
    Figure pct00062
    를 하나의 디지털 시퀀스
    Figure pct00063
    로 환원하며, 이는 식 (IX)와 같고,
    Figure pct00064
    (Ⅸ)
    식 (IX)에서 s(0)=0이고, 여기에서 y(j)는 식 (X)를 충족시키고,
    Figure pct00065
    (Ⅹ)
    식 (X)에서 j는 시퀀스 S 중, 제0, 1, 2, ...n 위치 상의 염기 유형을 나타내고, n은 연구된 DNA 시퀀스의 길이이고;
    식 (X)을 이용해 12가지 최대 빈발 포지티브, 네거티브 시퀀스 패턴을 디지털 시퀀스로 변환하는 것을 특징으로 하는 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    단계 (4)에서 거리 행렬을 구하며, 거리 행렬은 상이한 DNA 시퀀스의 유사도를 나타내는 데 사용되는 것을 특징으로 하는 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 방법.
  5. 제4항에 있어서,
    단계 (4)에서, DTW 알고리즘을 통해 거리 행렬을 구하고, DNA 시퀀스를 변환하여 획득한 시간 시퀀스를
    Figure pct00066
    ,
    Figure pct00067
    로 설정하며, 그 길이는 각각 m과 n이고; 그 시간 위치에 따라 정렬을 수행하고,
    Figure pct00068
    행렬
    Figure pct00069
    를 구성하고, 행렬 중의 각 요소는
    Figure pct00070
    이며, 행렬에서 한 세트의 인접한 행렬 요소의 집합을 만곡 경로라고 부르며,
    Figure pct00071
    로 기록하고, W의 제k 요소는
    Figure pct00072
    이며, 이 경로는 하기 조건을 충족시키는데,
    Figure pct00073

    Figure pct00074

    Figure pct00075
    에 대해 반드시
    Figure pct00076
    를 충족시켜야 하며
    Figure pct00077
    이고, DTW 알고리즘은 동적 계획 아이디어를 이용하여 최소 만곡 대가를 갖는 최적의 경로를 찾고, 이는 식 (XI)와 같으며,
    Figure pct00078
    (XI)
    식 (XI) 중, i=2, 3, ..., m이고; j=2, 3, ..., n이고, D(m,n)는
    Figure pct00079
    중 만곡 경로의 최소 누적값인 것을 특징으로 하는 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 따른 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 방법의 구현 시스템에 있어서,
    순차적으로 연결된 데이터 전처리 모듈, 빈발 패턴 마이닝 모듈, 그래픽 표시 모듈, 유사성 분석 모듈을 포함하고; 상기 데이터 전처리 모듈은 단계 (1)을 실행하도록 구성되고; 상기 빈발 패턴 마이닝 모듈은 단계 (2)를 실행하도록 구성되고; 상기 그래픽 표시 모듈은 단계 (3)을 실행하도록 구성되고; 상기 유사성 분석 모듈은 단계 (4)를 실행하도록 구성되는 것을 특징으로 하는 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 방법의 구현 시스템.
  7. 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 컴퓨터 판독 가능 저장 매체는 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 프로그램이 저장되고, 상기 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 프로그램이 프로세서에 의해 실행되면, 제1항 내지 제5항 중 어느 한 항의 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 방법의 단계가 구현되는 것을 특징으로 하는 컴퓨터 판독 가능 저장 매체.
KR1020217034664A 2020-09-25 2020-11-12 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 방법, 구현 시스템 및 매체 KR20220042300A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202011022788.8A CN112182497B (zh) 2020-09-25 2020-09-25 一种基于生物序列的负序列模式的相似性分析方法、实现系统及介质
CN202011022788.8 2020-09-25
PCT/CN2020/128253 WO2022062114A1 (zh) 2020-09-25 2020-11-12 一种基于生物序列的负序列模式的相似性分析方法、实现系统及介质

Publications (1)

Publication Number Publication Date
KR20220042300A true KR20220042300A (ko) 2022-04-05

Family

ID=80822966

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217034664A KR20220042300A (ko) 2020-09-25 2020-11-12 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 방법, 구현 시스템 및 매체

Country Status (4)

Country Link
US (1) US20220101949A1 (ko)
JP (1) JP7260934B2 (ko)
KR (1) KR20220042300A (ko)
CA (1) CA3129990A1 (ko)

Also Published As

Publication number Publication date
US20220101949A1 (en) 2022-03-31
JP2022553473A (ja) 2022-12-23
JP7260934B2 (ja) 2023-04-19
CA3129990A1 (en) 2022-03-25

Similar Documents

Publication Publication Date Title
CN111881714B (zh) 一种无监督跨域行人再识别方法
CN106897370B (zh) 一种基于皮尔逊相似度和FP-Growth的图审专家推荐方法
JPH11232291A (ja) 蛋白質立体構造データベース検索方法
CN103838754B (zh) 信息搜索装置及方法
CN109545283B (zh) 一种基于序列模式挖掘算法的系统发生树构建方法
CN111309777A (zh) 一种基于互斥表达的改进关联规则报表数据挖掘方法
CN115170868A (zh) 一种基于聚类的小样本图像分类两阶段元学习方法
CN113762175B (zh) 一种基于图卷积网络的两阶段行为识别细分类方法
CN112182497B (zh) 一种基于生物序列的负序列模式的相似性分析方法、实现系统及介质
KR20220042300A (ko) 생물학적 시퀀스 기반의 네거티브 시퀀스 패턴의 유사성 분석 방법, 구현 시스템 및 매체
CN111639673A (zh) 一种处理混合特征数据的自解释规约建模方法
Vauterin et al. Integrated databasing and analysis
CN114238439B (zh) 一种基于联合嵌入的任务驱动关系型数据视图推荐方法
Rathore et al. Approximate cluster heat maps of large high-dimensional data
CN114610941A (zh) 基于对比学习的文物图像检索系统
CN111259176B (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法
Kacprzyk et al. Linguistic summarization of time series using linguistic quantifiers: augmenting the analysis by a degree of fuzziness
CN112925934A (zh) 基于哈希编码的相似图像检索方法、系统、设备及介质
JP5087518B2 (ja) 評価装置、及び、コンピュータプログラム
CN116578611B (zh) 一种孕育知识的知识管理方法和系统
CN117746997B (zh) 一种基于多模态先验信息的顺式调控模体识别方法
CN114764423B (zh) 一种测井智能解释系统
CN112885409B (zh) 一种基于特征选择的结直肠癌蛋白标志物选择系统
CN110727833B (zh) 一种基于多视角学习的图数据检索结果优化方法
Gustafsson et al. Clustering genomic signatures A new distance measure for variable length Markov chains