KR102476915B1 - 생물학적 서열의 자동화된 주석달기 및 스크리닝을 위한 시스템 및 방법 - Google Patents

생물학적 서열의 자동화된 주석달기 및 스크리닝을 위한 시스템 및 방법 Download PDF

Info

Publication number
KR102476915B1
KR102476915B1 KR1020197000811A KR20197000811A KR102476915B1 KR 102476915 B1 KR102476915 B1 KR 102476915B1 KR 1020197000811 A KR1020197000811 A KR 1020197000811A KR 20197000811 A KR20197000811 A KR 20197000811A KR 102476915 B1 KR102476915 B1 KR 102476915B1
Authority
KR
South Korea
Prior art keywords
sequence
biological
sequences
deleterious
combined
Prior art date
Application number
KR1020197000811A
Other languages
English (en)
Other versions
KR20190017932A (ko
Inventor
제임스 디갠스
Original Assignee
트위스트 바이오사이언스 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 트위스트 바이오사이언스 코포레이션 filed Critical 트위스트 바이오사이언스 코포레이션
Publication of KR20190017932A publication Critical patent/KR20190017932A/ko
Application granted granted Critical
Publication of KR102476915B1 publication Critical patent/KR102476915B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1068Template (nucleic acid) mediated chemical library synthesis, e.g. chemical and enzymatical DNA-templated organic molecule synthesis, libraries prepared by non ribosomal polypeptide synthesis [NRPS], DNA/RNA-polymerase mediated polypeptide synthesis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1089Design, preparation, screening or analysis of libraries using computer algorithms
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B15/00Systems controlled by a computer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA

Abstract

본 개시는 공동체 지식 및 참여에 기반을 둔 효과적인 생물보안성을 위한 소프트웨어 수단을 기술한다. 본원에 기재된 주석달기 수단은 개별 단백질과 음성 결과 사이의 연관성에 대한 첨단 과학을 추적하도록 합성 생물학 공동체에게 도움을 제공한다. 본원에 기재된 스크리닝 수단은 실무자 및 생물학적 서열 또는 구축물 제공자가 합성 또는 심지어 발현까지 기다리기보다는 오히려 주문 요청의 안전성을 평가하는 권한을 부여받도록 공동체가 생물보안성의 관심 및 효과적인 실시 둘 다를 넓힐 수 있게 한다. 추가로, 본원에 기재된 스크리닝 수단은 기준 데이터베이스로부터의 유해한 생물학적 서열과 관련된 서열에 대해 동일한 또는 다수의 주문 전체에 걸쳐 폴리뉴클레오타이드의 스크리닝을 제공한다.

Description

생물학적 서열의 자동화된 주석달기 및 스크리닝을 위한 시스템 및 방법
교차참조
본원은 2016년 6월 10일자로 출원된 미국 가특허출원 제62/348,786호 및 2016년 8월 16일자로 출원된 미국 가특허출원 제62/375,858호(이들 각각은 전체로서 참고로 도입됨)의 이익을 주장한다.
공공의 안전성 및/또는 환경에 잠재적인 위협을 부과할 수 있는 개별 단백질 및 생물학적 시스템에 대한 인류의 축적 지식의 성장 속도는 엄청나다. 그러나, 이 지식은 다양한 연구 공동체, 기관 및 심지어 언론에 걸쳐 광범위하게 분포되어 있다. 소정의 단백질이 해로움을 야기할 잠재력 및 이 해로움이 발생할 수 있는 환경의 주석달기에 초점을 맞춘 중앙 집중된 정보 공급원은 없다. 따라서, 신규 시스템 및 방법이 과제를 해결할 필요가 있다.
본원은 해로운 생물학적 서열의 목록을 표시하도록 맞춰진 데이터베이스를 호스팅하기 위한 서버; 네트워크 연결; 및 범용 컴퓨터를 위한 지시를 포함하는 컴퓨터 판독 가능한 매체를 포함하는, 향상된 폴리뉴클레오타이드 합성을 제공하는 전산화된 시스템으로서, 1) 각각의 길이가 500개 이하의 염기이고 핵산 또는 아미노산 서열을 포함하는 복수의 생물학적 서열들을 포함하는 하나 이상의 디자인 지시를 수용하고; 2) 복수의 생물학적 서열들 중 적어도 2개의 생물학적 서열들이 데이터베이스 내의 적어도 20%의 해로운 생물학적 서열에 총체적으로 상응하는 지를 자동적으로 확인하고; 3) 적어도 20%의 해로운 생물학적 서열이 검출되면 알림을 자동적으로 생성하는 방법에서 작동하도록 구성된 전산화된 시스템을 제공한다. 본원은 알림이 생성되지 않은 경우 하나 이상의 서열을 합성하는 단계를 추가로 포함하는 전산화된 시스템도 제공한다. 본원은 해로운 생물학적 서열을 제거하기 위해 적어도 20%의 해로운 생물학적 서열에 상응하는 복수의 생물학적 서열들 중 적어도 2개의 생물학적 서열들을 바꾸기 위한 지시를 수용하는 단계를 추가로 포함하는 전산화된 시스템도 제공한다. 추가로, 본원은 복수의 수용된 디자인 지시들이 하나 이상의 시점에서 수용되는 것인 전산화된 시스템을 제공한다. 본원은 복수의 수용된 디자인 지시들이 3개 이상의 상이한 공급원들로부터 유래한 것인 전산화된 시스템도 제공한다. 추가로, 본원은 복수의 수용된 디자인 지시들이 5개 이상의 상이한 공급원들로부터 유래한 것인 전산화된 시스템을 제공한다. 추가로, 본원은 복수의 수용된 디자인 지시들이 10개 이상의 상이한 공급원들로부터 유래한 것인 전산화된 시스템을 제공한다. 본원은 하나 이상의 생물학적 서열의 길이가 각각 200개 이하의 염기인 전산화된 시스템도 제공한다. 추가로, 본원은 하나 이상의 생물학적 서열의 길이가 각각 100개 이하의 염기인 전산화된 시스템을 제공한다. 추가로, 본원은 하나 이상의 생물학적 서열의 길이가 각각 50개 이하의 염기인 전산화된 시스템을 제공한다. 추가로, 본원은 하나 이상의 생물학적 서열의 길이가 각각 20개 이하의 염기인 전산화된 시스템을 제공한다.
본원은 1) 각각의 길이가 500개 이하의 염기이고 핵산 또는 아미노산 서열을 포함하는 복수의 생물학적 서열들을 포함하는 하나 이상의 디자인 지시를 수용하는 단계; 2) 복수의 생물학적 서열들 중 적어도 2개의 생물학적 서열들이 데이터베이스 내의 적어도 20%의 해로운 생물학적 서열에 총체적으로 상응하는 지를 자동적으로 확인하는 단계; 및 3) 적어도 20%의 해로운 생물학적 서열이 검출되는 경우 알림을 자동적으로 생성하는 단계를 포함하는, 향상된 폴리뉴클레오타이드 합성을 제공하는 방법을 제공한다. 추가로, 본원은 알림이 생성되지 않은 경우 하나 이상의 서열을 합성하는 단계를 추가로 포함하는 방법을 제공한다. 본원은 해로운 생물학적 서열을 제거하기 위해 적어도 20%의 해로운 생물학적 서열에 상응하는 복수의 생물학적 서열들 중 적어도 2개의 생물학적 서열들을 바꾸기 위한 지시를 수용하는 단계를 추가로 포함하는 방법도 제공한다.
본원은 서열의 목록을 표시하도록 맞춰진 데이터베이스를 호스팅하기 위한 서버; 네트워크 연결; 및 범용 컴퓨터를 위한 지시를 포함하는 컴퓨터 판독 가능한 매체를 포함하는, 향상된 폴리뉴클레오타이드 합성을 제공하는 전산화된 시스템으로서, 1) 벡터 서열인 복수의 생물학적 서열들 및 복수의 추가 삽입체 서열들을 포함하는 하나 이상의 디자인 지시를 수용하고; 2) 상기 벡터 및 복수의 삽입체 서열들 중 적어도 하나가 데이터베이스 내의 적어도 20%의 해로운 생물학적 서열에 총체적으로 상응하는 지를 자동적으로 확인하고; 3) 적어도 20%의 해로운 생물학적 서열이 검출되면 알림을 자동적으로 생성하는 방법에서 작동하도록 구성된 전산화된 시스템을 제공한다. 본원은 생물학적 서열이 물리적 핵산 샘플의 시퀀싱으로부터 수득되는 것인 전산화된 시스템도 제공한다. 추가로, 본원은 알림이 생성되지 않은 경우 하나 이상의 생물학적 서열을 합성하는 단계를 추가로 포함하는 전산화된 시스템을 제공한다. 추가로, 본원은 해로운 생물학적 서열을 제거하기 위해 적어도 20%의 해로운 생물학적 서열에 상응하는 벡터 및 복수의 삽입체 서열들 중 적어도 하나를 바꾸기 위한 지시를 수용하는 단계를 추가로 포함하는 전산화된 시스템을 제공한다. 추가로, 본원은 향상된 폴리뉴클레오타이드 합성을 제공하는 전산화된 시스템으로서, 복수의 수용된 디자인 지시들이 하나 이상의 시점에서 수용되는 것인 전산화된 시스템을 제공한다. 본원은 복수의 수용된 디자인 지시들이 상이한 공급원들로부터 수용되는 것인 전산화된 시스템도 제공한다. 본원은 복수의 수용된 디자인 지시들이 3개 이상의 상이한 공급원들로부터 유래한 것인 전산화된 시스템도 제공한다. 본원은 복수의 수용된 디자인 지시들이 5개 이상의 상이한 공급원들로부터 유래한 것인 전산화된 시스템도 제공한다. 본원은 복수의 수용된 디자인 지시들이 10개 이상의 상이한 공급원들로부터 유래한 것인 전산화된 시스템도 제공한다. 추가로, 본원은 하나 이상의 생물학적 서열 각각의 길이가 200개 이하의 염기인 전산화된 시스템을 제공한다. 본원은 하나 이상의 생물학적 서열 각각의 길이가 100개 이하의 염기인 전산화된 시스템도 제공한다. 본원은 하나 이상의 생물학적 서열 각각의 길이가 50개 이하의 염기인 전산화된 시스템도 제공한다. 본원은 하나 이상의 생물학적 서열 각각의 길이가 20개 이하의 염기인 전산화된 시스템도 제공한다.
본원은 1) 벡터 서열인 복수의 생물학적 서열들 및 복수의 추가 삽입체 서열들을 포함하는 하나 이상의 디자인 지시를 수용하는 단계; 2) 상기 벡터 및 복수의 삽입체 서열들 중 적어도 하나가 데이터베이스 내의 적어도 20%의 해로운 생물학적 서열에 총체적으로 상응하는 지를 자동적으로 확인하는 단계; 및 3) 적어도 20%의 해로운 생물학적 서열이 검출되는 경우 알림을 자동적으로 생성하는 단계를 포함하는, 향상된 폴리뉴클레오타이드 합성을 제공하는 방법을 제공한다. 추가로, 본원은 생물학적 서열이 물리적 핵산 또는 단백질 샘플의 시퀀싱으로부터 수득되는 것인 방법도 제공한다. 추가로, 본원은 알림이 생성되지 않은 경우 하나 이상의 생물학적 서열을 합성하는 단계를 추가로 포함하는 방법을 제공한다. 본원은 해로운 생물학적 서열을 제거하기 위해 적어도 20%의 해로운 생물학적 서열에 상응하는 벡터 및 복수의 삽입체 서열들 중 적어도 하나를 바꾸기 위한 지시를 수용하는 방법도 제공한다.
참고 도입
본 명세서에서 언급된 모든 공개문헌들, 특허들 및 특허출원들은 각각의 개별 공개문헌, 특허 또는 특허출원이 전체로서 참고로 도입되는 것으로 구체적으로 및 개별적으로 표시된 것처럼 동일한 정도로 본원에 참고로 도입된다.
본 개시의 기술적 특징은 첨부된 청구범위에 구체적으로 기재되어 있다. 본 개시의 특징 및 장점은 본 개시의 원리가 이용되는 예시적 실시양태가 기재되어 있는 하기 상세한 설명 및 하기 첨부된 도면을 참고함으로써 더 잘 이해될 것이다.
도 1은 단백질 서열 및 관련 종, 숙주, 병원체, 유해 경로, 결과 및 단백질 유형 정보를 포함하는 사용자 인터페이스(interface)를 보여준다. 서열 수납 번호, 동일한 단백질의 목록, 서열 기록을 가진 데이터베이스에의 링크, 및 유사한 단백질에의 링크도 포함된다.
도 2는 단백질 변이체 및 예시적 단백질인 "헤마글루티닌 뉴라미니다제(Hemagglutinin Neuraminidase)-뉴캐슬병(Newcastle Disease) 바이러스"의 부분적 목록을 포함하는 사용자 인터페이스를 예시한다.
도 3a는 질의(query) 파일, 단백질 데이터베이스, blast 보고, 제한된 목록(해로운 서열의 목록) 및 스크린 보고로부터의 정보를 포함하는 순서도를 묘사한다.
도 3b는 다양한 형태의 입력물(핵산 물질, 핵산 또는 단백질 서열), 판단(제한된 목록, 비제한된 목록, 전문가 검토) 및 출력물(알림 발령)을 포함하는 순서도를 묘사한다.
도 4는 스크린에서 검색하기 위한 데이터베이스의 목록을 포함하는 사용자 인터페이스를 예시한다. 역할, 유형, 명칭, 설명, 추가된 날짜 및 활성 상태 칸을 위한 칸이 포함된다.
도 5는 서열 제출 스크린을 포함하는 사용자 인터페이스를 보여준다. 명칭, 데이터베이스, 설명 및 FASTFA 파일에 대한 양식 입력, 및 "제출" 버튼이 포함된다. 데이터베이스 양식은 "Seqshield," "nr" 및 "개인 데이터베이스"를 포함하는, 하위범주로 클릭할 때 나타나는 드롭-다운(drop-down) 칸을 가진다.
도 6은 스크리닝 상태의 요약을 포함하는 사용자 인터페이스를 예시한다.
도 7은 스크리닝된 "검토되지 않은", "우려되는" 또는 "우려되지 않는" 서열의 선택을 위한 풀-다운(pull-down) 메뉴를 포함하는 사용자 인터페이스를 예시한다.
도 8은 전산 시스템을 예시한다.
도 9는 컴퓨터 시스템을 예시한다.
도 10은 컴퓨터 시스템의 구조를 예시하는 블록 도표이다.
도 11은 복수의 컴퓨터 시스템들, 복수의 휴대폰들 및 개인용 데이터 단말기, 및 네트워크 부착된 저장장치(NAS)를 포함하도록 구성된 네트워크를 보여주는 도표이다.
도 12는 공유된 가상 주소 메모리 공간을 이용하는 멀티프로세서 컴퓨터 시스템의 블록 도표이다.
합성 생물학에서 디자인 성능의 빠른 성장으로, 기원이 된 기준 서열과 직접적으로 닮지 않은 심하게 돌연변이된 서열을 종종 사용하여 다수의 구축물들을 생성하는 것이 현재 가능하다. 동시에, (다양한 숙주들 및 생물학적 환경에서) 병원성 이면의 과정을 이해하는 데 있어서 과학적 진보는 환경 의존적 방식으로 인간, 특정 식물 또는 동물, 또는 환경에 보다 더 넓게 해로움을 야기할 수 있는 단백질 서열의 새로운 지식을 빠르게 생성하는 것이다.
윤리적으로 책임이 있는 합성 생물학자들은 해로움을 야기할 수 있는 구축물을 자신도 모르게 생성할 수 있으나, 살아있는 시스템에서 합성 디자인을 실증하기 전에 그 성능을 예측하거나 이해할 수 없을 수 있다. 일차 서열만으로부터 기능을 예측하는 것이 실현 가능하지 않기 때문에, 이 과학적들은 1) 조절 상태와 함께 어느 서열이 해로움을 야기할 수 있는 지에 대한 메타데이터의 저장소 및 2) 그 메타데이터에 대해 DNA 또는 단백질 서열을 점검하고 사용자에게 임의의 잠재적인 우려 사항에 대한 알림을 주는 효과적인 스크리닝 시스템에 접근함으로써 꽤 만족할 것이다. 또한, 이 필요성을 해결할 수 있는 스크리닝 시스템은 그 자체가 대량고속처리 디자인/구축/시험 작업흐름에 완벽하게 맞도록 자동화될 수 있어야 한다. 본 개시는 병원성에 대한 공개적으로 이용 가능한 유전자 수준 메타데이터의 결여뿐만 아니라 효과적인 스크리닝을 위한 공개된 공급원 수단의 결여도 해결하기 위한 소프트웨어 수단을 제공한다.
정의
다양한 실시양태들이 본원에 제시되어 있고 기재되어 있지만, 이러한 실시양태들이 예로써만 제공된다는 것은 당분야에서 숙련된 자에게 자명할 것이다. 본원에 개시된 디바이스, 시스템 및 방법을 벗어나지 않으면서 다수의 변경, 변화 및 치환이 당분야에서 숙련된 자에게 인식될 수 있다. 본원에 기재된 실시양태에 대한 다양한 대안들이 사용될 수 있다는 것을 이해해야 한다.
달리 정의되어 있지 않은 한, 본원에서 사용된 모든 기술 용어들은 이 개시가 속하는 분야에서 통상의 기술을 가진 자에 의해 통상적으로 이해되는 의미와 동일한 의미를 가진다. 본 명세서 및 첨부된 청구범위에서 사용된 바와 같이, 문맥이 달리 명시하지 않은 한, 단수형 용어들은 복수형 지시대상을 포함한다. 달리 언급되어 있지 않은 한, 본원에서 "또는"의 임의의 언급은 " 및/또는"을 포괄하기 위한 것이다.
구체적으로 언급되어 있지 않거나 문맥으로부터 자명하지 않은 한, 본원에서 사용된 바와 같이, 수치 또는 수치 범위의 언급에 있어서 용어 "약"은 언급된 수치 및 이의 수치 +/- 10%, 또는 범위에 대해 나열된 값들에 대한 나열된 하한의 10% 미만 및 나열된 상한의 10% 초과를 의미하기 위한 것으로 이해된다.
서열 주석달기
일부 유형의 해로움을 야기하는 임의의 단일 서열의 성능에 대한 지식은 광범위하게 분포될 수 있다. 연구자들의 개별 공동체는 숙주 세포를 침윤하고 숙주 세포 기구를 장악하고 숙주 면역 시스템으로부터 숨고 심지어 숙주 면역 반응을 향상시키는 유기체의 능력을 포함하는, 병원성의 넓게 다양한 양태들에 초점을 맞춘다. 예시적 해로운 생물학적 서열은 병원성 서열, 예컨대, 해롭고 바이러스, 세균 또는 기생충으로부터 유래한 서열을 코딩하는 생물학적 서열을 포함한다. 해로운 생물학적 서열은 병원성 효과를 가진 것으로 공지되어 있는, 야생형 서열의 돌연변이체 형태를 포함할 수 있다. 해로운 생물학적 서열은 전사 또는 번역 후 해로운 서열 생성물을 생성하거나 해로운 서열 생성물에 대한 전구체로서 작용하는 서열을 포함한다. 해로운 생물학적 서열은 해로운 단백질을 코딩하는 서열을 포함한다.
다른 양태들 중에서, 본 개시는 병원성에서의 역할의 태그 기반 주석달기와 함께 사용자가 서열을 제출할 수 있게 하는 메디아위키(Mediawiki) 기반 사용자 인터페이스를 제공한다. 사용자는 다음과 같이 모델링된 소정의 서열과 관련된 해로움의 일반적인 패턴을 기술하기 위해 각각의 서열에 대한 여러 태그들을 제출하도록 촉구 받을 수 있다:
숙주 + 환경 = 결과 + 우려 수준
본 시스템은 선험적으로 단일 통제 어휘를 부과하지 않도록 태그 기반 방법을 이용할 수 있다. 공동체 주석달기로부터 비롯된 태그의 축적은 보다 더 긴 기간에 걸쳐 이러한 통제 어휘의 기반을 형성할 수 있다.
각각의 서열이 업로딩될 때, 사용자는 4개의 범주들 각각에서 태그를 추가하도록 요청 받을 수 있다. '숙주' 및 '우려 수준'의 태그 추가는 의무적이고; 요구된 추가 복잡성 및 도메인 지식을 고려해 볼 때, '환경' 및 '결과'에 대한 태그의 추가는 임의적이다.
일례로서, 독소 리신을 코딩하는 서열은 다음과 같이 사용자에 의해 태그 추가될 것이다:
Figure 112019002820758-pct00001
목적은 보편적인 완전성보다 더 많은 시간에 걸친 메타데이터의 축적이다. 시스템은 중심에서 호스팅되고 스크리닝에서 사용될 FASTA로서 다운로드를 위한 큐레이팅된 서열들의 전체 세트(또는 태그에 의한 질의에 기반을 둔 서브세트)를 제공한다.
본원은 서열 주석달기 방법을 제공하고, 이때 데이터베이스는 생물학적 서열 또는 생물학적 구축물(예를 들면, 뉴클레오타이드 서열 또는 단백질 서열)과 관련된 특징들의 목록을 수용한다. 예시적 특징은 핵산 서열, 단백질 서열, 단백질 명칭, 균주 공급원, 서열 데이터베이스(예를 들면, NCBI)에의 링크, 서열 데이터베이스 수납 번호, 동일한 서열(단백질 또는 핵산), 유사한 서열(단백질 또는 핵산), 질환 유형(예를 들면, 바이러스, 세균 또는 진균), 숙주 정보(예를 들면, 인간, 포유동물, 조류, 곤충), 해로운 상호작용의 환경 또는 경로(예를 들면, 섭취, 흡입), 및 우려 수준을 포함하나 이들로 한정되지 않는다. 본원은 각각의 특징, 또는 이러한 특징의 추가 정보에의 링크를 제시하는 사용자 인터페이스도 제공한다. 도 1을 참조한다. 일부 경우, 특정 균주를 위한 바이러스 서열이 선택된다. 예를 들면, 도 2는 주석달기를 위한 헤마글루티닌 뉴라미니다제-뉴캐슬병 바이러스의 679개 이용 가능한 균주들의 일부를 예시한다.
예시적 종은 동물 종을 포함한다. 본원에서 사용된 "동물"은 포유동물, 유대목동물, 조류, 곤충, 절지동물, 양서류 및 파충류를 포함하나, 이들로 한정되지 않는다. 예시적 포유동물은 양, 소, 염소, 돼지, 토끼, 산토끼, 사슴, 염소, 마우스, 래트, 박쥐 및 주머니쥐 등을 포함하나, 이들로 한정되지 않는다. 예시적 질환 유형은 하기 클래스들로부터의 병원체들을 포함한다: 바이러스, 세균, 진균 및 다른 해로운 병원체. 해로운 발현 생성물을 가진 예시적 바이러스는 마르부르그(Marburg) 바이러스, 에볼라(Ebola) 바이러스, 한타바이러스(Hantavirus), 조류 독감(예를 들면, H5N1 균주), 레사(Lassa) 바이러스, 주닌(Junin) 바이러스, 크리메아-콩고열(Crimea-Congo fever), 마츄포(Machupo) 바이러스, 카야사나 삼림(Kyasanur Forest) 바이러스, 뎅기열(Dengue fever) 및 치쿤구니야(Chikungunya) 바이러스를 포함하나, 이들로 한정되지 않는다. 해로운 발현 생성물을 가진 예시적 세균은 다중내성 스타필로코커스 아우레우스(Staphylococcus aureus)(MRSA), 이. 콜라이(E. coli), 리스테리오시스(listeriosis), 살모넬라(salmonella), 고노코커스(gonococcus), 스트렙토코커스(streptococcus) 및 스타필로코커스(staphylococcus)를 포함하나, 이들로 한정되지 않는다. 해로운 발현 생성물을 가진 예시적 진균은 아마니타 아로케아(Amanita arocheae), 아마니타 비스포리게라(Amanita bisporigera), 아마니타 엑시티알리스(Amanita exitialis), 아마니타 매그니벨라리스(Amanita magnivelaris), 아마니타 오크레아타(Amanita ocreata), 아마니타 베르나(Amanita verna), 클리토사이베 데알바타(Clitocybe dealbata), 코르티나리우스 젠틸리스(Cortinarius gentilis), 레피오타 브룬네오인카르나타(Lepiota brunneoincarnata), 레피오타 브룬네오인카르나타, 레피오타 브룬네오인카르나타 및 레피오타 브룬네오인카르나타를 포함하나, 이들로 한정되지 않는다. 예시적 유해 경로는 섭취, 흡입, 피부 접촉 및 성적 전달을 포함하나, 이들로 한정되지 않는다. 예시적 결과는 열, 두통, 구역, 기면증 및 설사를 포함하나, 이들로 한정되지 않는다. 예시적 단백질 데이터베이스는 미국 국립보건원 국립의학도서관 단백질 및 유전자 데이터베이스를 포함한다. 예시적 질환 우려 수준은 낮음, 중간, 높음 및 극도로 높음을 포함한다.
본원은 기초적인 큐레이션(curation) 방법, 예컨대, 유기체 명칭 및/또는 분류군으로 질의와 관련된 서열을 확인하는 방법을 제공한다. 일단 확인되면, 서열 주석을 임의적으로 업데이트할 수 있고, 임의적으로 특정 기술적 특징에 대해 재분류할 수 있다. 확인된 서열은 임의적으로 FASTA 포맷팅을 이용하여, 단일 또는 일괄 포맷으로 다운로딩하는 데에도 이용될 수 있다.
데이터 품질 및 공개적 참여는 둘 다 공개적으로 이용 가능한 데이터베이스와 관련된 사항일 수 있다. 즉시 유용성을 최대화하기 위해, 개시된 시스템은 대다수의 잠재적으로 조절되는 서열들 또는 해로운 것으로 공지되어 있는 다른 서열들을 포함하기 위한 시도로 많은 병원성 단백질들을 데이터베이스에 추가하는 초기 큐레이션 과정을 수행할 수 있다. 상기 시스템은 무해한 것으로서 간주될 수 있는 유전자에 상응하는 NCBI GI 식별기호의 "비제한된" 목록을 큐레이션할 수 있다. 그 비제한된 목록도 큐레이션될 여지가 있을 수 있다.
CAPTCHA의 체계는 보트(bot)에 의해 유도된 큐레이션을 방지하는 데 이용될 수 있고 페이지를 생성하거나 편집하기 전에 사용자 등록을 요구할 수 있다. GI 식별기호는 (존재에 대해) 주기적으로 검증될 수 있고, 기록은 실패에 대한 인간 검토를 위해 태그 추가될 수 있다. 사용자는 공동체 또는 관리자 검토를 요청하기 위해 기록을 표시할 수도 있다.
본 개시는 적어도 하나의 생물학적 서열을 주석달고/달거나 스크리닝하는 시스템 및 방법을 제공한다. 일부 경우, 생물학적 서열은 핵산 서열이다. 핵산 서열은 1개, 10개, 100개, 200개, 300개, 400개, 500개, 600개, 700개, 800개, 900개, 1,000개, 2,000개, 5,000개, 7,000개 또는 10,000개 이상의 핵산 잔기를 포함할 수 있다. 일부 경우, 핵산 서열은 100개 내지 500개의 핵산 잔기를 포함한다. 일부 경우, 핵산 서열은 50개 내지 1000개의 핵산 잔기를 포함한다. 일부 경우, 핵산 서열은 20개 내지 200개의 핵산 잔기를 포함한다. 일부 경우, 핵산 서열은 200개의 잔기를 포함한다. 일부 경우, 생물학적 서열은 DNA 또는 RNA일 수 있다. 일부 경우, 생물학적 서열은 단백질 서열이다. 생물학적 서열은 아데닌(A), 사이토신(C), 구아닌(G), 타이민(T) 또는 우라실(U)을 포함할 수 있다. 일부 경우, 생물학적 서열은 단백질 서열이다. 단백질은 1개, 10개, 100개, 200개, 300개, 400개, 500개, 600개, 700개, 800개, 900개, 1,000개 또는 2,000개 이상의 아미노산을 포함할 수 있다. 일부 경우, 단백질 서열은 100개 내지 300개의 아미노산을 포함한다. 일부 경우, 핵산 서열은 50개 내지 500개의 아미노산을 포함한다. 일부 경우, 핵산 서열은 10개 내지 200개의 아미노산을 포함한다. 일부 경우, 핵산 서열은 60개의 아미노산을 포함한다. 일부 경우, 2개, 5개, 10개, 20개, 50개, 100개 또는 200개 이하의 잔기의 핵산 단편이 핵산 서열로 인-실리코(in-silico) 조립된다. 일부 경우, 핵산 단편은 하나 이상의 공급원, 또는 동일한 공급원으로부터의 하나 이상의 주문으로부터 수득된다.
스크리닝 수단
소정의 서열이 생물보안성 위험을 부과하는 지를 확인할 수 있는 스크리닝 시스템의 구축은 모든 합성 생물학자들 또는 심지어 모든 합성 생물학 회사들에 의해 이용될 수 없는 시간 및 전문지식의 투자 정도를 포함할 수 있다. 위험한 서열의 데이터베이스에 접근한다고 가정할 때조차도, 정렬기의 기초 파라미터화 및 결과 프로세싱(보다 더 짧은 영역에 대한 상동성을 숨기지 않도록 유사한 영역에 대한 정렬 카운트를 골라내는 것을 포함함)은 도메인 전문지식을 포함할 수 있다.
예시적 작업흐름은 도 3a에 제공되어 있다. 도 3a를 참고하건대, 프로세서는 생물학적 서열 정보를 함유하는 질의 파일을 수용하고, 확인된 서열 정보를 가진 단백질 데이터베이스와도 통신한다. 질의된 생물학적 서열과 부분적으로 또는 전체적으로 관련된 확인된 동일한 서열 및 유사한 서열을 나열하는 BLAST 보고가 생성된다. 그 다음, 서열 주석을 함유하는 데이터베이스에 BLAST 보고를 질의하여, "제한된" 목록으로서도 지칭되는, 해로운 생물학적 서열(단백질 또는 핵산)과 관련된 서열을 확인한다. 이 과정들의 결과를 요약하는 사용자 인터페이스의 형태로 스크린 보고를 생성한다.
예시적 논리 작업흐름은 도 3b에 제공되어 있다. 도 3b를 참조하건대, 데이터 입력물 공급원, 예컨대, (시퀀싱될 수 있는) 물리적 핵산 또는 단백질 물질, (단백질 서열로 번역될 수 있는) 핵산 서열, 또는 단백질 서열이 제한된 목록에 있는 지를 확인하기 위해 하나 이상의 데이터베이스를 검색하는 알고리즘을 이용하여 이러한 데이터 입력물 공급원을 평가할 수 있다. 예시적 알고리즘은 BLAST, DIAMOND, 스미쓰-워터만(Smith-Waterman), 또는 서열 정보를 비교하는 다른 알고리즘을 포함하나, 이들로 한정되지 않는다. 제한 목록에 있는 것으로 발견된 서열은 공지된 거짓 양성을 포함하는 비제한된 목록과 대비되어 더 평가된다. 거짓 양성이 확인되지 않은 경우, 서열은 전문가에 의해 검토된다. 서열이 해롭지 않은 것으로 확인된 경우, 이 서열을 비제한된 목록에 올려놓아, 거짓 양성으로서의 상기 서열의 추가 확인을 방지한다. 서열이 해로운 것으로 확인된 경우, 출력물 알림이 생성된다. 일부 경우, 해롭지 않은 서열은 합성된다. 일부 경우, 상기 서열은 해로운 서열을 제거하도록 변형된다. 일부 경우, 변형된 서열은 재스크리닝된다. 일부 경우, 이 과정은 변형된 해롭지 않은 서열이 발견될 때까지 되풀이하여 반복된다. 일부 경우, 변형된 해롭지 않은 서열은 합성된다.
도 4를 참조하건대, 사용자 인터페이스는 스크리닝 과정을 위한 선택을 위해 이용될 수 있는 제한된 목록을 표시한다. 도 5를 참조하건대, 예시적 사용자 인터페이스는 "스크린 제출" 제출 양식을 표시한다. 이 양식은 공개된 데이터베이스(들), 예를 들면, 공개적으로 이용 가능한 정보의 수집물에 대한 스크리닝, 또는 비공개적으로 이용 가능한 선택 기준에 기반을 둘 수 있는, 개인 데이터베이스에 대한 스크리닝의 선택을 가능하게 한다. 상기 제출 양식은 업로딩을 위한 생물학적 서열 파일의 선택도 가능하게 한다.
도 6을 참조하건대, 예시적 사용자 인터페이스는 상태 정보, 스크리닝된 서열, 검토 상태, 우려되거나 우려되지 않는 상태, 서열 추가 날짜, 및 BLAST 결과의 가시화에의 링크와 함께, 수행된 생물보안성 스크린의 요약을 표시한다. 도 7을 참조하건대, 예시적 사용자 인터페이스는 스크린 동안 접근된 목록, 스크리닝된 서열, 및 서열에 대한 해로운 서열(제한된) 배정의 요약을 표시한다.
본원에 개시된 기술은 스크리닝 시스템의 파이톤(Python) 기반 참조 구현을 포함할 수 있다. 질의 뉴클레오타이드 서열이 주어지면, 시스템은 (예를 들면, BLAST를 통해) 상기 서열을 이전 단락에서 논의된 인터페이스에 의해 생성된 주석달린 수집물로부터 유래한 단백질 서열들의 세트와 비교할 수 있다.
결과는 상동성의 정도, E-점수 및 정렬 길이에 의해 여과될 수 있다. 통과 히트(hit)는 문제가 되는 것으로 발견된 질의 서열 및 영역과 관련된 태그의 분포로 요약될 수 있다. 사용자가 보다 더 상세히 추적할 수 있도록 원래의 데이터베이스 입력에의 링크가 제공될 수 있다. 미리 정의된 지침에 따라, 일부 예들은 알고리즘이 100% 민감하고 보고가 보관 사용을 위해 다운로딩될 수 있다는 것을 보여준다. 짧은(예를 들면, 약 200개 미만의 염기) 서열의 스크리닝은 다수의 거짓 양성 발견을 야기할 수 있다. 보다 더 짧은 폴리뉴클레오타이드 서열의 효과적인 스크리닝은 알고리즘 방법을 포함할 수 있다.
스크리닝 시스템은 데이터베이스를 맨 위에 앉힐 수 있고, 스크린 요청 제출 및 결과 검색을 위한 RESTful 애플리케이션 프로그래밍 가능한 인터페이스(API)뿐만 아니라 그래픽 사용자 인터페이스도 포함할 수 있다. 애플리케이션은 휴대용 컴퓨터에 설치될 수 있고 작동할 수 있고, AIP 호출을 통한 대량고속처리 사용에 상당히 잘 맞게 크기조정될 수 있다.
누적 생물학적 서열 또는 구축물 스크리닝
특히 생물학적 서열 또는 구축물이 다수의 공급원들을 통해 다수의 시점들에서 수득되는 경우, 개별적으로 스크리닝될 때 해로운 서열을 확인시켜주지 않을 생물학적 서열 또는 구축물의 단편을 수득할 수 있다. 일부 경우, 공급원은 고객일 수 있다. 예를 들면, 선택제에 의해 조절되는 세균들 또는 바이러스들 중 임의의 세균 또는 바이러스의 게놈의 상당한 부분의 축적이 보다 더 작은 조각으로 수득된 후, 해로운 생물학적 서열 또는 구축물로 조립될 수 있다. 이것을 해결하기 위해, 일부 경우, 그 생물학적 서열 또는 구축물 요청 공급원으로부터의 모든 이전 주문들에 대한 데이터베이스를 질의하고 임의의 해로운 생물학적 서열 또는 구축물에 대한 높은 상동성을 가진 임의의 분절의 기록을 수집하는 배경 과정이 각각의 요청 후 수용된다. 이것은 이러한 분절이 개별 주문 동안 보유의 공식적인 알림 또는 부인을 유발하기에 불충분한 경우조차도 평가 및 알림을 보장한다. 일부 경우, 이 높은 상동성 분절은 우려되는 선택제의 게놈 상의 간격으로서 표시되고, 그 후 생물학적 서열 또는 구축물 요청 공급원당 이 유기체들의 최대 이론적 구축을 확인하기 위해 생물학적 서열 또는 구축물 요청 공급원당 및 게놈당 모든 간격들의 연합체가 생성된다. 일부 경우, 일단 임의의 생물학적 서열 또는 구축물 요청 공급원이 20% 이상의 소정의 선택제 게놈을 디자인하고자 하면, 인간 검토 및 의도한 생물학적 서열 또는 구축물 요청 공급원과의 후속조치를 위해 알림이 생성된다. 일부 경우, 일단 임의의 생물학적 서열 또는 구축물 요청 공급원이 적어도 5%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 또는 90% 초과의 해로운 생물학적 서열 또는 구축물을 생성할 수 있다면, 서열 구축에 대한 권한을 부여하기 전에 인간 검토를 위해 알림이 생성된다. 일부 경우, 일단 임의의 생물학적 서열 또는 구축물 요청 공급원이 5% 내지 50%, 10% 내지 75%, 20% 내지 90%, 30% 내지 100%, 10% 내지 30%, 5% 내지 50%, 또는 15% 내지 60%의 해로운 생물학적 서열 또는 구축물을 생성할 수 있다면, 서열 구축에 대한 권한을 부여하기 전에 인간 검토를 위해 알림이 생성된다.
본원에 기재된 핵산 디자인 및/또는 조립 시스템 및 방법을 위해 스크리닝된 생물학적 서열은 하나 이상의 핵산 또는 단백질 서열을 포함할 수 있다. 보다 더 짧은 핵산 서열, 예컨대, 200개 이하의 염기를 포함하는 핵산 서열의 경우, 기존 스크리닝 방법은 매우 높은 거짓 양성률을 가진다. 일부 경우, 보다 더 짧은 핵산 서열은 2000개, 1000개, 500개, 200개, 100개, 75개, 50개, 40개, 30개 또는 20개 이하의 염기를 함유한다. 일부 경우, 보다 더 짧은 핵산 서열은 10개 내지 1000개의 염기, 20개 내지 500개의 염기, 30개 내지 300개의 염기, 40개 내지 200개의 염기, 50개 내지 200개의 염기, 20개 내지 200개의 염기, 10개 내지 100개의 염기, 또는 100개 내지 300개의 염기를 함유한다. 일부 경우, 핵산 서열은 300개, 200개, 100개, 75개, 50개, 40개, 30개, 20개, 10개, 5개, 또는 5개 이하의 아미노산을 포함하는 보다 더 짧은 단백질을 코딩한다. 일부 경우, 보다 더 짧은 핵산 서열은 10개 내지 300개의 아미노산, 20개 내지 200개의 아미노산, 30개 내지 100개의 아미노산, 10개 내지 200개의 아미노산, 20개 내지 100개의 아미노산, 5개 내지 50개의 아미노산, 10개 내지 100개의 아미노산, 또는 25개 내지 75개의 아미노산을 함유한다. 일례에서, 생물학적 서열 또는 구축물 요청 공급원이 조절되거나 해로운 생물학적 서열 또는 구축물을 잠재적으로 조립하기에 충분한 폴리뉴클레오타이드에 대한 요청을 제출하였을 때 확인하기 위해 폴리뉴클레오타이드의 세트들 전체에 걸쳐 살펴보는 대안적 스크리닝 방법이 이용된다. 일부 경우, 하나 이상의 공급원 내에서 주문 동안, 배경 과정은 조립 알고리즘을 이용하여 선택된 해로운 유기체의 게놈에 대해 주문 전체에 걸쳐 폴리뉴클레오타이드를 조립한다. 일부 경우, 조립 알고리즘은 차세대 시퀀싱 조립 알고리즘을 포함한다. 이 조립은 하나 이상의 주문을 하나 이상의 공급원과 연결하는 가설 생성을 가능하게 한다. 예를 들면, 공급원 A 및 B로부터의 주문 X, Y 및 Z는 해로운 유기체로부터의 하나 이상의 유전자를 조립하도록 조합된다. 일부 경우, 공급원의 수는 적어도 2개, 3개, 4개, 5개, 8개, 10개, 15개, 20개, 30개, 또는 30개 초과의 공급원이다. 일부 경우, 공급원의 수는 2개 내지 30개의 공급원, 5개 내지 50개의 공급원, 10개 내지 100개의 공급원, 5개 내지 20개의 공급원, 2개 내지 10개의 공급원, 4개 내지 40개의 공급원, 또는 15개 내지 75개의 공급원이다. 일부 경우, 가설은 인간 검토를 위해 알림을 생성하고 임의적으로 생물학적 서열 또는 구축물 요청 공급원과의 후속 논의 또는 법 집행에 대한 보고를 직접적으로 유발한다. 거짓 양성률은 유전자 길이 서열에 대한 높은 상동성의 낮은 확률을 고려할 때 낮게 유지되어야 한다. 일부 경우, 추가 거짓 양성 감소는 적절한 중첩이 하나 이상의 해로운 생물학적 서열 또는 구축물의 조립을 허용할 지를 확인하기 위해 서열들의 가정된 수집물의 정렬 구조를 평가하는 형태로 일어난다.
일부 경우, 물리적 핵산 샘플, 예컨대, 벡터 또는 삽입체는 합성될 하나 이상의 핵산 서열을 사용한 조립을 위해 공급원에 의해 제공된다. 일부 경우, 이 물리적 핵산 물질이 예컨대, NGS에 의해 먼저 시퀀싱되고, 하나 이상의 벡터 및 삽입체 서열의 가상 조립이 스크리닝된다. 일부 경우, 적어도 2개의 서열들의 조합이 스크리닝된다. 일부 경우, 적어도 2개, 3개, 4개, 5개, 10개, 15개, 20개, 30개, 또는 30개 초과의 서열들의 조합이 해로운 생물학적 서열 또는 구축물에 대해 스크리닝된다. 일부 경우, 스크리닝된 서열의 수는 2개 내지 30개의 서열, 5개 내지 50개의 서열, 10개 내지 100개의 서열, 5개 내지 20개의 서열, 2개 내지 10개의 서열, 4개 내지 40개의 서열, 또는 15개 내지 75개의 서열이고, 이들이 해로운 생물학적 서열 또는 구축물에 대해 스크리닝된다.
디지털 프로세싱 디바이스
일부 예에서, 본원에 기재된 플랫폼, 시스템, 매체 및 방법은 디지털 프로세싱 디바이스, 또는 이의 사용을 포함할 수 있다. 일부 예에서, 디지털 프로세싱 디바이스는 디바이스의 기능을 수행하는 하나 이상의 하드웨어 중앙 프로세싱 유닛(CPU) 또는 범용 그래픽 프로세싱 유닛(GPGPU)을 포함할 수 있다. 일부 예에서, 디지털 프로세싱디바이스는 실행가능한 지시를 수행하도록 구성된 운용 시스템을 추가로 포함할 수 있다. 디지털 프로세싱 디바이스는 임의적으로 컴퓨터 네트워크에 연결될 수 있다. 디지털 프로세싱 디바이스는 임의적으로 월드 와이드 웹(World Wide Web)에 접근하도록 인터넷에 연결될 수 있다. 디지털 프로세싱 디바이스는 임의적으로 클라우드(cloud) 전산 기반시설에 연결될 수 있다. 디지털 프로세싱 디바이스는 임의적으로 인트라넷(intranet)에 연결될 수 있다. 디지털 프로세싱 디바이스는 임의적으로 데이터 저장 디바이스에 연결될 수 있다.
본원의 설명에 따라, 적합한 디지털 프로세싱 디바이스는 비-한정적 예로써 서버 컴퓨터, 데스크탑 컴퓨터, 랩탑 컴퓨터, 노트북 컴퓨터, 서브노트북 컴퓨터, 네트북 컴퓨터, 네트패드 컴퓨터, 셋-탑 컴퓨터, 매체 스트리밍 디바이스, 휴대용 컴퓨터, 인터넷 어플라이언스(appliance), 모바일 스마트폰, 태블릿 컴퓨터, 개인용 디지털 단말기, 비디오 게임 콘솔 및 비히클을 포함할 수 있다. 많은 스마트폰들이 본원에 기재된 시스템에서 사용되기에 적합할 수 있다. 임의적 컴퓨터 네트워크 연결을 가진 텔레비전, 비디오 재생기 및 디지털 뮤직 재생기가 본원에 기재된 시스템에서 사용되기에 적합할 수 있다. 적합한 태블릿 컴퓨터는 당분야에서 숙련된 자에게 공지되어 있는 부클릿(booklet), 슬레이트(slate) 및 전환 가능한 구성을 가진 태블릿 컴퓨터를 포함할 수 있다.
디지털 프로세싱 디바이스는 실행 가능한 지시를 수행하도록 구성된 운용 시스템을 포함할 수 있다. 운용 시스템은 예를 들면, 디바이스의 하드웨어를 관리하고 애플리케이션의 실행을 위한 서비스를 제공하는, 프로그램 및 데이터를 포함하는 소프트웨어일 수 있다. 적합한 서버 운용 시스템이 비-한정적 예로써 FreeBSD, OpenBSD, NetBSD®, 리눅스(Linux), 애플(Apple)® Mac OS X 서버®, 오라클(Oracle)® 솔라리스(Solaris)®, 원도우즈 서버(Windows Server)® 및 노벨(Novell)® 네트웨어(NetWare)®를 포함할 수 있다. 적합한 개인용 컴퓨터 운용 시스템이 비-한정적 예로써 마이크로소프트(Microsoft)® 윈도우즈(Windows)®, 애플® Mac OS X®, 유닉스(UNIX)®, 및 유닉스 유사 운용 시스템, 예컨대, GNU/리눅스®를 포함할 수 있다. 일부 예에서, 운용 시스템은 클라우드 전산에 의해 제공될 수 있다. 디바이스는 저장 및/또는 메모리 디바이스를 포함할 수 있다. 저장 및/또는 메모리 디바이스는 데이터 또는 프로그램을 일시적으로 또는 영구적으로 저장하는 데 사용되는 하나 이상의 물리적 장치일 수 있다. 상기 디바이스는 소멸성 메모리일 수 있고 저장된 정보를 유지하기 위해 전력을 요구할 수 있다. 디바이스는 비-소멸성 메모리일 수 있고, 디지털 프로세싱 디바이스가 전력을 공급받지 않을 때 저장된 정보를 유지한다. 비-소멸성 메모리는 플래시 메모리, 동적 무작위 접근 메모리(DRAM), 강유전성 무작위 접근 메모리(FRAM), 상 변화 무작위 접근 메모리(PRAM)를 포함할 수 있다.
디지털 프로세싱 디바이스는 시각적 정보를 사용자에게 보내는 디스플레이를 포함할 수 있다. 디스플레이는 음극선관(CRT), 액정 디스플레이(LCD), 박막 트랜지스터 액정 디스플레이(TFT-LCD), 유기 발광 다이오드(OLED) 디스플레이, 수동 매트릭스 OLED(PMOLED) 또는 능동 매트릭스 OLED(AMOLED) 디스플레이, 플라스마 디스플레이, 및/또는 비디오 프로젝터일 수 있다.
디지털 프로세싱 디바이스는 사용자로부터 정보를 수용하기 위한 입력 디바이스를 포함할 수 있다. 입력 디바이스는 키보드일 수 있다. 입력 디바이스는 비-한정적 예로써 마우스, 트랙볼(trackball), 트랙 패드(track pad), 조이스틱(joystick), 게임 제어기 또는 스타일러스(stylus)를 포함하는 포인팅 디바이스일 수 있다. 입력 디바이스는 터치 스크린 또는 멀티터치 스크린일 수 있다. 입력 디바이스는 음성 또는 다른 음향 입력물을 포착하기 위한 마이크로폰일 수 있다. 입력 디바이스는 움직임 또는 시각적 입력물을 포착하기 위한 비디오 카메라 또는 다른 센서일 수 있다. 입력 디바이스는 키넥트(Kinect), 립 모션(Leap Motion) 등일 수 있다. 입력 디바이스는 디바이스들, 예컨대, 본원에 개시된 디바이스들의 조합일 수 있다.
도 8을 참조하건대, 특정 실시양태에서, 예시적 디지털 프로세싱 디바이스(801)는 주석달기 또는 스크리닝을 수행하도록 프로그래밍되거나 다른 방식으로 구성된다. 이 예에서, 디지털 프로세싱 디바이스(801)는 단일 코어 또는 다중 코어 프로세서, 또는 병행 프로세싱을 위한 복수의 프로세서들일 수 있는 중앙 프로세싱 유닛(CPU, 본원에서 "프로세서" 및 "컴퓨터 프로세서"로서도 지칭됨)을 포함한다. 디지털 프로세싱 디바이스(801)는 메모리 또는 메모리 위치(810)(예를 들면, 무작위 접근 메모리, 읽기 전용 메모리, 플래시 메모리), 전자 저장 유닛(815)(예를 들면, 하드 디스크), 하나 이상의 다른 시스템과 통신하기 위한 통신 인터페이스(820)(예를 들면, 네트워크 어댑터), 및 주변 디바이스(825), 예컨대, 캐시(cache), 다른 메모리, 데이터 저장 및/또는 전자 디스플레이 어댑터도 포함한다. 메모리(810), 저장 유닛(815), 인터페이스(820) 및 주변 디바이스(825)는 통신 버스(직선), 예컨대, 마더보드를 통해 CPU(805)와 통신한다. 저장 유닛(815)은 데이터를 저장하기 위한 데이터 저장 유닛(또는 데이터 저장소)일 수 있다. 디지털 프로세싱 디바이스(801)는 통신 인터페이스(820)의 도움으로 컴퓨터 네트워크("네트워크")(830)에 작동가능하게 커플링될 수 있다. 네트워크(830)는 인터넷, 인터넷 및/또는 엑스트라넷, 또는 인터넷과 통신하는 인트라넷 및/또는 엑스트라넷일 수 있다. 일부 경우, 네트워크(830)는 전기통신 및/또는 데이터 네트워크이다. 네트워크(830)는 분산된 전산, 예컨대, 클라우드 전산을 가능하게 할 수 있는 하나 이상의 컴퓨터 서버를 포함할 수 있다. 디바이스(801)의 도움을 받는 일부 경우, 네트워크(830)는 디바이스(801)에 커플링된 디바이스가 고객 또는 서버로서 행동할 수 있게 할 수 있는 피어-투-피어(peer-to-peer) 네트워크를 실행할 수 있다.
도 8을 계속 참조하건대, CPU(805)는 프로그램 또는 소프트웨어에서 구현될 수 있는 일련의 기계 판독 가능한 지시를 실행할 수 있다. 상기 지시는 메모리 위치, 예컨대, 메모리(810)에 저장될 수 있다. 본 개시의 방법을 실행하도록 CPU(805)를 후속적으로 프래그맹할 수 있거나 다른 방식으로 구성할 수 있는 지시가 CPU(805)로 향해질 수 있다. CPU(805)에 의해 수행된 작업의 예로는 패치(fetch), 해독, 실행 및 되받아 쓰기(write back)가 있을 수 있다. CPU(805)는 회로, 예컨대, 집적 회로의 부분일 수 있다. 디바이스(801)의 하나 이상의 다른 성분이 상기 회로에 포함될 수 있다. 일부 경우, 상기 회로는 애플리케이션 특이적 집적 회로(ASIC) 또는 전계 프로그래밍 가능한 게이트 어레이(FPGA)이다.
도 8을 계속 참조하건대, 저장 유닛(815)은 파일, 예컨대, 드라이버, 라이브러리 및 저장된 프로그램을 저장할 수 있다. 저장 유닛(815)은 사용자 데이터, 예를 들면, 사용자 환경설정 및 사용자 프로그램을 저장할 수 있다. 일부 경우, 디지털 프로세싱 디바이스(801)는 외부에 있는, 예컨대, 인트라넷 또는 인터넷을 통해 통신하는 원격 서버에 위치하는 하나 이상의 추가 데이터 저장 유닛을 포함할 수 있다.
도 8을 계속 참조하건대, 디지털 프로세싱 디바이스(801)는 네트워크(830)를 통해 하나 이상의 원격 컴퓨터 시스템과 통신할 수 있다. 예를 들면, 디바이스(801)는 사용자의 원격 컴퓨터 시스템과 통신할 수 있다. 원격 컴퓨터 시스템의 예로는 개인용 컴퓨터(예를 들면, 휴대용 PC), 슬레이트 또는 태블릿 PC(예를 들면, 애플® 아이패드(iPad), 삼성® 갤럭시 탭(Galaxy Tab)), 전화기, 스마트폰(예를 들면, 애플® 아이폰(iPhone), 안드로이드-가능 디바이스, 블랙베리®) 또는 개인용 디지털 단말기가 있다.
본원에 기재된 방법은 디지털 프로세싱 디바이스(801)의 전자 저장 위치, 예를 들면, 메모리(810) 또는 전자 저장 유닛(815)에 저장된 기계(예를 들면, 컴퓨터 프로세서) 실행 가능한 코드에 의해 실행될 수 있다. 기계 실행 가능한 또는 기계 판독 가능한 코드는 소프트웨어의 형태로 제공될 수 있다. 사용 동안, 코드는 프로세서(805)에 의해 실행될 수 있다. 일부 경우, 코드는 저장 유닛(815)으로부터 검색될 수 있고 프로세서(805)에 의한 용이한 접근을 위해 메모리(810)에 저장될 수 있다. 일부 상황에서, 전자 저장 유닛(815)은 배제될 수 있고, 기계 실행 가능한 지시가 메모리(810)에 저장된다.
추가 컴퓨터 시스템
본원에 기재된 시스템들 중 임의의 시스템은 컴퓨터에 작동가능하게 연결될 수 있고 근거리 또는 원거리에서 컴퓨터를 통해 자동화될 수 있다. 다양한 경우, 본 개시의 방법 및 시스템은 컴퓨터 시스템 상의 소프트웨어 프로그램 및 이의 사용을 추가로 포함할 수 있다. 따라서, 분배/진공/재충전 기능의 동시화, 예컨대, 물질 침착 디바이스 이동, 분배 작용 및 진공 구동의 조직화 및 동시화를 위한 전산화된 제어는 본 개시의 범위 내에 있다. 컴퓨터 시스템은 사용자에 의해 특정된 염기 서열과 물질 침착 디바이스의 위치 사이를 접속하여 정확한 시약을 기판의 특정된 영역에 전달하도록 프로그래밍될 수 있다.
도 9에 예시된 컴퓨터 시스템(900)은 고정된 매체(812)를 가진 서버(909)에 작동가능하게 연결될 수 있는 매체(911) 및/또는 네트워크 포트(905)로부터의 지시를 판독할 수 있는 논리 장치로서 이해될 수 있다. 예컨대, 도 9에 제시된 시스템은 CPU(901), 디스크 드라이브(903), 임의적 입력 디바이스, 예컨대, 키보드(915) 및/또는 마우스(916) 및 임의적 모니터(907)를 포함할 수 있다. 근거리 또는 원거리 위치에서 서버로의 데이터 통신은 표시된 통신 매체를 통해 달성될 수 있다. 통신 매체는 데이터를 전달하고/하거나 수용하는 임의의 수단을 포함할 수 있다. 예를 들면, 통신 매체는 네트워크 연결, 무선 연결 또는 인터넷 연결일 수 있다. 이러한 연결은 월드 와이드 웹에 걸쳐 통신을 제공할 수 있다. 본 개시에 관한 데이터는 도 9에 예시된 바와 같이 제3자(922)에 의한 수령 및/또는 검토를 위해 이러한 네트워크 또는 연결에 걸쳐 전달될 수 있다는 것이 예상된다.
도 10은 본 개시의 예시적 경우와 관련하여 사용될 수 있는 컴퓨터 시스템(1000)의 제1 예시적 구조를 예시하는 블록 도표이다. 도 10에 묘사된 바와 같이, 예시적 컴퓨터 시스템은 지시를 프로세싱하기 위한 프로세서(1002)를 포함할 수 있다. 프로세서의 비-한정적 예로는 인텔 XeonTM 프로세서, AMD OpteronTM 프로세서, 삼성 32-bit RISC ARM 1176JZ(F)-S v1.0TM 프로세서, ARM Cortex-A8 삼성 S5PC100TM 프로세서, ARM Cortex-A8 애플 A4TM 프로세서, 마벨(Marvell) PXA 930TM 프로세서, 또는 기능적으로 동등한 프로세서가 있다. 다수의 쓰레드(thread)의 실행이 병행 프로세싱을 위해 사용될 수 있다. 일부 경우, 다수의 프로세서들 또는 다수의 코어를 가진 프로세서들이 단일 컴퓨터 시스템에서 사용될 수도 있거나, 클러스터로 사용될 수도 있거나, 복수의 컴퓨터들, 휴대폰들 및/또는 개인용 데이터 단말기 디바이스들을 포함하는 네트워크 상에서 시스템 전체에 걸쳐 분포된 상태로 사용될 수도 있다.
도 10에 예시된 바와 같이, 고속 캐시(1004)는 프로세서(1002)에 의해 최근에 또는 빈번히 사용되고 있는 지시 또는 데이터를 위한 고속 메모리를 제공하도록 프로세서(1002)에 연결될 수 있거나 도입될 수 있다. 프로세서(1002)는 프로세서 버스(1008)에 의해 노쓰 브리지(north bridge)(1006)에 연결된다. 노쓰 브리지(1006)는 메모리 버스(1012)에 의해 무작위 접근 메모리(RAM)(1010)에 연결되고 프로세서(1002)로 RAM(1010)에의 접근을 관리한다. 노쓰 브리지(1006)는 칩셋 버스(chipset bus)(1016)에 의해 사우쓰 브리지(south bridge)(1014)에도 연결된다. 이어서, 사우쓰 브리지(1006)는 주변 버스(1018)에 연결된다. 주변 버스는 예를 들면, PCI, PCI-X, PCI 익스프레스(Express) 또는 다른 주변 버스일 수 있다. 노쓰 브리지 및 사우쓰 브리지는 종종 프로세서 칩셋으로서 지칭되고 프로세서, RAM, 및 주변 버스(1018)의 주변 성분 사이의 데이터 전달을 관리한다. 일부 대안적 구조에서, 별도의 노쓰 브리지 칩을 사용하는 대신에 노쓰 브리지의 기능성을 프로세서 내로 도입할 수 있다. 일부 경우, 시스템(1000)은 주변 버스(1018)에 부착된 악셀러레이터(accelerator) 카드(1022)를 포함할 수 있다. 악셀러레이터는 전계 프로그래밍 가능한 게이트 어레이(FPGA) 또는 특정 프로세싱을 가속화하기 위한 다른 하드웨어를 포함할 수 있다. 예를 들면, 악셀러레이터는 적응 데이터 재구조화를 위해, 또는 확장된 세트 프로세싱에서 사용된 대수식을 평가하기 위해 사용될 수 있다.
소프트웨어 및 데이터는 외부 저장장치(1024)에 저장되고 프로세서에 의한 사용을 위해 RAM(1010) 및/또는 캐시(1004) 내로 로딩될 수 있다. 시스템(1000)은 시스템 자원을 관리하기 위한 운영 시스템을 포함한다: 운영 시스템의 비-한정적 예로는 리눅스, 윈도우스TM, MACOSTM, 블랙베리 OSTM, iOSTM, 및 다른 기능적으로 동등한 운영 시스템뿐만 아니라, 본 개시의 예시적 경우에 따라 데이터 저장 및 최적화를 관리하기 위해 운영 시스템의 상부에서 작동하는 애플리케이션 소프트웨어도 있다. 이 예에서, 시스템(1000)은 외부 저장장치, 예컨대, 네트워크 부착된 저장장치(NAS) 및 분포된 병행 프로세싱을 위해 사용될 수 있는 다른 컴퓨터 시스템에의 네트워크 인터페이스를 제공하기 위해 주변 버스에 연결된 네트워크 인터페이스 카드(NIC)(1020 및 1021)도 포함한다.
도 11은 복수의 컴퓨터 시스템들(1102a 및 1102b), 복수의 휴대폰들 및 개인용 데이터 단말기(1102c), 및 네트워크 부착된 저장장치(NAS)(1104a 및 1104b)를 가진 네트워크(1100)를 보여주는 도표이다. 예시적 경우, 시스템(1102a, 1102b 및 1102c)은 데이터 저장을 관리할 수 있고 네트워크 부착된 저장장치(NAS)(1104a 및1104b)에 저장된 데이터에 대한 데이터 접근을 최적화할 수 있다. 수학적 모델은 데이터를 위해 사용될 수 있고 컴퓨터 시스템(1102a 및 1102b), 및 휴대폰 및 개인용 데이터 단말기 시스템(1102c) 전체에 걸쳐 분포된 병행 프로세싱을 이용함으로써 평가될 수 있다. 컴퓨터 시스템(1102a 및 1102b), 및 휴대폰 및 개인용 데이터 단말기 시스템(1102c)도 네트워크 부착된 저장장치(NAS)(1104a 및 1104b)에 저장된 데이터의 적응 데이터 재구조화를 위한 병행 프로세싱을 제공할 수 있다. 도 11은 일례만을 예시하고, 매우 다양한 다른 컴퓨터 구조들 및 시스템들이 본 개시의 다양한 경우들과 함께 사용될 수 있다. 예를 들면, 블레이드 서버를 사용하여 병행 프로세싱을 제공할 수 있다. 프로세서 블레이드는 후면판을 통해 연결되어 병행 프로세싱을 제공할 수 있다. 저장장치도 후면판에 연결될 수 있거나 별도의 네트워크 인터페이스를 통해 네트워크 부착된 저장장치(NAS)로서 연결될 수 있다. 일부 예시적 경우, 프로세서는 별도의 메모리 공간을 유지할 수 있고 다른 프로세서에 의한 병행 프로세싱을 위해 네트워크 인터페이스, 후면판 또는 다른 연결기를 통해 데이터를 전달할 수 있다. 다른 경우, 일부 또는 모든 프로세서들이 공유된 가상 주소 메모리 공간을 사용할 수 있다.
도 12는 예시적 경우에 따라 공유된 가상 주소 메모리 공간을 사용하는 멀티프로세서 컴퓨터 시스템(1200)의 블록 도표이다. 상기 시스템은 공유된 메모리 서브시스템(1204)에 접근할 수 있는 복수의 프로세서들(1202a-f)을 포함한다. 상기 시스템은 복수의 프로그래밍 가능한 하드웨어 메모리 알고리즘 프로세서들(MAP)(1206a-f)을 메모리 서브시스템(1204)에 통합시킨다. 각각의 MAP(1206a-f)는 메모리(1208a-f) 및 하나 이상의 전계 프로그래밍 가능한 게이트 어레이(FPGA)(1210a-f)를 포함할 수 있다. MAP는 구성 가능한 기능적 유닛을 제공하고 특정 알고리즘 또는 알고리즘의 일부는 각각의 프로세서와 긴밀히 협력하여 프로세싱하도록 FPGA(1210a-f)에게 제공될 수 있다. 예를 들면, MAP를 사용하여 데이터 모델에 대한 대수식을 평가하고 예시적 경우에서 적응 데이터 재구조화를 수행할 수 있다. 이 예에서, 각각의 MAP는 이들 목적을 위해 모든 프로세서들에 의해 전세계적으로 접근될 수 있다. 한 구성에서, 각각의 MAP는 직접 메모리 접근(DMA)을 이용하여 관련된 메모리(1208a-f)에 접근함으로써, 이것이 각각의 마이크로프로세서(1202a-f)와 관계없이 각각의 마이크로프로세서(1202a-f)로부터 비동기적으로 작업을 실행하게 할 수 있다. 이 구성에서, MAP는 알고리즘의 파이프라인 방식 및 병행 실행을 위해 결과를 또 다른 MAP에 직접적으로 공급할 수 있다.
상기 컴퓨터 구조 및 시스템은 예일 뿐이고, 일반 프로세서, 보조프로세서, FPGA 및 다른 프로그래밍 가능한 논리 디바이스, 칩 상의 시스템(SOC), 애플리케이션 특이적 집적 회로(ASIC), 및 다른 프로세싱 및 논리 요소의 임의의 조합을 사용하는 시스템을 포함하는 매우 다양한 다른 컴퓨터, 휴대폰 및 개인용 데이터 단말기 구조들 및 시스템들이 예시적 경우와 관련하여 사용될 수 있다. 일부 경우, 컴퓨터 시스템의 전부 또는 일부는 소프트웨어 또는 하드웨어에서 실행될 수 있다. 무작위 접근 메모리, 하드 드라이브, 플래시 메모리, 테이프 드라이브, 디스크 어레이, 네트워크 부착된 저장장치(NAS), 및 다른 국소 또는 분포된 데이터 저장 디바이스 및 시스템을 포함하는 임의의 다양한 데이터 저장 매체들이 예시적 경우와 관련하여 사용될 수 있다.
예시적 경우, 컴퓨터 시스템은 상기 또는 다른 컴퓨터 구조들 및 시스템들 중 임의의 컴퓨터 구조 및 시스템 상에서 실행하는 소프트웨어 모듈을 이용함으로써 실행될 수 있다. 다른 경우, 시스템의 기능은 펌웨어(firmware), 프로그래밍 가능한 논리 디바이스, 예컨대, 도 12에서 언급된 전계 프로그래밍 가능한 게이트 어레이(FPGA), 칩 상의 시스템(SOC), 애플리케이션 특이적 집적 회로(ASIC), 또는 다른 프로세싱 및 논리 요소에서 부분적으로 또는 전체적으로 실행될 수 있다. 예를 들면, 세트 프로세서 및 옵티마이저(Optimizer)는 하드웨어 악셀러레이터 카드, 예컨대, 도 10에 예시된 악셀러레이터 카드((1022)의 사용을 통한 하드웨어 가속화에 의해 실행될 수 있다.
비-일시적 컴퓨터 판독 가능한 저장 매체
본원에 개시된 플랫폼, 시스템, 매체 및 방법은 임의적으로 네트워킹된 디지털 프로세싱 디바이스의 운용 시스템에 의해 실행될 수 있는 지시를 포함하는 프로그램으로 코딩된 하나 이상의 비-일시적 컴퓨터 판독 가능한 저장 매체를 포함할 수 있다. 컴퓨터 판독 가능한 저장 매체는 디지털 프로세싱 디바이스의 유형 성분일 수 있다. 컴퓨터 판독 가능한 저장 매체는 임의적으로 디지털 프로세싱 디바이스로부터 제거될 수 있다. 컴퓨터 판독 가능한 저장 매체는 비-한정적 예로써 CD-ROM, DVD, 플래시 메모리 디바이스, 고체 상태 메모리, 자기 디스크 드라이브, 자기 테이프 드라이브, 광학 디스크 드라이브, 클라우드 전산 시스템 및 서비스 등을 포함한다. 일부 경우, 프로그램 및 지시는 상기 매체에 영구적으로, 실질적으로 영구적으로, 반영구적으로 또는 비-일시적으로 코딩된다.
컴퓨터 프로그램
일부 실시양태에서, 본원에 개시된 플랫폼, 시스템, 매체 및 방법은 적어도 하나의 컴퓨터 프로그램, 또는 이의 사용을 포함할 수 있다. 컴퓨터 프로그램은 특정된 과제를 수행하도록 작성된, 디지털 프로세싱 디바이스의 CPU에서 실행될 수 있는 일련의 지시를 포함한다. 컴퓨터 판독 가능한 지시는 특정 과제를 수행하거나 특정 추출 데이터 유형을 실행하는 프로그램 모듈, 예컨대, 기능, 목적, 애플리케이션 프로그래밍 인터페이스(API), 데이터 구조물 등으로서 실행될 수 있다. 본원에서 제공된 개시에 비추어 볼 때, 컴퓨터 프로그램은 다양한 버전의 다양한 언어들로 작성될 수 있다.
웹 애플리케이션
컴퓨터 프로그램은 웹 애플리케이션을 포함할 수 있다. 본원에서 제공된 개시에 비추어 볼 때, 웹 애플리케이션은 하나 이상의 소프트웨어 프레임워크 및 하나 이상의 데이터베이스 시스템을 사용할 수 있다. 웹 애플리케이션은 소프트웨어 프레임워크, 예컨대, 마이크로소프트®.NET 또는 루비 온 레일즈(Ruby on Rails)(RoR) 상에서 생성될 수 있다. 웹 애플리케이션은 비-한정적 예로써 관계 데이터베이스 시스템, 비-관계 데이터베이스 시스템, 객체 지향 데이터베이스 시스템, 연상 데이터베이스 시스템 및 XML 데이터베이스 시스템을 포함하는 하나 이상의 데이터베이스 시스템을 사용할 수 있다. 추가 실시양태에서, 적합한 관계 데이터베이스 시스템은 비-한정적 예로써 마이크로소프트® SQL 서버, mySQL™ 및 오라클®을 포함한다. 다양한 실시양태에서, 당분야에서 숙련된 자는 웹 애플리케이션이 하나 이상의 버전의 하나 이상의 언어로 작성된다는 것도 인식할 것이다. 웹 애플리케이션은 하나 이상의 마크업(markup) 언어, 발표 정의 언어, 클라이언트-사이드 스크립팅(client-side scripting) 언어, 서버-사이드 코딩(server-side coding) 언어, 데이터베이스 질의 언어, 또는 이들의 조합으로 작성될 수 있다. 일부 실시양태에서, 웹 애플리케이션은 마크업 언어, 예컨대, 하이퍼텍스트 마크업 언어(HTML), 익스텐서블 하이퍼텍스트 마크업 언어(XHTML) 또는 익스텐서블 마크업 언어(XML)로 어느 정도까지 작성된다. 웹 애플리케이션은 발표 정의 언어, 예컨대, 캐스케이딩 스타일 시트(CSS)로 어느 정도까지 작성될 수 있다. 웹 애플리케이션은 클라이언트-사이드 스크립팅 언어, 예컨대, 비동기 자바스크립트 및 XML(AJAX), 플래시® 액션스크립트, 자바스크립트 또는 실버라이트(Silverlight)®로 어느 정도까지 작성될 수 있다. 웹 애플리케이션은 서버-사이드 코딩 언어, 예컨대, 액티브 서버 페이지(Active Server Pages)(ASP), 콜드퓨전(ColdFusion)®, 펄(Perl), 자바(Java)™, 자바서버 페이지(JavaServer Pages)(JSP), 하이퍼텍스트 프리프로세서(PHP), 파이톤(Python)™, 루비(Ruby), Tcl, 스몰토크(Smalltalk), WebDNA® 또는 그루비(Groovy)로 어느 정도까지 작성될 수 있다. 웹 애플리케이션은 데이터베이스 질의 언어, 예컨대, 구조화된 질의 언어(SQL)로 어느 정도까지 작성될 수 있다.
모바일 애플리케이션
컴퓨터 프로그램은 모바일 디지털 프로세싱 디바이스에게 제공된 모바일 애플리케이션을 포함할 수 있다. 모바일 애플리케이션은 모바일 디지털 프로세싱 디바이스가 제작될 때 이 디바이스에게 제공될 수 있다. 모바일 애플리케이션은 본원에 기재된 컴퓨터 네트워크를 통해 모바일 디지털 프로세싱 디바이스에게 제공될 수 있다.
모바일 애플리케이션은 예를 들면, 하드웨어, 언어 및 개발 환경을 이용함으로써 생성될 수 있다. 모바일 애플리케이션은 다양한 프로그래밍 언어들로 작성될 수 있다. 적합한 프로그래밍 언어는 비-한정적 예로써 C, C++, C#, 오브젝티브(Objective)-C, 자바™, 자바스크립트, 파스칼(Pascal), 오브젝트 파스칼(Object Pascal), 파이톤™, 루비, VB.NET, WML, 및 CSS를 갖거나 갖지 않은 XHTML/HTML, 또는 이들의 조합을 포함한다.
적합한 모바일 애플리케이션 개발 환경은 여러 공급원들로부터 입수될 수 있다. 상업적으로 입수될 수 있는 개발 환경은 비-한정적 예로써 에어플레이(Airplay)SDK, 알케모(alcheMo), 앱셀러레이터(Appcelerator)®, 셀시우스(Celsius), 베드락(Bedrock), 플래시 라이트(Flash Lite), .NET 컴팩트 프레임워크(Compact Framework), 로모바일(Rhomobile) 및 워크라이트(WorkLight) 모바일 플랫폼을 포함한다. 비-한정적 예로써 라자루스(Lazarus), 모비플렉스(MobiFlex), 모신크(MoSync) 및 폰갭(Phonegap)을 포함하는 다른 개발 환경은 비용 없이 입수될 수 있다. 또한, 모바일 디바이스 제작자는 비-한정적 예로써 아이폰 및 아이패드(iOS) SDK, 안드로이드™ SDK, 블랙베리® SDK, BREW SDK, 팜® OS SDK, 심비안 SDK, webOS SDK 및 윈도우즈® 모바일 SDK를 포함하는 소프트웨어 개발자 키트를 배포한다.
독립형 애플리케이션
컴퓨터 프로그램은 기존 프로세스에의 애드-온(add-on)이 아닌, 예를 들면, 플러그-인(plug-in)이 아닌 독립적 컴퓨터 프로세스로서 실행되는 프로그램인 독립형 애플리케이션을 포함할 수 있다. 독립형 애플리케이션은 컴파일링될 수 있다. 컴파일러는 프로그래밍 언어로 작성된 원시 코드를 이진법 목적 코드, 예컨대, 조립 언어 또는 기계 코드로 변환시키는 컴퓨터 프로그램(들)이다. 적합한 컴파일링된 프로그래밍 언어는 비-한정적 예로써 C, C++, 오브젝티브-C, 코볼(COBOL), 델피(Delphi), 에이펠(Eiffel), 자바™, 리스프(Lisp), 파이톤™, 비쥬얼 베이직(Visual Basic) 및 VB .NET, 또는 이들의 조합을 포함한다. 컴파일화는 종종 적어도 부분적으로 실행가능한 프로그램을 생성하기 위해 수행된다.
웹 브라우저 플러그-인
컴퓨터 프로그램은 웹 브라우저 플러그-인을 포함할 수 있다. 전산에 있어서, 플러그-인은 특정 기능성을 보다 더 큰 소프트웨어 애플리케이션에 추가하는 하나 이상의 소프트웨어 성분일 수 있다. 소프트웨어 애플리케이션의 제조자는 플러그-인을 뒷받침하여, 제3자 개발자가 애플리케이션을 확장하는 능력을 생성하여 신규 특징을 용이하게 추가하는 것을 뒷받침하고 애플리케이션의 크기를 감소시킬 수 있게 한다. 뒷받침될 때, 플러그-인은 소프트웨어 애플리케이션의 기능성의 맞춤제작을 가능하게 할 수 있다. 예를 들면, 플러그-인은 비디오를 재생하고 상호작용성을 생성하고 바이러스에 대해 스캐닝하고 특정 파일 유형을 디스플레이하기 위해 웹 브라우저에서 통상적으로 사용된다. 웹 브라우저 플러그-인은 아도브(Adobe)® 플래시® 재생기, 마이크로소프트® 실버라이트®, 및 애플® 퀵타임®을 포함하나 이들로 한정되지 않는다. 툴바(toolbar)는 하나 이상의 웹 브라우저 확장, 애드-인 또는 애드-온을 포함할 수 있다. 일부 실시양태에서, 툴바는 하나 이상의 익스플로어 바, 툴 밴드 또는 데스크 밴드를 포함한다.
비-한정적 예로써 C++, 델피, 자바™, PHP, 파이톤™, 및 VB .NET, 또는 이들의 조합을 포함하는 다양한 프로그래밍 언어들로 플러그-인의 개발을 가능하게 할 수 있는 여러 플러그-인 프레임워크들이 이용될 수 있다.
웹 브라우저(인터넷 브라우저로서도 지칭됨)는 월드 와이드 웹에서 정보 자원을 검색하고 제시하고 반박하기 위해 네트워크에 연결된 디지털 프로세싱 디바이스와 함께 사용하도록 구성될 수 있는 소프트웨어 애플리케이션이다. 적합한 웹 브라우저는 비-한정적 예로써 마이크로소프트® 인터넷 익스플로어®, 모질라(Mozilla)® 파이어폭스(Firefox)®, 구글® 크롬(Chrome), 애플® 사파리(Safari)®, 오페라 소프트웨어(Opera Software)® 오페라(Opera)®, 및 KDE 캉커러(Konqueror)를 포함한다. 일부 실시양태에서, 웹 브라우저는 모바일 웹 브라우저이다. 모바일 웹 브라우저(마이크로브라우저, 미니브라우저 및 무선 브라우저로서도 지칭됨)는 비-한정적 예로써 휴대용 컴퓨터, 태블릿 컴퓨터, 넷북 컴퓨터, 서브노트북 컴퓨터, 스마트폰, 뮤직 재생기, 개인용 디지털 단말기(PDA) 및 휴대용 비디오 게임 시스템을 포함하는 모바일 디지털 프로세싱 디바이스에서 사용되도록 구성될 수 있다. 적합한 모바일 웹 브라우저는 비-한정적 예로써 구글® 안드로이드® 브라우저, RIM 블랙베리® 브라우저, 애플® 사파리®, 팜® 블레이저(Blazer), 팜® WebOS® 브라우저, 모바일용 모질라® 파이어폭스®, 마이크로소프트® 인터넷 익스플로어® 모바일, 아마존® 킨들(Kindle)® 베이직 웹, 노키아® 브라우저, 오페라 소프트웨어® 오페라® 모바일 및 소니® PSP™ 브라우저를 포함한다.
소프트웨어 모듈
본원에 기재된 시스템, 매체, 네트워크 및 방법은 소프트웨어, 서버 및/또는 데이터베이스 모듈, 또는 이들의 사용을 포함할 수 있다. 소프트웨어 모듈은 다양한 기계, 소프트웨어 및 프로그래밍 언어들을 사용함으로써 생성될 수 있다. 본원에 개시된 소프트웨어 모듈은 다수의 방식들로 실행된다. 소프트웨어 모듈은 파일, 코드 섹션, 프로그래밍 객체, 프로그래밍 구조, 또는 이들의 조합을 포함할 수 있다. 소프트웨어 모듈은 복수의 파일들, 복수의 코드 섹션들, 복수의 프로그래밍 객체들, 복수의 프로그래밍 구조들, 또는 이들의 조합을 포함할 수 있다. 하나 이상의 소프트웨어 모듈은 비-한정적 예로써 웹 애플리케이션, 모바일 애플리케이션 및 독립형 애플리케이션을 포함할 수 있다. 일부 실시양태에서, 소프트웨어 모듈은 하나의 컴퓨터 프로그램 또는 애플리케이션에 있다. 소프트웨어 모듈은 하나 초과의 컴퓨터 프로그램 또는 애플리케이션에 있을 수 있다. 소프트웨어 모듈은 하나의 기계에 호스팅될 수 있다. 소프트웨어 모듈은 하나 초과의 기계에 호스팅될 수 있다. 소프트웨어 모듈은 클라우드 전산 플랫폼에 호스팅될 수 있다. 소프트웨어 모듈은 하나의 위치에서 하나 이상의 기계에 호스팅될 수 있다. 소프트웨어 모듈은 하나 초과의 위치에서 하나 이상의 기계에 호스팅될 수 있다.
데이터베이스
본원에 개시된 플랫폼, 시스템, 매체 및 방법은 하나 이상의 데이터베이스 또는 이의 사용을 포함할 수 있다. 본원에서 제공된 개시에 비추어 볼 때, 많은 데이터베이스들이 생리학적 데이터의 저장 및 검색에 적합하다. 다양한 실시양태에서, 적합한 데이터베이스는 비-한정적 예로써 관계 데이터베이스, 비-관계 데이터베이스, 객체 지향 데이터베이스, 객체 데이터베이스, 실체-관계 모델 데이터베이스, 연상 데이터베이스 및 XML 데이터베이스를 포함한다. 추가 비-한정적 예로는 SQL, PostgreSQL, MySQL, 오라클, DB2 및 사이베이스(Sybase)가 있다. 일부 실시양태에서, 데이터베이스는 인터넷에 기반을 둔다. 데이터베이스는 웹에 기반을 둘 수 있다. 데이터베이스는 클라우드 전산에 기반을 둘 수 있다. 데이터베이스는 하나 이상의 국소 컴퓨터 저장 디바이스에 기반을 둘 수 있다.
하기 실시예는 당분야에서 숙련된 자에게 본원에 개시된 실시양태의 원리 및 실시를 보다 더 명확히 예시하기 위해 기재되어 있고 임의의 청구된 실시양태의 범위를 한정하는 것으로서 해석되어서는 안 된다. 달리 언급되어 있지 않은 한, 모든 부 및 퍼센트는 중량을 기준으로 한 것이다.
알고리즘
본원에 개시된 플랫폼, 시스템, 매체 및 방법은 하나 이상의 알고리즘 또는 이의 사용을 포함할 수 있다. 본원에서 제공된 개시에 비추어 볼 때, 많은 알고리즘들이 서열 데이터의 검색 및 비교에 적합하다. 다양한 실시양태에서, 적합한 알고리즘은 비-한정적 예로써 BLAST, DIAMOND, BLAT, BWT, PLAST, 스미쓰-워터만, 또는 서열 검색 및 정렬을 위한 다른 알고리즘을 포함한다. 알고리즘은 기존 알고리즘의 가속화된 또는 확장된 버전, 또는 이들 알고리즘들을 사용하는 소프트웨어 수단을 포함할 수 있다. 일부 경우, 적합한 가속화된 또는 확장된 알고리즘 및 소프트웨어 수단은 비-한정적 예로써 CS-BLAST, Tera-BLAST, GPU-Blast, G-BLASTN, MPIBLAST, 파라셀(Paracel) BLAST, CaBLAST, 또는 BLAST 알고리즘을 가속화하는 임의의 다른 추가 알고리즘 또는 소프트웨어 수단을 포함한다.
본원은 향상된 생물안전성 및 생물보안성을 가진 생물학적 서열 또는 구축물을 디자인하고 합성하는 시스템 및 방법을 제공한다. 일부 경우, 생물안전성은 예를 들면, 제조 동안 또는 제조로부터 비롯된 해로운 생물학적 물질과 접촉하는 것을 방지하는 것을 목적으로 하는 방지적 조치를 통한 개체의 향상된 안전성을 지칭한다. 일부 경우, 생물보안성은 예를 들면, 해로운 생물학적 물질의 사용 또는 퍼짐을 방지하는 것을 목적으로 하는 방지적 조치를 통한 집단의 안전성을 보호하는 것을 지칭한다. 일부 경우, 하나 이상의 생물학적 서열을 포함하는 하나 이상의 생물학적 구축물을 수용하고 데이터베이스를 사용하여 생물보안성 위험에 대해 스크리닝하고, 하나 이상의 생물학적 서열 또는 구축물이 해로운 발현 생성물 또는 해로운 생성물인 것으로 확인되면 알림이 생성된다. 일부 경우, 생물학적 서열 또는 구축물은 합성 서열을 지칭한다. 일부 경우, 생물학적 서열 또는 구축물은 천연 생성 서열을 지칭한다. 일부 경우, 생물학적 서열 또는 구축물은 핵산 또는 아미노산을 포함한다. 일부 경우, 생물학적 서열은 합성 서열을 지칭한다. 일부 경우, 생물학적 서열은 천연 생성 서열을 지칭한다. 일부 경우, 생물학적 서열은 핵산 또는 아미노산을 포함한다. 일부 경우, 사용자 주석달기를 이용하여 데이터베이스에서 생물학적 서열 또는 구축물의 성질에 대한 추가 정보를 제공한다. 일부 경우, 방법 및 시스템은 대량고속처리 디자인/구축/시험 작업흐름에 완벽히 맞도록 자동화될 수 있다. 일부 경우, 생물학적 구축물의 스크리닝은 다수의 시점들에 걸쳐 단일 공급원 또는 다수의 공급원들로부터 수득된 보다 더 작은 생물학적 서열들의 조합을 비교하는 단계를 포함한다. 일부 경우, 해로운 것으로 확인된 생물학적 서열 또는 구축물은 향후 거짓 양성을 감소시키기 위해 인간 전문가에 의해 더 평가된다. 일부 경우, 이 시스템 및 방법은 컴퓨터, 소프트웨어 애플리케이션, 및 사용자 및 데이터베이스와 접속할 네트워크를 포함한다.
본원은 프로세서 및 메모리; 생물학적 구축물의 생물보안성을 평가하기 위한 기계 지시로서, 생물학적 구축물과 관련된 복수의 태그들의 데이터베이스를 포함하는 기계 지시; 주석달기 수단; 및 임의적으로 스크리닝 수단을 포함하는 시스템을 제공한다. 본원은 생물학적 서열 또는 구축물이 하나 이상의 생물학적 서열을 포함하는 것인 시스템도 제공한다. 본원은 생물학적 서열이 핵산 서열인 시스템도 제공한다. 본원은 생물학적 서열이 단백질 서열인 시스템도 제공한다. 본원은 주석달기 수단이 사용자로 하여금 생물학적 구축물의 서열의 하나 이상의 주석달린 태그를 제공할 수 있게 하도록 구성된 것인 시스템도 제공한다. 본원은 하나 이상의 주석달린 태그가 적어도 숙주 및 우려 수준을 포함하는 것인 시스템도 제공한다. 본원은 하나 이상의 주석달린 태그가 결과를 포함하는 것인 시스템도 제공한다. 본원은 결과가 질환을 포함하는 것인 시스템도 제공한다. 본원은 하나 이상의 주석달린 태그가 환경을 포함하는 것인 시스템도 제공한다. 본원은 하나 이상의 주석달린 태그가 병원성을 포함하는 것인 시스템도 제공한다. 본원은 하나 이상의 주석달린 태그가 해로움을 포함하는 것인 시스템도 제공한다. 본원은 하나 이상의 주석달린 태그가 하나 이상의 용어에 기반을 둔 것인 시스템도 제공한다. 본원은 하나 이상의 주석달린 태그가 하나 이상의 문장 설명에 기반을 둔 것인 시스템도 제공한다. 본원은 주석달기 수단이 하나 이상의 주석달린 태그의 통제 어휘를 생성하도록 더 구성된 것인 시스템도 제공한다. 본원은 주석달기 수단이 큐레이션 과정을 포함하는 것인 시스템도 제공한다. 본원은 큐레이션 과정이 외부 데이터베이스로부터의 생물학적 서열 또는 구축물의 정보를 데이터베이스에 통합시키는 단계를 포함하는 것인 시스템도 제공한다. 본원은 큐레이션 과정이 생물학적 구축물의 무해한 특징을 확인하는 단계를 포함하는 것인 시스템도 제공한다. 본원은 주석달기 수단이 서열을 데이터베이스 내의 생물학적 서열 또는 구축물의 서열과 정렬시키는 단계를 포함하는 것인 시스템도 제공한다. 본원은 스크리닝 수단이 사용자로 하여금 생물학적 구축물의 소정의 서열의 생물보안성 위험을 검색할 수 있게 하도록 구성된 것인 시스템도 제공한다. 본원은 소정의 서열이 뉴클레오타이드 서열을 포함하는 것인 시스템도 제공한다. 본원은 소정의 서열이 단백질 서열을 포함하는 것인 시스템도 제공한다. 본원은 스크리닝 수단이 소정의 서열을 데이터베이스 내의 생물학적 서열 또는 구축물의 서열과 정렬시키기 위해 서열 정렬기를 포함하는 것인 시스템도 제공한다. 본원은 생물보안성 위험의 검색이 상동성의 정도에 의한 여과를 포함하는 것인 시스템도 제공한다. 본원은 생물보안성 위험의 검색이 서열 정렬 길이의 평가를 포함하는 것인 시스템도 제공한다. 본원은 생물보안성 위험의 검색이 평가 점수의 생성을 포함하는 것인 시스템도 제공한다. 본원은 스크리닝 수단이 애플리케이션 프로그래밍 가능한 인터페이스를 추가로 포함하는 것인 시스템도 제공한다. 본원은 기계 지시가 주석달기 및 스크리닝을 위한 그래픽 사용자 인터페이스를 추가로 포함하는 것인 시스템도 제공한다.
본원은 프로세서로 데이터베이스를 사용하여 생물학적 구축물과 관련된 복수의 태그들을 저장하는 단계; 프로세서로 주석달기 수단을 사용하여 생물학적 구축물의 특징에 주석을 다는 단계; 및 임의적으로 프로세서로 스크리닝 수단을 사용하여 생물학적 구축물의 특징을 검색하는 단계를 포함하는, 생물보안성 위험을 평가하는 컴퓨터-실행 방법을 제공한다. 본원은 생물학적 구축물이 생물학적 서열을 포함하는 것인 방법도 제공한다. 본원은 생물학적 서열이 핵산 서열인 방법도 제공한다. 본원은 생물학적 서열이 단백질 서열인 방법도 제공한다. 본원은 주석달기 수단이 사용자로 하여금 생물학적 구축물의 서열의 하나 이상의 주석달린 태그를 제공할 수 있게 하도록 구성된 것인 방법도 제공한다. 본원은 하나 이상의 주석달린 태그가 적어도 숙주 및 우려 수준을 포함하는 것인 방법도 제공한다. 본원은 하나 이상의 주석달린 태그가 결과를 포함하는 것인 방법도 제공한다. 본원은 결과가 질환을 포함하는 것인 방법도 제공한다. 본원은 하나 이상의 주석달린 태그가 환경을 포함하는 것인 방법도 제공한다. 본원은 하나 이상의 주석달린 태그가 병원성을 포함하는 것인 방법도 제공한다. 본원은 하나 이상의 주석달린 태그가 해로움을 포함하는 것인 방법도 제공한다. 본원은 하나 이상의 주석달린 태그가 하나 이상의 용어에 기반을 둔 것인 방법도 제공한다. 본원은 하나 이상의 주석달린 태그가 하나 이상의 문장 설명에 기반을 둔 것인 방법도 제공한다. 본원은 주석달기 수단이 하나 이상의 주석달린 태그의 통제 어휘를 생성하도록 추가로 구성된 것인 방법도 제공한다. 본원은 주석달기 수단이 큐레이션 과정을 포함하는 것인 방법도 제공한다. 본원은 큐레이션 과정이 외부 데이터베이스로부터의 생물학적 서열 또는 구축물의 정보를 데이터베이스에 통합시키는 단계를 포함하는 것인 방법도 제공한다. 본원은 큐레이션 과정이 생물학적 구축물의 무해한 특징을 확인하는 단계를 포함하는 것인 방법도 제공한다. 본원은 주석달기 수단이 서열을 데이터베이스 내의 생물학적 구축물의 서열과 정렬시키는 단계를 포함하는 것인 방법도 제공한다. 본원은 스크리닝 수단이 사용자로 하여금 생물학적 구축물의 소정의 서열의 생물보안성 위험을 검색할 수 있게 하도록 구성된 것인 방법도 제공한다. 본원은 소정의 서열이 뉴클레오타이드 서열을 포함하는 것인 방법도 제공한다. 본원은 소정의 서열이 단백질 서열을 포함하는 것인 방법도 제공한다. 본원은 스크리닝 수단이 소정의 서열을 데이터베이스 내의 생물학적 구축물의 서열과 정렬시키기 위해 서열 정렬기를 포함하는 것인 방법도 제공한다. 본원은 생물보안성 위험의 검색이 상동성의 정도에 의한 여과를 포함하는 것인 방법도 제공한다. 본원은 생물보안성 위험의 검색이 서열 정렬 길이의 평가를 포함하는 것인 방법도 제공한다. 본원은 생물보안성 위험의 검색이 평가 점수의 생성을 포함하는 것인 방법도 제공한다. 본원은 스크리닝 수단이 애플리케이션 프로그래밍 가능한 인터페이스를 추가로 포함하는 것인 방법도 제공한다. 본원은 기계 지시가 주석달기 및 스크리닝을 위한 그래픽 사용자 인터페이스를 추가로 포함하는 것인 방법도 제공한다.
본원은 프로세서로 데이터베이스에 접근하여 생물학적 구축물과 관련된 복수의 태그들을 저장하는 단계; 프로세서로 스크리닝 수단을 평가하여 생물학적 구축물의 특징을 검색하는 단계; 및 프로세서로 보고 수단을 전달하여 스크리닝 수단의 검색 결과를 보내는 단계를 포함하는, 생물보안성 위험을 평가하는 컴퓨터-실행 방법을 제공한다. 본원은 생물학적 구축물이 생물학적 서열을 포함하는 것인 방법도 제공한다. 본원은 생물학적 서열이 핵산 서열인 방법도 제공한다. 본원은 생물학적 서열이 단백질 서열인 방법도 제공한다. 본원은 사용자로 하여금 생물학적 구축물의 서열의 하나 이상의 주석달린 태그를 제공할 수 있게 하도록 구성된 주석달기 수단을 추가로 포함하는 방법도 제공한다. 본원은 하나 이상의 주석달린 태그가 적어도 숙주 및 우려 수준을 포함하는 것인 방법도 제공한다. 본원은 하나 이상의 주석달린 태그가 결과를 포함하는 것인 방법도 제공한다. 본원은 결과가 질환을 포함하는 것인 방법도 제공한다. 본원은 하나 이상의 주석달린 태그가 환경을 포함하는 것인 방법도 제공한다. 본원은 하나 이상의 주석달린 태그가 병원성을 포함하는 것인 방법도 제공한다. 본원은 하나 이상의 주석달린 태그가 해로움의 정도를 포함하는 것인 방법도 제공한다. 본원은 하나 이상의 주석달린 태그가 하나 이상의 용어에 기반을 둔 것인 방법도 제공한다. 본원은 하나 이상의 주석달린 태그가 하나 이상의 문장 설명에 기반을 둔 것인 방법도 제공한다. 본원은 주석달기 수단이 하나 이상의 주석달린 태그의 통제 어휘를 생성하도록 추가로 구성된 것인 방법도 제공한다. 본원은 주석달기 수단이 큐레이션 과정을 포함하는 것인 방법도 제공한다. 본원은 큐레이션 과정이 외부 데이터베이스로부터의 생물학적 서열 또는 구축물의 정보를 데이터베이스에 통합시키는 단계를 포함하는 것인 방법도 제공한다. 본원은 큐레이션 과정이 생물학적 구축물의 무해한 특징을 확인하는 단계를 포함하는 것인 방법도 제공한다. 본원은 주석달기 수단이 서열을 데이터베이스 내의 생물학적 구축물의 서열과 정렬시키는 단계를 포함하는 것인 방법도 제공한다. 본원은 스크리닝 수단이 사용자로 하여금 생물학적 구축물의 소정의 서열의 생물보안성 위험을 검색할 수 있게 하도록 구성된 것인 방법도 제공한다. 본원은 소정의 서열이 뉴클레오타이드 서열을 포함하는 것인 방법도 제공한다. 본원은 소정의 서열이 단백질 서열을 포함하는 것인 방법도 제공한다. 본원은 스크리닝 수단이 소정의 서열을 데이터베이스 내의 생물학적 구축물의 서열과 정렬시키기 위해 서열 정렬기를 포함하는 것인 방법도 제공한다. 본원은 생물보안성 위험의 검색이 상동성의 정도에 의한 여과를 포함하는 것인 방법도 제공한다. 본원은 생물보안성 위험의 검색이 서열 정렬 길이의 평가를 포함하는 것인 방법도 제공한다. 본원은 생물보안성 위험의 검색이 평가 점수의 생성을 포함하는 것인 방법도 제공한다. 본원은 스크리닝 수단이 애플리케이션 프로그래밍 가능한 인터페이스를 추가로 포함하는 것인 방법도 제공한다. 본원은 주석달기를 위해 그래픽 사용자 인터페이스를 위한 기계 지시를 전달하는 단계를 추가로 포함하는 방법도 제공한다. 본원은 스크리닝을 위해 그래픽 사용자 인터페이스를 위한 기계 지시를 전달하는 단계를 추가로 포함하는 방법도 제공한다. 본원은 보고를 위해 그래픽 사용자 인터페이스를 위한 기계 지시를 전달하는 단계를 추가로 포함하는 방법도 제공한다. 본원은 생물학적 구축물이 해로운 발현 생성물(예를 들면, 번역으로부터 비롯된 단백질) 또는 해로운 생성물(예를 들면, 전사로부터 비롯된 RNA)과 관련된 생물학적 서열을 포함하는 것인 방법도 제공한다. 본원은 생물학적 서열이 바이러스, 세균 또는 진균인 방법도 제공한다. 본원은 데이터베이스에 접근하여 생물학적 구축물과 관련된 복수의 태그들을 저장하기 위해 수용된 기계 지시를 추가로 포함하는 방법도 제공한다. 본원은 기계 지시가 생물학적 구축물과 관련된 정보를 포함하는 것인 방법도 제공한다. 본원은 생물학적 서열 또는 구축물과 관련된 정보가 핵산 서열 또는 단백질 서열을 포함하는 것인 방법도 제공한다. 본원은 생물학적 서열 또는 구축물과 관련된 정보가 데이터베이스 수납 번호를 포함하는 것인 방법도 제공한다.
본 개시의 상이한 양태들은 개별적으로, 총체적으로, 또는 서로 조합되어 인식될 수 있다는 것이 이해될 것이다. 본원에 기재된 개시의 다양한 양태들은 이하에 기재된 특정 응용들 중 임의의 특정 응용에 적용될 수 있다. 본 개시의 다른 목적 및 특징은 본 명세서, 청구범위 및 첨부된 도면의 검토에 의해 명확해질 것이다.
실시예
실시예 1: 서열 주석달기
생물학적 서열은 프로세서 유닛에 의해 수용되었다. 이 실시예에서, 생물학적 서열은 단백질 서열이다. 프로세서 유닛은 단백질 데이터베이스에 접근하였고 수용된 단백질 서열과 일치하는 단백질 서열을 확인하였다. 프로세서 유닛은 단백질 서열의 다양한 특징들과 관련된 정보를 수용하였다. 특징들은 하기 특징들을 포함하였다: 단백질 서열과 관련된 핵산 서열, 단백질 서열, 단백질 명칭, 균주 공급원 정보, 서열 데이터베이스(예를 들면, NCBI)에의 링크, 서열 데이터베이스 수납 번호, 동일한 서열(단백질 또는 핵산), 유사한 서열(단백질 또는 핵산), 질환 공급원(예를 들면, 바이러스, 세균), 유기체의 분류학적 설명(예를 들면, 계, 문, 강, 문, 과, 속, 종), 숙주 정보(예를 들면, 인간, 포유동물, 조류, 곤충), 해로운 상호작용의 환경 또는 경로(예를 들면, 섭취, 흡입), 증상 및 우려 수준. 이 실시예에서, 접근된 단백질은 뉴캐슬병 바이러스-3이었다. 주석달기를 위해 특징을 제공한 예시적 사용자 인터페이스는 도 1에 제공되어 있다. 생물학적 서열과 관련된 특징의 정보와 함께 기계 지시가 프로세서에 의해 수용되었을 때, 생물학적 서열과 관련된 태그 정보가 업데이트되었다. 예를 들면, 도 1을 참조하건대, 뉴캐슬병 바이러스-3은 단백질 서열, 동일한 단백질(AHL4519.1.1. 및 AHL45193.1), 숙주 유형(조류), 해로운 상호작용의 경로(흡입) 및 증상(호흡 부전)의 태그 정보를 가진다.
프로세서 유닛이 "헤마글루티닌 뉴라미니다제-뉴캐슬병 바이러스" 과에 대한 선택을 수용하였을 때, 바이러스 균주 정보의 목록은 접근되었고, 임의적으로 균주를 디스플레이하기 위해 사용자 인터페이스를 위한 기계 지시와 함께 전달되었다. 예를 들면, 주석달기를 위해 헤마글루티닌 뉴라미니다제-뉴캐슬병 바이러스의 679개 이용 가능한 균주들의 부분적 목록을 제공하는 도 2를 참조한다.
FSAP 제어 또는 엑스포트 제어를 포함하나 이들로 한정되지 않는, 본 명세서와 일치하는 추가 태그 정보도 일부 경우에서 사용된다.
실시예 2: 서열 스크리닝
도 3a를 참조하건대, 프로세서는 생물학적 서열 정보, 이 경우 핵산 정보를 함유하는 질의 파일의 형태로 기계 지시를 수용하였다. 프로세서는 핵산 및 단백질 데이터베이스와도 통신하였다. 프로세서는 핵산 및 단백질 데이터베이스에 접근하였다. 질의된 생물학적 서열과 부분적으로 또는 전체적으로 관련된 것으로서 확인된 동일한 서열 및 유사한 서열을 나열하는 BLAST 프로세싱된 보고를 생성하였다. 그 다음, BLAST 프로세싱된 보고로부터의 서열을, 서열 주석을 함유하는 데이터베이스에 질의하여, "제한된" 목록으로서도 지칭되는, 해로운 생물학적 서열(단백질 또는 핵산)과 관련된 서열을 확인하였다. 이 과정들의 결과를 요약하는 사용자 인터페이스의 형태로 스크린 보고를 생성하였다. 스크린 보고를 사용자 인터페이스를 위한 기계 지시의 형태로 전달하였다. 프로세서는 제한된 목록 정보에 접근하기 위해 데이터베이스에 대한 특정 지시를 수용하였다. 도 4를 참조한다. 제한된 목록은 인터넷 상에서 공개될 수 있거나, 폐쇄되고 권한부여에 의해서만 접근될 수 있다. 스크린 보고는 생물학적 서열 스크린의 요약도 포함하도록 생성되었다. 5회의 스크린을 수행하였다. 도 6을 참조한다. 스크린 보고는 확인된 해로운 생물학적 서열의 "제한된 배정"의 목록도 포함하도록 생성되었다. 도 7을 참조한다. 스크린 보고는 Gcra 세포 주기 조절 패밀리-브루셀라 수이스(Brucella suis)-2 단백질을 확인하였다.
실시예 3: 특정 게놈에 대한 예비스크리닝
중증형 또는 경증형 두창(Variola)의 게놈의 500개 초과의 뉴클레오타이드들에의 접근은 세계보건기구(WHO) 정책에 의해 제한된다. 보다 더 긴 서열을 원하는 사람은 합성 전에 WHO에 신청하고 WHO에 의해 허가를 받아야 한다. 두창의 독특한 성질 때문에, 백시니아 및 다른 밀접하게 관련된 오르토폭스(Orthopox) 바이러스와 함께 중증형 두창 및 경증형 두창의 게놈에 대한 예비스크리닝을 수행한다. 실시예 2의 일반적인 생물보안성 스크리닝 절차 및 오르토폭스 바이러스의 게놈을 사용하여 핵산 서열을 평가하였다. (범용 하드웨어 상에서 blastx를 통해) 1초 미만 이내에 이 스크리닝을 수행하였다. 알림 전에, 요청된 서열과 두창의 상동성이 가장 크다(2010 HHS 지침 '가장 우수한 일치' 기준에 가깝다)는 것을 확인하기 위해 백시니아 및 다른 오르토폭스 기준 서열을 포함시켰다. 이것은 주문 견적 생성 과정 동안 임의적으로 수행될 수 있고, 이때 해로운 서열이 검출되면, 제조를 시작하기 전에 인간 검토를 위해 알림을 생성한다.
실시예 4: 라이브러리 주형 스크리닝
변이체 라이브러리의 생성을 위해 약 200개의 아미노산들을 코딩하는 유전자를 코딩하는 약 600개의 뉴클레오타이드들의 유전자 길이 핵산 서열을 선택하였다. 상기 서열을 수득하였고 실시예 2의 일반적인 생물보안성 스크리닝 절차에 제출하여, 변이체 라이브러리가 해로운 서열을 함유하지 않을 것임을 보장하였다. 해로운 서열이 검출될 때 인간 검토를 위해 알림을 생성하도록 프로그램을 디자인하였다.
실시예 5: 주문제작 핵산 스크리닝
물리적 핵산 함유 물질, 예컨대, 벡터를 수득하였고 차세대 시퀀싱(NGS)을 통해 시퀀싱하였다. NGS로부터 수득된 컨센서스 서열 데이터를 실시예 2의 일반적인 생물보안성 스크리닝 절차에 제출하였다. 이것은 핵산 물질이 예컨대, 사용하고자 하는 삽입 부위로부터 떨어진 벡터 골격에서 독소의 발현을 코딩하여, 이. 콜라이 내로의 형질전환이 해로운 물질, 예컨대, 독소의 발현을 초래함으로써 생물보안성 또는 생물안전성 우려를 부과하지 않는다는 것을 보장한다. 해로운 서열이 검출될 때 인간 검토를 위해 알림을 생성하도록 프로그램을 디자인하였다.
실시예 6: 동일한 질의 내에서 선택제 게놈에 대한 교차주문 조립
요청자(생물학적 서열 또는 구축물 요청 공급원, 예컨대, 고객)가 시간의 경과에 따라 개별 주문 전체에 걸쳐 임의의 선택제에 의해 조절되는 세균 또는 바이러스의 게놈의 상당한 부분을 축적할 수 있는 위험을 관리하기 위해, 각각의 요청 후 배경 과정은 그 요청자로부터의 모든 이전 주문들에 대한 데이터베이스를 질의하고 실시예 2의 일반적인 방법을 이용하여 임의의 선택제 세균 또는 바이러스에 대한 높은 상동성을 가진 임의의 분절의 기록을 수집한다. 이것은 영역이 개별 주문 동안 보유의 공식적인 알림 또는 부인을 유발하기에 불충분한 경우조차도 평가 및 알림을 보장한다. 이 높은 상동성 분절은 우려되는 선택제의 게놈 상에서 간격으로 표시된 후, 요청자당 이 유기체들의 최대 이론적 구축을 확인하기 위해 요청자당 및 게놈당 모든 간격들의 연합체를 생성한다. 일단 임의의 요청자가 20% 이상의 소정의 선택제 게놈을 생성할 수 있다면, 인간 검토 및 의도한 요청자와의 후속조치를 위해 알림을 생성한다.
실시예 7: 가설 생성을 위한 선택제 게놈에 대한 폴리뉴클레오타이드 풀 조립
보다 더 짧은 폴리뉴클레오타이드 서열, 예컨대, 200개 이하의 염기를 함유하는 폴리뉴클레오타이드 서열의 경우, 기존 스크리닝 방법은 매우 높은 거짓 양성률을 가진다. 요청자(생물학적 서열 또는 구축물 요청 공급원, 즉 고객)가 조절되거나 해로운 서열을 잠재적으로 조립하기에 충분한 폴리뉴클레오타이드를 주문하였을 때 확인하기 위해 폴리뉴클레오타이드들의 세트 전체에 걸쳐 살펴보는 대안적 스크리닝 방법이 이용된다. 하나 이상의 요청 공급원 내에서 주문 동안, 배경 과정은 NGS로부터의 조립 알고리즘을 이용하여 선택제 세균 및 바이러스의 게놈에 대해 주문 전체에 걸쳐 폴리뉴클레오타이드를 조립한다. 이 조립은 가설 생성을 가능하게 하고, 예컨대, "요청자 A 및 B로부터의 주문 X, Y 및 Z가 조합되는 경우, 두창으로부터의 3종의 유전자들이 전체적으로 조립될 수 있다". 이 가설은 인간 검토를 위해 알림을 생성하고 임의적으로 요청자와의 후속 논의 또는 법 집행에 대한 보고를 직접적으로 유발한다. 거짓 양성률은 유전자 길이 서열에 대한 높은 상동성의 낮은 확률을 고려할 때 낮게 유지되어야 하고; 추가 거짓 양성 감소는 용이한 조립을 허용할 적절한 중첩이 존재하는(즉, 의도적으로 디자인되었을 것으로 보이는) 지를 확인하기 위해 폴리뉴클레오타이드의 가정된 수집물의 정렬 구조를 평가하는 형태로 일어난다.
실시예 8: 기계 학습-안내된 위험 주석달기
스크리닝 플랫폼 및 인간 검토는 큰 비제한된 목록, 및 생물학적 서열 또는 구축물 요청 공급원이 우려되는 제한된 서열을 주문하는 것으로서 확인된 진짜 양성 알림 사례의 세트를 구축한다. 기계 학습 알고리즘은 서열 그 자체(예를 들면, 히든 마코브 모델(Hidden Markov Model)(HMM) 유형 환경 자각 상태 모델) 및/또는 진뱅크 기록 주석달기(예를 들면, 이전에 비제한된 서열의 목록 기록과 공유된 언어 및 의미를 기반으로 향후 비제한된 서열 배정의 확률을 추정하기 위한 자연 언어 프로세싱(NLP) 유형 모델) 둘 다에 대해 훈련된다.
본 개시의 바람직한 실시양태가 본원에 제시되어 있고 기재되어 있지만, 이러한 실시양태가 예로써만 제공된다는 것은 당분야에서 숙련된 자에게 자명할 것이다. 본 개시로부터 벗어나지 않으면서 다수의 변경, 변화 및 치환이 당분야에서 숙련된 자에게 인식될 것이다. 본원에 기재된 본 개시의 실시양태에 대한 다양한 대안들이 본 개시를 실시하는 데 이용될 수 있다는 것을 이해할 것이다.
SEQUENCE LISTING <110> TWIST BIOSCIENCE CORPORATION <120> SYSTEMS AND METHODS FOR AUTOMATED ANNOTATION AND SCREENING OF BIOLOGICAL SEQUENCES <130> 44854-719.601 <140> PCT/US2017/036868 <141> 2017-06-09 <150> 62/375,858 <151> 2016-08-16 <150> 62/348,786 <151> 2016-06-10 <160> 1 <170> PatentIn version 3.5 <210> 1 <211> 571 <212> PRT <213> Avian avulavirus 1 <400> 1 Met Asp Arg Ala Val Asn Arg Val Val Leu Glu Asn Glu Glu Arg Glu 1 5 10 15 Ala Lys Asn Thr Trp Arg Leu Val Phe Arg Ile Ala Val Leu Leu Leu 20 25 30 Met Val Met Ile Leu Ala Ile Ser Ala Ala Ala Leu Ala Tyr Ser Met 35 40 45 Glu Ala Ser Thr Pro His Asp Leu Ala Gly Ile Ser Thr Val Ile Ser 50 55 60 Lys Thr Glu Asp Lys Val Thr Ser Leu Leu Ser Ser Ser Gln Asp Val 65 70 75 80 Ile Asp Arg Ile Tyr Lys Gln Val Ala Leu Glu Ser Pro Leu Ala Leu 85 90 95 Leu Asn Thr Glu Ser Val Ile Met Asn Ala Ile Thr Ser Leu Ser Tyr 100 105 110 Gln Ile Asn Gly Ala Lys Asn Ser Ser Gly Cys Gly Ala Pro Val His 115 120 125 Asp Pro Asp Tyr Ile Gly Gly Ile Gly Lys Glu Leu Ile Val Asp Asp 130 135 140 Ile Ser Asp Val Thr Ser Phe Tyr Pro Ser Ala Tyr Gln Glu His Leu 145 150 155 160 Asn Phe Ile Pro Ala Pro Thr Thr Gly Ser Gly Cys Thr Arg Ile Pro 165 170 175 Ser Phe Asp Met Ser Thr Thr His Tyr Cys Tyr Thr His Asn Val Ile 180 185 190 Leu Ser Gly Cys Arg Asp His Ser His Ser His Gln Tyr Leu Ala Leu 195 200 205 Gly Val Leu Arg Thr Ser Ala Thr Gly Arg Ile Phe Phe Ser Thr Leu 210 215 220 Arg Ser Ile Asn Leu Asp Asp Thr Gln Asn Arg Lys Ser Cys Ser Val 225 230 235 240 Ser Ala Thr Pro Leu Gly Cys Asp Met Leu Cys Ser Lys Val Thr Gly 245 250 255 Thr Glu Glu Glu Asp Tyr Lys Ser Val Ala Pro Thr Ser Met Val His 260 265 270 Gly Arg Leu Gly Phe Asp Gly Gln Tyr His Glu Lys Asp Leu Asp Thr 275 280 285 Thr Val Leu Phe Lys Asp Trp Val Ala Asn Tyr Pro Gly Val Gly Gly 290 295 300 Gly Ser Phe Ile Asn Gly Arg Val Trp Phe Pro Val Tyr Gly Gly Leu 305 310 315 320 Lys Pro Asn Ser Pro Ser Asp Thr Ala Gln Glu Gly Lys Tyr Val Ile 325 330 335 Tyr Lys Arg His Asn Asn Thr Cys Pro Asp Lys Gln Asp Tyr Gln Ile 340 345 350 Arg Met Ala Lys Ser Ser Tyr Lys Pro Gly Arg Phe Gly Gly Lys Arg 355 360 365 Ile Gln Gln Ala Ile Leu Ser Ile Lys Val Ser Thr Ser Leu Gly Lys 370 375 380 Asp Pro Val Leu Thr Ile Pro Pro Asn Thr Ile Thr Leu Met Gly Ala 385 390 395 400 Glu Gly Arg Ile Leu Thr Val Gly Thr Ser His Phe Leu Tyr Gln Arg 405 410 415 Gly Ser Ser Tyr Phe Ser Pro Ala Leu Leu Tyr Pro Met Thr Val Asn 420 425 430 Asn Lys Thr Ala Thr Leu His Ser Pro Tyr Met Phe Asn Ala Phe Thr 435 440 445 Arg Pro Gly Ser Val Pro Cys Gln Ala Ser Ala Arg Cys Pro Asn Ser 450 455 460 Cys Ile Thr Gly Val Tyr Thr Asp Pro Tyr Pro Leu Ile Phe Tyr Arg 465 470 475 480 Asn His Thr Leu Arg Gly Val Phe Gly Thr Met Leu Asp Asp Glu Gln 485 490 495 Ala Arg Leu Asn Pro Val Ser Ala Val Phe Asp Asn Ile Ser Arg Ser 500 505 510 Arg Val Thr Arg Val Ser Ser Ser Ser Thr Lys Ala Ala Tyr Thr Thr 515 520 525 Ser Thr Cys Phe Lys Val Val Lys Thr Asn Lys Ala Tyr Cys Leu Ser 530 535 540 Ile Ala Glu Ile Ser Asn Thr Leu Phe Gly Glu Phe Arg Ile Val Pro 545 550 555 560 Leu Leu Val Glu Ile Leu Lys Asp Asp Arg Val 565 570

Claims (31)

  1. a) 복수의 생물학적 서열들을 포함하는 하나 이상의 디자인 지시를 제공하는 단계로서, 복수의 생물학적 서열들 중 각각의 생물학적 서열은 길이가 500개 이하의 염기인 단계;
    b) 복수의 생물학적 서열들 중 적어도 2개의 생물학적 서열들을 조합하여 조합된 서열을 생성하는 단계;
    c) 조합된 서열이 데이터베이스에 포함된 해로운 생물학적 서열과 적어도 20% 동일한 부분을 총체적으로 포함하는지를 자동적으로 확인하는 단계로서, 해로운 생물학적 서열과 적어도 20% 동일한 부분은 적어도 2개의 생물학적 서열들 중 하나 초과로부터 유래하는 단계;
    d) 단계 c)에서 해로운 생물학적 서열과 적어도 20% 동일한 부분이 검출되면, 조합된 서열이 거짓 양성 데이터베이스에 포함된 거짓 양성 서열에 상응하는 부분을 총체적으로 포함하는지를 자동적으로 확인하는 단계;
    e) 단계 c)에서 해로운 생물학적 서열과 적어도 20% 동일한 부분이 검출되고, 단계 d)에서 검출되지 않으면, 해로운 생물학적 서열과 적어도 20% 동일한 부분이 조합된 서열에 존재함을 나타내는 알림을 자동적으로 생성하고, 조합된 서열로부터 해로운 생물학적 서열과 적어도 20% 동일한 부분을 제거하는 단계; 및
    f) 단계 c)에서 조합된 서열이 해로운 생물학적 서열과 적어도 20% 동일한 부분을 포함하지 않거나, 단계 d)에서 조합된 서열이 거짓 양성 서열에 상응하면, 조합된 서열을 합성하는 단계
    를 포함하는, 향상된 폴리뉴클레오타이드 합성을 제공하는 방법.
  2. 삭제
  3. 제1항에 있어서, 해로운 생물학적 서열을 제거하기 위해 해로운 생물학적 서열과 적어도 20% 동일한 복수의 생물학적 서열들 중 적어도 2개의 생물학적 서열들을 바꾸기 위한 지시를 수용하는 단계를 추가로 포함하는 방법.
  4. 제1항에 있어서, 해로운 생물학적 서열은, 번역 또는 전사될 때 병원성 생성물을 생성하는 유전자 또는 유전자 단편을 코딩하는 것인 방법.
  5. 제4항에 있어서, 유전자는 세균 또는 바이러스 게놈으로부터의 것인 방법.
  6. 제1항에 있어서, 하나 이상의 디자인 지시가 하나 이상의 시점에서 수용되는 것인 방법.
  7. 제1항에 있어서, 하나 이상의 디자인 지시가 상이한 공급원들로부터의 것인 방법.
  8. 제1항에 있어서, 하나 이상의 수용된 디자인 지시가 5개 이상의 상이한 공급원들로부터의 것인 방법.
  9. 제1항에 있어서, 복수의 생물학적 서열의 각각이 길이가 200개 이하의 염기인 방법.
  10. 제1항에 있어서, 복수의 생물학적 서열의 각각이 길이가 20개 이하의 염기인 방법.
  11. a) 복수의 생물학적 서열들을 포함하는 하나 이상의 디자인 지시를 제공하는 단계로서, 복수의 생물학적 서열들 중 각각의 생물학적 서열은 길이가 500개 이하의 염기이고, 복수의 생물학적 서열들은 벡터 서열, 및 복수의 추가 삽입체 서열들을 포함하는 단계;
    b) 벡터 서열과 복수의 추가 삽입체 서열들 중 적어도 하나를 조합하여 조합된 서열을 생성하는 단계;
    c) 조합된 서열이 데이터베이스에 포함된 해로운 생물학적 서열과 적어도 20% 동일한 부분을 총체적으로 포함하는지를 자동적으로 확인하는 단계로서, 해로운 생물학적 서열과 적어도 20% 동일한 부분은 벡터 서열 중 하나 초과 및 복수의 삽입체 서열들 중 적어도 하나로부터 유래하는 단계;
    d) 단계 c)에서 해로운 생물학적 서열과 적어도 20% 동일한 부분이 검출되면, 조합된 서열이 거짓 양성 데이터베이스에 포함된 거짓 양성 서열에 상응하는 부분을 총체적으로 포함하는지를 자동적으로 확인하는 단계;
    e) 단계 c)에서 해로운 생물학적 서열과 적어도 20% 동일한 부분이 검출되고, 단계 d)에서 검출되지 않으면, 해로운 생물학적 서열과 적어도 20% 동일한 부분이 조합된 서열에 존재함을 나타내는 알림을 자동적으로 생성하고, 조합된 서열로부터 해로운 생물학적 서열과 적어도 20% 동일한 부분을 제거하고, 해로운 생물학적 서열과 적어도 20% 동일한 부분이 없는 조합된 서열을 합성하는 단계; 및
    f) 단계 c)에서 조합된 서열이 해로운 생물학적 서열과 적어도 20% 동일한 부분을 포함하지 않거나, 단계 d)에서 조합된 서열이 거짓 양성 서열에 상응하면, 조합된 서열을 합성하는 단계
    를 포함하는, 향상된 폴리뉴클레오타이드 합성을 제공하는 방법.
  12. 제11항에 있어서, 생물학적 서열은 물리적 핵산 또는 단백질 샘플의 시퀀싱으로부터 수득된 것인 방법.
  13. 제11항에 있어서, 해로운 생물학적 서열을 제거하기 위해 해로운 생물학적 서열과 적어도 20% 동일한 벡터 및 복수의 삽입체 서열들 중 적어도 하나의 삽입체 서열을 바꾸기 위한 지시를 수용하는 방법.
  14. 제11항에 있어서, 알림이 생성되지 않은 경우, 하나 이상의 생물학적 서열을 합성하는 단계를 추가로 포함하는 방법.
  15. 제11항에 있어서, 해로운 생물학적 서열은, 번역 또는 전사될 때 병원성 생성물을 생성하는 유전자 또는 유전자 단편을 코딩하는 것인 방법.
  16. 제15항에 있어서, 유전자는 세균 또는 바이러스 게놈으로부터의 것인 방법.
  17. 제11항에 있어서, 하나 이상의 디자인 지시가 하나 이상의 시점에서 수용되는 것인 방법.
  18. 제11항에 있어서, 하나 이상의 디자인 지시가 상이한 공급원들로부터의 것인 방법.
  19. 제11항에 있어서, 하나 이상의 수용된 디자인 지시가 5개 이상의 상이한 공급원들로부터의 것인 방법.
  20. 제11항에 있어서, 복수의 생물학적 서열의 각각이 길이가 200개 이하의 염기인 방법.
  21. 제11항에 있어서, 복수의 생물학적 서열의 각각이 길이가 20개 이하의 염기인 방법.
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
KR1020197000811A 2016-06-10 2017-06-09 생물학적 서열의 자동화된 주석달기 및 스크리닝을 위한 시스템 및 방법 KR102476915B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662348786P 2016-06-10 2016-06-10
US62/348,786 2016-06-10
US201662375858P 2016-08-16 2016-08-16
US62/375,858 2016-08-16
PCT/US2017/036868 WO2017214574A1 (en) 2016-06-10 2017-06-09 Systems and methods for automated annotation and screening of biological sequences

Publications (2)

Publication Number Publication Date
KR20190017932A KR20190017932A (ko) 2019-02-20
KR102476915B1 true KR102476915B1 (ko) 2022-12-12

Family

ID=60574009

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197000811A KR102476915B1 (ko) 2016-06-10 2017-06-09 생물학적 서열의 자동화된 주석달기 및 스크리닝을 위한 시스템 및 방법

Country Status (8)

Country Link
US (1) US20170357752A1 (ko)
EP (1) EP3469499A4 (ko)
JP (2) JP2019523940A (ko)
KR (1) KR102476915B1 (ko)
CN (1) CN109564769A (ko)
CA (1) CA3027127A1 (ko)
SG (1) SG11201811025VA (ko)
WO (1) WO2017214574A1 (ko)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9409139B2 (en) 2013-08-05 2016-08-09 Twist Bioscience Corporation De novo synthesized gene libraries
CA2975852A1 (en) 2015-02-04 2016-08-11 Twist Bioscience Corporation Methods and devices for de novo oligonucleic acid assembly
US9981239B2 (en) 2015-04-21 2018-05-29 Twist Bioscience Corporation Devices and methods for oligonucleic acid library synthesis
AU2016324296A1 (en) 2015-09-18 2018-04-12 Twist Bioscience Corporation Oligonucleic acid variant libraries and synthesis thereof
US11512347B2 (en) 2015-09-22 2022-11-29 Twist Bioscience Corporation Flexible substrates for nucleic acid synthesis
CN115920796A (zh) 2015-12-01 2023-04-07 特韦斯特生物科学公司 功能化表面及其制备
CA3034769A1 (en) 2016-08-22 2018-03-01 Twist Bioscience Corporation De novo synthesized nucleic acid libraries
WO2018057526A2 (en) 2016-09-21 2018-03-29 Twist Bioscience Corporation Nucleic acid based data storage
US10907274B2 (en) 2016-12-16 2021-02-02 Twist Bioscience Corporation Variant libraries of the immunological synapse and synthesis thereof
CN110892485B (zh) 2017-02-22 2024-03-22 特韦斯特生物科学公司 基于核酸的数据存储
EP3595674A4 (en) 2017-03-15 2020-12-16 Twist Bioscience Corporation BANKS OF VARIANTS OF IMMUNOLOGICAL SYNAPSE AND THEIR SYNTHESIS
WO2018231864A1 (en) 2017-06-12 2018-12-20 Twist Bioscience Corporation Methods for seamless nucleic acid assembly
US10696965B2 (en) 2017-06-12 2020-06-30 Twist Bioscience Corporation Methods for seamless nucleic acid assembly
EP3681906A4 (en) 2017-09-11 2021-06-09 Twist Bioscience Corporation GPCR-BINDING PROTEINS AND THEIR SYNTHESIS
GB2583590A (en) 2017-10-20 2020-11-04 Twist Bioscience Corp Heated nanowells for polynucleotide synthesis
KR20200106067A (ko) 2018-01-04 2020-09-10 트위스트 바이오사이언스 코포레이션 Dna 기반 디지털 정보 저장
SG11202011467RA (en) 2018-05-18 2020-12-30 Twist Bioscience Corp Polynucleotides, reagents, and methods for nucleic acid hybridization
WO2020118121A1 (en) 2018-12-06 2020-06-11 Battelle Memorial Institute Technologies for nucleotide sequence screening
KR20210143766A (ko) 2019-02-26 2021-11-29 트위스트 바이오사이언스 코포레이션 Glp1 수용체에 대한 변이체 핵산 라이브러리
WO2020176680A1 (en) 2019-02-26 2020-09-03 Twist Bioscience Corporation Variant nucleic acid libraries for antibody optimization
CA3144644A1 (en) 2019-06-21 2020-12-24 Twist Bioscience Corporation Barcode-based nucleic acid sequence assembly

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090170802A1 (en) 1999-02-19 2009-07-02 Febit Holding Gmbh Method for producing polymers
US20100292102A1 (en) 2009-05-14 2010-11-18 Ali Nouri System and Method For Preventing Synthesis of Dangerous Biological Sequences
US20110172127A1 (en) 2008-08-27 2011-07-14 Westemd Asset Clearinghouse Company, LLC Methods and Devices for High Fidelity Polynucleotide Synthesis
US20150120265A1 (en) * 2011-09-01 2015-04-30 Genome Compiler Corporation System for polynucleotide construct design, visualization and transactions to manufacture the same
US20160096160A1 (en) 2013-08-05 2016-04-07 Twist Bioscience Corporation De novo synthesized gene libraries

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5701256A (en) * 1995-05-31 1997-12-23 Cold Spring Harbor Laboratory Method and apparatus for biological sequence comparison
US20060057618A1 (en) * 2004-08-18 2006-03-16 Abbott Molecular, Inc., A Corporation Of The State Of Delaware Determining data quality and/or segmental aneusomy using a computer system
US20140249764A1 (en) * 2011-06-06 2014-09-04 Koninklijke Philips N.V. Method for Assembly of Nucleic Acid Sequence Data
EP2912587A4 (en) * 2012-10-24 2016-12-07 Complete Genomics Inc GENOME EXPLORATION SYSTEM FOR TREATING AND PRESENTING NUCLEOTIDE VARIATIONS IN GENOMIC SEQUENCE DATA

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090170802A1 (en) 1999-02-19 2009-07-02 Febit Holding Gmbh Method for producing polymers
US20110172127A1 (en) 2008-08-27 2011-07-14 Westemd Asset Clearinghouse Company, LLC Methods and Devices for High Fidelity Polynucleotide Synthesis
US20100292102A1 (en) 2009-05-14 2010-11-18 Ali Nouri System and Method For Preventing Synthesis of Dangerous Biological Sequences
US20150120265A1 (en) * 2011-09-01 2015-04-30 Genome Compiler Corporation System for polynucleotide construct design, visualization and transactions to manufacture the same
US20160096160A1 (en) 2013-08-05 2016-04-07 Twist Bioscience Corporation De novo synthesized gene libraries

Also Published As

Publication number Publication date
JP2022181213A (ja) 2022-12-07
US20170357752A1 (en) 2017-12-14
EP3469499A1 (en) 2019-04-17
CA3027127A1 (en) 2017-12-14
EP3469499A4 (en) 2020-10-21
CN109564769A (zh) 2019-04-02
SG11201811025VA (en) 2019-01-30
WO2017214574A1 (en) 2017-12-14
JP2019523940A (ja) 2019-08-29
KR20190017932A (ko) 2019-02-20

Similar Documents

Publication Publication Date Title
KR102476915B1 (ko) 생물학적 서열의 자동화된 주석달기 및 스크리닝을 위한 시스템 및 방법
Ejigu et al. Review on the computational genome annotation of sequences obtained by next-generation sequencing
US20210319907A1 (en) Multi-omic search engine for integrative analysis of cancer genomic and clinical data
Narzisi et al. Comparing de novo genome assembly: the long and short of it
US20190392928A1 (en) Personal data marketplace for genetic, fitness, and medical information including health trust management
Ruzicka et al. ZFIN, The zebrafish model organism database: Updates and new directions
CN113169957A (zh) 个人医疗数据安全共享和所有权去中心化的所有权系统
WO2013150039A1 (en) Systems and methods for disease knowledge modeling and clinical decision support
US11366927B1 (en) Computing system for de-identifying patient data
Layan et al. Mathematical modelling and phylodynamics for the study of dog rabies dynamics and control: A scoping review
Xiao et al. Challenges, solutions, and quality metrics of personal genome assembly in advancing precision medicine
Gupta Quantitative genetics: pan-genomes, SVs, and k-mers for GWAS
Agapito et al. An overview on the challenges and limitations using cloud computing in healthcare corporations
US20180330061A1 (en) Treatment Recommendation System And Method
EP3899776A1 (en) System and method for computerized synthesis of simulated health data
Boyce et al. Genomics and high-consequence infectious diseases: a scoping review of emerging science and potential ethical issues
Getz et al. A runtime alterable epidemic model with genetic drift, waning immunity and vaccinations
Lu et al. NoisyGOA: Noisy GO annotations prediction using taxonomic and semantic similarity
Sharma et al. Emerging trends of bioinformatics in health informatics
Chen et al. Running ahead of evolution—AI-based simulation for predicting future high-risk SARS-CoV-2 variants
Givon et al. Neuroarch: a graph-based platform for constructing and querying models of the fruit fly brain architecture
Hilbush In Silico Dreams: How Artificial Intelligence and Biotechnology Will Create the Medicines of the Future
Dowhy The BioLighthouse: Reusable Software Design for Bioinformatics
Fürstberger et al. Extended pairwise local alignment of wild card DNA/RNA sequences using dynamic programming
Sachdeva et al. Unraveling the role of cloud computing in health care system and biomedical sciences

Legal Events

Date Code Title Description
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant