KR100872256B1 - 데이터 세트 처리 방법, 시스템 및 기록 매체 - Google Patents

데이터 세트 처리 방법, 시스템 및 기록 매체 Download PDF

Info

Publication number
KR100872256B1
KR100872256B1 KR1020057004345A KR20057004345A KR100872256B1 KR 100872256 B1 KR100872256 B1 KR 100872256B1 KR 1020057004345 A KR1020057004345 A KR 1020057004345A KR 20057004345 A KR20057004345 A KR 20057004345A KR 100872256 B1 KR100872256 B1 KR 100872256B1
Authority
KR
South Korea
Prior art keywords
data
genome
selector
reference template
individual
Prior art date
Application number
KR1020057004345A
Other languages
English (en)
Other versions
KR20050057320A (ko
Inventor
배리 롭슨
리차드 머쉬린
Original Assignee
인터내셔널 비지네스 머신즈 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인터내셔널 비지네스 머신즈 코포레이션 filed Critical 인터내셔널 비지네스 머신즈 코포레이션
Publication of KR20050057320A publication Critical patent/KR20050057320A/ko
Application granted granted Critical
Publication of KR100872256B1 publication Critical patent/KR100872256B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 개인의 게놈을 도출하기 위한 컴퓨터 기반의 방법을 제공한다. 이 방법은 개인에 대한 선택기 -선택기는 유전자좌값 및 염기 값을 포함함- 및 그룹 게놈에 대한 기준 템플릿(reference template)에 액세스하는 단계와, 선택기와 기준 템플릿을 처리하여 개인의 게놈을 나타내는 시퀀스를 도출하는 단계를 포함한다. 기준 템플릿은 바람직하게는 염기 값의 발생 확률을 나타내는 데이터 구성 요소를 포함한다. 발생 확률은 그룹 게놈 내의 대응 유전자좌값에서의 염기 값 발생에 기초한다. 본 발명의 방법은 또한 선택기 내에 없는 염기 값에 대하여, 기준 템플릿 내의 데이터 구성 요소로부터 염기 값을 계산하는 단계를 더 포함한다.

Description

데이터 세트 처리 방법, 시스템 및 기록 매체{METHOD AND APPARATUS FOR DERIVING THE GENOME OF AN INDIVIDUAL}
본 발명은 데이터의 전자 전송에 관한 것으로서, 특히 개인의 게놈(genome)을 표현하기 위한 컴퓨터 기반의 방법에 관한 것이다.
인류의 게놈 시퀀싱 및 생물정보학(bioinformatics) 분야의 다른 최근의 진보는 미래의 의학이 게놈 데이터를 이용할 것이라는 것을 암시한다. 예를 들면, 연구원 및 헬스케어(health care) 제공자들은 환자의 유전자 시퀀스에 대한 단백질 코딩에 약(drug)이 결합되는 능력에 기초하여 약을 처방하거나 다양한 약을 금지시키는 능력을 예측한다. 또한, 인터넷은 의학 정보를 획득하는 데 이미 널리 사용되고 있다. 의료 데이터는 대부분 인터넷 상에서 검색된 정보이다. 2005년에 인터넷 상의 1000만 개인의 프로젝션으로, 이러한 양의 게놈 데이터를 효율적으로 전송하기 위한 새로운 도전이 제공될 것이다. 컴퓨터와 인터넷은 또한 게놈 시퀀스의 데이터 마이닝을 위해 더욱 빈번하게 이용된다. 게놈 데이터를 포함하는 증가된 전송량은 게놈 정보 및 이와 관련된 기타 정보를 제공하는 보다 효과적인 방법 을 요구할 것이다.
개인의 게놈 데이터의 전송은 대량의 데이터로 인해 곤란하다. 게놈 데이터를 전자적으로 전송하는 종래의 방법은 너무 느리고 에러 및 불법 액세스가 발생하기 쉽다. 개인의 게놈 데이터의 전송에서 발생하는 에러는, 특히 의료 치료에 사용되는 경우 무서운 결과를 가져올 수 있다. 따라서, 효율적이고 정확한 게놈 전송 방법이 요구된다.
본 발명은 개인의 게놈의 개선된 표현을 제공함으로써, 위에서 약술한 요구 및 기타 요구에 대한 솔루션을 제공한다
본 명세서에는 개인의 게놈을 도출하는 방법이 개시되어 있다. 이 방법은 개인에 대한 선택기 및 그룹 게놈에 대한 기준 템플릿(reference template) -이 선택기는 유전자좌값과 염기 값(base value)을 포함함- 에 액세스하는 단계와, 선택기 및 기준 템플릿을 처리하여 개인의 게놈을 나타내는 시퀀스를 도출하는 단계를 포함한다.
기준 템플릿은 바람직하게는 염기 값의 발생 확률을 나타내는 데이터 구성 요소를 포함한다. 이 발생 확률은 그룹 게놈 내의 대응 유전자좌값에서의 염기 값 발생에 기초한다. 본 발명의 방법은 선택기 내에 존재하지 않는 염기 값에 대하여, 기준 템플릿 내의 데이터 구성 요소으로부터의 염기 값을 계산하는 단계를 더 포함한다.
첨부한 도면 및 하기의 상세한 설명을 참조하면, 본 발명 및 본 발명의 추가적인 특징 및 이점을 보다 완벽하게 이해할 수 있을 것이다.
도 1은 전형적인 게놈 메시징 시스템(GMS; genomic messaging system)을 도시한 도면.
도 2는 GMS의 전형적인 하드웨어 구현예를 도시한 블록도.
도 3은 개인의 게놈을 도출하기 위한 전체적인 방법을 도시한 순서도.
도 4는 선택기의 처리를 도시한 순서도.
도 5는 기준 템플릿의 처리를 도시한 순서도.
도 6은 기준 템플릿으로부터 염기 값을 계산하는 것을 도시한 순서도.
이하에서 본 발명은 GMS(genomic messaging system) 환경에서 설명한다. 이 실시예에서, 본 발명은 DNA 시퀀스 데이터의 표현과 관련된다. 그러나, 본 발명은 이러한 특정 애플리케이션에 한정되지 않고, 예를 들어 RNA 시퀀스를 포함하는 게놈과 관련된 다른 데이터에 적용될 수 있는 것으로 이해해야 한다.
GMS는 임상 생물정보학(clinical bioinformatics), 즉 환자의 특정 유전자 구성과 건강 및 질병 상태에 대한 관계에 집중하는 임상 게놈 정보 기술(IT) 분야에서의 소프트웨어와 관련된다. 임상 생물 정보학은 환자 집단뿐만 아니라 개인 환자의 임상 기록 및 게놈과 관련된다는 점에서 종래의 생물정보학과 구별된다. 따라서, 의료 연구 분야뿐만 아니라 e-헬스 유형의 분야와 같은 헬스케어 IT 분야에서도 본 발명을 유익하게 이용할 수 있다.
게놈 및 생물정보학의 임상 적용을 위해, 환자의 프라이버시, 환자의 안전 및 환자와 의사의 식견있는 선택을 위한 특별한 고려가 요구된다(예를 들어, George J. Annas, "A National Bill of Patients' Rights," in "The Nation's Health," 6th edition, eds. P.R.Lee & C.L. Estes, Jones and Bartlett Publishers, Inc., 2001을 참조하라). 온라인 의료 데이터의 프라이버시를 강화하기 위해 최근에 연합 HIPPA(federal Health Insurance Portability and Accountability Act)가 발족되었다. HIPPA는 환자의 게놈 데이터를 전송하거나, 저장하거나 또는 조작하는 것을 담당한다.
본 발명의 시스템은 긴급 의료 관리를 포함하는 다양한 의료 관리 계획과 관련될 수도 있기 때문에, 다른 시스템에 최소로 의존하도록 설계되었다. 메시징 네트워크는 랩탑 컴퓨터 또는 휴대형 장치 사이에서 서버 없이 직접 통신할 수 있으며 데이터 전송 수단으로서 플로피디스크를 교환할 수 있다. 전송의 꾸밈없는 텍스트 표현을 판독하기 위한 기본 툴이 내장되어 사용될 수 있으며, 모든 다른 인터페이스는 실패한다.
본 발명의 다른 이점은 본 발명이 HL7(Health Level Seven) 체제에 의해 권고된 임상 정보 기술 표준과 부합할 수 있다는 것이다. HL7은 임상 환자의 관리 및 헬스케어 서비스를 지원하는 데이터의 교환, 관리 및 통합을 위한 표준을 제공 하는 비영리 목적의 ANSI-공인 표준 개발 체계(Accredited Standards Developing Organization)이다. 예를 들어, HL7은 CDA(Clinical Document Architecture)를 제안하였는데, 이것은 의료 분야에 대한 XML의 특정 실시예이다. HL7이 탁월한 표준이긴 하지만, 이들 표준의 특징은 여전히 유동 상태에 있다. 예를 들면, 게놈 정보에 대해 HL7로부터 권고할 만한 것은 거의 없다.
도 1에는 전형적인 GMS(100)의 블록도가 도시되어 있다. 시스템(100)은 게놈 메시징 모듈(110), 수신 모듈(120), 게놈 시퀀스 데이터베이스(130) 및 선택적으로 임상 정보 데이터베이스(140)를 포함한다. 게놈 메시징 모듈(110)은 게놈 시퀀스 데이터베이스(130)로부터 입력 시퀀스를 수신하고, 선택적으로 임상 정보 데이터베이스(140)로부터 임상 데이터를 수신한다. 게놈 메시징 모듈(110)은 입력 데이터를 패키지하여 수신 모듈(120)로 전송되는 출력 데이터 스트림(150)을 형성한다.
도 2는 본 발명의 일실시예에 따른 개인의 게놈을 도출하기 위한 시스템(200)의 블록도이다. 시스템(200)은 매체(250)와 대화하는 컴퓨터 시스템(210)을 포함한다. 컴퓨터 시스템(210)은 프로세서(220), 네트워크 인터페이스(225), 메모리(230), 매체 인터페이스(235) 및 선택적으로 디스플레이(240)를 포함한다. 네트워크 인터페이스(225)는 컴퓨터 시스템(210)이 네트워크에 접속할 수 있도록 하며, 매체 인터페이스(235)는 컴퓨터 시스템(210)이 DVD(Digital Verstile Disk) 또는 하드 드라이브와 같은 매체(250)와 대화할 수 있도록 한다.
당해 분야에 공지되어 있는 바와 같이, 본 명세서에서 논의하는 방법 및 장치는 컴퓨터 판독가능한 코드 수단을 수록한 컴퓨터 판독가능한 매체를 포함하는 제품으로서 배포될 수도 있다. 컴퓨터 판독가능한 프로그램 코드 수단은 컴퓨터 시스템(210)과 같은 컴퓨터 시스템과 함께 상기 방법을 수행하기 위한 모든 단계 또는 일부 단계를 수행하거나 본 명세서에서 논의하는 장치를 생성하도록 동작 가능하다. 컴퓨터 판독 가능한 코드는 개인에 대한 선택기 -이 선택기는 유전자좌값 및 염기 값을 포함함- 및 그룹의 게놈에 대한 기준 템플릿에 액세스하고, 선택기 및 기준 템플릿을 처리하고 개인의 게놈의 시퀀스 표현을 도출하도록 구성된다. 컴퓨터 판독가능한 매체는 기록가능한 매체(예를 들면, 플로피 디스크, 하드 드라이브, DVD와 같은 광 디스크 또는 메모리 카드)일 수도 있고 또는 전송 매체(예를 들면, 광섬유, 월드와이드 웹, 케이블 또는 시분할 다중 액세스, 코드 분할 다중 액세스를 이용하는 유선 채널 또는 기타 무선 주파수 채널을 포함함)일 수도 있다. 컴퓨터 시스템과 함께 사용하기에 적합한 정보를 저장할 수 있는 공지되었거나 개발된 임의의 매체가 사용될 수도 있다. 컴퓨터 판독가능한 코드 수단은 자기 매체 상의 자기 변화 또는 컴팩트 디스크의 표면 상의 높이의 변화와 같은 데이터 및 인스트럭션을 컴퓨터가 판독할 수 있게 하는 임의의 메커니즘이다.
메모리(230)는 본 명세서에 개시된 방법, 단계 및 기능을 구현하도록 프로세서(220)를 구성한다. 메모리(230)는 분산되거나 또는 로컬일 수 있으며, 프로세서(220)는 분산되거나 또는 하나일 수 있다. 메모리(230)는 전기, 자기 또는 광학 메모리 또는 이들의 조합 또는 다른 유형의 저장장치로서 구현될 수 있다. 또한, "메모리"란 용어는 프로세서(220)에 의해 액세스된 어드레스가능한 공간 내의 어드 레스로부터 판독되거나 또는 여기에 기록될 수 있는 어떠한 정보도 포함하도록 넓게 해석되어야 한다. 이 정의에 의하면, 프로세서(220)가 네트워크로부터의 정보를 검색할 수 있기 때문에, 네트워크 인터페이스(225)를 통해 액세스가능한 네트워크 상의 정보는 메모리(230) 내에 존재한다. 프로세서(220)를 구성하는 각각의 분산 프로세서는 일반적으로 어드레스가능한 메모리 공간을 포함한다는 점의 유의하라. 또한 컴퓨터 시스템(210)의 전부 또는 일부는 애플리케이션 지정 또는 일반 사용 집적 회로에 포함될 수 있음에 유의하라.
선택적인 비디오 디스플레이(240)는 시스템(200)의 사용자와 대화하기에 적합한 임의의 비디오 유형이다. 일반적으로, 비디오 디스플레이(240)는 컴퓨터 모니터 또는 다른 유사한 비디오 디스플레이다.
다른 실시예에서, 본 발명은 예를 들어 인터넷과 같은 네트워크 기반의 장비로 실시될 수도 있다. 네트워크는 개인 네트워크 및/또는 로컬 네트워크일 수 있다. 서버는 하나 이상의 컴퓨터 시스템을 포함할 수도 있다. 즉, 하나 이상의 도 1의 요소가 예를 들어 자체 프로세서 및 메모리를 구비한 자신의 컴퓨터 시스템 상에 상주하여 실행될 수도 있다. 다른 구성에서는, 본 발명의 방법이 개인용 컴퓨터에서 수행될 수도 있고, 출력 데이터가 네트워크를 통해 다른 개인용 컴퓨터와 같은 수신 모듈로 임의의 서버 개입 없이 직접 전송된다. 출력 데이터는 네트워크 없이 전송될 수도 있다. 예를 들면, 출력 데이터는 데이터를, 예를 들어 플로피 디스크로 단순히 다운로딩하고 데이터를 수신 모듈 상에 업로딩함으로써 전송될 수 있다.
GMS 언어(GMSL)는 GMS를 사용하는 안전한 압축 전송을 위해, 잠재적으로 넓은 종류의 임상 및 게놈 데이터를 나타내는 새로운 "공통어(lingua franca)"이다. 데이터는 상이한 포맷의 여러 소스로부터 나올 수도 있으며, 넓은 범위의 다운스트림 애플리케이션에 사용될 예정이다. GMSL은 게놈 데이터의 주석을 위해 최적화된다.
GMSL의 주 기능은 다음을 포함한다.
- 소스 임상 문서의 이러한 내용 유지 및 환자의 DNA 시퀀스 또는 단편(fragment)의 조합
- 저장 또는 전송 전에 전문가가 DNA 및 임상 데이터에 주석을 추가하는 것을 허용
- 파일 보호 및 패스워드의 추가 가능
- 환자의 ID 등의 가역 및 비가역 "스크러빙(scrubbing)"(익명화(anonymization)의 레벨에 대한 툴 제공
- 잘못된 DNA 및 다른 실험 데이터를 엉뚱한 환자의 기록에 추가하는 것을 방지
- 최종 파일에 적용된 표준 방법에 의해 보충될 수 있는, 여러 레벨에서의 여러 압축 및 암호화를 가능하게 함
- 보여질 수 있는 것의 선택을 포함한, 수신기에 의한 최종 정보의 묘사 방법 선택
- 확실한 XML 태그와 달리 오버랩할 수 있는 DNA 및 단백질 특성을 인코딩하 기 위해 특별한 형태의 XML 부합 "스태거드(staggered)" 브래키팅(bracketing)을 허용.
GMSL은 많은 컴퓨터 언어와 같이, 인스트럭션(커맨드) 및 데이터의 두 기본 종류의 요소를 인식한다. GMS는 잠재적으로 매우 큰 DNA 또는 RNA 시퀀스를 처리하도록 최적화되기 때문에, 이들 요소의 구조는 컴팩트형으로 설계된다.
바이트 맵핑 원리와 관련되는 커맨드 종류는 네 개의 염기가 단일 바이트에 패킹되도록 하여 최대로 압축된 스트림을 제공한다. 이 특징은 주석에 의해 중단되지 않는 긴 DNA 시퀀스를 처리하는데 유용하다. 비-DNA(non-DNA) 부호의 특별한 종결 시퀀스를 만날 때까지 조밀한 패킹이 계속된다. 이 압축된 데이터는 메인 스트림 내에서 전송될 수 있거나 또는 디코딩 프로세스 동안 별도의 파일로부터 판독될 수 있다. 데이터를 그룹화하기 위해 소괄호(parentheses)와 같은 "브래킷(bracket)"을 열거나 닫기 위해 다른 유형의 커맨드가 사용될 수 있다. 이들 커맨드는 처리할 게놈 시퀀스의 특정 범위를 나타내는데 사용될 수 있다. 예를 들어 {a[b(c)d]e}와 같이 단지 내포(nest)만 될 수 있는 괄호 또는 마크업 태그와 달리, GMS 브래킷은 예를 들어 {a[b(c}d)e]와 같이 교차될 수 있다. 이 특징은 흔히 관심 영역이 중첩되기 때문에 게놈 주석에 있어서 중요하다. 또한, 시퀀스의 동일 부분 또는 시퀀스의 중첩 부분이 동시에 여러 방법으로 처리되는데, 예를 들어 주석 처리되거나 또는 한정된다.
이들 "혼합된" 커맨드 외에, 게놈 시퀀스의 임의의 특정 부분과 관련되지 않는 커맨드와, 게놈 데이터의 다수의 바이트와 관련되는 커맨드가 있다. 커맨드 코 드는 주로 정보를 제공할 수 있다. 예를 들면, 특별한 커맨드가 게놈 염기의 삭제 또는 삽입, 또는 이러한 염기의 실행이 그 시점에서 발생하는 것을 나타낼 수 있다.
게놈 시퀀스 내의 어느 위치에서 시퀀스가 실험적으로 신뢰할 수 없거나 또는 특정 뉴클레오티드 염기가, 예를 들어 A 또는 G인지 실험적으로 불명확한 경우, 시퀀스는 하나의 신뢰할 수 있는 단편이 종료되고 후속 단편이 불확실성 레벨을 갖는다는 것을 나타내는 커맨드에 의해 인터럽트될 수 있다. 따라서, 주석을 삽입하는 능력을 포함하여, 복수의 단편을 추적할 수 있는 능력이 GMS 내에 포함된다. GMS는 세그먼트의 계수를 유지하는 능력 및 선택적으로 XML 출력 내에서 이들을 분리시키고 주석을 다는 능력을 갖는다.
샘플 커맨드 구 또는 여러 개의 커맨드로 이루어진 그룹은 다음과 같을 수 있다.
password;[&7aDfx/b{by shaman protect data];
xml;[<gms:{patient}_dna>\];index; and protein;
filename[template.gms{by shaman unlock data}]; read in dna
xml;[</gms:{patient}dna>\];index;and protein;
여기서, 커맨드 구 "password;[&7aDfx/b{by shaman protect data]" 내의 "password"는 (a) 수신기가 이미 &7aDfx/b로 암호화하는 환자의 ID를 입력한 경우와 (b) 그 시점에서 수신기가 다른 패스워드, 여기서는 "shaman"을 입력하는 경우에만, 인입 스트림이 판독되도록 허용하고 그 시점에서부터 활성화되도록 허용한 다. 데이터 항목 "filename[template.gms{by shaman unlock data}]"은 그 패스워드, 여기서는 shaman이 최종 입력된 경우에만 지정된 파일의 데이터가 스트림에 포함되도록 허용하여, 올바른 파일이 로딩되고 필드가 부적당한 에이전트에 의해 오용되지 않도록 돕는다. 다른 패스워드가 요구되면, 다른 패스워드 커맨드가 제 1 패스워드 요구에 후속할 수 있다.
바람직한 DNA 주석 커맨드로 다음 형태의 예가 있다.
(브래킷 레벨에 따라서 태그를 최종 XML 출력 파일, 예를 들면 <open feature="whatever"type="43"level=8/> 상에 갖다 붙이는 43. 이 커맨드는 XML에 허용될 수 없는(XML <A> <B> </B> </A>에 대해서는 XML 허용가능하지만, <A> <B> </A> </B> 는 그렇지 않다는 점에서) 중복 특징, 예를 들면 DNA와 단백질 특징에 주석을 다는데 사용된다.
일반적 DATA 스테이트먼트(statement)는 특정 또는 예를 들어 다음을 포함하는 일반적 데이터 클래스를 인코딩한다.
data;[......................./];
password;[......................./];
filename;[......................./];
number;[......................./];
xml;[......................./]; (XML)
perl;[.......................{end of data}/]; (수신측에서 실행된
펄(Perl) 애플릿
hl7;[.......................{end of data}/]; (HL7 메시지)
dicom;[.......................{end of data}/]; (이미지)
protein;[......................./];
squeeze dna;*......................./]; (DNA를 바이트당 4개의
문자로 압축)
"data;/............/"와 같은 다른 형태가 가능하다. 종료 브래킷 "]"은 선택적이며, 실제로는 수신측 상의 데이터 스테이트먼트의 내용을 패리티 검사하기 위한 커맨드이다. 필드 "[......................." 내에는 "유형(type)"에 의해 허용된 텍스트가 삽입될 수 있다. 유형 제한은 현재 불충분하지만, 그것이 내용 내에 허가된 심벌이라는 사실을 회피하기 위해 어떠한 데이터의 유형에서는 백슬래시가 금지된다.
중괄호(curly bracket)(흔히 프렌치 브레이스(French brace)라고도 함) 내의 다양한 커맨드가 {xml symbols}, {define data}, {recall data}, {on password unlock data}와 같은 이들 DATA 필드에 나타날 수 있거나, 또는 수신측 상의 데이터로 평가되어 매크로 대체되는 {locus}와 같은 변수명을 가질 수 있다.
조합으로부터 수많은 구문을 만들기 위해 베이직 언어가 사용될 수 있지만, 형성된 복합 커맨드는 비교적 적다. 예를 들면, 커맨드
filedata;[{by shaman unlock data}]
number;[15 base pairs\]
squeeze dna
*
SEQ ID NO 1
가 액세스를 위해 패스워드(이 예에서는 "shaman")를 요구하는 후속 데이터 상에 보호 로크(protective lock)를 둔다. 커맨드는 또한 DNA의 15개의 염기쌍을 바이트당 4 개의 염기 쌍으로 가능한 범위까지 압축한다. 다음과 같은 다른 예가 있다.
name;[mary\];xml;[elizabeth{define data}]
xml;[<test>patient{identifier}는 비공식 코드명 {may}</test>\];index를 갖는다.
이것은 특별히 언급된 XML(<test> 태그 및 이들의 내용)을 기록하는 중에 사용 정의된 변수 "mary" 및 시스템 변수 "identifier"(현재의 환자의 식별자)를 모두 예시한다.
게놈 데이터 입력 파일(.gmd)은 DNA 시퀀스 및 선택적인 매뉴얼 주석(manual annotation)을 포함한다. DNA 시퀀스는 염기의 스트링이다. 공백(white space)은 무시된다. "gms" 접두어를 갖는 XML 스타일 태그를 사용하여 주석이 삽입되지만, 파일은 XML 문서가 아니다.
여기서 사용된 "카트리지(cartridge)"는 입력과 출력을 다양한 방법으로 변환하는 교체 가능한 프로그램 모듈이다. 이들은 전문 지식(expertise), 주문형(customization) 및 선택(preference)을 기술한다는 점에서 소형의 "전문 시스템(Expert Systems)"으로 간주될 수도 있다. 모든 입력 카트리지는 결국 최종 주입 력 단계로서 .gms 파일을 생성한다. 이 파일은 이진 .gmb 파일로 변환되어 저장되거나 전송된다. 입력 카트리지는, 레거시 임상 및 게놈 데이터를 GMS 언어로 변환하기 위해, 예를 들면 레거시 변환 카트리지를 포함한다.
.gmi 파일이 CDA 문서인 경우, 이것은 현재의 임상 저장소(clinical repository)로부터 데이터를 검색할 때 예상될 수도 있는데, GMS는 CDA 태그로 마크업된 내용을 요구된 규범적인 .gms 형태로 변환하는 방법을 알 필요가 있다. 이것은 GMS "카트리지"를 이용하여 수행된다. 자동화를 지원하는 제 1 GMS 카트리지 애플리케이션을 나타내는 이 구성에서, 전문가는 부가적인 주석 및 구조(structure)를 포함하도록 CDA 포맷으로 획득된 파일을 선택적으로 변환시킨다. 또한, 전술한 템플릿 모드는 이 프로세스를 안내하는 것을 돕는데 이용가능하며 따라서 전체 수정된 문서가 CDA에 부합한다. 추가된 게놈 특징을 갖는 결과의 CDA 문서는 "CDA 게놈 문서"를 나타낸다. 이러한 CDA 문서는 이제 자동으로 GMSL로 변환될 수 있다. 전술한 레거시 기록 변환 카트리지 외에, 게놈 데이터의 자동 추가가 또한 본 발명에 의해 고려되며, 따라서 CDA 게놈 문서는 그 자체가 최초 CDA 게놈이 없는 파일로부터 자동으로 발생된다.
예를 들면, 게놈 데이터는 gms, 즉 CDA 구조를 사용하여 아래에 기술한 CDA<섹션(section)> 내의 CDA<본문(body)>의 끝에 있는 공백 접두어를 사용하여 병합될 수 있다.
Figure 112005013205246-pct00001
보다 구체적으로는, 카트리지는 먼저 태그가 이미 문서 내에 존재하는 지를 파악하고, 문서 내에 존재하는 경우에 카트리지가 태그를 유지한다. 만약 태그가 손실되면, 카트리지는 a<gms:body 또는 <body tag (case-insensitively)를 찾는다. 그러나, 만약 본문 태그가 없다면, 카트리지는 문서 내의 마지막 태그 전에 a<gms:body 또는 >body tag(case-insensitively)를 삽입할 것이다. GMS에 대한 보다 많은 정보 및 게놈 시퀀스를 포함하는 데이터의 처리는, 본 명세서에 참조로서 포함된, 2002년 6월 28일 출원된 발명의 명칭이 "Genomic Messaging System"인 미국 특허 출원 제 10/185,657 호에 논의되어 있다.
도 3은 개인의 게놈을 도출하기 위한 전형적인 방법(300)을 도시한 순서도이다. 도 3에 도시된 바와 같이, 방법(300)은 선택기를 처리하기 위한 단계(320)와 기준 템플릿을 처리하기 위한 단계(330)를 포함한다. 각 단계는 도 4 및 5를 각각 참조하여 이하에 자세히 논의한다.
도 4는 선택기를 처리하는 단계(320)(도 3 참조)를 도시한 순서도이다. 도 4에 도시된 바와 같이, 선택기를 처리하는 단계는 선택기를 획득하는 단계(404)를 포함한다. 선택기가 획득되면, 단계(406)에서 유전자좌값을 결정하고, 단계(410)에서 염기 값을 결정한다. 유전자좌값은 뉴클레오티드 시퀀스 내의 위치를 나타낸다. 염기 값은 뉴클레오티드 염기를 나타낸다. 바람직한 뉴클레오티드 염기는 푸린(purine):아데닌(adenine)(A) 및 구아닌(guanine)(G), 피리디민(pyrimidine):시토신(cytosine)(C) 및 티민(thymine)(T) 또는 우라실(uracil)(U)(즉, RNA 내의 우라실)을 포함하지만, 여기에 한정되지는 않는다. 예를 들면, 예를 들어(A,6)의 염기 값 및 유전자좌값을 포함하는 선택기는 뉴클레오티드 시퀀스 내의 여섯 번째 위치에서 뉴크레오티드 염기 아데닌이 존재한다는 것을 나타낸다.
염기 값과 유전자좌값으로부터, 단계(416)에 도시된 바와 같이, 적절한 염기 값이 개인의 게놈을 나타내는 시퀀스 내에 위치한다. 개인의 게놈을 나타내는 시퀀스는 선택기 및 기준 템플릿을 처리하여 도출된 뉴클레오티드 시퀀스이다(이것은 도 5와 관련하여 아래에 상세하게 설명한다). 전술한 예에서, 선택기는 염기 값과 유전자좌값(A, 6)을 포함하며, 아데닌이 개인의 게놈을 나타내는 시퀀스 내의 여섯 번째 위치에 배치된다.
단계(414)에 도시된 바와 같이, 선택기의 처리는 단계(408) 동안 검출된 선택기가 더 이상 없을 때까지 지속된다.
바람직한 실시예에서, 선택기 내에 포함된 염기 값 및 유전자좌값 또는 염기 값들 및 유전자좌값들은 다형성(polymorphism)을 나타낸다. 다형성은 집단 내에서 안정화되는 게놈의 다양한 영역으로서 정의될 수도 있다(즉, 통상 개인화된 랜덤 변화에 반해, 집단 내의 개인의 적어도 1%에서 발생함). 또한, 염기 값과 유전자좌값은 특별히 관심이 있는 게놈의 영역을 나타낼 수도 있다. 전형적인 관심 영역은 어떠한 단백질 또는 단백질 그룹을 인코딩하는 게놈의 영역을 포함한다.
관심 영역을 나타내는 염기 값 및 유전자좌값, 즉 다형성을 포함하는 선택기에 의해 개인의 게놈을 표시하면, 개인의 본질적인 게놈 데이터만이 전송될 수 있다. 그러면, 전송된 데이터는 예를 들어 GMS의 수신측 상의 기준 템플릿과 조정될 수 있다. 따라서, 보다 효과적이고 정확한 게놈 데이터의 전송이 달성될 수 있다.
그 다음에 기준 템플릿이 처리된다. 기준 템플릿은 그룹 게놈을 나타내는 뉴클레오티드 시퀀스이다. "그룹"이라는 용어는 임의의 집단(population), 부집단(sub-population) 또는 개인들의 집단을 나타내는데 사용된다. 바람직하게는, 그룹은 부집단이다. 본 발명에 사용하기 위한 적절한 부집단은 이에 한정되는 것은 아니지만, 인종(race), 민족(ethnic group), 종족(tribe), 씨족(clan), 가족(family) 및 형제(sibling group)를 포함하는 여러 파라미터로 정의될 수도 있다. 본 발명의 방법은 그룹으로 간주된 각각의 부집합(sub-population)에 대한 뉴클레오티드 시퀀스를 결정하는데 사용될 수도 있다. 개인을 부집합으로 그룹화함으로써, 유전자의 펩티드(peptide) 및 인트론(intron)의 안내 영역(pilot region)과 같은 보다 보편적인 특성 및 당화(glycosylation)와 같은 보다 다형적인 단백질 특성 이 인식된다.
도 5는 기준 템플릿을 처리하는 단계(330)(도 3 참조)를 나타내는 순서도이다. 도 5에 도시된 바와 같이, 기준 템플릿의 처리는 데이터 구성 요소를 획득하는 단계(504)를 포함한다. 데이터 구성 요소는 유전자좌값과 염기 값 또는 복수의 염기 값을 포함하며, 이에 대해서는 상세히 후술한다. 데이터 구성 요소가 획득되면, 단계(508)는 유전자좌값을 결정하는 단계를 포함한다. 유전자좌값은 선택기에 포함되지 않은 개인의 게놈을 나타내는 시퀀스 내의 위치에 대해 결정된다. 따라서, 위에서 강조한 예에서, 선택기가 염기 값과 유전자좌값(A, 6)을 가지며, 아데닌이 개인의 게놈을 나타내는 시퀀스의 여섯 번째 위치에 이미 위치하였고, 따라서 궤저 값은 여섯 번째 뉴클레오티드 위치에 대해 기준 템플릿으로부터 결정될 필요가 없다.
단계(508)에서 유전자좌값이 기준 템플릿으로부터 결정되면, 단계(520)에서 염기 값이 계산된다. 이 단계는 도 6을 참조하여 보다 상세히 논의된다. 단계(518)에서, 결정된 유전자좌값과 계산된 염기 값으로부터, 적절한 염기 값이 개인의 게놈을 나타내는 시퀀스 내에 배치된다. 단계(516)에 도시된 바와 같이, 기준 템플릿의 처리가 계속된다. 기준 템플릿은 데이터 구성 요소가 남아있지 않을 때까지, 즉 단계(506) 동안에 검출되지 않을 때까지 계속된다.
도 6은 염기 값을 계산하는 단계(520)(도 5 참조)를 나타내는 순서도이다. 기준 템플릿 내에 포함된 데이터 구성 요소는 그룹 게놈 내의 유전자좌값과 염기 값을 나타낸다. 데이터 구성 요소는 단계(604)에 도시된 바와 같이 단일 염기 값을 나타낼 수도 있고, 단계(618)에 도시된 바와 같이 복수의 염기 값을 나타낼 수도 있다. 단계(608)에 도시된 바와 같이, 데이터 구성 요소가 단일 염기 값을 나타내는 경우, 계산된 염기 값은 단계(610)에서와 같이 제공되고, 결정된 유전자좌값에서 개인의 게놈을 나타내는 시퀀스 내에 배치된다. 단계(618)에 도시된 바와 같이, 데이터 구성 요소가 복수의 염기 값을 나타내는 경우, 단계(619)에 도시된 바와 같이 최대 데이터 구성 요소가 존재하는 지의 여부를 판정할 필요가 있다. 최대 데이터 구성 요소는 최고 값을 갖는 데이터 구성 요소로서 정의될 수도 있다. 만약, 최대 데이터 구성 요소가 존재하면, 단계(620)에 도시된 바와 같이 복수의 염기 값이 단계(610)에서와 같이 제공되고, 결정된 유전자좌값에서 개인의 게놈을 나타내는 시퀀스 내에 배치된다. 최대 데이터 구성 요소가 존재하지 않는 상황은 이하에 상세히 논의한다. 만약 최대 데이터 구성 요소가 존재하면, 단계(622)에 도시된 바와 같이 결정될 필요가 있다. 데이터 구성 요소가 단일 염기 값을 나타내지 않고, 단계(616)에서와 같이 복수의 염기 값도 나타내지 않으면, 데이터 구성 요소는 널(null)이고, 이 프로세스는 그 위치에 대해 반복한다.
예를 들어, 그룹 게놈 내의 그 특정 유전자좌값에서 나타낸 복수의 염기 값이 존재할 때, 복수의 염기 값을 나타내는 데이터 구성 요소가 발생한다. 이 예에서, 데이터 구성 요소는 그 유전자좌값에서 특정 염기 값의 발생 가능성, 즉 그룹 게놈 내의 대응 위치에서 아데닌, 시토신, 구아닌 및 티민의 발생에 기초하여 아데닌, 시토신, 구아닌 또는 티민 중 하나가 발생할 확률을 나타낸다. 그룹 게놈 내의 대응 위치는 그룹 게놈을 포함하는 복수의 시퀀스 내, 예를 들면, 다음의 기준 템플릿
........(40,30,10,20)(20,20,60)(50,10,40)(33,33,34)(90,5,5)........
에 존재하는 하나의 단일 위치를 나타낸다.
각각의 괄호 안의 값의 집합은 그룹 게놈 내의 그 특정 위치에서 특정 염기 값의 발생 확률을 나타낸다. 바로 위의 예에서, 발생 확률은 대응 위치 내의 특정 염기 값을 갖는 그룹 게놈의 백분율로서 표시된다. 따라서, 예를 들어 첫 번째 괄호 안의 값의 집합이 아데닌, 시토신, 구아닌 및 티민에 대한 발생 확률을 각각 나타내면, 그룹의 40%는 그 위치에서 아데닌을 가지며, 30%는 시토신을, 10%는 구아닌을, 그리고 20%는 티민을 갖는다. 또한, 나머지 네 개의 괄호 안의 값은 네 개의 DNA 염기 값 중 하나가 그 위치에 존재하지 않는다는 것을 나타낸다(즉, 세 개의 발생 확률 값이 총 100%임을 나타낸다). 발생 확률 값을 포함하는 기준 템플릿의 상세한 설명은 본 명세서에 참조로서 포함된, 본원과 동시에 출원된, 발명의 명칭이 "Method and Apparatus for Deriving a Representative Nucleotide Sequence for Expressing a Group Genome"인 미국 특허 출원 제 10/269,192 호에 개시되어 있다.
단계(622)에서와 같이, 최대 데이터 구성 요소를 결정하기 위해, 단계(624)에서 나타낸 바와 같이 데이터 구성 요소로 표현된 최대 발생 확률이 결정된다. 최대 발생 확률에 대응하는 염기 값이 결정된 유전자좌값에서 개인의 게놈을 나타내는 시퀀스 내에 배치된다.
단계(628, 626)에 도시된 바와 같이, 최고 발생 확률에 대응하는 염기 값을 결정하기 위해, 룩업 테이블이 이용될 수도 있다. 룩업 테이블은 괄호 안의 값의 집합 내의 발생 확률 값의 위치를 나타냄으로써, 어느 염기 값이 어느 발생 확률에 대응하는 지를 나타낸다. 전형적인 룩업 테이블은 다음과 같다.
Figure 112005013205246-pct00002
따라서, 위 표에서, 제 1 발생 확률 값은 아데닌을 나타내고, 제 2 발생 확률 값은 시토신을 나타내며, 제 3 발생 확률 값은 구아닌을 나타내고, 제 4 발생 확률 값은 티민을 나타낸다. 따라서 위에서 첫 번째 괄호 안의 값의 집합, .......(40,30,10,20).....,에 대하여, 룩업 테이블을 사용하면 다음과 같다.
Figure 112005013205246-pct00003
또한, 발생 확률 값이 기준 템플릿을 통해 꾸준히 제공될 수도 있다. 예를 들면, 제공된 제 1 값은 일반적으로 아데닌의 발생 확률에 대응하고, 제 2 값은 일반적으로 시토신의 발생 확률에 대응하며, 제 3 값은 일반적으로 구아닌의 발생 확률에 대응하고, 제 4 값은 일반적으로 티민의 발생 확률에 대응한다.
바람직하게는, 네 개의 가능한 염기 값 중 세 개에 대한 발생 확률 값이 제공되고, 제 4 염기 값에 대한 발생 확률이 100%에서 다른 세 개의 염기 값의 발생 확률의 합을 뺀 발생 확률로서 도출된다.
선택기에 포함되지 않은 개인의 게놈을 나타내는 시퀀스 내의 위치가 존재할 때 최대 데이터 구성 요소가 없는 상황이 발생하는데, 여기서 기준 템플릿은 복수 의 염기 값에 대한 발생 확률을 나타내는 데이터 구성 요소를 포함하지만, 최대 데이터 구성 요소는 존재하지 않는다(예를 들면, 둘 이상의 염기 값이 동일한 발생 확률을 갖는다). 이러한 경우는, 예를 들면 기준 템플릿이 데이터 구성 요소(40,40,10,10)를 포함하는 경우이다. 이 예에서, 복수의 데이터 값을 나타내는 데이터 구성 요소를 시퀀스 내에 배치하는 것이 바람직하다. 따라서, 복수의 염기 값은 시퀀스 내의 그 위치에서 나타날 것이다.
다음은 전형적인 선택기 및 전형적인 기준 템플릿이다. 기준 템플릿은 유전자좌값 및 데이터 구성 요소를 포함한다. 일부 데이터 구성 요소는 단일 염기 값을 나타내고, 일부 데이터 구성 요소는 복수의 염기 값을 나타낸다. 선택기는 염기 값과 유전자좌값을 포함한다.
SEQ ID NO 2
Figure 112005013205246-pct00004
개인 선택기는 (C,6,)(A,8,)로서 표현된다.
개인의 게놈을 나타내는 시퀀스는 다음 알고리즘을 사용하여 계산될 수 있다.
템플릿 내의 각 유전자좌에 대하여,
이 유전자좌에서의 값이 단일 염기이면, 이 값을 동일 유전자좌 내의 결과 시퀀스에 복사하라.
이 유전자좌에서의 값이 복수의 값이면, 이 유전자좌와 매칭되는 (유전자좌값/염기 값) 쌍에 대한 선택기를 검출하라.
만약, 검출되면, 선택기로부터 염기를 동일 유전자좌에 복사하라.
검출되지 않으면, 혼합(mixture) 내의 데이터 구성 요소를 찾아내어, 확립된 약정(즉, 룩업 테이블)에 따라서 복수의 값 내에서 그 값의 위치에 대응하는 염기 값을 복사하라. 이 예에 있어서, 룩업 테이블은 다음과 같다.
Figure 112005013205246-pct00005
개인의 게놈(SEQ ID NO 3)을 나타내는 시퀀스는 다음과 같다.
SEQ ID NO 3
Figure 112005013205246-pct00006
이상 본 발명의 실시예를 설명하였지만, 본 발명은 이들 실시예에 한정되지 않으며, 본 발명의 범주 또는 사상으로부터 벗어나지 않고 많은 다른 변형 및 수정이 이루어질 수도 있다. 이상의 예는 본 발명의 사상 및 범주를 예시하기 위해 제공되었다. 이들 예는 예시적일 뿐으로, 본 발명을 제한하는 것은 아니다.

Claims (20)

  1. 삭제
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 전자 전송에 의해 수신된 데이터 세트를 처리하는 방법에 있어서 - 상기 데이터 세트는 개인의 게놈(genome of an individual)을 나타냄 - ,
    개인에 대한 선택기(selector) - 상기 선택기는 유전자좌값(locus value) 및 염기 값(base value)을 포함함 - 및 그룹 게놈에 대한 기준 템플릿(reference template)에 액세스하는 단계와,
    상기 선택기와 상기 기준 템플릿을 처리하여 상기 개인의 게놈을 나타내는 시퀀스를 도출하는 단계를 포함하되,
    상기 기준 템플릿은 염기 값을 나타내는 데이터 구성 요소를 포함하고, 상기 데이터 구성 요소는 상기 염기 값에 대한 발생 확률을 나타내고, 상기 발생 확률은 상기 그룹 게놈 내의 대응하는 유전자좌값에서의 염기 값 발생에 기초하고,
    상기 선택기 내에 없는 염기 값에 대하여, 상기 기준 템플릿 내의 상기 데이터 구성 요소로부터 염기 값을 계산하는 단계를 더 포함하는
    데이터 세트 처리 방법.
  9. 제 8 항에 있어서,
    최대 데이터 구성 요소를 찾아내는 단계를 더 포함하는
    데이터 세트 처리 방법.
  10. 제 8 항에 있어서,
    상기 계산된 염기 값은 복수의 염기 값을 포함하는
    데이터 세트 처리 방법.
  11. 제 9 항에 있어서,
    상기 최대 데이터 구성 요소는 최대 발생 확률을 나타내는
    데이터 세트 처리 방법.
  12. 제 9 항에 있어서,
    상기 최대 데이터 구성 요소를 찾아내는 단계는 혼합 테이블(mixture table)을 사용하는 단계를 포함하는
    데이터 세트 처리 방법.
  13. 컴퓨터 판독 가능한 코드를 저장하는 메모리와,
    상기 메모리에 동작 가능하게 연결되어 있으며, 상기 컴퓨터 판독 가능한 코드를 실시하도록 구성된 프로세서를 포함하고,
    상기 컴퓨터 판독가능한 코드는
    그룹 게놈에 대한 기준 템플릿(reference template) 및 개인에 대한 선택기(selector) -상기 선택기는 유전자좌값(locus value) 및 염기 값(base value)을 포함함- 에 액세스하고,
    상기 기준 템플릿 및 상기 선택기를 처리하여 상기 개인의 게놈을 나타내는 시퀀스를 도출하도록 구성되되,
    상기 기준 템플릿은 염기 값을 나타내는 데이터 구성 요소를 포함하고, 상기 데이터 구성 요소는 상기 염기 값에 대한 발생 확률을 나타내고, 상기 발생 확률은 상기 그룹 게놈 내의 대응하는 유전자좌값에서의 염기 값 발생에 기초하고,
    상기 기준 템플릿 및 상기 선택기의 상기 처리는, 상기 선택기 내에 없는 염기 값에 대하여 상기 기준 템플릿 내의 상기 데이터 구성 요소로부터 염기 값을 계산하는 것을 포함하는
    시스템.
  14. 삭제
  15. 삭제
  16. 삭제
  17. 제 8 항 내지 제 12 항 중 어느 한 항에 따른 방법의 각 단계를 수행하는 프로그램을 기록한 컴퓨터 판독가능한 기록 매체.
  18. 삭제
  19. 삭제
  20. 삭제
KR1020057004345A 2002-10-11 2002-12-24 데이터 세트 처리 방법, 시스템 및 기록 매체 KR100872256B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/269,150 2002-10-11
US10/269,150 US20080125978A1 (en) 2002-10-11 2002-10-11 Method and apparatus for deriving the genome of an individual

Publications (2)

Publication Number Publication Date
KR20050057320A KR20050057320A (ko) 2005-06-16
KR100872256B1 true KR100872256B1 (ko) 2008-12-05

Family

ID=32092419

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057004345A KR100872256B1 (ko) 2002-10-11 2002-12-24 데이터 세트 처리 방법, 시스템 및 기록 매체

Country Status (9)

Country Link
US (1) US20080125978A1 (ko)
EP (1) EP1550052A4 (ko)
JP (1) JP4288237B2 (ko)
KR (1) KR100872256B1 (ko)
CN (1) CN1685335A (ko)
AU (1) AU2002361874A1 (ko)
CA (1) CA2498609A1 (ko)
TW (1) TWI229807B (ko)
WO (1) WO2004034277A1 (ko)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3945708B2 (ja) * 2004-01-23 2007-07-18 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理システム、変換処理システム、逆変換処理システム、変換方法、変換プログラム、及び記録媒体
US20050273365A1 (en) * 2004-06-04 2005-12-08 Agfa Corporation Generalized approach to structured medical reporting
US8340914B2 (en) * 2004-11-08 2012-12-25 Gatewood Joe M Methods and systems for compressing and comparing genomic data
CA2678128A1 (en) * 2007-02-14 2008-08-21 The General Hospital Corporation Medical laboratory report message gateway
US9282927B2 (en) * 2008-04-24 2016-03-15 Invention Science Fund I, Llc Methods and systems for modifying bioactive agent use
US20100081860A1 (en) * 2008-04-24 2010-04-01 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Computational System and Method for Memory Modification
US8682687B2 (en) 2008-04-24 2014-03-25 The Invention Science Fund I, Llc Methods and systems for presenting a combination treatment
US20100081861A1 (en) * 2008-04-24 2010-04-01 Searete Llc Computational System and Method for Memory Modification
US9662391B2 (en) * 2008-04-24 2017-05-30 The Invention Science Fund I Llc Side effect ameliorating combination therapeutic products and systems
US9239906B2 (en) * 2008-04-24 2016-01-19 The Invention Science Fund I, Llc Combination treatment selection methods and systems
US8930208B2 (en) 2008-04-24 2015-01-06 The Invention Science Fund I, Llc Methods and systems for detecting a bioactive agent effect
US20100069724A1 (en) * 2008-04-24 2010-03-18 Searete Llc Computational system and method for memory modification
US8606592B2 (en) * 2008-04-24 2013-12-10 The Invention Science Fund I, Llc Methods and systems for monitoring bioactive agent use
US20090269329A1 (en) * 2008-04-24 2009-10-29 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Combination Therapeutic products and systems
US9064036B2 (en) * 2008-04-24 2015-06-23 The Invention Science Fund I, Llc Methods and systems for monitoring bioactive agent use
US20100041958A1 (en) * 2008-04-24 2010-02-18 Searete Llc Computational system and method for memory modification
US20100042578A1 (en) * 2008-04-24 2010-02-18 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Computational system and method for memory modification
US20100017001A1 (en) * 2008-04-24 2010-01-21 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Computational system and method for memory modification
US8876688B2 (en) * 2008-04-24 2014-11-04 The Invention Science Fund I, Llc Combination treatment modification methods and systems
US20090271347A1 (en) * 2008-04-24 2009-10-29 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems for monitoring bioactive agent use
US20100125561A1 (en) * 2008-04-24 2010-05-20 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Computational system and method for memory modification
US20100004762A1 (en) * 2008-04-24 2010-01-07 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Computational system and method for memory modification
US9560967B2 (en) * 2008-04-24 2017-02-07 The Invention Science Fund I Llc Systems and apparatus for measuring a bioactive agent effect
US20100041964A1 (en) * 2008-04-24 2010-02-18 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems for monitoring and modifying a combination treatment
US20090271009A1 (en) * 2008-04-24 2009-10-29 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Combination treatment modification methods and systems
US20090312668A1 (en) * 2008-04-24 2009-12-17 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Computational system and method for memory modification
US20100030089A1 (en) * 2008-04-24 2010-02-04 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems for monitoring and modifying a combination treatment
US20090312595A1 (en) * 2008-04-24 2009-12-17 Searete Llc, A Limited Liability Corporation Of The State Of Delaware System and method for memory modification
US20090270694A1 (en) * 2008-04-24 2009-10-29 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems for monitoring and modifying a combination treatment
US9449150B2 (en) 2008-04-24 2016-09-20 The Invention Science Fund I, Llc Combination treatment selection methods and systems
US20100063368A1 (en) * 2008-04-24 2010-03-11 Searete Llc, A Limited Liability Corporation Computational system and method for memory modification
US20100130811A1 (en) * 2008-04-24 2010-05-27 Searete Llc Computational system and method for memory modification
US20100100036A1 (en) * 2008-04-24 2010-04-22 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Computational System and Method for Memory Modification
US20090270688A1 (en) * 2008-04-24 2009-10-29 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems for presenting a combination treatment
US20100022820A1 (en) * 2008-04-24 2010-01-28 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Computational system and method for memory modification
US20100015583A1 (en) * 2008-04-24 2010-01-21 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Computational System and method for memory modification
US20090270687A1 (en) * 2008-04-24 2009-10-29 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems for modifying bioactive agent use
US9649469B2 (en) 2008-04-24 2017-05-16 The Invention Science Fund I Llc Methods and systems for presenting a combination treatment
US20090271122A1 (en) * 2008-04-24 2009-10-29 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems for monitoring and modifying a combination treatment
US8615407B2 (en) 2008-04-24 2013-12-24 The Invention Science Fund I, Llc Methods and systems for detecting a bioactive agent effect
US9026369B2 (en) * 2008-04-24 2015-05-05 The Invention Science Fund I, Llc Methods and systems for presenting a combination treatment
US20120053845A1 (en) * 2010-04-27 2012-03-01 Jeremy Bruestle Method and system for analysis and error correction of biological sequences and inference of relationship for multiple samples
KR101278652B1 (ko) * 2010-10-28 2013-06-25 삼성에스디에스 주식회사 협업 기반 염기서열 데이터의 관리, 디스플레이 및 업데이트 방법
US10468122B2 (en) 2012-06-21 2019-11-05 International Business Machines Corporation Exact haplotype reconstruction of F2 populations
JP6054790B2 (ja) * 2013-03-28 2016-12-27 三菱スペース・ソフトウエア株式会社 遺伝子情報記憶装置、遺伝子情報検索装置、遺伝子情報記憶プログラム、遺伝子情報検索プログラム、遺伝子情報記憶方法、遺伝子情報検索方法及び遺伝子情報検索システム
US10460830B2 (en) 2013-08-22 2019-10-29 Genomoncology, Llc Computer-based systems and methods for analyzing genomes based on discrete data structures corresponding to genetic variants therein
WO2015120170A1 (en) 2014-02-05 2015-08-13 Bigdatabio, Llc Methods and systems for biological sequence compression transfer and encryption
WO2016130557A1 (en) * 2015-02-09 2016-08-18 Bigdatabio, Llc Systems, devices, and methods for encrypting genetic information

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000072098A (ko) * 2000-07-28 2000-12-05 이종인 게놈족보 및 유전정보 제공 서비스 시스템
KR20010033132A (ko) * 1997-12-23 2001-04-25 왓슨 제임스 디. 미코박테리움 바카이에서 유도한 조성물 및 이의 이용방법
US6401043B1 (en) * 1999-04-26 2002-06-04 Variagenics, Inc. Variance scanning method for identifying gene sequence variances
WO2002046459A2 (en) * 2000-12-06 2002-06-13 Genodyssee Method for the determination of at least one functional polymorphism in the nucleotide sequence of a preselected candidate gene and its applications

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320463A (ja) * 1997-05-16 1998-12-04 Toshiba Eng Co Ltd 保守関連ドキュメント配信ネットワークシステム、ドキュメント処理システム並びにその方法
US6692915B1 (en) * 1999-07-22 2004-02-17 Girish N. Nallur Sequencing a polynucleotide on a generic chip
JP2002055870A (ja) * 2000-08-15 2002-02-20 Fuji Xerox Co Ltd データ提供装置、データ取得装置及びデータ処理システム
JPWO2002025519A1 (ja) * 2000-09-20 2004-01-29 株式会社東芝 遺伝子による診療情報提供方法、診療情報提供端末及び診療情報受給端末
US6975943B2 (en) * 2001-09-24 2005-12-13 Seqwright, Inc. Clone-array pooled shotgun strategy for nucleic acid sequencing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010033132A (ko) * 1997-12-23 2001-04-25 왓슨 제임스 디. 미코박테리움 바카이에서 유도한 조성물 및 이의 이용방법
US6401043B1 (en) * 1999-04-26 2002-06-04 Variagenics, Inc. Variance scanning method for identifying gene sequence variances
KR20000072098A (ko) * 2000-07-28 2000-12-05 이종인 게놈족보 및 유전정보 제공 서비스 시스템
WO2002046459A2 (en) * 2000-12-06 2002-06-13 Genodyssee Method for the determination of at least one functional polymorphism in the nucleotide sequence of a preselected candidate gene and its applications

Also Published As

Publication number Publication date
TWI229807B (en) 2005-03-21
CA2498609A1 (en) 2004-04-22
TW200405972A (en) 2004-04-16
AU2002361874A1 (en) 2004-05-04
WO2004034277A1 (en) 2004-04-22
JP2006502499A (ja) 2006-01-19
JP4288237B2 (ja) 2009-07-01
EP1550052A1 (en) 2005-07-06
KR20050057320A (ko) 2005-06-16
US20080125978A1 (en) 2008-05-29
CN1685335A (zh) 2005-10-19
EP1550052A4 (en) 2007-02-07

Similar Documents

Publication Publication Date Title
KR100872256B1 (ko) 데이터 세트 처리 방법, 시스템 및 기록 매체
US20040006433A1 (en) Genomic messaging system
Murphy et al. Architecture of the open-source clinical research chart from Informatics for Integrating Biology and the Bedside
Shah et al. Atlas–a data warehouse for integrative bioinformatics
EP2444914A2 (en) Genetic information management system and method
CN106663145B (zh) 用于个人健康记录系统的通用存取智能卡
US20070016452A1 (en) Method, software and device for managing patient medical records in a universal format using USB flash drive and radio telephone auto dialer and siren
US20120072237A1 (en) System And Method For Secured Health Record Account Registration
US20070050216A1 (en) Personal information system
JP4954718B2 (ja) ドキュメント変換/組み入れシステム
US20060117238A1 (en) Method and system for information workflows
WO2014178077A2 (en) A paperless healthcare ecosystem
EP3033705A1 (en) Medical data system and method
Wright et al. Returning genome sequences to research participants: Policy and practice
WO2005088503A1 (en) Methods for processing genomic information and uses thereof
US20050043827A1 (en) System and method for storing and accessing medical data
JP4822842B2 (ja) 匿名化識別情報生成システム、及び、プログラム。
US20090150438A1 (en) Export file format with manifest for enhanced data transfer
CN105474218A (zh) 用于报告多个医疗程序的系统和方法
US20040142326A1 (en) Method and apparatus for deriving a reference sequence for expressing a group genome
Shabo et al. The seventh layer of the clinical-genomics information infrastructure
Antoniotti et al. Genomics via optical mapping iv: Sequence validation via optical map matching
JPWO2004025948A1 (ja) 情報管理方法、情報管理システムおよびそのシステムに含まれる情報転送装置
TWI614635B (zh) 遠端去識別化編碼系統及方法
JP2004046696A (ja) 塩基配列関連情報を用いた情報処理システム

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
J201 Request for trial against refusal decision
E801 Decision on dismissal of amendment
B601 Maintenance of original decision after re-examination before a trial
J301 Trial decision

Free format text: TRIAL DECISION FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20070313

Effective date: 20080130

S901 Examination by remand of revocation
E902 Notification of reason for refusal
GRNO Decision to grant (after opposition)
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee