KR20180002280A - 암유발 유전자를 식별하기 위한 컴퓨팅 시스템 및 방법, 그 방법을 수행하기 위한 기록 매체 - Google Patents

암유발 유전자를 식별하기 위한 컴퓨팅 시스템 및 방법, 그 방법을 수행하기 위한 기록 매체 Download PDF

Info

Publication number
KR20180002280A
KR20180002280A KR1020160081567A KR20160081567A KR20180002280A KR 20180002280 A KR20180002280 A KR 20180002280A KR 1020160081567 A KR1020160081567 A KR 1020160081567A KR 20160081567 A KR20160081567 A KR 20160081567A KR 20180002280 A KR20180002280 A KR 20180002280A
Authority
KR
South Korea
Prior art keywords
genes
water
gene
membership function
rule set
Prior art date
Application number
KR1020160081567A
Other languages
English (en)
Other versions
KR101935094B1 (ko
Inventor
안병철
수바시 캐비타 무투
가네쉬쿠마르 푸칼레엔디
Original Assignee
경북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경북대학교 산학협력단 filed Critical 경북대학교 산학협력단
Priority to KR1020160081567A priority Critical patent/KR101935094B1/ko
Publication of KR20180002280A publication Critical patent/KR20180002280A/ko
Application granted granted Critical
Publication of KR101935094B1 publication Critical patent/KR101935094B1/ko

Links

Images

Classifications

    • G06F19/18
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G06F19/24
    • G06F19/28
    • G06F19/345
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Epidemiology (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

암유발 유전자를 식별하기 위한 컴퓨팅 방법은, 환자의 유전자의 전체 집합을 퍼지 러프 집합 방법론(fuzzy rough set based f-Information; FRFI)을 이용하여 잠재적 후보 유전자를 필터링하는 단계; 상기 검색된 잠재적 후보 유전자를 퍼지 규칙 기반 다중분류 시스템(Fuzzy Rule Based Multiclassification System; FRBMS)에 입력하여 소속 함수(MF) 및 규칙 세트(RS)의 초기점을 찾는 단계; 소속 함수(MF) 및 규칙 세트(RS)의 초기점을 워터 스월 알고리즘(Water Swirl Algorithm; WSA)에 입력하여 계산된 임의의 물 입자의 위치를 기초로, 유익한 유전자(informative genes)를 식별하는 단계; 및 상기 식별된 유익한 유전자를 분류하는 단계를 포함한다. 이에 따라, 암 위험을 예측할 수 있는 유익한 유전자를 정확하게 분석하는 자동 알고리즘을 제공한다.

Description

암유발 유전자를 식별하기 위한 컴퓨팅 시스템 및 방법, 그 방법을 수행하기 위한 기록 매체{COMPUTATIONAL SYSTEM AND METHOD TO IDENTIFY CANCER CAUSING GENES, RECORDING MEDIUM FOR PERFORMING THE METHOD}
본 발명은 암유발 유전자를 식별하기 위한 컴퓨팅 시스템 및 방법, 그 방법을 수행하기 위한 기록 매체에 관한 것으로서, 더욱 상세하게는 환자 개별 유전자의 발현 패턴을 사용하여 암 위험을 예측할 수 있는 자동 알고리즘에 관한 것이다.
과학 기술의 많은 발전과 함께 사람들은 안락한 영역에 있지만(in a comfort zone), 그들 개개인의 특성들을 기반으로 한 특정한 의학적 암 치료 전략을 갖고 있지 않다. 마이크로 어레이들과 차세대 시퀀싱은 유전자 발현, DNA 복제수(DNA copy number), 그리고 마이크로RNA 활성을 정량화하는 암 연구의 주요 도구(carter)들이다.
암은 유전 질환이기 때문에, 유전자 발현 데이터의 통합 검사를 개시하는 것이 발암의 메커니즘을 이해하고, 암 발생을 예측과 예방하고, 가능한 치료법들을 찾는 데에 가장 좋은 수단 중의 하나이다. 90년대 초반에는, 과학자들이 유전자 발현 데이터의 정보 처리, 데이터 분석, 지식 표현, 그리고 관리를 위해 인공 지능을 적용하는 것에 대해 연구하기 시작했다. 분류는 의사들이 유전자 발현 데이터로부터의 지식 추출을 통해 임상적 의사 결정을 하도록 하기 위해 암에 대한 더 나은 이해를 제공하는 것을 목적으로 하는 데이터 분석의 한 종류이다.
한편으로, 전문가들은 지식을 추적할 수 있지만 고차원 유전자 발현 데이터에 대해서는 이것이 어렵고 시간이 오래 걸린다. 다른 한편으로, 알고리즘들은 전문가 없이 지식을 추출하는데 이용 가능하지만, 좋은 시스템 성과를 위해서는 적합하지 않다. 규칙들은 지식을 표현하기에 좋은 방법이기 때문에 규칙 기반 접근은 암 진단에서 모멘텀을 가진다(gains momentum).
의사 결정 트리는 트레이닝 샘플 내의 작은 어긋남이 트리 구조 내 큰 차이로 이어질 만큼 민감함에도 불구하고, 생물학적으로 의미 있는 단어(term)들을 포함하는 규칙들을 생산하는 데에 널리 사용된다. 분류 트리의 앙상블도 의사 결정 트리만큼 민감하다. 데이터 기반 알고리즘들에 의해 생성된 규칙들은 더 심플하지만, 그 규칙들은 불확실한 상황들에서 유전자 발현들의 중복된 거동을 고려하는 데에 실패했다.
코모리(Komori) 등에 의해 제안된 규칙 기반 시스템이 유전자 발현 데이터로부터의 직관적 지식 생성을 통해 암을 예측하는 데에 적용될 수 있지만 이 접근법은 자체 학습에 매우 취약하다. 하이브리드 퍼지 방법은 멤버십(membership) 함수의 포인트들을 고정함으로써 유전자 개체군 내의 규칙 집합만을 표현하기 때문에 퍼지 시스템을 완벽하게 모델링하는 데에는 실패한다.
유전적 스왐 알고리즘(Swarm algorithm) 더 나은 분류 정확성을 갖지만, 이로부터 생산된 이프-덴(if-then) 규칙들은 더 많은 입력(input) 유전자들과 언어학적 변수들을 갖고 있어 의사가 이해하기 어렵다. 앤트 비(Ant Bee) 알고리즘는 더 가독성이 높은 규칙 집합을 생산함으로써 해석가능성-정확성 상반관계(tradeoff)를 다룰 수 있지만, 더 많은 조정 가능한 제어 파라미터들을 이용하는 더 많은 복합연산들의 사용이 이 접근법으로 하여금 많은 CPU 시간을 소모하게 만들었다.
퍼지 온톨로지는 지식을 빠르게 추출할 수 있지만 초고차원 유전자 발현 데이터에서 발견된 부족한 데이터 분배에 따라 열화된다. 퍼지 전문 시스템 구축 내의 프레임워크는 확률적인 전역 최적화 과정(global optimization procedure)을 이용하여 크리스프(crisp) 규칙들을 퍼지 규칙들로 변환하지만, 여러 가지 암들의 전문가들을 이용한 크리스프 규칙의 생성은 역시 어려운 것이다. 유전자 발현 데이터 분석에 대한 설득력 있는(convincing) 초점을 유지하기 위해서는, 다중 범주 진단을 처리하는 것이 낫다.
이런 점에서, 그 동안의 연구는 다수결이나 퍼지 집성을 이용하여 최종 의사결정이 도출되는 전류 분류기들을 결합하고자 하는 시도를 해왔다. 대부분의 앙상블 분류 방법들은 그 초점이 분류 성과에만 맞춰진 블랙 박스 접근법에 기반하고 의학의 근본적인 의문들의 이해에 관한 어떤 조치도 제공하지 않는다.
최근에는 퍼지 시스템에 의해 제공되는 해석가능성의 중대한 이점을 활용하기 위해, 결합 방법을 이용하는 퍼지 규칙 기반 다중분류 시스템(FRBMS)들이 제시되었다. 그러나, 상대적으로 적은 수의 환자들에 비해 다수의 게놈 변수들에 존재는 데이터를 이해하기 어렵게 만든다. 분류기의 퓨전과 선택을 함께 수행하도록 유전 알고리즘(genetic algorithm)을 FRBMS에 이용하기 위한 시도들이 있어왔지만 유전자 발현 데이터의 왜도(skewness)를 충족하지는 않았다.
게다가, 불충분한 실험으로 인해 최적화되지 않은 로버스트 시스템이 초래되는 다중 분류 시에는 과소 적합이 회피되어야 한다. 부정확하고 비선형적인 다중 범주 값들과 같은 다수의 인카운터(encounter)들을 프리텐싱(pretense)하는 효과적인(fruitful) 암 진단 시스템을 구축하기 위해서는, 정밀한(rigorous) 데이터 분석 원칙들을 이용하는 이상적이고 적합한 기법들에 대해 생각해보는 것이 필수이다.
KR 2011-0101124 A KR 2012-0079295 A
Trawinski, K., Cordon, O., Quirin, A. On Designing Fuzzy Rule Based Multiclassification Systems by combining FURIA with bagging and feature selection. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems. 2011; 19(4): 589-633. GaneshKumar, P., Rani, C., Mahibha, D., Aruldoss Albert Victoire, T. Fuzzy-rough-neural-based f-information for gene selection and sample classification. International Journal of Data Mining and Bioinformatics. 2015; 11(1):31-52.
이에, 본 발명의 기술적 과제는 이러한 점에서 착안된 것으로 본 발명의 목적은 유전자 발현 프로필로부터 환자의 유전 정보를 파악하기 위해 문제 지향적 계산형 지능 기법들을 이용하여 암유발 유전자를 식별하기 위한 컴퓨팅 방법을 제공하는 것이다.
본 발명의 다른 목적은 상기 암유발 유전자를 식별하기 위한 컴퓨팅 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 기록 매체를 제공하는 것이다.
본 발명의 또 다른 목적은 상기 암유발 유전자를 식별하기 위한 컴퓨팅 방법을 수행하기 위한 시스템을 제공하는 것이다.
상기한 본 발명의 목적을 실현하기 위한 일 실시예에 따른 암유발 유전자를 식별하기 위한 컴퓨팅 방법은, 환자의 유전자의 전체 집합을 퍼지 러프 집합 방법론(fuzzy rough set based f-Information; FRFI)을 이용하여 잠재적 후보 유전자를 필터링하는 단계; 상기 검색된 잠재적 후보 유전자를 퍼지 규칙 기반 다중분류 시스템(Fuzzy Rule Based Multiclassification System; FRBMS)에 입력하여 소속 함수(MF) 및 규칙 세트(RS)의 초기점을 찾는 단계; 소속 함수(MF) 및 규칙 세트(RS)의 초기점을 워터 스월 알고리즘(Water Swirl Algorithm; WSA)에 입력하여 계산된 임의의 물 입자의 위치를 기초로, 유익한 유전자(informative genes)를 식별하는 단계; 및 상기 식별된 유익한 유전자를 분류하는 단계를 포함한다.
본 발명의 실시예에서, 상기 소속 함수(MF) 및 규칙 세트(RS)의 초기점을 워터 스월 알고리즘(Water Swirl Algorithm; WSA)에 입력하여 계산된 임의의 물 입자의 위치를 기초로, 유익한 유전자(informative genes)를 식별하는 단계는, 물 입자의 수(N), 각 물 입자의 테두리(B) 및 최대 반복(I)을 초기화하는 단계; 상기 물 입자의 초기 위치, 기준 위치 및 강도를 각 물 입자의 실제 범위 내에서 임의적으로 생성하는 단계; 각 물 입자의 위치에 대한 적합성(fitness)을 평가하는 단계; 및 상기 적합성이 최대인 값을 최적의 해로 반환하는 단계를 포함할 수 있다.
본 발명의 실시예에서, 상기 소속 함수(MF) 및 규칙 세트(RS)의 초기점을 워터 스월 알고리즘(Water Swirl Algorithm; WSA)에 입력하여 계산된 임의의 물 입자의 위치를 기초로, 유익한 유전자(informative genes)를 식별하는 단계는, 모든 물 입자에 대하여 반복 수행할 수 있다.
본 발명의 실시예에서, 상기 암유발 유전자를 식별하기 위한 컴퓨팅 방법은, 소속 함수(MF) 및 규칙 세트(RS)의 데이터 베이스를 구축하는 단계를 더 포함할 수 있다.
본 발명의 실시예에서, 상기 소속 함수(MF) 및 규칙 세트(RS)의 초기점을 워터 스월 알고리즘(Water Swirl Algorithm; WSA)에 입력하여 계산된 임의의 물 입자의 위치를 기초로, 유익한 유전자(informative genes)를 식별하는 단계에서, 추출된 물 입자의 위치와 강도를 이용하여 상기 소속 함수(MF) 및 규칙 세트(RS)의 데이터 베이스를 업데이트하는 단계를 더 포함할 수 있다.
본 발명의 실시예에서, 상기 적합성이 최대인 값을 최적의 해로 반환하는 단계는, 적합성이 최대인 이전 베스트(prevBest)를 전역 베스트(gBest)로 설정하는 단계를 포함할 수 있다.
본 발명의 실시예에서, 상기 적합성이 최대인 값을 최적의 해로 반환하는 단계는, 상기 전역 베스트(gBest)로 물 입자의 강도와 위치를 업데이트하는 단계를 더 포함할 수 있다.
본 발명의 실시예에서, 환자의 유전자의 전체 집합을 퍼지 러프 집합 방법론(fuzzy rough set based f-Information; FRFI)을 이용하여 잠재적 후보 유전자를 필터링하는 단계는, 에프-정보(f-information; FI)를 퍼지 하한 근사할 수 있다.
본 발명의 실시예에서, 상기 검색된 잠재적 후보 유전자를 퍼지 규칙 기반 다중분류 시스템(Fuzzy Rule Based Multiclassification System; FRBMS)에 입력하여 소속 함수(MF) 및 규칙 세트(RS)의 초기점을 찾는 단계는, 각 유전자를 언어학적으로 분할하는 단계; 소속 함수(MF)를 지정하는 단계; 및 규칙 세트(RS)를 형성하는 단계를 포함할 수 있다.
본 발명의 실시예에서, 상기 식별된 유익한 유전자를 분류하는 단계는, 상기 식별된 유익한 유전자를 다중 계층으로 분류할 수 있다.
본 발명의 실시예에서, 상기 암유발 유전자를 식별하기 위한 컴퓨팅 방법은, 소속 함수(MF) 및 규칙 세트(RS)의 데이터 베이스를 구축하는 단계를 더 포함할 수 있다.
상기한 본 발명의 다른 목적을 실현하기 위한 일 실시예에 따른 컴퓨터로 판독 가능한 저장 매체에는, 암유발 유전자를 식별하기 위한 컴퓨팅 방법을 수행하기 위한 컴퓨터 프로그램이 기록되어 있다.
상기한 본 발명의 또 다른 목적을 실현하기 위한 일 실시예에 따른 암유발 유전자를 식별하기 위한 컴퓨팅 시스템은, 환자의 유전자의 전체 집합을 퍼지 러프 집합 방법론(fuzzy rough set based f-Information; FRFI)을 이용하여 잠재적 후보 유전자를 필터링하는 FRFI부; 상기 검색된 잠재적 후보 유전자를 퍼지 규칙 기반 다중분류 시스템(Fuzzy Rule Based Multiclassification System; FRBMS)에 입력하여 소속 함수(MF) 및 규칙 세트(RS)의 초기점을 찾는 FRBMS부; 소속 함수(MF) 및 규칙 세트(RS)의 초기점을 워터 스월 알고리즘(Water Swirl Algorithm; WSA)에 입력하여 계산된 임의의 물 입자의 위치를 기초로, 유익한 유전자(informative genes)를 식별하는 WSA부; 및 상기 식별된 유익한 유전자를 분류하는 분류부를 포함한다.
본 발명의 실시예에서, 상기 WSA부는, 물 입자의 수(N), 각 물 입자의 테두리(B) 및 최대 반복(I)을 초기화하는 초기화부; 상기 물 입자의 초기 위치, 기준 위치 및 강도를 각 물 입자의 실제 범위 내에서 임의적으로 생성하는 위치 및 강도 생성부; 각 물 입자의 위치에 대한 적합성(fitness)을 평가하는 최적화부; 및 상기 적합성이 최대인 값을 최적의 해로 반환하는 반환부를 포함할 수 있다.
본 발명의 실시예에서, 상기 WSA부는, 모든 물 입자에 대하여 위치 계산을 수행할 수 있다.
본 발명의 실시예에서, 상기 암유발 유전자를 식별하기 위한 컴퓨팅 시스템은, 소속 함수(MF) 및 규칙 세트(RS)의 데이터 베이스를 구축하는 데이터 베이스부를 더 포함할 수 있다.
본 발명의 실시예에서, 상기 WSA부에서 추출된 물 입자의 위치와 강도를 이용하여 상기 데이터 베이스부의 소속 함수(MF) 및 규칙 세트(RS)의 데이터 베이스를 업데이트할 수 있다.
본 발명의 실시예에서, 상기 반환부는, 적합성이 최대인 이전 베스트(prevBest)를 전역 베스트(gBest)로 설정하는 출력부를 포함할 수 있다.
본 발명의 실시예에서, 상기 반환부는, 상기 전역 베스트(gBest)로 물 입자의 강도와 위치를 업데이트하는 업데이트부를 더 포함할 수 있다.
본 발명의 실시예에서, 상기 FRFI부는, 에프-정보(f-information; FI)를 퍼지 하한 근사할 수 있다.
본 발명의 실시예에서, 상기 FRBMS부는, 각 유전자를 언어학적으로 분할하는 분할부; 소속 함수(MF)를 지정하는 MF부; 및 규칙 세트(RS)를 형성하는 RS부를 포함할 수 있다.
본 발명의 실시예에서, 상기 분류부는, 상기 식별된 유익한 유전자를 다중 계층으로 분류할 수 있다.
본 발명의 실시예에서, 상기 암유발 유전자를 식별하기 위한 컴퓨팅 시스템은, 소속 함수(MF) 및 규칙 세트(RS)의 데이터 베이스를 구축하는 데이터 베이스부를 더 포함할 수 있다.
이와 같은 암유발 유전자를 식별하기 위한 컴퓨팅 방법에 따르면, 환자의 개별 유전자의 발현 패턴을 분석하여 암 위험을 예측할 수 있는 유익한 유전자를 자동으로 분석할 수 있다. 이에 따라, 암 진단의 정확성을 높이고 예방 의학의 신뢰도를 높일 수 있다.
도 1은 본 발명의 일 실시예에 따른 암유발 유전자를 식별하기 위한 컴퓨팅 시스템 및 방법을 나타내는 도면이다.
도 2는 암 유전자 발현 데이터에 의해 제공된 계산형 장벽(computational barrier)들을 나타낸 도면이다.
도 3은 본 발명에 따라 제시된 계산형 지능형 기법들을 나타내는 도면이다.
도 4는 워터 스월 알고리즘(WSA)의 순서도이다.
도 5는 퍼지 규칙 기반 다중분류 시스템(FRBMS)에서 입력되는 유전자의 분할을 보여주는 도면이다.
도 6은 물 안에서 입자의 전형적인 위치를 보여주는 도면이다.
도 7은 본 발명에 따른 워터 스월 알고리즘(WSA) 접근법의 수렴과 다른 알고리즘의 수렴들을 비교한 그래프이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 암유발 유전자를 식별하기 위한 컴퓨팅 시스템 및 방법을 나타내는 도면이다.
본 발명에 따른 암유발 유전자를 식별하기 위한 컴퓨팅 시스템(1, 이하 시스템)은 유전자 발현 데이터를 이해하기 위해 바람직하게는 최적의 과다 적합도 아니고 과소 적합도 아닌 이프-덴(if-then) 규칙들을 생성하는 퍼지 규칙 기반 다중분류 시스템(Fuzzy Rule Based Multiclassification System; FRBMS)을 구축하기 위한 하이브리드 컴퓨팅 프레임워크를 제안한다.
본 발명에서는 다중 계층(클래스) 유전자 발현에서 암 덩어리(group of cancer)가 될 확률이 높은 소량의 샘플로 다량의 유전자를 다루기 위해서, 유전자 선택이 외적으로 그리고 내재적으로도 처리된다. 또한, 외적 유전자 선택을 위한 에프-정보(f-information; FI)를 계산하기 위해 퍼지 하한 근사(fuzzy lower approximation)를 이용하는 퍼지 러프 집합 방법론(fuzzy rough set methodology; IFR)의 개선된 버전이 제시된다.
또한, 본 발명은 FRBMS의 언어학적 선택을 통해 본질적으로 유전자들을 식별하는 이해 가능한 규칙들을 생산하기 위해 싱크(sink) 내 물의 움직임에서 영감을 받은 신규한 워터 스월 알고리즘(Water Swirl Algorithm; WSA)을 이용한다.
도 1을 참조하면, 본 발명에 따른 시스템(1)은, FRFI부(10), FRBMS부(30), WSA부(50) 및 분류부(70)를 포함한다.
본 발명의 상기 시스템(1)은 암유발 유전자를 식별하기 위한 컴퓨팅을 수행하기 위한 소프트웨어(애플리케이션)가 설치되어 실행될 수 있으며, 상기 FRFI부(10), 상기 FRBMS부(30), 상기 WSA부(50) 및 상기 분류부(70)의 구성은 상기 시스템(1)에서 실행되는 상기 암유발 유전자를 식별하기 위한 컴퓨팅을 수행하기 위한 소프트웨어에 의해 제어될 수 있다.
상기 시스템(1)은 별도의 단말이거나 또는 단말의 일부 모듈일 수 있다. 또한, 상기 FRFI부(10), 상기 FRBMS부(30), 상기 WSA부(50) 및 상기 분류부(70)의 구성은 통합 모듈로 형성되거나, 하나 이상의 모듈로 이루어 질 수 있다. 그러나, 이와 반대로 각 구성은 별도의 모듈로 이루어질 수도 있다.
상기 시스템(1)은 이동성을 갖거나 고정될 수 있다. 상기 시스템(1)은, 서버(server) 또는 엔진(engine) 형태일 수 있으며, 디바이스(device), 기구(apparatus), 단말(terminal), UE(user equipment), MS(mobile station), 무선기기(wireless device), 휴대기기(handheld device) 등 다른 용어로 불릴 수 있다.
상기 시스템(1)은 운영체제(Operation System; OS), 즉 시스템을 기반으로 다양한 소프트웨어를 실행하거나 제작할 수 있다. 상기 운영체제는 소프트웨어가 장치의 하드웨어를 사용할 수 있도록 하기 위한 시스템 프로그램으로서, 안드로이드 OS, iOS, 윈도우 모바일 OS, 바다 OS, 심비안 OS, 블랙베리 OS 등 모바일 컴퓨터 운영체제 및 윈도우 계열, 리눅스 계열, 유닉스 계열, MAC, AIX, HP-UX 등 컴퓨터 운영체제를 모두 포함할 수 있다.
최근, 의료계에서는 최상의 암 치료 결과를 가져오기 위해 환자의 게놈 프로필 기반의 분자 진단을 사용하지만, 여전히 제한된 지식을 갖고 있고 획득된 게놈 프로필을 분석하는 것에 어려움이 있다. 암 유전자 발현 데이터에 의해 제공된 계산형 장벽(computational barrier)들이 도 2에 나타나 있다.
도 2를 참조하면, 여러 암 범주들에 걸쳐(다중 범주) 하나의 암에 우호적으로 치우친(부등(disparity)) 엄청나게 많은 수의 유전자들을 갖는(차원성(dimensionality)) 제한된 수의 환자들(결핍(scarcity))이 유전자 발현 데이터를 둘러싼 주요 장애물이라는 것이 분명하다.
의사들이 암 진단 중에 시간이 한정적인 상황에서(time critical) 의사 결정을 내리기 위해서는 더 나은 해석가능 규칙들을 더 빠른 방식으로 생산하는 정확한 시스템 디자인이 필요하다. 이는 신규한 하이브리드 데이터 마이닝(mining) 알고리즘들과 처리 기법들을 개발해야 하는 새로운 난제들을 유발한다.
도 3은 유전자 발현 데이터의 다양한 난제들에 걸쳐 적합한 문제 지향적 결합들이라고 여겨지는 제시된 계산형 지능형 기법들을 나타낸다. 본 발명에서 제시된 방법론은 두 가지 레벨의 유전자 식별을 포함한다.
첫 번째 레벨은 에프-정보의 평가 함수(criterion function)가 유전자들을 필터링하기 위한 개선된 퍼지 러프 집합 이론에 의해 수정되는 필터 방법이다. 두 번째 레벨은 퍼지 규칙 기반 다중분류 시스템(FRBMS)를 위한 워터 스월 알고리즘을 사용하여 이프-덴 규칙들을 생성하는 동안의 언어학적 선택을 통해, 필터링된 집합에서 의미 있는 유전자들을 찾기 위해 상기 시스템(1)에 내장된 방법이다.
상기 FRFI부(10)는 환자의 유전자의 전체 집합을 퍼지 러프 집합 방법론(fuzzy rough set based f-Information; FRFI)을 이용하여 잠재적 후보 유전자를 필터링한다.
이하에서, 본 발명에서 제안하는 유전자 발현 데이터를 분석하기 위한 지능형 기법들의 세부 항목들을 설명한다.
개선된 퍼지 러프 집합 기반 에프-정보(Improved Fuzzy Rough set based F-Information ( IFRFI ))
상기 FRFI부(10)는 환자의 유전자의 전체 집합을 퍼지 러프 집합 방법론(fuzzy rough set based f-Information; FRFI)을 이용하여 잠재적 후보 유전자를 필터링한다.
'm'개의 유전자 벡터들을 갖는 n×m 유전자 발현 데이터 매트릭스가 주어졌을 때, 유전자 필터링의 목표는 f<m인 조건에서, 'f' 개의 유전자 벡터들을 갖는 n×f 유전자 발현 데이터 매트릭스를 생산하는 것이다. 차원성 이슈와 무관하게, 퍼지 러브 집합(FR)은 연속적인 유전자 발현 값들을 나누지 않고 관련성(유의성)뿐만 아니라 과잉(세브란스(severance))도 효과적으로 산출한다.
Figure pat00001
가 퍼지 근사 공간들 그리고 X가 U의 퍼지 부분 집합을 나타낸다고 가정한다. 그러면, 퍼지 P-하한과 P-상한 근사는 수학식 1과 수학식 2로 주어진다.
[수학식 1]
Figure pat00002
[수학식 2]
Figure pat00003
여기서, F i U/P에 속하는 퍼지 동등 클래스(equivalence class)(FEC)를 나타내고, μχ(χ)는 X에서 x의 멤버십을 나타낸다. 각 유전자를 위해 생성된 퍼지 동등 클래스(FEC)는 유전자 선택을 위한 에프-정보(FI)의 평가 함수를 다시 정의하기 위해 구성된 방식을 제공하는 퍼지 동등 분할 매트릭스(fuzzy equivalence partition matrix)(FEPM)를 구축한다.
하지만, 퍼지 러프 집합(FR)은 다중 범주 샘플들에서 미스라벨링(mislabeling)과 부족한 분배로 인해 노이즈 정도 이슈를 잘 다루지 못한다. 추가적으로, 퍼지 동등 클래스FEC)의 데카르트 생산물(Cartesian product)을 계산하는 것의 복잡함이 심해지고 계산적으로 비싸다.
본 발명에서, 저노이즈(noisy depressed) 데이터에도 어떠한 민감함 없이 더 작은 부분 집합 유전자들을 더 빠르게 선택하기 위해 퍼지 하한 근사에 기반한 개선된 방법이 제시된다. 수정된 퍼지 P-하한과 P-상한 근사는 아래의 수학식 3, 수학식 4 및 수학식 5에서 주어진다.
[수학식 3]
Figure pat00004
[수학식 4]
Figure pat00005
[수학식 5]
Figure pat00006
여기서, Si는 퍼지 유사성 관계이고,
Figure pat00007
는 i를 위한 x와 F 사이의 유사성 정도이다. 개선된 퍼지 러프 집합(IFR)을 이용하여 에프-정보(FI)를 계산하는 과정은 아래와 같다.
단계 1) i=1,2,...m, c ; m= 유전자들의 개수, c=클래스 라벨(class label), j=1,2,... n; n= 샘플들의 개수인 유전자 발현 데이터 세트
Figure pat00008
를 판독한다.
단계 2) 모든 샘플들과 클래스 라벨의 각 유전자의 평균 값
Figure pat00009
을 산출한다.
단계 3) H= {각각의 평균보다 더 큰 값을 갖는 유전자들} 그리고 L= {각각의 평균보다 더 낮은 값을 갖는 유전자들}이 되도록 각 유전자 값을 각각의 평균 값들과 비교함으로써 두 유전자 그룹들(High H, Low L)을 생성한다.
단계 4) 두 유전자 그룹들의 각 유전자의 평균 값
Figure pat00010
Figure pat00011
를 산출한다.
단계 5) 단계 3)에서 산출된 평균 값이 미디움(medium) 평균 값
Figure pat00012
으로 간주된다.
단계 6) 각각의 평균 값들
Figure pat00013
의 표준 편차를 산출한다;
Figure pat00014
, 및
Figure pat00015
,
Figure pat00016
.
단계 7) 각 유전자
Figure pat00017
의 하한 퍼지 근사 공간들에 대한 멤버십 값을 산출한다.
Figure pat00018
단계 8) 각 유전자의 위치값들
Figure pat00019
을 산출한다.
Figure pat00020
단계 9) 각 유전자의 퍼지 동등 분할 매트릭스 (FEPM), FPi =
Figure pat00021
를 형성한다.
단계 10)
Figure pat00022
가 유전자, 그리고
Figure pat00023
가 클래스 라벨을 나타낸다고 가정하면, 유전자-그룹 유의성 값이 다음과 같이 산출된다.
Figure pat00024
단계 11)
Figure pat00025
와 잔여 유전자들
Figure pat00026
사이에 유전자-유전자 세브란스가 다음과 같이 산출된다.
Figure pat00027
단계 12) 각 유전자
Figure pat00028
의 에프-정보(FI) 값
Figure pat00029
를 이용하여 산출하고 필터링을 위해 FI 값이 감소하는 순서대로 정리한다.
하한 근사를 이용하여 정의된 평가 함수는 노이즈 데이터(noisy data)의 기본적인 의미론(fundamental semantics)을 보존하는 데에 주요한 부분을 보여준다. 러프 집합 의존도(dependency degree)를 이용하여 특정 가격 함수(costing function)를 퍼지화(fuzzify)하는 것은 인간의 추리를 이상적으로 모방하는 언어학적 라벨들을 기반으로 그룹으로서 유전자들을 선택하는 것으로 이어질 수 있다고 예상된다.
상기 FRBMS부(30)는 상기 검색된 잠재적 후보 유전자를 퍼지 규칙 기반 다중분류 시스템(Fuzzy Rule Based Multiclassification System; FRBMS)에 입력하여 소속 함수(MF) 및 규칙 세트(RS)의 초기점을 찾는다.
상기 FRBMS부(30)는 각 유전자를 언어학적으로 분할하는 분할부, 소속 함수(MF)를 지정하는 MF부 및 규칙 세트(RS)를 형성하는 RS부를 포함한다.
상기 WSA부(50)는 상기 FRBMS부(30)로부터 추출된 소속 함수(MF) 및 규칙 세트(RS)의 초기점을 워터 스월 알고리즘(Water Swirl Algorithm; WSA)에 입력하여 계산된 임의의 물 입자의 위치를 기초로, 유익한 유전자(informative genes)를 식별한다.
워터 스월 알고리즘
워터 스월 알고리즘(WSA)은 물이 싱크 내에서 배수구를 찾아내는 방식을 모방한 스왐 기반 최적화 기법이다. 본 발명에서 제시된 알고리즘은 탐색 공간 내의 변수에 대한 가능한 해(solution)들의 수를 의미하는 특정 수의 물 입자들을 고려한다. 물 입자를 보유하는 싱크는 탐색 공간을 한정하는 테두리 조건들을 나타낸다.
스월링(swirling) 모션 중에, 소용돌이(vortex)는 가만히 있지 않고 오히려 탐색 공간 내에서 가장 높은 값을 향해 지속적으로 움직인다. 입자들이 소용돌이를 향해서 당겨지기 때문에, 탐색은 이전에 좋은 결과들을 가져왔던 영역들에 집중된다. 배수구는 이전 베스트 중의 베스트를 전역 베스트로서 의미한다.
물 입자들은 특정 시간 동안 존재하고 전반적인 베스트 해가 찾아질 때까지 이전과 전역 베스트 위치를 반복적으로 업데이트한다. 또한, 데이터 베이스부의 소속 함수(MF) 및 규칙 세트(RS)의 데이터를 업데이트한다.
이를 고려하여, 강도 업데이트와 위치 업데이트 방정식이 소용돌이 입자 이론을 기반으로 수학식 6 및 수학식 7과 같이 주어진다.
[수학식 6]
Figure pat00030
[수학식 7]
Figure pat00031
여기서,
Figure pat00032
, xp 그리고 xq,ref는 모두 해 변수를 위해 주어진 범위를 이용하여 임의적으로 생성된다.
Figure pat00033
q,ref는 0과 1 사이에서 생성되는 임의적 숫자이다.
Figure pat00034
Figure pat00035
는 ith 와 (i+1)th 반복에서의 물 입자들의 강도 벡터들이다. 유사하게,
Figure pat00036
Figure pat00037
는 ith 와 (i+1)th 반복에서의 물 입자들의 위치들이다.
Figure pat00038
,
Figure pat00039
그리고
Figure pat00040
는 각각 물 입자의 기준 위치, 이전 베스트 위치, 그리고 전역 베스트 위치를 나타낸다.
입자 강도를 업데이트하기 위한 해 탐색 수학식 6은 균형이 잡힌 탐사(exploration)와 개척(exploitation) 능력들을 갖고 있다. 두번째 항에서의 기준 위치 xq,ref의 사용은 탐사를 매우 잘 수행하고 실제 변수 범위 내에서 강도 벡터 '
Figure pat00041
'의 생성은 속도 클램핑(clamping) 문제를 회피한다.
업데이트 방정식들은 입자 스왐 최적화와 비슷하지만, 여기서는 웨이트 'w' 와 제약 인자들 'c1' 과 'c2' 가 없는 것을 볼 수 있듯이 파라미터가 전혀 없다(parameter free). 수학식 6을 이용하여 입자의 강도를 업데이트 하는 중에, 각 변수의 독립적인 업데이트로 인해 다른 변수들은 더 큰 탐색 공간을 제공하고, 워터 스월 알고리즘(WSA)로 하여금 언제나 더 나은 성과를 보이도록 하는 다른
Figure pat00042
q,ref값을 갖는다.
수학식 7에서 주어진 위치 업데이트 방정식은 소용돌이 고리 주위의 다음 인접 위치를 결정하기 위한 새로운 강도 벡터
Figure pat00043
와 기준 위치 xq,ref를 이용함으로써 로컬 선택 태스크(local selection task)를 수행한다. 수학식 6 및 수학식 7에 의해 생산된 어떠한 새로운 값이 미리 정의된 범위를 넘어서면, 그 값은 그 범위 내에서 임의적으로 허용 가능하게 생성되는 값을 할당 받을 수 있다.
위의 설명으로부터 세 개의 제어 파라미터들, 물 입자의 수 'N', 각 물 입자의 테두리 'B', 그리고 최대 반복들 'I', 만이 있다는 것을 알 수 있다. 워터 스월 알고리즘(WSA)의 순서도는 도 4에 도시된다.
워터 스월 알고리즘 (WSA)은 'N', 'B' 그리고 'I'와 같은 제어 파라미터들의 초기화로 시작한다(단계 S10). 그 후, 물 입자의 초기 위치, 기준 위치, 그리고 강도가 각 입자의 실제 범위 내에서 임의적으로 생성된다(단계 S20). 또한, 각 물 입자의 적합성(fitness)이 평가된다(단계 S30).
모든 물 입자가 배기될 때까지, 이전 베스트(prevBest)를 업데이트하고(단계 S40), prevBest 중의 베스트를 전역 베스트(gBest)로 설정한다(단계 S50). 그 후, 최대 반복이 도달될 때까지 수학식 6 및 수학식 7을 이용해서 물 입자의 강도와 위치를 계산하고 데이터 베이스를 업데이트한다(단계 S60 및 단계 S70). 마지막으로, 최종 gBest 값이 최적의 해로써 반환된다(단계 850).
워터 스월 알고리즘( WSA )을 이용한 퍼지 규칙 기반 다중분류 시스템( FRBMS ) 설계
규칙 집합 묘사, 멤버십 함수, 그리고 목적 함수의 구축이 퍼지 규칙 기반 다중분류 시스템(FRBMS)를 설계하기 위한 워터 스월 알고리즘(WSA) 구현의 주요 태스크들이다. 본 발명에서 제시된 퍼지 규칙 기반 다중분류 시스템(FRBMS)에서 일반적인 규칙의 형태는 다음과 같다.
Ri: 만약 G1이 [0/(L/M/H)G1], G2가 [0/(L/M/H)G2],... 그리고 Gf이 [0/(L/M/H)Gf]이면 클래스 Cl
전항 부분은 [0/(L/M/H)G1]로부터 어떠한 언어학도 가질 수 있는 유전자들 G1, G2, G3, ...Gf 을 포함한다. 값 '0'은 내재적 유전자 선택을 처리하는 한편 다른 값들은 퍼지 공간의 언어학 라벨에 대응한다. 후항 부분 'Cl'은 클래스 라벨이다. 보통 '0'은 정상(normal) 조직들을 나타내기 위해 사용된다. 규칙의 해 변수들을 인코딩하기 위해, 개별 유전자의 발현 값들의 범위가 언어학을 식별하기 위한 부분들로 나뉜다. 일반적으로, 세 개에서 일곱 개의 퍼지 분할(partition)들이 적합하다.
도 5에 나타나듯이, 본 발명에서는 로우 ('L'), 미디움 ('M') 그리고 하이 ('H')와 같은 세 개의 분할들이 사용되므로, 물 안에서 입자의 위치로 인코딩하기 위해서는 아홉개의 멤버십 포인트들(P1, P2, P3, P4, P5, P6, P7, P8, P9)가 필요하다.
P1 과 P9 유전자 발현 값의 극한들을 의미하기 위해 영구적이고 다른 포인트들 P2, P3, P4, P5, P6, P7 및 P8의 최적 값은 각각 극한들 [P1, P9], [P2, P9], [P2, P3], [P4, P9], [P5, P9], [P5, P6] 그리고 [P7, P9] 사이에서 찾아진다. 이 포인트들은 세 포인트들 P1, P2, P3 그리고 P7, P8, P9이 사다리꼴 멤버십 함수를 그리고 세 포인트들 P4, P5, P6이 삼각형 멤버십 함수를 사용하는 부동소수점(floating point number)을 갖는다.
따라서, 규칙은 세 섹션들 즉, 규칙 선택, 전항, 그리고 후항에서 정수들을 고른다. 'R'은 규칙을 선택하거나 선택해제하기 위해 0 아니면 1을 가질 수 있는 규칙 선택을 나타낸다. 전항 부분의 G1, G2, G3, ... Gf은 필터링된 유전자들로부터 선택된, 언어학뿐만 아니라 유전자 선택을 하기 위해 0, 1, 2와 3 중에 임의적 정수 값을 가질 수 있는 유전자들이다.
후항 'Cl'은 암 범주를 할당하기 위해 0, 1, 2,...,n 중에 어떤 값을 갖는다. 물 안에서 입자의 전형적인 위치는 도 6에서 주어진다. 이렇게 정수를 이용해서 규칙 집합을 표현하고 부동소수점들을 이용해서 멤버십 함수의 포인트들을 표현하는 것은 해밍절벽(Hamming Cliff) 문제를 회피하고 유전자들의 무정형 발현 값들에 더 적합하다. 실행(run) 동안, 각 입자의 위치가 아래에 주어진 목적 함수인 수학식 8을 이용해서 평가된다.
[수학식 8]
Figure pat00044
여기서, 'Ts'는 샘플들의 총 개수이고, 'Cs'는 올바르게 분류된 샘플의 개수이고, 'Rs'는 최대 규칙들 'Rm'에서 선택된 규칙들이고, 'Gs'는 필터링된 유전자들로부터 선택된 유전자들의 개수이고, 'k1'과 'k2'는 'Rs' 와 'Gs'를 증폭하기 위해 사용되는 상수들이다. 컴포넌트 (Ts - Cs)는 오차를 산출하고 워터 스월 알고리즘(WSA)는 시스템의 정확성을 개선하기 위해 오차를 최소화한다.
유사하게, 컴포넌트 (k1 x Rs)는 해석 가능성이 워터 스월 알고리즘(WSA)에 의해 적합하게 다뤄진 규칙 집합을 생산한다. 또한, 컴포넌트 (k2 x Gs)는 언어학적 선택을 통해 잠재 유전자들의 최소 개수를 알아내기 위해 시도한다.
상기 분류부(70)는 암 유전자 발현 데이터를 이해하기 위한 지식을 추출할 수 있는 식별된 유익한 유전자를 분류한다. 또한, 유전자 발현 기반 암 진단에서, 암을 유발하는 잠재 유전자들의 부분 집합을 찾는 것에 추가하여, 다중 암 계층(클래스들)에서 부분의 원인이 되는(causative their part) 유전자들의 생김새들(physiognomies)을 추적할 수 있다.
이하에서는, 본 발명에 따른 암유발 유전자를 식별하기 위한 컴퓨팅 방법의 성능을 검증하기 위한 시뮬레이션 결과를 보여준다.
본 발명에서 제시된 워터 스월 알고리즘(WSA) 접근법의 트레이닝 성과가 모든 데이터 세트들 별로 유전 알고리즘(GA), 입자 스왐 최적화(particle swarm optimization; PSO), 그리고 인공 비 콜로니 알고리즘(artificial bee colony algorithm; ABC)과 같이 종래 존재하는 접근법들과 비교된다. 본 발명에서 제시된 워터 스월 알고리즘(WSA)의 수렴(convergence)들과 다른 접근법들 사이의 비교가 도 7에 도시된다.
도 7을 참조하면, 본 발명에 따른 워터 스월 알고리즘(WSA) 접근법의 수렴은 다른 알고리즘의 수렴에 비해 우수하다는 것을 알 수 있다. 이는 다른 접근법의 규칙들에 의해 선정된 유전자들이 로컬 최저들로 인해 부족한 결과를 도출하는 동기가 될 수 있고, 입력이 동등 출력 클래스로 분류된다는 확신을 얻기 위한 지식 베이스를 찾는 데에 몇 개의 제너레이션(generation)들이 소요된다.
나아가, 본 발명에서 제시된 워터 스월 알고리즘(WSA) 접근법은 더 높은 분류 정확성과 더 적은 수의 규칙들을 갖고 학습 능력을 개선시키는 데에 비교적으로 우수하다. 또한, 본 발명에서 제시된 워터 스월 알고리즘(WSA)에 의한 멤버십 함수 포인트들의 값들이 다른 접근법들에 의한 것들보다 잘 조절되고 타당하다는 것을 확인할 있다.
이는 부분적 모드 연결과 10개의 제너레이션들 내의 반복적인 동적 범위들의 테두리 값들에 치우치지 않음으로 멤버십 함수를 생산하는 워터 스월 알고리즘(WSA)의 더 빠른 조정 능력을 보증할 수 있다.
유전 알고리즘(GA), 입자 스왐 최적화(PSO), 그리고 인공 비 콜로니 알고리즘(ABC)에 기반한 다른 접근법들은 멤버십 함수를 조정하는 것에는 비교적 괜찮지만 수렴하기 위해 제너레이션들을 더 소비한다.
도 7로부터 인공 비 콜로니 알고리즘(ABC)과 워터 스월 알고리즘(WSA)는 둘 다 적합성 값의 갑작스러운 증가를 보인 반면, 유전 알고리즘(GA)과 입자 스왐 최적화(PSO) 접근법들은 적합성 값의 꾸준한 증가만을 보인 것을 확실히 알 수 있는데 이는 더 많은 조정 가능한 파라미터들 때문일 수 있다.
나아가, 워터 스월 알고리즘(WSA) 내의 워터 스월 움직임에 기반한 신규한 업데이트 방정식들은 파라미터가 적거나 없어서 규칙 집합과 멤버십 함수를 데이터 세트로부터 빠르게 추출함으로 연산들을 더욱 단순화시킨다.
의미 있는 유전자들의 식별과 이해 가능한 분류기 모델의 생성은 임상적으로 효과가 있는 유전자 발현 기반 암 진단에 필수적인 요건이다. 본 발명에서는, 에프-정보의 평가 함수를 다시 정의하기 위해 퍼지 하한 근사 공간에 기반하여, 개선된 퍼지 러프 집합 방법론이 제시된다.
또한, 싱크 내 물 입자의 스월링(swirling) 움직임에서 영감을 받은 워터 스월 알고리즘(WSA)은 이프-덴 규칙들의 수집과 매우 비선형적인 다중 범주 암 유전자 발현 데이터로부터의 멤버십 함수에 대한 논쟁들을 통해 퍼지 규칙 기반 다중분류 시스템(FRBMS)을 구축한다.
28개의 암 유전자 발현 데이터 세트들을 이용하는 실험들로부터, 제시된 개선된 퍼지 러프 집합 기반 에프-정보(IFRFI)는 미묘한 것에서부터 노이즈가 있는(subtle to noisy) 쓸모 없는(miserable) 유전자 발현들이 전혀 없이 유전자 부분 집합을 걸러낸다. 본 발명에서 제시된 워터 스월 알고리즘(WSA)은 언어학적 선택 중에 내재적 유전자 분류(assortment)를 통해 샘플들을 분류(classify)하기 위해 타당하게(reasonably) 해석 가능한 규칙들을 갖는 퍼지 규칙 기반 다중분류 시스템(FRBMS)을 구축한다.
통계적 검증은 각 규칙 내의 유전자들이 명확하게(decidedly) 질환에 연결되어 세브란스가 작고 유의성이 높다는 것을 보여준다. 식별된 유전자들의 생물학적 의미들은 암에 얽힌 위험한 물질들을 이용하여 DNA 대사 과정과의 관련성을 구체화한다.
이와 같은, 암유발 유전자를 식별하기 위한 컴퓨팅 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.
상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.
프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
본 발명은 환자의 개별 유전자의 발현 패턴을 사용하여 암 위험을 예측할 수 있는 자동 알고리즘을 개발한다. 암 유전자를 이용하여 프로파일을 예측하고 예방 의학 종양학 등에 사용될 수 있으므로, 병원 및 건강 검진에서 유전자 프로파일 분석 프로그램으로 사용할 수 있다.
1: 암유발 유전자를 식별하기 위한 컴퓨팅 시스템
10: FRFI부
30: FRBMS부
50: WSA부
70: 분류부

Claims (23)

  1. 환자의 유전자의 전체 집합을 퍼지 러프 집합 방법론(fuzzy rough set based f-Information; FRFI)을 이용하여 잠재적 후보 유전자를 필터링하는 단계;
    상기 검색된 잠재적 후보 유전자를 퍼지 규칙 기반 다중분류 시스템(Fuzzy Rule Based Multiclassification System; FRBMS)에 입력하여 소속 함수(MF) 및 규칙 세트(RS)의 초기점을 찾는 단계;
    소속 함수(MF) 및 규칙 세트(RS)의 초기점을 워터 스월 알고리즘(Water Swirl Algorithm; WSA)에 입력하여 계산된 임의의 물 입자의 위치를 기초로, 유익한 유전자(informative genes)를 식별하는 단계; 및
    상기 식별된 유익한 유전자를 분류하는 단계를 포함하는, 암유발 유전자를 식별하기 위한 컴퓨팅 방법.
  2. 제2항에 있어서, 상기 소속 함수(MF) 및 규칙 세트(RS)의 초기점을 워터 스월 알고리즘(Water Swirl Algorithm; WSA)에 입력하여 계산된 임의의 물 입자의 위치를 기초로, 유익한 유전자(informative genes)를 식별하는 단계는,
    물 입자의 수(N), 각 물 입자의 테두리(B) 및 최대 반복(I)을 초기화하는 단계;
    상기 물 입자의 초기 위치, 기준 위치 및 강도를 각 물 입자의 실제 범위 내에서 임의적으로 생성하는 단계;
    각 물 입자의 위치에 대한 적합성(fitness)을 평가하는 단계; 및
    상기 적합성이 최대인 값을 최적의 해로 반환하는 단계를 포함하는, 암유발 유전자를 식별하기 위한 컴퓨팅 방법.
  3. 제2항에 있어서, 상기 소속 함수(MF) 및 규칙 세트(RS)의 초기점을 워터 스월 알고리즘(Water Swirl Algorithm; WSA)에 입력하여 계산된 임의의 물 입자의 위치를 기초로, 유익한 유전자(informative genes)를 식별하는 단계는,
    모든 물 입자에 대하여 반복 수행하는, 암유발 유전자를 식별하기 위한 컴퓨팅 방법.
  4. 제2항에 있어서,
    소속 함수(MF) 및 규칙 세트(RS)의 데이터 베이스를 구축하는 단계를 더 포함하는, 암유발 유전자를 식별하기 위한 컴퓨팅 방법.
  5. 제4항에 있어서,
    상기 소속 함수(MF) 및 규칙 세트(RS)의 초기점을 워터 스월 알고리즘(Water Swirl Algorithm; WSA)에 입력하여 계산된 임의의 물 입자의 위치를 기초로, 유익한 유전자(informative genes)를 식별하는 단계에서, 추출된 물 입자의 위치와 강도를 이용하여 상기 소속 함수(MF) 및 규칙 세트(RS)의 데이터 베이스를 업데이트하는 단계를 더 포함하는, 암유발 유전자를 식별하기 위한 컴퓨팅 방법.
  6. 제2항에 있어서, 상기 적합성이 최대인 값을 최적의 해로 반환하는 단계는,
    적합성이 최대인 이전 베스트(prevBest)를 전역 베스트(gBest)로 설정하는 단계를 포함하는, 암유발 유전자를 식별하기 위한 컴퓨팅 방법.
  7. 제6항에 있어서, 상기 적합성이 최대인 값을 최적의 해로 반환하는 단계는,
    상기 전역 베스트(gBest)로 물 입자의 강도와 위치를 업데이트하는 단계를 더 포함하는, 암유발 유전자를 식별하기 위한 컴퓨팅 방법.
  8. 제1항에 있어서, 환자의 유전자의 전체 집합을 퍼지 러프 집합 방법론(fuzzy rough set based f-Information; FRFI)을 이용하여 잠재적 후보 유전자를 필터링하는 단계는,
    에프-정보(f-information; FI)를 퍼지 하한 근사하는, 암유발 유전자를 식별하기 위한 컴퓨팅 방법.
  9. 제1항에 있어서, 상기 검색된 잠재적 후보 유전자를 퍼지 규칙 기반 다중분류 시스템(Fuzzy Rule Based Multiclassification System; FRBMS)에 입력하여 소속 함수(MF) 및 규칙 세트(RS)의 초기점을 찾는 단계는,
    각 유전자를 언어학적으로 분할하는 단계;
    소속 함수(MF)를 지정하는 단계; 및
    규칙 세트(RS)를 형성하는 단계를 포함하는, 암유발 유전자를 식별하기 위한 컴퓨팅 방법.
  10. 제1항에 있어서, 상기 식별된 유익한 유전자를 분류하는 단계는,
    상기 식별된 유익한 유전자를 다중 계층으로 분류하는, 암유발 유전자를 식별하기 위한 컴퓨팅 방법.
  11. 제1항에 있어서,
    소속 함수(MF) 및 규칙 세트(RS)의 데이터 베이스를 구축하는 단계를 더 포함하는, 암유발 유전자를 식별하기 위한 컴퓨팅 방법.
  12. 제1항 내지 제11항 중 어느 하나의 항에 따른 암유발 유전자를 식별하기 위한 컴퓨팅 방법을 수행하기 위한, 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
  13. 환자의 유전자의 전체 집합을 퍼지 러프 집합 방법론(fuzzy rough set based f-Information; FRFI)을 이용하여 잠재적 후보 유전자를 필터링하는 FRFI부;
    상기 검색된 잠재적 후보 유전자를 퍼지 규칙 기반 다중분류 시스템(Fuzzy Rule Based Multiclassification System; FRBMS)에 입력하여 소속 함수(MF) 및 규칙 세트(RS)의 초기점을 찾는 FRBMS부;
    소속 함수(MF) 및 규칙 세트(RS)의 초기점을 워터 스월 알고리즘(Water Swirl Algorithm; WSA)에 입력하여 계산된 임의의 물 입자의 위치를 기초로, 유익한 유전자(informative genes)를 식별하는 WSA부; 및
    상기 식별된 유익한 유전자를 분류하는 분류부를 포함하는, 암유발 유전자를 식별하기 위한 컴퓨팅 시스템.
  14. 제13항에 있어서, 상기 WSA부는,
    물 입자의 수(N), 각 물 입자의 테두리(B) 및 최대 반복(I)을 초기화하는 초기화부;
    상기 물 입자의 초기 위치, 기준 위치 및 강도를 각 물 입자의 실제 범위 내에서 임의적으로 생성하는 위치 및 강도 생성부;
    각 물 입자의 위치에 대한 적합성(fitness)을 평가하는 최적화부; 및
    상기 적합성이 최대인 값을 최적의 해로 반환하는 반환부를 포함하는, 암유발 유전자를 식별하기 위한 컴퓨팅 시스템.
  15. 제14항에 있어서, 상기 WSA부는,
    모든 물 입자에 대하여 위치 계산을 수행하는, 암유발 유전자를 식별하기 위한 컴퓨팅 시스템.
  16. 제14항에 있어서,
    소속 함수(MF) 및 규칙 세트(RS)의 데이터 베이스를 구축하는 데이터 베이스부를 더 포함하는, 암유발 유전자를 식별하기 위한 컴퓨팅 시스템.
  17. 제16항에 있어서,
    상기 WSA부에서 추출된 물 입자의 위치와 강도를 이용하여 상기 데이터 베이스부의 소속 함수(MF) 및 규칙 세트(RS)의 데이터 베이스를 업데이트하는, 암유발 유전자를 식별하기 위한 컴퓨팅 시스템.
  18. 제14항에 있어서, 상기 반환부는,
    적합성이 최대인 이전 베스트(prevBest)를 전역 베스트(gBest)로 설정하는 출력부를 포함하는, 암유발 유전자를 식별하기 위한 컴퓨팅 시스템.
  19. 제18항에 있어서, 상기 반환부는,
    상기 전역 베스트(gBest)로 물 입자의 강도와 위치를 업데이트하는 업데이트부를 더 포함하는, 암유발 유전자를 식별하기 위한 컴퓨팅 시스템.
  20. 제13항에 있어서, 상기 FRFI부는,
    에프-정보(f-information; FI)를 퍼지 하한 근사하는, 암유발 유전자를 식별하기 위한 컴퓨팅 시스템.
  21. 제13항에 있어서, 상기 FRBMS부는,
    각 유전자를 언어학적으로 분할하는 분할부;
    소속 함수(MF)를 지정하는 MF부; 및
    규칙 세트(RS)를 형성하는 RS부를 포함하는, 암유발 유전자를 식별하기 위한 컴퓨팅 시스템.
  22. 제13항에 있어서, 상기 분류부는,
    상기 식별된 유익한 유전자를 다중 계층으로 분류하는, 암유발 유전자를 식별하기 위한 컴퓨팅 시스템.
  23. 제13항에 있어서,
    소속 함수(MF) 및 규칙 세트(RS)의 데이터 베이스를 구축하는 데이터 베이스부를 더 포함하는, 암유발 유전자를 식별하기 위한 컴퓨팅 시스템.
KR1020160081567A 2016-06-29 2016-06-29 암유발 유전자를 식별하기 위한 컴퓨팅 시스템 및 방법, 그 방법을 수행하기 위한 기록 매체 KR101935094B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160081567A KR101935094B1 (ko) 2016-06-29 2016-06-29 암유발 유전자를 식별하기 위한 컴퓨팅 시스템 및 방법, 그 방법을 수행하기 위한 기록 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160081567A KR101935094B1 (ko) 2016-06-29 2016-06-29 암유발 유전자를 식별하기 위한 컴퓨팅 시스템 및 방법, 그 방법을 수행하기 위한 기록 매체

Publications (2)

Publication Number Publication Date
KR20180002280A true KR20180002280A (ko) 2018-01-08
KR101935094B1 KR101935094B1 (ko) 2019-01-03

Family

ID=61003873

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160081567A KR101935094B1 (ko) 2016-06-29 2016-06-29 암유발 유전자를 식별하기 위한 컴퓨팅 시스템 및 방법, 그 방법을 수행하기 위한 기록 매체

Country Status (1)

Country Link
KR (1) KR101935094B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109273058A (zh) * 2018-09-20 2019-01-25 中轻国环(北京)环保科技有限公司 一种用于厌氧过程挥发性脂肪酸超标预警的复合算法
WO2020184782A1 (ko) * 2019-03-13 2020-09-17 울산대학교 산학협력단 공통 유전자 추출에 의한 다중 암 분류 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240107535A (ko) 2022-12-30 2024-07-09 인천대학교 산학협력단 인공지능 기반 의료 진단 및 분류 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109273058A (zh) * 2018-09-20 2019-01-25 中轻国环(北京)环保科技有限公司 一种用于厌氧过程挥发性脂肪酸超标预警的复合算法
WO2020184782A1 (ko) * 2019-03-13 2020-09-17 울산대학교 산학협력단 공통 유전자 추출에 의한 다중 암 분류 방법

Also Published As

Publication number Publication date
KR101935094B1 (ko) 2019-01-03

Similar Documents

Publication Publication Date Title
Sevakula et al. Transfer learning for molecular cancer classification using deep neural networks
Reddy et al. An efficient system for heart disease prediction using hybrid OFBAT with rule-based fuzzy logic model
Khafaga et al. Novel Optimized Feature Selection Using Metaheuristics Applied to Physical Benchmark Datasets
Gadekallu et al. Cuckoo search optimized reduction and fuzzy logic classifier for heart disease and diabetes prediction
Su et al. Learning sparse two-level boolean rules
US11720751B2 (en) Global, model-agnostic machine learning explanation technique for textual data
El-Sappagh et al. Clinical decision support system for liver fibrosis prediction in hepatitis patients: A case comparison of two soft computing techniques
Visweswaran et al. Learning Instance-Specific Predictive Models.
KR101935094B1 (ko) 암유발 유전자를 식별하기 위한 컴퓨팅 시스템 및 방법, 그 방법을 수행하기 위한 기록 매체
Sekaran et al. Predicting autism spectrum disorder from associative genetic markers of phenotypic groups using machine learning
Nouri-Moghaddam et al. A novel bio-inspired hybrid multi-filter wrapper gene selection method with ensemble classifier for microarray data
Rajadevi et al. Feature selection for predicting heart disease using black hole optimization algorithm and XGBoost classifier
Nimitha et al. An improved deep convolutional neural network architecture for chromosome abnormality detection using hybrid optimization model
Rao et al. Medical Big Data Analysis using LSTM based Co-Learning Model with Whale Optimization Approach.
Tanveer et al. Fuzzy Deep Learning for the Diagnosis of Alzheimer's Disease: Approaches and Challenges
Yavuz et al. Prediction of breast cancer using machine learning algorithms on different datasets
Martínez-Ballesteros et al. Inferring gene-gene associations from quantitative association rules
Lavanya et al. AMCGWO: An enhanced feature selection based on swarm optimization for effective disease prediction
Syahidin et al. Feature selection method based on genetic algorithm with wrapper-embedded technique for medical record classification
Karthikeyan et al. Multimodal Feature Fusion Using Optimal Transfer Learning Approach for Lung Cancer Detection and Classification on CT Images
CN116563646B (zh) 一种基于离散化数据的大脑影像分类方法
Escorcia-Gutierrez et al. Optimal synergic deep learning for COVID-19 classification using chest x-ray images
Takeuchi et al. Exploring model architectures and view-specific models for chest radiograph diagnoses
Sureka et al. Using genetic algorithms for parameter optimization in building predictive data mining models
US20240355469A1 (en) System and method for processing unstructured dataset corresponding to a lung cancer technical field

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant