KR20150050041A - 퍼지 신경망을 이용한 유전자 선택 방법 및 시스템 - Google Patents

퍼지 신경망을 이용한 유전자 선택 방법 및 시스템 Download PDF

Info

Publication number
KR20150050041A
KR20150050041A KR1020130131370A KR20130131370A KR20150050041A KR 20150050041 A KR20150050041 A KR 20150050041A KR 1020130131370 A KR1020130131370 A KR 1020130131370A KR 20130131370 A KR20130131370 A KR 20130131370A KR 20150050041 A KR20150050041 A KR 20150050041A
Authority
KR
South Korea
Prior art keywords
genes
preliminary
group
class
neural network
Prior art date
Application number
KR1020130131370A
Other languages
English (en)
Other versions
KR101624014B1 (ko
Inventor
임준식
Original Assignee
가천대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가천대학교 산학협력단 filed Critical 가천대학교 산학협력단
Priority to KR1020130131370A priority Critical patent/KR101624014B1/ko
Publication of KR20150050041A publication Critical patent/KR20150050041A/ko
Application granted granted Critical
Publication of KR101624014B1 publication Critical patent/KR101624014B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Zoology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 그룹별로 예비 유전자들을 판별하고 그룹별로 예비 유전자들의 유사도 순위를 합산하며, 합산된 유사도 순위가 가장 낮은 그룹을 선정하고 선정된 그룹의 제1 클래스 및 아류형 개체 수를 고려하여 아류형 개체 수만큼 수준별로 분류하며, 퍼지 신경망(FNN: Fussy Neural Network)를 이용하여 수준별로 예비 유전자들에 대한 사례 수를 판별하고, 수준별에 있는 예비 유전자들의 사례 수를 모두 합산하며, 미리 선정된 기준 이상의 사례 수를 갖는 예비 유전자들을 대상으로 유전자를 선택하는 퍼지 신경망을 이용한 유전자 선택 방법 및 시스템을 개시한다.

Description

퍼지 신경망을 이용한 유전자 선택 방법 및 시스템{GENES SELECTION METHOD AND SYSTEM USING FUSSY NEURAL NETWORK}
본 발명은 퍼지 신경망(FNN: Fussy Neural Network)을 이용한 유전자 선택 방법 및 시스템에 관한 것으로, 더욱 상세하게는 퍼지 신경망과 바타차랴 거리(bhattacharyya distance)를 이용한 유전자 선택 방법 및 시스템에 관한 것이다.
최근에 인간 유전체 전장을 해독하는 인간 게놈 프로젝트(HGP: Human Genome Project)가 성공적으로 완수되면서, 약 3만 개의 다양한 유전자의 기능을 규명하고 유전자의 정보를 통해 실제 질병의 치료와 예방에 응용하는 포스트 게놈 프로젝트(PGP: Post Genome Project)에 대한 연구가 활성화되고 있는 추세이다.
유전자의 기능을 규명하고 유전자의 정보를 분석하기 위해 사용하는 기법으로는 대표적으로 마이크로어레이 기법이라 할 수 있다. 마이크로어레이 기법은 1989년 미국의 과학자 스티븐 포더에 의해 개발되었고, 생물 시스템의 메커니즘에 대한 새로운 사실들을 발견하는데 사용하며, 유전자에 관련된 의학 산업 부문에 핵심이 되고 있다.
또한, 마이크로어레이 기법은 유전자에 대한 전형적인 문제들을 파악하기 위해 2가지 측면들을 고려하여 사용되는데, 한 측면은 각기 다른 유전자의 세포 유형과 유전자 발현 단계의 특이성 또는 질병에 관련된 치료 패턴들을 기초하여 공조절 유전자들(co-regulated genes)을 분류하기 위해 사용되고, 다른 한 측면은 유전자의 세포 과정들에서 유전자들의 기능적 역할들을 분석하여 유전자 조절 네트워크들을 이해하는데 시용되고 있다.
그러나, 상기 전술된 전자의 한 측면을 고려하여 마이크로어레이 기법을 이용한 실험들은 대체로 수천 개 또는 수만 개의 유전자들의 발현 데이터들과 함께 큰 데이터 세트를 내놓지만, 표본은 수십 개 이상 사용하지 않는다.
따라서, 기존의 마이크로어레이 기법은 차별적으로 발현된 유전자 수를 현저하게 줄이고, 유전자의 세포 조직 표본들을 정확하게 선택하고 분류하는데 어려움이 있다.
본 발명의 일실시예는 퍼지 신경망과 바타차랴 거리를 이용하여 차별된 예비 유전자들을 판별하는 퍼지 신경망을 이용한 유전자 선택 방법 및 시스템을 제공한다.
본 발명의 일실시예는 예비 유전자들의 아류형 개체 수만큼 수준별로 분류하고, 퍼지 신경망을 이용하여 예비 유전자들에 대한 사례 수를 판별하며, 미리 선정된 기준 이상의 사례 수를 갖는 예비 유전자들을 대상으로 유전자를 선택하는 퍼지 신경망을 이용한 유전자 선택 방법 및 시스템을 제공한다.
본 발명의 일실시예에 따른 퍼지 신경망을 이용한 유전자 선택 방법은 그룹별로 예비 유전자들을 판별하는 단계, 상기 그룹별로 예비 유전자들의 유사도 순위를 합산하고, 상기 합산된 유사도 순위가 가장 낮은 그룹을 선정하는 단계, 상기 선정된 그룹의 제1 클래스 및 아류형 개체 수를 고려하여 아류형 개체 수만큼 수준별로 분류하는 단계, 퍼지 신경망(FNN: Fussy Neural Network)를 이용하여 상기 수준별로 예비 유전자들에 대한 사례 수를 판별하는 단계 및 상기 수준별에 있는 상기 예비 유전자들의 사례 수를 모두 합산하고, 미리 선정된 기준 이상의 사례 수를 갖는 예비 유전자들을 대상으로 유전자를 선택하는 단계를 포함한다.
상기 그룹별로 예비 유전자들을 판별하는 단계는 유전자 발현 데이터를 기초로 아류형 개체들로 분류하고, 이웃하는 상기 아류형 개체들을 고려하여 상기 그룹별로 제1 클래스 및 제2 클래스로 분류하는 단계, 상기 각 그룹에 속한 제1 클래스 및 제2 클래스 간의 유사도 순위를 측정하는 단계, 미리 선정된 기준 이하의 유사도 순위를 가지는 유전자 발현 데이터를 제거하는 단계, 상기 퍼지 신경망을 이용하여 상기 그룹별로 남아있는 유전자 발현 데이터에 대한 예비 유전자들을 판별하는 단계 및 상기 각 그룹마다 중복된 예비 유전자들을 판별하는 단계를 포함할 수 있다.
상기 유사도 순위를 측정하는 단계는 바타차랴 거리(bhattacharyya distance)를 이용하여 상기 각 그룹에 속한 제1 클래스 및 제2 클래스 간의 유사도 순위를 측정하는 단계를 포함할 수 있다.
또한, 퍼지 신경망을 이용하여 상기 수준별로 예비 유전자들에 대한 사례 수를 판별하는 단계는 상기 퍼지 신경망의 반복 과정을 수행하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 퍼지 신경망을 이용한 유전자 선택 시스템은 그룹별로 예비 유전자들을 판별하는 예비 유전자 판별부, 상기 그룹별로 예비 유전자들의 유사도 순위를 합산하고, 상기 합산된 유사도 순위가 가장 낮은 그룹을 선정하는 그룹 선정부, 상기 선정된 그룹의 제1 클래스 및 아류형 개체 수를 고려하여 아류형 개체 수만큼 수준별로 분류하는 수준별 분류부, 퍼지 신경망(FNN: Fussy Neural Network)를 이용하여 상기 수준별로 예비 유전자들에 대한 사례 수를 판별하는 사례 수 판별부 및 상기 수준별에 있는 상기 예비 유전자들의 사례 수를 모두 합산하고, 미리 선정된 기준 이상의 사례 수를 갖는 예비 유전자들을 대상으로 유전자를 선택하는 유전자 선택부를 포함한다.
상기 예비 유전자 판별부는 유전자 발현 데이터를 기초로 아류형 개체들로 분류하고, 이웃하는 상기 아류형 개체들을 고려하여 상기 그룹별로 제1 클래스 및 제2 클래스로 분류하는 클래스 분류부, 상기 각 그룹에 속한 제1 클래스 및 제2 클래스 간의 유사도 순위를 측정하는 유사도 측정부, 미리 선정된 기준 이하의 유사도 순위를 가지는 유전자 발현 데이터를 제거하는 제거부, 상기 퍼지 신경망을 이용하여 상기 그룹별로 남아있는 유전자 발현 데이터에 대한 예비 유전자들을 판별하는 제1 예비 유전자 판별부 및 상기 각 그룹마다 중복된 예비 유전자들을 판별하는 제2 유전자 판별부를 포함할 수 있다.
본 발명의 실시예에 따르면 퍼지 신경망과 바타차랴 거리를 이용하여 차별된 예비 유전자들을 판별할 수 있다.
본 발명의 실시예에 따르면 예비 유전자들의 아류형 개체 수만큼 수준별로 분류하고, 퍼지 신경망을 이용하여 예비 유전자들에 대한 사례 수를 판별하며, 미리 선정된 기준 이상의 사례 수를 갖는 예비 유전자들을 대상으로 유전자를 선택할 수 있다.
도 1은 본 발명에 따른 퍼지 신경망을 이용한 유전자 선택 방법을 도시한 흐름도이다.
도 2는 그룹별로 예비 유전자들을 판별하는 방법을 도시한 흐름도이다.
도 3은 본 발명에 따른 퍼지 신경망을 이용한 유전자 선택 시스템을 도시한 도면이다.
도 4는 가중 퍼지 소속함수 신경망의 구조도이다.
도 5는 가중 퍼지 소속함수 신경망에 의해 학습되는 가중 퍼지 소속 함수의 경계합(BSWFM)을 도시한 도면이다.
도 6은 실시예에 따른 그룹별로 예비 유전자들을 판별하는 흐름도이다.
도 7은 실시예에 따른 수준별 분류를 도시한 블록도이다.
이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 실시예를 상세하게 설명하지만, 본 발명이 실시예에 의해 제한되거나 한정되는 것은 아니다.
한편, 본 발명을 설명함에 있어서, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는, 그 상세한 설명을 생략할 것이다. 그리고, 본 명세서에서 사용되는 용어(terminology)들은 본 발명의 실시예를 적절히 표현하기 위해 사용된 용어들로서, 이는 사용자, 운용자의 의도 또는 본 발명이 속하는 분야의 관례 등에 따라 달라질 수 있다. 따라서, 본 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 본 발명에 따른 퍼지 신경망을 이용한 유전자 선택 방법을 도시한 흐름도이다.
도 1을 참조하면, 단계 110에서 그룹별로 예비 유전자들을 판별한다. 일실시예에 따르면, 도 1의 각 단계는 유전자 선택 시스템에 의해서 수행될 수 있다.
예비 유전자들은 각기 다른 유전자의 세포 유형과 유전자 발현 단계의 특이성 또는 질병에 관련된 치료 패턴들을 기초하여 공조절 유전자(co-regulated genes)들을 분류하기 위한 예비 단계라 할 수 있다.
이하에서는 도 2를 참조하여 본 발명에 따른 퍼지 신경망을 이용 유전자 선택 방법의 그룹별로 예비 유전자들을 판별하는 방법을 상세히 설명하기로 한다.
도 2는 그룹별로 예비 유전자들을 판별하는 방법을 도시한 흐름도이다.
도 2를 참조하면, 단계 210에서 유전자 발현 데이터를 기초로 아류형 개체들로 분류하고, 이웃하는 아류형 개체들을 고려하여 그룹별로 제1 클래스 및 제2 클래스로 분류할 수 있다. 일실시예에 따르면, 도 2의 각 단계는 유전자 선택 시스템에 의해서 수행될 수 있다.
본 발명의 실시예에 따르면, 아류형 개체들은 유전자 발현 데이터를 기초한 암 분자 분류법(cancer molecular classification) 중에서 소원형 청색세포 종양(SRBCT: Small Round Blue Cell Tumour)들의 4가지 아류형(subtype)일 수 있고, 4가지 아류형 개체는 EWS(Ewing's family of tumors), BL(Burkitt'slymphoma), NB(neuroblasoma), RMS(rhabdomyosarcoma)일 수 있다.
또한, 그룹별로 제1 클래스 및 제2 클래스에 대한 분류 기준은 이웃하는 아류형 개체들을 고려할 수 있다.
예를 들어, 1번 그룹에 있는 제1 클래스는 EWS 개체, 1번 그룹에 있는 제2 클래스는 RMS 개체, BL 개체 및 NB 개체를 포함할 수 있고, 2번 그룹에 있는 제1 클래스는 RMS 개체, 2번 그룹에 있는 제2 클래스는 EWS 개체, BL 개체 및 NB 개체를 포함할 수 있으며, 3번 그룹 및 4번 그룹도 상기 전술된 방식으로 분류될 수 있다.
본 발명의 실시예에서는 4가지 아류형 개체들을 분류하는 방법 외에도 4가지 이하 또는 4가지 이상의 아류형 개체들을 분류하는 방법을 포함시킬 수 있다.
단계 220에서 각 그룹에 속한 제1 클래스 및 제2 클래스 간의 유사도 순위를 측정할 수 있다. 유사도 순위를 측정은 바타차랴 거리(bhattacharyya distance)를 이용하여 상기 각 그룹에 속한 제1 클래스 및 제2 클래스 간의 유사도 순위를 측정할 수 있다.
바타차랴 거리에 대한 수식은 수학식 1과 같이 표현될 수 있다.
수학식 1
Figure pat00001
여기서, S(b,f)는 유사도를 나타내고, 는 정규화된 제1 클래스의 i번째 인덱스(index)의 값이며, 는 정규화된 제2 클래스의 i번째 인덱스의 값을 나타낸다.
단계 230에서 미리 선정된 기준 이하의 유사도 순위를 가지는 유전자 발현 데이터를 제거할 수 있다.
본 발명의 일측에 따르면, 바타차랴 거리가 더 큰 유전자 발현 데이터는 더 차별적으로 발현된 유전자이므로, 단계 230에서 바타차랴 거리가 가장 큰 유전자 발현 데이터를 기준으로 문턱 값을 선정하여 기준 이하의 유사도 순위를 가지는 유전자 발현 데이터를 제거할 수 있다. 예를 들어, 문턱 값을 10으로 선정한 경우, 단계 230에서 바타차랴 거리가 가장 큰 유전자 발현 데이터를 기준으로 1위부터 10위까지의 유사도 순위를 가질 수 있다.
단계 240에서 퍼지 신경망을 이용하여 상기 그룹별로 남아있는 유전자 발현 데이터에 대한 예비 유전자들을 판별할 수 있다.
퍼지 신경망은 가중 퍼지 소속함수 신경망(NEWFM: Neural Network with Weighted Fuzzy Membership Functions)일 수 있고, 가중 퍼지 소속함수 신경망은 인간의 경험으로부터 학습해 가는 두뇌의 신경망 활동을 흉내 내어 특정 데이터로부터 반복적인 학습 과정을 통하여 특정 데이터에 대한 패턴을 찾아내고 일반화하는 분류 기능을 가질 수 있다.
상세히 설명하면, 가중 퍼지 소속함수 신경망은 비중복면적 분산 측정법을 이용하여 많은 양의 데이터로부터 서로 간의 관련성이 적은 데이터를 판별 및 제거할 수 있다.
단계 250에서 각 그룹마다 중복된 예비 유전자들을 판별할 수 있다. 각 그룹에는 중복된 예비 유전자들이 여럿 있기 때문에 SRBCT의 4가지 아류형들을 분류하기 위한 중복된 예비 유전자들을 판별하는 과정이 필요할 수도 있다.
다시 도 1을 참조하면, 단계 120에서 그룹별로 예비 유전자들의 유사도 순위를 합산하고, 상기 합산된 유사도 순위가 가장 낮은 그룹을 선정한다.
합산된 유사도 순위가 가장 낮은 그룹은 다른 타 그룹에 비해 4가지 아류형들을 분류하는데 유리하다는 것을 의미할 수 있다.
단계 130에서 선정된 그룹의 제1 클래스 및 아류형 개체 수를 고려하여 아류형 개체 수만큼 수준별로 분류한다.
바타차랴 거리는 단지 2개의 유전자 또는 2개의 클래스 간의 거리만 계산할 수 있기 때문에 4가지 아류형들에 대한 유사도가 낮은 유전자 또는 4가지 아류형들에 속하지 않는 유전자를 판별하는 과정이 필요할 수 있다.
단계 140에서 퍼지 신경망를 이용하여 상기 수준별로 예비 유전자들에 대한 사례 수를 판별한다.
본 발명의 일측에 따르면, 퍼지 신경망를 이용하여 상기 수준별로 예비 유전자들에 대한 사례 수를 판별은 퍼지 신경망의 반복 과정을 수행하여 서로 간의 관련성이 적은 예비 유전자들에 대한 사례 수를 증가시키고, 더욱 정확하게 서로 간의 관련성이 적을 예비 유전자들을 판별할 수 있다.
단계 150에서 수준별에 있는 상기 예비 유전자들의 사례 수를 모두 합산하고, 미리 선정된 기준 이상의 사례 수를 갖는 예비 유전자들을 대상으로 유전자를 선택한다.
합산된 예비 유전자들의 사례 수에서 가장 점수가 높은 예비 유전자는 덜 차별적으로 발현된 유전자이므로, 유전자 선택은 합산 점수가 가장 낮은 예비 유전자부터 높은 예비 유전자 순으로 관련성이 적은 유전자를 판별하고, 최종으로 관련성이 높은 유전자를 선택할 수 있다.
도 3은 본 발명에 따른 퍼지 신경망을 이용한 유전자 선택 시스템을 도시한 도면이다.
도 3을 참조하면, 본 발명의 퍼지 신경망을 이용한 유전자 선택 시스템은 예비 유전자 판별부(310), 그룹 선정부(320), 수준별 분류부(330), 사례 수 판별부(340) 및 유전자 선택부(350)를 포함한다.
유전자 판별부(310)는 그룹별로 예비 유전자들을 판별한다.
예비 유전자들은 각기 다른 유전자의 세포 유형과 유전자 발현 단계의 특이성 또는 질병에 관련된 치료 패턴들을 기초하여 공조절 유전자(co-regulated genes)들을 분류하기 위한 예비 단계라 할 수 있다.
유전자 판별부(310)는 클래스 분류부(311), 유사도 측정부(312), 제거부(313), 제1 예비 유전자 판별부(314) 및 제2 예비 유전자 판별부(315)를 포함할 수 있다.
클래스 분류부는(311) 유전자 발현 데이터를 기초로 아류형 개체들로 분류하고, 이웃하는 아류형 개체들을 고려하여 그룹별로 제1 클래스 및 제2 클래스로 분류할 수 있다.
본 발명의 일측에 따르면, 아류형 개체들은 유전자 발현 데이터를 기초한 암 분자 분류법(cancer molecular classification) 중에서 소원형 청색세포 종양(SRBCT: Small Round Blue Cell Tumour)들의 4가지 아류형(subtype)일 수 있고, 4가지 아류형 개체는 EWS(Ewing's family of tumors), BL(Burkitt'slymphoma), NB(neuroblasoma), RMS(rhabdomyosarcoma)일 수 있다.
또한, 그룹별로 제1 클래스 및 제2 클래스에 대한 분류 기준은 이웃하는 아류형 개체들을 고려할 수 있다.
예를 들어, 1번 그룹에 있는 제1 클래스는 EWS 개체, 1번 그룹에 있는 제2 클래스는 RMS 개체, BL 개체 및 NB 개체를 포함할 수 있고, 2번 그룹에 있는 제1 클래스는 RMS 개체, 2번 그룹에 있는 제2 클래스는 EWS 개체, BL 개체 및 NB 개체를 포함할 수 있으며, 3번 그룹 및 4번 그룹도 상기 전술된 방식으로 분류될 수 있다.
유사도 측정부(312)는 각 그룹에 속한 제1 클래스 및 제2 클래스 간의 유사도 순위를 측정할 수 있다. 유사도 순위를 측정은 바타차랴 거리(bhattacharyya distance)를 이용하여 상기 각 그룹에 속한 제1 클래스 및 제2 클래스 간의 유사도 순위를 측정할 수 있다.
제거부(313)는 미리 선정된 기준 이하의 유사도 순위를 가지는 유전자 발현 데이터를 제거할 수 있다.
본 발명의 일측에 따르면, 바타차랴 거리가 더 큰 유전자 발현 데이터는 더 차별적으로 발현된 유전자이므로, 제거부(313)는 바타차랴 거리가 가장 큰 유전자 발현 데이터를 기준으로 문턱 값을 선정하여 기준 이하의 유사도 순위를 가지는 유전자 발현 데이터를 제거할 수 있다.
제1 예비 유전자 판별부(314)는 퍼지 신경망을 이용하여 상기 그룹별로 남아있는 유전자 발현 데이터에 대한 예비 유전자들을 판별할 수 있다.
퍼지 신경망은 가중 퍼지 소속함수 신경망(NEWFM: Neural Network with Weighted Fuzzy Membership Functions)일 수 있고, 가중 퍼지 소속함수 신경망은 인간의 경험으로부터 학습해 가는 두뇌의 신경망 활동을 흉내 내어 특정 데이터로부터 반복적인 학습 과정을 통하여 특정 데이터에 대한 패턴을 찾아내고 일반화하는 분류 기능을 가질 수 있다.
상세히 설명하면, 가중 퍼지 소속함수 신경망은 비중복면적 분산 측정법을 이용하여 많은 양의 데이터로부터 서로 간의 관련성이 적은 데이터를 판별 및 제거할 수 있다.
제2 예비 유전자 판별부(315)는 각 그룹마다 중복된 예비 유전자들을 판별할 수 있다. 각 그룹에는 중복된 예비 유전자들이 여럿 있기 때문에 SRBCT의 4가지 아류형들을 분류하기 위한 중복된 예비 유전자들을 판별하는 과정이 필요할 수도 있다.
그룹 선정부(320)는 그룹별로 예비 유전자들의 유사도 순위를 합산하고, 상기 합산된 유사도 순위가 가장 낮은 그룹을 선정한다.
합산된 유사도 순위가 가장 낮은 그룹은 다른 타 그룹에 비해 4가지 아류형들을 분류하는데 유리하다는 것을 의미할 수 있다.
수준별 분류부(330)는 선정된 그룹의 제1 클래스 및 아류형 개체 수를 고려하여 아류형 개체 수만큼 수준별로 분류한다.
바타차랴 거리는 단지 2개의 유전자 또는 2개의 클래스 간의 거리만 계산할 수 있기 때문에 4가지 아류형들에 대한 유사도가 낮은 유전자 또는 4가지 아류형들에 속하지 않는 유전자를 판별하는 과정이 필요할 수 있다.
사례 수 판별부(340)는 퍼지 신경망를 이용하여 상기 수준별로 예비 유전자들에 대한 사례 수를 판별한다.
본 발명의 일측에 따르면, 퍼지 신경망를 이용하여 상기 수준별로 예비 유전자들에 대한 사례 수를 판별은 퍼지 신경망의 반복 과정을 수행하여 서로 간의 관련성이 적은 예비 유전자들에 대한 사례 수를 증가시키고, 더욱 정확하게 서로 간의 관련성이 적을 예비 유전자들을 판별할 수 있다.
유전자 선택부(350)는 수준별에 있는 상기 예비 유전자들의 사례 수를 모두 합산하고, 미리 선정된 기준 이상의 사례 수를 갖는 예비 유전자들을 대상으로 유전자를 선택한다.
합산된 예비 유전자들의 사례 수에서 가장 점수가 높은 예비 유전자는 덜 차별적으로 발현된 유전자이므로, 유전자 선택은 합산 점수가 가장 낮은 예비 유전자부터 높은 예비 유전자 순으로 관련성이 적은 유전자를 판별하고, 최종으로 관련성이 높은 유전자를 선택할 수 있다.
도 4는 가중 퍼지 소속함수 신경망의 구조도이다.
도 4를 참조하면, 가중 퍼지 소속함수 신경망의 구조는 입력 계층(410), 하이퍼박스 계층(420) 및 클래스 계층(430)으로 이루어져 있다.
입력 계층(410)은 n개의 입력노드로 구성되고, 각 노드로 n개의 유전자 발현 데이터들을 입력하게 되고, 하이퍼박스 계층(420)은 각각이 n개의 입력노드에 대한 n개의 가중 퍼지소속 함수의 경계합(BSWFM: Bounded Sum of Weighted Fuzzy Membership functions)을 포함하며, 클래스 노드에 연결되는 m개의 하이퍼박스 노드로 구성될 수 있다.
또한, 클래스 계층(430)은 각각이 적어도 하나 이상의 하이퍼박스 노드에 연결되는 p개의 클래스 노드로 구성될 수 있다.
입력노드에 입력되는 h번째 유저자 발현 데이터들의 패턴은 수학식 2와 같이 표현될 수 있다.
수학식 2
Figure pat00002
이때,
Figure pat00003
는 입력노드에 입력되는 h번째 유전자 발현 데이터를 나타내고, class는 분류 결과를 가리키며,
Figure pat00004
는 입력 패턴의 n개 특징을 나타낸다.
하이퍼박스 노드
Figure pat00005
는 각각, n개의 퍼지 집합으로 구성되는데, 그 중 i번째 퍼지 집합은 도 4와 같이,
Figure pat00006
로 표현되는 가중 퍼지소속 함수를 가진다.
도 5는 가중 퍼지 소속함수 신경망에 의해 학습되는 가중 퍼지 소속 함수의 경계합(BSWFM)을 도시한 도면이다.
도 5를 참조하면, 가중 퍼지소속 함수(WFM)
Figure pat00007
는 연속된 시변화 신호 x(t)에 대한 원래의 소속 함수(original membership function)인
Figure pat00008
등에 대하여 가중치
Figure pat00009
등을 준 소속 함수로 나타낸다.
한편, 가중 퍼지소속 함수의 경계합(BSWFM)은 도 4에 도시된 굵은 선과 같이 다각형 모양으로 나타날 수 있는데, 이때, 가중 퍼지소속 함수
Figure pat00010
에 대한 BSWFM 값인
Figure pat00011
는 수학식 3과 같이 표현될 수 있다.
수학식 3
Figure pat00012
이때, 는
Figure pat00013
입력 패턴
Figure pat00014
의 i번째 특징 값을 나타낸다. 도 5에는
Figure pat00015
Figure pat00016
의 사이에 위치한 에 대한 BSWFM 값이 도시되었다.
도 6은 실시예에 따른 그룹별로 예비 유전자들을 판별하는 흐름도이다.
단계 610에서 유전자 발현 데이터를 기초로 아류형 개체들로 분류하고, 이웃하는 아류형 개체들을 고려하여 그룹별로 제1 클래스 및 제2 클래스로 분류할 수 있다.
본 발명의 실시예에 따르면, 아류형 개체들은 유전자 발현 데이터를 기초한 암 분자 분류법(cancer molecular classification) 중에서 소원형 청색세포 종양(SRBCT: Small Round Blue Cell Tumour)들의 4가지 아류형(subtype)일 수 있고, 4가지 아류형 개체는 EWS(Ewing's family of tumors), BL(Burkitt'slymphoma), NB(neuroblasoma), RMS(rhabdomyosarcoma)일 수 있다.
또한, 그룹별로 제1 클래스 및 제2 클래스에 대한 분류 기준은 이웃하는 아류형 개체들을 고려할 수 있다.
예를 들어, 1번 그룹에 있는 제1 클래스는 EWS 개체, 1번 그룹에 있는 제2 클래스는 RMS 개체, BL 개체 및 NB 개체를 포함할 수 있고, 2번 그룹에 있는 제1 클래스는 RMS 개체, 2번 그룹에 있는 제2 클래스는 EWS 개체, BL 개체 및 NB 개체를 포함할 수 있으며, 3번 그룹 및 4번 그룹도 상기 전술된 방식으로 분류될 수 있다.
본 발명의 실시예에서는 4가지 아류형 개체들을 분류하는 방법 외에도 4가지 이하 또는 4가지 이상의 아류형 개체들을 분류하는 방법을 포함시킬 수 있다.
단계 620에서 각 그룹에 속한 제1 클래스 및 제2 클래스 간의 유사도 순위를 측정할 수 있다. 유사도 순위를 측정은 바타차랴 거리(bhattacharyya distance)를 이용하여 상기 각 그룹에 속한 제1 클래스 및 제2 클래스 간의 유사도 순위를 측정할 수 있다.
단계 630에서 미리 선정된 기준 이하의 유사도 순위를 가지는 유전자 발현 데이터를 제거할 수 있다.
본 발명의 일측에 따르면, 바타차랴 거리가 더 큰 유전자 발현 데이터는 더 차별적으로 발현된 유전자이므로, 단계 630에서 바타차랴 거리가 가장 큰 유전자 발현 데이터를 기준으로 문턱 값을 선정하여 기준 이하의 유사도 순위를 가지는 유전자 발현 데이터를 제거할 수 있다.
단계 640에서 퍼지 신경망을 이용하여 상기 그룹별로 남아있는 유전자 발현 데이터에 대한 예비 유전자들을 판별할 수 있다.
퍼지 신경망은 가중 퍼지 소속함수 신경망(NEWFM: Neural Network with Weighted Fuzzy Membership Functions)일 수 있고, 가중 퍼지 소속함수 신경망은 인간의 경험으로부터 학습해 가는 두뇌의 신경망 활동을 흉내 내어 특정 데이터로부터 반복적인 학습 과정을 통하여 특정 데이터에 대한 패턴을 찾아내고 일반화하는 분류 기능을 가질 수 있다.
상세히 설명하면, 가중 퍼지 소속함수 신경망은 비중복면적 분산 측정법을 이용하여 많은 양의 데이터로부터 서로 간의 관련성이 적은 데이터를 판별 및 제거할 수 있다.
단계 650에서 각 그룹마다 중복된 예비 유전자들을 판별할 수 있다. 각 그룹에는 중복된 예비 유전자들이 여럿 있기 때문에 SRBCT의 4가지 아류형들을 분류하기 위한 중복된 예비 유전자들을 판별하는 과정이 필요할 수도 있다.
도 7은 실시예에 따른 수준별 분류를 도시한 블록도이다.
수준별 분류는 선정된 그룹의 제1 클래스 및 아류형 개체 수를 고려하여 아류형 개체 수만큼 수준별로 분류하고, 제1 수준 분류부(710), 제2 수준 분류부(720), 제3 수준 분류부(730) 및 제4 수준 분류부(740)로 구성될 수 있다.
각각의 수준 분류부는 퍼지 신경망를 이용하여 상기 수준별로 예비 유전자들에 대한 사례 수를 판별한다.
퍼지 신경망은 가중 퍼지 소속함수 신경망일 수 있고, 가중 퍼지 소속함수 신경망은 인간의 경험으로부터 학습해 가는 두뇌의 신경망 활동을 흉내 내어 특정 데이터로부터 반복적인 학습 과정을 통하여 특정 데이터에 대한 패턴을 찾아내고 일반화하는 분류 기능을 가질 수 있다.
상세히 설명하면, 가중 퍼지 소속함수 신경망은 비중복면적 분산 측정법을 이용하여 많은 양의 데이터로부터 서로 간의 관련성이 적은 예비 유전자들에 대한 사례 수를 판별할 수 있다.
본 발명의 일측에 따르면, 퍼지 신경망를 이용하여 상기 수준별로 예비 유전자들에 대한 사례 수를 판별은 퍼지 신경망의 반복 과정을 수행하여 서로 간의 관련성이 적은 예비 유전자들에 대한 사례 수를 증가시키고, 더욱 정확하게 서로 간의 관련성이 적을 예비 유전자들을 판별할 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
310: 예비 유전자 판별부
320: 그룹 선정부
330: 수준별 분류부
340: 사례수 판별부
350: 유전자 선택부

Claims (9)

  1. 그룹별로 예비 유전자들을 판별하는 단계;
    상기 그룹별로 예비 유전자들의 유사도 순위를 합산하고, 상기 합산된 유사도 순위가 가장 낮은 그룹을 선정하는 단계;
    상기 선정된 그룹의 제1 클래스 및 아류형 개체 수를 고려하여 아류형 개체 수만큼 수준별로 분류하는 단계;
    퍼지 신경망(FNN: Fussy Neural Network)을 이용하여 상기 수준별로 예비 유전자들에 대한 사례 수를 판별하는 단계; 및
    상기 수준별에 있는 상기 예비 유전자들의 사례 수를 모두 합산하고, 미리 선정된 기준 이상의 사례 수를 갖는 예비 유전자들을 대상으로 유전자를 선택하는 단계
    를 포함하는 퍼지 신경망을 이용한 유전자 선택 방법.
  2. 제1항에 있어서,
    상기 그룹별로 예비 유전자들을 판별하는 단계는
    유전자 발현 데이터를 기초로 아류형 개체들로 분류하고, 이웃하는 상기 아류형 개체들을 고려하여 상기 그룹별로 제1 클래스 및 제2 클래스로 분류하는 단계;
    상기 각 그룹에 속한 제1 클래스 및 제2 클래스 간의 유사도 순위를 측정하는 단계;
    미리 선정된 기준 이하의 유사도 순위를 가지는 유전자 발현 데이터를 제거하는 단계;
    상기 퍼지 신경망을 이용하여 상기 그룹별로 남아있는 유전자 발현 데이터에 대한 예비 유전자들을 판별하는 단계; 및
    상기 각 그룹마다 중복된 예비 유전자들을 판별하는 단계를 포함하는 퍼지 신경망을 이용한 유전자 선택 방법.
  3. 제2항에 있어서,
    상기 유사도 순위를 측정하는 단계는
    바타차랴 거리(bhattacharyya distance)를 이용하여 상기 각 그룹에 속한 제1 클래스 및 제2 클래스 간의 유사도 순위를 측정하는 단계를 포함하는 퍼지 신경망을 이용한 유전자 선택 방법.
  4. 제1항에 있어서,
    퍼지 신경망을 이용하여 상기 수준별로 예비 유전자들에 대한 사례 수를 판별하는 단계는
    상기 퍼지 신경망의 반복 과정을 수행하는 단계를 포함하는 퍼지 신경망을 이용한 유전자 선택 방법.
  5. 제1항 내지 제4항 중 어느 한 항의 방법을 수행하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
  6. 그룹별로 예비 유전자들을 판별하는 예비 유전자 판별부;
    상기 그룹별로 예비 유전자들의 유사도 순위를 합산하고, 상기 합산된 유사도 순위가 가장 낮은 그룹을 선정하는 그룹 선정부;
    상기 선정된 그룹의 제1 클래스 및 아류형 개체 수를 고려하여 아류형 개체 수만큼 수준별로 분류하는 수준별 분류부;
    퍼지 신경망(FNN: Fussy Neural Network)을 이용하여 상기 수준별로 예비 유전자들에 대한 사례 수를 판별하는 사례 수 판별부; 및
    상기 수준별에 있는 상기 예비 유전자들의 사례 수를 모두 합산하고, 미리 선정된 기준 이상의 사례 수를 갖는 예비 유전자들을 대상으로 유전자를 선택하는 유전자 선택부
    를 포함하는 퍼지 신경망을 이용한 유전자 선택 시스템.
  7. 제6항에 있어서,
    상기 예비 유전자 판별부는
    유전자 발현 데이터를 기초로 아류형 개체들로 분류하고, 이웃하는 상기 아류형 개체들을 고려하여 상기 그룹별로 제1 클래스 및 제2 클래스로 분류하는 클래스 분류부;
    상기 각 그룹에 속한 제1 클래스 및 제2 클래스 간의 유사도 순위를 측정하는 유사도 측정부;
    미리 선정된 기준 이하의 유사도 순위를 가지는 유전자 발현 데이터를 제거하는 제거부;
    상기 퍼지 신경망을 이용하여 상기 그룹별로 남아있는 유전자 발현 데이터에 대한 예비 유전자들을 판별하는 제1 예비 유전자 판별부; 및
    상기 각 그룹마다 중복된 예비 유전자들을 판별하는 제2 유전자 판별부를 포함하는 퍼지 신경망을 이용한 유전자 선택 시스템.
  8. 제7항에 있어서,
    상기 유사도 측정부는
    바타차랴 거리를 이용하여 상기 각 그룹에 속한 제1 클래스 및 제2 클래스 간의 유사도 순위를 측정하는 퍼지 신경망을 이용한 유전자 선택 시스템.
  9. 제6항에 있어서,
    상기 사례 수 판별부는
    상기 퍼지 신경망의 반복 과정을 수행하는 퍼지 신경망을 이용한 유전자 선택 시스템.
KR1020130131370A 2013-10-31 2013-10-31 퍼지 신경망을 이용한 유전자 선택 방법 및 시스템 KR101624014B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130131370A KR101624014B1 (ko) 2013-10-31 2013-10-31 퍼지 신경망을 이용한 유전자 선택 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130131370A KR101624014B1 (ko) 2013-10-31 2013-10-31 퍼지 신경망을 이용한 유전자 선택 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20150050041A true KR20150050041A (ko) 2015-05-08
KR101624014B1 KR101624014B1 (ko) 2016-05-25

Family

ID=53388004

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130131370A KR101624014B1 (ko) 2013-10-31 2013-10-31 퍼지 신경망을 이용한 유전자 선택 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR101624014B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102056704B1 (ko) * 2019-03-29 2020-01-22 가천대학교 산학협력단 멀티 레이어 가중 퍼지 소속함수 기반 심층 신경망을 이용한 클래스 분류 방법 및 장치

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003217715A1 (en) 2002-03-01 2003-09-16 University Of Utah Research Foundation Multivariate random search method with multiple starts and early stop for identification of differentially expressed genes based on microarray data
EP1488228A4 (en) 2002-03-07 2008-09-17 Univ Utah Res Found METHODS OF IDENTIFYING MAJOR SUBASSEMBLIES OF GENES EXPRESSED DIFFERENTIALLY AS A FUNCTION TO MULTI-VARIABLE MICROARRAY DATA ANALYSIS

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102056704B1 (ko) * 2019-03-29 2020-01-22 가천대학교 산학협력단 멀티 레이어 가중 퍼지 소속함수 기반 심층 신경망을 이용한 클래스 분류 방법 및 장치

Also Published As

Publication number Publication date
KR101624014B1 (ko) 2016-05-25

Similar Documents

Publication Publication Date Title
Dashtban et al. Gene selection for tumor classification using a novel bio-inspired multi-objective approach
Koo et al. A Review for Detecting Gene‐Gene Interactions Using Machine Learning Methods in Genetic Epidemiology
Tokuda et al. Revisiting agglomerative clustering
Chuang et al. A hybrid feature selection method for DNA microarray data
JP2018181290A (ja) 改良した情報測定とgaに基づくフィルター式特徴選択アルゴリズム
Horng et al. An expert system to classify microarray gene expression data using gene selection by decision tree
CN101923604A (zh) 基于邻域粗糙集的加权knn肿瘤基因表达谱分类方法
Sekaran et al. Predicting autism spectrum disorder from associative genetic markers of phenotypic groups using machine learning
Kate et al. Image segmentation of breast cancer histopathology images using PSO-based clustering technique
Boutorh et al. Classication of SNPs for breast cancer diagnosis using neural-network-based association rules
JP2016031629A (ja) 特徴選択装置、特徴選択システム、特徴選択方法、および、特徴選択プログラム
KR101624014B1 (ko) 퍼지 신경망을 이용한 유전자 선택 방법 및 시스템
JP6821885B1 (ja) 人工知能基盤の保険金不当請求の探知装置及び方法
Nimitha et al. An improved deep convolutional neural network architecture for chromosome abnormality detection using hybrid optimization model
Lan et al. Deep learning approaches for noncoding variant prioritization in neurodegenerative diseases
US20200371111A1 (en) System and method for discovery of gene-environment interactions
Han et al. Optimizing deep learning-based segmentation of densely packed cells using cell surface markers
KR102376212B1 (ko) 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법
KR101701168B1 (ko) 유전자 패스웨이 활성지수의 세부적 정량화를 위한 유전자 프로파일 방법
Anand et al. Building an intelligent integrated method of gene selection for facioscapulohumeral muscular dystrophy diagnosis
CN117649876B (zh) 基于gwo算法在gwas数据上检测与复杂疾病相关snp组合的方法
Benso et al. A graph-based representation of Gene Expression profiles in DNA microarrays
Patra et al. Neural networks for gene expression analysis and gene selection from DNA microarray
Mandal et al. Identification of genetic pathway for cervical cancer development using rough and bayesian theory
Kumar et al. Meta-heuristic search based gene selection and classification of microarray data

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E902 Notification of reason for refusal
GRNT Written decision to grant