KR101806628B1 - 통합 회귀 분석 네트워크 구축 방법 및 이에 의한 통합 분석 시스템 - Google Patents

통합 회귀 분석 네트워크 구축 방법 및 이에 의한 통합 분석 시스템 Download PDF

Info

Publication number
KR101806628B1
KR101806628B1 KR1020150167074A KR20150167074A KR101806628B1 KR 101806628 B1 KR101806628 B1 KR 101806628B1 KR 1020150167074 A KR1020150167074 A KR 1020150167074A KR 20150167074 A KR20150167074 A KR 20150167074A KR 101806628 B1 KR101806628 B1 KR 101806628B1
Authority
KR
South Korea
Prior art keywords
network
regression analysis
integrated
fusion
gene
Prior art date
Application number
KR1020150167074A
Other languages
English (en)
Other versions
KR20170061911A (ko
Inventor
손경아
정현환
레디 라니 반지말라
Original Assignee
아주대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아주대학교산학협력단 filed Critical 아주대학교산학협력단
Priority to KR1020150167074A priority Critical patent/KR101806628B1/ko
Publication of KR20170061911A publication Critical patent/KR20170061911A/ko
Application granted granted Critical
Publication of KR101806628B1 publication Critical patent/KR101806628B1/ko

Links

Images

Classifications

    • G06F19/12
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/04Libraries containing only organic compounds
    • C40B40/06Libraries containing nucleotides or polynucleotides, or derivatives thereof
    • G06F19/10
    • G06F19/20

Landscapes

  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biochemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명이 다양한 실시 예에 따르면, 통합 분석 시스템이 제공된다. 일 실시 예에 따르면, 통합 회귀 분석 네트워크 구축 방법은, 데이터베이스에 기 저장된 데이터 세트의 적어도 일부에 둘 이상의 회귀 분석 알고리즘을 적용하여 각각의 회귀 분석 알고리즘에 대한 다수의 베타 계수 벡터를 획득하는 단계; 상기 획득한 다수의 베타 계수 벡터를 이용하여 다수의 유전자간 상호 작용 네트워크를 생성하는 단계; 및 상기 생성된 유전자간 상호 작용 네트워크에서 유사 네트워크 융합 알고리즘에 기반하여 통합 회귀 분석 네트워크를 생성하는 단계;를 포함할 수 있다.

Description

통합 회귀 분석 네트워크 구축 방법 및 이에 의한 통합 분석 시스템{METHOD FOR CONSTRUCTING FUSED REGRESSION NETWORK AND FUSED ANALYSIS SYSTEM THEREOF}
본 발명은 통합 분석에 관한 것으로, 상세하게는, 복수 개의 회귀 분석 네트워크로부터 하나의 통합 회귀 분석 네트워크를 구축하는 방법 및 이에 의한 통합 분석 시스템에 관한 것이다.
다종 오믹스 데이터를 이용, 유전자의 발현을 조절하는 요인인 QTL(Quantitative Trait Loci)를 찾기 위한 다양한 회귀 분석(regression) 알고리즘 기반의 방법론들이 사용되고 있다. 하지만, 다양한 각각의 회귀 분석 알고리즘에 동일한 다종 오믹스 데이터를 적용한 결과는 일부 일관된 결과를 보이지 못하고 있다.
예를 들어, 도 2a를 참조하면, 각각의 암 유형에 대하여 4가지 방식의 회귀 분석 방법을 적용하고 있으나, 각각의 회귀 분석 방법의 결과는 일관되지 못하고 차이가 있음을 확인할 수 있다. 따라서, 다종 오믹스 데이터에서 각각의 암 유형에 대한 발현 형질 유전자를 확인하는 경우, 회귀 분석 방법으로 획득한 정보의 신뢰성에 문제가 발생할 수 있다. 이에, 회귀 분석에 기반하여 발현 형질 유전자를 확인함에 있어서, 균일한 결과를 획득하기 위한 방법론의 개발이 필요한 실정이다.
특허문헌 제10-2008-0063156호는 EST, SAGE 및 마이크로어레이 데이터 세트에서 유전자의 발현량을 수치화하고, 유전자 발현량과 제로 비율을 이용하여 여러 조직에서 항상 발현되는 유전자를 선별하는 것을 개시하여, 제로비율 및 cv의 개념을 도입함으로써, 상이한 데이터베이스의 자료를 통합적으로 분석할 수 있다.
하지만, 이는 기존의 수치화된 데이터에서 항상 발현되는 데이터를 추출하는 통계적 활용에 그칠 뿐, 분석 방법이 달라지는 경우, 각각의 분석 방법에 대하여 상이한 결과를 획득하여 통계의 신뢰도에 문제가 발생하게 된다.
KR 10-2008-0063156 (공개특허)
즉, 다수의 회귀 분석 방법의 결과를 통합하여, 중요 발현 유전적 특징을 일관적으로 산출할 수 있는 방법을 제공할 수 있다.
본 발명의 다양한 실시 예에 따르면, 다양한 분석 알고리즘 및 분석 알고리즘에 따른 결과에 기반하여 통합된 네트워크를 구성하여 데이터 분석의 다수의 회귀 분석 알고리즘을 이용하는 경우에도 일관된 결과를 획득하는 시스템을 제공할 수 있다.
본 발명의 일 실시 예에 따르면, 통합 회귀 분석 네트워크 구축 방법은, 데이터베이스에 기 저장된 데이터 세트의 적어도 일부에 둘 이상의 회귀 분석 알고리즘을 적용하여 각각의 회귀 분석 알고리즘에 대한 다수의 베타 계수 벡터를 획득하는 단계; 상기 획득한 다수의 베타 계수 벡터를 이용하여 다수의 유전자간 상호 작용 네트워크를 생성하는 단계; 및 상기 생성된 유전자간 상호 작용 네트워크에서 유사 네트워크 융합 알고리즘에 기반하여 통합 회귀 분석 네트워크를 생성하는 단계;를 포함할 수 있다.
다양한 실시 예에 따르면, 상기 유전자간 상호 네트워크는, 상기 베타 계수 벡터에 대하여 피어슨 상관 계수를 측정하여 결정되는 유전자 쌍들의 가중치에 기반하여 결정할 수 있다.
다양한 실시 예에 따르면, 상기 통합 회귀 분석 네트워크는, 상기 다수의 유전자간 상호 네트워크에 상기 유사 네트워크 융합 알고리즘을 적용하였을 때, 하기 식의 값이 최대인 상태에서 생성할 수 있다.
[식]
Figure 112015115944521-pat00001
(N: 유전자간 상호 작용 네트워크의 수, W: 상기 N 개의 유전자간 상호 작용 네트워크로 구성되는 집합, wf: 상기 유사 네트워크 융합 도구 및 상기 적어도 하나의 변수에 기반하여 결정되는 통합 회귀 분석 네트워크)
다양한 실시 예에 따르면, 상기 통합 회귀 분석 네트워크 구축 방법은, 상기 통합 회귀 분석 네트워크에서 지정된 순열 테스트를 수행하여 다수의 유전적 발현 형질을 획득하는 단계를 더 포함할 수 있다.
다양한 실시 예에 따르면, 상기 통합 회귀 분석 네트워크에 하기 식을 적용하여 상기 다수의 유전적 발현 형질을 반영한 네트워크를 획득할 수 있다.
[식]
Figure 112015115944521-pat00002
(W: 실제 네트워크, WPk: k번째의 순열 네트워크, E(): 네트워크에서 엣지들의 수, C(): 네트워크에서 최대 연결 요소,
Figure 112015115944521-pat00003
,
Figure 112015115944521-pat00004
)
다양한 실시 예에 따르면, 상기 다수의 유전적 발현 형질은, 상기 통합 회귀 분석 네트워크의 토폴로지와 상기 복수의 회귀 분석 알고리즘 중 적어도 하나의 토폴로지에 기반하여 획득할 수 있다.
본 발명의 일 실시 예에 따르면, 통합 회귀 분석 네트워크에 기반하는 통합 분석 시스템은, 복수의 회귀 분석 알고리즘을 포함하는 데이터베이스; 및 상기 데이터베이스에 기 저장된 데이터 세트의 적어도 일부에 둘 이상의 회귀 분석 알고리즘을 적용하여 각각의 회귀 분석 알고리즘에 대한 다수의 베타 계수 벡터를 획득하고, 상기 획득한 다수의 베타 계수 벡터를 이용하여 다수의 유전자간 상호 작용 네트워크를 생성하고, 상기 생성된 유전자간 상호 작용 네트워크에서 유사 네트워크 융합 알고리즘에 기반하여 통합 회귀 분석 네트워크를 생성하도록 처리하는 프로세서를 포함할 수 있다.
다양한 실시 예에 따르면, 상기 프로세서는, 상기 베타 계수 벡터에 대하여 피어슨 상관 계수를 측정하여 결정되는 유전자 쌍들의 가중치에 기반하여 상기 유전자간 상호 네트워크를 결정할 수 있다.
다양한 실시 예에 따르면, 상기 프로세서는, 상기 다수의 유전자간 상호 네트워크에 상기 유사 네트워크 융합 알고리즘을 적용하였을 때, 하기 식의 값이 최대인 상태에서 상기 통합 회귀 분석 네트워크를 생성할 수 있다.
[식]
Figure 112015115944521-pat00005
(N: 유전자간 상호 작용 네트워크의 수, W: 상기 N 개의 유전자간 상호 작용 네트워크로 구성되는 집합, wf: 상기 유사 네트워크 융합 도구 및 상기 적어도 하나의 변수에 기반하여 결정되는 통합 회귀 분석 네트워크)
다양한 실시 예에 따르면, 상기 프로세서는, 상기 통합 회귀 분석 네트워크에서 지정된 순열 테스트를 수행하여 다수의 유전적 발현 형질을 획득할 수 있다.
다양한 실시 예에 따르면, 상기 프로세서는, 상기 통합 회귀 분석 네트워크에 하기 식을 적용하여 상기 다수의 유전적 발현 형질을 반영한 네트워크를 획득할 수 있다.
[식]
Figure 112015115944521-pat00006
(W: 실제 네트워크, WPk: k번째의 순열 네트워크, E(): 네트워크에서 엣지들의 수, C(): 네트워크에서 최대 연결 요소,
Figure 112015115944521-pat00007
,
Figure 112015115944521-pat00008
)
다양한 실시 예에 따르면, 상기 프로세서는, 상기 통합 회귀 분석 네트워크의 토폴로지와 상기 복수의 회귀 분석 알고리즘 중 적어도 하나의 토폴로지에 기반하여 상기 다수의 유전적 발현 형질을 획득할 수 있다.
본 발명의 다양한 실시 예에 따르면, 통합 분석 시스템은, 다양한 회귀 분석 알고리즘에 기반하는 통합 회귀 분석 네트워크에 다종 오믹스 데이터로부터 일관적인 유전적 발현 형질을 제공함으로써, 데이터의 신뢰도를 향상시킬 수 있다.
본 발명의 다양한 실시 예에 따르면, 통합 분석 시스템은, 다양한 회귀 분석 결과를 통합하여 각각의 회귀 분석 결과의 장점 및 단점을 취합하여 보다 신뢰성 높은 회귀 분석 결과로 도출할 수 있다.
도 1은 본 발명의 일 실시 예에 따른, 통합 분석 시스템의 개략적인 구조를 도시한다.
도 2a는 본 발명의 일 실시 예에 따른 통합 분석 시스템에서, 다양한 회귀 분석 결과에 기반하는 벤 다이어그램의 일 실시 예를 도시한다.
도 2b는 본 발명의 일 실시 예에 따른 통합 분석 시스템에서, 지정된 유형의 암에 대한 데이터 세트의 회귀 분석 결과에 대한 오차 분산을 도시한다.
도 3은 본 발명의 통합 분석 시스템을 통하여 일반적인 게놈 특징의 개요를 나타내는 도면이다.
도 4는 본 발명의 일 실시 예에 따른 통합 회귀 분석 시스템에서 데이터베이스에 기 획득된 데이터 및/또는 입력되는 데이터의 사전 처리 동작을 수행할 수 있다.
도 5a는 본 발명의 일 실시 예에 따른 통합 분석 시스템에서, 유사한 효과를 가지는 배타 계수를 가지는 다른 두 유전자를 결정하는 동작을 도시한다.
도 5b는 본 발명의 일 실시 예에 따른 통합 분석 시스템에서, 유사한 베타 효과를 가지는 유전자들의 관계를 정의하는 동작을 도시한다.
도 6은 본 발명의 다양한 실시 예에 따른 통합 회귀 분석 네트워크의 구성을 도시한다.
도 7은, 본 발명의 다양한 실시 예에 따른 통합 분석 시스템에서, 통합 회귀 분석 네트워크 및 다양한 회귀 분석 알고리즘의 동작을 도시한다.
이하, 첨부한 도면을 참고로 하여 본 발명의 다양한 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 특정 실시 예가 도면에 예시되고, 관련된 상세한 설명이 기재될 수 있다, 그러나, 이는 본 발명을 특정한 실시 형태에 대하여 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경 및/또는 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략할 수 있고, 명세서 전체를 통하여 동일 또는 유사한 구성 요소에 대해서는 동일한 참조 부호를 사용할 수 있다.
본 발명의 다양한 실시 예에서, '또는', '적어도 하나' 등의 표현은 함께 나열된 단어들 중 하나를 나타내거나, 또는 둘 이상의 조합을 나타낼 수 있다. 예를 들어, 'A 또는 B', 'A 및 B 중 적어도 하나'는 A 또는 B 중 하나만을 포함할 수도 있고, A와 B를 모두 포함할 수도 있다.
본 발명의 다양한 실시 예에서, '제1 ', '제2 ', '첫째', '둘째' 등의 표현은 다양한 구성 요소들을 수식할 수 있지만, 반드시 해당 구성 요소의 순서, 또는 중요도 등을 의미하는 것으로 한정하지 않는다. 예를 들어, 제1 장치와 제2 장치는 모두 장치이며 서로 다른 장치를 나타낼 수 있다. 또한, 본 발명의 다양한 실시 예의 권리 범위를 벗어나지 않는 경우, 제1 장치의 구성, 기능, 동작 등의 요소가 제2 장치와 동일 또는 유사한 경우, 제1 장치는 제2 장치로 명명될 수 있고, 유사하게, 제2 장치 또한 제1 장치로 명명될 수 있다.
본 발명의 다양한 실시 예에서 어떤 구성 요소가 다른 구성 요소에 '연결'되어 있다거나 '접속'되어 있다고 언급된 경우, 구성 요소들은 직접적으로 연결되어 있거나 접속되어 있을 수 있지만, 구성 요소들 사이에 적어도 하나의 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면, 어떤 구성 요소가 다른 구성 요소에 '직접 연결'되어 있다거나, '직접 접속'되어 있다고 언급된 경우, 구성 요소들 사이는 다른 구성 요소가 존재하지 않는 것으로 이해될 수 있어야 할 것이다.
본 발명의 다양한 실시 예에서 사용되는 용어들은 특정일 실시 예를 설명하기 위한 것으로, 본 발명을 한정하는 것으로 해석되어서는 안되며, 예를 들어, 단수의 표현은 문맥상 명백하게 다른 것으로 명시되지 않는 한 복수의 표현을 포함할 수 있을 것이다.
도 1은 본 발명의 일 실시 예에 따른, 통합 분석 시스템의 개략적인 구조를 도시한다.
통합 회귀 분석 네트워크에 기반하는 통합 분석 시스템(이하, 통합 분석 시스템, 100)은, 다양한 방식의 벡터 공간 모델 및 실제 네트워크에 기반하여 특정 유전적 발현 형질(예: 유전적 발현 형질)을 추출할 수 있다. 도 1을 참조하면 통합 분석 시스템(100)은, 데이터베이스 (database, DB)(111), DB 인터페이스(113), 데이터 세트(115), 통합 회귀 분석 네트워크(101)를 포함할 수 있다.
데이터베이스(111)는 적어도 하나의 순열된 네트워크를 포함할 수 있다. 여기에서, 데이터베이스(111)에 포함되는 순열된 네트워크는, 통합 분석 시스템(100)에 포함된 적어도 하나의 통신부(미도시)를 통해서 수신한 문서일 수 있다.
여기에서, 통신부는 무선 통신 및/또는 유선 통신을 통해서 제어 장치(103)에 포함된 통신부와 연결될 수 있다. 무선 통신을 사용하는 경우, 무선 통신은 와이파이(Wireless Fidelity, Wi-Fi) 통신, 저전력 블루투스(Bluetooth Low Energy, BLE) 통신, 블루투스(Bluetooth, BT) 통신, NFC(near field communication), GPS(global positioning system) 또는 셀룰러(cellular) 통신(예: LTE, LTE-A, CDMA, WCDMA, UMTS, WiBro 또는 GSM 등) 중 적어도 하나를 포함할 수 있다. 유선 통신을 사용하는 경우, 유선 통신은 USB(universal serial bus), HDMI(high definition multimedia interface), RS-232(recommended standard 232) 또는 POTS(plain old telephone service) 중 적어도 하나를 포함할 수 있다.
또한, 데이터베이스(111)는 통합 분석 시스템(100)에 포함된 적어도 하나의 저장부(미도시)의 일부로 구성될 수 있다. 데이터베이스(111)는 적어도 하나의 클래스로 구성되어, 순열된 네트워크의 데이터를 포함할 수 있다.
DB 인터페이스(113)는 데이터베이스(111)를 사용자 또는 다른 전자 장치에 제공하기 위한 적어도 하나의 애플리케이션(또는 프로그램)으로 구성될 수 있다. 예를 들어, 통합 분석 시스템(100)이 디스플레이(미도시)를 포함하는 경우, DB 인터페이스(113)는 그래픽 인터페이스를 포함할 수 있다. 또한, DB 인터페이스(113)는 데이터베이스(111)의 데이터를 다른 전자 장치로 전송하기 위한 적어도 하나의 통신 프로토콜을 포함할 수 있다.
데이터 세트(115)는 실제 네트워크 및 통합 회귀 분석 네트워크(101)에 기반하여 특정 유전적 발현 형질을 추출하기 위한 적어도 하나의 수학적 공간을 제공할 수 있다. 예를 들어, 실제 네트워크는 벡터 값으로 데이터 세트(115)에 포함될 수 있고, 둘 이상의 벡터 값에 기반하여 벡터 행렬로 구성될 수 있다. 데이터 세트(115)는 통합 분석 시스템(100)에 포함되는 저장부(예: 메모리)의 일부로 구성될 수 있다. 또한, 데이터 세트(115)의 적어도 일부는 통합 회귀 분석 네트워크(101)에 제공되어 입력되는 실제 네트워크에 기반하여 특정 유전적 발현 형질을 추출하는 동작에 사용될 수 있다.
데이터 세트(115)는 실제 네트워크에 기반하여 특정 유전적 발현 형질을 추출하기 위한 트레이닝 데이터 세트, 특정 유전적 발현 형질이 추출되는 동작을 검사하기 위한 테스트 데이터 세트, 테스트 데이터 세트와 테스트 데이터 세트를 관리하기 위한 전체 데이터 세트 중 적어도 일부를 포함할 수 있다.
통합 회귀 분석 네트워크(101)는 통합 분석 시스템(100)의 통신부를 통해서 입력되는 실제 네트워크에 기반하여 특정 유전적 발현 형질을 추출(119)할 수 있다. 예를 들어, 통합 회귀 분석 네트워크(119)는 입력되는 실제 네트워크에 대하여 발현될 것으로 예상되는 유전자 쌍을 결정할 수 있다. 통합 회귀 분석 네트워크(101)는, 실제 네트워크 및/또는 발현될 것으로 예상되는 유전자 쌍을 추출하기 위한 통합 회귀 분석 네트워크의 기반이 되는 다양한 회귀 분석 알고리즘을 포함할 수 있다. 예를 들어, 통합 회귀 분석 네트워크(101)는 구조적 입출력 올가미(Structured Input-Output Lasso, SIOL) 알고리즘, 그래프 기반 융합된 올가미(Graph-guided Fused Lasso, GFLasso) 알고리즘, 스파스 그룹 올가미(Sparse Group Lasso, SGL) 알고리즘, 올가미(Lasso) 알고리즘 및 적어도 하나의 유사 네트워크 융합(Similarity Network Fusion, SNF) 알고리즘을 포함할 수 있다.
본 발명의 다양한 실시 예에 따르면, 통합 분석 시스템은 데이터베이스(111)에 포함된 다종 오믹스 데이터에 기반하여 유전자의 발현을 조절하는 요인인 양적 형질 유전자좌(Quantitative Trait Loci, QTL)를 식별할 수 있다. 본 발명의 다양한 실시 예에 따르면, 통합 분석 시스템(100)은 다양한 회귀 분석 알고리즘 및 다양한 회귀 분석 알고리즘이 적용된 결과에 기반하여 통합 회귀 분석 네트워크(101)를 생성할 수 있고, 이에 기반하여 양적 형질 유전자좌를 식별할 수 있다.
도 2a는 본 발명의 일 실시 예에 따른 통합 분석 시스템에서, 다양한 회귀 분석 결과에 기반하는 벤 다이어그램의 일 실시 예를 도시하고, 도 2b는 본 발명의 일 실시 예에 따른 통합 분석 시스템에서, 지정된 유형의 암에 대한 데이터 세트의 회귀 분석 결과에 대한 오차 분산을 도시한다.
도 2a를 참조하면, 상술한 실시 예에 따른 통합 분석 시스템(100)의 동작에 있어서, 상술한 다양한 회귀 분석 방법에 따른 결과에 기반하여, 내림차순(또는 상위)으로 지정된 순위(예: 200위)까지의 회귀 계수에 대한 벤 다이어그램을 도시하고 있다. 도 2a를 참조하면, 지정된 순위까지의 수치에 대하여 다양한 암 프로파일에 대한 벤 다이어그램을 도시하고 있다.
일 실시 예에 따르면, 구조적 입출력 올가미(SIOL) 알고리즘과 그래프 기반 융합된 올가미(GFLasso) 알고리즘에 기반하는 공통 유전자의 특징은 다른 알고리즘들의 조합에 기반하는 공통 유전자의 특징과 비교하여 높은 수치를 나타내고 있다.
도 2b를 참조하면, 통합 분석 시스템(100)은 지정된 유형의 암(예: 유방암, 결장암, 신경암, 신장암 및 폐암)에 대한 데이터 세트에 적용된 다양한 회귀 분석 알고리즘의 획득한 결과에 대하여 오차 분산(Mean Squared Error, MSE)을 확인할 수 있다.
일 실시 예에 따르면, 데이터 세트(115) 중 2/3은 트레이닝 데이터 및 테스트 데이터로 동작하고, 나머지 1/3은 그 외의 데이터로 동작하도록 제어될 수 있다. 도 3을 참조하면, MSE의 수치는 작을수록 더 나은 성능을 나타낼 수 있다.
본 발명의 일 실시 예에 따르면, 구조적 입출력 올가미(Structured Input-Output Lasso, SIOL) 기법은 구조적 정보 및 그룹화 효과에 기반하여 다른 회귀 분석 방법과 비교하여 상대적으로 높은 성능을 나타내고 있다. 반면, 그래프 기반 융합된 올가미(Graph-guided Fused Lasso, GFLasso) 기법, 스파스 그룹 올가미(Sparse Group Lasso, SGL) 기법 및/또는 올가미(Lasso) 기법은 비교 가능한 결과를 나타내고 있다.
예를 들어, 구조적 정보를 사용하지 않는, 올가미 기법의 회귀 분석 결과가 가장 큰 오차 분산 수치를 나타내고 있다. 또한, 내림차순의 측면에서, 전반적인 회귀 분석 성능은, 구조적 입출력 올가미(SIOL) 기법, 그래프 기반 융합된 올가미(GFLasso) 기법, 스파스 그룹 올가미(SGL) 기법, 올가미(Lasso) 기법의 순서로 표현되고 있다.
제시된 암의 영향력(또는 발현 형질)을 확인함에 있어서, 상술한 구조적 입출력 올가미(SIOL) 기법, 그래프 기반 융합된 올가미(GFLasso) 기법, 스파스 그룹 올가미(SGL) 기법, 올가미(Lasso) 기법을 고려하는 경우, β값은 각각의 변수가 반응 변수에 미치는 영향에 대한 측정치로 결정될 수 있고, 통합 분석 시스템(100)은, β값에 기반하는 발현에 높은 영향을 주는 유전자 쌍들을 상술된 회귀 분석 방법을 통한 결과들의 내림차순으로 지정된 순위(예: 200위)까지의 값들로 획득할 수 있다.
도 3은 본 발명의 통합 분석 시스템을 통하여 게놈 특징의 개요를 나타내는 도면이다.
도 3을 참조하면, 3가지 이상의 회귀 방법을 통하여 확인된 발현 형질에 대한 게놈 특징을 나타낼 수 있다. 도 3을 참조하면, 확인된 게놈 특징에서, 구조적 입출력 올가미(SIOL) 알고리즘과 그래프 기반 융합된 올가미(GFLasso) 알고리즘을 포함하는 조합, 예를 들어, 제1 세트 및 제4 세트가 상대적으로 높은 성능(예: 발현 형질)을 나타내고 있다. 통합 분석 시스템(100)은 상술한 바와 같이 구조적 정보를 고려함으로써, 반응 변수의 가장 강한 신호를 식별할 수 있다.
본 발명의 다양한 실시 예에 따르면, 통합 분석 시스템(100)은, 다양한 회귀 분석 알고리즘 및 다양한 회귀 분석 알고리즘에 기반하여 상술한 바와 같이 통합 회귀 분석 네트워크(101)를 구축할 수 있고, 통합 회귀 분석 네트워크(101)에 기반하여 통합된 통합 회귀 분석 결과를 획득할 수 있다.
상술한 설명 및 이하 설명에 따르면, 암에 관련된 데이터 세트(115)에 기반하여 통합 분석 시스템(100)의 동작을 설명하고 있지만, 이에 한정하지 않고, 다양한 유전적 발현 형질(예: 질병)과 관련된 데이터 세트(115)에도 적용될 수 있음은 자명하다.
도 2a, 2b 및 도 3를 참조하면, 다양한 회귀 분석 알고리즘의 동작 결과들은 일관적이지 않은 결과를 나타내는 것을 확인할 수 있다. 통합 분석 시스템(100)은, 이러한 다양한 회귀 분석 결과들의 일관적이지 않은 정보들에 기반하여 통합된 회귀 분석 결과를 제공할 수 있다.
일 실시 예에 따르면, 통합 회귀 분석 네트워크(101)는 베타 계수 벡터를 이용하여 다양한 회귀 분석 알고리즘 및/또는 다양한 회귀 분석 알고리즘의 동작 결과에 대응되는 유전자 사이(예: 유전자 - 유전자)의 상호작용 네트워크를 포함할 수 있다.
일 실시 예에 따르면, 통합 회귀 분석 네트워크(101)는 지정된 유사 네트워크 융합(similarity network fusion, SNF) 알고리즘을 포함할 수 있다. 예를 들어, Wang et al.에 의하여 제안된 유사 네트워크 융합 알고리즘의 적어도 일부가 적용될 수 있다.
일 실시 예에 따르면, 통합 분석 시스템(100)은 통합 회귀 분석 네트워크(101)에 기반하여 입력된 실제 네트워크에 기반하여 지정된 순열 테스트(permutation test)를 수행하여 통합 회귀 분석 네트워크(101)로부터 발현될 것으로 예상되는 유전적 특징을 추출할 수 있다. 예를 들어, 통합 회귀 분석 시스템(100)은 Hu et al.에 의하여 제안된 순열 테스트의 적어도 일부를 적용할 수 있다.
이하 설명에서 통합 분석 시스템(100)의 동작 및 회귀 분석 네트워크(101)의 구성을 설명할 수 있다.
도 4는 본 발명의 일 실시 예에 따른 통합 회귀 분석 시스템에서 데이터베이스에 기 획득된 데이터 및/또는 입력되는 데이터의 사전 처리 동작을 수행할 수 있다.
일 실시 예에 따르면, 기 획득된 데이터 및/또는 입력되는 데이터는 데이터베이스(111)에 저장된 디엔에이(deoxyribonucleic acid, DNA)의 메틸화 데이터 및 암 유전체 지도(the cancer genome atlas, TCGA)의 mRNA 발현 형질 중 적어도 일부를 포함할 수 있다.
그리고, 입력되는 데이터는 유전자 발현 조건, 메틸화 데이터 및 암 유전체 지도(the cancer genome atlas, TCGA)의 mRNA 발현 형질 중 적어도 일부를 포함할 수 있다.
이하 설명에서, 메틸화 데이터 및 암 유전체 지도(TCGA)로부터의 mRNA 발현 형질을 사용하여 통합 회귀 분석 시스템의 동작을 설명할 수 있다. 하지만, 이는 본 발명의 실시 예들을 효과적으로 설명하기 위함으로, 이에 한정하지 않고 다양한 데이터의 통합 회귀 분석에 사용할 수 있음은 자명하다.
통합 분석 시스템(100)은, 다양한 타입의 회귀 분석 알고리즘 및/또는 통합 회귀 분석 네트워크의 동작을 수행함에 있어서, 출력과 같은 표현 특성 및 메틸화를 특징으로 하는 데이터에 기반하여 수행할 수 있다.
통합 분석 시스템(100)은 회귀 계수 행렬을 확인하여 각각의 프로파일에 대하여 유사 네트워크 및 친화도를 구성하는데 사용할 수 있다. 그리고, 통합 분석 시스템(100)은, 생성된 네트워크를 유사 네트워크 융합 기술에 기반하여 통합 회귀 분석 네트워크(101)로 융합될 수 있다.
일 실시 예에 따르면, 통합 분석 시스템(100)은, 다양한 타입의 높은 처리량 데이터(high-throughput data, 예: 유전자 표현 데이터 및/또는 메틸화 데이터)를 사용하여 암 유전체 지도(the cancer genome atlas, TCGA)로부터 교모세포종(glioblastoma multi-forme, GBM, 신경암), 침윤성 유방암(breast invasive carcinoma, BIC, 유방암), 편평세포 폐암(lung squamous cell carcinoma, LSCC, 폐암), 신장 투명 세포암(kidney renal clear cell carcinoma, KRCCC, 신장암), and 대장 선암(colon adenocarcinoma, COAD, 대장암) 중 적어도 하나의 정보를 수집할 수 있다.
이하 표 1은, 본 발명의 일 실시 예에 따른 통합 분석 시스템에서 다양한 타입의 암 데이터 세트에서 메틸화 데이터 및 표현 데이터 중 적어도 일부를 표시한다.
표 (1)
Figure 112015115944521-pat00009
여기에서, 유사한 회귀 분석 계수 크기를 갖는 유전자 표현 데이터(예: mRNA 표현 데이터) 및 메틸화 데이터의 특징은 특성(trait)에 대하여 가중치 결과(weightage)를 동등하게 가지거나, 또는 특성은 일반적인 생물학적 조절 과정에서 유사한 특징들의 세트에 기반하여 영향을 받을 수 있다. 따라서, 통합 분석 시스템(100)은, 이러한 회귀 계수 유사성에 기반하여 회귀 분석 네트워크를 구성할 수 있다.
도 5a는 본 발명의 일 실시 예에 따른 통합 분석 시스템에서, 유사한 효과를 가지는 배타 계수를 가지는 다른 두 유전자를 결정하는 동작을 도시하고, 도 5b는 본 발명의 일 실시 예에 따른 통합 분석 시스템에서, 유사한 베타 효과를 가지는 유전자들의 관계를 정의하는 동작을 도시한다.
통합 분석 시스템(100)은, 유전자 사이의 네트워크에서 유전자를 정점(vertex)으로 표현하고, 유전자 사이의 상호 작용을 표현함에 있어서, 가중치가 부여되는 엣지(weighted edge, edge)로 표현할 수 있다. 그리고, 통합 분석 시스템(100)은 다양한 회귀 분석 알고리즘을 이용하여 데이터베이스에 저장된 다양한 유전자 쌍들에 대하여 주어진 베타 계수 벡터간 피어슨 상관 계수(pearson correlation coefficient)를 측정할 수 있고, 측정된 베타 계수 벡터간 피어슨 상관 계수에 기반하여 유전자 쌍들의 가중치를 결정할 수 있다.
도 5a를 참조하면, 통합 회귀 분석 시스템은, 지정된 특징에 대하여 유사한 회귀 분석 계수를 가지는 제1 유전자 및 제2 유전자를 결정할 수 있다. 그리고, 통합 회귀 분석 시스템은, 결정된 제1 유전자 및 제2 유전자에 대하여 엣지를 생성하며, 유전자 발현 네트워크에서 출력 변수 간의 네트워크를 형성할 수 있다.
유사한 방법을 통해서, 통합 분석 시스템(100)은, 메틸화 기능 네트워크를 형성할 수 있고, 여기에서 엣지의 가중치(edge weight)는 유사 네트워크의 융합(Similarity Network Fusion, SNF) 알고리즘에서 회귀 계수 벡터의 친화도(또는 유사성, affinities)로 정의할 수 있다.
도 5b를 참조하면, 통합 분석 시스템(100)은, 데이터베이스(예: 유전자 풀)에 기반하여 다양한 유전자 쌍을 식별할 수 있고, 공유 정보 및/또는 각각의 네트워크의 유사성에 기반하여 유전자 데이터 세트(115)의 상호 보완적인 것으로 결정되는 정보를 확인할 수 있다. 통합 분석 시스템(100)은, 잡음 감소와 신호 강도 증가를 통해서 네트워크에서 지원되는 낮은 가중치의 엣지들에 기반하여 융합 네트워크에서 약한 유사성으로 결정되는 정보를 제거할 수 있다.
도 6은 본 발명의 다양한 실시 예에 따른 통합 회귀 분석 네트워크의 구성을 도시한다.
통합 분석 시스템(100)은, 다양한 회귀 분석 알고리즘에서 유전자 사이의 상호작용 네트워크를 구성할 수 있고, 유사 네트워크 융합 알고리즘에 기반하여 상호작용 네트워크를 융합한 통합 회귀 분석 네트워크(101)을 생성할 수 있다.
통합 분석 시스템(100)은 유사 네트워크의 융합에 있어서 하기 식(1)을 참조하면, 전체 커널 정규화 가중치 행렬 P는 엣지 가중치 행렬 W에 기반하여 변환할 수 있고, 여기에서, D는 하기 식(2)와 같은 대각 행렬로 정의될 수 있다.
Figure 112015115944521-pat00010
(1)
Figure 112015115944521-pat00011
(2)
여기에서, 통합 분석 시스템(100)은, 가중치 행렬 W에서 가장 가까운 이웃 인자(의 수) K(K nearest neighbors, KNN)을 사용하여 로컬 친화도 S를 측정할 수 있다. 통합 분석 시스템(100)은, 주어진 d 유사성 행렬에 대하여 유사 네트워크의 융합(Similarity Network Fusion, SNF) 알고리즘의 적어도 일부에 적용할 수 있다. 여기에서, 주어진 d 유사성 행렬은 하기 식(3)을 이용하여 각각의 친화도 행렬에 대하여 유사성을 업데이트하는 동작을 반복적으로 수행하는 것일 수 있다.
Figure 112015115944521-pat00012
Figure 112015115944521-pat00013
Figure 112015115944521-pat00014
Figure 112015115944521-pat00015
(3)
이하 통합 분석 시스템(100)은, 지정된 유사성 행렬 d에 대하여, 4개의 회귀 분석 방법으로부터 결정되는 4개의 데이터 세트(d=4)로 결정할 수 있고, 융합 네트워크에 효과를 전파하기 위하여 20회의 반복(t=20)하는 가중치 행렬 P에 대하여 설명할 수 있다.
식(3)을 참조하면, 통합 분석 시스템(100)은 2 개 타입의 데이터 세트에 대한 유사성 융합에 대한 것으로 설명하고 있지만, 이에 한정하지 않고, 둘 이상이 데이터 세트(2<d)에 대하여도 앙상블을 형성할 수 있다.
통합 분석 시스템(100)은, 유사 네트워크의 융합(SNF) 알고리즘의 전파 효과에 기반하여, 하나의 네트워크에서 2개의 노드가 매우 큰 유사성을 가지는 것으로 결정하지 않는 경우, 다른 네트워크에서 강한 유사성을 가지는 것으로 결정할 수 있다. 따라서, 통합 분석 시스템(100)은, 유사 네트워크의 융합(SNF) 알고리즘에 기반하여 유전자 쌍을 최종 융합 네트워크(final fusion network)에 전달할 수 있다.
여기에서, 유사 네트워크의 융합(SNF) 알고리즘, 친화도 측정 중 적어도 일부는 일반적으로 알려진 유사 네트워크 융합 도구(SNF tools)의 패키지를 사용하여 R에서 구현될 수 있다. 여기에서, 네트워크 융합은 알려진 메시지 전달 이론(message-passing theory)의 동작에서 비선형 방법(non-linear method)에 기반하여 수행될 수 있다.
본 발명의 일 실시 예에 따르면, 통합 분석 시스템(100)은 유사 네트워크 융합(SNF) 알고리즘에 대하여 이웃 인자(의 수) K와 매개 변수 알파(α)를 결정할 수 있다. 여기에서, 이웃 인자 K의 범위 및 알파(α)의 범위의 일 실시 예에 따르면, 이웃 인자 K의 범위는 2 내지 20의 상수로 결정할 수 있고, 알파(α)의 범위는 0.3 내지 0.8의 상수로 결정할 수 있다. 통합 분석 시스템(100)은, 이웃 인자 K 및 알파(α)의 조합, 및 친화도 측정과 관련하여 SNF tools 패키지 중 적어도 일부 및 하기 식(4)를 적용할 수 있다.
일 실시 예에 따르면, 통합 분석 시스템(100)은 다수의 유전자간 상호 네트워크에 유사 네트워크 융합(SNF) 알고리즘을 적용하였을 때, 하기 식(4)에 기반하여 적어도 하나의 융합 네트워크를 생성할 수 있다.
Figure 112015115944521-pat00016
Figure 112015115944521-pat00017
(4)
여기에서, N은 유전자간 상호 작용 네트워크의 수로 결정할 수 있다. w는N 개의 유전자간 상호 작용 네트워크로 구성되는 집합으로 결정될 수 있고, 일 실시 예에 따르면, N=4로 결정되는 경우, w1, w2, w3 및 w4 는 SNF tools 중 적어도 일부를 이용하여 측정된 친화도 세트로 결정할 수 있다. 또한, wf는 w1, w2, w3 및 w4 중 적어도 일부의 융합에 기반하여 획득하는 융합 회귀 분석 세트일 수 있다. 예를 들어, wf는 유사 네트워크 융합 도구 및 상기 적어도 하나의 변수(예: N, i, j 중 적어도 하나)에 기반하여 결정되는 융합 회귀 분석 세트일 수 있다. 일 실시 예에 따르면, 통합 회귀 분석 네트워크는 적어도 하나의 융합 회귀 분석 세트를 포함하여 구성될 수 있다.
일 실시 예에 따르면, 상기 다수의 유전자간 상호 네트워크에 상기 유사 네트워크 융합 알고리즘을 적용하였을 때, 식 (4)의 값이 최대가 되는 경우의 융합 회귀 분석 세트(wf)를 통합 회귀 분석 네트워크로 결정(또는 생성)할 수 있다. 이 때, wf는 상기 유사 네트워크 융합 도구 및 상기 적어도 하나의 변수에 기반하여 결정되는 통합 회귀 분석 네트워크로 정의될 수 있다.
통합 분석 시스템(100)은, 친화도 세트 wf 및 wi 사이의 상관 관계를 wf 및 wi에 대한 순차 추론 머신(sequential inference machine)에 기반하여 결정할 수 있다. 통합 분석 시스템(100)은 SNF tools 패키지 중 적어도 일부 및 식(4)에 기반하여 제공된 다양한 행렬의 상관 관계 및 네트워크 통합을 수행할 수 있다. 통합 분석 시스템(100)은 각각의 데이터 세트에 대하여 해당 함수(예: 식(4))의 값이 지정된 수치 이상이 되는 이웃 인자 K 및 또는 매개 변수 알파(α)를 확인할 수 있고, 해당 매개 변수에 기반하여 통합 회귀 분석 네트워크(101)를 생성할 수 있다.
일 실시 예에 따르면, 통합 분석 시스템(100)은, 행렬 전치되지 않는 β 세트에 대한 회귀 계수 행렬의 이용에 기반하여 메틸화 특징의 유사도 측정을 제공할 수 있고, 회귀 계수 행렬 전치를 발현하는 형질 유사도 측정을 제공할 수 있다.
따라서, 본 발명의 다양한 실시 예에 따르면, 통합 분석 시스템(100)은, 친화도 행렬 및/또는 유사 네트워크 융합(SNF) 알고리즘에 기반하여 지정된 데이터 세트의 프로필에 대한 이웃 인자 K 값 및 매개 변수 알파(α)를 측정할 수 있다.
통합 분석 시스템(100)은 통합 회귀 분석 네트워크(101)를 결정함에 있어서, 상술한 식(4)의 결과 값이 최대인 경우 생성되는 네트워크를 통합 회귀 분석 네트워크(101)에 포함할 수 있다.
일 실시 예에 따르면, 통합 회귀 분석 네트워크(101)는 완전 그래프 형태로 구성될 수 있다. 이 때, 통합 분석 시스템(100)은 실제 네트워크와 무작위로 선택된 적어도 하나의 회귀 분석 알고리즘 간의 네트워크 토폴로지(network topology)를 비교할 수 있다. 통합 분석 시스템(100)는 통합 회귀 분석 네트워크(101)의 결과 및 무작위로 선택된 회귀 분석 네트워크의 결과를 비교하여, 지정된 수치 이상의 차이를 보이는 토폴로지를 포함하는 네트워크를 유전자 발현 형질의 데이터로 결정할 수 있다.
도 7은, 본 발명의 다양한 실시 예에 따른 통합 분석 시스템에서, 통합 회귀 분석 네트워크 및 다양한 회귀 분석 알고리즘의 동작을 도시한다.
본 발명의 다양한 실시 예에 따르면, 통합 분석 시스템(100)은, 회귀 분석 네트워크에서 엣지 필터링에 대한 컷오프(cutoff) 조건(117)을 식별할 수 있다. 일 실시 예에 따르면, 통합 분석 시스템(100)은, 각각의 친화도 행렬 및 지정된 최종 융합 행렬로부터 선택된 유전자 쌍에 기반하여 컷오프 조건(117)을 결정할 수 있다. 예를 들어, 통합 분석 시스템(100)은, 다양한 융합 네트워크(예: 5개의 융합 네트워크) 및 지정된 친화도 행렬에 대하여 이하 식(5)을 통한 지정된 횟수(예: 100회)의 순열에 기반하여 컷오프 조건(117)을 식별할 수 있다. 여기에서, 식별된 컷오프는, 실제 네트워크(또는 대상 네트워크)의 엣지들의 총 수가 순열된 네트워크에서 엣지들의 총 수 보다 작은 경우 및/또는 최대 연결 요소에 기반하여 결정될 수 있다.
Figure 112015115944521-pat00018
(5)
본 발명의 일 실시 예에 따르면, 통합 분석 시스템(100)은, W를 실제 네트워크로 결정할 수 있고, WPk 는 k번째(kth)의 순열 네트워크로 결정할 수 있다. 통합 분석 시스템(100)은, 네트워크 X에서 엣지들의 수 및 최대 연결 요소를 각각 E(X) 및 C(X)로 결정할 수 있다. 예를 들어, 식(5)에서 분자는 순열된 네트워크에서 엣지들의 총 수 및 최대 연결 요소의 평균이고, 분모는 실제 네트워크에서 엣지들의 총 수 및 최대 연결 요소로 결정될 수 있다.
여기에서,
Figure 112015115944521-pat00019
이고,
Figure 112015115944521-pat00020
일 수 있다.
본 발명의 다양한 실시 예에 따르면, 통합 회귀 분석 시스템은, 상술된 통합 회귀 분석 네트워크(101) 및 식(5)의 동작에 기반하여 주요 유전적 특징을 가지는(또는 형질 발현될 것으로 예상되는) 유전자의 수를 결정할 수 있다.
본 발명의 다양한 실시 예에 따르면, 통합 분석 시스템(100)은, 통합 회귀 분석 네트워크(101)에 기반하여 지정된 타입의 유전자 쌍을 선택하기 위한 순열 방식을 결정할 수 있다.
통합 분석 시스템(100)은, 게놈 특징과 특성 발현에 대한 정도를 수치로 표현하는 회귀 계수를 결정할 수 있고, 또한 게놈 특징의 유사성을 측정 및 이에 기반하는 베타 계수의 융합으로써 암과 같은 질환의 프로파일을 확인할 수 있다. 통합 분석 시스템(100)은, 통합 회귀 분석 네트워크(101)에 기반하여 게놈의 다른 유형에서 서로 중복하여 나타나는 게놈 연관을 확인할 수 있다.
도 1 내지 도 7에서 설명한 동작들은, 통합 회귀 분석 네트워크(101)에서 수행하는 것으로 설명하고 있지만 이에 한정하지 않고, 통합 분석 시스템(100)에 포함된 적어도 하나의 프로세서를 통해서 수행할 수 있다. 이 때, 프로세서는, 통합 분석 시스템(100)에 포함된 적어도 하나의 구성 요소, 예를 들어, 통합 분석 시스템(100)에 포함된 통합 회귀 분석 네트워크(101)의 동작을 제어할 수 있음은 자명하다.
본 발명의 일 실시 예에 따르면, 통합 회귀 분석 네트워크 구축 방법은, 데이터베이스에 기 저장된 데이터 세트의 적어도 일부에 둘 이상의 회귀 분석 알고리즘을 적용하여 각각의 회귀 분석 알고리즘에 대한 다수의 베타 계수 벡터를 획득하는 단계; 상기 획득한 다수의 베타 계수 벡터를 이용하여 다수의 유전자간 상호 작용 네트워크를 생성하는 단계; 및 상기 생성된 유전자간 상호 작용 네트워크에서 유사 네트워크 융합 알고리즘에 기반하여 통합 회귀 분석 네트워크를 생성하는 단계;를 포함할 수 있다.
다양한 실시 예에 따르면, 상기 유전자간 상호 네트워크는, 상기 베타 계수 벡터에 대하여 피어슨 상관 계수를 측정하여 결정되는 유전자 쌍들의 가중치에 기반하여 결정할 수 있다.
다양한 실시 예에 따르면, 상기 통합 회귀 분석 네트워크는, 상기 다수의 유전자간 상호 네트워크에 상기 유사 네트워크 융합 알고리즘을 적용하였을 때, 하기 식(예: 식(4))의 값이 최대인 상태에서 생성할 수 있다.
[식]
Figure 112015115944521-pat00021
(N: 유전자간 상호 작용 네트워크의 수, W: N 개의 유전자간 상호 작용 네트워크로 구성되는 집합, wf: 상기 유사 네트워크 융합 도구 및 상기 적어도 하나의 변수에 기반하여 결정되는 통합 회귀 분석 네트워크)
다양한 실시 예에 따르면, 상기 통합 회귀 분석 네트워크 구축 방법은, 상기 통합 회귀 분석 네트워크에서 지정된 순열 테스트를 수행하여 다수의 유전적 발현 형질을 획득하는 단계를 더 포함할 수 있다.
다양한 실시 예에 따르면, 상기 통합 회귀 분석 네트워크에 하기 식(예: 식(5))을 적용하여 상기 다수의 유전적 발현 형질을 반영한 네트워크를 획득할 수 있다.
[식]
Figure 112015115944521-pat00022
(W: 실제 네트워크, WPk: k번째의 순열 네트워크, E(): 네트워크에서 엣지들의 수, C(): 네트워크에서 최대 연결 요소,
Figure 112015115944521-pat00023
,
Figure 112015115944521-pat00024
)
다양한 실시 예에 따르면, 상기 다수의 유전적 발현 형질은, 상기 통합 회귀 분석 네트워크의 토폴로지와 상기 복수의 회귀 분석 알고리즘 중 적어도 하나의 토폴로지에 기반하여 획득할 수 있다.
본 발명의 일 실시 예에 따르면, 통합 회귀 분석 네트워크에 기반하는 통합 분석 시스템은, 복수의 회귀 분석 알고리즘을 포함하는 데이터베이스; 및 상기 데이터베이스에 기 저장된 데이터 세트의 적어도 일부에 둘 이상의 회귀 분석 알고리즘을 적용하여 각각의 회귀 분석 알고리즘에 대한 다수의 베타 계수 벡터를 획득하고, 상기 획득한 다수의 베타 계수 벡터를 이용하여 다수의 유전자간 상호 작용 네트워크를 생성하고, 상기 생성된 유전자간 상호 작용 네트워크에서 유사 네트워크 융합 알고리즘에 기반하여 통합 회귀 분석 네트워크를 생성하도록 처리하는 프로세서를 포함할 수 있다.
다양한 실시 예에 따르면, 상기 프로세서는, 상기 베타 계수 벡터에 대하여 피어슨 상관 계수를 측정하여 결정되는 유전자 쌍들의 가중치에 기반하여 상기 유전자간 상호 네트워크를 결정할 수 있다.
다양한 실시 예에 따르면, 상기 프로세서는, 상기 다수의 유전자간 상호 네트워크에 상기 유사 네트워크 융합 알고리즘을 적용하였을 때, 하기 식(예: 식(4))의 값이 최대인 상태에서 상기 통합 회귀 분석 네트워크를 생성할 수 있다.
[식]
Figure 112015115944521-pat00025
(N: 유전자간 상호 작용 네트워크의 수, W: 상기 N 개의 유전자간 상호 작용 네트워크로 구성되는 집합, wf: 상기 유사 네트워크 융합 도구 및 상기 적어도 하나의 변수에 기반하여 결정되는 통합 회귀 분석 네트워크)
다양한 실시 예에 따르면, 상기 프로세서는, 상기 통합 회귀 분석 네트워크에서 지정된 순열 테스트를 수행하여 다수의 유전적 발현 형질을 획득할 수 있다.
다양한 실시 예에 따르면, 상기 프로세서는, 상기 통합 회귀 분석 네트워크에 하기 식(예: 식(5))을 적용하여 상기 다수의 유전적 발현 형질을 반영한 네트워크를 획득할 수 있다.
[식]
Figure 112015115944521-pat00026
(W: 실제 네트워크, WPk: k번째의 순열 네트워크, E(): 네트워크에서 엣지들의 수, C(): 네트워크에서 최대 연결 요소,
Figure 112015115944521-pat00027
,
Figure 112015115944521-pat00028
)
다양한 실시 예에 따르면, 상기 프로세서는, 상기 통합 회귀 분석 네트워크의 토폴로지와 상기 복수의 회귀 분석 알고리즘 중 적어도 하나의 토폴로지에 기반하여 상기 다수의 유전적 발현 형질을 획득할 수 있다.
본 발명의 다양한 실시 예에 따르면, 통합 분석 시스템(100)은, 통합 회귀 분석 네트워크(101)에 기반하여 지정된 타입의 유전자 쌍을 선택하기 위한 순열 방식을 결정할 수 있다.
통합 분석 시스템(100)은, 게놈 특징과 특성 발현에 대한 정도를 수치로 표현하는 회귀 계수를 결정할 수 있고, 또한 게놈 특징의 유사성을 측정 및 이에 기반하는 베타 계수의 융합으로써 암과 같은 질환의 프로파일을 확인할 수 있다. 통합 분석 시스템(100)은, 통합 회귀 분석 네트워크(101)에 기반하여 게놈의 다른 유형에서 서로 중복하여 나타나는 게놈 연관을 확인할 수 있다.
본 발명의 다양한 실시 예에 따르면, 통합 분석 시스템은, 다양한 회귀 분석 알고리즘에 기반하는 통합 회귀 분석 네트워크에 다종 오믹스 데이터로부터 일관적인 유전적 발현 형질을 제공함으로써, 데이터의 신뢰도를 향상시킬 수 있다.
본 발명의 다양한 실시 예에 따르면, 통합 분석 시스템은, 다양한 회귀 분석 결과를 통합하여 각각의 회귀 분석 결과의 장점 및 단점을 취합하여 보다 신뢰성 높은 회귀 분석 결과로 도출할 수 있다.
상기와 같은 방법 및/또는 장치들은 도 1 내지 도 7에 도시된 바와 같이 통합 분석 시스템을 통해서 구현될 수 있고, 특히, 이러한 동작들을 수행하는 소프트웨어 프로그램(또는 애플리케이션)으로 구현될 수 있으며, 이 경우 이러한 프로그램들은 컴퓨터 판독 가능한 기록 매체에 저장되거나 전송 매체 또는 통신망에서 반송파와 결합된 컴퓨터 데이터 신호에 의하여 전송될 수 있다. 이 때, 컴퓨터 판독 가능한 기록 매체는 컴퓨터 시스템에 의해 판독 가능한 데이터가 저장되는 모든 종류의 기록 장치를 포함하며, 예를 들면, ROM, RAM, CD-ROM, DBD-ROM, DBD-RAM, 자기 테이프, 플로피 디스크, 하드 디스크, 광 데이터 저장 장치 등일 수 있다.
이상에서 본 발명의 일 실시 예에 대하여 설명하였으나, 본 발명의 사상은 본 명세서에 제시되는 실시 예에 제한되지 아니하며, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서, 구성 요소의 부가, 변경, 삭제, 추가 등에 의해서 다른 실시 예를 용이하게 제안할 수 있을 것이나, 이 또한 본 발명의 사상 범위 내에 든다고 할 것이다.
100: 통합 분석 시스템 111: 데이터베이스
113: DB 인터페이스 115: 데이터 세트
101: 통합 회귀 분석 네트워크 117: 컷오프 조건

Claims (13)

  1. 통합 분석 시스템에 있어서,
    데이터베이스에 저장된 데이터에 둘 이상의 회귀 분석 알고리즘을 적용하여 둘 이상의 베타 계수 벡터를 획득하는 단계;
    획득한 상기 둘 이상의 베타 계수 벡터를 이용하여, 유전자 사이의 상호 작용을 가중치가 부여된 엣지(edge)로 표현하는 유전자간 상호 작용 네트워크를 둘 이상 생성하는 단계;
    상기 생성된 둘 이상의 유전자간 상호 작용 네트워크에 유사 네트워크 융합 알고리즘(Similarity Network Fusion; SNF)을 적용하여, 친화도에 따른 유전자 쌍을 추출하는 단계;
    추출된 상기 유전자 쌍을 융합하고, 추출된 상기 유전자 쌍과 융합된 상기 유전자 쌍에 상기 둘 이상의 유전자간 상호 작용 네트워크를 적용하여, 둘 이상의 융합 회귀 분석 세트를 생성하는 단계; 및
    생성된 상기 둘 이상의 융합 회귀 분석 세트 중 특정 값이 최대가 되는 융합 회귀 분석 세트를 통합 회귀 분석 네트워크로 결정하는 단계를 포함하는, 통합 회귀 분석 네트워크 구축 방법.
  2. 제1항에 있어서,
    상기 유전자간 상호 작용 네트워크는, 상기 둘 이상의 베타 계수 벡터에 대하여 피어슨 상관 계수를 측정하여 결정되는 유전자 쌍들의 가중치에 기반하여 결정하는, 통합 회귀 분석 네트워크 구축 방법.
  3. 제1항에 있어서,
    상기 둘 이상의 융합 회귀 분석 세트 중 특정 값이 최대가 되는 융합 회귀 분석 세트를 통합 회귀 분석 네트워크로 결정하는 단계는, 상기 둘 이상의 유전자간 상호 네트워크에 상기 유사 네트워크 융합 알고리즘을 적용하였을 때, 하기 식의 값을 상기 특정 값으로 결정하고 하기 식의 값이 최대인 융합 회귀 분석 세트를 상기 통합 회귀 분석 네트워크로 결정하는, 통합 회귀 분석 네트워크 구축 방법.
    [식]
    Figure 112017067272501-pat00047

    (N: 유전자간 상호 작용 네트워크의 수, W: 상기 N 개의 유전자간 상호 작용 네트워크로 구성되는 엣지 가중치 행렬, wi: 상기 유사 네트워크 융합에 사용되는 i번째 유전자간 상호 작용 네트워크의 행렬 변수, wj: 상기 유사 네트워크 융합 에 사용되는 j번째 유전자간 상호 작용 네트워크의 행렬 변수, wf: 상기 wi 및 상기 wj 중 적어도 일부의 융합에 기반하여 결정되는 융합 회귀 분석 세트, SIM(): 서로 다른 2개의 유전자간 상호 작용 네트워크의 행렬에 대한 유사도를 측정하는 척도)
  4. 제1항에 있어서,
    상기 통합 회귀 분석 네트워크에서 지정된 순열 테스트를 수행하여 다수의 유전적 발현 형질을 획득하는 단계를 더 포함하는, 통합 회귀 분석 네트워크 구축 방법.
  5. 제4항에 있어서,
    상기 통합 회귀 분석 네트워크에 하기 식을 적용하여 상기 다수의 유전적 발현 형질을 반영한 네트워크를 획득하는, 통합 회귀 분석 네트워크 구축 방법.
    [식]
    Figure 112017067272501-pat00048

    (W: 실제 네트워크, WP: 순열 네트워크, WPk: k번째의 순열 네트워크, E(Wc): 실제 네트워크에서 엣지들의 수, C(Wc): 실제 네트워크에서 최대 연결 요소)
  6. 제4항에 있어서,
    상기 다수의 유전적 발현 형질은, 상기 통합 회귀 분석 네트워크의 토폴로지와 상기 둘 이상의 회귀 분석 알고리즘 중 적어도 하나의 토폴로지에 기반하여 획득하는, 통합 회귀 분석 네트워크 구축 방법.
  7. 복수의 회귀 분석 알고리즘을 포함하는 데이터베이스; 및
    상기 데이터베이스에 저장된 데이터에 둘 이상의 회귀 분석 알고리즘을 적용하여 둘 이상의 베타 계수 벡터를 획득하고, 획득한 상기 둘 이상의 베타 계수 벡터를 이용하여, 유전자 사이의 상호 작용을 가중치가 부여된 엣지(edge)오 표현하는 유전자간 상호 작용 네트워크를 둘 이상 생성하고, 상기 생성된 둘 이상의 유전자간 상호 작용 네트워크에 유사 네트워크 융합 알고리즘(Similarity Network Fusion; SNF) 을 적용하여, 친화도에 따른 유전자 쌍을 추출하고, 추출된 상기 유전자 쌍을 융합하고, 추출된 상기 유전자 쌍과 융합된 상기 유전자 쌍에 상기 둘 이상의 유전자간 상호 작용 네트워크를 적용하여, 둘 이상의 융합 회귀 분석 세트를 생성하고, 생성된 상기 둘 이상의 융합 회귀 분석 세트 중 특정 값이 최대가 되는 융합 회귀 분석 세트를 통합 회귀 분석 네트워크로 결정하는 프로세서;를 포함하는, 통합 회귀 분석 네트워크에 기반하는 통합 분석 시스템.
  8. 제7항에 있어서,
    상기 프로세서는, 상기 둘 이상의 베타 계수 벡터에 대하여 피어슨 상관 계수를 측정하여 결정되는 유전자 쌍들의 가중치에 기반하여 상기 유전자간 상호 작용 네트워크를 결정하는, 통합 회귀 분석 네트워크에 기반하는 통합 분석 시스템.
  9. 제7항에 있어서,
    상기 프로세서는, 상기 둘 이상의 유전자간 상호 작용 네트워크에 상기 유사 네트워크 융합 알고리즘을 적용하였을 때, 하기 식의 값을 상기 특정 값으로 결정하고 하기 식의값이 최대인 융합 회귀 분석 세트를 상기 통합 회귀 분석 네트워크로 결정하는, 통합 회귀 분석 네트워크에 기반하는 통합 분석 시스템.
    [식]
    Figure 112017067272501-pat00049

    (N: 유전자간 상호 작용 네트워크의 수, W: 상기 N 개의 유전자간 상호 작용 네트워크로 구성되는 엣지 가중치 행렬, wi: 상기 유사 네트워크 융합에 사용되는 i번째 유전자간 상호 작용 네트워크의 행렬 변수, wj: 상기 유사 네트워크 융합 에 사용되는 j번째 유전자간 상호 작용 네트워크의 행렬 변수, wf: 상기 wi 및 상기 wj 중 적어도 일부의 융합에 기반하여 결정되는 융합 회귀 분석 세트, SIM(): 서로 다른 2개의 유전자간 상호 작용 네트워크의 행렬에 대한 유사도를 측정하는 척도)
  10. 제7항에 있어서,
    상기 프로세서는, 상기 통합 회귀 분석 네트워크에서 지정된 순열 테스트를 수행하여 다수의 유전적 발현 형질을 획득하는, 통합 회귀 분석 네트워크에 기반하는 통합 분석 시스템.
  11. 제10항에 있어서,
    상기 프로세서는, 상기 통합 회귀 분석 네트워크에 하기 식을 적용하여 상기 다수의 유전적 발현 형질을 반영한 네트워크를 획득하는, 통합 회귀 분석 네트워크에 기반하는 통합 분석 시스템.
    [식]
    Figure 112017067272501-pat00050

    (W: 실제 네트워크, WP: 순열 네트워크, WPk: k번째의 순열 네트워크, E(Wc): 실제 네트워크에서 엣지들의 수, C(Wc): 실제 네트워크에서 최대 연결 요소)
  12. 제10항에 있어서,
    상기 프로세서는, 상기 통합 회귀 분석 네트워크의 토폴로지와 상기 복수의 회귀 분석 알고리즘 중 적어도 하나의 토폴로지에 기반하여 상기 다수의 유전적 발현 형질을 획득하는, 통합 회귀 분석 네트워크에 기반하는 통합 분석 시스템.
  13. 제1항에 있어서,
    상기 통합 회귀 분석 네트워크에 기반하여 지정된 유전자 쌍의 컷오프(cutoff)를 결정하는 단계;를 더 포함하는, 통합 회귀 분석 네트워크 구축 방법.
KR1020150167074A 2015-11-27 2015-11-27 통합 회귀 분석 네트워크 구축 방법 및 이에 의한 통합 분석 시스템 KR101806628B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150167074A KR101806628B1 (ko) 2015-11-27 2015-11-27 통합 회귀 분석 네트워크 구축 방법 및 이에 의한 통합 분석 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150167074A KR101806628B1 (ko) 2015-11-27 2015-11-27 통합 회귀 분석 네트워크 구축 방법 및 이에 의한 통합 분석 시스템

Publications (2)

Publication Number Publication Date
KR20170061911A KR20170061911A (ko) 2017-06-07
KR101806628B1 true KR101806628B1 (ko) 2017-12-07

Family

ID=59223885

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150167074A KR101806628B1 (ko) 2015-11-27 2015-11-27 통합 회귀 분석 네트워크 구축 방법 및 이에 의한 통합 분석 시스템

Country Status (1)

Country Link
KR (1) KR101806628B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102188118B1 (ko) * 2019-04-15 2020-12-07 인천대학교 산학협력단 암에 따른 유전자 간의 상관관계에 기초하여 유전자 분산 표현을 위한 유전자 특징 벡터를 생성하는 전자 장치 및 그 동작 방법
KR102556981B1 (ko) * 2019-12-19 2023-07-19 재단법인 제주테크노파크 소비자 만족도를 향상시키기 위한 개인 맞춤형 화장품 제공 시스템
KR102481734B1 (ko) * 2020-10-08 2022-12-27 재단법인 제주테크노파크 개인 피부 타입 결정 방법 및 이에 기반한 맞춤형 화장품 제공 방법 및 시스템

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Frontiers in Genetics, Vol. 4, Article 233(인터넷 공개일: 2013. 11. 12.)*
Nature Methods, Vol. 11, No. 3, Pages 333-337(인터넷 공개일: 2014. 1. 26.)*

Also Published As

Publication number Publication date
KR20170061911A (ko) 2017-06-07

Similar Documents

Publication Publication Date Title
US8700548B2 (en) Optimization technique using evolutionary algorithms
EP3053311B1 (en) Systems and methods for distance approximation in graphs
KR101806628B1 (ko) 통합 회귀 분석 네트워크 구축 방법 및 이에 의한 통합 분석 시스템
CN116629189B (zh) 一种集成电路的布局生成方法及装置
CN113422695B (zh) 一种提高物联网拓扑结构鲁棒性能的优化方法
CN110705045B (zh) 一种利用网络拓扑特性构建加权网络的链路预测方法
WO2021064461A1 (en) Systems and method for designing organic synthesis pathways for desired organic molecules
JP6930602B2 (ja) 異常判定装置、異常判定方法、及びプログラム
CN103425579B (zh) 基于势函数的移动终端系统安全测评方法
Herrero et al. Self-avoiding walks and connective constants in small-world networks
CN117422041A (zh) 模拟芯片自动化布线模型训练方法及自动化布线方法
JP2022549407A (ja) レジーム・シフトの識別及び分析のための方法及びシステム
KR20170062308A (ko) 상위 k 중요 패턴 마이닝 방법, 이를 수행하는 장치 및 이를 저장하는 기록매체
TWI778789B (zh) 配方建構系統、配方建構方法、內儲程式之電腦可讀取記錄媒體與非暫時性電腦程式產品
WO2022068200A1 (zh) 缺陷预测方法和装置、存储介质和电子装置
KR20180119443A (ko) 가우시안 프로세스 회귀분석을 이용한 클러스터링 방법 및 그 장치
JP4387296B2 (ja) ネットワーク設計支援装置及びプログラム
CN110705593A (zh) 训练关系网络嵌入模型和确定使用概率的方法及装置
CN115865740B (zh) 一种基于网络结构的关键链路识别方法及装置
Rodionov et al. Reliability Polynomials in Optimizing Placement of Base Stations in Monitoring Networks
JP7036344B2 (ja) 通信品質劣化推定装置、通信品質劣化推定方法、及びプログラム
CN117349623B (zh) 一种基于双种群哈里斯鹰算法的系统级故障诊断方法
CN113742849B (zh) 类固液飞行器总体设计的变量灵敏度分析方法及装置
CN113158072B (zh) 多属性异构网络节点影响力度量方法、装置、设备及介质
US11003825B1 (en) System, method, and computer program product for optimization in an electronic design

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant