KR102395564B1

KR102395564B1 - 데이터의 전향적 전처리 장치 및 그 방법

Info

Publication number: KR102395564B1
Application number: KR1020200164421A
Authority: KR
Inventors: 이정훈
Original assignee: 주식회사 루닛
Priority date: 2020-02-13
Filing date: 2020-11-30
Publication date: 2022-05-10
Also published as: KR20210103381A

Abstract

데이터의 전향적 전처리 장치 및 그 방법이 제공된다. 상기 데이터의 전향적 전처리 방법은, 복수의 제1 데이터를 포함하는 제1 데이터 세트를 수신하고, 상기 제1 데이터 세트를 기반으로 노멀라이제이션 샘플 데이터 세트를 생성하고, 상기 복수의 제1 데이터를 개별적으로 상기 노멀라이제이션 샘플 데이터 세트와 함께 노멀라이제이션하여 상기 제1 데이터 세트를 노멀라이제이션하고, 복수의 제2 데이터를 포함하는 제2 데이터 세트를 수신하고, 상기 복수의 제2 데이터를 개별적으로 상기 노멀라이제이션 샘플 데이터 세트와 함께 노멀라이제이션하여 상기 제2 데이터 세트를 노멀라이제이션하는 것을 포함하고, 상기 제1 데이터 세트는 제1 서브 세트 및 제2 서브 세트를 포함하고, 상기 노멀라이제이션 샘플 데이터 세트를 생성하는 것은, 상기 제1 데이터 세트의 제1 서브 세트를 상기 노멀라이제이션 샘플 데이터 세트로 설정하고, 상기 제2 서브 세트를 상기 제1 데이터 세트로 재설정하는 것을 포함한다.

Description

데이터의 전향적 전처리 장치 및 그 방법{Device for Prospective Preprocessing Data and Method thereof}

본 발명은 데이터의 전향적 전처리 장치 및 그 방법에 관한 것이다. 구체적으로는, 데이터의 노멀라이제이션(Normalization)을 전향적으로 수행할 수 있는 데이터의 전향적 전처리 장치 및 그 방법에 관한 것이다.

고효율실험기법(High throughput technology)의 발전으로 인하여, 대용량의 데이터가 쏟아져 나오고 있다. 이 기술로 만들어진 데이터들은 마이닝 기법을 통해 새로운 정보를 얻거나, 기계학습을 통해 새로운 사실을 예측하기에 매우 좋은 데이터이지만, 데이터의 전처리에 따라 효용성이 크게 달라질 수 있다.

따라서 올바른 마이닝 및 기계학습을 위해서, 데이터 노멀라이제이션 작업이 필수적으로 요구된다. 그러나, 고효율실험기법을 통해 얻는 데이터에 사용되는 고도화된 노말라이제이션 기법은 전처리 이후에 추가되는 데이터에 대한 전처리를 포기해야하는 문제가 있다. 더욱이, 새로운 데이터가 입력될 때마다 다시 노멀라이제이션을 수행하는 것은 기존의 전처리 데이터를 활용한 결과물과의 충돌을 불러오고, 시간적 낭비 및 비용적 낭비를 불러올 우려가 있다.

한국등록특허공보 제 10- 2051226호

본 발명이 해결하려는 과제는, 새로 발생하는 데이터의 전향적 활용을 위한 데이터의 전향적 전처리 방법을 제공하는 것이다.

데이터본 발명이 해결하려는 다른 과제는, 새로 발생하는 데이터의 전향적 활용을 위한 데이터의 전향적 전처리 방법에 대한 컴퓨터로 판독가능한 기록매체에 저장된 컴퓨터 프로그램을 제공하는 것이다.

본 발명이 해결하려는 또 다른 과제는, 새로 발생하는 데이터의 전향적 활용을 위한 데이터의 전향적 전처리 장치를 제공하는 것이다.

본 발명이 해결하려는 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 과제를 해결하기 위한 본 발명의 몇몇 실시예에 따른 데이터의 전향적 전처리 방법은 복수의 제1 데이터를 포함하는 제1 데이터 세트를 수신하고, 상기 제1 데이터 세트를 기반으로 노멀라이제이션 샘플 데이터 세트를 생성하고, 상기 복수의 제1 데이터를 개별적으로 상기 노멀라이제이션 샘플 데이터 세트와 함께 노멀라이제이션하여 상기 제1 데이터 세트를 노멀라이제이션하고, 복수의 제2 데이터를 포함하는 제2 데이터 세트를 수신하고, 상기 복수의 제2 데이터를 개별적으로 상기 노멀라이제이션 샘플 데이터 세트와 함께 노멀라이제이션하여 상기 제2 데이터 세트를 노멀라이제이션하는 것을 포함하고, 상기 제1 데이터 세트는 제1 서브 세트 및 제2 서브 세트를 포함하고, 상기 노멀라이제이션 샘플 데이터 세트를 생성하는 것은, 상기 제1 데이터 세트의 제1 서브 세트를 상기 노멀라이제이션 샘플 데이터 세트로 설정하고, 상기 제2 서브 세트를 상기 제1 데이터 세트로 재설정하는 것을 포함한다.

상기 다른 과제를 해결하기 위한 본 발명의 다른 실시예에 따른 데이터의 전향적 전처리 방법은 복수의 제1 데이터를 포함하는 제1 데이터 세트를 수신하고, 상기 제1 데이터 세트를 기반으로 노멀라이제이션 샘플 데이터 세트를 생성하고, 상기 복수의 제1 데이터를 개별적으로 상기 노멀라이제이션 샘플 데이터 세트와 함께 노멀라이제이션하여 상기 제1 데이터 세트를 노멀라이제이션하고, 복수의 제2 데이터를 포함하는 제2 데이터 세트를 수신하고, 상기 복수의 제2 데이터를 개별적으로 상기 노멀라이제이션 샘플 데이터 세트와 함께 노멀라이제이션하여 상기 제2 데이터 세트를 노멀라이제이션하는 것을 포함하고, 상기 노멀라이제이션 데이터 세트를 생성하는 것은, 상기 복수의 제1 데이터를 기반으로 시뮬레이션 데이터 세트를 생성하고, 상기 시뮬레이션 데이터 세트를 상기 노멀라이제이션 데이터 세트로 설정하는 것을 포함한다.

상기 또 다른 과제를 해결하기 위한 본 발명의 다른 실시예에 따른 데이터의 전향적 전처리 방법은 복수의 제1 데이터를 포함하는 제1 데이터 세트를 수신하고, 상기 제1 데이터 세트를 기반으로 노멀라이제이션 샘플 데이터 세트를 생성하고, 상기 복수의 제1 데이터를 개별적으로 상기 노멀라이제이션 샘플 데이터 세트와 함께 노멀라이제이션하여 상기 제1 데이터 세트를 노멀라이제이션하고, 복수의 제2 데이터를 포함하는 제2 데이터 세트를 수신하고, 상기 복수의 제2 데이터를 개별적으로 상기 노멀라이제이션 샘플 데이터 세트와 함께 노멀라이제이션하여 상기 제2 데이터 세트를 노멀라이제이션하는 것을 포함하고, 상기 노멀라이제이션 샘플 데이터 세트를 생성하는 것은, 상기 제1 데이터 세트와 관련된 외부 데이터 세트를 수신하고, 상기 외부 데이터 세트를 상기 노멀라이제이션 샘플 데이터 세트로 설정하는 것을 포함하고, 상기 노멀라이제이션 데이터 세트와 제1 및 제2 데이터 세트를 같이 노멀라이제이션하는 것은, TMM(Trimmed Mean of M-values), RLE(relative log expression), MRN(multimodal residual networks), 오라클 노멀라이제이션(Oracle normalization), 프아송시퀀싱(PoissonSeq) 및 DEGES(Differentially Expressed Gene Elimination Strategy) 중 어느 하나의 알고리즘을 사용하여 노멀라이제이션하는 것을 포함한다.

상기 또 다른 과제를 해결하기 위한 본 발명의 다른 실시예에 따른 데이터의 전향적 전처리 방법은 복수의 제1 데이터를 포함하는 제1 데이터 세트를 수신하고, 상기 제1 데이터 세트를 기반으로 노멀라이제이션 샘플 데이터 세트를 생성하되, 상기 노멀라이제이션 샘플 데이터를 생성하는 방법은, 상기 제1 데이터 세트를 분할하여 생성하는 방법, 상기 제1 데이터 세트의 분포 모델을 생성한 후 상기 분포 모델에 해당하는 데이터를 랜덤 추출하여 생성하는 방법 또는 상기 제1 데이터 세트와 관련된 외부 데이터를 수신하여 생성하는 방법 중 어느 하나를 포함하고, 상기 복수의 제1 데이터를 개별적으로 상기 노멀라이제이션 샘플 데이터 세트와 함께 노멀라이제이션하여 상기 제1 데이터 세트를 노멀라이제이션한 제1 노멀라이제이션 데이터 세트를 생성하고, 상기 제1 노멀라이제이션 데이터 세트를 입력으로 신경망을 트레이닝하고, 복수의 제2 데이터를 포함하는 제2 데이터 세트를 수신하고, 상기 복수의 제2 데이터를 개별적으로 상기 노멀라이제이션 샘플 데이터 세트와 함께 노멀라이제이션하여 상기 제2 데이터 세트를 노멀라이제이션한 제2 노멀라이제이션 데이터 세트를 생성하고, 상기 제2 노멀라이제이션 데이터 세트를 입력으로 상기 신경망을 트레이닝하고, 인퍼런스 데이터를 수신하고, 상기 인퍼런스 데이터에 대한 상기 신경망의 인퍼런스 출력을 도출하는 것을 포함한다.

상기 또 다른 과제를 해결하기 위한 본 발명의 다른 실시예에 따른 컴퓨터로 판독가능한 기록매체에 저장된 컴퓨터 프로그램은, 컴퓨팅 장치와 결합하여, 복수의 제1 데이터를 포함하는 제1 데이터 세트를 수신하는 단계, 상기 제1 데이터 세트를 기반으로 노멀라이제이션 샘플 데이터 세트를 생성하되, 상기 노멀라이제이션 샘플 데이터를 생성하는 방법은, 상기 제1 데이터 세트를 분할하여 생성하는 방법, 상기 제1 데이터 세트의 분포 모델을 생성한 후 상기 분포 모델에 해당하는 데이터를 랜덤 추출하여 생성하는 방법 또는 상기 제1 데이터 세트와 관련된 외부 데이터를 수신하여 생성하는 방법 중 어느 하나를 포함하는 단계, 상기 복수의 제1 데이터를 개별적으로 상기 노멀라이제이션 샘플 데이터 세트와 함께 노멀라이제이션하여 상기 제1 데이터 세트를 노멀라이제이션한 제1 노멀라이제이션 데이터 세트를 생성하는 단계, 상기 제1 노멀라이제이션 데이터 세트를 입력으로 신경망을 트레이닝하는 단계, 제2 데이터를 포함하는 제2 데이터 세트를 수신하는 단계, 상기 복수의 제2 데이터를 개별적으로 상기 노멀라이제이션 샘플 데이터 세트와 함께 노멀라이제이션하여 상기 제2 데이터 세트를 노멀라이제이션한 제2 노멀라이제이션 데이터 세트를 생성하는 단계, 상기 제2 트레이닝 노멀라이제이션 데이터 세트를 입력으로 상기 신경망을 트레이닝하는 단계, 인퍼런스 데이터를 수신하는 단계 및 상기 인퍼런스 데이터에 대한 상기 신경망의 인퍼런스 출력을 도출하는 단계를 실행시킨다.

상기 또 다른 과제를 해결하기 위한 본 발명의 몇몇 실시예에 따른 데이터의 전향적 전처리 장치는 컴퓨터 프로그램이 저장된 스토리지 및 상기 컴퓨터 프로그램을 실행시키는 프로세서를 포함하고, 상기 컴퓨터 프로그램은, 복수의 제1 데이터를 포함하는 제1 데이터 세트를 수신하는 오퍼레이션, 상기 제1 데이터 세트를 기반으로 노멀라이제이션 샘플 데이터 세트를 생성하되, 상기 노멀라이제이션 샘플 데이터를 생성하는 방법은, 상기 제1 데이터 세트를 분할하여 생성하는 방법, 상기 제1 데이터 세트의 분포 모델을 생성한 후 상기 분포 모델에 해당하는 데이터를 랜덤 추출하여 생성하는 방법 또는 상기 제1 데이터 세트와 관련된 외부 데이터를 수신하여 생성하는 방법 중 어느 하나를 포함하는 오퍼레이션, 상기 복수의 제1 데이터를 개별적으로 상기 노멀라이제이션 샘플 데이터 세트와 함께 노멀라이제이션하여 상기 제1 데이터 세트를 노멀라이제이션한 제1 노멀라이제이션 데이터 세트를 생성하는 오퍼레이션, 상기 제1 데이터 세트와 다른 제2 데이터 세트를 수신하는 오퍼레이션, 상기 복수의 제2 데이터를 개별적으로 상기 노멀라이제이션 샘플 데이터 세트와 함께 노멀라이제이션하여 상기 제2 데이터 세트를 노멀라이제이션한 제2 노멀라이제이션 데이터 세트를 생성하는 오퍼레이션을 포함한다.

도 1은 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 장치를 설명하기 위한 블록도이다.
도 2는 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 방법을 설명하기 위한 개념도이다.
도 3은 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 방법을 설명하기 위한 순서도이다.
도 4는 도 3의 노멀라이제이션 데이터 세트를 생성하는 단계를 세부적으로 설명하기 위한 순서도이다.
도 5는 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 방법의 노멀라이제이션하는 방법을 설명하기 위한 개념도이다.
도 6은 도 5의 제1 노멀라이제이션을 설명하기 위한 개념도이다.
도 7은 도 5의 제2 노멀라이제이션을 설명하기 위한 개념도이다.
도 8은 본 발명의 몇몇 실시예들에 따른 데이터 분석 방법과 골드 스탠다드(gold standard)와의 비교를 나타낸 표이다.
도 9는 도 8을 수치화하여 표현한 그래프이다.
도 10은 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 방법을 설명하기 위한 순서도이다.
도 11은 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 방법을 설명하기 위한 개념도이다.
도 12는 도 10의 제1 노멀라이제이션 데이터 세트를 입력으로 신경망을 트레이닝하는 단계를 세부적으로 설명하기 위한 순서도이다.
도 13은 도 10의 트레이닝 및 테스트를 설명하기 위한 개념도이다.
도 14는 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 방법을 설명하기 위한 순서도이다.
도 15는 도 14의 트레이닝 및 테스트를 설명하기 위한 개념도이다.
도 16은 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 방법을 설명하기 위한 순서도이다.
도 17은 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 방법의 노멀라이제이션하는 방법을 설명하기 위한 개념도이다.
도 18은 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 방법과 골드 스탠다드와의 비교를 나타낸 표이다.
도 19는 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 방법을 설명하기 위한 순서도이다.
도 20은 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 방법의 노멀라이제이션하는 방법을 설명하기 위한 개념도이다.

개시된 실시예의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시는 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 개시가 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 개시된 실시예에 대해 구체적으로 설명하기로 한다.

본 명세서에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 관련 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.

본 명세서에서의 단수의 표현은 문맥상 명백하게 단수인 것으로 특정하지 않는 한, 복수의 표현을 포함한다. 또한 복수의 표현은 문맥상 명백하게 복수인 것으로 특정하지 않는 한, 단수의 표현을 포함한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다.

또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어 또는 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.

본 개시의 일 실시예에 따르면 "부"는 프로세서 및 메모리로 구현될 수 있다. 용어 "프로세서"는 범용 프로세서, 중앙 처리 장치 (CPU), 마이크로프로세서, 디지털 신호 프로세서 (DSP), 제어기, 마이크로제어기, 상태 머신 등을 포함하도록 넓게 해석되어야 한다. 몇몇 환경에서는, "프로세서"는 주문형 반도체 (ASIC), 프로그램가능 로직 디바이스 (PLD), 필드 프로그램가능 게이트 어레이 (FPGA) 등을 지칭할 수도 있다. 용어 "프로세서"는, 예를 들어, DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들의 조합, DSP 코어와 결합한 하나 이상의 마이크로프로세서들의 조합, 또는 임의의 다른 그러한 구성들의 조합과 같은 처리 디바이스들의 조합을 지칭할 수도 있다.

용어 "메모리"는 전자 정보를 저장 가능한 임의의 전자 컴포넌트를 포함하도록 넓게 해석되어야 한다. 용어 메모리는 임의 액세스 메모리 (RAM), 판독-전용 메모리 (ROM), 비-휘발성 임의 액세스 메모리 (NVRAM), 프로그램가능 판독-전용 메모리 (PROM), 소거-프로그램가능 판독 전용 메모리 (EPROM), 전기적으로 소거가능 PROM (EEPROM), 플래쉬 메모리, 자기 또는 광학 데이터 저장장치, 레지스터들 등과 같은 프로세서-판독가능 매체의 다양한 유형들을 지칭할 수도 있다. 프로세서가 메모리로부터 정보를 판독하고/하거나 메모리에 정보를 기록할 수 있다면 메모리는 프로세서와 전자 통신 상태에 있다고 불린다. 프로세서에 집적된 메모리는 프로세서와 전자 통신 상태에 있다.

본 명세서에서, 신경망(neural network)이란, 신경 구조를 모방하여 고안된 모든 종류의 기계학습 모델을 포괄하는 용어이다. 가령, 상기 신경망은 인공 신경망(artificial neural network; ANN), 컨볼루션 신경망(convolutional neural network; CNN) 등과 같이 모든 종류의 신경망 기반 모델을 포함할 수 있다.

편의상, 이하에서는 컨볼루션 신경망을 기준으로 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 장치 및 그 방법을 설명한다.

아래에서는 첨부한 도면을 참고하여 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략한다.

이하에서, 도 1 내지 도 7을 참조하여, 본 발명의 몇몇 실시예에 따른 데이터의 전향적 전처리 장치 및 그 방법에 대해서 설명한다.

도 1은 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 장치를 설명하기 위한 블록도이다.

도 1을 참조하면, 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 장치(10)는 제1 데이터 세트(Dset1) 및 제2 데이터 세트(Dset2)를 입력 받을 수 있다. 이때, 제1 데이터 세트(Dset1)는 적어도 하나의 제1 데이터(Data_1)를 포함할 수 있다. 또한, 제2 데이터 세트(Dset2)는 적어도 하나의 제2 데이터(Data_2)를 포함할 수 있다. 도 1에는 예시적으로 2개의 데이터 세트를 도시하였지만, 본 실시예의 데이터 세트의 개수는 얼마든지 달라질 수 있다.

제1 데이터(Data_1) 및 제2 데이터(Data_2)는 정량(quantitative) 데이터일 수 있다. 예를 들면, 제1 데이터(Data_1) 및 제2 데이터(Data_2)는 카운트(count) 기반 데이터일 수 있다. 제1 데이터(Data_1) 및 제2 데이터(Data_2)는 구체적으로, 바이오/의학에서 생성되는 하이 스루풋(High-throughput) 데이터일 수 있다. 하이 스루풋 데이터는 대용량이고, 처리량이 매우 많은 데이터를 의미할 수 있다.

제1 데이터(Data_1) 및 제2 데이터(Data_2)는 노멀라이제이션이 필요한 데이터일 수 있다. 즉, 제1 데이터(Data_1) 및 제2 데이터(Data_2)는 예를 들어, 샘플 수보다 각 샘플의 피쳐 수가 많은 데이터일 수 있다. 단, 본 실시예가 이에 제한되는 것은 아니다. 제1 데이터(Data_1) 및 제2 데이터(Data_2)는 의학, 생물학 및 유사 분야에 대한 데이터일 수 있으나, 본 실시예가 이에 제한되는 것은 아니다.

제1 데이터(Data_1) 및 제2 데이터(Data_2)는 예를 들어, 전사체학에서 사용되는 데이터일 수 있다. 제1 데이터(Data_1) 및 제2 데이터(Data_2)는 유전자 서열을 정량하는 NGS(Next Generation Sequencing) 및/또는 3세대 염기서열분석법(Third generation sequencing)를 활용하는 RNA 서열분석(RNA-sequencing)의 데이터일 수 있다. 상기 3세대 염기서열분석법(Third generation sequencing)은 나노포어 시퀀싱(nanopore sequencing), PacBio^® 서열분석(sequencing), 일루미나 TSLR(Illumina TruSeq Synthetic Long Read) 및 10X Chromium 기술을 포함한다.

또는, 제1 데이터(Data_1) 및 제2 데이터(Data_2)는 예를 들어, 단백질체학(Proteomics)에서 사용되는 데이터일 수 있다. 단백질체 분석 방법으로 예를 들면, RPPA(Reverse Phase Protein Array), 질량분석법(Mass Spectrometry), 블러팅(blotting) 기법 등이 사용될 수 있다.

또는, 제1 데이터(Data_1) 및 제2 데이터(Data_2)는 예를 들어, 조직병리체학(Pathomics)에서 사용되는 데이터일 수 있다. 조직병리체학의 데이터는 생검을 통해 추출한 암세포의 단면을 고해상도의 기기를 활용하여 촬영한 이미지로부터 생성되는 데이터이다. 조직병리체조직 이미지에서는 세포의 종류, 세포의 상태 등의 정보를 조합하여 오믹스(omics) 형태의 데이터로 추출될 수 있다.

또는, 제1 데이터(Data_1) 및 제2 데이터(Data_2)는 예를 들어, 대사체학(Metabolomics)에서 사용되는 데이터일 수 있다. 대사체학의 데이터는 생체 시스템 내에서 유전적, 생리적, 병리적 또는 환경적인 조건에서 일어나는 저분자 대사체군의 패턴, 농도 등의 데이터를 활용하여 생명현상의 변화 및 원인을 규명하는데 쓰이는 데이터이다. 대사체학의 데이터는 고분해능 핵자기공명(nuclear magnetic resonance, NMR) 분광분석기, 질량 분석기(mass spectrometry, MS), 초고성능 액체 크로마토그래피(ultra-performance liquid chromatography, UPLC) 등의 기술을 활용하여 정량된 데이터일 수 있다.

데이터의 전향적 전처리 장치(10)는 제1 데이터 세트(Dset1) 및 제2 데이터 세트(Dset2)를 입력받고, 제1 노멀라이제이션 데이터 세트(NDset1) 및 제2 노멀라이제이션 데이터 세트(NDset2)를 생성할 수 있다. 데이터의 전향적 전처리 장치(10)는 제1 데이터 세트(Dset1)를 노멀라이제이션하여 제1 노멀라이제이션 데이터 세트(NDset1)를 생성하고, 제2 데이터 세트(Dset2)를 노멀라이제이션하여 제2 노멀라이제이션 데이터 세트(NDset2)를 생성할 수 있다.

제1 노멀라이제이션 데이터 세트(NDset1) 및 제2 노멀라이제이션 데이터 세트(NDset2)는 유전체 관련 연구, 예를 들어, 질병군/정상군의 차별발현 유전자를 찾는 분석(Differential Expression Gene analysis), 그렇게 도출된 유전자를 활용한 기능분석(Gene Set Enrichment Analysis) 및 유전자간의 상호적 네트워크 추론 (Gene Regulatory Network Analysis) 중 적어도 하나에 사용될 수 있다.

또는, 제1 노멀라이제이션 데이터 세트(NDset1) 및 제2 노멀라이제이션 데이터 세트(NDset2)는 신경망, 서포트 벡터 머신(support vector machine, SVM), 랜덤포레스트(RandomForest), 회귀 분석(Regression analysis) 등을 포함한 모든 지도 학습(Supervised Learning), 클러스터링(Clustering) 등의 비지도 학습(Unsupervised Learning) 및 몬테카를로 방법(Monte Carlo method) 계열의 각종 스테이터스(status) 분석법 중 적어도 하나에 사용될 수 있다.

또는, 제1 노멀라이제이션 데이터 세트(NDset1) 및 제2 노멀라이제이션 데이터 세트(NDset2)는 새로운 도메인으로 데이터를 이동시켜 분석하는 네트워크 분석(Network analysis)이나 통계분석법에 사용될 수 있다.

데이터의 전향적 전처리 장치(10)는 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 방법이 수행되는 장치일 수 있다. 데이터의 전향적 전처리 장치(10)는 프로세서(100), 메모리(200) 및 스토리지(300)을 포함할 수 있다. 프로세서(100)은 스토리지(300)에 저장된 컴퓨터 프로그램(310)을 메모리(200)에 로드(load)하여 실행할 수 있다. 프로세서(100)는 데이터의 전향적 전처리 장치(10)의 각 구성의 전반적인 동작을 제어한다. 프로세서(100)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 발명의 기술 분야에 잘 알려진 임의의 형태의 프로세서를 포함하여 구성될 수 있다. 데이터의 전향적 전처리 장치(10)은 하나 이상의 프로세서(100)를 포함할 수도 있다.

메모리(200)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(200)는 본 개시의 다양한 실시예들에 따른 방법/동작을 실행하기 위하여 스토리지(300)으로부터 하나 이상의 컴퓨터 프로그램(310)을 로드할 수 있다. 메모리(200)는 RAM(Random Access Memory)와 같은 휘발성 메모리로 구현될 수 있을 것이나, 본 개시의 기술적 범위가 이에 제한되는 것은 아니다.

메모리(200)가 컴퓨터 프로그램(310)을 로드하면 프로세서(100)가 컴퓨터 프로그램(310) 내부의 오퍼레이션(operation) 및 인스트럭션(instruction)을 실행할 수 있다.

스토리지(300)는 내부에 컴퓨터 프로그램(310)을 저장할 수 있다. 스토리지(300)는 프로세서(100)가 로드하고 실행하기 위한 데이터들을 저장할 수 있다. 스토리지(300)는 예를 들어, ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다. 단, 본 실시예가 이에 제한되는 것은 아니다.

컴퓨터 프로그램(310)은 제1 데이터 세트(Dset1) 및 제2 데이터 세트(Dset2)로부터 제1 노멀라이제이션 데이터 세트(NDset1) 및 제2 노멀라이제이션 데이터 세트(NDset2)를 생성하는 오퍼레이션을 포함할 수 있다.

나아가, 컴퓨터 프로그램(310)은 데이터의 전향적 전처리 장치(10)을 트레이닝시키고, 인퍼런스 데이터에 대응하는 예측(Prediction)을 수행하는 오퍼레이션을 추가로 포함할 수 있다.

도 2는 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 방법을 설명하기 위한 개념도이고, 도 3은 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 방법을 설명하기 위한 순서도이다. 도 4는 도 3의 노멀라이제이션 데이터 세트를 생성하는 단계를 세부적으로 설명하기 위한 순서도이고, 도 5는 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 방법의 노멀라이제이션하는 방법을 설명하기 위한 개념도이다. 도 6은 도 5의 제1 노멀라이제이션을 설명하기 위한 개념도이고, 도 7은 도 5의 제2 노멀라이제이션을 설명하기 위한 개념도이다.

이하, 도 2 내지 도 5를 참조하여 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 방법에 대해서 설명한다.

도 3을 참조하면, 먼저 제1 데이터 세트를 수신한다(S100).

구체적으로, 도 2를 참조하면, 제1 데이터 세트(Dset1)는 제1 데이터(Data_1)를 포함할 수 있다. 제1 데이터(Data_1)는 트레이닝 데이터 세트(Ds1), 테스트 데이터 세트(Ds2) 및 검증 데이터 세트(Ds3)를 포함할 수 있다. 단, 이는 하나의 예시에 불과하고, 본 실시예가 이에 제한되는 것은 아니다.

제1 데이터 세트(Dset1)와 제2 데이터 세트(Dset2)는 서로 다른 시점에 입력될 수 있다. 즉, 제1 데이터 세트(Dset1)는 제2 데이터 세트(Dset2)에 비해서 먼저 입력될 수 있다. 따라서, 데이터의 전향적 전처리 장치(10)은 제1 데이터 세트(Dset1)를 먼저 수신할 수 있다. 제2 데이터 세트(Dset2)는 제1 데이터 세트(Dset1)에 비해서 새로운 데이터(new data)의 세트일 수 있다.

다시, 도 3을 참조하면, 노멀라이제이션 샘플 데이터 세트를 생성한다(S200).

구체적으로, 도 2를 참조하면, 노멀라이제이션 샘플 데이터 세트(Norm)는 적어도 하나의 노멀라이제이션 샘플 데이터(Norm_Data)를 포함할 수 있다. 노멀라이제이션 샘플 데이터 세트(Norm)는 제1 데이터 세트(Dset1)의 제1 데이터(Data_1) 및 제2 데이터 세트(Dset2)의 제2 데이터(Data_2)를 각각 노멀라이제이션하기 위해 필요한 샘플 데이터 세트일 수 있다. 본 실시예에 따른 데이터의 전향적 전처리 장치(10)는 노멀라이제이션 샘플 데이터 세트(Norm)과 유입되는 데이터들을 같이 노멀라이제이션을 하여 전향적으로 데이터에 대한 노멀라이제이션을 수행할 수 있다. 즉, 노멀라이제이션 샘플 데이터 세트(Norm)는 대상 데이터의 노멀라이제이션을 전향적으로 수행하기 위한 데이터 세트일 수 있다. 이에 대해서는 추후에 더 자세히 설명한다.

세부적으로, 도 4를 참조하면, 먼저 제1 데이터 세트를 제1 및 제2 서브 세트로 분할한다(S210).

구체적으로, 도 2 및 도 5를 참조하면, 제1 데이터 세트(Dset1)는 적어도 하나의 제1 데이터(Data_1)를 포함할 수 있다. 따라서, 제1 데이터(Data_1)가 복수인 경우 일부를 제1 서브 세트(Sub1)로 지정하고, 나머지를 제2 서브 세트(Sub2)로 지정할 수 있다.

이때, 제1 서브 세트(Sub1)는 추후에 노멀라이제이션 샘플 데이터 세트(Norm)로 설정될 수 있고, 제2 서브 세트(Sub2)는 제1 데이터 세트(Dset1)로 재설정될 수 있다. 따라서, 제1 데이터 세트(Dset1) 중 노멀라이제이션 샘플 데이터 세트(Norm)로 지정되어야 할 개수만큼 제1 서브 세트(Sub1)가 지정되고, 나머지가 제2 서브 세트(Sub2)로 지정될 수 있다. 이때, 제1 서브 세트(Sub1)가 너무 적은 경우 노멀라이제이션 샘플 데이터 세트(Norm)가 적어서 추후에 수행될 노멀라이제이션의 성능이 낮아질 수 있고, 제1 서브 세트(Sub1)가 너무 많은 경우 제1 데이터 세트(Dset1)가 줄어들어 트레이닝의 성능이 낮아질 수 있다. 즉, 제1 서브 세트(Sub1)의 수가 많아질수록 노멀라이제이션은 더 안정적이겠지만, 현실적으로 데이터의 수에 제한이 있다. 따라서, 제1 서브 세트(Sub1)는 적절한 개수로 미리 지정될 수 있다.

이때, 제1 서브 세트(Sub1)의 개수를 지정하는 방법은 다양할 수 있다. 예를 들어, 제1 서브 세트(Sub1)의 개수를 변경하면서, 도 8 및 도 9에서 설명될 골드 스탠다드(Gold standard)와의 RMSE(Root Mean Square Error) 값을 찾아서 가장 0에 가까울 때의 제1 서브 세트(Sub1)의 개수를 선택하는 방법도 가능할 수 있다. 단, 본 실시예가 이에 제한되는 것은 아니다.

이때, 제1 서브 세트(Sub1)와 제2 서브 세트(Sub2)는 개수로 지정될 뿐, 어떤 데이터를 제1 서브 세트(Sub1)와 제2 서브 세트(Sub2)로 지정할지를 미리 정할 필요는 없다. 단, 본 실시예가 이에 제한되는 것은 아니다.

다시, 도 4를 참조하면, 제1 서브 세트는 노멀라이제이션 샘플 데이터 세트로 설정하고, 제2 서브 세트는 제1 데이터 세트로 재설정한다(S220).

구체적으로, 도 5를 참조하면, 제1 서브 세트(Sub1)를 노멀라이제이션 샘플 데이터 세트(Norm)로 설정할 수 있다. 노멀라이제이션 샘플 데이터 세트(Norm)는 노멀라이제이션을 수행할 때, 노멀라이제이션의 대상이 되는 데이터와 같이 노멀라이제이션되는 데이터 세트일 수 있다. 즉, 데이터 세트를 노멀라이제이션 시킬 때, 데이터 세트 내부의 데이터가 각각 개별적으로 노멀라이제이션 샘플 데이터 세트(Norm)와 그룹화되어 노멀라이제이션될 수 있다.

제2 서브 세트(Sub2)는 제1 데이터 세트(Dset1)로 재설정될 수 있다. 즉, 제1 데이터 세트(Dset1)는 기존의 제1 데이터 세트(Dset1)에서 노멀라이제이션 샘플 데이터 세트(Norm) 부분이 제외되어 규모가 줄어들 수 있다. 제2 서브 세트(Sub2) 즉, 재설정된 제1 데이터 세트(Dset1)는 추후에 노멀라이제이션되어 제1 노멀라이제이션 데이터 세트(NDset1)로 변환할 수 있다.

다시, 도 3을 참조하면, 제1 노멀라이제이션 데이터 세트를 생성한다(S300).

구체적으로, 도 2, 도 5 및 도 6을 참조하면, 제1 데이터(Data_1)는 제1 노멀라이제이션(Normalization#1)를 통해서 노멀라이제이션되어 제1 노멀라이제이션 데이터 세트(NDset1)를 구성하는 제1 노멀라이제이션 데이터(NData_1)를 생성할 수 있다.

제1 노멀라이제이션 데이터(NData_1)는 노멀라이제이션 트레이닝 데이터 세트(NDs1), 노멀라이제이션 테스트 데이터 세트(NDs2) 및 노멀라이제이션 검증 데이터 세트(NDs3)를 포함할 수 있다. 노멀라이제이션 트레이닝 데이터 세트(NDs1), 노멀라이제이션 테스트 데이터 세트(NDs2) 및 노멀라이제이션 검증 데이터 세트(NDs3)는 각각 제1 데이터(Data_1)의 트레이닝 데이터 세트(Ds1), 테스트 데이터 세트(Ds2) 및 검증 데이터 세트(Ds3)에 대응될 수 있다.

제1 노멀라이제이션(Normalization#1)은 노멀라이제이션 샘플 데이터 세트(Norm)와 제1 데이터(Data_1)를 같이 노멀라이제이션할 수 있다. 제1 데이터(Data_1)는 n개의 데이터(Data 1~Data n)를 포함할 수 있다.

이때, 제1 데이터 세트(Dset1) 내에 속하는 모든 n개의 데이터(Data 1~Data n)는 개별적으로 노멀라이제이션 샘플 데이터 세트(Norm)와 결합되어 제1 노멀라이제이션(Normalization#1)될 수 있다. 즉, 제1 데이터 세트(Dset1) 내의 n개의 데이터(Data 1~Data n)가 각각 개별적으로 노멀라이제이션 샘플 데이터 세트(Norm)와 결합되어 n개의 제1 그룹(NG1_1~NG1_n)을 형성할 수 있다. n개의 제1 그룹(NG1_1~NG1_n) 각각은 1개의 제1 데이터(Data_1)와 복수의 노멀라이제이션 샘플 데이터(Norm_Data) 전체, 즉, 노멀라이제이션 샘플 데이터 세트(Norm)를 포함할 수 있다. 따라서, 제1 노멀라이제이션(Normalization#1)은 모두 n번의 노멀라이제이션을 포함할 수 있다.

이 때, 제1 노멀라이제이션(Normalization#1)는 예를 들어, TMM(Trimmed Mean of M-values), RLE(relative log expression), MRN(multimodal residual networks), 오라클 노멀라이제이션(Oracle normalization), 푸아송시퀀싱(PoissonSeq) 및 DEGES(Differentially Expressed Gene Elimination Strategy) 중 어느 하나의 알고리즘을 선택하여 수행될 수 있다. 단, 본 실시예가 이에 제한되는 것은 아니다.

노멀라이제이션은 전체 데이터의 통계 정보를 활용하는 과정이다. 따라서, 새로 추가된 데이터에 의해서 전체 데이터의 개수가 달라지는 경우 당연히 통계 정보도 달라지고, 노멀라이제이션된 데이터가 달라지는 결과를 초래하게 된다.

그러나, 본 실시예와 같이 미리 노멀라이제이션 샘플 데이터 세트(Norm)를 설정하여 데이터를 하나씩 개별적으로 노멀라이제이션하는 경우, 현재의 데이터의 규모에 좌우되지 않고 균일한 노멀라이제이션을 수행할 수 있다.

제1 노멀라이제이션(Normalization#1)을 수행하면 당연히 n개의 제1 그룹(NG1_1~NG1_n) 내부에 각각 포함된 노멀라이제이션 샘플 데이터 세트(Norm)가 노멀라이즈드 샘플 데이터 세트(NNorm)로 변환될 수 있다. 이때, 노멀라이즈드 샘플 데이터 세트(NNorm)는 폐기될 수 있다.

다시, 도 3을 참조하면, 제2 데이터 세트를 수신한다(S400).

구체적으로, 도 1 및 도 2를 참조하면, 제2 데이터 세트(Dset2)는 제2 데이터(Data_2)를 포함할 수 있다. 제2 데이터(Data_2)도 제1 데이터의 트레이닝 데이터 세트(Ds1), 테스트 데이터 세트(Ds2) 및 검증 데이터 세트(Ds3)와 같이 다양한 종류의 데이터를 포함할 수 있다. 예를 들면, 제2 데이터 세트(Dset2)는 제1 데이터 세트(Dset1)에 비해서 나중에 입력되는 새로운 데이터(new data) 세트일 수 있다. 데이터의 전향적 전처리 장치(10)는 제2 데이터 세트(Dset2)를 수신할 수 있다.

기존의 노멀라이제이션 방법은 전체 데이터 세트의 규모에 따라서 통계 정보가 달라지므로 새로운 데이터 세트가 입력되면 기존 데이터 세트와 새로운 데이터 세트 전체에 대해 노멀라이제이션을 새로 수행해야 한다. 그러나, 본 실시예에 따른 데이터 분석 방법은 새로 데이터 세트가 입력된 경우에도 전향적으로 노멀라이제이션을 수행할 수 있다. 이에 대해서는 추후에 자세히 설명한다.

다시, 도 3를 참조하면, 제2 노멀라이제이션 데이터 세트를 생성한다(S500).

구체적으로, 도 2, 도 5 및 도 7을 참조하면, 제2 데이터(Data_2)는 제2 노멀라이제이션(Normalization#2)를 통해서 노멀라이제이션되어 제2 노멀라이제이션 데이터 세트(NDset2)를 생성할 수 있다.

제2 노멀라이제이션 데이터(NData_2)는 제1 노멀라이제이션 데이터(NData_1)의 노멀라이제이션 트레이닝 데이터 세트(NDs1), 노멀라이제이션 테스트 데이터 세트(NDs2) 및 노멀라이제이션 검증 데이터 세트(NDs3)와 같이 다양한 종류의 데이터 세트를 포함할 수 있다.

제2 노멀라이제이션(Normalization#2)은 노멀라이제이션 샘플 데이터 세트(Norm)와 제2 데이터(Data_2)를 같이 노멀라이제이션할 수 있다. 제2 데이터(Data_2)는 m개의 데이터(New Data 1~New Data m)를 포함할 수 있다.

이때, 제2 데이터 세트(Dset2) 내에 속하는 모든 m개의 데이터(New Data 1~New Data m)는 개별적으로 노멀라이제이션 샘플 데이터 세트(Norm)와 결합되어 제2 노멀라이제이션(Normalization#2)될 수 있다. 즉, 제2 데이터 세트(Dset2) 내의 m개의 데이터(New Data 1~New Data m)가 각각 개별적으로 노멀라이제이션 샘플 데이터 세트(Norm)와 결합되어 m개의 제2 그룹(NG2_1~NG2_m)을 형성할 수 있다. m개의 제2 그룹(NG2_1~NG2_m) 각각은 1개의 제2 데이터(Data_2)와 복수의 노멀라이제이션 샘플 데이터(Norm_Data) 전체, 즉, 노멀라이제이션 샘플 데이터 세트(Norm)를 포함할 수 있다. 따라서, 제2 노멀라이제이션(Normalization#2)은 모두 m번의 노멀라이제이션을 포함할 수 있다.

이 때, 제2 노멀라이제이션(Normalization#2)는 예를 들어, TMM(Trimmed Mean of M-values), RLE(relative log expression), MRN(multimodal residual networks), 오라클 노멀라이제이션(Oracle normalization), 푸아송시퀀싱(PoissonSeq) 및 DEGES(Differentially Expressed Gene Elimination Strategy) 중 어느 하나의 알고리즘을 선택하여 수행될 수 있다.

제2 노멀라이제이션(Normalization#2)을 수행하면 당연히 m개의 제2 그룹(NG2_1~NG2_m) 내부에 각각 포함된 노멀라이제이션 샘플 데이터 세트(Norm)가 노멀라이즈드 샘플 데이터 세트(NNorm)로 변환될 수 있다. 이때, 노멀라이즈드 샘플 데이터 세트(NNorm)는 폐기될 수 있다.

기존의 노멀라이제이션 방식은 새로운 데이터 세트 즉, 제2 데이터 세트(Dset2)가 추가되는 경우에 전체 데이터 세트의 규모가 달라지므로 다시 노멀라이제이션을 수행하여야 하고, 기존의 노멀라이제이션된 데이터에 의한 작업의 결과를 신뢰할 수 없게 되는 문제가 발생할 수 있다.

이에 반해서, 본 발명의 몇몇 실시예들에 따른 데이터 분석 방법은 노멀라이제이션 샘플 데이터 세트(Norm)와 제2 데이터(Data_2)가 개별적으로 제2 노멀라이제이션(Normalization#2)를 수행함에 따라, 제2 데이터 세트(Dset2)의 수신 전의 제1 노멀라이제이션(Normalization#1)의 결과도 여전히 신뢰할 수 있고, 제1 노멀라이제이션(Normalization#1)에 따른 제1 노멀라이제이션 데이터 세트(NDset1)에 의한 작업의 결과도 여전히 신뢰할 수 있다.

즉, 본 실시예에 따른 데이터 분석 방법은 시간적 및 비용적 낭비가 전혀 없이 새로운 데이터에 대해서 전향적으로 노멀라이제이션을 수행하고, 트레이닝을 추가적으로 수행할 수 있다.

도 8은 본 발명의 몇몇 실시예들에 따른 데이터 분석 방법과 골드 스탠다드(gold standard)와의 비교를 나타낸 표이고, 도 9는 도 8을 수치화하여 표현한 그래프이다.

도 5를 참조하면, 골드 스탠다드는 비교예로서, 제1 데이터 세트(Dset1)가 수신될 시점에 제2 데이터 세트(Dset2)를 알고 있다는 가정 하에 제1 데이터 세트(Dset1)를 노멀라이제이션하고, 제2 데이터 세트(Dset2)도 제1 데이터 세트(Dset1) 및 제2 데이터 세트(Dset2) 전체를 이용하여 TMM(Trimmed Mean of M-values) 방식으로 노멀라이제이션을 수행한 데이터 세트를 의미한다. 즉, 골드 스탠다드는 이상적인 기준치로서의 의미만 있을 뿐 불가능한 가정(제1 데이터 세트(Dset1)가 수신될 시점에 제2 데이터 세트(Dset2)를 알고 있다는 가정)에 의해서 실제로는 도출될 수 없는 결과일 수 있다.

골드 스탠다드와 비교하기 위해, 본 발명의 데이터 분석 방법에 따른 실시예 1을 생성하였다. 즉, 제1 데이터 세트(Dset1)를 제1 서브 세트(Sub1) 및 제2 서브 세트(Sub2)로 분할하고, 제1 서브 세트(Sub1)의 노멀라이제이션 샘플 데이터 세트(Norm)를 이용하여 제1 데이터 세트(Dset1)를 TMM 방식으로 제1 노멀라이제이션(Normalization#1)하여 제1 노멀라이제이션 데이터 세트(NDset1)를 획득한다. 또한, 노멀라이제이션 샘플 데이터 세트(Norm)를 이용하여 제2 데이터 세트(Dset2)를 TMM 방식으로 제2 노멀라이제이션(Normalization#2)하여 제2 노멀라이제이션 데이터 세트(NDset2)를 획득한다. 이렇게 획득한 제1 노멀라이제이션 데이터 세트(NDset1) 및 제2 노멀라이제이션 데이터 세트(NDset2)는 전향적으로 노멀라이제이션되었으므로, 이상적인 골드 스탠다드와 차이가 작을수록 그 효과가 우수하다고 볼 수 있다.

도 8을 참조하면, 골드 스탠다드와 실시예 1의 RMSE(Root Mean Square Error)와 피어슨 상관계수(Pearson correlation)를 도 5의 노멀라이제이션 샘플 데이터 세트(Norm)의 개수에 따라 표시하였다.

RMSE 값은 0에 가까운 수치로서 골드 스탠다드와 실시예 1의 차이가 거의 없음을 나타내고, 피어슨 상관계수는 1에 근접하여 골드 스탠다드와 실시예 1의 차이가 거의 없음을 나타낸다.

도 5 및 도 9를 참조하면, 도 9는 도 8의 RMSE 값을 y축으로 하고, 노멀라이제이션 샘플 데이터 세트(Norm)의 크기를 x축으로 한 그래프이다. 바(bar) 부분은 평균치를 의미하고, I 패턴은 데이터 세트 별 RMSE 범위를 나타낼 수 있다. 도 9를 참조하면, 노멀라이제이션 샘플 데이터 세트(Norm)의 샘플이 20개까지는 RMSE가 점차 낮아지고, 그 이상이 되면 큰 차이가 없음을 알 수 있다. 상술하였듯이, RMSE가 가장 낮은 경우의 노멀라이제이션 샘플 데이터 세트(Norm) 규모를 최적의 값으로 채택할 수 있다.

본 실시예에 따른 데이터 분석 방법은 새로운 유의미한 데이터 세트가 입력될 때마다 노멀라이제이션을 다시 할 필요 없이 전향적으로 계속해서 노멀라이제이션을 수행할 수 있다. 즉, 본 실시예에 따른 데이터 분석 방법은 입력 데이터의 수신 여부와 무관하게 트레이닝 노멀라이제이션을 병렬적으로 진행할 수 있고, 노멀라이제이션된 데이터를 통한 작업도 병렬적으로 진행할 수 있어 시간과 비용의 낭비가 최소화될 수 있다.

또한, 노멀라이제이션 샘플 데이터 세트(Norm)는 실제 데이터의 일부로 구성되므로 데이터의 편향성을 최소화하여 노멀라이제이션의 성능이 이상적인 경우(예를 들면, 골드 스탠다드)에 가깝게 유지될 수 있다.

도 5에서는 새로운 데이터 즉, 제2 데이터 세트(Dset2)가 한번 추가되는 경우를 예시적으로 도시하였지만, 본 실시예가 이에 제한되는 것은 아니다. 즉, 본 실시예에 따른 데이터 분석 방법은 새로운 데이터 세트가 추가될 때마다, 기존의 노멀라이제이션 샘플 데이터 세트(Norm)로 새로운 데이터 세트에 대한 노멀라이제이션을 추가적으로 수행하여 전향적인 노멀라이제이션을 도모할 수 있다.

이하, 도 1, 도 10 내지 도 13을 참조하여, 본 발명의 몇몇 실시예에 따른 데이터의 전향적 전처리 장치 및 그 방법에 대해서 설명한다. 상술한 실시예와 중복되는 부분은 간략히 하거나 생략한다.

도 10은 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 방법을 설명하기 위한 순서도이고, 도 11은 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 방법을 설명하기 위한 개념도이다. 도 12는 도 10의 제1 노멀라이제이션 데이터 세트를 입력으로 신경망을 트레이닝하는 단계를 세부적으로 설명하기 위한 순서도이고, 도 13은 도 12의 트레이닝 및 테스트를 설명하기 위한 개념도이다.

도 10의 S100, S200, S300, S400 및 S500 단계는 도 3과 동일할 수 있다. 이하, 도 3과 다른 S350, S600, S700 및 S800 단계를 설명한다.

도 10을 참조하면, 제1 노멀라이제이션 트레이닝 데이터 세트를 입력으로 신경망을 트레이닝한다(S350).

구체적으로, 도 11을 참조하면, 데이터의 전향적 전처리 장치(10)는 데이터 전처리 모듈(400) 및 신경망(500)을 포함할 수 있다.

데이터 전처리 모듈(400)은 제1 데이터 세트(TDset1) 및 제2 데이터 세트(TDset2)를 수신할 수 있다. 데이터 전처리 모듈(400)은 제1 데이터 세트(TDset1) 및 제2 데이터 세트(TDset2)를 전처리(preprocessing)하여 제1 노멀라이제이션 데이터 세트(NDset1) 및 제2 노멀라이제이션 데이터 세트(NDset2)를 생성할 수 있다.

구체적으로, 데이터의 전향적 전처리 장치(10)은 제1 데이터 세트(TDset1)를 전처리하여 제1 노멀라이제이션 데이터 세트(NDset1)를 생성하고, 제2 데이터 세트(TDset2)를 전처리하여 제2 노멀라이제이션 데이터 세트(NDset2)를 생성할 수 있다. 도 10의 S100, S200, S300, S400 및 S500의 단계들은 데이터 전처리 방법으로서, 실질적으로 데이터 전처리 모듈(400)에서 수행될 수 있다. 단, 본 실시예가 이에 제한되는 것은 아니다.

신경망(500)은 데이터 전처리 모듈(400)로부터 제1 노멀라이제이션 데이터 세트(NDset1) 및 제2 노멀라이제이션 데이터 세트(NDset2)를 수신할 수 있다. 신경망(500)은 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 장치(10)에 의해서 구현될 수 있다. 이하에서는 편의상, 신경망(500)이 컨볼루션 신경망(CNN; Convolution Neural Network)인 것으로 설명한다.

신경망(500)은 제1 노멀라이제이션 데이터 세트(NDset1) 및 제2 노멀라이제이션 데이터 세트(NDset2)를 입력 받아 예측(Prediction)을 수행할 수 있다. 신경망(500)은 복수의 레이어를 포함할 수 있다. 구체적으로, 신경망(500)은 제1 레이어(L1), 제2 레이어(L2) 및 제3 레이어(L3)를 포함할 수 있다.

제1 레이어(L1)는 제3 레이어(L3)의 하부 레이어일 수 있다. 즉, 제1 레이어(L1)의 출력은 제3 레이어(L3)의 입력으로 제공될 수 있다. 제3 레이어(L3)는 제2 레이어(L2)의 하부 레이어일 수 있다. 즉, 제3 레이어(L3)의 출력은 제2 레이어(L2)의 입력으로 제공될 수 있다.

제1 레이어(L1) 및 제2 레이어(L2)는 예를 들어, 컨볼루션 레이어일 수 있다. 컨볼루션 레이어는 피쳐 맵(feature map)을 추출하기 위한 필터를 포함할 수 있다. 이에 따라서, 제1 레이어(L1) 및 제2 레이어(L2)는 데이터 또는 다른 컨볼루션 레이어의 출력인 피쳐 맵을 입력 받아 새로운 피쳐 맵을 출력할 수 있다. 따라서, 제1 레이어(L1)의 레이어 출력은 제1 레이어(L1)의 필터에 대응하는 피쳐 맵을 포함할 수 있다.

제3 레이어(L3)는 제1 레이어(L1)와 제2 레이어(L2) 사이에 위치할 수 있다. 제3 레이어(L3)는 노멀라이제이션 레이어(normalization layer)일 수 있다. 제3 레이어(L3)는 제1 레이어(L1)에서 출력된 피쳐 맵을 제2 레이어(L2)의 입력으로 제공하는 역할을 할 수 있다.

도 11에는 도시되지 않았지만, 신경망(500)은 추가적인 컨볼루션 레이어, 추가적인 노멀라이제이션 레이어, 활성화 레이어(activation layer), 풀링 레이어(pooling layer) 및 풀리 커넥티드 레이어(fully-connected layer) 중 적어도 하나를 포함할 수 있다. 단, 본 실시예가 이에 제한되는 것은 아니다.

도 11에서는 제3 레이어(L3)가 하나의 레이어로 도시되었지만, 본 실시예가 이에 제한되는 것은 아니다. 즉, 제3 레이어(L3)의 개수는 얼마든지 달라질 수 있다.

도 11에서는 신경망(500)과 데이터 전처리 모듈(400)이 서로 분리된 것으로 도시하였지만, 본 실시예가 이에 제한되는 것은 아니다. 본 실시예에 따른 데이터 분석 방법은 데이터 전처리 모듈(400)의 기능을 신경망(500)의 내부 레이어에서 수행할 수도 있다. 이 경우, 본 실시예에 따른 데이터의 전향적 전처리 장치(10)에서는 데이터 전처리 모듈(400)이 생략될 수도 있다.

다시, 도 10을 참조하면, 제1 노멀라이제이션 데이터 세트를 입력으로 신경망을 트레이닝한다(S350).

세부적으로, 도 12를 참조하면, 먼저 제1 노멀라이제이션 데이터 세트를 트레이닝 데이터 세트와 테스트 데이터 세트로 분할한다(S351).

구체적으로, 도 13을 참조하면, 제1 노멀라이제이션 데이터 세트(NDset1)를 트레이닝 데이터 세트(Ds1) 및 테스트 데이터 세트(Ds2)로 분할할 수 있다. 트레이닝 데이터 세트(Ds1)는 신경망(500)을 트레이닝하기 위한 데이터들의 세트이고, 테스트 데이터 세트(Ds2)는 트레이닝된 신경망(500)의 성능을 테스트하기 위한 데이터들의 세트일 수 있다. 즉, 테스트 데이터 세트(Ds2)는 트레이닝 과정에 전혀 관여하지 않을 수 있다.

다시, 도 12을 참조하면, 트레이닝 데이터 세트를 크로스 검증하여 신경망을 트레이닝한다(S352).

구체적으로, 도 11 및 도 13을 참조하면, 트레이닝 데이터 세트(Ds1)는 신경망(500)의 제1 레이어(L1), 제3 레이어(L3) 및 제2 레이어(L2)를 순차적으로 통과할 수 있다. 최종적으로 도출된 예측(Prediction)의 값은 트레이닝 데이터 세트(Ds1)에 레이블(label) 형태로 임베딩된 트레이닝 출력 값과 비교될 수 있다. 오차(Error)는 상기 트레이닝 출력 값과 예측(Prediction)의 차이를 의미할 수 있다. 신경망(500)은 오차(Error)를 역전파(Backpropagation)하여 제1 레이어(L1), 제2 레이어(L2) 및 제3 레이어(L3)의 파라미터(P1~P3)들을 업데이트할 수 있다. 이 때, 제1 파라미터(P1) 및 제2 파라미터(P2)는 컨볼루션 레이어의 가중치 및 바이어스 파라미터일 수 있다. 즉, 제1 레이어(L1)의 제1 내지 제n 필터들이 제1 파라미터(P1)에 포함될 수 있다. 제3 레이어(L3)의 제3 파라미터(P3)는 노멀라이제이션 파라미터일 수 있다.

오차(Error)가 역전파(Backpropagation)될 때, 신경망의 제1 파라미터(P1) 및 제2 파라미터(P2)와 함께 제3 파라미터(P3)의 값도 업데이트될 수 있다.

이러한 과정을 통해서, 신경망(500)은 트레이닝 즉, 학습(learning)될 수 있다. 신경망(500)이 모든 데이터에 대해서 트레이닝되면 파라미터(P1~P3)가 확정될 수 있다.

이때, 트레이닝 데이터 세트(Ds1)를 통해서 신경망(500)을 트레이닝함과 동시에 크로스 검증(Cross Validation)할 수 있다. 여기서, 크로스 검증이란, 별도의 검증 데이터 세트 없이 트레이닝 데이터 세트(Ds1)만으로 수행하는 검증일 수 있다. 예를 들어, 크로스 검증은 트레이닝 데이터 세트(Ds1)를 k개로 나누는 k-fold 방식으로 수행될 수 있다. 도 13에서는 트레이닝 데이터 세트(Ds1)를 총 7개의 세트로 나누는 7-fold 방식이 예시적으로 도시되어 있다. 단, 본 실시예가 이에 제한되는 것은 아니다.

7-fold 방식은 7개의 세트 중 하나가 검증 데이터가 되는 총 7개의 경우의 수가 가능하다. 크로스 검증은 검증 데이터 없이 트레이닝 데이터 세트(Ds1)만으로 검증을 수행할 수 있다. 상기 7회의 검증의 오차를 계산하고, 평균을 계산하여 최적의 모델을 확정할 수 있다. 본 실시예들에 따른 데이터의 전향적 전처리 방법은 크로스 검증 대신 홀드아웃(hold-out) 방식을 사용하여 트레이닝 및 검증을 수행할 수도 있다.

다시, 도 12를 참조하면, 테스트 데이터 세트로 신경망을 테스트한다(S353).

구체적으로, 테스트 데이터 세트(Ds2)는 트레이닝에 사용되지 않은 언씬(unseen) 데이터로 구성되어 있다. 따라서, 테스트 데이터 세트(Ds2)는 트레이닝된 신경망(500)의 성능을 테스트하기 적합할 수 있다.

다시, 도 10을 참조하면, 제2 노멀라이제이션 데이터 세트를 입력으로 신경망을 트레이닝한다(S600).

구체적으로, 도 11, 도 12 및 도 13을 참조하면, 제2 노멀라이제이션 데이터 세트(NDset2)도 제1 노멀라이제이션 데이터 세트(NDset1)와 마찬가지로 도 12의 단계를 수행할 수 있다. 즉, 제2 노멀라이제이션 데이터 세트를 트레이닝 데이터 세트(Ds1)와 테스트 데이터 세트(Ds2)로 분할하고(S351), 트레이닝 데이터 세트(Ds1)를 크로스 검증하여 신경망(500)을 트레이닝하고(S352), 테스트 데이터 세트(Ds2)로 신경망(500)을 테스트할 수 있다(S353).

이때, 본 실시예에 따른 데이터 분석 방법은 크로스 검증(S352)대신 홀드아웃 방식을 사용하여 트레이닝 및 검증을 수행할 수도 있다.

다시, 도 10을 참조하면, 인퍼런스 데이터를 수신한다(S700).

구체적으로, 도 1 및 도 11을 참조하면, 인퍼런스 데이터(Data_I)는 제1 데이터(Data_1) 및 제2 데이터(Data_2)와는 달리 레이블 형태의 출력 데이터가 따로 없으므로, 데이터의 전향적 전처리 장치(10)이 예측(prediction)을 통해 인퍼런스 출력 데이터를 도출할 수 있다.

인퍼런스 데이터(Data_I)는 제1 데이터(Data_1) 및 제2 데이터(Data_2)와 동일한 종류의 데이터일 수 있다. 즉, 인퍼런스 데이터(Data_I)는 바이오/의학에서 생성되는 하이 스루풋(High-throughput) 데이터로서, 전사체학, 단백질체학, 조직병리체학 및 대사체학에서 사용되는 데이터일 수 있다. 단, 본 실시예가 이에 제한되는 것은 아니다.

다시, 도 10을 참조하면, 인퍼런스 출력을 도출한다(S800).

구체적으로, 도 1 및 도 11을 참조하면, 인퍼런스 데이터(Data_I)를 수신한 신경망(500)은 미리 트레이닝되어 파라미터가 확정된 함수를 이용하여 인퍼런스 출력을 생성할 수 있다. 인퍼런스 출력은 인퍼런스 데이터(Data_I)에 대한 해석 결과를 의미할 수 있다.

본 실시예에 따른 데이터의 전향적 전처리 방법은 새로운 데이터가 수신되기 전의 노멀라이제이션된 데이터를 이용하여 신경망을 트레이닝하고, 새로운 데이터가 수신된 경우 기존의 데이터와 새로운 데이터를 합쳐 새로 노멀라이제이션을 할 필요없이 새로운 데이터를 노멀라이제이션하여 신경망을 트레이닝을 할 수 있다. 즉, 데이터의 노멀라이제이션을 전향적으로 수행할 수 있어 기존의 트레이닝 결과를 폐기하지 않고 그대로 사용할 수 있어 효율적일 수 있다.

이하, 도 2, 도 10, 도 11, 도 14 및 도 15를 참조하여, 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 방법을 설명한다. 상술한 실시예와 중복되는 부분은 간략히 하거나 생략한다.

도 14는 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 방법을 설명하기 위한 순서도이고, 도 15는 도 14의 트레이닝 및 테스트를 설명하기 위한 개념도이다. 도 14는 도 10의 제1 노멀라이제이션 데이터 세트를 입력으로 신경망을 트레이닝하는 단계(S350)를 세부적으로 설명한 순서도이다.

본 실시예의 데이터 분석 방법의 S100, S200, S300, S400, S500, S700 및 S800 단계는 상술한 도 10의 설명과 동일하고, 도 10의 설명과 차이가 있는 S350 및 S600 단계를 설명한다. 먼저 S350 단계를 세부적으로 설명한다.

도 14를 참조하면, 제1 노멀라이제이션 데이터 세트를 트레이닝 데이터 세트, 검증 데이터 세트 및 테스트 데이터 세트로 분할한다(S351a).

구체적으로, 도 15를 참조하면, 제1 노멀라이제이션 데이터 세트(NDset1)를 트레이닝 데이터 세트(Ds1), 검증 데이터 세트(Ds3) 및 테스트 데이터 세트(Ds2)로 분할할 수 있다. 트레이닝 데이터 세트(Ds1)는 신경망(500)을 트레이닝하기 위한 데이터들의 세트이고, 검증 데이터 세트(Ds3)는 트레이닝 데이터 세트(Ds1)에 의해서 트레이닝된 모델을 검증하기 위한 데이터 세트일 수 있다.

테스트 데이터 세트(Ds2)는 트레이닝 데이터 세트(Ds1) 및 검증 데이터 세트(Ds3)를 통해서 트레이닝된 신경망(500)의 성능을 최종적으로 테스트하기 위한 데이터들의 세트일 수 있다. 즉, 테스트 데이터 세트(Ds2)는 트레이닝 과정에 전혀 관여하지 않을 수 있다.

다시, 도 14를 참조하면, 트레이닝 데이터 세트 및 검증 데이터 세트로 신경망을 트레이닝한다(S352a).

구체적으로, 도 11 및 도 13을 참조하면, 트레이닝 데이터 세트(Ds1)는 신경망(500)의 제1 레이어(L1), 제3 레이어(L3) 및 제2 레이어(L2)를 순차적으로 통과할 수 있다. 신경망(500)은 오차(Error)를 역전파(Backpropagation)하여 제1 레이어(L1), 제2 레이어(L2) 및 제3 레이어(L3)의 파라미터(P1~P3)들을 업데이트할 수 있다.

이때, 트레이닝 데이터 세트(Ds1)를 통해서 신경망(500)을 트레이닝하고, 검증 데이터 세트(Ds3)를 통해 신경망(500)의 검증을 수행할 수 있다. 검증 데이터 세트(Ds3)는 트레이닝 데이터 세트(Ds1)와 달리 트레이닝에 사용되지 않은 언씬 데이터로 구성되어 있어 트레이닝된 신경망(500)의 모델 중 어느 모델이 적합한지에 대한 검증을 적절하게 수행할 수 있다. 검증을 통해서, 신경망(500)은 가장 적합한 모델로 트레이닝될 수 있다.

다시, 도 14를 참조하면, 테스트 데이터 세트로 신경망을 테스트한다(S353).

구체적으로, 도 11을 참조하면, 테스트 데이터 세트(Ds2)는 트레이닝 및 검증에 사용되지 않은 언씬 데이터로 구성되어 있다. 따라서, 테스트 데이터 세트(Ds2)는 트레이닝된 신경망(500)의 성능을 테스트하기 적합할 수 있다.

이하, S600 단계를 설명한다.

구체적으로, 도 11, 도 14 및 도 15을 참조하면, 제2 노멀라이제이션 데이터 세트(NDset2)도 제1 노멀라이제이션 데이터 세트(NDset1)와 마찬가지로 도 14의 단계를 수행할 수 있다. 즉, 제2 노멀라이제이션 데이터 세트(NDset2)를 트레이닝 데이터 세트(Ds1), 검증 데이터 세트(Ds3) 및 테스트 데이터 세트(Ds2)로 분할하고(S351a), 트레이닝 데이터 세트(Ds1) 및 검증 데이터 세트(Ds3)로 신경망(500)을 트레이닝하고(S352a), 테스트 데이터 세트(Ds2)로 신경망(500)을 테스트할 수 있다(S353).

본 실시예에 따른 데이터의 전향적 전처리 방법은 트레이닝 데이터 세트(Ds1)와 검증 데이터 세트(Ds3)를 따로 형성하여 크로스 검증의 복잡한 단계를 생략할 수 있다. 이를 통해서, 연산량을 최소화하여 더 신속하게 신경망(500)의 트레이닝 단계를 수행할 수 있다

이하, 도 1, 도 2, 도 3, 도 6, 도 7, 도 11 및 도 16 내지 도 18을 참조하여, 본 발명의 몇몇 실시예들에 따른 데이터 분석 방법을 설명한다. 상술한 실시예와 중복되는 부분은 간략히 하거나 생략한다.

도 16은 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 방법을 설명하기 위한 순서도이고, 도 17은 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 방법의 노멀라이제이션하는 방법을 설명하기 위한 개념도이다. 도 18은 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 방법과 골드 스탠다드와의 비교를 나타낸 표이다. 도 16는 도 3의 노멀라이제이션 데이터 세트를 생성하는 단계(S200)를 세부적으로 설명한 순서도이다.

본 실시예의 데이터 분석 방법의 S200을 제외한 나머지 단계는 상술한 도 3의 설명과 동일하고, 도 3의 설명과 차이가 있는 S200 단계를 설명한다.

도 16을 참조하면, 먼저 제1 데이터를 기반으로 시뮬레이션 데이터 세트를 생성한다(S210a).

구체적으로, 도 2 및 도 17을 참조하면, 시뮬레이션 데이터 세트(SDset)는 제1 데이터 세트(Dset1)를 기반으로 생성한다. 즉, 시뮬레이션 데이터 세트(SDset)는 제1 데이터(Data_1)를 기반으로 생성된 시뮬레이션 데이터들의 세트일 수 있다. 시뮬레이션 데이터 세트(SDset)는 실제의 데이터는 아니지만 제1 데이터 세트(Dset1)를 기반으로 합성된(synthesized) 데이터들의 세트일 수 있다.

시뮬레이션 데이터 세트(SDset)는 제1 데이터 세트(Dset1)의 데이터 분포를 이용하여 생성될 수 있다. 예를 들어, 시뮬레이션 데이터 세트(SDset)는 제1 데이터 세트(Dset1)의 푸아송 분포(Poisson distribution) 모델을 생성하고, 상기 푸아송 분포 모델에서 랜덤 추출을 통해서 생성될 수 있다. 단, 본 실시예가 이에 제한되는 것은 아니다.

시뮬레이션 데이터 세트(SDset)는 추후에 노멀라이제이션 샘플 데이터 세트(Norm)로 설정될 수 있다. 시뮬레이션 데이터 세트(SDset)는 실제 제1 데이터 세트(Dset1)를 사용한 것이 아니므로, 제1 데이터 세트(Dset1)의 크기가 크지 않은 경우 즉, 제1 데이터(Data_1)의 개수가 적은 경우에도 얼마든지 생성할 수 있다. 따라서, 제1 데이터 세트(Dset1)의 크기를 축소시키지 않고 노멀라이제이션 샘플 데이터 세트(Norm)를 생성할 수 있다.

나아가, 시뮬레이션 데이터 세트(SDset)는 제1 데이터 세트(Dset1)를 기반으로 생성되므로 제1 데이터 세트(Dset1)와 관련성이 클 수 있다. 따라서, 노멀라이제이션 과정에서 편향되지 않고 적절한 노멀라이제이션이 수행될 수 있다.

시뮬레이션 데이터 세트(SDset)를 생성하는 방법은 다양할 수 있으므로, 필요와 제한 조건에 따라서 시뮬레이션 데이터 세트(SDset)를 생성하는 방식을 얼마든지 다양하게 변경할 수 있다. 이에 따라서, 노멀라이제이션의 성능이 현재 상황에 따라서 어댑티브(adaptive)하게 향상될 수 있다.

다시, 도 16을 참조하면, 시뮬레이션 데이터 세트를 노멀라이제이션 샘플 데이터 세트로 설정한다(S220a).

구체적으로, 도 11, 도 6, 도 7 및 도 17을 참조하면, 시뮬레이션 데이터 세트(SDset)는 노멀라이제이션 샘플 데이터 세트(Norm)로 설정될 수 있다. 이때, 노멀라이제이션 샘플 데이터 세트(Norm)의 개수 즉, 시뮬레이션 데이터 세트(SDset)의 데이터 개수는 적절하게 미리 지정될 수 있다.

본 실시예에 따른 데이터의 전향적 전처리 방법은 제1 데이터 세트(Dset1)의 개수를 축소하지 않으면서 노멀라이제이션 샘플 데이터 세트(Norm)를 생성할 수 있다. 그러면서도, 동일한 분포를 활용하여 데이터를 생성하므로 노멀라이제이션의 성능을 유지할 수 있다. 나아가, 시뮬레이션 데이터 세트(SDset)의 생성을 위한 다양한 방법의 선택을 통해서 더욱 어댑티브한 노멀라이제이션 샘플 데이터 세트(Norm)의 생성도 가능할 수 있다.

골드 스탠다드와 비교하기 위해, 본 발명의 데이터 분석 방법에 따른 실시예 2를 생성하였다. 즉, 제1 데이터(Data_1)를 푸아송 분포와 랜덤 추출을 통해서 가공하여 시뮬레이션 데이터 세트(SDset)를 생성하고, 이를 통해서 전향적인 TMM 방식으로 노멀라이제이션을 수행하였다.

도 18을 참조하면, 골드 스탠다드와 실시예 2의 RMSE(Root Mean Square Error)와 피어슨 상관계수(Pearson correlation)를 도 17의 시뮬레이션 데이터 세트(SDset)의 개수에 따라 표시하였다.

역시, RMSE 값은 0에 가까운 수치로서 골드 스탠다드와 실시예 2의 차이가 거의 없음을 나타내고, 피어슨 상관계수는 1에 근접하여 골드 스탠다드와 실시예 2의 차이가 거의 없음을 나타낸다.

이하, 도 2, 도 3, 도 6, 도 7, 도 11, 도 19 및 도 20을 참조하여, 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 방법을 설명한다. 상술한 실시예와 중복되는 부분은 간략히 하거나 생략한다.

도 19는 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 방법을 설명하기 위한 순서도이고, 도 20은 본 발명의 몇몇 실시예들에 따른 데이터의 전향적 전처리 방법의 노멀라이제이션하는 방법을 설명하기 위한 개념도이다. 도 19는 도 3의 노멀라이제이션 샘플 데이터 세트를 생성하는 단계(S200)를 세부적으로 설명한 순서도이다.

본 실시예의 데이터 분석 방법의 S200을 제외한 단계는 상술한 도 3의 설명과 동일하고, 도 3의 설명과 차이가 있는 S200 단계를 설명한다.

도 19를 참조하면, 먼저 외부 데이터 세트를 수신한다(S210b).

구체적으로, 도 2 및 도 20을 참조하면, 외부 데이터 세트(EDset)는 제1 데이터 세트(Dset1)와 별개의 외부 데이터를 포함하는 세트일 수 있다. 이때, 외부 데이터 세트(EDset)는 제1 데이터 세트(Dset1)와 관련된 데이터일 수 있다. 외부 데이터 세트(EDset)는 특정 목적으로 공개된 데이터 세트일 수 있다. 단, 본 실시예가 이에 제한되는 것은 아니다.

또한, 본 실시예에 따른 데이터의 전향적 전처리 방법은, 제1 데이터 세트(Dset1)가 충분하지 않은 경우나, 정상조직 등의 표준이라 할 수 있는 데이터를 활용하기 위한 경우에 사용할 수 있다.

이때, 외부 데이터 세트(EDset)는 대표적인 외부 공개 데이터를 사용하는 것이 바람직할 수 있다. 외부 데이터 세트(EDset)는 예를 들어, TCGA(The Cancer Genome Atlas), GTEx(Genotype-Tissue Expression), SEQC(Sequencing Quality Control) 중 적어도 하나일 수 있다.

외부 데이터 세트(EDset)를 선정하는 방법은 다양할 수 있으므로, 필요와 제한 조건에 따라서 외부 데이터 세트(EDset)를 선정하는 방식을 얼마든지 다양하게 변경할 수 있다. 이에 따라서, 노멀라이제이션의 성능이 현재 상황에 따라서 어댑티브하게 향상될 수 있다.

다시, 도 19를 참조하면, 외부 데이터 세트를 노멀라이제이션 샘플 데이터 세트로 설정한다(S220b).

구체적으로, 도 6, 도 7, 도 11 및 도 20을 참조하면, 외부 데이터 세트(EDset)를 노멀라이제이션 샘플 데이터 세트(Norm)로 설정할 수 있다. 이때, 노멀라이제이션 샘플 데이터 세트(Norm)의 개수 즉, 외부 데이터 세트(EDset)의 데이터 개수는 적절하게 미리 지정될 수 있다.

본 실시예에 따른 데이터 분석 방법은 제1 데이터 세트(Dset1)의 개수를 축소하지 않으면서 노멀라이제이션 샘플 데이터 세트(Norm)를 생성할 수 있다. 나아가, 기계적 편향을 포함하지 않는 표준 외부 데이터를 노멀라이제이션 샘플 데이터 세트(Norm)로 사용할 수 있다. 또한, 외부 데이터 세트(EDset)의 선정을 위한 다양한 방법의 선택을 통해서 더욱 어댑티브한 노멀라이제이션 샘플 데이터 세트(Norm)의 생성도 가능할 수 있다.

또한, 노멀라이제이션 샘플 데이터 세트(Norm)를 외부 데이터 세트(EDset)로 설정하는 것은 다양한 집단의 데이터를 입력으로 하여 서로 비교 분석을 하는 경우 매우 높은 효율을 가질 수 있다.

즉, 예를 들어, 폐암에 대한 데이터 세트와 뇌종양에 대한 데이터 세트의 경우 서로 다른 각각의 방식으로 노멀라이제이션이 되는 경우 그 둘 사이의 비교는 어려울 수 있다. 그러나, 외부 데이터 세트(EDset)가 적절하게 선정되어 폐암에 대한 데이터 세트와 뇌종양에 대한 데이터 세트가 동일한 노멀라이제이션 샘플 데이터 세트(Norm)를 통해서 노멀라이제이션되는 경우 2 종류의 비교도 용이하고, 데이터의 다양성이 증가되어 추후 노멀라이제이션된 데이터를 통한 작업의 성능이 향상될 수 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

10: 데이터 분석 시스템
100: 프로세서
200: 메모리
300: 스토리지

Claims

데이터 처리 장치가 데이터의 전향적 전처리를 수행하는 방법에 있어서,
복수의 제1 데이터를 포함하는 제1 데이터 세트를 수신하는 단계;
상기 제1 데이터 세트를 기반으로 노멀라이제이션 샘플 데이터 세트를 생성하는 단계;
상기 복수의 제1 데이터를 개별적으로 상기 노멀라이제이션 샘플 데이터 세트와 함께 노멀라이제이션하여 상기 제1 데이터 세트를 노멀라이제이션하는 단계;
복수의 제2 데이터를 포함하는 제2 데이터 세트를 수신하는 단계; 및
상기 복수의 제2 데이터를 개별적으로 상기 노멀라이제이션 샘플 데이터 세트와 함께 노멀라이제이션하여 상기 제2 데이터 세트를 노멀라이제이션하는 단계를 포함하되,
상기 제1 데이터 세트는 제1 서브 세트 및 제2 서브 세트를 포함하고,
상기 노멀라이제이션 샘플 데이터 세트를 생성하는 단계는,
상기 제1 데이터 세트의 제1 서브 세트를 상기 노멀라이제이션 샘플 데이터 세트로 설정하는 단계와,
상기 제2 서브 세트를 상기 제1 데이터 세트로 재설정하는 단계를 포함하는
방법.
데이터 처리 장치가 데이터의 전향적 전처리를 수행하는 방법에 있어서,
복수의 제1 데이터를 포함하는 제1 데이터 세트를 수신하는 단계;
상기 제1 데이터 세트를 기반으로 노멀라이제이션 샘플 데이터 세트를 생성하는 단계;
상기 복수의 제1 데이터를 개별적으로 상기 노멀라이제이션 샘플 데이터 세트와 함께 노멀라이제이션하여 상기 제1 데이터 세트를 노멀라이제이션하는 단계;
복수의 제2 데이터를 포함하는 제2 데이터 세트를 수신하는 단계; 및
상기 복수의 제2 데이터를 개별적으로 상기 노멀라이제이션 샘플 데이터 세트와 함께 노멀라이제이션하여 상기 제2 데이터 세트를 노멀라이제이션하는 단계를 포함하되,
상기 노멀라이제이션 샘플 데이터 세트를 생성하는 단계는,
상기 복수의 제1 데이터를 기반으로 시뮬레이션 데이터 세트를 생성하는 단계와,
상기 시뮬레이션 데이터 세트를 상기 노멀라이제이션 샘플 데이터 세트로 설정하는 단계를 포함하는
방법.
제2 항에 있어서,
상기 복수의 제1 데이터 및 상기 복수의 제2 데이터는 정량(quantitative) 데이터인
방법.
제2 항에 있어서,
상기 시뮬레이션 데이터 세트를 생성하는 단계는,
상기 제1 데이터의 분포 모델을 생성하는 단계와,
상기 분포 모델에서 랜덤 추출을 통해서 상기 시뮬레이션 데이터를 생성하는 단계를 더 포함하는
방법.
데이터 처리 장치가 데이터의 전향적 전처리를 수행하는 방법에 있어서,
복수의 제1 데이터를 포함하는 제1 데이터 세트를 수신하는 단계;
상기 제1 데이터 세트를 기반으로 노멀라이제이션 샘플 데이터 세트를 생성하는 단계;
상기 복수의 제1 데이터를 개별적으로 상기 노멀라이제이션 샘플 데이터 세트와 함께 노멀라이제이션하여 상기 제1 데이터 세트를 노멀라이제이션하는 단계;
복수의 제2 데이터를 포함하는 제2 데이터 세트를 수신하는 단계; 및
상기 복수의 제2 데이터를 개별적으로 상기 노멀라이제이션 샘플 데이터 세트와 함께 노멀라이제이션하여 상기 제2 데이터 세트를 노멀라이제이션하는 단계를 포함하되,
상기 노멀라이제이션 샘플 데이터 세트를 생성하는 단계는,
상기 제1 데이터 세트와 관련된 외부 데이터 세트를 수신하는 단계와.
상기 외부 데이터 세트를 상기 노멀라이제이션 샘플 데이터 세트로 설정하는 단계를 포함하고,
상기 노멀라이제이션 샘플 데이터 세트와 제1 및 제2 데이터 세트를 같이 노멀라이제이션하는 단계는,
TMM(Trimmed Mean of M-values), RLE(relative log expression), MRN(multimodal residual networks), 오라클 노멀라이제이션(Oracle normalization), 푸아송시퀀싱(PoissonSeq) 및 DEGES(Differentially Expressed Gene Elimination Strategy) 중 어느 하나의 알고리즘을 사용하여 노멀라이제이션하는 단계를 포함하는
방법.
데이터 처리 장치가 데이터의 전향적 전처리를 수행하는 방법에 있어서,
복수의 제1 데이터를 포함하는 제1 데이터 세트를 수신하는 단계;
상기 제1 데이터 세트를 기반으로 노멀라이제이션 샘플 데이터 세트를 생성하는 단계에 있어서, 상기 노멀라이제이션 샘플 데이터를 생성하는 방법은, 상기 제1 데이터 세트를 분할하여 생성하는 방법, 상기 제1 데이터 세트의 분포 모델을 생성한 후 상기 분포 모델에 해당하는 데이터를 랜덤 추출하여 생성하는 방법 또는 상기 제1 데이터 세트와 관련된 외부 데이터를 수신하여 생성하는 방법 중 어느 하나를 포함하는, 상기 노멀라이제이션 샘플 데이터를 생성하는 단계;
상기 복수의 제1 데이터를 개별적으로 상기 노멀라이제이션 샘플 데이터 세트와 함께 노멀라이제이션하여 상기 제1 데이터 세트를 노멀라이제이션한 제1 노멀라이제이션 데이터 세트를 생성하는 단계;
상기 제1 노멀라이제이션 데이터 세트를 입력으로 신경망을 트레이닝하는 단계;
복수의 제2 데이터를 포함하는 제2 데이터 세트를 수신하는 단계;
상기 복수의 제2 데이터를 개별적으로 상기 노멀라이제이션 샘플 데이터 세트와 함께 노멀라이제이션하여 상기 제2 데이터 세트를 노멀라이제이션한 제2 노멀라이제이션 데이터 세트를 생성하는 단계;
상기 제2 노멀라이제이션 데이터 세트를 입력으로 상기 신경망을 트레이닝하는 단계;
인퍼런스 데이터를 수신하는 단계; 및
상기 인퍼런스 데이터에 대한 상기 신경망의 인퍼런스 출력을 도출하는 단계를 포함하는
방법.
제6 항에 있어서,
상기 제1 데이터 세트는 제1 서브 세트 및 제2 서브 세트를 포함하고,
상기 노멀라이제이션 샘플 데이터 세트를 생성하는 단계는,
상기 제1 데이터 세트의 제1 서브 세트를 상기 노멀라이제이션 샘플 데이터 세트로 설정하는 단계와,
상기 제2 서브 세트를 상기 제1 데이터 세트로 재설정하는 단계를 포함하는
방법.
제6 항에 있어서,
상기 노멀라이제이션 샘플 데이터 세트를 생성하는 단계는,
상기 제1 데이터 세트를 기반으로 시뮬레이션 데이터 세트를 생성하는 단계와,
상기 시뮬레이션 데이터 세트를 상기 노멀라이제이션 샘플 데이터 세트로 설정하는 단계를 포함하는
방법.
제6 항에 있어서,
상기 노멀라이제이션 샘플 데이터 세트를 생성하는 단계는,
상기 제1 데이터 세트와 관련된 외부 데이터 세트를 수신하는 단계와,
상기 외부 데이터 세트를 상기 노멀라이제이션 샘플 데이터 세트로 설정하는 단계를 포함하는
방법.
제6 항에 있어서,
상기 제1 노멀라이제이션 데이터 세트는 트레이닝 데이터 세트 및 테스트 데이터 세트 중 적어도 하나를 포함하고,
상기 제1 노멀라이제이션 데이터 세트를 입력으로 신경망을 트레이닝하는 단계는,
상기 트레이닝 데이터 세트로 상기 신경망을 트레이닝하는 단계와,
상기 테스트 데이터 세트로 상기 신경망을 테스트하는 단계를 포함하는
방법.
제10 항에 있어서,
상기 트레이닝 데이터 세트로 상기 신경망을 트레이닝하는 단계는
상기 트레이닝 데이터 세트의 크로스 검증(Cross Validation)을 수행하는 단계를 포함하는
방법.
제10 항에 있어서,
상기 제1 노멀라이제이션 데이터 세트는 검증 데이터 세트를 포함하고,
상기 제1 노멀라이제이션 데이터 세트를 입력으로 신경망을 트레이닝하는 단계는
상기 트레이닝 데이터 세트 및 상기 검증 데이터 세트를 통해서 상기 신경망을 트레이닝하는 단계를 포함하는
방법.
컴퓨터에 데이터의 전향적 전처리를 수행하는 방법을 실행시키기 위하여 기록매체에 기록된 컴퓨터 프로그램에 있어서,
상기 데이터의 전향적 전처리를 수행하는 방법은,
복수의 제1 데이터를 포함하는 제1 데이터 세트를 수신하는 단계,
상기 제1 데이터 세트를 기반으로 노멀라이제이션 샘플 데이터 세트를 생성하는 단계에 있어서, 상기 노멀라이제이션 샘플 데이터를 생성하는 방법은, 상기 제1 데이터 세트를 분할하여 생성하는 방법, 상기 제1 데이터 세트의 분포 모델을 생성한 후 상기 분포 모델에 해당하는 데이터를 랜덤 추출하여 생성하는 방법 또는 상기 제1 데이터 세트와 관련된 외부 데이터를 수신하여 생성하는 방법 중 어느 하나를 포함하는, 상기 노멀라이제이션 샘플 데이터 세트를 생성하는 단계,
상기 복수의 제1 데이터를 개별적으로 상기 노멀라이제이션 샘플 데이터 세트와 함께 노멀라이제이션하여 상기 제1 데이터 세트를 노멀라이제이션한 제1 노멀라이제이션 데이터 세트를 생성하는 단계,
복수의 제2 데이터를 포함하는 제2 데이터 세트를 수신하는 단계 및
상기 복수의 제2 데이터를 개별적으로 상기 노멀라이제이션 샘플 데이터 세트와 함께 노멀라이제이션하여 상기 제2 데이터 세트를 노멀라이제이션한 제2 노멀라이제이션 데이터 세트를 생성하는 단계를 포함하는
기록매체에 기록된 컴퓨터 프로그램.
제13 항에 있어서,
상기 제1 데이터 세트는 제1 서브 세트 및 제2 서브 세트를 포함하고,
상기 노멀라이제이션 샘플 데이터 세트를 생성하는 단계는,
상기 제1 데이터 세트의 제1 서브 세트를 상기 노멀라이제이션 샘플 데이터 세트로 설정하는 단계와,
상기 제2 서브 세트를 상기 제1 데이터 세트로 재설정하는 단계를 포함하는
기록매체에 기록된 컴퓨터 프로그램.
제13 항에 있어서,
상기 노멀라이제이션 샘플 데이터 세트를 생성하는 단계는,
상기 복수의 제1 데이터를 기반으로 시뮬레이션 데이터 세트를 생성하는 단계와,
상기 시뮬레이션 데이터 세트를 상기 노멀라이제이션 샘플 데이터 세트로 설정하는 단계를 포함하는
기록매체에 기록된 컴퓨터 프로그램.
제13 항에 있어서,
상기 노멀라이제이션 샘플 데이터 세트를 생성하는 단계는,
상기 제1 데이터 세트와 관련된 외부 데이터 세트를 수신하는 단계와,
상기 외부 데이터 세트를 상기 노멀라이제이션 샘플 데이터 세트로 설정하는 단계를 포함하는
기록매체에 기록된 컴퓨터 프로그램.
데이터의 전향적 전처리를 수행하는 데이터 처리 장치에 있어서,
프로그램이 저장된 스토리지; 및
상기 프로그램을 실행시키는 프로세서를 포함하고,
상기 프로세서는, 상기 프로그램을 실행함으로써,
복수의 제1 데이터를 포함하는 제1 데이터 세트를 수신하고,
상기 제1 데이터 세트를 기반으로 노멀라이제이션 샘플 데이터 세트를 생성하되, 상기 노멀라이제이션 샘플 데이터를 생성하는 방법은, 상기 제1 데이터 세트를 분할하여 생성하는 방법, 상기 제1 데이터 세트의 분포 모델을 생성한 후 상기 분포 모델에 해당하는 데이터를 랜덤 추출하여 생성하는 방법 또는 상기 제1 데이터 세트와 관련된 외부 데이터를 수신하여 생성하는 방법 중 어느 하나를 포함하고,
상기 복수의 제1 데이터를 개별적으로 상기 노멀라이제이션 샘플 데이터 세트와 함께 노멀라이제이션하여 상기 제1 데이터 세트를 노멀라이제이션한 제1 노멀라이제이션 데이터 세트를 생성하고,
상기 제1 데이터 세트와 다른 제2 데이터 세트를 수신하되, 상기 제2 데이터 세트는 복수의 제2 데이터를 포함하고,
상기 복수의 제2 데이터를 개별적으로 상기 노멀라이제이션 샘플 데이터 세트와 함께 노멀라이제이션하여 상기 제2 데이터 세트를 노멀라이제이션한 제2 노멀라이제이션 데이터 세트를 생성하는
데이터 처리 장치.
제17 항에 있어서,
상기 프로세서에 의해서 실행되는 데이터 전처리 모듈 및 신경망을 더 포함하고,
상기 데이터 전처리 모듈은,
상기 노멀라이제이션 샘플 데이터 세트를 생성하고,
상기 제1 노멀라이제이션 데이터 세트를 생성하고,
상기 제2 노멀라이제이션 데이터 세트를 생성하는
데이터 처리 장치.
제18 항에 있어서,
상기 프로세서는,
상기 제2 데이터 세트를 수신하기 전에, 상기 제1 노멀라이제이션 데이터 세트로 상기 신경망을 트레이닝하고,
상기 제2 데이터 세트를 수신한 후에, 상기 제2 노멀라이제이션 데이터 세트로 상기 신경망을 트레이닝하는
데이터 처리 장치.
제17 항에 있어서,
상기 제1 데이터 세트는 제1 서브 세트 및 제2 서브 세트를 포함하고,
상기 노멀라이제이션 샘플 데이터 세트를 생성하는 것은,
상기 제1 데이터 세트의 제1 서브 세트를 상기 노멀라이제이션 샘플 데이터 세트로 설정하고,
상기 제2 서브 세트를 상기 제1 데이터 세트로 재설정하는
데이터 처리 장치.
제17 항에 있어서,
상기 프로세서는,
상기 복수의 제1 데이터를 기반으로 시뮬레이션 데이터 세트를 생성하거나 상기 제1 데이터 세트와 관련된 외부 데이터 세트를 수신하고,
상기 시뮬레이션 데이터 세트 또는 상기 외부 데이터 세트를 상기 노멀라이제이션 샘플 데이터 세트로 설정하는
데이터 처리 장치.