KR20240086923A - Mhc 클래스 ii 결합 및 면역원성 예측 모델을 위한 데이터 증강 방법, 장치 및 프로그램 - Google Patents

Mhc 클래스 ii 결합 및 면역원성 예측 모델을 위한 데이터 증강 방법, 장치 및 프로그램 Download PDF

Info

Publication number
KR20240086923A
KR20240086923A KR1020220171801A KR20220171801A KR20240086923A KR 20240086923 A KR20240086923 A KR 20240086923A KR 1020220171801 A KR1020220171801 A KR 1020220171801A KR 20220171801 A KR20220171801 A KR 20220171801A KR 20240086923 A KR20240086923 A KR 20240086923A
Authority
KR
South Korea
Prior art keywords
data
augmentation
sequence
type
augmented
Prior art date
Application number
KR1020220171801A
Other languages
English (en)
Inventor
김기영
황도영
호르마자발 로드리고
한세희
이홍락
Original Assignee
주식회사 Lg 경영개발원
Filing date
Publication date
Application filed by 주식회사 Lg 경영개발원 filed Critical 주식회사 Lg 경영개발원
Priority to PCT/KR2023/020221 priority Critical patent/WO2024123142A1/ko
Publication of KR20240086923A publication Critical patent/KR20240086923A/ko

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Abstract

MHC 클래스 II 결합 및 면역원성 예측 모델을 위한 데이터 증강 방법, 장치 및 프로그램이 개시된다. 본 발명의 일 실시예에 따른 데이터 증강 장치는, 원본 데이터로부터 기 결정된 선택 조건에 따라 증강할 제1 타입 데이터 및 제2 타입 데이터를 포함하는 복수의 증강 대상 데이터를 선택하고, 선택된 복수의 증강 데이터를 기 결정된 증강 조건에 따라 증강하되, 제1 타입 데이터의 증강 조건 및 제2 타입 데이터의 증강 조건에 따라 각각 증강시켜 복수의 증강 데이터를 생성하며, 및 복수의 증강 데이터의 레이블링을 변경하되, 제1 타입 데이터 및 제2 타입 데이터별로 서로 다른 레이블링 조건에 따라 레이블을 변경하도록 구현하는 프로세서를 포함한다.

Description

MHC 클래스 II 결합 및 면역원성 예측 모델을 위한 데이터 증강 방법, 장치 및 프로그램{DATA AUGMENTATION METHODS, DEVICES AND PROGRAMS FOR MAJOR HISTOCOMPATIBILITY COMPLEX CLASS II BINDING AND IMMUNOGENICITY PREDICTIVE MODELS}
본 개시는 학습 데이터의 증강을 위한 데이터 증강 방법 및 장치에 관한 것이다. 보다 상세하게는, 본 개시는 MHC 클래스 II 결합 및 면역원성 예측 모델을 위한 데이터 증강 방법, 장치 및 프로그램에 관한 것이다.
최근 인공지능 기술 분야에서 다양한 개념과 학습모델이 개발되고 있고, 이를 이용한 데이터 예측에 대한 연구가 활발하게 진행되고 있다.
다만, 인공지능 기반의 신경망을 기반으로 데이터를 예측할 때, 예측 확률이 높은 결과를 도출하기 위해 학습모델에 대한 학습 또는 예측 알고리즘을 개발할 필요성이 대두되고 있다.
또한, 데이터 예측 결과의 신뢰성을 향상시키기 위해, 보다 많은 수의 데이터를 입력시키기 위한 방안이 모색되고 있다.
대한민국 등록특허공보 제10-2389175호 (2022. 04. 18.)
본 개시에 개시된 실시예는 인공지능 기반 예측 학습 시 입력될 데이터를 증강시키기 위한 MHC 클래스 II 결합 및 면역원성 예측 모델을 위한 데이터 증강 방법, 장치 및 프로그램을 제공하는데 그 목적이 있다.
본 개시가 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상술한 기술적 과제를 달성하기 위한 본 개시에 일 측면에 따른 데이터 증강 장치는, 메모리; 및 상기 메모리와 통신을 수행하고, 학습할 원본 데이터의 증강을 구현하는 프로세서를 포함하고, 상기 프로세서는, 상기 원본 데이터로부터 기 결정된 선택 조건에 따라 증강할 제1 타입 데이터 및 제2 타입 데이터를 포함하는 복수의 증강 대상 데이터를 선택하고, 상기 선택된 복수의 증강 데이터를 기 결정된 증강 조건에 따라 증강하되, 상기 제1 타입 데이터의 증강 조건 및 상기 제2 타입 데이터의 증강 조건에 따라 각각 증강시켜 복수의 증강 데이터를 생성하며, 및 상기 복수의 증강 데이터의 레이블링을 변경하되, 상기 제1 타입 데이터 및 상기 제2 타입 데이터별로 서로 다른 레이블링 조건에 따라 레이블을 변경하도록 구현하고, 상기 원본 데이터는 MHC(Major Histocompatibility Complex) 클래스 II 피처의 결합용 펩타이드 피처일 수 있다.
또한, 상기 복수의 증강 대상 데이터를 선택할 때, 상기 프로세서는, 상기 원본 데이터 중 제1 선택 조건과 일치하는 적어도 하나 이상의 포지티브 데이터(positive data)를 포함하는 상기 제1 타입 데이터를 선택하고, 상기 제1 선택 조건은 IC50 레이블이 미리 결정된 농도 값 미만이고, 펩타이드 길이(peptide length)가 미리 결정된 개수 값 이하인 조건일 수 있다.
또한, 상기 복수의 증강 대상 데이터를 선택할 때, 상기 프로세서는, 상기 원본 데이터 중 제2 선택 조건과 일치하는 적어도 하나 이상의 네가티브 데이터(negative data)를 포함하는 상기 제2 타입 데이터를 선택하고, 상기 제2 선택 조건은 IC50 레이블이 미리 결정된 농도 값을 초과하고, 펩타이드 길이(peptide length)가 미리 결정된 개수 값 이상인 조건일 수 있다.
또한, 상기 복수의 증강 데이터를 생성할 때, 상기 프로세서는, 상기 복수의 증강 대상 데이터 각각에 모든 아미노산(amino acid)을 랜덤(random)으로 추가하되, 상기 제1 타입 데이터의 펩타이드 원본 서열의 N 말단에 랜덤으로 선택된 아미노산 서열을 하나의 서열로 추가하고, 상기 제1 타입 데이터의 펩타이드 원본 서열의 C 말단에 랜덤으로 선택된 아미노산 서열을 하나의 서열로 추가하며, 및 상기 제1 타입 데이터의 펩타이드 원본 서열의 N 말단 및 C 말단 각각에 랜덤으로 선택된 아미노산 서열을 하나의 서열로 추가하여, 상기 복수의 증강 데이터의 상기 제1 타입 데이터를 증강할 수 있다.
또한, 상기 복수의 증강 데이터를 생성할 때, 상기 프로세서는, 상기 복수의 증강 대상 데이터 각각에 인간 프로틴(human protein)의 아미노산 서열 패턴을 이용하여 서열을 추가하되, 상기 제1 타입 데이터의 펩타이드 원본 서열의 N 말단에 상기 인간 프로틴의 아미노산 서열 패턴을 이용하여 하나의 서열을 추가하고, 상기 제1 타입 데이터의 펩타이드 원본 서열의 C 말단에 상기 인간 프로틴의 아미노산 서열 패턴을 이용하여 하나의 서열을 추가하며, 및 상기 제1 타입 데이터의 펩타이드 원본 서열의 N 말단 및 C 말단 각각에 상기 인간 프로틴의 아미노산 서열 패턴을 이용하여 하나의 서열로 추가하여, 상기 복수의 증강 대상 데이터의 상기 제1 타입 데이터를 증강할 수 있다.
또한, 상기 복수의 증강 데이터를 생성할 때, 상기 프로세서는, 상기 복수의 증강 대상 데이터 내 상기 제2 타입 데이터의 펩타이드 원본 서열의 길이가 기 설정된 서열 개수와 일치할 때까지 상기 펩타이드 원본 서열의 양 말단의 서열을 제거할 수 있다.
또한, 상기 복수의 증강 데이터의 레이블링을 변경할 때, 상기 프로세서는, 상기 복수의 증강 데이터 각각의 해당 원본 데이터의 레이블을 정규화한 후 상기 제1 타입 데이터 및 상기 제2 타입 데이터별 레이블링 조건에 따라 최종 슈도 레이블(pseudo label)을 획득하고, 상기 최종 슈도 레이블은 상기 원본 데이터의 정규화된 슈도 레이블 및 MHC 클래스 II 분자에 대한 펩타이드의 결합 친화도를 기초로 기 설정된 레이블 상수값을 이용하여 산출할 수 있다.
상기 프로세서는, 상기 복수의 증강 데이터와 상기 원본 데이터를 비교하여 중복되는 데이터를 삭제할 수 있다.
또한, 본 개시의 다른 측면에 따른 데이터 증강 방법은, 컴퓨터 장치에 의해 수행되는 방법에 있어서, 원본 데이터로부터 기 결정된 선택 조건에 따라 증강할 제1 타입 데이터 및 제2 타입 데이터를 포함하는 복수의 증강 대상 데이터를 선택하고, 상기 선택된 복수의 증강 데이터를 기 결정된 증강 조건에 따라 증강하되, 상기 제1 타입 데이터의 증강 조건 및 상기 제2 타입 데이터의 증강 조건에 따라 각각 증강시켜 복수의 증강 데이터를 생성하며, 및 상기 복수의 증강 데이터의 레이블링을 변경하되, 상기 제1 타입 데이터 및 상기 제2 타입 데이터별로 서로 다른 레이블링 조건에 따라 레이블을 변경하는 것을 포함하고, 상기 원본 데이터는 MHC(Major Histocompatibility Complex) 클래스 II 피처의 결합용 펩타이드 피처일 수 있다.
또한, 상기 데이터 증강 방법은 상기 복수의 증강 대상 데이터를 선택할 때, 상기 원본 데이터 중 제1 선택 조건과 일치하는 적어도 하나 이상의 포지티브 데이터(positive data)를 포함하는 상기 제1 타입 데이터를 선택하고, 상기 제1 선택 조건은 IC50 레이블이 미리 결정된 농도 값 미만이고, 펩타이드 길이(peptide length)가 미리 결정된 개수 값 이하인 조건일 수 있다.
또한, 상기 데이터 증강 방법은 상기 복수의 증강 대상 데이터를 선택할 때, 상기 원본 데이터 중 제2 선택 조건과 일치하는 적어도 하나 이상의 네가티브 데이터(negative data)를 포함하는 상기 제2 타입 데이터를 선택하고, 상기 제2 선택 조건은 IC50 레이블이 미리 결정된 농도 값을 초과하고, 펩타이드 길이(peptide length)가 미리 결정된 개수 값 이상인 조건일 수 있다.
또한, 상기 데이터 증강 방법은 상기 복수의 증강 데이터를 생성할 때, 상기 복수의 증강 대상 데이터 각각에 모든 아미노산(amino acid)을 랜덤(random)으로 추가하되, 상기 제1 타입 데이터의 펩타이드 원본 서열의 N 말단에 랜덤으로 선택된 아미노산 서열을 하나의 서열로 추가하고, 상기 제1 타입 데이터의 펩타이드 원본 서열의 C 말단에 랜덤으로 선택된 아미노산 서열을 하나의 서열로 추가하며, 및 상기 제1 타입 데이터의 펩타이드 원본 서열의 N 말단 및 C 말단 각각에 랜덤으로 선택된 아미노산 서열을 하나의 서열로 추가하여, 상기 복수의 증강 데이터의 상기 제1 타입 데이터를 증강할 수 있다.
또한, 상기 데이터 증강 방법은 상기 복수의 증강 데이터를 생성할 때, 상기 복수의 증강 대상 데이터 각각에 인간 프로틴(human protein)의 아미노산 서열 패턴을 이용하여 서열을 추가하되, 상기 제1 타입 데이터의 펩타이드 원본 서열의 N 말단에 상기 인간 프로틴의 아미노산 서열 패턴을 이용하여 하나의 서열을 추가하고, 상기 제1 타입 데이터의 펩타이드 원본 서열의 C 말단에 상기 인간 프로틴의 아미노산 서열 패턴을 이용하여 하나의 서열을 추가하며, 및 상기 제1 타입 데이터의 펩타이드 원본 서열의 N 말단 및 C 말단 각각에 상기 인간 프로틴의 아미노산 서열 패턴을 이용하여 하나의 서열로 추가하여, 상기 복수의 증강 대상 데이터의 상기 제1 타입 데이터를 증강할 수 있다.
또한, 상기 데이터 증강 방법은 상기 복수의 증강 데이터를 생성할 때, 상기 복수의 증강 대상 데이터 내 상기 제2 타입 데이터의 펩타이드 원본 서열의 길이가 기 설정된 서열 개수와 일치할 때까지 상기 펩타이드 원본 서열의 양 말단의 서열을 제거할 수 있다.
상기 데이터 증강 방법은 상기 복수의 증강 데이터의 레이블링을 변경할 때, 상기 복수의 증강 데이터 각각의 해당 원본 데이터의 레이블을 정규화한 후 상기 제1 타입 데이터 및 상기 제2 타입 데이터별 레이블링 조건에 따라 최종 슈도 레이블(pseudo label)을 획득하고, 상기 최종 슈도 레이블은 상기 원본 데이터의 정규화된 슈도 레이블 및 MHC 클래스 II 분자에 대한 펩타이드의 결합 친화도를 기초로 기 설정된 레이블 상수값을 이용하여 산출할 수 있다.
상기 데이터 증강 방법은 상기 복수의 증강 데이터의 레이블링을 변경한 이후, 상기 복수의 증강 데이터와 상기 원본 데이터를 비교하여 중복되는 데이터를 삭제할 수 있다.
이 외에도, 본 개시를 구현하기 위한 실행하기 위한 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램이 더 제공될 수 있다.
이 외에도, 본 개시를 구현하기 위한 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공될 수 있다.
본 개시의 전술한 과제 해결 수단에 의하면, MHC 클래스 II 결합 및 면역원성 예측을 위한 학습모델의 입력 데이터를 증강하되, IC50 레이블을 비롯한 다양한 조건을 기초로 증강 대상 데이터를 선택하여 수행하기 때문에, 증강된 데이터에 대한 퀄리티가 향상될 수 있고, 이를 기초로 학습된 결합 및 면역원성 예측 결과에 대한 신뢰도도 향상될 수 있다는 효과를 제공한다.
본 개시의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1a는 본 개시의 MHC 클래스 II의 구조를 나타내는 도면
도 1b는 본 개시의 데이터 증강 방법을 간략하게 설명하기 위한 예시도
도 1c는 본 개시의 학습모델의 전체 구조를 나타내는 도면
도 2는 본 개시의 컴퓨터 장치의 구성을 나타내는 도면
도 3은 본 개시의 증강 대상 데이터의 선택 방법을 설명하기 위한 예시도
도 4 내지 도 6은 본 개시의 증강 대상 데이터의 증강 방법을 설명하기 위한 예시도
도 7은 본 개시의 수도레이블링 방법을 설명하기 위한 예시도
도 8은 본 개시의 데이터 증강 방법을 설명하기 위한 흐름도
도 9 및 도 10은 도 8의 데이터 증강 방법을 상세하게 설명하기 위한 흐름도
본 개시 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다. 본 개시가 실시예들의 모든 요소들을 설명하는 것은 아니며, 본 개시가 속하는 기술분야에서 일반적인 내용 또는 실시예들 간에 중복되는 내용은 생략한다. 명세서에서 사용되는 '부, 모듈, 부재, 블록'이라는 용어는 소프트웨어 또는 하드웨어로 구현될 수 있으며, 실시예들에 따라 복수의 '부, 모듈, 부재, 블록'이 하나의 구성요소로 구현되거나, 하나의 '부, 모듈, 부재, 블록'이 복수의 구성요소들을 포함하는 것도 가능하다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우 뿐 아니라, 간접적으로 연결되어 있는 경우를 포함하고, 간접적인 연결은 무선 통신망을 통해 연결되는 것을 포함한다.
또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
명세서 전체에서, 어떤 부재가 다른 부재 "상에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.
제 1, 제 2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위해 사용되는 것으로, 구성요소가 전술된 용어들에 의해 제한되는 것은 아니다.
단수의 표현은 문맥상 명백하게 예외가 있지 않는 한, 복수의 표현을 포함한다.
각 단계들에 있어 식별부호는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 실시될 수 있다.
이하 첨부된 도면들을 참고하여 본 개시의 작용 원리 및 실시예들에 대해 설명한다.
본 명세서에서 '본 개시에 따른 데이터 증강 장치'는 연산처리를 수행하여 사용자에게 결과를 제공할 수 있는 다양한 장치들이 모두 포함된다. 예를 들어, 본 개시에 따른 데이터 증강 장치는, 컴퓨터, 서버 장치 및 휴대용 단말기를 모두 포함하거나, 또는 어느 하나의 형태가 될 수 있다.
여기에서, 상기 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop), 태블릿 PC, 슬레이트 PC 등을 포함할 수 있다.
상기 서버 장치는 외부 장치와 통신을 수행하여 정보를 처리하는 서버로써, 애플리케이션 서버, 컴퓨팅 서버, 데이터베이스 서버, 파일 서버, 게임 서버, 메일 서버, 프록시 서버 및 웹 서버 등을 포함할 수 있다.
상기 휴대용 단말기는 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), WiBro(Wireless Broadband Internet) 단말, 스마트 폰(Smart Phone) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치와 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD) 등과 같은 웨어러블 장치를 포함할 수 있다.
본 개시에서 '항원'은 면역 반응을 유도하는 물질일 수 있다.
신항원(neoantigen)이란 종양 DNA에서 특정 돌연변이가 발생할 때 암세포에 형성되는 새로운 단백질을 의미할 수 있다. 신항원은 돌연변이에 의해 발생하며, 오직 암세포에서만 발현한다는 특징이 있다. 신항원은 폴리펩타이드 서열 또는 뉴클레오티드 서열을 포함할 수 있다. 돌연변이는 프레임 이동 또는 비-격자 이동 인델(indel), 미스센스(missense) 또는 넌센스 (nonsense) 치환, 스플라이스 부위 변경, 게놈 재배열 또는 유전자 융합, 또는 신생 ORF를 야기하는 임의의 게놈 또는 발현 변경을 포함할 수 있다. 돌연변이는 스플라이스 변이(splice variant)도 포함할 수 있다. 종양 세포에 특이적인 번역 후 변형은 비정상적인 인산화를 포함할 수 있다. 종양 세포에 특이적인 번역 후 변형은 또한 프로테아솜-생성된 스플라이싱된 항원을 포함할 수 있다.
본 개시에서 '에피토프(epitope)'는 항체 또는 T-세포 수용체가 통상 결합하는 항원의 특이적인 부분을 지칭할 수 있다.
본 개시에서 ‘주조직 적합성 복합체(major histocompatibility complex, MHC)’는 특정 세포에서 합성된 '펩타이드'를 그 세포 표면에 제시하므로서 T세포가 세포를 확인할 수 있게 하는 단백질을 의미할 수 있다.
본 개시에서 '펩타이드'는 아미노산의 중합체를 의미한다. 설명의 편의를 위하여, 이하 "펩타이드"는 암 세포가 표면에 표현하는 아미노산 중합체 내지 아미노산 서열을 의미할 수 있다.
본 개시에서 'MHC 클래스 II((major histocompatibility complex class II)'는 항원제시세포에서 발현되어 헬퍼 T 세포(Helper T Cell)을 활성화시켜 각종 면역 작용을 조절하는 역할을 하는 단백질일 수 있다.
본 개시에서 'MHC 클래스 II-펩타이드 복합체'는 항원 전달 세포(Antigen-presenting cell) 또는 암 세포의 표면에 표현되는 것으로, MHC 클래스 II와 펩타이드의 복합 구조체일 수 있다. 헬퍼 T-세포가 MHC 클래스 II-펩타이드 복합체를 인식하여 면역 반응을 수행할 수 있다.
암 세포는 신항원을 생성할 수 있다. MHC 클래스 II는 주로 항원 전달 세포에서 발현될 수 있다. 항원 전달 세포는 암에서 발생한 신항원을 분해하며, 신항원에서 유래된 에피토프는 MHC 클래스 II에 의해 표면에 제시될 수 있다. 헬퍼 T 세포는 MHC 클래스 II - 에피토프를 인식하여 면역 반응을 일으킨다. 이에, 암 세포가 생성하는 신항원을 식별하기 위하여 MHC-펩타이드 결합을 예측할 필요가 있다.
본 개시는 학습을 통해 구현된 시퀀스 변환 신경망을 기반으로 MHC 클래스 II와 펩타이드 서열의 결합 여부 및 T-세포의 활성화를 예측하는 학습모델에 입력되는 데이터를 증강하기 위한 것이다. 이를 위한 일련의 동작 또는 알고리즘들은 컴퓨터 장치에 의해 수행될 수 있으며, 그 컴퓨터 장치에 대한 세부적인 구성은 후술하는 도 2를 기초로 설명하기로 한다. 본 개시에서 컴퓨터 장치는 데이터 증강 장치를 의미할 수 있다.
도 1a는 본 개시의 MHC 클래스 II의 구조를 나타내는 도면이고, 도 1b는 본 개시의 데이터 증강 방법을 간략하게 설명하기 위한 예시도이다.
MHC는 개체를 구분하는 생화학적 지표가 되는 세포 표면 분자 그룹으로, 면역반응의 대상 물질을 항원으로 인식시키는 매개자 역할을 할 수 있다.
MHC는 분자 형태에 따라 MHC 클래스 I, MHC 클래스 II 그룹으로 구분되며, 항원 결합 부위의 차이로 예측 난이도가 다를 수 있다.
MHC 클래스 II는 결합 부위가 서로 다른 물질로 구성될 수 있고, 13개 내지 17개 아미노산의 펩타이드와 결합할 수 있다.
도 1a에서 도시하는 바와 같이, MHC 클래스 II는 MHC 클래스 I과는 다르게 체인 및 체인의 2개 체인(chain)으로 구성되어 있으며, 양끝이 오픈(open)된 구조로 형성될 수 있다.
MHC 클래스 II의 양 끝단이 오픈된 구조로 인해, 펩타이드는 바인딩 코어(binding core) 서열을 포함한 경우, 양 끝단에 다른 서열이 추가되더라도 결합이 가능할 수 있다. 또한, 펩타이드는 바인딩 코어 서열이 포함되어 있지 않은 경우, 양 끝 서열을 제거해도 MHC 클래스 II와 결합되지 않는다.
도 1b를 참고하면, 본 개시는 MHC 클래스 II의 오픈 구조를 기초로 펩타이드의 원본 서열에서 서열을 추가 또는 삭제하는 방식으로 데이터 증강을 처리할 수 있다. 구체적으로, 포지티브 증강(positive augmentation)은 원본 서열의 양 끝단(P13, P1) 각각에 서열을 1개씩 추가(Pr)할 수 있다. 또한, 네가티브 증강(negative augmentation)은 원본 서열의 양 끝단(P13, P1) 각각에서 n개씩 서열을 제거(D1, D2, D3-1, D3-2)하여 데이터를 증강할 수 있다. 이때, 증강된 데이터의 최종 서열 길이는 10 이상으로 제한할 수 있다.
도 1c는 본 개시의 학습모델의 전체 구조를 나타내는 도면이다.
도 1c를 참조하면, 본 개시에 따른 시퀀스 변환 신경망(NN) 기반 학습모델은 MHC 클래스 II 체인 피처(feature)와 MHC 클래스 II 체인 피처를 제1 입력 데이터로, 펩타이드 피처 및 증강된 펩타이드 피처를 제2 입력 데이터로 입력받을 수 있다.
상기 제1 입력 데이터는 MHC 클래스 II 체인 피처와 MHC 클래스 II 체인 피처를 기초로 미리 결정된 사전학습을 통해 제1 입력 데이터에 대한 제1 키(key) 값 및 제1 벨류(value) 값을 결정하고, 제1 입력 데이터에 대응되는 제2 입력 데이터를 기초로 멀티 헤드 셀프 어텐션(self attention) 연산을 통해 제1 입력 데이터에 대한 제1 쿼리 값을 생성할 수 있다.
상술한 제1 키 값, 제1 벨류 값 및 제1 쿼리 값을 기초로 하여 스케일드 닷 프로덕트 어텐션(scaled dot product attention) 연산을 수행하고, 각 어텐션 헤드를 연결(concatenate)함으로써 각 시퀀스가 벡터로 변환된 행렬을 학습을 위한 제1 입력 데이터로 출력할 수 있다.
제2 입력 데이터는 펩타이드 피처(서열) 및 증강된 펩타이드 피처를 포함하며, 아미노산 치환 행렬(BLOSUM) 및 물리화학적 특성(AAindex)을 모두 사용한 아미노산 피처(amino acid feature)일 수 있다.
상기 학습모델은 제1 입력 데이터 및 제2 입력 데이터를 입력받으면, 그에 따른 MHC 클래스 II 결합 친화도(binding affinity) 및 면역원성(immunogenicity)을 학습할 수 있다. 이때, MHC 클래스 II 결합 친화도는 펩타이드 서열-MHC 클래스 II의 결합 가능성을 의미하고, 면역원성은 T-세포 활성화(activation) 여부를 의미할 수 있다.
상술한 과정을 통해, 입력 시퀀스를 변환하기 위한 시퀀스 변환 신경망(NN)을 구현할 수 있다.
도 2는 본 개시의 컴퓨터 장치의 구성을 나타내는 도면이다.
이하에서는, 본 개시의 증강 대상 데이터의 선택 방법을 설명하기 위한 예시도인 도 3, 본 개시의 증강 대상 데이터의 증강 방법을 설명하기 위한 예시도인 도 4 내지 도 6 및 본 개시의 수도레이블링 방법을 설명하기 위한 예시도인 도 7을 참조하여 설명하기로 한다.
도 2를 참고하면, 컴퓨터 장치(100)는 메모리(110), 프로세서(120), 통신 인터페이스(130), 입출력 인터페이스(140) 및 입출력 장치(150)를 포함할 수 있다. 다만, 도 2에는 각각의 구성요소를 하나씩 도시하였으나, 이는 설명의 편의를 위한 것일 뿐, 필요에 따라 적어도 하나 이상 구비될 수 있다.
메모리(110)는 데이터 증강 방법을 제공하기 위한 컴퓨터 프로그램을 저장할 수 있으며, 저장된 컴퓨터 프로그램은 프로세서(120)에 의해 판독되어 구동될 수 있다. 메모리(110)는 프로세서(120)가 생성하거나 결정한 임의의 형태의 정보 및 통신 인터페이스부(130)가 수신한 임의의 형태의 정보를 저장할 수 있다.
메모리(110)는 컴퓨터 장치(100)의 다양한 기능을 지원하는 데이터와, 프로세서(120)의 동작을 위한 프로그램을 저장할 수 있고, 입/출력되는 데이터들(예를 들어, 원본 데이터, 증강 대상 데이터, 증강 데이터 등)을 저장할 있고, 컴퓨터 장치(100)에서 구동되는 다수의 응용 프로그램(application program 또는 애플리케이션(application)), 컴퓨터 장치(100)의 동작을 위한 데이터들, 명령어들을 저장할 수 있다. 이러한 응용 프로그램 중 적어도 일부는, 무선 통신을 통해 외부 서버로부터 다운로드 될 수 있다.
이러한, 메모리(110)는 플래시 메모리 타입(Flash memory type), 하드디스크 타입(Hard disk type), SSD 타입(Solid State Disk type), SDD 타입(Silicon Disk Drive type), 멀티미디어 카드 마이크로 타입(Multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(Random access memory; RAM), SRAM(Static random access memory), 롬(Read-only memory; ROM), EEPROM(Electrically erasable programmable read-only memory), PROM(Programmable read-only memory), 자기 메모리, 자기 디스크 및 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 또한, 메모리는 본 장치와는 분리되어 있으나, 유선 또는 무선으로 연결된 데이터베이스가 될 수도 있다.
도 2를 참고하면, 컴퓨터 장치(100) 내 모든 구성들을 제어하여 입력 또는 출력되는 신호, 데이터, 정보 등을 처리하거나, 메모리(110)에 저장된 명령어, 알고리즘, 응용 프로그램을 실행하여 각종 프로세스를 수행하며, 데이터 증강 절차를 구현함으로써 각 사용자에게 적절한 정보 또는 기능을 제공 또는 처리할 수 있다. 도 2에 도시된 구성요소들은 본 개시에 따른 컴퓨터 장치(100)를 구현하는데 있어서 필수적인 것은 아니어서, 본 개시 상에서 설명되는 컴퓨터 장치(100)는 위에서 열거된 구성요소들 보다 많거나, 또는 적은 구성요소들을 가질 수 있다. 이때, 컴퓨터 장치(100)는 데이터 증강 장치를 의미할 수 있다.
프로세서(120)는 메모리(110)와 통신을 수행하고, 학습할 원본 데이터의 증강을 구현할 수 있다.
프로세서(120)는 원본 데이터로부터 기 결정된 선택 조건에 따라 증강할 제1 타입 데이터 및 제2 타입 데이터를 포함하는 복수의 증강 대상 데이터를 선택할 수 있다. 이때, 제1 타입 데이터는 포지티브 데이터(positive data)를 의미하고, 제2 타입 데이터는 네가티브 데이터(negative data)를 의미할 수 있다.
상기 원본 데이터는 MHC(Major Histocompatibility Complex) 클래스 II 피처의 결합용 펩타이드 피처일 수 있다. 이때, 원본 데이터는 펩타이드 피처 각각의 MHC 클래스 II와의 결합 여부 및 면역원성을 포함할 수 있다. 이러한 정보를 기초로 프로세서(120)는 기 결정된 선택 조건에 따라 증강 대상 데이터를 선택하는 것이다.
선택 조건에는 미리 결정된 IC50의 값, 즉 농도 값과 미리 결정된 펩타이드 길이의 개수 값이 포함될 수 있다.
일 예로, 도 3을 참고하면, 프로세서(120)는 복수의 증강 대상 데이터를 선택할 때, 원본 데이터 중 제1 선택 조건과 일치하는 적어도 하나 이상의 포지티브 데이터를 포함하는 제1 타입 데이터를 선택할 수 있다.
상기 제1 선택 조건은 IC50 레이블이 미리 결정된 농도 값 미만이고, 펩타이드 길이(peptide length)가 미리 결정된 개수 값 이하인 조건일 수 있다. 예를 들어, 상기 제1 선택 조건은 IC50 레이블이 0.01nM 초과 500nM 미만(0.01nM < IC50 레이블 < 500nM)이고, 펩타이드 길이(peptide length)가 10개 이상 20개 미만(10개 ≤ 펩타이드 길이 < 20개)인 조건일 수 있다.
이때, IC(half maximal inhibitory concentration)50은 약물이 투여되었을 때 세포의 활성도(enzyme/protein activity)가 절반으로 떨어지는 순간의 최대 농도(maximal concentration)을 의미할 수 있다. 이때, 세포의 활성도를 나타내는 지표는 프로틴(protein)일 수 있다. IC50 값은 작을수록 친화력 높은(high affinity) 것을 의미할 수 있다.
즉, 선택된 제1 타입 데이터는 복수 개의 포지티브 데이터로 구성된 포지티브 서브셋(positive subset)으로, 정성적 레이블(qualitative label)은 Positive high이고, 정량 레이블(quantitative label)은 IC50 0.01nM 초과 500nM 미만이고, 및 펩타이드 길이는 10개 이상 20개 미만일 수 있다. 펩타이드의 길이가 너무 길 경우 구조적 변형이 있을 수 있기 때문에, 펩타이드 길이를 제한 설정할 수 있다.
다른 예로, 도 3을 참고하면, 프로세서(120)는 복수의 증강 대상 데이터를 선택할 때, 원본 데이터 중 제2 선택 조건과 일치하는 적어도 하나 이상의 네가티브 데이터를 포함하는 제2 타입 데이터를 선택할 수 있다.
상기 제2 선택 조건은 IC50 레이블이 미리 결정된 농도 값을 초과하고, 펩타이드 길이(peptide length)가 미리 결정된 개수 값 이상인 조건일 수 있다. 예를 들어, 상기 제2 선택 조건은 IC50 레이블이 50000nM 초과 5000000nM 미만(50000nM < IC50 레이블 < 500만nM)이고, 펩타이드 길이(peptide length)가 11개 초과 30개 이하(11개 < 펩타이드 길이 ≤ 30개)인 조건일 수 있다.
즉, 선택된 제2 타입 데이터는 복수 개의 네가티브 데이터로 구성된 네가티브 서브셋(negative subset)으로, 정성적 레이블(qualitative label)은 Negative이고, 정량 레이블(quantitative label)은 IC50 50000nM 초과 500만nM 미만이고, 및 펩타이드 길이는 11개 초과 30개 이하일 수 있다.
프로세서(120)는 선택된 복수의 증강 데이터를 기 결정된 증강 조건에 따라 증강하되, 제1 타입 데이터의 증강 조건 및 제2 타입 데이터의 증강 조건에 따라 각각 증강시켜 복수의 증강 데이터를 생성할 수 있다.
상기 제1 타입 데이터의 증강 조건은 포지티브 서브셋에 랜덤(random) 방식의 증강을 적용한 조건과 인간 프로틴 패턴(human protein pattern)을 적용한 조건을 포함할 수 있다. 또한, 제2 타입 데이터의 증강 조건은 네가티브 서브셋의 펩타이드 서열을 제거하여 길이를 단축하는 조건일 수 있다.
일 예로, 프로세서(120)는 복수의 증강 데이터를 생성할 때, 복수의 증강 대상 데이터 각각에 모든 아미노산(amino acid)을 랜덤(random)으로 추가하되, 하기와 같을 수 있다. 이때, 프로세서(120)는 시스테인(cystein)을 제외한 모든 모든 아미노산(amino acid)을 서열로 무작위 추가할 수 있다.
구체적으로, 도 4를 참고하면, 프로세서(120)는 제1 타입 데이터의 펩타이드 원본 서열의 N 말단에 랜덤으로 선택된 아미노산 서열을 하나의 서열로 추가(A1)할 수 있다. 또한, 프로세서(120)는 제1 타입 데이터의 펩타이드 원본 서열의 C 말단에 랜덤으로 선택된 아미노산 서열을 하나의 서열로 추가(A2)할 수 있다. 또한, 프로세서(120)는 제1 타입 데이터의 펩타이드 원본 서열의 N 말단 및 C 말단 각각에 랜덤으로 선택된 아미노산 서열을 하나의 서열로 추가(A3-1, A3-2)할 수 있다. 프로세서(120)는 상술한 방법으로 복수의 증강 대상 데이터의 제1 타입 데이터를 증강할 수 있다.
이때, 도 4에서 도시된 펩타이드 원본 서열의 개수는 설명을 위한 일 예로, 바이딩 코어 서열이 포함되도록 고려할 수 있다.
다른 예로, 프로세서(120)는 복수의 증강 데이터를 생성할 때, 복수의 증강 대상 데이터 각각에 인간 프로틴(human protein)의 아미노산 서열 패턴(4-mer)을 이용하여 서열을 추가하되, 하기와 같을 수 있다.
구체적으로, 도 5를 참고하면, 프로세서(120)는 제1 타입 데이터의 펩타이드 원본 서열의 N 말단에 인간 프로틴의 아미노산 서열 패턴(a, b, c, d, e, f)을 이용하여 하나의 서열(a)을 추가할 수 있다. 프로세서(120)는 제1 타입 데이터의 펩타이드 원본 서열의 C 말단에 인간 프로틴의 아미노산 서열 패턴을 이용하여 하나의 서열(f)을 추가할 수 있다. 프로세서(120)는 제1 타입 데이터의 펩타이드 원본 서열의 N 말단 및 C 말단 각각에 인간 프로틴의 아미노산 서열 패턴을 이용하여 하나의 서열(a, f)로 추가할 수 있다. 프로세서(120)는 상술한 방법으로 복수의 증강 대상 데이터의 제1 타입 데이터를 증강할 수 있다.
예를 들어, 프로세서(120)는 인간 프로틴에서 100회 이상 나오는 서열 패턴(4-mer)을 활용하여 N 말단 및 C 말단에 서열을 추가할 수 있다. 본 실시예는 실제와 유사한 데이터 증강이 가능하다는 효과를 기대할 수 있다. 이때, 도 5에서 도시된 펩타이드 원본 서열의 개수는 설명을 위한 일 예로, 바인딩 코어 서열이 포함되도록 고려할 수 있다.
다른 예로, 도 6을 참고하면, 프로세서(120)는 복수의 증강 데이터를 생성할 때, 복수의 증강 대상 데이터 내 제2 타입 데이터의 펩타이드 원본 서열의 길이가 기 설정된 서열 개수(N개)와 일치할 때까지 펩타이드 원본 서열의 양 말단의 서열을 제거(D6-1, D6-2)할 수 있다. 이때, 프로세서(120)는 펩타이드 원본 서열의 양 말단을 하나씩 제거할 때마다 추가 증강 데이터를 생성할 수 있다.
프로세서(120)는 복수의 증강 데이터의 레이블링을 변경하되, 제1 타입 데이터 및 제2 타입 데이터별로 서로 다른 레이블링 조건에 따라 레이블을 변경하도록 구현할 수 있다.
프로세서(120)는 복수의 증강 데이터의 레이블링을 변경할 때, 복수의 증강 데이터 각각의 해당 원본 데이터의 레이블을 정규화한 후 제1 타입 데이터 및 제2 타입 데이터별 레이블링 조건에 따라 최종 슈도 레이블(pseudo label)을 획득할 수 있다. 이때, 슈도 레이블로 변경하는 것은 가장 확률 높은 레이블을 가상 레이블의 형태로 부여하는 기법으로서, 레이블값이 부족한 데이터의 한계를 극복하기 위한 방법일 수 있다. 
상기 최종 슈도 레이블은 원본 데이터의 정규화된 슈도 레이블 및 MHC 클래스 II 분자에 대한 펩타이드의 결합 친화도를 기초로 기 설정된 레이블 상수값을 이용하여 산출할 수 있다.
구체적으로, 도 7을 참고하면, 프로세서(120)는 편의성을 위해 증강 데이터의 해당 원본 데이터의 레이블(original label)을 0 내지 1로 정규화(nomalize)한 후, 최종 슈도 레이블링으로 변경 처리할 수 있다. 이때, 증강 데이터의 해당 원본 데이터의 레이블은 증강 데이터의 증강 전 원본 데이터(증강 대상 데이터)의 레이블을 의미할 수 있다.
상술한 0은 낮은 친화도 또는 낮은 면역원성(low affinity or low immunogenicity)을 의미할 수 있고, 1은 높은 친화도 또는 높은 면역원성(high affinity or hign immunogenicity)을 의미할 수 있다.
증강 데이터가 제1 타입 데이터인 포지티브 서브셋인 경우, 프로세서(120)는 원본 데이터의 정규화된 슈도 레이블(x)에서 기 설정된 레이블 상수값(k)을 감한 값을 초과하는 값으로 최종 슈도 레이블을 산출(pseudo label > x - k)할 수 있다. 이때, 기 설정된 레이블 상수값(k)은 MHC 클래스 II 분자에 대해 모델 훈련을 통해 획득된 펩타이드 결합 친화도 성능이 가장 높은 상수로 결정된 것으로, 태스크(task)마다 달라질 수 있다. 예를 들어, 결합 친화도(binding affinity)인 경우 기 설정된 레이블 상수값 k는 0.25이고, 면역원성(immunogenicity)인 경우 기 설정된 레이블 상수값 k는 0.15일 수 있다.
증강 데이터가 제2 타입 데이터인 네가티브 서브셋인 경우, 프로세서(120)는 원본 데이터의 정규화된 슈도 레이블(x)에서 기 설정된 레이블 상수값(k)을 감한 값 미만의 값으로 최종 슈도 레이블을 산출(pseudo label < x - k)할 수 있다.
즉, 프로세서(120)는 1-log(IC50)/log50000을 통해 원본 데이터의 레이블을 0~1사이로, 1이 높은 친화도(high affinity)가 되도록 변경하고 이후 절차를 진행할 수 있다. 본 개시의 IC50값은 작을수록 높은 친화도(high affinity)를 의미하지만, 정규화된 레이블(normalized label)은 클수록 높은 친화도를 의미할 수 있다.
프로세서(120)는 복수의 증강 데이터와 원본 데이터를 비교하여 중복되는 데이터를 삭제할 수 있다.
예를 들어, 원본 데이터 및 증강 데이터 모두 A인 경우, 프로세서(120)는 이들 중 하나를 삭제하여 노이즈 및 불필요한 학습을 절차를 미연에 방지할 수 있도록 하는 것이다.
프로세서(120)는 공정한 학습모델의 검증하기 위한 검증셋(validation set)을 생성하여, 검증 절차를 수행할 수 있다. 이때, 검증셋은 증강을 수행하지 않고 원본 데이터로만 구성될 수 있다.
한편, 컴퓨터 장치(100)는 외부 장치와 통신을 가능하게 하는 하나 이상의 구성 요소를 포함할 수 있으며, 일 예로서 무선 통신을 위한 통신 인터페이스(130) 및 유선 통신을 위한 입출력 인터페이스(140)을 구비할 수 있다.
구체적으로, 통신 인터페이스(130)는 네트워크(200)를 통해 외부 장치로부터 무선 통신을 기반으로 신호를 송수신할 수 있다. 이를 위해, 통신 인터페이스(130)는 적어도 하나의 무선 통신 모듈, 근거리 통신 모듈 등을 포함할 수 있다.
먼저, 무선 통신 모듈은 와이파이(Wifi) 모듈, 와이브로(Wireless broadband) 모듈 외에도, GSM(global System for Mobile Communication), CDMA(Code Division Multiple Access), WCDMA(Wideband Code Division Multiple Access), UMTS(universal mobile telecommunications system), TDMA(Time Division Multiple Access), WLAN(Wireless LAN), DLNA(Digital Living Network Alliance), WiBro(Wireless Broadband), WiMAX(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), 4G, 5G, 6G 등 다양한 무선 통신 방식을 지원하는 무선 통신 모듈을 포함할 수 있다.
또한, 근거리 통신 모듈은 근거리 통신(Short range communication)을 위한 것으로서, 블루투스(Bluetooth™RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), UWB(Ultra Wideband), ZigBee, NFC(Near Field Communication), Wi-Fi(Wireless-Fidelity), Wi-Fi Direct, Wireless USB(Wireless Universal Serial Bus) 기술 중 적어도 하나를 이용하여, 근거리 통신을 지원할 수 있다.
입출력 인터페이스(140)는 입출력 장치(150)와 유선 연결되어, 즉, 유선 통신을 기반으로 신호를 송수신할 수 있다. 이를 위해, 입출력 인터페이스(140)는 적어도 하나의 유선 통신 모듈을 포함할 수 있으며, 유선 통신 모듈은 지역 통신(Local Area Network; LAN) 모듈, 광역 통신(Wide Area Network; WAN) 모듈 또는 부가가치 통신(Value Added Network; VAN) 모듈 등 다양한 유선 통신 모듈뿐만 아니라, USB(Universal Serial Bus), HDMI(High Definition Multimedia Interface), DVI(Digital Visual Interface), RS-232(recommended standard232), 전력선 통신, 또는 POTS(plain old telephone service) 등 다양한 케이블 통신 모듈을 포함할 수 있다.
도시하지 않았지만, 본 개시의 데이터 증강 장치(100)는 출력부 및 입력부를 더 포함할 수도 있다.
출력부는 데이터 증강 결과 등을 제공하기 위한 사용자 인터페이스(UI, user interface)를 표시할 수 있다. 출력부는 프로세서(120)가 생성하거나 결정한 임의의 형태의 정보 및 통신 인터페이스부(130)가 수신한 임의의 형태의 정보를 출력할 수 있다.
출력부는 액정 디스플레이(LCD: liquid crystal display), 박막 트랜지스터 액정 디스플레이(TFT LCD: thin film transistor- liquid crystal display), 유기 발광 다이오드(OLED: organic light-emitting diode), 플렉시블 디스플레이(Flexible display), 3차원 디스플레이(3D display) 중에서 적어도 하나를 포함할 수 있다. 이들 중 일부 디스플레이 모듈은, 그를 통해 외부를 볼 수 있도록 투명형 또는 광 투과형으로 구성될 수 있다. 이는 투명 디스플레이 모듈이라 지칭될 수 있는데, 상기 투명 디스플레이 모듈의 대표적 인 예로는 TOLED(Transparent OLED) 등이 있다.
입력부는 사용자에 의해서 입력된 정보를 수신할 수 있 다. 입력부는 사용자에 의해서 입력된 정보를 수신하기 위한 사용자 인터페이스 상의 키 및/또는 버튼들, 또는 물리적인 키 및/또는 버튼들을 구비할 수 있다. 입력부를 통한 사용 자 입력에 따라 본 개시의 실시예들에 따른 디스플레이를 제어하기 위한 컴퓨터 프로그램이 실행될 수 있다.
도 8은 본 개시의 데이터 증강 방법을 설명하기 위한 흐름도이다.
컴퓨터 장치(100)의 프로세서(120)는 원본 데이터로부터 기 결정된 선택 조건에 따라 증강할 제1 타입 데이터 및 제2 타입 데이터를 포함하는 복수의 증강 대상 데이터를 선택할 수 있다(1100). 이때, 제1 타입 데이터는 포지티브 데이터(positive data)를 의미하고, 제2 타입 데이터는 네가티브 데이터(negative data)를 의미할 수 있다. 상기 원본 데이터는 MHC(Major Histocompatibility Complex) 클래스 II 피처의 결합용 펩타이드 피처일 수 있다.
다음, 프로세서(120)는 선택된 복수의 증강 데이터를 기 결정된 증강 조건에 따라 증강하되, 제1 타입 데이터의 증강 조건 및 제2 타입 데이터의 증강 조건에 따라 각각 증강시켜 복수의 증강 데이터를 생성할 수 있다(1200).
다음, 프로세서(120)는 복수의 증강 데이터의 레이블링을 변경하되, 제1 타입 데이터 및 제2 타입 데이터별로 서로 다른 레이블링 조건에 따라 레이블을 변경할 수 있다(1300).
프로세서(120)는 복수의 증강 데이터의 레이블링을 변경할 때, 복수의 증강 데이터 각각의 해당 원본 데이터의 레이블을 정규화한 후 제1 타입 데이터 및 제2 타입 데이터별 레이블링 조건에 따라 최종 슈도 레이블(pseudo label)을 획득할 수 있다. 상기 최종 슈도 레이블은 상기 원본 데이터의 정규화된 슈도 레이블 및 MHC 클래스 II 분자에 대한 펩타이드의 결합 친화도를 기초로 기 설정된 레이블 상수값을 이용하여 산출할 수 있다.
다음, 프로세서(120)는 복수의 증강 데이터와 원본 데이터를 비교하여 중복되는 데이터를 삭제할 수 있다(1400).
프로세서(120)는 공정한 학습모델의 검증하기 위한 검증셋(validation set)을 생성하여, 검증 절차를 수행할 수 있다(1500). 이때, 검증셋은 증강을 수행하지 않고 원본 데이터로만 구성될 수 있다.
도 9는 도 8의 데이터 증강 방법을 상세하게 설명하기 위한 흐름도로서, 제1 타입 데이터의 증강 대상 데이터를 증강하는 방법을 예로 들어 설명하기로 한다.
먼저, 프로세서(120)는 복수의 증강 대상 데이터를 선택할 때, 원본 데이터 중 제1 선택 조건과 일치하는 적어도 하나 이상의 포지티브 데이터를 포함하는 제1 타입 데이터를 선택할 수 있다(2100).
상기 제1 선택 조건은 IC50 레이블이 미리 결정된 농도 값 미만이고, 펩타이드 길이(peptide length)가 미리 결정된 개수 값 이하인 조건일 수 있다. 예를 들어, 상기 제1 선택 조건은 IC50 레이블이 0.01nM 초과 500nM 미만(0.01nM < IC50 레이블 < 500nM)이고, 펩타이드 길이(peptide length)가 10개 이상 20개 미만(10개 ≤ 펩타이드 길이 < 20개)인 조건일 수 있다.
다음, 프로세서(120)는 복수의 증강 데이터를 생성할 때, 복수의 증강 대상 데이터 각각에 모든 아미노산(amino acid)을 랜덤(random)으로 추가하되, 하기와 같을 수 있다(2200). 이때, 프로세서(120)는 시스테인(cystein)을 제외한 모든 모든 아미노산(amino acid)을 서열로 무작위 추가할 수 있다.
구체적으로, 도 4를 참고하면, 프로세서(120)는 제1 타입 데이터의 펩타이드 원본 서열의 N 말단에 랜덤으로 선택된 아미노산 서열을 하나의 서열로 추가할 수 있다. 또한, 프로세서(120)는 제1 타입 데이터의 펩타이드 원본 서열의 C 말단에 랜덤으로 선택된 아미노산 서열을 하나의 서열로 추가할 수 있다. 또한, 프로세서(120)는 제1 타입 데이터의 펩타이드 원본 서열의 N 말단 및 C 말단 각각에 랜덤으로 선택된 아미노산 서열을 하나의 서열로 추가할 수 있다. 프로세서(120)는 상술한 방법으로 복수의 증강 대상 데이터의 제1 타입 데이터를 증강할 수 있다.
이때, 도 4에서 도시된 펩타이드 원본 서열의 개수는 설명을 위한 일 예로, 바이딩 코어 서열이 포함되도록 고려할 수 있다.
다른 예로, 프로세서(120)는 복수의 증강 데이터를 생성할 때, 복수의 증강 대상 데이터 각각에 인간 프로틴(human protein)의 아미노산 서열 패턴(4-mer)을 이용하여 서열을 추가하되, 하기와 같을 수 있다(2300).
구체적으로, 도 5를 참고하면, 프로세서(120)는 제1 타입 데이터의 펩타이드 원본 서열의 N 말단에 인간 프로틴의 아미노산 서열 패턴을 이용하여 하나의 서열(a)을 추가할 수 있다. 프로세서(120)는 제1 타입 데이터의 펩타이드 원본 서열의 C 말단에 인간 프로틴의 아미노산 서열 패턴을 이용하여 하나의 서열(f)을 추가할 수 있다. 프로세서(120)는 제1 타입 데이터의 펩타이드 원본 서열의 N 말단 및 C 말단 각각에 인간 프로틴의 아미노산 서열 패턴을 이용하여 하나의 서열(a, f)로 추가할 수 있다. 프로세서(120)는 상술한 방법으로 복수의 증강 대상 데이터의 제1 타입 데이터를 증강할 수 있다.
예를 들어, 프로세서(120)는 인간 프로틴에서 100회 이상 나오는 서열 패턴(4-mer)을 활용하여 N 말단 및 C 말단에 서열을 추가할 수 있다. 본 실시예는 실제와 유사한 데이터 증강이 가능하다는 효과를 기대할 수 있다. 이때, 도 5에서 도시된 펩타이드 원본 서열의 개수는 설명을 위한 일 예로, 바인딩 코어 서열이 포함되도록 고려할 수 있다.
다음, 프로세서(120)는 도 8의 1300 단계 이후를 수행할 수 있다.
도 10은 도 8의 데이터 증강 방법을 상세하게 설명하기 위한 흐름도로서, 제2 타입 데이터의 증강 대상 데이터를 증강하는 방법을 예로 들어 설명하기로 한다.
도 10을 참고하면, 프로세서(120)는 복수의 증강 대상 데이터를 선택할 때, 원본 데이터 중 제2 선택 조건과 일치하는 적어도 하나 이상의 네가티브 데이터를 포함하는 제2 타입 데이터를 선택할 수 있다(3100).
상기 제2 선택 조건은 IC50 레이블이 미리 결정된 농도 값을 초과하고, 펩타이드 길이(peptide length)가 미리 결정된 개수 값 이상인 조건일 수 있다. 예를 들어, 상기 제2 선택 조건은 IC50 레이블이 50000nM 초과 5000000nM 미만(50000nM < IC50 레이블 < 500만 nM)이고, 펩타이드 길이(peptide length)가 11개 초과 30개 이하(11개 < 펩타이드 길이 ≤ 30개)인 조건일 수 있다.
다음, 도 6을 참고하면, 프로세서(120)는 복수의 증강 데이터를 생성할 때, 복수의 증강 대상 데이터 내 제2 타입 데이터의 펩타이드 원본 서열의 길이가 기 설정된 서열 개수(N개)와 일치할 때까지 펩타이드 원본 서열의 양 말단의 서열을 제거할 수 있다(3200). 이때, 프로세서(120)는 펩타이드 원본 서열의 양 말단을 하나씩 제거할 때마다 추가 증강 데이터를 생성할 수 있다.
다음, 프로세서(120)는 도 8의 1300 단계 이후를 수행할 수 있다.
한편, 전술한 본 개시에 따른 방법은, 하드웨어인 서버와 결합되어 실행되기 위해 프로그램(또는 애플리케이션)으로 구현되어 매체에 저장될 수 있다.
개시된 실시예들은 컴퓨터에 의해 실행 가능한 명령어를 저장하는 기록매체의 형태로 구현될 수 있다. 명령어는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 프로그램 모듈을 생성하여 개시된 실시예들의 동작을 수행할 수 있다. 기록매체는 컴퓨터로 읽을 수 있는 기록매체로 구현될 수 있다.
컴퓨터가 읽을 수 있는 기록매체로는 컴퓨터에 의하여 해독될 수 있는 명령어가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있을 수 있다.
이상에서와 같이 첨부된 도면을 참조하여 개시된 실시예들을 설명하였다. 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고도, 개시된 실시예들과 다른 형태로 본 개시가 실시될 수 있음을 이해할 것이다. 개시된 실시예들은 예시적인 것이며, 한정적으로 해석되어서는 안 된다.
100: 컴퓨터 장치
110: 메모리
120: 프로세서
130: 통신 인터페이스
140: 입출력 인터페이스
150: 입출력 장치
200: 네트워크

Claims (17)

  1. 메모리; 및
    상기 메모리와 통신을 수행하고, 학습할 원본 데이터의 증강을 구현하는 프로세서를 포함하고,
    상기 프로세서는,
    상기 원본 데이터로부터 기 결정된 선택 조건에 따라 증강할 제1 타입 데이터 및 제2 타입 데이터를 포함하는 복수의 증강 대상 데이터를 선택하고,
    상기 선택된 복수의 증강 데이터를 기 결정된 증강 조건에 따라 증강하되, 상기 제1 타입 데이터의 증강 조건 및 상기 제2 타입 데이터의 증강 조건에 따라 각각 증강시켜 복수의 증강 데이터를 생성하며, 및
    상기 복수의 증강 데이터의 레이블링을 변경하되, 상기 제1 타입 데이터 및 상기 제2 타입 데이터별로 서로 다른 레이블링 조건에 따라 레이블을 변경하도록 구현하고,
    상기 원본 데이터는 MHC(Major Histocompatibility Complex) 클래스 II 피처의 결합용 펩타이드 피처인,
    데이터 증강 장치.
  2. 제1항에 있어서,
    상기 복수의 증강 대상 데이터를 선택할 때,
    상기 프로세서는,
    상기 원본 데이터 중 제1 선택 조건과 일치하는 적어도 하나 이상의 포지티브 데이터(positive data)를 포함하는 상기 제1 타입 데이터를 선택하고,
    상기 제1 선택 조건은,
    IC50 레이블이 미리 결정된 농도 값 미만이고, 펩타이드 길이(peptide length)가 미리 결정된 개수 값 이하인 조건인,
    데이터 증강 장치.
  3. 제1항에 있어서,
    상기 복수의 증강 대상 데이터를 선택할 때,
    상기 프로세서는,
    상기 원본 데이터 중 제2 선택 조건과 일치하는 적어도 하나 이상의 네가티브 데이터(negative data)를 포함하는 상기 제2 타입 데이터를 선택하고,
    상기 제2 선택 조건은 IC50 레이블이 미리 결정된 농도 값을 초과하고, 펩타이드 길이(peptide length)가 미리 결정된 개수 값 이상인 조건인,
    데이터 증강 장치.
  4. 제1항에 있어서,
    상기 복수의 증강 데이터를 생성할 때,
    상기 프로세서는,
    상기 복수의 증강 대상 데이터 각각에 모든 아미노산(amino acid)을 랜덤(random)으로 추가하되,
    상기 제1 타입 데이터의 펩타이드 원본 서열의 N 말단에 랜덤으로 선택된 아미노산 서열을 하나의 서열로 추가하고, 상기 제1 타입 데이터의 펩타이드 원본 서열의 C 말단에 랜덤으로 선택된 아미노산 서열을 하나의 서열로 추가하며, 및 상기 제1 타입 데이터의 펩타이드 원본 서열의 N 말단 및 C 말단 각각에 랜덤으로 선택된 아미노산 서열을 하나의 서열로 추가하여, 상기 복수의 증강 데이터의 상기 제1 타입 데이터를 증강하는,
    데이터 증강 장치.
  5. 제1항에 있어서,
    상기 복수의 증강 데이터를 생성할 때,
    상기 프로세서는,
    상기 복수의 증강 대상 데이터 각각에 인간 프로틴(human protein)의 아미노산 서열 패턴을 이용하여 서열을 추가하되,
    상기 제1 타입 데이터의 펩타이드 원본 서열의 N 말단에 상기 인간 프로틴의 아미노산 서열 패턴을 이용하여 하나의 서열을 추가하고, 상기 제1 타입 데이터의 펩타이드 원본 서열의 C 말단에 상기 인간 프로틴의 아미노산 서열 패턴을 이용하여 하나의 서열을 추가하며, 및 상기 제1 타입 데이터의 펩타이드 원본 서열의 N 말단 및 C 말단 각각에 상기 인간 프로틴의 아미노산 서열 패턴을 이용하여 하나의 서열로 추가하여, 상기 복수의 증강 대상 데이터의 상기 제1 타입 데이터를 증강하는,
    데이터 증강 장치.
  6. 제1항에 있어서,
    상기 복수의 증강 데이터를 생성할 때,
    상기 프로세서는,
    상기 복수의 증강 대상 데이터 내 상기 제2 타입 데이터의 펩타이드 원본 서열의 길이가 기 설정된 서열 개수와 일치할 때까지 상기 펩타이드 원본 서열의 양 말단의 서열을 제거하는,
    데이터 증강 장치.
  7. 제1항에 있어서,
    상기 복수의 증강 데이터의 레이블링을 변경할 때,
    상기 프로세서는,
    상기 복수의 증강 데이터 각각의 해당 원본 데이터의 레이블을 정규화한 후 상기 제1 타입 데이터 및 상기 제2 타입 데이터별 레이블링 조건에 따라 최종 슈도 레이블(pseudo label)을 획득하고,
    상기 최종 슈도 레이블은 상기 원본 데이터의 정규화된 슈도 레이블 및 MHC 클래스 II 분자에 대한 펩타이드의 결합 친화도를 기초로 기 설정된 레이블 상수값을 이용하여 산출하는,
    데이터 증강 장치.
  8. 제1항에 있어서,
    상기 프로세서는,
    상기 복수의 증강 데이터와 상기 원본 데이터를 비교하여 중복되는 데이터를 삭제하는,
    데이터 증강 장치.
  9. 컴퓨터 장치에 의해 수행되는 방법에 있어서,
    원본 데이터로부터 기 결정된 선택 조건에 따라 증강할 제1 타입 데이터 및 제2 타입 데이터를 포함하는 복수의 증강 대상 데이터를 선택하고,
    상기 선택된 복수의 증강 데이터를 기 결정된 증강 조건에 따라 증강하되, 상기 제1 타입 데이터의 증강 조건 및 상기 제2 타입 데이터의 증강 조건에 따라 각각 증강시켜 복수의 증강 데이터를 생성하며, 및
    상기 복수의 증강 데이터의 레이블링을 변경하되, 상기 제1 타입 데이터 및 상기 제2 타입 데이터별로 서로 다른 레이블링 조건에 따라 레이블을 변경하는 것을 포함하고,
    상기 원본 데이터는 MHC(Major Histocompatibility Complex) 클래스 II 피처의 결합용 펩타이드 피처인,
    데이터 증강 방법.
  10. 제9항에 있어서,
    상기 복수의 증강 대상 데이터를 선택할 때,
    상기 원본 데이터 중 제1 선택 조건과 일치하는 적어도 하나 이상의 포지티브 데이터(positive data)를 포함하는 상기 제1 타입 데이터를 선택하고,
    상기 제1 선택 조건은,
    IC50 레이블이 미리 결정된 농도 값 미만이고, 펩타이드 길이(peptide length)가 미리 결정된 개수 값 이하인 조건인,
    데이터 증강 방법.
  11. 제9항에 있어서,
    상기 복수의 증강 대상 데이터를 선택할 때,
    상기 원본 데이터 중 제2 선택 조건과 일치하는 적어도 하나 이상의 네가티브 데이터(negative data)를 포함하는 상기 제2 타입 데이터를 선택하고,
    상기 제2 선택 조건은 IC50 레이블이 미리 결정된 농도 값을 초과하고, 펩타이드 길이(peptide length)가 미리 결정된 개수 값 이상인 조건인,
    데이터 증강 방법.
  12. 제9항에 있어서,
    상기 복수의 증강 데이터를 생성할 때,
    상기 복수의 증강 대상 데이터 각각에 모든 아미노산(amino acid)을 랜덤(random)으로 추가하되,
    상기 제1 타입 데이터의 펩타이드 원본 서열의 N 말단에 랜덤으로 선택된 아미노산 서열을 하나의 서열로 추가하고, 상기 제1 타입 데이터의 펩타이드 원본 서열의 C 말단에 랜덤으로 선택된 아미노산 서열을 하나의 서열로 추가하며, 및 상기 제1 타입 데이터의 펩타이드 원본 서열의 N 말단 및 C 말단 각각에 랜덤으로 선택된 아미노산 서열을 하나의 서열로 추가하여, 상기 복수의 증강 데이터의 상기 제1 타입 데이터를 증강하는,
    데이터 증강 방법.
  13. 제9항에 있어서,
    상기 복수의 증강 데이터를 생성할 때,
    상기 복수의 증강 대상 데이터 각각에 인간 프로틴(human protein)의 아미노산 서열 패턴을 이용하여 서열을 추가하되,
    상기 제1 타입 데이터의 펩타이드 원본 서열의 N 말단에 상기 인간 프로틴의 아미노산 서열 패턴을 이용하여 하나의 서열을 추가하고, 상기 제1 타입 데이터의 펩타이드 원본 서열의 C 말단에 상기 인간 프로틴의 아미노산 서열 패턴을 이용하여 하나의 서열을 추가하며, 및 상기 제1 타입 데이터의 펩타이드 원본 서열의 N 말단 및 C 말단 각각에 상기 인간 프로틴의 아미노산 서열 패턴을 이용하여 하나의 서열로 추가하여, 상기 복수의 증강 대상 데이터의 상기 제1 타입 데이터를 증강하는,
    데이터 증강 방법.
  14. 제9항에 있어서,
    상기 복수의 증강 데이터를 생성할 때,
    상기 복수의 증강 대상 데이터 내 상기 제2 타입 데이터의 펩타이드 원본 서열의 길이가 기 설정된 서열 개수와 일치할 때까지 상기 펩타이드 원본 서열의 양 말단의 서열을 제거하는,
    데이터 증강 방법.
  15. 제9항에 있어서,
    상기 복수의 증강 데이터의 레이블링을 변경할 때,
    상기 복수의 증강 데이터 각각의 해당 원본 데이터의 레이블을 정규화한 후 상기 제1 타입 데이터 및 상기 제2 타입 데이터별 레이블링 조건에 따라 최종 슈도 레이블(pseudo label)을 획득하고,
    상기 최종 슈도 레이블은 상기 원본 데이터의 정규화된 슈도 레이블 및 MHC 클래스 II 분자에 대한 펩타이드의 결합 친화도를 기초로 기 설정된 레이블 상수값을 이용하여 산출하는,
    데이터 증강 방법.
  16. 제9항에 있어서,
    상기 복수의 증강 데이터의 레이블링을 변경한 이후,
    상기 복수의 증강 데이터와 상기 원본 데이터를 비교하여 중복되는 데이터를 삭제하는,
    데이터 증강 방법.
  17. 컴퓨터와 결합되어, 제9항 내지 제16항 중 어느 한 항의 데이터 증강 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록매체에 저장된 프로그램.
KR1020220171801A 2022-12-09 2022-12-09 Mhc 클래스 ii 결합 및 면역원성 예측 모델을 위한 데이터 증강 방법, 장치 및 프로그램 KR20240086923A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2023/020221 WO2024123142A1 (ko) 2022-12-09 2023-12-08 Mhc 클래스 ii 결합 및 면역원성 예측 모델을 위한 데이터 증강 방법, 장치 및 프로그램

Publications (1)

Publication Number Publication Date
KR20240086923A true KR20240086923A (ko) 2024-06-19

Family

ID=

Similar Documents

Publication Publication Date Title
Ackbarow et al. Hierarchies, multiple energy barriers, and robustness govern the fracture mechanics of α-helical and β-sheet protein domains
Shatsky et al. A method for simultaneous alignment of multiple protein structures
Jahn et al. Folding and assembly of the large molecular machine Hsp90 studied in single-molecule experiments
Mohabatkar et al. Prediction of allergenic proteins by means of the concept of Chou's pseudo amino acid composition and a machine learning approach
Fan et al. Complex of linker histone H5 with the nucleosome and its implications for chromatin packing
JP2022543234A (ja) 機械学習支援ポリペプチド設計
Wardah et al. Predicting protein-peptide binding sites with a deep convolutional neural network
WO2019041333A1 (zh) 蛋白质结合位点的预测方法、装置、设备及存储介质
Mishra et al. Molecular determinants of the interactions between proteins and ssDNA
Kaleel et al. PaleAle 5.0: prediction of protein relative solvent accessibility by deep learning
Ackerman et al. Robustness of the long-range structure in denatured staphylococcal nuclease to changes in amino acid sequence
Choi et al. EpiSweep: Computationally driven reengineering of therapeutic proteins to reduce immunogenicity while maintaining function
Dai et al. Revealing atomic-scale molecular diffusion of a plant-transcription factor WRKY domain protein along DNA
Dima et al. Probing the origin of tubulin rigidity with molecular simulations
KR20240086923A (ko) Mhc 클래스 ii 결합 및 면역원성 예측 모델을 위한 데이터 증강 방법, 장치 및 프로그램
Tchórzewski et al. Structural characterization of yeast acidic ribosomal P proteins forming the P1A− P2B heterocomplex
Middendorf et al. Random, de novo, and conserved proteins: how structure and disorder predictors perform differently
Diaz et al. Stability oracle: a structure-based graph-transformer for identifying stabilizing mutations
Farzan Artificial intelligence in Immuno-genetics
Cooper et al. N-and C-terminal truncations to enhance protein solubility and crystallization: Predicting protein domain boundaries with bioinformatics tools
US20230178185A1 (en) Methods and systems for stabilizing proteins using intelligent automation
US11727073B2 (en) Machine learning model and encoder to predict online user journeys
KR20240027347A (ko) 입력 시퀀스를 변환하기 위한 시퀀스 변환 신경망 구현 장치 및 이를 이용한 학습 방법
Mao et al. Modeling protein structure using geometric vector field networks
Srikantha et al. A fast algorithm for exact sequence search in biological sequences using polyphase decomposition