KR102507515B1

KR102507515B1 - 신규 항체 라이브러리 제조방법 및 이로부터 제조된 라이브러리

Info

Publication number: KR102507515B1
Application number: KR1020200107932A
Authority: KR
Inventors: 심현보; 백설련; 장문선
Original assignee: 이화여자대학교 산학협력단
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2023-03-08
Also published as: KR20220026869A; US20230332141A1; WO2022045777A1

Abstract

본원은, 신규 항체 라이브러리 제조방법 및 이로부터 제조된 라이브러리에 관한 것이다.
본원의 일 구현예에 따른 제조방법으로 제조된 항체 라이브러리는 다수의 항원에 대해 우수한 물성을 가지는 항체들을 포함하여, 기능적 다양성을 가지고, 고유서열을 다수 포함할 뿐만 아니라 패닝 후 증폭 효율이 증가되는 등 항체 라이브러리로써 유용하게 사용될 수 있다.

Description

신규 항체 라이브러리 제조방법 및 이로부터 제조된 라이브러리 {A NOVEL METHOD FOR GENERATING AN ANTIBODY LIBRARY AND THE GENERATED LIBRARY THEREFROM}

본원은, 신규 항체 라이브러리 제조방법 및 이로부터 제조된 라이브러리에 관한 것이다.

파지 표면제시 (phage display) 기법은 박테리아를 숙주로 하는 박테리오파지(bacteriophage)를 유전적으로 조작하여 유전형(유전자)와 표현형(단백질)이 하나의 파지 입자를 통해 연결되도록 만드는 기법이다. 이 경우 유전형으로서의 유전자는 파지 유전자의 일부로 삽입되며, 표현형으로서의 단백질은 그 단백질의 유전자가 들어있는 파지 입자의 표면에 제시된다. 이러한 유전형과 표현형의 물리적 결합은 단백질 공학에서 매우 중요한 개념이며, 표현형으로 나타나는 성질에 의해 선택된 단백질 클론의 유전자를 쉽게 획득하여 복제, 증폭, 분석 및 조작할 수 있도록 해 준다.

항체는 특별히 파지 표면제시 기법이 매우 유용하게 적용된 예이다. 매우 높은 다양성을 가지는 항체 라이브러리를 파지의 표면에 제시한 후 표면흡착된 항원과 결합시키면, 항원에 선택적으로 결합하는 항체 클론의 유전자를 획득할 수 있다. 이는 실험동물을 거치지 않고 항체를 얻는 매우 효과적인 방법이며, 특히 임의의 항원에 대한 인간항체를 얻을 수 있으므로 인체에서의 면역반응이 적은 치료용 항체 신약 등의 개발에 매우 높은 활용성을 가진다. 높은 결합친화도를 가지는 좋은 항체를 획득하기 위해서는 라이브러리의 품질이 중요하며, 특히 라이브러리의 크기와 기능적 다양성 및 클론의 품질이 중요하다.

라이브러리의 크기는 그로부터 선택되는 항체의 품질을 결정하는 가장 중요한 요소 중 하나이다. 항체 라이브러리의 항원 결합부위는 이론적으로 어떤 특정 항원에도 경도되지 않은 무작위적 다양성을 가지며, 순전히 우연에 의해 특정 항원에 선택적으로 결합하는 항체가 무작위적 다양성 중에서 나타나게 된다. 따라서 라이브러리의 크기가 커질수록, 즉 라이브러리 내의 서로 다른 항체의 숫자가 증가할수록, 우연에 의해 높은 선택성 및 친화도를 가지는 항체가 발견될 확률이 높아지는 것이다. 일반적으로 최소 10⁸ 이상의 크기가 필요한 것으로 인식되고 있으며, 많은 수의 항체 라이브러리가 10⁹ - 10¹¹ 정도의 크기를 가지고 있다.

라이브러리의 기능적 다양성은, 라이브러리를 이루는 클론들 중 실제로 항체를 발현할 수 있는 클론의 비율이다. 라이브러리의 크기가 크더라도 기능적 다양성이 낮으면 실질적인 라이브러리 크기는 줄어들게 된다. 기능적 다양성이 낮아지는 이유는 대부분 라이브러리 구축 과정에서 DNA 합성 및 증폭의 오류로 인한 것이다. 항체 라이브러리는 여러 단계의 중합효소 연쇄반응(PCR)을 통해 구축되는데, 이 때 효소 및 반응의 특성상 필연적으로 낮은 빈도의 오류가 발생하게 되며 이러한 오류가 축적이 되면 최종 라이브러리의 기능적 다양성이 떨어지게 된다. 또한 특히 합성 라이브러리의 경우, 염기 합성반응의 효율성 문제 때문에 오류가 도입될 가능성이 높아지기도 한다. 이렇듯 기능적 다양성의 문제는 특히 합성 라이브러리에서 두드러지는 경향이 있으며 대부분의 합성 라이브러리는 이러한 문제점을 회피하기 위한 설계상의 고려를 해야만 한다.

라이브러리를 이루는 개별 클론들의 품질, 즉 발현성과 안정성 및 면역유발성(immunogenicity) 등도 항체 라이브러리의 성능을 결정하는 요소 중 하나이다. 항체공학적으로 우수한 클론을 선별하기 위해서는 합성 항체라이브러리의 설계단계에서부터 이러한 요소들이 고려되어야 한다. 특히 인공적 다양성을 기존의 항체유전자에 도입하는 단계에서, 생성된 다양성이 항체 골격과의 적합성(compatibility)을 가지도록 설계하여야 하며, 자연 항체(natural antibody)의 아미노산 서열로부터의 급격한 변화는 인공합성 항체의 적합성과 안정성 등을 저해할 위험이 있다. 따라서 인공적 다양성을 설계할 때 자연적 다양성을 효율적으로 모방하는 것은 합성 항체 라이브러리의 설계와 구축에 있어 매우 중요하다. 또한 다양한 서열의 항체들로 이루어진 항체 라이브러리에는, 당화(glycosylation)이나 산화, 이성질체화, 탈아미드화 등의 원치 않는 단백질의 변형을 일으킬 수 있는 부위가 포함될 수 있으며, 이는 항체의 물성과 산업적 개발과정에 나쁜 영향을 줄 수 있다.

동물의 체내에서 항체가 만들어질 때, 유전체 내에 존재하는 수십~수백개의 생식계열(germline) 면역글로불린 유전자의 재조합을 통해 매우 큰 다양성을 가지는 항체 서열들이 생성되며, 이들 중에서 특정 항원에 반응하는 항체가 선택된다. 선택된 항체는 초돌연변이 (hypermutation) 과정을 거쳐 항원에 대한 결합력이 향상되며, 최종적으로 숙성 (mature) 항체가 도출된다. 따라서 각 숙성 항체의 서열, 특히 항원과 결합하는 상보성 결정부위 (CDR)의 서열은 생식계열 유전자 서열로부터 유래하되, 재조합 및 돌연변이 과정을 통해 생식계열 CDR 서열과는 다른 다양한 서열들이 만들어지게 된다. 합성 항체 라이브러리의 설계에서는 이러한 과정을 통해 만들어진 CDR 서열을 모사하여 자연유래 항체서열과 유사하게 제작하는 전략의 수립이 필요하다.

자연유래 항체 제작방법은 하나의 항체를 만드는데 과한 노력과 시간이 요구됨에 따라 합성 항체 라이브러리를 이용하고자 하는 시도가 최근에 주목받고 있다. 그러나, 기존 합성 항체 라이브러리는 CDR에 해당하는 변이 구역을 무작위로 합성하여 제작하였는 바 실질적으로 항체로서 기능하는 비율이 낮거나 그 효율이 보장되지 않았다. 또한, 대한민국 공개특허 제2016-0087766호에서는 증폭 효율이 높지 않은 클론들도 라이브러리에 포함되어 항체 제작 효율이 저하될 수 있다는 문제점이 있었다.

이에, 본 발명자들은 기능적 다양성이 높고 고품질일 뿐만 아니라 패닝에 의한 증폭 효율이 우수하여 제작 효율이 향상된 합성 인간항체 라이브러리를 구축하고자 노력한 결과, 기계 학습 모델을 이용하여 패닝에 의한 증폭 효율이 우수한 후보 서열을 미리 예측하는 방식을 이용하여 라이브러리를 구축함에 따라, 본 발명을 완성하였다.

본원은, 기계 학습 모델을 이용한 항체 라이브러리 제조방법 및 상기 방법으로 제조된 항체 라이브러리에 관한 것이다.

그러나, 본원이 해결하고자 하는 과제는 이상에서 언급한 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

본원의 제1측면은, 항체의 상보성 결정부위(complementarity Determining Regions, CDRs) 서열을 개별적으로 설계하는 것; 및 상기 설계한 서열을 가지는 상보성 결정부위들을 포함하는 항체를 합성하여 라이브러리를 제조하는 것을 포함하는, 항체 라이브러리를 제작하는 방법으로서, 상기 상보성 결정부위 서열의 개별적인 설계 시, 중쇄 상보성 결정부위 3(CDR-H3)는 후보 CDR-H3 서열의 농축 점수(enrichment score)를 이용하여 최적화된 서열을 설계하는 것인, 항체 라이브러리를 제작하는 방법을 제공한다.

본원의 제2측면은, 본원의 항체 라이브러리를 제작하는 방법으로 제조된 항체 라이브러리를 제공한다.

본원의 일 구현예에 따른 제조방법으로 제조된 항체 라이브러리는 다수의 항원에 대해 우수한 물성을 가지는 항체들을 포함하여, 기능적 다양성을 가지고, 고유서열을 다수 포함할 뿐만 아니라 패닝 후 증폭 효율이 증가되는 등 항체 라이브러리로써 유용하게 사용될 수 있다.

도 1은, OPALS 라이브러리에서 설계된 CDR 레파토리 및 실제 CDR 레파토리의 고유 CDR 서열 빈도를 나타낸 도면이다. 실제 scFv 라이브러리의 설계 및 NGS- 분석된 CDR 레퍼토리에서 각각의 고유한 CDR 서열의 발생 빈도는 XY-분포로 나타내고, 도표의 각 점은 고유한 CDR 서열을 나타낸다. NGS 분석된 시퀀스의 경우, 설계된 레퍼토리의 서열만 분석에 포함되었으며, CDR-H3 서열은 대부분의 서열이 설계된 레퍼토리에서 오직 한번만 발생하기 때문에 분석하지 않았다.
도 2는, 구축된 OPALS 라이브러리의 가변 도메인 서열 중복도를 나타낸 도면이다. Illumina MiSeq 플랫폼 상의 300 bp paired-end 서열분석을 통해 선별되지 않은 라이브러리의 가변 도메인 서열을 수득하고, 가변 도메인 서열에 대한 중복회수(n)를 분석하였다. VΗ 및 Vλ의 약 98% 및 Vκ의 약 88.5% 서열이 단 한번 발견되었다 (n = 1).
도 3은, 설계된 CDR 및 실제 CDR의 길이 분포를 나타낸 도면이다. (a) CDR-H2, L1 (kappa 및 lambda), 및 L3(kappa 및 lambda)은 다양한 길이의 서열을 포함한다. 설계된 레파토리에서의 길이 분포와 차세대 서열분석(Next generation sequencing, NGS)에서 분석된 길이 분포의 비교를 통하여, 짧은 CDR이 실제 라이브러리에서 선호됨을 시사하는 결과를 얻었다. (b) 짧은 CDR에 대한 선호성은 다른 CDR에 비해 넓은 길이 다양성 범위를 가지는 CDR-H3에서 특히 분명하게 보여졌다. (a) 및 (b) 둘 모두에서, 청색 막대("Designed")는 설계 레파토리에서 각 CDR 길이의 빈도수를 보여주며, 주황색 막대("Found")는 구축된 라이브러리의 차세대 서열분석(Nex generation sequencing, NGS)을 통해 확인된 각 CDR 길이의 빈도수를 보여준다.
도 4는, OPALS 라이브러리의 CDR-H3의 아미노산 분포를 나타낸 도이다. 자연 인간 항체(N), 설계된 레파토리 (D), 및 실제 제조된 라이브러리 (L)의 CDR-H3의 각 위치별 아미노산 분포를 나타내고 있다. 각 중첩막대는 각기 다른 길이의 CDR-H3의 각 Kabat 위치에서의 아미노산 빈도의 총합을 나타내고 있다. 각기 다른 길이를 가지는 모든 CDR-H3에 대해서, 마지막 세 개의 아미노산 잔기를 각각 100j, 101 및 102로 표시하였다.
도 5는, 생식 계열 CDR 서열의 기원에 따른, 단백질 A 패닝 전후에 각각의 CDR에서의 빈도 변화를 나타낸 도면이다. 가로축은 단백질 A에 대한 패닝 후의 백분율 빈도를 나타내고, 세로축은 패닝 전의 백분율 빈도를 나타낸다.
도 6은, 패닝 후 CDR-H3의 각 위치에서 아미노산 빈도의 변화 패턴을 나타낸 도면이다. 9개의 아미노산 길이를 가지는 CDR-H3의 95 내지 98 위치 에서 Cys 및 Met를 제외한 총 18 개의 아미노산의 패닝 후 변화 패턴을 분석하였다. 배수 > 1은 패닝 후 아미노산 증가를 의미하고 < 1은 패닝 후 아미노산 감소를 의미한다(*: p <0.05, **: p <0.01).
도 7은, 평가 세트에서 CDR-H3의 각 길이의 기계 학습 모델 예측 결과를 AUC (Area under the curve)로 나타낸 도면이다. 기계 학습 모델에 의한 패닝 강화의 예측 결과를 나타내는 AUC는 모든 CDR-H3 길이에 대해 0.7보다 크므로, 본원의 기계 학습모델이 패닝 강화를 잘 예측할 수 있음을 의미한다.
도 8은, 모든 NGS 분석된 CDR-H3 서열과 기계 학습 예측 CDR-H3 서열에서 실제 농축된 서열(enriched sequence)의 비율을 나타낸 도면이다. 기계 학습을 적용한 후, ES (enrichment score) > 0이 예측된 시퀀스 중 실제 패닝에 의해 농축된 서열의 비율은 기계 학습 모델을 적용하기 전에 모든 NGS 분석된 서열 중 농축된 서열의 비율보다 유의미하게 높았다(p <0.0001).
도 9는, PAGE (폴리아크릴아미드 젤 전기영동)에 의한 PCR 증폭된 CDR-H3을 분리한 결과를 나타낸 도면이다.
도 10은, 본원이 개량된 항체 라이브러리(OPALT)의 구축 방법을 도식화한 도면이다. (a) 길이가 상이한 CDR-H3 올리고뉴클레오티드를 PAGE를 이용하여 길이 별로 분리하고 다음 단계에서 사용하였다. (b) PAGE를 이용하여 길이 별로 회수된 CDR-H3을 PCR에 의해 증폭시키고, 프레임 워크 서열과 조합하여 단일 CDR 라이브러리를 수득하였다. 단백질 A 또는 L에 대한 상기 라이브러리의 패닝으로 인-프레임(in-frame) CDR 서열을 풍부하게 하였다. (c) 인접한 프레임 워크 영역을 포함하여 CDR을 증폭시키고 일련의 OE-PCR을 통해 조합하여 6 개의 다양한 CDR을 갖는 scFv 라이브러리를 생성 하였다.
도 11은, 패닝 전 후 단일-CDR 라이브러리의 닷-블롯 분석 결과를 나타낸 도면이다. (a) CDR-H3을 제외한 단일 CDR 라이브러리의 패닝 전후에 용해성으로 발현된 인-프레임 클론의 백분율. (b) VHVL 프레임 워크와 조합된 CDR-H3 단일-CDR 라이브러리의 패닝 전후의 발현된 용해성 인-프레임 클론의 백분율.
도 12는, VH3VL1 및 VH3VK3의 8개의 서브 라이브러리에 대한 닷-블롯 분석 결과를 나타낸 도면이다. 8개의 서브 라이브러리 각각으로부터 무작위로 선택된 22 개의 클론을 닷-블롯으로 분석하였다, (a) VH3VL1 # 1 ~ # 8 또는 (b) VH3VK3 #1 ~ #8.
도 13은, OPALS 및 OPALT로부터 선택된 클론에서의 상이한 길이에 따른 CDR-H3의 빈도를 나타낸 도면이다. 각 막대는 각 라이브러리의 스크리닝에 의해 수득된 항체에서 CDR-H3 영역의 아미노산 길이의 빈도를 나타낸다. OPALS의 빈도는 더 짧은 CDR-H3 (9 및 10 아미노산)쪽으로 분명히 편향되는 반면, OPALT, 특히 OPALT-λ의 경우 길이가 더 고르게 분포된다.
도 14는, SPR 분석에 의해 결정된 OPALT로부터 선택된 표적-특이적 scFv 클론의 결합 동역학을 나타낸다. SPR 센서 그램은 OPALT로부터 유래한 scFv 항체의 고정화 항원에 대한 결합에 대해 나타내고 있다. scFv 항체의 친화성 (K_D) 뿐만 아니라 결합 (k_a) 및 해리 (k_d)에 대한 동역학 속도 상수를 측정하였다. 14 개의 항체 중에서, CARS-B6 및 CARS-D7은 OPALT-κ로부터 수득되었고, 나머지 항체는 OPALT-λ로부터 수득되었다.
항체의 농도 범위: 31.3 nM 내지 375 nM, CARS-B6; 54.5 nM 내지 872 nM, CARS-D7; 66.3 nM 내지 795 nM, CARS-D11; 5.7 nM 내지 91.4 nM, CARS-F4; BCMA-A3, 50 nM 내지 600 nM; 40 nM 내지 640 nM, BCMA-B5; BCMA-D11, 42.9 nM 내지 685 nM; 45 nM 내지 900 nM, CD22-D1; 40 nM 내지 480 nM, AIMP1-C6; 66.9 nM 내지 1070 nM, AIMP1-D4; 53.5 nM 내지 856 nM, AIMP1-E7; 57.1 nM 내지 914 nM, SerRS-D6; 79.5 nM 내지 233 nM, SerRS-F4.
데이터를 단순한 1:1 Langmuir 결합 모델 또는 표류 기준선 모델(drifting baseline model) 의 1:1 결합에 맞추어서 결합 및 해리 속도를 얻었다.

아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본원 명세서 전체에서, 어떤 부분이 다른 부분과 “연결”되어 있다고 할 때, 이는 “직접적으로 연결”되어 있는 경우뿐 아니라, 그 중간에 다른 링커 등의 물질을 사이에 두고 “간접적으로 연결”되어 있는 경우도 포함한다.

본원 명세서 전체에서, 어떤 부분이 어떤 구성 요소를 “포함” 한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다. 본원 명세서 전체에서 사용되는 정도의 용어 “약”, “실질적으로” 등은 언급된 의미에 고유한 제조 및 물질 허용오차가 제시될 때 그 수치에서 또는 그 수치에 근접한 의미로 사용되고, 본원의 이해를 돕기 위해 정확하거나 절대적인 수치가 언급된 개시 내용을 비양심적인 침해자가 부당하게 이용하는 것을 방지하기 위해 사용된다. 본원 명세서 전체에서 사용되는 정도의 용어 “~(하는) 단계” 또는 “~의 단계”는 “~ 를 위한 단계”를 의미하지 않는다.

본원 명세서 전체에서, 마쿠시 형식의 표현에 포함된 “이들의 조합(들)”의 용어는 마쿠시 형식의 표현에 기재된 구성 요소들로 이루어진 군에서 선택되는 하나 이상의 혼합 또는 조합을 의미하는 것으로서, 상기 구성 요소들로 이루어진 군에서 선택되는 하나 이상을 포함하는 것을 의미한다.

본원 명세서 전체에서, “A 및/또는 B”의 기재는 “A 또는 B, 또는 A 및 B”를 의미한다.

본원 명세서 전체에서 사용되는 용어 "파지표면제시 (phage display)"는 M13 박테리오파지의 유전자를 조작하여 그 표면단백질 중 하나의 유전자에 외부단백질의 유전자를 융합하고, 생산된 파지의 표면단백질에 외부단백질이 융합되어 파지의 표면에 제시되는 기법이다. 단백질을 표면제시하는 경우 흔히 gIII 유전자의 5' 쪽에 외부유전자를 융합한다.

본원 명세서 전체에서 사용되는 용어 "항체"는 목표항원에 특이적으로 결합하는 단백질을 의미하며, 다클론 항체 및 단일클론항체를 모두 포함한다. 또한, 상기 용어는 키메라성 항체(예를 들면, 인간화 뮤린 항체) 및 이종결합항체(예를 들면, 양특이성 항체)와 같은 유전공학에 의해 생산된 형태를 포함한다. 특히, 항체는 경쇄(light chain)와 중쇄(heavy chain)가 각각 2개씩 모여 이루어지는 헤테로테트라머이며 각각의 사슬은 아미노산 서열이 가변적인 가변도메인(variable domain)과 일정한 서열을 가지는 불변도메인(constant domain)으로 이루어질 수 있으나, 상기 형태에 제한되지 않는다.

본원의 일 구현예에 있어서, 상기 항체는 IgA, IgD, IgE, IgM 및 IgG를 포함하며, IgG는 아형(subtype)으로, IgG1, IgG2, IgG3 및 IgG4를 포함하며, 항체 단편을 포함할 수 있다. 항체 단편은 항원 결합 기능을 보유하고 있는 단편을 의미하며, Fc 단편, Fab, Fab', F(ab')2, scFv, 단일 가변도메인 항체 및 Fv 등을 포함하며 항체의 항원 결합 형태를 포함한다. 상기 Fc 단편은 Fc 수용체와 같은 세포 표면 수용체와 결합할 수 있는 항체의 말단 부위를 의미하며, 항체의 두 개의 중쇄의 2번 또는 3번째 불변 도메인(constant domain)으로 구성된다. 상기 Fab는 경쇄 및 중쇄의 가변영역과 경쇄의 불변 영역 및 중쇄의 첫 번째 불변 영역(CH1)을 가지는 구조로 1개의 항원 결합 부위를 가진다. Fab'는 중쇄 CH1 도메인의 C 말단에 하나 이상의 시스테인 잔기를 포함하는 힌지 영역(hinge region)을 가진다는 점에서 Fab와 차이가 있다. F(ab')2 항체는 Fab'의 힌지 영역의 시스테인 잔기가 디설파이드 결합을 이루면서 생성된다. Fv(variable fragment)는 중쇄 가변부위 및 경쇄 가변부위만을 가지고 있는 최소의 항체조각을 의미한다. 이중쇄 Fv(dsFv, disulfide-stabilized variable frament)는 디설파이드 결합으로 중쇄 가변부위와 경쇄 가변부위가 연결되어 있고 단쇄 Fv(scFv, single chain variable frament)는 일반적으로 펩타이드 링커를 통하여 중쇄의 가변 영역(VH)과 경쇄의 가변 영역(VL)이 공유 결합으로 연결되어 있다. 단일 가변도메인 항체는 중쇄 또는 경쇄 가변도메인 하나만으로 이루어진 항체조각을 의미한다.

본원의 일 구현예에 있어서, 상기 항체는 재조합 단일 사슬 Fv 단편 (scFv)을 포함하며, 이가(bivalent) 또는 양특이성 분자, 디아바디 (Diabody), 트리아바디(Triabody) 및 테트라바디 (Tetrabody)를 모두 제한없이 포함한다.

본원 명세서 전체에서 사용되는 용어 "상보성 결정부위" (Complementarity determining region, CDR)는 가변도메인의 경쇄와 중쇄에 각각 3개씩 존재하는 부위이며 가변도메인 중에서도 아미노산 서열의 가변성이 특히 높은 부분으로 이러한 높은 가변성에 의해 다양한 항원에 대해 특이적 항체가 찾아질 수 있다. 중쇄의 상보성 결정부위 3개를 아미노 말단부터 카르복실 말단방향으로 차례로 CDR-H1, CDR-H2, CDR-H3라 하며, 경쇄의 상보성 결정부위 3개를 아미노 말단부터 카르복실 말단방향으로 차례로 CDR-L1, CDR-L2, CDR-L3라 한다. 하나의 항체에서 이 여섯 개의 상보성 결정부위가 모여 항원 결합부위를 형성한다. 항체 가변부위 서열 상의 아미노산 번호(numbering) 및 CDR들의 위치를 정의하는 몇 가지 방법이 알려져 있으며, 본원 명세서에서는 그 중 카밧 정의(Kabat definition)을 따른다.

본원 명세서 전체에서 사용되는 용어 "골격 부위(framework)"는 가변도메인 서열 중 상보성 결정부위를 제외한 나머지 부위를 말하며, 상보성 결정부위에 비해 서열의 가변성 및 다양성이 낮고 일반적으로 항원-항체 반응에 참여하지 않는 부위를 의미한다.

본원 명세서 전체에서 사용되는 용어 "면역글로불린"은 항체와 구조적 특성이 동일하며, 항원특이성이 없는 항체유사분자와 항체를 포함하는 개념이다.

본원 명세서 전체에서 사용되는 용어 "생식계열 면역글로불린 유전자"는 동물의 생식세포에 존재하는, B 세포로 분화되어 면역글로불린 유전자의 재조합이나 체세포 초돌연변이(somatic hypermutation) 과정을 거치지 않은 항체 유전자이며, 그 수는 동물의 종에 따라 다르나 보통 수십 내지 수백개이다.

본원 명세서 전체에서 사용되는 용어 "성숙(mature) 항체"는 B 세포 분화를 통해 생식계열 면역글로불린 유전자들의 재조합, 또는 재조합과 체세포 초돌연변이 과정을 거쳐 만들어진 항체 유전자로부터 발현된 항체 단백질이다.

본원 명세서 전체에서 사용되는 용어 "단일사슬단편항체(single-chain Fv, scFv)"는 항체의 경쇄 및 중쇄의 가변도메인을 15개 내외의 아미노산이 연결된 펩타이드 사슬로 이루어진 연결부위(linker)로 연결한 단백질이다. 경쇄가변도메인 - 연결부위 - 중쇄가변도메인, 또는 중쇄가변도메인 - 연결부위 - 경쇄가변도메인의 순서 모두 가능하며, 원 항체와 동일 혹은 유사한 항원특이성을 가진다. 연결부위는 주로 글리신(glycine)과 세린(serine)으로 이루어진 친수성의 유연한 펩타이드 사슬로서 "(Gly-Gly-Gly-Gly-Ser)₃"의 15개의 아미노산 서열 혹은 유사한 서열이 주로 사용될 수 있다.

본원 명세서 전체에서 사용되는 용어 "항체 라이브러리"는 서로 다른 서열을 가지는 다양한 항체 유전자들의 집합이다. 항체라이브러리로부터 임의의 항원에 대해 특이적 항체를 분리하기 위해서는 매우 높은 다양성이 요구되며, 일반적으로 10⁹ 내지 10¹¹ 개의 서로 다른 항체 클론들로 이루어진 라이브러리가 구축되어 사용된다. 이러한 항체라이브러리를 이루는 항체 유전자는 파지미드(phagemid) 벡터에 클로닝되어 대장균에 트랜스폼 된다.

본원 명세서 전체에서 사용되는 용어 "파지미드(phagemid)" 벡터는 파지복제시작점(phage origin of replication)을 가지는 플라스미드 DNA이다. 통상적으로 항생제내성유전자를 선택 마커(selection marker)로 가지고 있다. 파지표면제시에 사용되는 파지미드 벡터의 경우 M13 파지의 gIII 유전자 혹은 그 일부가 포함되어 있으며, 라이브러리 유전자는 gIII 유전자의 5' 말단에 라이게이션(ligation)되어 대장균에서 융합단백질로서 발현된다.

본원 명세서 전체에서 사용되는 용어 "보조파지(helper phage)"는 파지미드가 파지 입자로 조립되도록 필요한 유전정보를 제공하는 파지이다. 파지미드에는 파지 유전자 중 gIII 혹은 그 일부만이 존재하므로 파지미드로 형질전환된 대장균을 보조파지로 감염시켜 나머지 파지 유전자를 공급하게 된다. M13K07 혹은 VCSM13 등의 종류가 있으며 대부분 카나마이신(kanamycin) 등 항생제 내성 유전자를 포함하여 보조파지에 감염된 대장균을 선택할 수 있도록 하고 있다. 또한 조립신호(packaging signal)에 결함이 있으므로 보조파지 유전자보다 파지미드 유전자가 선별적으로 파지입자 속으로 조립된다.

본원 명세서 전체에서 사용되는 용어 "패닝(panning)"은 파지 표면에 디스플레이된 항체 등 단백질의 라이브러리로부터 특정 분자에 결합하는 클론만을 선택적으로 증폭시키는 과정을 뜻한다. 표면에 고정된 표적분자에 파지 라이브러리를 가하여 결합을 유도하고, 결합하지 않은 파지 클론을 세척하여 제거한 후, 결합된 파지 클론들만을 용출하여 다시 대장균 숙주에 감염시키고 보조 파지를 이용하여 표적 결합 파지 클론들을 증폭하는 절차를 거친다. 대부분 이러한 과정을 3 내지 4회 혹은 그 이상 반복하여 결합 클론의 비율을 최대한 높이게 된다.

이하, 첨부된 도면을 참조하여 본원의 구현예 및 실시예를 상세히 설명한다. 그러나, 본원이 이러한 구현예 및 실시예와 도면에 제한되지 않을 수 있다.

본원의 제 1 측면은, 항체의 상보성 결정부위(complementarity Determining Regions, CDRs) 서열을 개별적으로 설계하는 것; 및 상기 설계한 서열을 가지는 상보성 결정부위들을 포함하는 항체를 합성하여 라이브러리를 제조하는 것을 포함하는, 항체 라이브러리를 제작하는 방법으로서, 상기 상보성 결정부위 서열의 개별적인 설계 시, 중쇄 상보성 결정부위 3(CDR-H3)는 후보 CDR-H3 서열의 농축 점수(enrichment score)를 이용하여 최적화된 서열을 설계하는 것인, 항체 라이브러리를 제작하는 방법을 제공한다.

본원의 일 구현예에 따른 방법을 이용하여 인간항체 라이브러리를 구축하고 그로부터 임의의 항원에 대한 인간항체를 얻을 수 있다. 항체 라이브러리는 골수, 비장, 혈액 등에 포함된 B 세포로부터 그 다양성을 얻는 방법과 인공적인 설계와 합성을 통해 다양성을 얻는 방법으로 구축될 수 있으며 본 발명은 합성 인간항체 라이브러리의 구축 및 검증을 제공한다.

본원의 일 구현예에 따른 방법으로 제조된 파지 표면제시 항체 라이브러리는 면역 글로불린 분자의 일부인 Fab 혹은 scFv 단편의 형태로 구축된다. 이들 단편은 150 kDa 크기의 면역 글로불린보다 작기 때문에 단백질 공학적인 조작의 효율성을 기할 수 있으며, 면역 글로불린 분자와 동일한 항원선택성을 가진다. 본 발명에서는 25 kDa 크기를 가지는 scFv 단편을 이용한 라이브러리를 구축하였으며, 구체적으로 면역 글로불린의 VH 도메인과 VL 도메인을 15개의 아미노산으로 이루어진 사슬 즉 (Gly-Gly-Gly-Gly-Ser)₃ 로 연결한 하나의 폴리펩티드 사슬이다.

본원의 일 구현예에 있어서, 상기 방법으로 항체 라이브러리를 구축하기 위해서는 라이브러리 서열의 설계가 선행되어야 한다. 비교적 높은 골격 다양성을 가지는 B세포 유래 항체 라이브러리 혹은 자연항체 라이브러리(natural antibody library)와 달리, 합성 항체 라이브러리는 한 개 혹은 제한된 개수의 골격 서열을 기반으로 구축된다.

본원의 일 구현예에 있어서, 상기 방법으로 항체 라이브러리를 제조할 때 두 개의 골격을 이용할 수 있다. 구체적으로 라이브러리를 이루는 모든 클론들이 인간 면역글로불린의 IGHV3-23 유전자와 IGKV3-20 유전자가 연결부위로 이어진 scFv, 혹은 IGHV3-23 유전자와 IGLV1-47 유전자가 연결부위로 이어진 scFv를 골격으로 가지도록 구축하였으며, 이 중 상보성 결정부위에 인공적 다양성을 도입하여 라이브러리를 구축하였다. 즉 상기 라이브러리의 골격에 다양한 상보성 결정 부위(CDR) 서열을 삽입하여 scFv 항체 라이브러리를 제작하였다.

본원의 일 구현예에 있어서, 상기 농축 점수는 기계 학습 모델을 통해 예측하는 것으로서, 상기 기계 학습 모델은 a) 하나 이상의 CDR-H3 서열을 입력값으로 설정하고 b) 상기 서열의 패닝 전후 상대 빈도를 측정하여 계산한 농축 점수(enrichment score)를 결과값으로 설정하여 학습시킨 것일 수 있다. 보다 구체적으로, 상기 기계 학습 모델은 후보 CDR-H3 서열을 입력할 경우, 상기 후보 CDR-H3 서열의 서열 정보(아미노산 길이, 아미노산 구성비, 각 위치별 아미노산 잔기 종류 등의 정보 등)을 토대로 예측한 농축 점수를 출력하는 것일 수 있다.

본원의 일 구현예에 있어서, 상기 서열의 패닝 전후의 상대 빈도를 측정하는 것은 차세대 염기서열 분석(Next-generation sequencing, NGS)을 이용하는 것일 수 있으며, 구체적으로 NGS을 통해 분석한 하나의 핵산 조각을 의미하는 리드(Read)의 수를 측정하는 과정을 통해 패닝 전후의 상대빈도를 측정하는 것일 수 있다.

본원 명세서 전체에서 사용되는 용어 "차세대 염기서열 분석법(next generation sequencing: NGS)"은 전장 유전체를 무수히 많은 조각을 분해하여 각 조각을 초병렬적으로 읽어낸 뒤 전산 기술을 이용하여 조합함으로써 방대한 유전체 정보를 빠르게 해독하는 방법이다. 차세대 염기서열 분석법에 의해 짧은 시간 내에 분석 대상이 되는 시료에 대해 대량의 염기서열 데이터를 생성할 수 있다.

본원 명세서 전체에서 사용되는 용어 "기계 학습" 또는 "머신 러닝(machine learning)"은 컴퓨터가 패턴 인식 작업을 개발하는 프로세스 또는 특정 프로그래밍 없이도 컴퓨터가 지속적으로 학습하고 데이터를 기반으로 예측하여 필요한 작업을 수행할 수 있는 능력을 의미한다. 인공 지능의 한 형태인 기계 학습은 분석 모델 빌딩 프로세스를 효과적으로 자동화하고 시스템이 독립적으로 새로운 시나리오에 적응할 수 있도록 합니다. 가령, 기계 학습을 통해서 수신한　이메일이　스팸인지 아닌지를 구분할 수 있도록 훈련할 수 있다. 기계 학습의 핵심은 표현(representation)과 일반화(generalization)에 있다. 표현이란 데이터의 평가이며, 일반화란 아직 알 수 없는 데이터에 대한 처리이다.　구체적으로, 기계 학습은 훈련 데이터(Training Data)를 통해 학습된 알려진 속성을 기반으로　예측에 초점을 두고 있다.

본원의 일 구현예에 있어서, 상기 기계 학습 모델은 후보 CDR-H3 서열의 농축 점수를 예측하기 위해 학습시킨 것으로서, 구체적으로 상기 기계 학습 모델을 학습시키기 위해, 적어도 하나 이상의 CDR-H3 서열의 패닝 전후에 대한 NGS 데이터(NGS 리드 수 등)를 기반으로 산출한 농축 점수, 위치별 아미노산 잔기 정보를 포함하는 CDR-H3의 서열 정보를 입력값으로 사용한 것일 수 있다.

본원의 일 구현예에 있어서, 특정 CDR-H3 서열 i에 대한 상기 농축 점수 (ES_i)는 하기의 수학식 1의 공식을 이용하여 계산하는 것일 수 있다.

[수학식 1]

[N_pre: 패닝 전 하나 이상의 후보 CDR-H3 서열을 포함하는 라이브러리의 총 NGS 리드(read) 수, N_post: 패닝 후 상기 라이브러리의 총 NGS 리드(read) 수, n_i·pre: 패닝 전 상기 라이브러리 내의 특정 CDR-H3 서열 i 의 리드 수, n_i·post: 패닝 후 상기 라이브러리 내의 특정 CDR-H3 서열 i 의 리드 수, n_pre: 패닝 전 상기 라이브러리 내의 개별 CDR-H3 서열들의 리드 수들의 집합, n_post: 패닝 후 상기 라이브러리 내의 개별 CDR-H3 서열들의 리드 수들의 집합, median(n_pre): 상기 n_pre의 중앙값, median(n_post): 상기 n_post의 중앙값].

본원의 일 구현예에 있어서, 상기 농축 점수를 이용하여 최적화된 서열을 설계하는 것은, 후보 CDR-H3 서열의 농축 점수를 계산하거나 예측하여, 농축 점수가 0 초과로 계산되거나 예측된 후보 CDR-H3 서열을 선정하는 것일 수 있다. 또한, 상기 후보 서열의 농축 점수를 예측하는 것은, 후보 서열의 서열 정보를 상기에서 학습시킨 기계 학습 모델에 입력할 경우 예측된 농축 점수가 출력되고, 상기 예측된 농축 점수가 0 초과인 경우 상기 후보 서열을 라이브러리 서열로 선정하는 것일 수 있다.

본원의 일 구현예에 있어서, 상기 방법은 상기 상보성 결정부위 서열의 개별적인 설계 시, CDR-H2의 경우 VH1, VH4 또는 VH5 패밀리에서 유래된 서열은 제외하는 것을 포함하는 것일 수 있다.

본원의 일 구현예에 있어서, 상기 항체 라이브러리를 구성하는 항체의 상보성 결정부위를 이루는 중쇄 상보성 결정부위 1(CDR-H1), 중쇄 상보성 결정부위 2(CDR-H2), 중쇄 상보성 결정부위 3(CDR-H3), 경쇄 상보성 결정부위 1(CDRL1), 경쇄 상보성 결정부위 2(CDR-L2) 및 경쇄 상보성 결정부위 3(CDR-L3)은 다양성(polymorphism)을 가지는 것일 수 있으며, 상기 상보성 결정부위 중 CDR-H1, CDR-H2, CDR-L1, CDR-L2 및/또는 CDR-L3을 설계/제작하는 방법은 당업계의 기술분야에서 알려진 항체 라이브러리 제조방법을 이용할 수 있다.

본원의 일 구현예에 있어서, 상기 상보성 결정부위 서열의 개별적인 설계 시, CDR-H1, CDR-H2, CDR-L1 또는 CDR-L2에 대하여 실제 인간유래 성숙 항체의 상보성 결정부위의 i) 생식계열(germline) 면역글로불린 유전자 사용빈도, ii) 각 아미노산 위치별로 체세포 초돌연변이에 의한 각 20종의 아미노산으로의 변이 빈도, iii) 상보성 결정부위 서열의 길이별 빈도 또는 iv) 이들의 조합을 분석하여 계산된 각 아미노산 위치별 빈도를 반영하여 모사한 서열을 설계하는 것일 수 있다.

본원의 일 구현예에 있어서, 상기 상보성 결정부위 서열의 개별적인 설계 시, CDR-L3에 대하여 a) 상기 상보성 결정부위의 N 말단으로부터 7개 내지 8개의 아미노산 서열은 실제 인간유래 성숙 항체의 상보성 결정부위의 i) 생식계열(germline) 면역글로불린 유전자 사용빈도, ii) 각 아미노산 위치별로 체세포 초돌연변이에 의한 각 20종의 아미노산으로의 변이 빈도, iii) 상보성 결정부위 CDR-L3 서열의 길이별 빈도 또는 iv) 이들의 조합을 분석하여 계산된 각 아미노산 위치별 빈도를 반영하여 모사한 서열을 설계하고; b) 상기 상보성 결정부위의 C 말단으로부터 2개 내지 3개의 아미노산 서열은 실제 인간유래 숙성 항체의 상보성 결정부위의 각 아미노산 위치별 빈도를 분석하여 계산된 빈도를 반영하여 모사한 서열을 설계하는 것이며; 상기 CDR-L3는 9개 내지 11개의 아미노산으로 이루어지고, 상기 빈도 분석은 각 길이별로 나누어 분석하며, 상기 CDR-L3 서열의 설계는 설계하고자 하는 CDR-L3의 길이와 동일한 아미노산 길이를 가지는 인간유래 숙성 항체의 상보성 결정부위 CDR-L3를 분석한 결과를 기반으로 설계하는 것일 수 있다.

본원의 일 구현예에 있어서, 상기 상보성 결정부위 서열의 개별적인 설계 시, CDR-H3에 대하여 a) 상기 상보성 결정부위의 C 말단으로부터 3개의 아미노산을 제외한 서열들은 실제 인간유래 성숙 항체의 상보성 결정부위의 각 아미노산 위치별 빈도를 반영하여 모사한 서열을 설계하고; b) 상기 상보성 결정부위의 C 말단으로부터 3개의 아미노산 서열은 실제 인간유래 숙성 항체의 상보성 결정부위의 해당 위치의 3개 아미노산 서열의 빈도를 반영하여 모사한 서열을 설계하는 것이며; 상기 CDR-H3는 9개 내지 16개의 아미노산으로 이루어지고, 상기 빈도 분석은 각 길이별로 나누어 분석하며, 상기 CDR-H3 서열의 설계는 설계하고자 하는 CDR-H3의 길이와 동일한 아미노산 길이를 가지는 인간유래 성숙 항체의 상보성 결정부위 CDR-H3를 분석한 결과를 기반으로 설계하는 것일 수 있다.

본원의 일 구현예에 있어서, 상기 각 생식계열 CDR 서열의 사용빈도는 항체서열 데이터베이스의 분석을 통해 알아낸 자연인간항체에서의 각 생식계열 CDR 서열의 사용빈도를 모사한 것일 수 있다.

본원의 일 구현예에 있어서, 상기 방법의 CDR-H3를 설계하는 것은 상기에 전술한 방법으로 모사한 서열을 설계하거나 당업계의 기술분야에서 알려진 항체 라이브러리 제조방법으로 설계한 후, 상기 기계 학습 모델을 이용하여 최적화된 서열을 선정하는 것일 수 있다.

본원의 일 구현예에 있어서, 상기 상보성 결정부위 서열 중 경쇄를 설계하는 경우에 해당 경쇄는 카파(kappa) 경쇄 또는 람다(lambda) 경쇄일 수 있으며, 구체적으로 경쇄 상보성 결정부위를 설계함에 있어 카파 경쇄와 람다 경쇄에 대하여 각각 CDR을 설계할 수 있으며, 카파 경쇄와 람다 경쇄에 대하여 각 경쇄 가변영역을 설계시, 카파 경쇄의 CDR은 IGKV3-20의 카파 경쇄 골격부위와 연결하여 조립하고, 람다 경쇄의 CDR은 IGLV1-47의 람다 경쇄 골격부위와 연결하여 조립하는 것일 수 있다.

본원 명세서 전체에서 사용되는 용어, '모사'란 아미노산 서열 등의 발현 빈도 또는 변이 빈도 등을 반영하여 랜덤으로 시뮬레이션하여 서열을 설계하는 것을 의미하며, 자연항체, 특히 인간유래 성숙 항체의 아미노산의 발현 빈도 또는 변이 빈도를 모사한다는 의미를 내포하고 있다.

본원의 일 구현예에 있어서, 상기 방법은 상기 상보성 결정부위 아미노산 서열을 설계한 후 설계된 서열에서 N-당화, 이성질체화, 탈아미드화, 절단, 산화가 일어날 수 있는 서열을 배제하거나 최소화하는 것을 추가로 포함하는 것일 수 있다.

본원의 일 구현예에 있어서, 상기 방법의 CDR-H3 서열 설계 시, 상이한 길이를 갖는 CDR-H3 서열을 각각의 길이별로 분리하여 회수하는 것을 추가로 포함할 수 있으며, 구체적으로 9개 내지 16개의 아미노산으로 구성된 CDR-H3 서열을 각각의 아미노산 길이 별로 분리하는 것일 수 있다.

본원의 일 구현예에 있어서, 상기 방법은 상기 상보성 결정부위 아미노산 서열을 설계한 후 설계한 서열을 폴리뉴클레오티드로 역번역한후, 역번역된 폴리뉴클레오티드 5' 및 3' 말단에 각각 해당하는 인간항체 생식계열(germline) 유전자의 가변영역 골격부위 서열을 연결한 올리고뉴클레오티드 서열을 설계하는 것을 추가로 포함하는 것일 수 있다.

본원의 일 구현예에 있어서, 상기 항체는 IGHV3-23 (VH3-23, Genebank accession No. Z12347), IGKV3-20 (VK3-A27, Genebank accession No. X93639), IGLV1-47(VL1g, GenBank accession No. Z73663) 또는 이들의 단편으로부터 코딩되는 아미노산 서열을 포함하는 것일 수 있으며, 구체적으로 상기 항체는 항체 라이브러리 제작의 골격으로 IGHV3-23, IGKV3-20, IGLV1-47 또는 이들의 단편으로부터 코딩되는 아미노산 서열을 포함하는 것일 수 있다.

본원의 일 구현예에 있어서, 상기 방법에서 항체 라이브러리를 제작하기 위한 골격 서열은 서열번호 70 또는 서열번호 71의 아미노산 서열일 수 있다.

본원의 일 구현예에 있어서, 상기 항체는 IgA, IgD, IgE, IgM, IgG, Fc 단편, Fab, Fab', F(ab')₂, scFv, 단일 가변도메인 항체 및 Fv로 이루어진 군에서 선택된 것일 수 있다.

본원의 일 구현예에 있어서, 상기 방법은 설계된 CDR 서열을 탈면역화시키는 것을 추가로 포함하는 것일 수 있으며, 구체적으로 상기 탈면역화는 in silico 수준에서 MHC 클래스 II 대립 유전자 중 하나 이상에 강한 결합을 갖는 것으로 예측된 서열을 제외하여 잠재적 면역원성 서열을 제외하는 것일 수 있다. 또한, 상기 MHC 클래스 II 대립 유전자는 HLA-DRB 유전자로서 DRB1*01:01, DRB1*03:01, DRB1*03:02, DRB1*04:01, DRB1*04:04, DRB1*04:05, DRB1*07:01, DRB1*08:02, DRB1*08:03, DRB1*09:01, DRB1*11:01, DRB1*13:01, DRB1*13:02, DRB1*12:02, DRB1*14:01, DRB1*15:01, DRB1*15:03, DRB3*01:01, DRB4*01:01, 및 DRB5*01:01로 구성된 군에서 선택된 하나 이상일 수 있다.

본원의 제2측면은, 본원의 항체 라이브러리 제조방법으로 제조된, 항체 라이브러리를 제공한다. 제1측면과 중복되는 내용은 제2측면의 라이브러리에도 공히 적용된다.

본원의 일 구현예에 있어서, 상기 항체는 서열번호 72 또는 74의 아미노산 서열을 포함하는 것일 수 있다.

본원의 일 구현예에 있어서, 상기 항체의 CDR-H3 서열은 기계 학습 모델을 통해 패닝 효율이 최적화된 서열일 수 있다.

본원의 일 구현예에 있어서, 상기 항체의 CDR-H2 서열은 VH1, VH4 또는VH5 패밀리에서 유래된 서열이 제외된 것일 수 있다.

이하, 본원의 실시예를 통하여 본 발명을 더욱 상세하게 설명하고자 하나, 하기의 실시예는 본원의 이해를 돕기 위하여 예시하는 것 일뿐, 본원의 내용이 하기 실시예에 한정되는 것은 아니다.

[실시예]

실시예 1: 차세대 염기서열(Next-generation sequencing) 분석

각각의 상보성 결정 영역(complementarity-determining region, CDR)에 대해 8,000개 이상의 개별적으로 설계된 서열을 갖는 합성 scFv 항체 라이브러리[PLoS One. 2015;10: 1-18, Bai et al, 대한민국 공개특허 제2016-0087766호]는 단백질 A에 대해 3 라운드의 패닝 후 ~350 bp paired-end 리드(read)를 갖는 Illumina Miseq 플랫폼을 사용하여 시퀀싱하였다. 각각의 가변 도메인 (VH, VL 및 VK)에 대해 NGS에 의해 수득된 150만 내지 230만개의 서열을 분석하기 쉽도록 ~ 10⁵개의 시퀀스를 포함하는 FASTA 파일로 나누었다. CDR 시퀀스는 .csv(comma-separated values) 형식으로 자체 개발한 Python 스크립트를 사용하여 FASTA 파일에서 추출하였다. 개별 CDR-H1, -H2, -L1, -L2 및 -L3 서열의 생식 계열(germline) 기원은 자체 개발한 VBA 프로그램을 사용하여 결정하였다. CDR-H3의 경우, 추출된 서열을 길이(9 내지 20 개 아미노산)에 따라 분류하였다.

실시예 2: CDR 서열의 설계

CDR-H3 이외의 CDR의 경우, 서열은 이전에 보고된 문헌을 참고하여 설계되었다 [PLoS One. 2015;10: 1-18, 대한민국 공개특허 제2016-0087766호]. 그런 다음 netMHCIIpan-3.1 소프트웨어를 사용하여 인간 MHC 클래스 2 분자에 대한 잠재적인 결합을 통해 설계된 서열을 평가했다. 평가에 사용된 대립 유전자는 DRB1*01:01, DRB1*03:01, DRB1*03:02, DRB1*04:01, DRB1*04:04, DRB1*04:05, DRB1*07:01, DRB1*08:02, DRB1*08:03, DRB1*09:01, DRB1*11:01, DRB1*13:01, DRB1*13:02, DRB1*12:02, DRB1*14:01, DRB1*15:01, DRB1*15:03, DRB3*01:01, DRB4*01:01, 및 DRB5*01:01이고, 이들의 조합은 각각 백인(Caucasian), 한국인, 흑인 및 히스패닉 인구의 81.2%, 75.1, 71.3, 및 61.7%을 차지한다 (http://allelefrequencies.net). 각 CDR 서열 및 그 양쪽에 인접한 골격부위(framework region)의 8개의 아미노산 서열이 더해진 단편 서열 내의 서로 오버래핑(overlapping)되는 9-아미노산(aa) 단편 서열들을 분석하였고, MHC 클래스 2에 강한 결합력(binder)을 갖는 것으로 예상되는 CDR 서열 (무작위적인 9-aa 아미노산 서열들 중 상위 0.5% 결합력)은 라이브러리 설계에서 제외하였다.

CDR-H3의 경우, 인간항체의 VH3 패밀리 중쇄 가변부위에 결합하는 것으로 알려진 단백질 A (protein A)에 대한 3회의 패닝 전후에 각각의 개별 CDR 서열 (총 7,526개의 고유 서열)의 상대 빈도를 비교하고, 상기 서열들을 포함하는 항체 라이브러리 내 임의의 특정 CDR-H3 서열 i 에 대한 농축 점수(enrichment score) ES _i 는 하기의 식으로 표현된다:

[수학식 1]

여기서 N_pre 및 N_post는 패닝 전후 항체 라이브러리의 NGS 분석을 통한 총 CDR-H3 리드(read) 수이고, n_i·pre와 n_i·post는 각각 패닝 전후 항체 라이브러리 내의 특정 CDR-H3 서열 i 의 리드 수이고, n_pre와 n_post는 각각 패닝 전후 항체 라이브러리 내의 개별 CDR-H3 서열들의 리드 수들의 집합이고, median(n_pre) 및 median(n_post) 각각 패닝 전후 특정 CDR-H3 서열 각각의 리드 수들의 중앙값이다.

CDR-H3 서열 및 그들의 ES는 효율적으로 농축된 서열의 예측을 위한 기계 학습 모델을 훈련시키기 위해 사용하였다. CDR-H3서열-ES 데이터의 70%는 교육세트(training set)로 사용하였고, 나머지 30%는 평가 세트(validation set)로 사용하였다. 농축 서열 예측을 위한 기계학습 모델 구축 및 평가에는 Amazon Machine Learning (https://console.aws.amazon.com/ machinelearning/home, 2017)이 사용되었다. 기계 학습 모델을 훈련시키기 위해, CDR-H3 길이마다 CDR 서열, 그들의 ES, 및 각 서열의 각 위치에서의 아미노산 잔기를 포함하는 .csv (comma-separated values) 파일을 생성하였으며, 하기와 같은 파라미터를 사용하였다: 최대 기계 학습 모델 크기, 100 MB; 최대 데이터 패스 수, 100; L2 정규화, mild (10^-6). 결과적으로, 상기 기계학습 모델은 평가 데이터 세트를 사용하여 검증되었다.

각각의 상이한 길이를 갖는 예비 CDR-H3 서열 레퍼토리는 이전에 보고된 내용을 참고하여 설계하였다[PLoS One. 2015;10: 1-18, 대한민국 공개특허 제2016-0087766호]. 설계된 서열은 파지 디스플레이에 의한 농축을 예측하기 위한 상기 기계 학습 모델에 의해 평가되었고, 예측된 ES> 0을 갖는 서열 (즉, 패닝에 의해 상대적인 수가 증가함)을 라이브러리 구축을 위해 선택하였다. 선택된 서열을 상기 기재된 바와 같은 HLA-DRB 결합에 대해 추가로 분석하여 잠재적 면역원성 서열을 확인하고 제거하였다. 인접한 프레임 워크 서열 및 PCR 증폭을 위한 어댑터 서열을 갖는 설계된 CDR 서열을 DNA 서열로 역번역하고 올리고 풀(oligo pool) (LC Sciences, Houston, TX, USA)로 합성하였다.

실시예 3: PAGE (Polyacrylamide gel electrophoresis)를 이용한 CDR-H3 분리

상기에서 합성된 올리고 풀은 어댑터 서열에 어닐링하는 프라이머를 사용하여 PCR에 의해 증폭시켰다 (상기 PCR 반응에서 사용된 프라이머 및 프라이머 서열에 대한 정보는 표 2 및 표 8 참조). 증폭된 올리고 풀로부터, 각각의 CDR 레퍼토리는 프레임 워크-특이적 프라이머를 사용하여 증폭하고, 아가로스 겔 전기영동을 이용하여 정제하였다. 포름아마이드 로딩 버퍼[80% 포름알데하이드(formamide), 1 mg/mL 자일렌 시아놀(xylene cyanol), 1 mg/mL 브로모페놀 블루(bromophenol blue), 및 10 mM EDTA; pH 8.0)] 내의 PCR에 의해 증폭된 CDR-H3 올리고뉴클레오타이드는 그들의 길이 별로 10% 변성 폴리아크릴아마이드 (polyacrylamide) 젤 [10% acrylamide:bisacrylamide [19:1], 8 M 유레아(urea), 0.1 부피의 10X Tris-borate-EDTA [TBE] 버퍼; pH 8.0] 상에서 분리되었다. DNA 밴드는 SYBR gold 염색 염료(Thermo Fisher)를 사용하여 시각화하고, 깨끗한 메스를 사용하여 절제하여, 마이크로 퓨즈 튜브로 옮겼다. 2 부피의 용리 버퍼 [0.5 M 아세트산암모늄(ammonium acetate), 15 mM 아세트산마그네슘(magnesium acetate), 1 mM EDTA, 및 0.1% SDS)]를 겔 슬라이스에 첨가하고, 37 ℃에서 인큐베이션하였다. 원심 분리 후, 상청액을 새로운 마이크로 퓨즈 튜브로 옮기고, 0.5 부피의 용리 버퍼를 폴리아크릴아마이드 펠렛에 첨가하고 간단히 볼텍싱하였다. 혼합물을 다시 원심분리하고, 상청액을 이전의 상청액과 합하여 Spin-X 원심분리 튜브 필터(Corning 8160, Corning, USA)를 사용하여 여과하였다. 상기 여과액의 2 부피의 에탄올을 첨가하고, 30분동안 얼음에 정치하였다. 침전된 DNA를 원심분리에 의해 펠렛화하고 200 μL의 1X Tris-EDTA (TE) 버퍼(pH 7.6)에 재용해시키고, 25 μL의 3 M 아세트산나트륨(sodium acetate) (pH 5.2) 및 550 μL의 에탄올을 첨가하여 DNA를 다시 침전시켰다. 얼음에 30분 동안 정치하고 원심 분리한 후, 침전된 DNA 펠릿을 차가운 70% 에탄올로 세척하고 10μL의 1X TE (pH 7.6)에 용해시켰다.

실시예 4: PCR(polymerase chain reaction)을 이용한 올리고뉴클레오타이드 증폭

어레이-합성된 CDR 올리고뉴클레오티드 혼합물(Oligomix^TM, LC Sciences, TX, Houston, USA)을 25 μL의 뉴클레아제가 없는 물에 용해시켰다. 용해된 올리고뉴클레오티드 풀 및 상기 PAGE-정제된 CDR-H3 올리고 뉴클레오티드를 특정 프라이머 세트 (표 1; 표 7에 나타낸 프라이머 서열)로 PCR에 의해 증폭하였다. PCR은 100 μL 부피로 진행되었으며, 주형 DNA (CDR 올리고뉴클레오티드 혼합물; CDR-H3은 아미노산의 길이 별로 분리되어 H3 #1~#8로 명명됨), 0.6 μM 최종 농도의 각각의 정방향 및 역방향 증폭 프라이머, 10 μL의 Taq 폴리머라제 버퍼 (NEB), 0.2 mM 각각의 dNTP (NEB; New England Biolabs) 및 2.5 유닛의 Taq DNA 폴리머라제(NEB)를 첨가하였다. PCR 열 사이클 (thermal cycle)은 하기 조건으로 수행하였다: 94 ℃에서 5분 동안 초기 용융; 94℃ 30초, 56℃ 30초, 72℃ 30초를 1회로 하여 30회; 72℃에서 7분 동안 최종 연장. PCR 산물은 2% 아가로스겔 상에 전기영동하고 UV 하에서 밴드를 확인하였다. 제조업자의 프로토콜에 따라, 100bp 길이에 가까운 젤 밴드를 절제하고, DNA 겔 추출 키트 (QIAGEN; QIAquick Gel Extraction Kit)를 사용하여 아가로스 겔 슬라이스로부터 DNA를 추출하였다.

올리고뉴클오타이드 혼합물로부터 CDR을 증폭시키기 위한 프라이머 세트 정보
생성물 이름	주형	프라이머
CDR-H1	Oligomix	VH3-1-f	VH3-1-b
CDR-H2	Oligomix	VH3-2-f	VH3-2-b
Oligo-H3	Oligomix	lib-cdr-f	lib-cdr-b
CDR-H3(#1~#8)	H3(#1~#8)	VH-3-f	VH-3-b
CDR-L1	Oligomix	VL-1-f	VL-1-b
CDR-L2	Oligomix	VL-2-f	VL-2-b
CDR-L3	Oligomix	VL-3-f	VL-3-b
CDR-K1	Oligomix	VK-1-f	VK-1-b
CDR-K2	Oligomix	VK-2-f	VK-2-b
CDR-K3	Oligomix	VK-3-f	VK-3-b

실시예 5: 단일-CDR scFv 라이브러리 구축

인간 생식 계열 면역글로불린 가변 세그먼트 IGHV3-23, IGLV1-47 및 IGKV3-20를 라이브러리 구축을 위한 프레임 워크로 사용하기 위해, 합성하여(Genscript, Piscataway, NJ, USA) pUC57 벡터로 클로닝하였다. 또한, 상기 프레임 워크 유전자는, 교차 증폭을 방지하기 위해 다른 프라이머 세트(표 2)를 사용하여 PCR 증폭을 수행할 수 있도록, pFcF (인간 IgG1 Fc 및 한 쌍의 비대칭 SfiI 부위를 갖는 pcDNA3.1 기반 벡터)에 클로닝하였다. 결과적으로 IGHV3-23/IGLV1-47로 구성된 scFv 프레임워크 유전자(VHVL)와 IGHV3-23/IGKV3-20으로 구성된 scFv 프레임워크 유전자(VHVK)가 각각 pUC57 및 pFcF에 클로닝되어 PCR의 주형으로 사용되었다. 프레임워크의 증폭을 위한 PCR 혼합물(100 μL)은 하기와 같이 준비하였다: 200ng의 주형 DNA, 최종농도 0.6μM의 각각의 정방향 및 역방향 증폭 프라이머, 0.2mM의 각각의 dNTP, 10μL의 Taq 폴리머라제 버퍼, 2.5 단위의 Taq DNA 폴리머라제 및 뉴클레아제가 없는 물. PCR 반응의 증폭 열 사이클은 하기 조건으로 수행하였다: 94℃에서 5분 동안 초기 용융; 94℃ 30초, 56℃ 30초, 72℃ 30초를 1회로 하여 30회 사이클; 72℃에서 7분 동안 최종 연장. 상기 방법으로 증폭된 프레임 워크 PCR 생성물은 1% 아가로스 겔 전기 영동을 이용하여 정제하였다.

증폭된 CDR을 0.6 μM의 증폭 프라이머 (pUC57-in-b 및 hCH2-in-b), 10 μL의 Taq 폴리머라제 버퍼, 0.2mM의 각각의 dNTP 및 2.5 단위의 Taq DNA 폴리머라제를 사용한 100 μL 반응으로 오버랩 연장 PCR(overlap extension PCR)을 수행하여(표 3) 주형 scFv 서열에 삽입하였다. 증폭 열 사이클은 하기 조건으로 수행하였다: 94℃에서 5분 동안 초기 용융; 94℃ 30초, 56℃ 30초, 72℃ 70초를 1회로 하여 30회 사이클; 72℃에서 7분 동안 최종 연장. 상기 방법으로 증폭된 DNA는 1% 아가로스 겔 전기 영동을 이용하여 정제하였다.

상기 PCR 산물 및 pComb3X 벡터를 50℃에서 밤새 제한효소 SfiI (Roche)로 절단하고 상기 방법과 같이 1% 아가로스 겔 전기 영동을 이용하여 정제하였다. 상기 SfiI로 절단된 scFv DNA(~750 bp)는 하기 조건으로 pComb3X 파지미드 벡터에 연결시켰다: 1 μg 삽입물, 1.5 μg 벡터 DNA, 10 μL의 T4 리가아제 버퍼(10

) 및 1,600 단위의 T4 DNA 리가아제(New England Biolabs), 최종 반응물 100 μL. 상온에서 밤새 반응시킨 상기 라이게이션 혼합물에 10 μL의 3 M 아세트산 나트륨 (pH 5.2) 및 256 μL의 에탄올을 첨가하고 -20 ℃에서 2시간동안 정치하여 라이게이션된 DNA를 침전시켰다. 상기 침전된 DNA를 14,000xg에서 원심분리하여 펠렛화하고 차가운 70 % 에탄올로 2회 세척하였다. 상기 DNA 펠렛을 공기 건조하고 10 μL의 10% 글리세롤에 용해시켰다. 다음으로, 전기천공을 위해, 상기 라이게이션된 DNA를 50μL의 전기적격성(electrocompetent) TG1 세포 (Lucigen, Middleton, WI, USA)와 혼합하고 전기 천공 큐벳 (1mm 간격; Bio-Rad, Hercules, CA, USA)에 첨가하였다. 상기 큐벳을 얼음 위에 1분간 정치하고 MicroPulser electroporator (Bio-Rad)를 사용하여 단일 2.50kV 펄스를 적용했다. 전기 천공 후, 1 mL의 따뜻한 회수 배지(Lucigen)를 즉시 큐벳에 첨가하여 세포를 재현탁시켰다. 1 mL의 새로운 회수 배지로 회수를 다시 한번 반복하고 박테리아 현탁액을 합하였다. 형질 전환된 세포를 250rpm에서 교반하면서 37℃에서 1시간 동안 배양하였다. 형질 전환 역가를 추정하기 위해, 세포를 10^-3 및 10^-4로 희석하고 LB-암피실린 한천 플레이트에 플레이팅하였다. 나머지 세포를 3,500xg에서 원심 분리하고, 200 μL의 LB 배지에 재현탁시키고, 2% (w/v) 글루코스가 보충된 150 mm 직경의 LB-암피실린 한천 플레이트에 플레이팅하고 37℃에서 밤새 배양하였다. 다음날, 5 mL의 SB 배지 (3% 트립톤, 2% 효모 추출물, 1% MOPS, pH 7.0)를 플레이트에 첨가하고, 박테리아를 화염 멸균된 유리 스프레더로 긁어 내었다. 재현탁된 E. coli에 0.5 부피의 50% 글리세롤을 첨가하고 완전히 혼합하고, 1 mL 분취액을 액체 질소로 급속 냉동하고 -80℃에 보관하였다.

단일-CDR 라이브러리 구축을 위해 프레임워크 영역 증폭을 위한 프라이머 정보
생성물 이름	주형	프라이머
1	VHVL-pUC57	pUC57-b	VH3-1-f-rc
2	VHVL -pUC57	pUC57-b	VH3-2-f-rc
3	VHVL -pUC57	pUC57-b	VH-3-rc-F
4	VHVL -pUC57	pUC57-b	VL-1-f-rc
5	VHVL -pUC57	pUC57-b	VL-2-f-rc
6	VHVL -pUC57	pUC57-b	VL-3-f-rc
7	VHVK -pUC57	pUC57-b	VK-1-f-rc
8	VHVK -pUC57	pUC57-b	VK-2-f-rc
9	VHVK -pUC57	pUC57-b	VK-3-f-rc
10	VHVL - pFcF	VH3-1-b-rc	hCH2-b
11	VHVL - pFcF	VH3-2-b-rc	hCH2-b
12	VHVL - pFcF	VH-3-rc-B	hCH2-b
13	VHVL - pFcF	VL-1-b-rc	hCH2-b
14	VHVL - pFcF	VL-2-b-rc	hCH2-b
15	VHVL - pFcF	VL-3-b-rc	hCH2-b
16	VHVK - pFcF	VK-1-b-rc	hCH2-b
17	VHVK - pFcF	VK-2-b-rc	hCH2-b
18	VHVK - pFcF	VK-3-b-rc	hCH2-b

오버랩 연장 PCR을 이용하여 단일-CDR scFv 라이브러리 조립
생성물 이름	주형	프라이머
VHVL -H1	1 + CDR-H1 + 10	pUC57-in-b	hCH2-in-b
VHVL -H2	2 + CDR-H2 + 11
VHVL -H3	3 + CDR-H3 + 12
VHVL -L1	4 + CDR-L1 + 13
VHVL -L2	5 + CDR-L2 + 14
VHVL -L3	6 + CDR-L3 + 15
VHVK -K1	7 + CDR-K1 + 16
VHVK -K2	8 + CDR-K2 + 17
VHVK -K3	9 + CDR-K3 + 18

실시예 6: 합성 CDR의 교열(proofreading)

단일-CDR scFv 파지 라이브러리는 표면에 고정화된 단백질 A 또는 단백질 L에 대한 1회 또는 2 회 패닝에 의해 교열하였다. 구체적으로, 1x PBS 내의 1 μg/mL 단백질 A 또는 L을 면역 튜브에 1시간 동안 고정시키고, 면역 튜브를 3% 탈지분유를 포함하는 1x PBS(mPBS)로 블로킹하였다. 실온에서 1시간동안 블로킹한 후, 1 mL mPBS 내의 구조(rescue)된 단일 CDR 라이브러리(10¹⁰ cfu)를 면역 튜브에 첨가하고, 37℃에서 2시간동안 배양하고, 면역 튜브를 PBST로 3회 세척하였다. 결합 파지를 1 mL의 100 mM 트리에틸아민(triethylamine)으로 용리시키고, 0.5 mL의 1 M Tris (pH 7.4)를 첨가하여 중화시켰다. 중화된 파지를 8.5 mL의 중간-로그상(mid-log phase) TG1 E. coli (OD600 = 0.7) 세포에 첨가하고, 37℃에서 1시간 동안 부드럽게 교반하면서 배양하였다. 100 μg/mL 암피실린 (LB-amp plate) 및 2% (w/v) 글루코스를 함유하는 LB 플레이트에서 상기 파지에 감염시킨 TG1 E. coli를 밤새 배양하였다. 다음날, 상기 배양한 박테리아를 플레이트로부터 수확하였다. 실험 조건은 각 CDR마다 약간씩 차이가 났으며, 구체적인 실험 조건은 표 4에 기재하였다.

단일 CDR 라이브러리를 위한 패닝 조건
	VH-H1, VH-H3 #1~#8 (λ)	VH-H2	L1	L2, L3	K1, K3	K2	VH-H3 #1~#8 (λ)
Panning on:	Protein A	Protein A	Protein A	Protein A	Protein L	Protein L	Protein L
# of rounds	1	2	2	1	1	1	1
Washing cycles	10	10	10	3	3	10	10
Tween20	X	X	X	O	O	X	X
Glucose	X	X	O	X	X	O	O
Rescue time	5 h	5 h	4 h	O/N^*	O/N^*	5 h	4 h
Infection time	15 min	15 min	15 min	1 h	1 h	15 min	15 min
* O/N: 밤새 배양 (overnight incubation)

실시예 7: 최종 scFv 라이브러리의 구축

상기 실시예 6을 통해 교열된 각각의 단일-CDR 라이브러리의 500 μL 분취액을 15분 동안 13,000 rpm에서 원심분리하였다. 상청액을 버리고, E.coli 펠렛으로부터 플라스미드 DNA를 미니프렙 키트 (QIAGEN)에 의해 추출하고, 교열된 CDR 및 인접한 프레임 워크 서열을 PCR에 의해 증폭시켰다 (표 5). 증폭 열 사이클 조건은 다음과 같다: 94 ℃에서 5분 동안 초기 용융; 94 ℃에서 30초, 56℃에서 30초 및 72 ℃에서 30초를 1회로 하여 25회 사이클; 72 ℃에서 7분 동안 최종 연장. VH 및 VL/VK 단편의 조립은 OE-PCR에 의해 수행되었다(표 6): 94 ℃에서 5 분 동안 초기 용융; 94 ℃에서 30초, 56 ℃에서 30초 및 72 ℃에서 1 분을 1회로 하여 30회 사이클; 72 ℃에서 7분동안 최종 연장. 증폭된 가변 도메인은 OE-PCR에 의해 최종 scFv 라이브러리에 조립하였다(표 6): 94℃에서 5분 동안 초기 용융; 94℃에서 30 초, 56℃에서 30초, 및 72℃에서 1.5분을 1회로 하여 30회 사이클; 72℃에서 7분 동안 최종 연장. 4 개의 100 μL 반응을 병렬로 수행하고, 생성물을 합한 후, 상기에서 기재한 방법으로 DNA를 침전시켰다. 상기 침전된 DNA를 50 μL의 뉴클레아제가 없는 물에 용해시키고, 이를 1% 아가로스 젤 의 밴드(~ 1,200bp) 및 DNA 젤 추출 키트를 이용하여 정제하였다. 상기 정제된 생성물을 SfiI 제한효소로 절단하고 SfiI로 절단된 pComb3X 벡터에 라이게이션시켰다. 상기 라이게이션된 DNA를 상기 기술된 바와 같이 TG1 전기적격성 E.coli 세포에 형질전환시켰다. 상기 형질전환된 박테리아는 100 μg/mL 암피실린(LB-amp 플레이트) 및 2% (w/v) 글루코스를 함유하는 사각형 접시(245 x 245 x 20 mm, SPL)에서 밤새 성장시켰다. 다음날 10mL의 SB 배지를 사각형 접시에 첨가하고, 박테리아를 사각형 접시로부터 수확하고, 원심분리하여 수득한 펠렛을 2mL의 SB 배지에 재현탁시켰다. 글리세롤을 ~15% (0.5 부피의 50 % 글리세롤)의 최종 농도로 첨가하여 완전히 혼합하고, 1 mL 분취액을 액체 질소에서 동결시키고 -80℃에서 저장하였다.

PCR 반응을 이용한 교정된 CDR 및 인접한 프레임 워크 영역의 증폭
생성물 이름	주형	프라이머
VH3-1	VHVL -H1	pC3x-f	VH3-1-b
VH3-2	VHVL -H2	VH3-1-b-rc	VH3-2-b
VH3-H3	VHVL -H3	VH3-2-b-rc	VH-3-b
VL-1	VHVL -L1	VH-3-rc-B	VL-2-f-rc
VL-2	VHVL -L2	VL-2-f	VL-3-f-rc
VL-3	VHVL -L3	VL-3-f	pC3x-b
VK-1	VHVK -K1	VH-3-rc-B	VK-2-f-rc
VK-2	VHVK -K2	VK-2-f	VK-3-f-rc
VK-3	VHVK -K3	VK-3-f	pC3x-b

OE-PCR에 의한 VH, VL / VK 및 scFv 조립용 프라이머
생성물	주형	프라이머
VH 또는 VL/VK 단편 조립용 프라이머
VH3	VH3-(1 + 2) + VH3-H3	pC3x-f	VH-3-b
VL1	VL-(1 + 2 + 3)	VH-3-rc-B	pC3x-b
VK3	VK-(1 + 2 + 3)	VH-3-rc-B	pC3x-b

최종 scFv 유전자의 증폭
VH3VL1	VH3 + VL1	pC3x-f	pC3x-b
VH3VK3	VH3 + VK3	pC3x-f	pC3x-b

본 출원에서 사용된 프라이머 서열
생성물 이름	프라이머 이름	서열(5'-3')	서열번호
CDR 제작용 프라이머
VH3 CDR-H1	VH3-1-f	CTCCGGATTCACTTTCAGC	1
VH3 CDR-H1	VH3-1-b	TTACCTGGTGCCTGTCTG	2
VH3 CDR-H2	VH3-2-f	GGACTGGAGTGGGTCTCT	3
VH3 CDR-H2	VH3-2-b	GCGTGAGATGGTGAAGCG	4
Oligo-H3	lib-cdr-f	GTCAGTCACGCTCTAAGG	5
Oligo-H3	lib-cdr-b	CTGAGTCGATGACCTACG	6
CDR-H3	VH-3-f	CACTGCCGTGTATTACTGC	7
CDR-H3	VH-3-b	CAGAGTACCTTGTCCCCA	8
CDR-L1	VL-1-f	CGCGTCACCATCAGCTGC	9
CDR-L1	VL-1-b	CTGGGAGTTGCTGATACCA	10
CDR-L2	VL-2-f	CTCCTAAGCTCCTGATTTAC	11
CDR-L2	VL-2-b	AAAGCGATCAGGCACACC	12
CDR-L3	VL-3-f	CGAGGCTGACTATTACTGC	13
CDR-L3	VL-3-b	AGTTTGGTCCCACCGCCG	14
CDR-K1	VK-1-f	CGCGCAACTCTGTCTTGT	15
CDR-K1	VK-1-b	CCAGGTTTCTGTTGGTACCA	16
CDR-K2	VK-2-f	CCACGCCTGCTCATCTAT	17
CDR-K2	VK-2-b	GAACCTGTCTGGGATGCC	18
CDR-K3	VK-3-f	GACTTCGCAGTTTACTATTGT	19
CDR-K3	VK-3-b	ACCTTCGTTCCCTGACCA	20

골격부위 제작을 위한 프라이머
5' 절편-공통	pUC57-b	TTCGCCATTCAGGCTGCG	21
5' 절편-pUC57	VH3-1-f-rc	GCTGAAAGTGAATCCGGAG	22
	VH3-2-f-rc	AGAGACCCACTCCAGTCC	23
	VH-3-rc-F	GCAGTAATACACGGCAGTG	24
	VL-1-f-rc	GCAGCTGATGGTGACGCG	25
	VL-2-f-rc	GTAAATCAGGAGCTTAGGAG	26
	VL-3-f-rc	GCAGTAATAGTCAGCCTCG	27
	VK-1-f-rc	ACAAGACAGAGTTGCGCG	28
	VK-2-f-rc	ATAGATGAGCAGGCGTGG	29
	VK-3-f-rc	ACAATAGTAAACTGCGAAGTC	30
3' 절편-공통	hCH2-b	CTTGACCTCAGGGTCTTC	31
3' 절편-pFcF	VH3-1-b-rc	CAGACAGGCACCAGGTAA	32
	VH3-2-b-rc	CGCTTCACCATCTCACGC	33
	VH-3-rc-B	TGGGGACAAGGTACTCTG	34
	VL-1-b-rc	TGGTATCAGCAACTCCCAG	35
	VL-2-b-rc	GGTGTGCCTGATCGCTTT	36
	VL-3-b-rc	CGGCGGTGGGACCAAACT	37
	VK-1-b-rc	TGGTACCAACAGAAACCTGG	38
	VK-2-b-rc	GGCATCCCAGACAGGTTC	39
	VK-3-b-rc	TGGTCAGGGAACGAAGGT	40

단일-CDR 라이브러리 증폭을 위한 프라이머
공통	pUC57-in-b	GGA TGT GCT GCA AGG CGA	41
공통	hCH2-in-b	CCA GGA GTT CAG GTG CTG	42

CDR 및 인접 골격부위의 증폭을 위한 프라이머
VH3-1	pC3x-f	GCA CGA CAG GTT TCC CGA C	43
VH3-1	VH3-1-b	TTACCTGGTGCCTGTCTG	44
VH3-2	VH3-1-b-rc	CAGACAGGCACCAGGTAA	45
VH3-2	VH3-2-b	GCGTGAGATGGTGAAGCG	46
VH3-H3	VH3-2-b-rc	CGCTTCACCATCTCACGC	47
VH3-H3	VH-3-b	CAGAGTACCTTGTCCCCA	48
VL-1	VH-3-rc-B	TGGGGACAAGGTACTCTG	49
VL-1	VL-2-f-rc	GTAAATCAGGAGCTTAGGAG	50
VL-2	VL-2-f	CTCCTAAGCTCCTGATTTAC	51
VL-2	VL-3-f-rc	GCAGTAATAGTCAGCCTCG	52
VL-3	VL-3-f	CGAGGCTGACTATTACTGC	53
VL-3	pC3x-b	AAC CAT CGA TAG CAG CAC CG	54
VK-1	VH-3-rc-B	TGGGGACAAGGTACTCTG	55
VK-1	VK-2-f-rc	ATAGATGAGCAGGCGTGG	56
VK-2	VK-2-f	CCACGCCTGCTCATCTAT	57
VK-2	VK-3-f-rc	ACAATAGTAAACTGCGAAGTC	58
VK-3	VK-3-f	GACTTCGCAGTTTACTATTGT	59
VK-3	pC3x-b	AAC CAT CGA TAG CAG CAC CG	60

VH 또는 VL/VK 단편 조립용 프라이머
VH3	pC3x-f	GCA CGA CAG GTT TCC CGA C	61
VH3	VH-3-b	CAGAGTACCTTGTCCCCA	62
VL1	VH-3-rc-B	TGGGGACAAGGTACTCTG	63
VL1	pC3x-b	AAC CAT CGA TAG CAG CAC CG	64
VK3	VH-3-rc-B	TGGGGACAAGGTACTCTG	65
VK3	pC3x-b	AAC CAT CGA TAG CAG CAC CG	66

최종 scFv 유전자의 증폭을 위한 프라이머
공통	pC3x-f	GCA CGA CAG GTT TCC CGA C	67
공통	pC3x-b	AAC CAT CGA TAG CAG CAC CG	68

시퀀싱 프라이머
공통	omp seq	AAGACAGCTATCGCGATTGCAG	69

실시예 8: 라이브러리 구조 및 파지 디스플레이 선택

라이브러리 구조(rescue) 및 패닝(panning)은 이전에 설명된 방법에 따라 수행하였다[PLoS One. 2015;10: 1-18, 대한민국 공개특허 제2016-0087766호]. 구체적으로, 서브-라이브러리 E. coli 스톡 1mL을 암피실린 및 2% 여과-멸균된 글루코스를 함유하는 400mL SB 배지에서 배양하였다. 600 nm에서의 세포 밀도를 0.7로 한 후(OD600=0.7), 세포를 원심 분리하고, 100 μg/mL 암피실린을 함유한 400mL SB 배지에 재현탁시키고, 37 ℃에서 약하게 쉐이킹시키면서(80 rpm) VSCM13 헬퍼 파지 (10¹² pfu)에 의해 1시간 동안 감염시켰다. 이어서 카나마이신 (70 ㎍/mL)을 첨가하고, 박테리아를 30 ℃에서 밤새 배양하였다. 다음날, 밤새 배양한 배양물을 원심 분리하고 4 % (w/v) PEG 8000 (Sigma Aldrich) 및 3 % (w/v) NaCl (Duchefa Biochemie)을 용해시켜 상청액으로부터 파지를 침전시켰다. 얼음에서 30분 이상 동안 인큐베이션한 후, 침전된 파지를 원심 분리하여 수집하고, 10mL PBS에 재현탁시킨 후, 다시 원심 분리하여 박테리아 잔해를 제거하였다. 상기에서 설명한 방법으로 상청액으로부터 파지를 다시 침전시키고, 2mL PBS에 재현탁시키고, 글리세롤을 15% 최종 농도가 되도록 첨가하고, 완전히 혼합하였다. 최종적으로 수득한 파지 라이브러리를 액체 질소와 함께 10¹³ cfu의 분취량으로 동결시키고 -80 ℃에서 저장하였다.

표적 항원에 대한 파지 선택을 위해, 면역 튜브를 PBS에 1-10 ㎍/mL 포함된 표적 항원으로 코팅하고 1시간 동안 3% 탈지유가 포함된 PBST (mPBST)로 블로킹하였다. 파지 디스플레이 10¹³ cfu가 포함된 mPBST를 항원-코팅된 면역 튜브에 첨가하였다. 37 ℃에서 1-2 시간 동안 배양한 후, 결합되지 않은 파지를 제거하기 위해, PBST로 튜브를 1회 라운드에 대해 2-5회, 다음 라운드에 대해 5-10회 세척하였다. 결합된 파지를 1 mL의 100 mM 트리에틸아민으로 5분 동안 용리시킨 후, 새로운 50 mL 튜브로 옮기고, 0.5 mL의 1 M Tris(pH 7.4)로 중화시켰다. TG1 E. coli 세포 (OD600 = 0.7, 8.5mL)를 상기 중화된 파지로 감염시키고, 1μL의 감염된 박테리아 배양물을 1mL의 SB 배지에 희석시켰다. 아웃풋 적정(titering)을 위해, 10 및 100 μL의 희석된 배양물을 100 mm LB-암피실린 한천 플레이트에 플레이팅 하였다. 남은 배양물은 100 ug/mL 암피실린 및 2% 글루코스를 함유하는 150 mm LB 플레이트(LB-amp plate)에서 밤새 성장시켰다. 다음날, 배양물을 수확하고 OD600이 0.7에 도달할 때까지 암피실린을 함유하는 20mL SB 배지에 세포(>10⁹)를 가하여 성장시키고, VCSM13 헬퍼 파지 (10¹¹ pfu)를 첨가하였다. 세포를 약하게 교반하면서(120 rpm) 37℃에서 1시간 동안 감염시키고, 70 μg/mL의 카나마이신이 포함된 배지에서 200 rpm으로 교반하면서 30 ℃에서 밤새 배양하였다. 상기 배양물을 다음날 원심 분리하고, 침전시키기 위해 파지-함유 상청액에 5x PEG 침전 버퍼 (20 % [w/v] PEG-8000 및 15 % [w/v] NaCl)을 첨가하고 얼음상에서 30분 동안 배양하였다. 침전된 파지를 원심 분리에 의해 수확하고, 파지 펠렛을 300 μL의 1x PBS에으로 재현탁시키고 후속 패닝 라운드에서 사용하였다. 인풋 적정을 위해, 1 μL의 10^-7 희석된 파지를 100 μL의 중간-로그상(mid-log phase) E. coli 세포에 첨가하고, 실온에서 1시간동안 배양하였다. 감염된 박테리아를 LB-암피실린 한천 플레이트에 플레이팅하고 37℃에서 밤새 배양하였다.

실시예 9: ELISA 및 도트 블랏 어세이(dot blot assay)

패닝 아웃풋으로부터 선별한 개별 콜로니를 96-웰 마이크로티터 플레이트의 암피실린을 함유하는 SB 배지에서 탁해질때까지 교반하면서 배양하였다. 이어서, IPTG[isopropyl β-D-1-thiogalactopyranoside (Duchefa Biochemie)]를 각 웰에 1mM로 첨가하고, 밤새 교반하면서 플레이트를 30 ℃에서 배양하였다. 다음날, 플레이트를 원심 분리하여 상청액을 버리고, 펠렛을 40 μL의 차가운 1x TES 버퍼 [50 mM Tris (Generay Biotech), 1 mM EDTA (Ameresco), 20% 수크로스 (Sigma Aldrich), pH 8.0)]로 재현탁시켰다. 이어서, 60 μL의 차가운 0.2x TES 버퍼를 첨가하였다. 얼음 위에서 30분간 정치한 후, 플레이트를 원심 분리하여 페리플라즘 추출물(PPE, periplasmic extract)을 함유하는 상청액을 수득하였다. 상청액에서 ELISA을 이용하여 항원에 결합한 scFv을 스크리닝하였다. 항원이 1-10 μg/mL로 포함된 PBS를 이용하여 96-웰 ELISA 플레이트 (Costar 3690, Corning)를 코팅하고, 실온에서 1시간 동안 mPBST로 블로킹하고, 25 μL의 PPE를 블록킹된 ELISA 플레이트의 웰에 첨가하였다. 실온에서 1시간 동안 정치한 후, ELISA 플레이트를 1x PBST로 3회 세척하고, mPBST에 1:3,000으로 희석된 25μL의 HRP-접합 항-HA 항체 (Santa Cruz Biotechnology)를 각 웰에 첨가하였다. 실온에서 1시간 동안 정치한 후, 플레이트를 1x PBST로 5회 세척하고, 검출을 위해 25 μL의 TMB (tetramethylbenzidine)을 각각의 웰에 첨가하였다. 25 μL의 1N H₂SO₄에 의해 반응을 중지시키고, 마이크로티터 플레이트 리더를 사용하여 450 nm에서의 흡광도를 측정하였다.

도트-블롯 어세이(dot blot assay)를 위해, 임의의 E.coli 클론을 라이브러리로부터 선택하고, 96-웰 플레이트에서 배양했으며, 상기에서 기재된 방법을 이용하여 세포질 추출물(PPE)을 수득하였다. 1 μL의 PPE를 니트로셀룰로오스 막(Whatman # 10401196) 상에 도포하고 건조시켰다. 상기 막을 mPBST을 이용하여 1시간동안 블록킹하고, mPBST에 1:3,000으로 희석된 HRP-접합 2차 항-HA 항체를 1시간동안 반응시켜 결합하였다. 상기 막을 PBST로 3회 헹구고 ECL 용액 (Abfrontier; LF-QC0101) 및 X-선 필름을 이용하여 검출하였다.

실시예 10: SPR(Surface plasmon resonance, 표면 플라스몬 공명) 분석

SPR 분석은 Biacore 3000 시스템(Biacore, GE Healthcare)을 사용하여 수행하였다. 아세트산 나트륨(pH 4.0~5.5) 내의 항원은 제조업자가 제공한 표준 아민 커플링 프로토콜에 따라 CM5 칩 상에 5μL/min의 유속으로 고정시키고(표적 RU: 800 ~ 1,200), 정제된 scFv 항체를 6개의 상이한 농도로 감염시켰다. 운동 파라미터 및 해리 상수를 얻기 위해, BiaEvaluation 소프트웨어를 사용하여 데이터를 1:1 Langmuir 결합 모델(Langmuir binding mode) 또는 드리프팅 기준선 모델(drifting baseline model)과의 1:1 결합에 맞추었다.

실험예 1: 이전 항체 라이브러리 구축 및 서열 분석

1-1: 항체 라이브러리(OPALS) 구축 및 분석

이전 연구에서, 천연 인간 항체와 유사하거나 우수한 특성을 갖는 항체로 구성된, 기능적 다양성이 우수한 합성 인간 항체 라이브러리(이하, OPALS)가 구축된 바 있다(PLoS One. 2015;10: 1-18, 대한민국 공개특허 제2016-0087766호). 상기의 기존 항체 라이브러리 구축 과정에 대해 간단히 설명하면, 상기 scFv 라이브러리에서, 생식 계열 가변 유전자 IGHV3-23 및 IGKV3-20, 또는 IGHV3-23 및 IGLV1-47은 링커 (Gly-Gly-Gly-Gly-Ser)₃에 의해 연결되어 프레임 워크로 사용되었다. CDR은 공지된 인간 항체의 CDR 서열의 특성을 분석 및 시뮬레이션하여. 인간 항체 CDR의 서열 다양성과 유사한 서열 다양성을 갖도록, 비-조합적 다양성(non-combinatorial diversity)으로 설계되었다.

구체적으로, 사용된 골격(프레임 워크) 서열은 하기 표 8과 같다. 하기 표의 아미노산 서열에서 X는 임의의 아미노산을 의미하고 밑줄친 부위가 CDR이고, 볼드체로 표시된 부위가 링커(연결부위)이다. 한편, 하기에서 설명할 개량된 항체 라이브러리(OPALT) 또한 아미노산 수준에서 이와 동일한 골격 서열을 사용하였다.

골격 형태	서열
(IGHV3-23)-linker-(IGKV3-20)	N'-EVQLLESGGGLVQPGGSLRLSCAASGFTFSXXXXXWVRQAPGKGLEWVXXXXXRFTISRDNSKNTLYLQMNSLRAEDTAVYYCAKXXXXXWGQGTLVTVSSGGGGSGGGGSGGGGSEIVLTQSPGTLSLSPGERATLSCXXXXXWYQQKPGQAPRLLIYXXXXXGIPDRFSGSGSGTDFTLTISRLEPEDFAVYYCXXXXXFGQGTKVEIK-C' (서열번호 70)
(IGHV3-23)-linker-(IGLV1-47)	N'-EVQLLESGGGLVQPGGSLRLSCAASGFTFSXXXXXWVRQAPGKGLEWVXXXXXRFTISRDNSKNTLYLQMNSLRAEDTAVYYCAKXXXXXWGQGTLVTVSSGGGGSGGGGSGGGGSQSV LTQPPSASGTPGQRVTISCXXXXXWYQQLPGTAPKLLIYXXXXXGVPDRFSGSKSGTSASLAISGLRSEDEADYYCXXXXXFGGGTKLTVL-C' (서열번호 71)

인간 면역 글로불린 서열을 IMGT 데이터베이스(http://imgt.org)에서 다운로드하여 CDR 서열을 추출하였다. 다음으로, V-base (http://www2.mrc-lmb.cam.ac.uk/vbase/alignments2.php) 에 있는 인간항체 생식계열(germline) 면역글로불린 유전자의 CDR 서열들과 상기 IMGT 데이터베이스에서 추출된 성숙(mature) CDR 서열들을 비교 분석하여, i) 각각의 성숙 CDR 서열에 가장 가까운 생식 계열 CDR 서열을 찾고, 성숙 CDR에서 발생된 돌연변이의 위치, 유형 및 빈도를 확인하고, ii) 성숙 인간 항체 레파토리에서 사용된 각각의 생식계열 CDR의 빈도를 확인하였다.

한편, CDR-H3 및 CDR-L3의 경우에는, VDJ 재조합 및 접합부위 유연성(junctional flexibility), P-첨가 (P-addition), N-첨가 (N-addition) 등과 같은 기전에 의하여, 생식계열 서열의 확인이 어렵다. 따라서, CDR-L3의 경우, CDR-L3의 말단에서 2개 또는 3개의 아미노산은 성숙한 인간 항체의 CDR-L3에서 상응하는 위치의 서열 빈도를 시뮬레이션함으로써 설계하였다. 또한, CDR-H3의 설계를 위해, 성숙한 인간 항체 레퍼토리의 CDR-H3 서열을 먼저 길이 별로 나누고, 각 길이 별 각 위치에서 아미노산의 사용 빈도를 분석함으로써 서열을 시뮬레이션하였다.

다음으로, 아미노산 빈도에 기초하여 CDR 서열을 시뮬레이션한 후, N-글리코실화, 아스파르테이트 이성질화, 아스파라긴 탈아미드화, 비효소적 절단 또는 산화와 관련된 부위를 갖는 서열을 최소화하거나 제외시켰다.

상기 방법을 통해 설계한 각각의 CDR은 다양성이 낮지만 (~ 10³ 개의 고유 서열), 이들을 조합할 경우, 우수한 기능성을 갖는 항체 라이브러리를 생성할 수 있다. 상기 방법으로 구축한 상기 CDR 레퍼토리를 일련의 오버랩-연장(overlap-extension, OE) PCR을 통해 최종 scFv 라이브러리에 조립하고, E. coli로 형질전환하여 >10⁹개의 개별 클론을 갖는 항체 라이브러리(OPALS)를 구축하였다.

1-2: 항체 라이브러리(OPALS)의 서열 분석

상기 실험예 1-1에서 제작한 항체 라이브러리(OPALS)에서의 CDR 설계의 정확도를 측정하기 위해, 상기 라이브러리의 차세대 서열분석(Next generation sequencing, NGS)을 수행하였다. 수백만 개의 CDR 서열을 분석하고 설계 서열과 비교하였다(표 9).

라이브러리 CDR의 차세대 염기서열 분석
CDR-	H1	H2	H3	K1	K2	K3	L1	L2	L3
분석된 서열 (x10⁶)	4.75	4.70	4.53	2.58	2.31	2.52	2.14	2.12	2.09
인프레임 (In frame) %	91.3	89.7	90.3	92.2	91.6	93.2	91.5	78.7	90.7
설계 길이 일치도 %	89.4	88.4	85.6	87.1	82.3	90.7	84.6	56.2	89.4
설계 서열 일치도 %	80.9	52.0	51.8	62.4	70.3	74.3	56.2	47.6	67.2
교열(proofreading)^a 전 인프레임 %	85.7	50.0	67.9	53.3	44.4	66.7	38.5	31.3	66.7
설계 커버리지 %^b	100	100	97.3	99.8	100	99.9	100	100	100
^a교열 패닝 전 인프레임 CDR 서열의 %는 CDR 당 12~28 서열의 생어(Sanger) 시퀀싱으로 추정하였다. ^b설계된 CDR 서열의 %는 NGS 분석으로 확립하였다.

제조된 라이브러리에는 설계된 서열의 거의 전부가 커버된 것을 확인하였으며, 비록 긴 CDR에 대해서는 고유 서열의 대부분이 전체 설계서열 중 오직 한번 또는 두번만 반복되도록 설계되어 정량 계수(r²)가 상대적으로 낮으나, 각 설계된 CDR 서열의 발생 빈도 또한 실제 라이브러리에 나타났다(도 1). 또한, 해당 라이브러리는 제조 오류에 따라 어느 설계 서열과도 매칭되지 않은 저-빈도 CDR 서열을 많이 포함하고 있는 `것으로 확인되었다. 이 중에는 핵산 첨가 또는 결실 등에 의해서 프레임 시프트가 일어난 비-기능(non-functional) 서열이 포함되어 있었다. 항-HA 항체를 이용한 단일-CDR 라이브러리의 교열(proofreading) 패닝을 통해서 비-기능 CDR 서열을 제거하였으며, 교열 패닝 전에 활성 인프레임 CDR 서열의 비율은 31 내지 86 %인데 비하여, 교열 패닝 이후에는 대략 90에서 93% 정도임을 확인하였다. 다만, CDR-L2만 약 79%에 불과했으나 이는 중첩 PCR의 부정확한 어닐링 때문이었던 것으로 사료된다. 설계된 길이와 일치하는 CDR 서열의 비율은 약 82 내지91 %(CDR-L2는 약 56%)였다. 종합적으로, VH, Vκ, 및 Vλ 서열의 약 75%는 종결 코돈 없는 기능성 도메인들이었고, 라이브러리에서 기능성 scFv 클론은 약 55%에 이르는 것으로 추정되었다.

다음으로, NGS 데이터로부터 다양한 도메인 중에서 고유한 도메인이 분석되었다. 종결 코돈을 포함하지 않는 각 중쇄, 카파 경쇄 및 람다 경쇄의 다양한 도메인 서열 약 1.3 x 10⁶개를 분석하였으며, VH의 98%, Vκ의 89% 및 Vλ의 98%이 반복되지 않았다(도 2). 전체 서열 중에서 상이한 다양한 도메인 서열의 수의 %는 VH, Vκ, 및 Vλ 각각이 99%, 92% 및 99%였다. 한편, 이러한 수치를 기 보고된 다른 항체 라이브러리들의 CDR-H3에서의 고유도(uniqueness)인 97 내지 98%에 비교하였을 때, 셀렉션되지 않은 라이브러리 내의 scFv 클론 중에서 중복도는 그다지 심각하지 않음을 시사한다.

제조된 라이브러리에서 CDR 길이의 분포, 특히 CDR-H3 길이의 분포는 설계와 상이하였고, 긴 CDR에 비교해서 짧은 길이의 CDR이 현저히 높은 빈도로 나타났다(도 3). 이는 일부분 올리고뉴클레오티드 어레이 제조 과정에서 프레임 시프트가 일어나거나 조기 종결 코돈이 도입되는 등의 부정확함 때문인 것으로 사료된다. 이러한 오류는 긴 CDR을 제조하는 동안에 더 자주 발생하고 그들 중 대부분은 항-HA-태그 항체를 이용한 단일 CDR 라이브러리 교정 패닝 동안에 제거되기 때문에, 라이브러리에서 긴 CDR이 더 많이 제거되는 원인일 것으로 사료된다. 또한, 짧은 CDR을 가진 scFv가 항-HA-태그 항체에 대한 교열 패닝에 의해서 우선적으로 선별 및 증폭되었을 가능성도 있다.

다음으로, 라이브러리 CDR 서열과 자연 CDR 서열간의 유사도를 각 CDR 서열의 가장 가까운 생식 CDR 서열로부터 아미노산 변이 수를 분석하여 측정하였다. CDR을 자연 체세포 초돌연변이(somatic hypermutation, SHM) 패턴을 시뮬레이션하여 설계되었기 때문에, 설계 서열은 자연 유사도가 매우 높을 것이 예상되었다. 이에 따라, 설계 CDR 서열과 자연 CDR 서열 간에 CDR 서열 당 평균 변이 횟수를 비교하였다(표 10).

CDR 서열의 유사 인간 생식 계열 CDR 서열로부터 평균 아미노산 변이수
CDR ^a	H1	H2		K1			K2	K3
길이	5	16	17	11	12	16	7	9	10
설계^b	0.75	2.14	2.55	1	1.18	1.85	0.47	0.73	0.65
비-설계^c	1.84	4.3	3.67	2.77	3.44	3.82	2.01	1.55	1.45
자연^d	0.82	2.09	2.37	1.08	1.29	0.93	0.49	0.72	0.54
CDR ^a	L1			L2	L3
길이	11	13	14	7	9	10	11
설계^b	1.03	1.1	0.98	0.61	0.83	1.18	0.7
비-설계^c	2.82	3.22	2.75	1.85	1.68	2.11	1.45
자연^d	0.95	1.1	1	0.66	0.88	1.14	0.75
^aCDR-H3는 비교할 생식계열 서열이 없어, 분석하지 않음. ^b 실시예에서 설명한대로 설계된 CDR 서열 ^c 설계된 서열과 일치하지 않지만 올바른 길이를 가진 라이브러리 CDR 서열. ^d IMGT 데이터베이스에서 검색된 해당 길이의 자연 인간 CDR 서열.

제조 오류에 의하여 설계 서열 중 어느 것과도 매치되지 않는 라이브러리 CDR(비-설계 CDR) 서열을 분석할 때, 가장 유사한 생식계열 CDR 서열로부터의 평균 아미노산 변이 수는 설계 CDR 서열의 평균 아미노산 변이 수에 비해서 평균 1 내지 2 아미노산만 차이 났다. 이러한 결과는 라이브러리의 CDR 서열이 인간 생식 CDR 서열로부터 오직 적은 수의 변이만을 포함하고 있으며, 자연 인간 항체의 CDR 서열과 매우 유사함을 시사한다. CDR-H3에 대해, 각 위치의 아미노산 분포를 분석하였다 (도 4). 자연 인간 항체, 시뮬레이션된 레파토리 및 제조 라이브러리의 CDR-H3 사이에서 아미노산 분포 패턴이 유사함이 확인되었으며, 이는 라이브러리 CDR의 높은 자연-유사도를 보여주고 있다.

다음으로, 번역 후 단백질에 일어나는 수식(Post-translation modification, PTM)은 단백질의 활성 및 물성에 영향을 줄 수 있다. 이에는 N-당화, 아스파르트산의 이성질체화, 아스파라긴의 탈아미드화, 펩타이드 결합의 절단, 아미노산 곁사슬의 산화 등이 포함된다. 아스파르트산(Asp)의 이성질체화는 특히 Asp-Gly 서열에서, 아스파라긴(Asn)의 탈아미드화는 특히 Asn-Gly에서, 펩타이드 결합의 절단은 특히 Asp-Pro에서, 아미노산 곁사슬의 산화는 특히 시스테인과 메티오닌에서 자주 일어나므로, 이들 모티프를 포함하는 CDR 서열들이 설계에서 제외되었다. 예측한 대로, 상기 CDR에서 바람직하지 않은 번역-후 수식모티프의 발생 빈도가 자연 인간 항체 CDR보다 현저히 낮았다. 다만, 각각 5개 및 7개의 아미노산으로 이루어져 짧고 자연 인간 항체에서 상대적으로 적은 PTM 모티프를 가지고 있는 CDR-H1 및 CDR-L2는 예외였다 (표 11). 상이한 CDR에서 PTM 모티프는 독립적으로 발생하는 것으로 가정했을 때, 라이브러리의 scFv 서열에서 최소한 하나의 PTM 모티프 발생 확률이 대략 20 내지 30 %이고 70 내지 80%의 클론은 PTM 모티프 없는 것으로 추정된다. 이에 반해, 자연 유래의 경우에는 PTM 모티프를 가지지 않은 scFv의 비율이 24 내지 27 %에 불과하다.

라이브러리 및 자연 인간 항체의 CDR에서 번역-후 수식 비율
Motif	CDR-	H1	H2	H3	K1	K2	K3	L1	L2	L3
Asp-Gly	라이브러리	0.05	0.31	0.66	0.03	0.34	0.10	0.32	3.41	0.34
Asp-Gly	자연	0.08	10.79	6.45	6.03	0.32	0.09	0.28	0.30	1.98
Asn-Gly	라이브러리	0.04	0.62	0.32	0.05	0.63	0.12	0.60	4.51	0.32
Asn-Gly	자연	0.02	5.96	3.03	4.54	0.53	0.50	0.06	0.12	7.61
Asp-Pro	라이브러리	0.01	0.16	0.25	0.04	0.08	0.10	0.04	0.20	0.05
Asp-Pro	자연	0.00	2.40	10.13	0.00	0.40	0.14	0.11	0.00	0.66
N-glyc.	라이브러리	0.66	1.91	2.77	1.35	1.46	1.00	1.97	0.94	1.30
N-glyc.	자연	0.59	0.78	7.73	0.61	0.07	1.69	6.74	0.30	8.20
Met	라이브러리	0.35	1.03	1.80	0.90	0.55	0.29	1.78	0.70	1.70
Met	자연	0.06	2.72	9.04	0.88	0.11	12.36	0.39	0.18	0.86
Cys	라이브러리	0.30	1.96	0.49	1.30	0.64	0.77	2.10	0.87	1.29
Cys	자연	0.35	17.50	1.46	0.92	0.18	1.19	0.61	0.24	1.98
총 PTM	라이브러리	1.36	5.44	5.87	3.60	3.58	2.32	6.16	10.48	4.81
총 PTM	자연	1.09	36.70	32.92	12.55	1.23	15.56	8.08	1.13	20.70

실험예 2: 개량된 신규한 항체 라이브러리(OPALT) 구축

실험예 1에서 합성된 항체 라이브러리(OPALS)을 개량한 신규한 항체 라이브러리를 구축하기 위해, 하기와 같은 실험을 수행하였다.

2-1: CDR의 생식 계열과 패닝 효율의 연관성 확인

기존의 항체 라이브러리(OPALS)에서 중쇄 프레임 워크로 사용된 IGHV3-23 생식 계통(VH3-23, DP47)은 단백질 A에 결합할 수 있는 것으로 잘 알려져 있다. 따라서, 단백질 A에 대한 OPALS의 패닝은 항원 특이성 또는 CDR 서열에 관계없이 빠르게 성장하거나 고도로 디스플레이된 클론의 수를 풍부하게 할 것으로 예상된다. 따라서, CDR 서열이 패닝 결과에 영향을 미치는 지 확인하기 위해, 이전 항체 라이브러리 (OPALS)를 단백질 A에 대해 3라운드 동안 패닝하고, 패닝 아웃풋의 서열을 Illumina Miseq 플랫폼으로 분석하였다. 수백만 개의 가변 영역 서열을 paired-end 시퀀싱으로 판독하고, 아미노산 서열로 번역하고, 내부에서 개발한 Python 프로그램을 사용하여 CDR 서열을 추출하였다.

상기 과정을 토대로, CDR-H3을 제외한 5개의 CDR에 대해, CDR 설계의 기초가 되는 생식 계열 CDR 기원의 라이브러리에서의 비율이 단백질 A 패닝 전후에 어떻게 변하는지 분석하였다. 분석 결과, CDR-H2를 제외하고는 단백질 A에 대한 패닝 전후에 CDR 서열의 생식계열 기원의 상대적인 비율에 유의한 변화가 없는 것으로 확인되었다. 이는, 다양한 생식계열 CDR 서열에 기초한 CDR 서열이 IGHV3-23, IGKV3-20, IGLV1-47 프레임워크와 관련하여 잘 수용되며, 정상적으로 발현되고 디스플레이됨을 의미하는 것으로 판단된다.

한편, CDR-H2의 경우, VH3에 속하는 생식 계열 서열로부터 유래된 CDR 서열은 패닝 후 고도로 농축된 반면, VH1, VH4 또는 VH5에 속하는 생식계열 CDR 서열로부터 유래된 CDR 서열은 패닝 후에 현저히 감소된 것이 확인되었다(도 5).

상기 결과를 토대로, 항체 라이브러리 설계 시에 패닝 효율을 향상시키기 위해서는 CDR 서열의 생식 계열을 고려해야 함을 알 수 있으며, 개량된 항체 라이브러리(OPALT) 설계 시에, CDR-H2을 제외하고는 일반적으로 모든 가변 유전자 패밀리의 CDR을 이용하여 설계하였고, CDR-H2의 경우에는 VH1, VH4 또는 VH5 패밀리에서 유래된 서열은 회피하여 설계하였다.

2-2: CDR-H3 서열의 NGS 분석 결과 및 농축 점수를 기반으로 한 CDR-H3 서열 설계 방법

상기 실험예 2-1의 결과를 토대로, 신규한 항체 라이브러리(OPALT) 설계에서는, IGHV3-23, IGKV3-20 및 IGLV1-47 프레임 워크를 사용면서, CDR-H2의 VH3-유래 서열을 IGHV3-23 프레임 워크에 삽입함으로써 라이브러리를 구축하는 전략을 확립하였다. 상기 전략을 통해, 항체 단편의 디스플레이 수준이 향상된 라이브러리 구축이 가능하게 될 것으로 예상된다.

다음으로, CDR-H3 서열을 설계함에 있어서, 기존의 항체 라이브러리의 CDR-H3 서열은 생식 계열 서열을 기반으로 설계되지 않았으므로, 다른 CDR과 동일한 방식으로 분석할 수는 없었다. 대신에, 단백질 A(protein A)에 대한 패닝 전후의 개별 CDR-H3 서열의 상대 빈도를 측정하고, 그로부터 각 서열의 농축 점수를 계산하였다. 라이브러리 내 개별 서열의 빈도 간에는 큰 차이가 있었으며, 이는 서열의 적합성과 관련이 있다고 고려하였다. 다시 말해서, 동일한 빈도로 설계된 서열 중에서, 패닝하기 전 라이브러리에서 일부 클론의 더 높은 빈도는 부분적으로 대장균 숙주에서의 그들의 높은 적합성에 기인할 수 있다. 따라서 농축 빈도 계산 시에 빈도를 고려하였다.

따라서, CDR-H3 설계를 위해, CDR-H3에 대한 NGS 데이터 및 농축 점수를 각각의 길이 (9 ~ 20개 아미노산)로 구성한 후, CDR-H3 서열 및 농축 점수를 스프레드시트 파일로 도표화하고 분석하였다. 항체 라이브러리 내 임의의 특정 CDR-H3 서열 i 에 대한 농축 점수(enrichment score) ES _i 는 하기와 같은 식을 이용하여 산출된다.

[수학식 1]

CDR-H3의 패닝 전후의 서열 분석 결과, 패닝 후 CDR-H3의 각 위치에서 아미노산 빈도는 상당한 변화가 있음을 확인하였다 (도 6). 구체적으로, Val, Trp 및 Tyr은 각각 H96/H97, H95/H96/H97 및 H98 위치에서 현저하게 불리한 반면, Asp, Gly 및 Pro는 각각 H98, H95 및 H98 위치에서 상당히 바람직한 것으로 확인되었다. 상기 결과를 토대로, CDR-H3의 아미노산 서열이 파지 항체 클론의 패닝 성능의 중요한 결정 인자이며, 보다 효율적으로 농축된 클론을 보유하는 합성 항체 라이브러리를 제조하기 위해, 효율적으로 CDR 서열, 특히 CDR-H3 서열을 설계하는 것이 가능할 수 있음을 알 수 있다.

상기 결과에 기초하여, 개별 서열에 대한 농축 점수 및 위치 별 아미노산 잔기를 입력(input) 값으로 사용하는 방식으로, 농축 데이터(enrichment data)를 기계 학습 모델을 훈련시키는 데에 사용하였다. 낮은 리드(read) 카운트를 갖는 클론에 대한 농축 점수의 잠재적 과대평가를 최소화하기 위해, 각각의 길이에 대해 n_i·pre또는 n_i·post가 10보다 큰 서열만 고려하였다. 데이터 세트 중, 무작위로 선택된 70%를 훈련 세트로 사용하였고, 나머지 30%를 평가 세트로 사용하였다.

평가 세트에서 기계 학습 모델에 의해 예측된 서열의 농축 점수는 실제 NGS 결과로부터 계산된 농축 점수와 중등도(intermediate)의 상관 관계를 보여 주었다(도 7). 중등도의 상관 관계를 보여준 이유 중 하나로서, 항체의 디스플레이 및 생산 수준은 CDR-H3 서열에 의해서만 결정될 수 없기 때문인 것으로 판단된다. 그러나, 패닝 후 CDR-H3 서열의 ~ 40%가 농축(ES> 0)되었지만, ES>0이 예측된 클론만 고려될 때는 비율은 ~ 60 %로 증가하는 것이 확인되는 바 (도 8), 상기의 방법으로 수행한 기계 학습은 CDR-H3 서열의 적합성을 예측하는데 유용한 도구가 될 수 있음을 알 수 있다.

신규한 항체 라이브러리에 대한 CDR 서열은 전술한 바와 같이, 즉 CDR-H3의 경우 천연 인간 항체의 아미노산 빈도를 시뮬레이션하고, 다른 CDR의 경우 천연 인간 항체의 생식 계열 유전자 사용 및 체세포 초돌연변이를 시뮬레이션하여 설계하였다. PTM 모티프를 갖는 서열은 시뮬레이션 후에 배제하였다. 상기와 같이 설계된 CDR-H3 서열은 패닝에 의해 풍부해질 것으로 예상되는 서열을 선택하기 위해 기계 학습 모델을 적용하였다. 기계 학습에 의해 선택된 CDR-H3 서열 중에서, 단일 아미노산이 과도하게 또는 반복적으로 발생되는 것은 배제하였다.

다음으로, 설계된 CDR 서열을 netMHCIIpan-3.1 프로그램을 사용하여 in silico에서 탈면역화시켰다. 구체적으로, 인접한 프레임 워크 영역으로부터 8 개의 아미노산을 CDR 아미노산 서열의 양쪽에 첨가하였다. 이렇게 구성된 단편 서열에서 서로 오버래핑되는 9-aa 펩타이드 단편들의 MHC 클래스 II에 대한 결합력을 netMHCIIpan-3.1 프로그램으로 평가하였다. 가령 5개의 아미노산으로 이루어진 CDR-H1의 경우, 양쪽의 프레임워크 영역에 8개씩의 아미노산을 추가한 21-aa 단편서열에 대하여 1~9번 아미노산으로 이루어지는 9-aa 펩타이드 단편부터 13~21번 아미노산으로 이루어지는 9-aa 펩타이드 단편까지 13개의 펩타이드 단편들의 결합력을 평가하였다. 20가지 일반적인 MHC 클래스 II 대립 유전자 중 하나 이상에 강한 결합을 갖는 것으로 예측된 서열은 설계에서 제외하였다.

IGHV3-23, IGKV3-20, IGLV1-47 유전자 프레임 워크의 핵산 서열은 인간과 대장균에서 거의 사용되지 않는 코돈을 제거하고, 30-bp 슬라이딩 윈도우 내에서 50-70% 사이에서 GC 함량을 유지하고, 프레임 워크 서열 중 유사한 서열 사이의 교차 프라이밍(cross-priming)을 최소화하기 위해 동일 돌연변이(synonymous mutation)를 도입하여 새롭게 설계하였다. 상기 설계된 CDR 아미노산 서열을 역번역하고 프레임 워크 서열을 양쪽에 첨가하여 100-mer 길이의 총 27,426 올리고뉴클레오티드 서열을 설계하였다.

2-3: PAGE를 이용한 길이별 CDR-H3 분리

실험예 1-2의 기존의 항체 라이브러리(OPALS)의 분석 결과에 따르면, 짧은 CDR-H3가 라이브러리에서 과도하게 많이 출현하여 (도 3b), CDR 길이 분포에 상당한 편향이 생김으로서 라이브러리의 성능이 저하될 수 있는 문제가 발생할 수 있다고 언급한 바 있다. 따라서, 개량된 신규 항체 라이브러리(OPALT)의 경우에는, 각각 특정 CDR-H3 길이를 갖는 다수의 서브-라이브러리를 제작함으로써 편향을 최소화하도록 구성될 것으로 결정하였다. 따라서, 설계된 CDR 서열을 인코딩하는 올리고뉴클레오티드는 풀로서 병렬로 합성되었으므로, CDR-H3-인코딩 올리고 뉴클레오티드를 그 길이로 분리하는 것이 필요하다. 이를 위해, CDR-H3-특이적 프라이머 쌍을 사용하여 PCR에 의해 증폭된 합성 올리고 풀 및 증폭된 DNA를 아가로스 겔 전기 영동에 의해 정제하였다. 이어서, PCR로 증폭된 CDR-H3 올리고뉴클레오티드를 10% 변성 폴리아크릴아마이드 겔에서 그들의 길이에 대해 분리하고자 하였다. 변성 조건(겔 내 8M 요소)은 단지 3개의 염기씩 서로 길이가 다른 DNA 밴드를 보다 명확하게 분리하기 위해 사용하였다 (도 9). DNA 밴드는 기존의 브롬화 에티듐(ethidium bromide)보다 단일 가닥 DNA에 대해 강한 염색을 제공하는 SYBR Gold를 사용하여 시각화하였고, 각각의 길이에 대한 DNA 밴드를 절제하고, 상기 실시예에 기재된 방법을 통해 DNA를 수득하였다. PAGE-정제된 CDR-H3 올리고 뉴클레오티드는 상이한 아미노산 길이를 가지는 CDR-H3을 증폭시키기 위한 PCR의 주형으로서 사용하였다.

2-4: 신규 항체 라이브러리(OPALT) 구축

설계된 CDR-인코딩 올리고 뉴클레오티드를 상기 기재된 바와 같이 합성하고 PCR에 의해 증폭시켰다(표 1). 인간 생식 계열 면역 글로불린 가변 세그먼트(segment) DP47(IGHV3-23), DPL3(IGLV1-47) 및 DPK22(IGKV3-20)는 scFv 라이브러리의 프레임 워크로서 합성하고, pUC57 및 pFcF 벡터에서 클로닝하고, 표 2에 따라 PCR에 의해 증폭시켰다. OE-PCR이 나중에 수행될 때 원래의 주형 서열이 증폭되는 것을 방지하기 위해, CDR의 5'-측의 프레임 워크 서열은 pUC57 작제물로부터 수득하고, 3'-측 프레임 워크는 pFcF 작제물로부터 수득하였다. 증폭된 CDR을 중첩 연장 PCR(overlap extension PCR)에 의해 증폭된 주형 scFv 서열에 삽입하고(표 3), 생성물을 pComb3X 파지미드 벡터에 연결시켰다. 이것은 단일 CDR 라이브러리 (H1, H2, L1, L2, L3, K1, K2, K3)를 생성하기 위해 TG1 E.coli로 트랜스폼되었다(도 10b). CDR-H3의 경우, 단일-CDR 라이브러리를 각 길이 별로(9 내지 16 개 아미노산) 생성하였다. 합성된 CDR-H3 올리고 뉴클레오타이드를 PCR에 의해 증폭시키고 폴리아크릴아마이드 겔을 이용하여 상이한 길이의 올리고 뉴클레오타이드를 분리하였다. 분리된 DNA를 폴리아크릴아마이드 겔에서 회수하고, 주형 scFv 프레임 워크와 결합하여 단일 CDR-H3 라이브러리 (VH3VL1/VH3VK3-H3 #1 ~ #8)를 만들었다 (도 10a). 상기 단일 라이브러리는 ~ 10⁶개의 클론을 갖는 다양한 중쇄 CDR, 10⁷ 내지 10⁸개의 클론을 갖는 다양한 카파/경쇄 CDR을 포함하고, CDR-H3 라이브러리는 10⁸개의 클론으로 구성되었다. 이러한 상기 단일 CDR 라이브러리는 단백질 A 또는 단백질 L에 대해 1회 라운드의 패닝(2회의 패닝 라운드를 거친 H2 및 L2 단일 CDR 라이브러리는 제외)이 적용되었다 (표 4). 단백질 A는 중쇄의 Fc 영역 및 인간 VH3 패밀리의 가변 도메인에 결합하는 것으로 잘 알려져 있으며, 단백질 A와 달리 단백질 L은 경쇄 상호 작용을 통해 항체에 결합하며, 카파 경쇄를 포함하는 항체로 제한된다. 따라서, 단백질 A 및 단백질 L을 사용하여 DP47-DPL3 (VH3VL1) 및 DP47-DPK22 (VH3VK3) 프레임 워크를 갖는 생산적인 scFv 서열을 각각 선택하였다.

다음으로, 단일-CDR 라이브러리로부터의 교정된 CDR 서열을 PCR 증폭을 위한 주형으로 사용하였다 (표 5). 증폭된 CDR은 OE-PCR에 의해 VH 및 VL/VK로 조립되었다 (표 6). 가변 도메인을 일련의 OE-PCR에 의해 6개의 다양한 CDR을 갖는 scFv 레퍼토리에 추가로 조립하고 (표 6), 그리고 제한효소 SfiI로 절단된 scFv DNA 단편을 SfiI로 절단된 pCom3x 파지미드 벡터에 연결시켰다(도 10c). 연결된 DNA를 전기천공법을 이용하여 TG1 E. coli 균주로 형질전환시켰다. VH3VL1 및 VH3VK3 스카폴드에 대해 서로 다른 CDR-H3 길이(9 ~ 16)를 갖는 8개의 서브 라이브러리를 생성하였다(각각 VH3VL1 #1 ~ #8 및 VH3VK3 #1 ~ #8). 상기 서브-라이브러리는 파지 구조(rescue) 및 패닝 실험을 위해 2개의 라이브러리 (DPL3 람다 경쇄를 갖는 OPALT-λ 및 DPK22 카파 경쇄를 갖는 OPALT-κ)로 합쳐졌다. 따라서, 총 다양성 1.1x10¹⁰ (OPALT-λ) 및 3.4x10⁹ (OPALT-κ) 개별 클론을 갖는 최종 scFv 라이브러리를 수득하였다.

2-5: 단일 CDR 라이브러리의 교열(proofreading) 패닝 후 증가된 인-프레임(in-frame) CDR 서열의 비율 확인

상기한 바와 같이, 항체 라이브러리 구축 과정에서 비 기능적 CDR 서열을 제거하기 위해, 단백질 A 또는 단백질 L에 대한 단일-CDR 라이브러리의 1회 또는 2회의 패닝 라운드를 수행하였다. 다음으로, 상기 패닝 후 결과물을 확인하기 위한 방법으로 도트-블롯 어세이를 수행하였으며, 이를 위해 패닝 선택 전후에 단일-CDR 라이브러리로부터의 랜덤 scFv 클론의 페리플라즘 추출물을 니트로 셀룰로오스 막 상에 블롯팅하였고, 추출물에 용해성으로 발현된 scFv의 존재는 항-HA-HRP 2차 항체에 결합하는 방식으로 검출하였다. 그 결과, 패닝 전 용해성으로 발현된 scFv 클론의 비율은 23-86%였으며, 이는 교열 패닝 후 82-100 %로 증가하였다 (도 11).

상기 결과를 토대로, 어레이 합성은 상당한 수의 뉴클레오타이드 삽입 및 결실을 도입하여, 프레임시프트 및 비-기능성 CDR을 초래한 것을 알 수 있으며, 교열 패닝 과정을 통해 이러한 서열을 대부분을 제거할 수 있음을 알 수 있다.

최종 scFv 레퍼토리를 조립하고 대장균에 형질전환 시킨 후, 최종 scFv 라이브러리 OPALT-λ 및 OPALT-κ를 구성하는 서브-라이브러리는 용해성으로 발현된 scFv 클론의 각각 약 ~50 % 및 40 %를 나타냈다. (도 12).

실험예 3: 신규 항체 라이브러리(OPALT)의 기능성 확인

3-1: 항원-특이적 항체 생성 확인

상기 실험예 2를 통해 구축한 개량된 신규 항체 라이브러리(OPALT)의 기능을 검증하기 위해, 본 발명에서 제작한 라이브러리인 OPALT와 이전의 제작한 라이브러리 중 하나인 OPALS를 비교하였다. 구체적으로, 상기 라이브러리들을 모델 항원으로 자주 사용되는 다양한 항원들을 포함한 다양한 항원을 이용하여 패닝하였다. 사용된 항원의 종류는 하기와 같다: C 말단에 폴리히스티딘 태그를 갖는 미공개 항원인 Ag1; CARS (Cysteinyl-tRNA synthetase); 혈장 세포에서 고도로 발현되는 BCMA(B cell maturation agent); B 세포의 표면 상에 발현된 140 kDa 단일-스패닝 막 당단백질 CD22; 신경 염증 과정에 관여하는 세포 표면 단백질 및 접착 분자 hNinj1(nerve injury-induced protein 1); 종양 세포에서 단백질 분해 절단 후 염증 반응을 자극하는 AIMP1[ARS (aminoacyl-tRNA synthetase)-interacting multifunctional protein]; 및 SerRS (Seryl-tRNA synthetase).

항원-특이적 scFv 클론은 최대 4 라운드의 패닝 후 라이브러리로부터 선택되었다. 제3 또는 제4 라운드 패닝 결과로부터의 콜로니를 ELISA로 스크리닝하고, 양성 신호를 보이는 일부 콜로니에 대해 서열을 분석하였다 (표 11, 표 12). 그 결과, Ag1에 대한 패닝에서, OPALS-λ 및 OPALS-κ에서 양성으로 스크리닝된 클론은 각각 4% (4/94) 및 2% (2/94)였으나, 반면, OPALT-λ 및 OPALT-κ는 각각 11 % (10/94) 및 26 % (24/94) 양성 클론을 각각 수득하였으며, 시퀀싱된 클론의 대다수는 고유한 것을 확인하였다. 또한, BCMA, CD22 및 hNinj1의 경우, 이들 항원에 대해 OPALS에서는 상대적으로 적은 ELISA 양성 클론이 분리되었지만 OPALT-λ로 패닝한 후 각각 90개 (96 %), 92개 (98 %) 및 94개 (100 %)의 양성 클론이 스크리닝 되었다(표 12).

각 항원에 대한 2종의 라이브러리의 4 라운드 패닝 및 스크리닝 결과
	항원	라이브러리	ELISA 양성 /스크리닝	고유 시퀀스 /전체 시퀀스
4 ^th 라운드	Ag1	OPALT-λ	10/94	7/7
		OPALT-κ	24/94	6/9
		OPALS-λ	4/94	1/1
		OPALS-κ	2/94	2/2
	CARS	OPALT-λ	92/94	8/8
		OPALT-κ	91/94	2/10
		OPALS-λ	94/94	3/8
		OPALS-κ	89/94	5/9
	hNinj1	OPALT-λ	94/94	2/6
		OPALT-κ	93/94	n.d
		OPALS-λ	8/94	2/3
		OPALS-κ	n.d	n.d
	BCMA	OPALT-λ	90/94	5/11
		OPALT-κ	n.d	n.d
		OPALS-λ	1/47	1/1
		OPALS-κ	2/47	2/2
	CD22	OPALT-λ	92/94	3/8
		OPALT-κ	n.d	n.d
		OPALS-λ	27/94	2/8
		OPALS-κ	12/94	2/6
	SerRS	OPALT-λ	80/94	4/5
	SerRS	OPALS	16/94	3/14
	AIMP1	OPALT-λ	86/94	5/5
	AIMP1	OPALS	66/94	5/8

CARS에 대한 패닝은 상기 2종의 라이브러리 사이에 유의한 차이 없이 높은 비율의 양성 클론을 생성하였고, 제3 라운드 패닝으로부터도 높은 비율의 양성 클론이 수득되었다. 또한, OPALT-λ의 4번째 패닝 라운드에서 시퀀싱된 클론은 모두 고유한 반면 (8/8), 다른 라이브러리의 경우 4번째 라운드에서 고유한 클론의 비율이 다소 감소되었다. 상기 결과는 파지 디스플레이 패닝에 의해 효율적으로 농축될 것으로 예상되는 CDR-H3 서열의 기계 학습-기반 설계로 인해, OPALT의 scFv 클론이 패닝 동안 보다 고르게 농축될 수 있음을 시사한다. 또한, CARS에 추가하여, Ag1 및 hNinj1의 3차 라운드 패닝 결과를 ELISA로 스크리닝하였고, 충분한 수의 양성 클론 고유 서열이 두 라이브러리로부터 수득되었다(표 13).

각 항원에 대한 2종의 라이브러리의 3 라운드 패닝 및 스크리닝 결과
	항원	라이브러리	ELISA 양성 /스크리닝	고유 시퀀스 /전체 시퀀스
3 ^rd 라운드	Ag1	OPALT-λ	19/94	10/13
		OPALT-κ	48/94	4/8
		OPALS-λ	5/94	3/3
		OPALS-κ	16/94	11/13
	CARS	OPALT-λ	91/93	7/8
		OPALT-κ	91/94	3/8
		OPALS-λ	91/94	5/10
		OPALS-κ	46/94	10/12
	hNinj1	OPALT-λ	52/94	4/6
		OPALT-κ	91/94	2/5
		OPALS-λ	4/94	1/4
		OPALS-κ	66/94	3/7

SerRS 및 AIMP1은 이전 라이브러리를 검증하는 동안 OPALS (λ + κ)로 패닝되었다. 비록, OPALS 라이브러리를 비교할 때 고유 서열의 수에는 유의미한 차이가 없었지만, OPALT는 ELISA-양성 클론의 수에서 우수했다.

3-2: CDR-H3의 길이별 발현 빈도 확인

OPALT의 CDR-H3는 9 내지 16 개 아미노산의 길이를 갖도록 설계되었으며, OPALS와 달리, OPALT의 CDR-H3에 대한 합성된 올리고뉴클레오티드 풀은 라이브러리 구축 전에 길이 별로 분리하였다. 패닝으로부터 수득된 서열에서 상이한 길이를 갖는 CDR-H3의 출현 빈도를 분석하였다 (도 13). 이전의 항체 라이브러리(OPALS)에서 관찰된 바 대로, 짧은 CDR-H3을 갖는 scFv는 OPALT로부터 선택된 결합제에서도 더 많이 나타났지만, 14 및 15 개 아미노산의 긴 CDR-H3가 약 15 %의 빈도로 관찰되었다. 상기 결과는 길이에 따라 사전에 분리하지 않고 다른 길이의 CDR-H3가 모두 통합된 OPALS에 비해 개선된 것으로 보이며, 합성 중 오류 및 보다 짧은 CDR-H3의 보다 효율적인 농축이 긴 CDR-H3 서열의 선택에 불리하게 작용하였을 수 있다.

3-3: OPALT 유래 클론의 친화도(affinity) 확인

OPALT에서 분리된 ELISA 양성 scFv 클론 중 일부는 SPR(surface plasmon resonance)로 분석하여 결합 동력학(binding kinetics)을 확인하였다(도 14 및 표 14). 구체적으로, 5개의 상이한 항원에 대한 총 13개의 E.coli 숙주 세포로부터 정제된 scFv 항체를 Biacore 3000 기기로 분석하였다. 상기 13종의 scFv 항체의 경우, 20 내지 360 nM 범위의 해리 상수(K_D)를 갖는 것이 확인되었다(평균 K_D = 84 nM).

OPALT로부터 선택된 표적-특이적 scFv 클론의 결합 동력학(by SPR)
항원-클론	k _on (M ^-1 s ^-1 )	k _off (s ^-1 )	K _D (M)
CARS-B6	1.0 x 10⁵	4.2 x 10^-3	4.1 x 10^-8
CARS-D7	1.6 x 10⁴	2.2 x 10^-3	1.3 x 10^-7
CARS-D11	2.8 x 10⁴	2.3 x 10^-3	8.2 x 10^-8
CARS-F4	3.6 x 10⁴	3.7 x 10^-3	1.1 x 10^-7
BCMA-A3	8.7 x 10⁴	2.6 x 10^-3	3.0 x 10^-8
BCMA-B5	7.5 x 10⁴	2.7 x 10^-3	3.7 x 10^-8
BCMA-D11	2.4 x 10⁴	1.9 x 10^-3	7.6 x 10^-8
AIMP1-C6	5.4 x 10⁴	1.5 x 10^-3	2.8 x 10^-8
AIMP1-D4	3.2 x 10⁴	2.5 x 10^-3	7.6 x 10^-8
AIMP1-E7	1.8 x10⁴	2.0 x 10^-3	1.1 x 10^-7
SerRS-D6	5.8 x 10⁴	1.1 x 10^-3	2.0 x 10^-8
SerRS-F4	1.5 x 10⁵	4.0 x 10^-3	2.7 x 10^-8
CD22-D1	1.4 x10⁴	6.2 x 10^-4	4.5 x 10^-8

또한, OPALT로부터 대부분의 분리된 항체는 중간 내지 높은 결합 친화도를 가지는 것이 확인되었으며, 2개의 다른 ELISA-양성 scFv는 SPR 분석 포맷에서 결합 활성을 나타내지 않았다. 분석된 클론 중에서 10^-9M 이하의 K_D 값을 갖는 항체는 발견되지 않았지만, 이들 값은 비-조합성 CDR 설계 접근법이 유효함을 한번 더 검증하였다. 결합속도상수(association rates, k_on)는 대부분 10⁴M^-1s^-1 범위에 있었고, 해리속도상수 (dissociation rates, k_off)는 10^-3 s^-1범위에 있었으며, 이는 전형적인 단일 클론 항체에 대한 예상값 내에 있는 것으로 보인다. 전체적으로, 여러 항원에 대해 패닝한 후, OPALT는 여러 개의 나노 몰 범위의 K_D 값을 가진 표적-특이적 클론을 생산할 수 있으며, 이는 유사하거나 더 큰 크기를 갖는 다른 파지 항체 라이브러리 또는 면역화된 동물로부터 수득한 단일 클론 항체에 필적하는 것을 확인하였다.

전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.

<110> Ewha University - Industry Collaboration Foundation <120> A novel method for generating an antibody library and the generated library therefrom <130> DP20200321KR <160> 71 <170> KoPatentIn 3.0 <210> 1 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> VH3-1-f <400> 1 ctccggattc actttcagc 19 <210> 2 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VH3-1-b <400> 2 ttacctggtg cctgtctg 18 <210> 3 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VH3-2-f <400> 3 ggactggagt gggtctct 18 <210> 4 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VH3-2-b <400> 4 gcgtgagatg gtgaagcg 18 <210> 5 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> lib-cdr-f <400> 5 gtcagtcacg ctctaagg 18 <210> 6 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> lib-cdr-b <400> 6 ctgagtcgat gacctacg 18 <210> 7 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> VH-3-f <400> 7 cactgccgtg tattactgc 19 <210> 8 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VH-3-b <400> 8 cagagtacct tgtcccca 18 <210> 9 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VL-1-f <400> 9 cgcgtcacca tcagctgc 18 <210> 10 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> VL-1-b <400> 10 ctgggagttg ctgatacca 19 <210> 11 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> VL-2-f <400> 11 ctcctaagct cctgatttac 20 <210> 12 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VL-2-b <400> 12 aaagcgatca ggcacacc 18 <210> 13 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> VL-3-f <400> 13 cgaggctgac tattactgc 19 <210> 14 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VL-3-b <400> 14 agtttggtcc caccgccg 18 <210> 15 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VK-1-f <400> 15 cgcgcaactc tgtcttgt 18 <210> 16 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> VK-1-b <400> 16 ccaggtttct gttggtacca 20 <210> 17 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VK-2-f <400> 17 ccacgcctgc tcatctat 18 <210> 18 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VK-2-b <400> 18 gaacctgtct gggatgcc 18 <210> 19 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> VK-3-f <400> 19 gacttcgcag tttactattg t 21 <210> 20 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VK-3-b <400> 20 accttcgttc cctgacca 18 <210> 21 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> pUC57-b <400> 21 ttcgccattc aggctgcg 18 <210> 22 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> VH3-1-f-rc <400> 22 gctgaaagtg aatccggag 19 <210> 23 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VH3-2-f-rc <400> 23 agagacccac tccagtcc 18 <210> 24 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> VH-3-rc-F <400> 24 gcagtaatac acggcagtg 19 <210> 25 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VL-1-f-rc <400> 25 gcagctgatg gtgacgcg 18 <210> 26 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> VL-2-f-rc <400> 26 gtaaatcagg agcttaggag 20 <210> 27 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> VL-3-f-rc <400> 27 gcagtaatag tcagcctcg 19 <210> 28 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VK-1-f-rc <400> 28 acaagacaga gttgcgcg 18 <210> 29 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VK-2-f-rc <400> 29 atagatgagc aggcgtgg 18 <210> 30 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> VK-3-f-rc <400> 30 acaatagtaa actgcgaagt c 21 <210> 31 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> hCH2-b <400> 31 cttgacctca gggtcttc 18 <210> 32 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VH3-1-b-rc <400> 32 cagacaggca ccaggtaa 18 <210> 33 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VH3-2-b-rc <400> 33 cgcttcacca tctcacgc 18 <210> 34 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VH-3-rc-B <400> 34 tggggacaag gtactctg 18 <210> 35 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> VL-1-b-rc <400> 35 tggtatcagc aactcccag 19 <210> 36 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VL-2-b-rc <400> 36 ggtgtgcctg atcgcttt 18 <210> 37 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VL-3-b-rc <400> 37 cggcggtggg accaaact 18 <210> 38 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> VK-1-b-rc <400> 38 tggtaccaac agaaacctgg 20 <210> 39 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VK-2-b-rc <400> 39 ggcatcccag acaggttc 18 <210> 40 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VK-3-b-rc <400> 40 tggtcaggga acgaaggt 18 <210> 41 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> pUC57-in-b <400> 41 ggatgtgctg caaggcga 18 <210> 42 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> hCH2-in-b <400> 42 ccaggagttc aggtgctg 18 <210> 43 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> pC3x-f <400> 43 gcacgacagg tttcccgac 19 <210> 44 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VH3-1-b <400> 44 ttacctggtg cctgtctg 18 <210> 45 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VH3-1-b-rc <400> 45 cagacaggca ccaggtaa 18 <210> 46 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VH3-2-b <400> 46 gcgtgagatg gtgaagcg 18 <210> 47 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VH3-2-b-rc <400> 47 cgcttcacca tctcacgc 18 <210> 48 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VH-3-b <400> 48 cagagtacct tgtcccca 18 <210> 49 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VH-3-rc-B <400> 49 tggggacaag gtactctg 18 <210> 50 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> VL-2-f-rc <400> 50 gtaaatcagg agcttaggag 20 <210> 51 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> VL-2-f <400> 51 ctcctaagct cctgatttac 20 <210> 52 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> VL-3-f-rc <400> 52 gcagtaatag tcagcctcg 19 <210> 53 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> VL-3-f <400> 53 cgaggctgac tattactgc 19 <210> 54 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> pC3x-b <400> 54 aaccatcgat agcagcaccg 20 <210> 55 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VH-3-rc-B <400> 55 tggggacaag gtactctg 18 <210> 56 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VK-2-f-rc <400> 56 atagatgagc aggcgtgg 18 <210> 57 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VK-2-f <400> 57 ccacgcctgc tcatctat 18 <210> 58 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> VK-3-f-rc <400> 58 acaatagtaa actgcgaagt c 21 <210> 59 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> VK-3-f <400> 59 gacttcgcag tttactattg t 21 <210> 60 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> pC3x-b <400> 60 aaccatcgat agcagcaccg 20 <210> 61 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> pC3x-f <400> 61 gcacgacagg tttcccgac 19 <210> 62 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VH-3-b <400> 62 cagagtacct tgtcccca 18 <210> 63 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VH-3-rc-B <400> 63 tggggacaag gtactctg 18 <210> 64 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> pC3x-b <400> 64 aaccatcgat agcagcaccg 20 <210> 65 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> VH-3-rc-B <400> 65 tggggacaag gtactctg 18 <210> 66 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> pC3x-b <400> 66 aaccatcgat agcagcaccg 20 <210> 67 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> pC3x-f <400> 67 gcacgacagg tttcccgac 19 <210> 68 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> pC3x-b <400> 68 aaccatcgat agcagcaccg 20 <210> 69 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> omp seq <400> 69 aagacagcta tcgcgattgc ag 22 <210> 70 <211> 211 <212> PRT <213> Artificial Sequence <220> <223> (IGHV3-23)-linker-(IGKV3-20) <400> 70 Glu Val Gln Leu Leu Glu Ser Gly Gly Gly Leu Val Gln Pro Gly Gly 1 5 10 15 Ser Leu Arg Leu Ser Cys Ala Ala Ser Gly Phe Thr Phe Ser Xaa Xaa 20 25 30 Xaa Xaa Xaa Trp Val Arg Gln Ala Pro Gly Lys Gly Leu Glu Trp Val 35 40 45 Xaa Xaa Xaa Xaa Xaa Arg Phe Thr Ile Ser Arg Asp Asn Ser Lys Asn 50 55 60 Thr Leu Tyr Leu Gln Met Asn Ser Leu Arg Ala Glu Asp Thr Ala Val 65 70 75 80 Tyr Tyr Cys Ala Lys Xaa Xaa Xaa Xaa Xaa Trp Gly Gln Gly Thr Leu 85 90 95 Val Thr Val Ser Ser Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly 100 105 110 Gly Gly Gly Ser Glu Ile Val Leu Thr Gln Ser Pro Gly Thr Leu Ser 115 120 125 Leu Ser Pro Gly Glu Arg Ala Thr Leu Ser Cys Xaa Xaa Xaa Xaa Xaa 130 135 140 Trp Tyr Gln Gln Lys Pro Gly Gln Ala Pro Arg Leu Leu Ile Tyr Xaa 145 150 155 160 Xaa Xaa Xaa Xaa Gly Ile Pro Asp Arg Phe Ser Gly Ser Gly Ser Gly 165 170 175 Thr Asp Phe Thr Leu Thr Ile Ser Arg Leu Glu Pro Glu Asp Phe Ala 180 185 190 Val Tyr Tyr Cys Xaa Xaa Xaa Xaa Xaa Phe Gly Gln Gly Thr Lys Val 195 200 205 Glu Ile Lys 210 <210> 71 <211> 210 <212> PRT <213> Artificial Sequence <220> <223> (IGHV3-23)-linker-(IGLV1-47) <400> 71 Glu Val Gln Leu Leu Glu Ser Gly Gly Gly Leu Val Gln Pro Gly Gly 1 5 10 15 Ser Leu Arg Leu Ser Cys Ala Ala Ser Gly Phe Thr Phe Ser Xaa Xaa 20 25 30 Xaa Xaa Xaa Trp Val Arg Gln Ala Pro Gly Lys Gly Leu Glu Trp Val 35 40 45 Xaa Xaa Xaa Xaa Xaa Arg Phe Thr Ile Ser Arg Asp Asn Ser Lys Asn 50 55 60 Thr Leu Tyr Leu Gln Met Asn Ser Leu Arg Ala Glu Asp Thr Ala Val 65 70 75 80 Tyr Tyr Cys Ala Lys Xaa Xaa Xaa Xaa Xaa Trp Gly Gln Gly Thr Leu 85 90 95 Val Thr Val Ser Ser Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly 100 105 110 Gly Gly Gly Ser Gln Ser Val Leu Thr Gln Pro Pro Ser Ala Ser Gly 115 120 125 Thr Pro Gly Gln Arg Val Thr Ile Ser Cys Xaa Xaa Xaa Xaa Xaa Trp 130 135 140 Tyr Gln Gln Leu Pro Gly Thr Ala Pro Lys Leu Leu Ile Tyr Xaa Xaa 145 150 155 160 Xaa Xaa Xaa Gly Val Pro Asp Arg Phe Ser Gly Ser Lys Ser Gly Thr 165 170 175 Ser Ala Ser Leu Ala Ile Ser Gly Leu Arg Ser Glu Asp Glu Ala Asp 180 185 190 Tyr Tyr Cys Xaa Xaa Xaa Xaa Xaa Phe Gly Gly Gly Thr Lys Leu Thr 195 200 205 Val Leu 210

Claims

항체의 상보성 결정부위(Complementarity Determining Regions, CDRs) 서열을 개별적으로 설계하는 것; 및
상기 설계한 서열을 가지는 상보성 결정부위들을 포함하는 항체를 합성하여 라이브러리를 제조하는 것을 포함하는, 항체 라이브러리를 제작하는 방법으로서,
상기 상보성 결정부위 서열의 개별적인 설계 시, 중쇄 상보성 결정부위 3(CDR-H3)는 후보 CDR-H3 서열의 농축 점수(enrichment score)를 이용하여 항체 라이브러리 패닝 시의 증폭 효율이 최적화된 서열을 설계하는 것이고,
상기 농축 점수는 하기의 수학식 1의 공식을 이용하여 계산하는 것인,
항체 라이브러리를 제작하는 방법.
[수학식 1]

[N_pre: 패닝 전 하나 이상의 후보 CDR-H3 서열을 포함하는 라이브러리의 총 NGS 리드(read) 수, N_post:패닝 후 상기 라이브러리의 총 NGS 리드(read) 수, n_i·pre: 패닝 전 상기 라이브러리 내의 특정 CDR-H3 서열 i 의 리드 수, n_i·post: 패닝 후 상기 라이브러리 내의 특정 CDR-H3 서열 i 의 리드 수, n_pre: 패닝 전 상기 라이브러리 내의 개별 CDR-H3 서열들의 리드 수들의 집합, n_post: 패닝 후 상기 라이브러리 내의 개별 CDR-H3 서열들의 리드 수들의 집합, median(n_pre): 상기 n_pre의 중앙값, median(n_post): 상기 n_post의 중앙값]
제1항에 있어서,
상기 농축 점수는 기계 학습 모델을 통해 예측하는 것으로서,
상기 기계 학습 모델은
a) 하나 이상의 CDR-H3 서열을 입력값으로 설정하고
b) 상기 서열의 패닝 전후 상대 빈도를 측정하여 계산한 농축 점수(enrichment score)를 결과값으로 설정하여 학습시킨 것이며,
상기 서열의 패닝 전후 상대 빈도는 차세대 염기서열 분석을 통해 분석한 하나의 핵산 조각을 의미하는 리드(Read)의 수에 의하여 측정되는 것인,
항체 라이브러리를 제작하는 방법.
삭제
제1항에 있어서,
상기 농축 점수를 이용하여 최적화된 서열을 설계하는 것은, 후보 CDR-H3 서열의 농축 점수를 계산하거나 예측하여, 농축 점수가 0 초과로 계산되거나 예측된 후보 CDR-H3 서열을 선정하는 것인, 항체 라이브러리를 제작하는 방법.
제1항에 있어서,
상기 상보성 결정부위 서열의 개별적인 설계 시, CDR-H2의 경우 VH1, VH4 또는 VH5 패밀리에서 유래된 서열은 제외하는 것인, 항체 라이브러리를 제작하는 방법.
제1항에 있어서,
상기 항체 라이브러리를 구성하는 항체의 상보성 결정부위를 이루는 중쇄 상보성 결정부위 1(CDR-H1), 중쇄 상보성 결정부위 2(CDR-H2), 중쇄 상보성 결정부위 3(CDR-H3), 경쇄 상보성 결정부위 1(CDRL1), 경쇄 상보성 결정부위 2(CDR-L2) 및 경쇄 상보성 결정부위 3(CDR-L3)은 다양성(polymorphism)을 가지는 것인, 항체 라이브러리를 제작하는 방법.
제1항에 있어서,
상기 상보성 결정부위 서열의 개별적인 설계 시, CDR-H1, CDR-H2, CDR-L1 또는 CDR-L2에 대하여 실제 인간유래 숙성 항체의 상보성 결정부위의 i) 생식계열(germline) 면역글로불린 유전자 사용빈도, ii) 각 아미노산 위치별로 체세포 초돌연변이에 의한 각 20종의 아미노산으로의 변이 빈도, iii) 상보성 결정부위 서열의 길이별 빈도 또는 iv) 이들의 조합을 분석하여 계산된 각 아미노산 위치별 빈도를 반영하여 모사한 서열을 설계하는 것인,
항체 라이브러리를 제작하는 방법.
제1항에 있어서,
상기 상보성 결정부위 서열의 개별적인 설계 시, CDR-L3에 대하여
a) 상기 상보성 결정부위의 N 말단으로부터 7개 내지 8개의 아미노산 서열은 실제 인간유래 숙성 항체의 상보성 결정부위의 i) 생식계열(germline) 면역글로불린 유전자 사용빈도, ii) 각 아미노산 위치별로 체세포 초돌연변이에 의한 각 20종의 아미노산으로의 변이 빈도, iii) 상보성 결정부위 CDR-L3 서열의 길이별 빈도 또는 iv) 이들의 조합을 분석하여 계산된 각 아미노산 위치별 빈도를 반영하여 모사한 서열을 설계하고;
b) 상기 상보성 결정부위의 C 말단으로부터 2개 내지 3개의 아미노산 서열은 실제 인간유래 숙성 항체의 상보성 결정부위의 각 아미노산 위치별 빈도를 분석하여 계산된 빈도를 반영하여 모사한 서열을 설계하는 것이며;
상기 CDR-L3는 9개 내지 11개의 아미노산으로 이루어지고, 상기 빈도 분석은 각 길이별로 나누어 분석하며, 상기 CDR-L3 서열의 설계는 설계하고자 하는 CDR-L3의 길이와 동일한 아미노산 길이를 가지는 인간유래 숙성 항체의 상보성 결정부위 CDR-L3를 분석한 결과를 기반으로 설계하는 것인, 항체 라이브러리를 제작하는 방법.
제1항에 있어서,
상기 상보성 결정부위 서열 중 경쇄를 설계하는 경우에 해당 경쇄는 카파(kappa) 경쇄 또는 람다(lambda) 경쇄인 것인, 항체 라이브러리를 제작하는 방법.
제1항에 있어서,
상기 상보성 결정부위 서열의 개별적인 설계 시, CDR-H3에 대하여
a) 상기 상보성 결정부위의 C 말단으로부터 3개의 아미노산을 제외한 서열들은 실제 인간유래 숙성 항체의 상보성 결정부위의 각 아미노산 위치별 빈도를 반영하여 모사한 서열을 설계하고;
b) 상기 상보성 결정부위의 C 말단으로부터 3개의 아미노산 서열은 실제 인간유래 숙성 항체의 상보성 결정부위의 해당 위치의 3개 아미노산 서열의 빈도를 반영하여 모사한 서열을 설계하는 것이며;
상기 CDR-H3는 9개 내지 16개의 아미노산으로 이루어지고, 상기 빈도 분석은 각 길이별로 나누어 분석하며, 상기 CDR-H3 서열의 설계는 설계하고자 하는 CDR-H3의 길이와 동일한 아미노산 길이를 가지는 인간유래 숙성 항체의 상보성 결정부위 CDR-H3를 분석한 결과를 기반으로 설계하는 것인, 항체 라이브러리를 제작하는 방법.
제1항에 있어서,
상기 방법은 상기 상보성 결정부위 아미노산 서열을 설계한 후 설계된 서열에서 N-당화, 이성질체화, 탈아미드화, 절단, 산화가 일어날 수 있는 서열을 배제하는 것을 추가로 포함하는 것인, 항체 라이브러리를 제작하는 방법.
제1항에 있어서,
상기 방법은 상기 상보성 결정부위 아미노산 서열을 설계한 후, 설계된 서열을 탈면역화(deimmunization)시키는 것을 추가로 포함하는 것인, 항체 라이브러리를 제작하는 방법.
제1항에 있어서,
상기 상보성 결정부위 아미노산 서열을 설계한 후 설계한 서열을 폴리뉴클레오티드로 역번역한후, 역번역된 폴리뉴클레오티드 5' 및 3' 말단에 각각 해당하는 인간항체 생식계열(germline) 유전자의 가변영역 골격부위 서열을 연결한 올리고뉴클레오티드 서열을 설계하는 것을 추가로 포함하는 것인, 항체 라이브러리를 제작하는 방법.
제1항에 있어서,
상기 항체는 IGHV3-23 (VH3-23, Genebank accession No. Z12347), IGKV3-20 (VK3-A27, Genebank accession No. X93639), IGLV1-47 (VL1g, GenBank accession No. Z73663) 또는 이들의 단편으로부터 코딩되는 아미노산 서열을 포함하는 것인, 항체 라이브러리를 제작하는 방법.
제1항에 있어서,
상기 항체는 IgA, IgD, IgE, IgM, IgG, Fc 단편, Fab, Fab', F(ab')₂, scFv, 단일 가변도메인 항체 및 Fv로 이루어진 군에서 선택된 것인, 항체 라이브러리를 제작하는 방법.
삭제