KR20240054488A - 그래프 나선 신경망 및 양성 미분류 학습 기반 페로브스카이트 합성 가능성 예측 방법 - Google Patents

그래프 나선 신경망 및 양성 미분류 학습 기반 페로브스카이트 합성 가능성 예측 방법 Download PDF

Info

Publication number
KR20240054488A
KR20240054488A KR1020220134516A KR20220134516A KR20240054488A KR 20240054488 A KR20240054488 A KR 20240054488A KR 1020220134516 A KR1020220134516 A KR 1020220134516A KR 20220134516 A KR20220134516 A KR 20220134516A KR 20240054488 A KR20240054488 A KR 20240054488A
Authority
KR
South Korea
Prior art keywords
perovskite
synthesis
neural network
learning
convolutional neural
Prior art date
Application number
KR1020220134516A
Other languages
English (en)
Inventor
정유성
구근호
노주환
장지돈
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020220134516A priority Critical patent/KR20240054488A/ko
Publication of KR20240054488A publication Critical patent/KR20240054488A/ko

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/10Analysis or design of chemical reactions, syntheses or processes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Analytical Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Medicinal Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명의 일 실시예는 그래프 나선 신경망과 양성 데이터와 양성 미분류 데이터를 이용한 분류 모델 기반의 준 지도학습인 양성 미분류 학습을 기반으로 하여 페로브스카이트의 합성 가능성을 예측할 수 있도록 하는 그래프 나선 신경망 및 양성 미분류 학습 기반 페로브스카이트 합성 가능성 예측 방법을 제공한다.

Description

그래프 나선 신경망 및 양성 미분류 학습 기반 페로브스카이트 합성 가능성 예측 방법{Perovskite synthesizability prediction method using graph convolutional neural networks and positive unlabeled learning}
본 발명은 페로브스카이트 합성 가능성 예측에 관한 것으로서, 더욱 상세하게는, 그래프 나선 신경망과 양성 데이터와 양성 미분류 데이터를 이용한 분류 모델 기반의 준 지도학습인 양성 미분류 학습을 기반으로 하여 페로브스카이트의 합성 가능성을 예측할 수 있도록 하는 그래프 나선 신경망 및 양성 미분류 학습 기반 페로브스카이트 합성 가능성 예측 방법에 관한 것이다.
새로운 기능 재료의 발견은 재료 과학의 주요 목표이다. 전자 구조 계산의 발전과 디지털 결정 데이터베이스의 개발은 HTS(고 처리량 스크리닝, High Throughput Screening)를 통해 몇 가지 새로운 기능 재료의 성공적인 발견으로 이어졌다.
HTS는 일반적으로 이전에 합성된 재료의 DFT(밀도범함수이론, Density Functional Theory) 데이터 베이스 스크리닝으로 시작하여 높은 수준의 DFT 개선 및 실험적 검증을 시작하여 정확도와 비용이 증가하는 계층적 단계에서 수행된다. 범위를 확정하기 위해 MP(Materials Project7), OQMD 및 AFLOW와 같은 데이터베이스는 시뮬레이션(in silico)의 기저 상태 구조이지만 아직 실험적으로 합성되지 않은 많은 수의 미분류 결정을 수집하고 있다. 유망한 미분류 결정 중 일부는 실제로 합성되었으며, 새로운 재료를 발견하기 위한 가상 스크리닝 전략의 타당성을 보여준다.
대부분은 아니지만 많은 스크리닝 가상 재료가 실험적으로 실현되지 않았으므로, 합성 가능성을 평가하는 것이 중요한 과제였다. 일반적으로, 가상 재료의 합성 가능성은 컨벡스 헐(convex hull) 위의 에너지를 사용하여 평가된다.
그러나 잘 알려진 바와 같이 후자의 열역학적 측정법은 전구체 선택, 어닐링 온도 및 지속시간, 외부 압력 등의 합성 동역학 및 성장 조건이 크게 무시되기 때문에 합성 가능성을 평가하는 데 충분하지 않다. 따라서 후보 결정의 합성 가능성을 평가하는 일반화되고 보다 신뢰할 수 있는 방법이 요구된다.
또한, 페로브스카이트는 광전지, 발광 다이오드, 자성 재료, 초전도체 및 리튬 이온 전도체 등에 적용하기 위해 점점 더 많은 관심을 받고 있다. 이러한 페로브스카이트(perovskite)는 지구 물리학 및 기술적으로 중요한 응용 분야에서 중요한 재료 유형이나 합성 페로브스카이트의 수는 상대적으로 적다. 따라서 향상된 정확도로 페로브스카이트 중심 모델을 개발하여 효율적인 재료를 발견할 수 있도록 하는 방법이 요구된다.
대한민국 등록특허 제10-1919100호(2018. 11. 19. 공고)
따라서 상술한 종래기술의 문제점을 해결하기 위한 본 발명의 일 실시예는 그래프 나선 신경망(graph neural network)과 양성 데이터(합성 가능 데이터)와 양성 미분류 데이터(레이블이 없는 데이터(Positive-Unlabeled, PU))를 이용한 분류 모델 기반의 준 지도학습인 양성 미분류 학습(PU learning)을 기반으로 하여 페로브스카이트의 합성 가능성을 예측할 수 있도록 하는 그래프 나선 신경망 및 양성 미분류 학습 기반 페로브스카이트 합성 가능성 예측 방법을 제공하는 것을 해결하고자 하는 것을 기술적 과제로 한다.
본 발명이 이루고자 하는 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상술한 본 발명의 과제를 달성하기 위한 본 발명의 일 실시예는, 저장된 물질 데이터를 페로브스카이트 합성 가능성 점수를 산출하는 그래프 나선 신경망 모델에 입력하여 페로브스카이트 합성 가능성 예측을 위한 사전 학습을 수행하는 그래프 나선 신경망 모델 사전 학습 단계; 저장된 페로브스카이트 데이터를 상기 그래프 나선 신경망 모델에 입력하여 페로브스카이트 합성 가능성 예측을 위한 재학습을 수행하는 그래프 나선 신경망 모델 재학습 단계; 및 페로브스카이트의 데이터 세트 중 미분류 데이터를 랜덤하게 음성 데이터로 선택한 후 재학습된 상기 그래프 나선 신경망 모델에 적용하여 페로브스카이트 합성 가능성 점수를 산출하여 합성 가능을 예측하는 페로브스카이트 합성 가능성 예측 단계를 포함하여 구성되는 것을 특징으로 하는 그래프 나선 신경망 및 양성 미분류 학습 기반 페로브스카이트 합성 가능성 예측 방법을 제공한다.
상기 각 단계의 그래프 나선 신경망 모델은, 상기 물질 데이터와 페로브스카이트 데이터 각각의 원자 피처(Atom feature)와 에지 피처(edge feature)를 입력 값으로 입력받아 상기 물질 또는 페로브스카이트의 합성 가능성 점수를 산출하도록 구성될 수 있다.
상기 그래프 나선 신경망 모델 사전 학습 단계는, 상기 물질 데이터에 포함되는 합성 가능성이 결정되지 않은 미분류 물질 데이터를 랜덤하게 선택하여 합성 불가능을 나타내는 음성으로 설정한 후, 상기 그래프 나선 신경망 모델을 적용하여 합성 가능성 점수를 산출하는 것을 반복 수행하는 양성 미분류 학습에 의해 상기 그래프 나선 신경망 모델을 사전 학습시키는 단계일 수 있다.
상기 그래프 나선 신경망 모델 재학습 단계는, 상기 페로브스카이트 데이터에 포함되는 합성 가능성이 결정되지 않은 미분류 페로브스카이트 데이터를 랜덤하게 선택한 후 합성 불가능을 나타내는 음성으로 설정하여 상기 사전 학습된 그래프 나선 신경망 모델을 적용하여 합성 가능성 점수를 산출하는 것을 반복 수행하는 양성 미분류 학습에 의해 상기 그래프 나선 신경망 모델을 재학습시키는 단계일 수 있다.
상기 페로브스카이트 합성 가능성 예측 단계는, 페로브스카이트 데이터 세트 중 미분류 페로브스카이트 데이터를 랜덤하게 음성 데이터로 선택한 후 상기 재학습된 그래프 나선 신경망 모델에 입력하여 합성 가능성을 산출하는 것을 반복 수행하는 양성 미분류 학습을 수행하고, 상기 양성 미분류 학습에 의해 각각의 데이터 세트에서 산출된 각각의 페로브스카이트 데이터들에 대한 합성 가능성 점수를 평균하여 페로브스카이트의 합성 가능성을 예측하는 단계일 수 있다.
상기 페로브스카이트 합성 가능성 예측 단계는 예측된 페로브스카이트 합성 가능성 점수가 0.5 이상인 경우 합성 가능으로 예측할 수 있다.
본 발명의 다른 실시예는 상기 페로브스카이트 합성 가능성 예측 방법을 컴퓨터로 읽어 들여 실행되는 코드로 기록한 기록매체를 제공한다.
상술한 본 발명의 실시예는, 페로브스카이트의 합성 가능성에 예측에 있어서, 약 74.0%의 비 도메인 특정 원본 모델의 정확도와 비교하여 95.7%의 높은 샘플 외 긍정적 데이터 정확도를 보여주었다.
또한, 본 발명의 실시예는 종래기술의 이온성 페로브스카이트 중심 모델과 비교하여 음이온 및 양이온 점유가 반전되는 안티 페로브스카이트를 포함하여 데이터 세트의 모든 유형의 페로브스카이트의 합성 가능성을 예측할 수 있도록 하는 효과를 제공한다.
또한, 본 발명의 실시예는 고체 전해질 및 광활성 물질 발견을 위한 후보로서 각각 Li가 풍부한 안티 페로브스카이트 및 금속 할로겐화물을 유망한 것으로 예측하는 효과를 제공한다.
본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.
도 1은 본 발명의 일 실시예의 그래프 나선 신경망 및 양성 미분류 학습 기반 페로브스카이트 합성 가능성 예측 방법의 처리과정을 나타내는 순서도이다.
도 2는 본 발명의 일 실시예의 그래프 나선 신경망 및 양성 미분류 학습 기반 페로브스카이트 합성 방법의 학습 및 합성 가능성 예측 처리 개념을 나타내는 도면이다.
도 3은 본 발명의 일 실시예의 그래프 나선 신경망 및 양성 미분류 학습 기반 페로브스카이트 합성 방법의 (a) 정확도 및 (b) 산출된 합성 가능성 점수 분포를 나타내는 도면이다.
도 4는 본 발명의 일 실시예의 그래프 나선 신경망 및 양성 미분류 학습 기반 페로브스카이트 합성 방법을 검증을 위한 도면이다.
도 5는 본 발명의 일 실시예의 그래프 나선 신경망 및 양성 미분류 학습 기반 페로브스카이트 합성 방법(왼쪽 아래 삼각형) 및 골드슈미트 룰(Goldschmidt rule) 기반 스크리닝(오른쪽 위 삼각형)에 의해 예측된 ABO3 페로브스카이트 화합물의 합성 가능성을 나타내는 도면이다.
도 6은 보고된 미분류 페로브스카이트에 대한 본 발명의 실시예에 따른 예측 결과(a)와 다른 방법의 예측 결과(b, c, d)를 나타내는 그래프이다.
이하에서는 첨부한 도면을 참고하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결(접속, 접촉, 결합)"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 구비할 수 있다는 것을 의미한다.
본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하 첨부된 도면을 참고하여 본 발명의 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예의 그래프 나선 신경망 및 양성 미분류 학습 기반 페로브스카이트 합성 가능성 예측 방법(이하, “페로브스카이트 합성 가능성 예측 방법”)의 처리과정을 나타내는 순서도이다.
도 1과 같이 상기 페로브스카이트 합성 가능성 예측 방법은 그래프 나선 신경망 사전 학습 단계(S10), 그래프 나선 신경망 재학습 단계(S20) 및 페로브스카이트 합성 가능성 예측 단계(S30)를 포함하여 구성될 수 있다.
상기 그래프 나선 신경망 사전 학습 단계(S10)는 저장된 물질 데이터를 페로브스카이트 합성 가능성 점수를 산출하는 그래프 나선 신경망 모델에 입력하여 페로브스카이트 합성 가능성 예측을 위한 사전 학습을 수행하는 단계일 수 있다.
상기 그래프 나선 신경망 모델 사전 학습 단계(S10)는 상기 물질 데이터에 포함되는 합성 가능성이 결정되지 않은 미분류 물질 데이터를 랜덤하게 선택하여 합성 불가능을 나타내는 음성으로 설정한 후, 상기 그래프 나선 신경망 모델을 적용하여 합성 가능성 점수를 산출하는 것을 반복 수행하는 양성 미분류 학습(PU, Positive Unlabeled learning)에 의해 상기 그래프 나선 신경망 모델을 사전 학습시키는 단계일 수 있다.
상기 그래프 나선 신경망 재학습 단계(S20)는 저장된 페로브스카이트 데이터를 상기 그래프 나선 신경망 모델에 입력하여 페로브스카이트 합성 가능성 예측을 위한 재학습을 수행하는 단계일 수 있다.
상기 그래프 나선 신경망 모델 재학습 단계(S20)는 상기 페로브스카이트 데이터에 포함되는 합성 가능성이 결정되지 않은 미분류 페로브스카이트 데이터를 랜덤하게 선택한 후 합성 불가능을 나타내는 음성으로 설정하여 상기 사전 학습된 그래프 나선 신경망 모델을 적용하여 합성 가능성 점수를 산출하는 것을 반복 수행하는 양성 미분류 학습에 의해 상기 그래프 나선 신경망 모델을 재학습시키는 단계일 수 있다.
상기 및 페로브스카이트 합성 가능성 예측 단계(S30)는 페로브스카이트의 데이터 세트 중 미분류 데이터를 랜덤하게 음성 데이터로 선택한 후 재학습된 상기 그래프 나선 신경망 모델에 적용하여 페로브스카이트 합성 가능성 점수를 산출하여 합성 가능을 예측하는 단계일 수 있다.
상기 페로브스카이트 합성 가능성 예측 단계(S30)는 페로브스카이트 데이터 세트 중 미분류 페로브스카이트 데이터를 랜덤하게 음성 데이터로 선택한 후 상기 재학습된 그래프 나선 신경망 모델에 입력하여 합성 가능성을 산출하는 것을 반복 수행하는 양성 미분류 학습을 수행하고, 상기 양성 미분류 학습에 의해 각각의 데이터 세트에서 산출된 각각의 페로브스카이트 데이터들에 대한 합성 가능성 점수를 평균하여 페로브스카이트의 합성 가능성을 예측하는 단계일 수 있다.
상기 페로브스카이트 합성 가능성 예측 단계(S30)는 예측된 페로브스카이트 합성 가능성 점수가 0.5 이상인 경우 합성 가능으로 예측할 수 있다.
상기 각 단계(S10, S20 및 S30)의 그래프 나선 신경망 모델은, 상기 물질 데이터와 페로브스카이트 데이터 각각의 원자 피처(Atom feature)와 에지 피처(edge feature)를 입력 값으로 입력받아 상기 물질 또는 페로브스카이트의 합성 가능성 점수를 산출하도록 구성될 수 있다.
<실험예>
MP(Materials Project) 데이터베이스에 저장된 물질 데이터들로 그래프 나선 신경망 모델을 사전 학습시키고, MP, OQMD 및 AFLOW 데이터베이스에 저장된 더 작은 페로브스카이트 데이터 세트로 그래프 나선 신경망 모델을 다시 학습시켰다.
종래기술에서 합성된(양성) 943개의 페로브스카이트 결정과 MP, OQMD 및 AFLOW 데이터베이스에서 수집한 11,964개의 합성 가능성이 결정되지 않은 미분류(Unlabeled, 가상) 페로브스카이트 데이터를 학습에 사용하였다.
본 발명의 실시예의 그래프 나선 신경망 모델 및 양성 미분류 학습(Positive Unlabeled Learning)이 적용된 페로브스카이트 합성 가능성 예측 방법은 약 74.0%의 비 도메인 특정 원본 모델의 정확도와 비교하여 95.7%의 높은 샘플 외 양성 데이터 정확도를 보여준다.
본 발명의 페로브스카이트 합성 가능성 예측 방법은 11,964개의 미분류 페로브스카이트 중 962개의 물질을 합성 가능한 것으로 예측했다. 그 중 179개의 미분류 결정(가상 결정)이 실제로 문헌에서 합성되었다. 이전의 이온성 페로브스카이트 중심 모델과 비교하여 본 발명의 페로브스카이트 합성 가능성 예측 방법은 음이온 및 양이온 점유가 반전되는 안티 페로브스카이트를 포함하여 데이터 세트의 모든 유형의 페로브스카이트의 합성 가능성을 예측할 수 있었다. 본 발명의 페로브스카이트 합성 가능성 예측 방법은 고체 전해질 및 광활성 물질 발견을 위한 후보로서 각각 Li가 풍부한 안티 페로브스카이트 및 금속 할로겐화물을 유망한 신규 소재로 제안할 수 있었다.
도 2는 본 발명의 일 실시예의 그래프 나선 신경망 및 양성 미분류 학습 기반 페로브스카이트 합성 방법의 학습 및 합성 가능성 예측 처리 개념을 나타내는 도면이다.
도 2의 a는 전이학습 플로우이고, 도 2의 b는 양성 미분류 학습(PU 학습, Positive Unlabeled learning) 절차의 개요이며, 도 2의 c는 그래프 나선 신경망 아키텍처를 나타내고, 도 2의 d는 그래프 나선 신경망에 입력되는 원자 피처와 에지 피처의 수학적 변화 방법을 나타낸다.
도 2의 c에서 “dense” 박스는 선형 곱셈 다음에 소프트플러스(softplus) 활성화 계층을 나타낸다. “Linear” 박스는 선형 곱셈을 나타낸다. “dense” 또는 “linear” 옆에 있는 숫자는 출력 피처 차원을 나타낸다. 최소 풀(Min Pool)은 시그모이드 활성화(sigmoid activation)가 뒤따르는 최소 풀링을 나타낸다.
도 2의 a와 같이, 본 발명의 실시예의 페로브스카이트 합성 가능성 예측 방법은 MP(Materials Project) 데이터베이스로 학습되고 모델은 3개의 데이터베이스에서 추출된 페로브스카이트 전용 데이터로 다시 학습(재학습)된다.
구체적으로, 2020년 10월에 검색된 MP 데이터베이스의 무기 결정 데이터는 무기 결정 구조 데이터베이스(ICSD) id가 있는 46,546개의 결정과 ICSD id가 없는 79,789개의 결정으로 구성된다. ICSD id와 실험 태그가 있는 46,546개의 결정은 합성 가능하다. ICSD id가 없는 나머지 79,789개의 결정은 "미분류(가상)"로 합성 가능성이 결정되지 않은 것으로 간주했다. 이 MP 데이터는 모델을 사전 학습하는 데 사용된다.
그런 다음 2020년 10월 MP, OQMD 및 AFLOW 데이터베이스에서 페로브스카이트 결정을 검색했다(도 2a). pymatgen(Python Materials Genomics)의 구조 일치(Structure Matcher) 함수와 AFLOW 데이터베이스의 페로브스카이트 프로토타입 구조를 사용하여 중복 결정을 식별하고 제거하여 합성된 943개와 미분류 페로브스카이트 결정 11,964개를 생성했다. 생성된 페로브스카이트 데이터는 전이 모델을 학습하는 데 사용된다.
사전 학습과 전이 학습은 모두 귀납적 PU 학습(inductive PU learning)을 사용하여 수행된다. 그래프 나선 신경망 및 양성 미분류 학습 모델이 적용된 본 발명의 페로브스카이트 합성 가능성 예측 방법을 테스트하기 위해 사전 학습에 사용되는 MP 데이터와 전이 학습에 사용되는 페로브스카이트 데이터 모두에서 무작위로 샘플링된 합성 결정의 10%를 따로 설정한다. 따라서 사전 학습 단계에서 테스트 데이터가 관찰되지 않도록 한다. 나머지 데이터 세트로 PU 학습 절차를 수행한다. 여기에서 합성된 결정의 10%는 무작위로 샘플링되고 동일한 수의 미분류(가상) 결정은 모델 검증을 위해 무작위로 샘플링된다. 합성된 나머지 결정은 학습에 사용되며, 같은 수의 미분류 결정을 무작위로 샘플링하여 학습을 위한 음성(합성 불가능) 데이터로 처리한다.
이 과정을 100번 반복하여 100개 모델의 앙상블을 만든다.
본 발명의 특징은 각 모델에 대해 미분류 결정에 대한 학습 및 검증 세트가 변경되는 반면 합성 결정에 대한 학습 및 검증 세트는 고정된 상태로 유지된다는 것이다.
CL(crystal likeness) 점수라고 하는 합성 가능성 점수는 100개 모델의 예측을 평균하여 계산된다. 가상 데이터 세트를 변경하면 도 2b에 개념적으로 표시된 것처럼 평균 결정 경계를 형성한다. 상기 평균 결정 경계는 합성 가능한 양성 페로브스카이트 데이터와 미분류 및 음성 페로브스카이트 데이터를 분류하는 기준으로 적용될 수 있다.
페로브스카이트 합성 방법의 구현을 위해 도 2c와 같이 그래프 나선 신경망(GCNN, Graph Convolutional Neural Network) 모델을 구성했다.
그래프 나선 신경망 및 양성 미분류 학습 모델이 적용된 본 발명의 페로브스카이트 합성 가능성 예측 방법은 0과 1 사이의 CL 점수를 계산한다. 여기서 CL 점수가 높은 결정은 높은 합성 가능성을 나타낸다. 실용적인 스크리닝을 위해 결정 후보를 CL 점수의 내림차순으로 테스트하여 최고의 성공 기회를 얻을 수 있다. 특히 CL 점수를 0.5로 설정하여 참 양성률(TPR; 참 양성(true positive)/(참 양성(true positive) + 거짓 음성(false negative)))과 같은 매트릭스를 계산하고 결정을 합성 가능한 후보로 간주할 수 있도록 하였 다.
전이 학습을 수행하기 위해 먼저 MP 데이터베이스의 물질 데이터에 의해 그래프 나선 신경망 모델이 사전 학습되었다. 그런 다음 인코딩 계층과 첫 번째 그래픽 컨볼루션 계층의 모델 가중치를 고정하고 나머지 모델이 기 합성된 페로브스카이트 데이터에 의해 재학습되었다.
<문헌 실험을 기반으로 한 본 발명의 페로브스카이트 합성 가능성 방법의 정확도 및 검증>
도 3은 본 발명의 일 실시예의 그래프 나선 신경망 및 양성 미분류 학습 기반 페로브스카이트 합성 방법의 (a) 정확도 및 (b) 산출된 합성 가능성 점수 분포를 나타내는 도면이다.
도 3의 a는 본 발명의 실시예 및 종래의 페로브스카이트 합성 가능성 예측 모델에 의한 참양성률을 나타내는 그래프이다.
GCNN은 본 발명의 실시예의 그래프 나선 신경망 모델, BC는 이진 분류, PUL은 양성 미분류 학습(positive-unlabeled learning), DSL은 도메인 특정 학습(domain specific learning), TL은 전이학습(transfer learning)을 나타낸다. 양성 데이터(합성 가능 결정체)는 알려진 반면 음성 데이터(합성할 수 없는 결정체)는 알려져 있지 않기 때문에 진정한 양성 비율은 성능 측정으로 평가된다. 미분류 데이터(가상 결정)가 데이터베이스에서 사용 가능하므로 합성 가능성을 평가하기 위해 양성 미분류 학습이 구현된다.
도 3의 b는 산출된 합성 가능성 점수 분포로서 마름모 및 원 표시는 각각 표본 외 테스트 데이터와 모든 데이터를 나타낸다. 카운트는 가장 높은 피크 값으로 정규화된다.
도 3a와 같이 양성 테스트 페로브스카이트 데이터 세트를 사용하여 각각의 페로브스카이트 합성 방법을 평가하였다.
음성 데이터(합성 불가)를 사용할 수 없기 때문에 TPR에 중점을 두었다. MP 학습된 일반 합성 가능성 예측 모델과 비교하여 도메인 특정 전이 PU 학습(domain specific transfer positive unlabeled learning)은 페로브스카이트에 대해 상당히 높은 TPR을 가지며 0.740(도 3a의 GCNN + PUL)에서 0.957(도 3a의 GCNN + PUL + DSL + TL)로 증가했다.
비교를 위해 이전 연구에서 CGCNN(Crystal graph convolutional neural network) 모델을 테스트한 결과 일반 모델과 그래프신경망 도메인 특정 전이 PU 학습에 대해 각각 TPR이 0.595와 0.957임을 발견하였다.
페로브스카이트 화학 공간을 평가하기 위해 미분류 및 합성 결정(도 3b)에 대한 CL 점수 분포를 플로팅했다. 미분류 결정에 대한 점수는 CL 점수 0으로 치우쳐 있으며 미분류 페로브스카이트 11,964개 중 962개(구조 왜곡을 고려한 1121개)만이 합성 가능한 것으로 예측되었다. 도메인별 전이 학습이 산화물 중심 화학 공간의 정확도를 향상시킬 수 있음을 발견했다(0.837에서 0.930으로).
도 3b는 모든 데이터 및 샘플 외 테스트 데이터에 대한 CL 점수 분포를 보여주며, 이는 또한 미분류 결정이 일반적으로 합성할 수 없다고 예측됨을 보여준다.
본 발명의 실시예의 페로브스카이트 가능성 예측 방법의 검증을 위해 미분류된 모든 데이터가 음수로 레이블이 지정된 음성 데이터 세트를 사용하여 GCNN이 학습된 이진 분류 모델을 테스트하고 양성 데이터와 음성 데이터 수의 균형을 맞추기 위해 양성 데이터를 오버 샘플링 하였다. 여기에서 TPR은 MP 학습된 일반 모델과 전이 학습 모델에 대해 각각 0.361(도 3a의 GCNN + BC)과 0.691(도 3a의 GCNN + BC + DSL + TL)로 감소한다는 것을 발견했다. 이는 미분류 데이터의 양성 데이터가 음수로 잘못 지정되었기 때문일 수 있으므로 PU 학습에서 데이터 분할 방법이 중요함을 확인하였다. 또한 MP 데이터로 사전 학습 없이(즉, 전이 학습 없이) PU 학습 모델을 학습했으며 TPR이 0.947로 약간 감소함을 발견했다(도 3a의 GCNN + PUL + DSL). 따라서 모델 성공은 주로 도메인별 데이터 세트에 기인하며 전이 학습 체계는 TPR에 약간 기여한다.
이에 따라, 이하에서는 최상의 모델인 GCNN + PUL + DSL + TL이 적용된 본 발명의 일 실시예의 페로브스카이트 합성 가능성 방법에 의해 얻은 결과를 사용하여 설명한다.
도 4는 본 발명의 일 실시예의 그래프 나선 신경망 및 양성 미분류 학습 기반 페로브스카이트 합성 방법을 검증을 위한 도면이다.
<검증>
도 4의 a는 기 발표된 문헌에서 합성된 것으로 발견된 미분류 페로브스카이트의 비율을 나타내는 그래프이다.
미분류 페로브스카이트의 비율은 해당 범위 내에서 발견된 가상의 결정의 수에 대한 발견된 결정의 수를 나타낸다.
도 4의 b는 미분류 결정의 구조 및 기 발표된 문헌에서 보고된 상위 2개 페로브스카이트에 대한 실험 및 미분류 결정 간의 XRD 비교를 나타내는 도면이다.
도 4의 a는 CL 점수에 의해 발견된 미분류 결정의 백분율 플롯은, 예측된 CL 점수와 함께 이전 합성의 비율이 증가하는 흥미로운 경향을 보여준다.
도 4의 b는 가장 높은 합성 점수와 각각의 XRD 패턴을 가진 이전에 합성된 두 개의 미분류 페로브스카이트를 보여준다. 또한 CL 점수가 가장 낮은 1000개의 미분류 결정에 대한 문헌을 검색했지만 합성에 대한 이전 보고서를 찾을 수 없었다. 또한 결정이 불확실한 결정에 대한 모델의 성능을 평가하기 위해 0.4에서 0.5 사이의 CL 점수를 가진 결정에 대한 문헌을 검색했다. 이 결정에 대해 386개의 미분류 결정 중에서 이전에 합성된 결정 20개만 발견했다. 이는 합성 가능성 결정이 어려운 영역의 CL 점수 값을 나타낸다.
<공차 기반 모델과의 비교>
본 발명의 페로브스카이트 합성 가능성 예측 방법의 샘플 외 TPR을 두 가지 경험적 페로브스카이트 발견 전략, 즉 골드슈미트 룰(Goldschmidt rule) 기반 및 SISSO 기반 스크리닝과 비교한다.
Shannon의 표(Shannon, R. Revised effective ionic radii and systematic studies of interatomic distances in halides and chalcogenides. Acta Crystallogr. Sect. A 32, 751-767 (1976).)의 이온 반경을 평가하여 골드슈미트 공차 인자 기반 스크리닝을 사용했다. 이 스크리닝은 ABC3 공식에서 C 사이트의 요소가 7개의 음이온으로 제한되는 표준 이온 페로브스카이트에 초점을 맞췄다.
본 발명에 적용된 페로브스카이트 데이터에는 비고전적인 이온성 페로브스카이트가 포함되어 있기 때문에 합성된 페로브스카이트 943개 중 388개만이 스크리닝 범위 내에 있는 것으로 밝혀졌다.
388개의 페로브스카이트에 대해 Davies et al.의 방법(Computational screening of all stoichiometric inorganic materials. Chem 1, 617-627 (2016))을 사용하여 0.863의 TPR을 얻었다.
Bartel et al.은 산화 상태와 이온 반경을 사용하는 SISSSO 결정된 허용 오차 계수를 개발하고 사용했다(New tolerance factor to predict the stability of perovskite oxides and halides. Sci. Adv. 5, eaav0693 (2019)).
943개의 페로브스카이트 중 310개의 결정만이 원소 선택 범위 내에 있었지만 절차를 재현하여 TPR을 0.806으로 계산했다.
비교 결과 그래프 나선 신경망 및 양성 미분류 학습 모델이 적용된 본 발명의 페로브스카이트 합성 가능성 예측 방법의 샘플 외 TPR(0.957)은 고려된 실험적으로 합성된 페로브스카이트에 대한 이전 방법보다 훨씬 더 높았다(0.806-0.863).
도 5는 본 발명의 일 실시예의 그래프 나선 신경망 및 양성 미분류 학습 기반 페로브스카이트 합성 방법(왼쪽 아래 삼각형) 및 골드슈미트 룰(Goldschmidt rule) 기반 스크리닝(오른쪽 위 삼각형)에 의해 예측된 ABO3 페로브스카이트 화합물의 합성 가능성을 나타내는 도면이다.
왼쪽 아래 삼각형의 녹색은 주어진 조성을 가진 데이터베이스의 페로브스카이트 구조에 대한 최대 CL 점수를 나타낸다. 오른쪽 위 삼각형의 녹색은 스크리닝을 통과한 조합(combination)을 나타낸다. 파란색 상자는 조합이 이전에 합성되었음을 나타낸다. 빨간색 상자는 이전에 합성된 것으로 발견된 미분류 결정을 나타낸다.
또한 그래프 나선 신경망 및 양성 미분류 학습 모델이 적용된 본 발명의 페로브스카이트 합성 가능성 예측 방법은 확률을 예측하므로 가장 좋은 후보가 우선 순위를 지정할 수 있다.
도 6은 보고된 미분류 페로브스카이트에 대한 본 발명의 실시예에 따른 예측 결과(a)와 다른 방법의 예측 결과(b, c, d)를 나타내는 그래프이다.
도 6의 a는 본 발명의 실시예에 따른 페로브스카이트 합성 가능성 예측 방법에 따라 합성 가능성이 예측된 179개의 미분류 페로브스카이트에 대한 페로브스카이트 유형 분포를 나타낸다.
도 6의 b는 비 도메인 특이적 MP 학습된 일반 모델(도 2a의 GCNN+PUL)에 의해 예측된 페로브스카이트 합성 가능성 분포를 나타낸다.
도 6의 c 및 d는 SISSSO 기반 모델 및 골드슈미트 룰 기반 스크리닝을 사용하여 179개 화합물의 안정성 예측된 페로브스카이트 합성 가능성 분포를 나타낸다.
ABC3 페로브스카이트는 다음 기준에 따라 분류되었다.
고전적인 페로브스카이트는 A 및 B 사이트에 양이온을 포함하고 C 사이트에 음이온을 포함한다(예: SrTiO3).
안티 페로브스카이트는 B 사이트에 음이온, A 및 C 사이트에 양이온 포함한다(예: SnNFe3)),
공유 페로브스카이트는 둘 이상의 음이온(예: CsIO3, ClOLi3)을 포함하고 수소화물은 C 사이트에 수소(예: CaCsH3)를 포함한다.
본 발명의 페로브스카이트 합성 가능성 예측 방법은 기존의 이온성 페로브스카이트 외에도 합성된 것으로 발견된 179개의 미분류 페로브스카이트 내에서 비 전통적인 원소 조합을 발견했다. 이러한 유형은 결합에서 더 높은 공유 결합성을 갖는 둘 이상의 음이온(예: CsIO3, ClOLi3)을 포함하는 "공유" 페로브스카이트, 수소를 포함하는 수소화물 페로브스카이트(예: CaCsH3) 및 ABC3 조합에서 C 사이트 대신 B 사이트에 음이온을 포함하는 안티 페로브스카이트(예: SnNFe3)이다. 이 세 가지 유형의 조합에 대한 예측은 이전 모델이 할 수 없었던 그래프 나선 신경망 및 양성 미분류 학습 모델이 적용된 본 발명의 페로브스카이트 합성 가능성 예측 방법의 새로운 기능이다.
도 6의 c 및 d에서는 상당한 부분이 범위 밖 임이 관찰되었다. 또한 도 6의 b는 발견된 179개의 미분류 결정 중 비 도메인 특정 모델만이 101개의 안정적인 결정을 예측함을 보여 도메인 특정 학습의 가치를 보여준다.
페로브스카이트가 광범위하게 연구되었지만 도 6의 a는 아직 발견되지 않은 합성 가능한 원소 조합이 많이 남아 있음을 보여준다.
고전적인 이온성 페로브스카이트(고전 페로브스카이트)와 비교하여 안티 페로브스카이트는 B 사이트에 C, N, O, P를 포함하고 C 사이트에 전이 금속을 포함하는 높은 CL 점수를 갖는다. 실제로, 상당한 수의 가상 안티 페로브스카이트가 이전에 합성되었다는 것을 발견했다. 이는 안티 페로브스카이트를 발견할 더 많은 기회가 있을 수 있음을 시사한다.
안티 페로브스카이트는 초전도성 및 자기와 같은 많은 흥미로운 특성을 보여주었다. 그래프 나선 신경망 및 양성 미분류 학습 모델이 적용된 본 발명의 페로브스카이트 합성 가능성 예측 방법은 327개의 가상 안티 페로브스카이트가 합성 가능하다고 제안할 수 있었다.
또한 두 가지 기술적으로 중요한 응용 프로그램에 대한 합성 가능한 후보를 선택했다. 금속 할로겐화물 페로브스카이트, 즉 CsPbI3, RbPbI3 및 MAPbI3(MA = CH3NH3 +)는 지난 10년 동안 광전지 및 발광 다이오드에서 많은 유망한 응용을 보여주었다. 그러나 이러한 물질에는 종종 독성 Pb가 포함되어 있다. 이러한 페로브스카이트의 반도체 특성은 주로 할로겐화물의 확산 원자가 p-궤도 때문에 발생하므로 접근할 수 있는 더 많은 반도체 할로겐화물 페로브스카이트가 있을 것으로 예상된다. 그래프 나선 신경망 및 양성 미분류 학습 모델이 적용된 본 발명의 페로브스카이트 합성 가능성 예측 방법은 98개의 가상 금속 할로겐화물을 합성할 수 있다고 예측한다. 2단계 DFT(Density Functional Theory, 밀도범함수이론) 절차(PBEsol 이완 후 HSE06 단일 포인트 계산)를 사용하여 밴드 갭으로 이러한 재료를 추가로 스크리닝한다. 스크리닝 결과 43개의 재료에 밴드 갭이 있음을 발견했다. 특히 12개의 후보가 0.7에서 2.0 eV 사이의 밴드 갭을 가지며, 이는 CL 점수 및 헐(hull) 위의 에너지를 포함하여 광전지에 유망할 수 있다. 여기에서 예측된 재료의 대부분(12개 후보 중 8개)은 열역학적으로 안정적이다(헐(hull) 위의 에너지 < 0.1 eV/원자). 또한, 모든 예측 재료의 CL 점수 값은 양성 데이터의 CL 점수 분포와 겹친다. 두 가지 재료(NPF3 및 RbCF3)는 매우 불안정한다(헐(hull) 위의 에너지 > 1.0 eV/원자). 그래프 나선 신경망 및 양성 미분류 학습 모델이 적용된 본 발명의 페로브스카이트 합성 가능성 예측 방법은 상대적으로 높은 참 양성 비율(TPR)을 갖는다. 이러한 구성의 많은 부분이 단순한 전자 계수 고려 사항을 기반으로 식별할 수 없는 비표준 화학 물질(예: CsNaF3 또는 RbOF3)을 포함한다는 것을 확인하였다..
리튬이 풍부한 안티 페로브스카이트인 Li3OCl이 고체 배터리 전해질의 적용을 위한 초이온 전도성을 갖는다는 것을 발견되었다. 높은 Li 농도와 유선형 C-사이트 확산 경로로 인해 높은 전도도가 달성되었으므로 전도도는 Li3OBr과 같은 다른 Li가 풍부한 안티 페로브스카이트로 이전될 수 있을 것으로 예상된다. 이전에 보고된 Li3OBr 및 Li3OCl은 열역학적으로 안정적이지만(Li3OBr의 경우 0.012 eV/원자, Li3OCl의 경우 0.006 eV/원자), 새로 예측된 물질은 낮은 열역학적 안정성(>0.3 eV/원자)을 보여준다. 또한 CL 점수 분포에서도 유사한 불일치가 관찰되어, CL 점수를 기반으로 더 합성할 수 있음에도 불구하고 이러한 재료를 열역학적으로 합성하는 데 잠재적인 어려움을 나타낸다. 이것은 CL 점수와 열역학적 매트릭스의 결합 사용이 각 접근 방식의 한계를 보완하고 보다 신뢰할 수 있는 합성 가능성 예측을 산출할 수 있다는 흥미로운 가능성을 시사한다.
페로브스카이트는 바람직한 물리적 특성을 가진 고유한 종류의 재료를 나타낸다. 페로브스카이트 재료의 합성 가능성을 평가하기 위해 본 발명의 실시예의 페로브스카이트 합성 가능성 예측 방법은 도메인 특정 전이 PU 학습을 구현했다. 그래프 나선 신경망 및 양성 미분류 학습 모델이 적용된 본 발명의 페로브스카이트 합성 가능성 예측 방법은 샘플에서 0.957의 참 양성률을 보여 기하학적 요인(0.806-0.863)을 기반으로 한 이전 방법보다 크게 개선되었다. 합성 가능한 것으로 예측되는 962개의 미분류 결정에 대한 문헌을 검색하고 179개의 미분류 결정이 합성되었음을 발견했으며 3개의 공개 결정 데이터베이스에서 합성된 943개의 결정 페로브스카이트 풀에 추가했다.
합성 가능성 점수가 가장 낮은 1000개의 미분류 결정에 대한 동일한 문헌 검색은 합성 사례를 생성하지 않았으며, 이는 그래프 나선 신경망 및 양성 미분류 학습 모델이 적용된 본 발명의 페로브스카이트 합성 가능성 예측 방법을 더욱 검증했다.
기존 이온 페로브스카이트에 가장 적용 가능한 이온 반경을 기반으로 하는 경험적 모델과 비교하여, 그래프 나선 신경망 및 양성 미분류 학습 모델이 적용된 본 발명의 페로브스카이트 합성 가능성 예측 방법은 안티 페로브스카이트, 공유 페로브스카이트, 할로겐화물 및 수소화물을 포함하여 페로브스카이트의 모든 프로토타입에서 합성 가능성을 평가하는 일반적인 능력을 보여준다.
그래프 나선 신경망 및 양성 미분류 학습 모델이 적용된 본 발명의 페로브스카이트 합성 가능성 예측 방법은 다른 결정 패밀리 및 애플리케이션 도메인에 대한 대상 지정 결정 공간을 탐색하는 데 유용할 수 있다.
<그래프 나선 신경망 모델의 학습>
그래프 나선 신경망(컨볼루션 신경망)의 전체 아키텍처는 도 2c에 나와 있다. Vin 및 Ein은 모델에 대한 원자 및 에지/상호작용 입력 피처이다. 결정의 그래프 구조는 각 원자의 반경 7Å 내에서 보로노이 이웃(Voronoi neighbor)에 가장자리를 할당하여 구성된다. 원자 피처는 요소별로 분류된 원-핫 인코딩(one hot encoding) 방법으로 구성되며, 에지 피처는 도 2d와 같이 거리와 보로노이 입체각의 가우시안 확장으로 구성된다. 이러한 피처는 선형 곱셈과 소프트플러스 활성화로 인코딩된다. 그래프 컨볼루션 레이어는 새로운 히든 피처를 만들기 위한 인접 에지와 원자 풀링을 포함한다. 구체적으로, 에지 i(edge i)의 새로운 에지 피처(edge feature) Eout,i는 (1)에 의해 생성된다.
(1)
여기서 σ는 소프트 플러스 함수, W는 선형 곱셈 가중치, β는 바이어스, 는 연결 연산자, j, k는 가장자리를 연결하는 두 개의 원자이다.
원자 i에 대한 새로운 원자 피처 Vout,i는 (2)에 의해 생성된다.
(2)
여기서 j는 원자 i에 연결된 에지의 인덱스이다. 여기에서 에지 피처는 평균화되고 연결된다.
도 2c에서 두 개의 입력 화살표가 있는 "Dense, 64"가 있는 상자는 위에서 설명한 두 개의 컨볼루션 연산자를 나타낸다. 64는 출력 피처 크기가 64임을 나타낸다. 하나의 입력 화살표가 있는 "Dense, 64"는 피처 Fout에 대한 단순 활성화 계층을 나타낸다.
----(3)
"Linear,1"이 있는 상자의 경우 선형 곱셈이 사용되어(4) 단일 요소 값이 생성된다.
-------(4)
"Min Pool"은 시그모이드(Sigmoid) 연산이 뒤따르는 최소 풀링 연산을 나타낸다. 위에서 논의한 바와 같이, 간헐적인 원자 및 에지 피처는 요소 크기(element size) 64로 유지된다. Adam optimizer와 함께 이진 교차 엔트로피 손실 함수를 사용하여 배치 크기 512로 모델을 학습했다. 모델은 50 epoch로 학습되었으며, 검증 손실이 가장 낮은 모델이 선택된다.
<헐(hull)의 밴드갭 및 에너지 계산>
PAW-PBE 슈도포텐션(pseudopotentials)을 사용한다.
MP 데이터베이스에서 권장하는 대로 PAW 전위를 선택했다. 원자 위치 및 단위 셀 매개변수는 에너지에 대해 1.0 X 10-5 eV의 수렴 기준과 500eV 컷오프 에너지가 있는 힘에 대해 0.05eV/Å인 공액 경사 하강법을 사용하여 완전히 완화된다.
브릴루인(Brillouin) 영역은 Pymatgen(Python Materials Genomics)을 사용하여 원자당 1000k-포인트의 k-포인트 밀도로 사용된다. 완화된 구조를 사용하여 밴드갭을 계산하기 위해 0.2의 혼합 매개변수로 VASP68에서 구현된 HSE0669 하이브리드 밀도범함수이론(DFT) 기능을 수행했다. 계산 효율성을 위해 400 eV의 차단 에너지를 사용했으며 정확한 교환 전위의 q-포인트 그리드에 균일한 감소 계수를 사용했다. 감마 중심의 짝수 k-포인트(a 원자당 1000k-포인트의 k-포인트 밀도). 브릴루인(Brillouin) 영역 통합을 위해 Blchl 보정 포함 사면체 방법을 사용했다. 헐(hull) 위의 에너지를 계산하기 위해 MP(material project) 데이터베이스에서 컨벡스 헐(convex hull) 다이어그램의 모든 관련 종을 추출하고 PBEsol 계산을 수행했다. 헐(hull) 위의 에너지는 계산된 에너지와 Pymatgen(Python Materials Genomics)을 사용하여 얻는다.
본 발명의 다른 실시예는 상기 페로브스카이트 합성 가능성 예측 방법을 컴퓨터로 읽어 들여 실행되는 코드로 기록한 기록매체를 제공할 수도 있다.
상기에서 설명한 본 발명의 기술적 사상은 바람직한 실시예에서 구체적으로 기술되었으나, 상기한 실시예는 그 설명을 위한 것이며 그 제한을 위한 것이 아님을 주의하여야 한다. 또한, 본 발명의 기술적 분야의 통상의 지식을 가진 자라면 본 발명의 기술적 사상의 범위 내에서 다양한 실시예가 가능함을 이해할 수 있을 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (7)

  1. 저장된 물질 데이터를 페로브스카이트 합성 가능성 점수를 산출하는 그래프 나선 신경망 모델에 입력하여 페로브스카이트 합성 가능성 예측을 위한 사전 학습을 수행하는 그래프 나선 신경망 모델 사전 학습 단계;
    저장된 페로브스카이트 데이터를 상기 그래프 나선 신경망 모델에 입력하여 페로브스카이트 합성 가능성 예측을 위한 재학습을 수행하는 그래프 나선 신경망 모델 재학습 단계; 및
    페로브스카이트의 데이터 세트 중 미분류 데이터를 랜덤하게 음성 데이터로 선택한 후 재학습된 상기 그래프 나선 신경망 모델에 적용하여 페로브스카이트 합성 가능성 점수를 산출하여 합성 가능을 예측하는 페로브스카이트 합성 가능성 예측 단계를 포함하여 구성되는 것을 특징으로 하는 그래프 나선 신경망 및 양성 미분류 학습 기반 페로브스카이트 합성 가능성 예측 방법.
  2. 제1항에 있어서, 상기 각 단계의 그래프 나선 신경망 모델은,
    상기 물질 데이터와 페로브스카이트 데이터 각각의 원자 피처(Atom feature)와 에지 피처(edge feature)를 입력 값으로 입력받아 상기 물질 또는 페로브스카이트의 합성 가능성 점수를 산출하도록 구성되는 것을 특징으로 하는 그래프 나선 신경망 및 양성 미분류 학습 기반 페로브스카이트 합성 가능성 예측 방법.
  3. 제1항에 있어서, 상기 그래프 나선 신경망 모델 사전 학습 단계는,
    상기 물질 데이터에 포함되는 합성 가능성이 결정되지 않은 미분류 물질 데이터를 랜덤하게 선택하여 합성 불가능을 나타내는 음성으로 설정한 후, 상기 그래프 나선 신경망 모델을 적용하여 합성 가능성 점수를 산출하는 것을 반복 수행하는 양성 미분류 학습에 의해 상기 그래프 나선 신경망 모델을 사전 학습시키는 단계인 것을 특징으로 하는 그래프 나선 신경망 및 양성 미분류 학습 기반 페로브스카이트 합성 가능성 예측 방법.
  4. 제1항에 있어서, 상기 그래프 나선 신경망 모델 재학습 단계는
    상기 페로브스카이트 데이터에 포함되는 합성 가능성이 결정되지 않은 미분류 페로브스카이트 데이터를 랜덤하게 선택한 후 합성 불가능을 나타내는 음성으로 설정하여 상기 사전 학습된 그래프 나선 신경망 모델을 적용하여 합성 가능성 점수를 산출하는 것을 반복 수행하는 양성 미분류 학습에 의해 상기 그래프 나선 신경망 모델을 재학습시키는 단계인 것을 특징으로 하는 그래프 나선 신경망 및 양성 미분류 학습 기반 페로브스카이트 합성 가능성 예측 방법.
  5. 제1항에 있어서, 상기 페로브스카이트 합성 가능성 예측 단계는,
    페로브스카이트 데이터 세트 중 미분류 페로브스카이트 데이터를 랜덤하게 음성 데이터로 선택한 후 상기 재학습된 그래프 나선 신경망 모델에 입력하여 합성 가능성을 산출하는 것을 반복 수행하는 양성 미분류 학습을 수행하고, 상기 양성 미분류 학습에 의해 각각의 데이터 세트에서 산출된 각각의 페로브스카이트 데이터들에 대한 합성 가능성 점수를 평균하여 페로브스카이트의 합성 가능성을 예측하는 단계 인 것을 특징으로 하는 그래프 나선 신경망 및 양성 미분류 학습 기반 페로브스카이트 합성 가능성 예측 방법.
  6. 제1항에 있어서,
    상기 페로브스카이트 합성 가능성 예측 단계는 예측된 페로브스카이트 합성 가능성 점수가 0.5 이상인 경우 합성 가능으로 예측하는 것을 특징으로 하는 그래프 나선 신경망 및 양성 미분류 학습 기반 페로브스카이트 합성 가능성 예측 방법.
  7. 제1항의 페로브스카이트 합성 가능성 예측 방법을 컴퓨터로 읽어 들여 실행되는 코드로 기록한 기록매체.
KR1020220134516A 2022-10-19 2022-10-19 그래프 나선 신경망 및 양성 미분류 학습 기반 페로브스카이트 합성 가능성 예측 방법 KR20240054488A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220134516A KR20240054488A (ko) 2022-10-19 2022-10-19 그래프 나선 신경망 및 양성 미분류 학습 기반 페로브스카이트 합성 가능성 예측 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220134516A KR20240054488A (ko) 2022-10-19 2022-10-19 그래프 나선 신경망 및 양성 미분류 학습 기반 페로브스카이트 합성 가능성 예측 방법

Publications (1)

Publication Number Publication Date
KR20240054488A true KR20240054488A (ko) 2024-04-26

Family

ID=90883216

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220134516A KR20240054488A (ko) 2022-10-19 2022-10-19 그래프 나선 신경망 및 양성 미분류 학습 기반 페로브스카이트 합성 가능성 예측 방법

Country Status (1)

Country Link
KR (1) KR20240054488A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101919100B1 (ko) 2018-10-17 2018-11-19 한국과학기술정보연구원 Lhp 합성 시뮬레이션 방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101919100B1 (ko) 2018-10-17 2018-11-19 한국과학기술정보연구원 Lhp 합성 시뮬레이션 방법 및 장치

Similar Documents

Publication Publication Date Title
Li et al. A surrogate-assisted multiswarm optimization algorithm for high-dimensional computationally expensive problems
Lu et al. Data mining-aided materials discovery and optimization
Zhong et al. Gene expression programming: A survey
Ling A review of the recent progress in battery informatics
Wang et al. Applications of machine learning in perovskite materials
Gu et al. Perovskite synthesizability using graph neural networks
Rath et al. Discovery of direct band gap perovskites for light harvesting by using machine learning
Wang et al. Unsupervised discovery of thin-film photovoltaic materials from unlabeled data
Liang et al. Accelerating perovskite materials discovery and correlated energy applications through artificial intelligence
Onwubolu Hybrid self-organizing modeling systems
Liang et al. A universal model for accurately predicting the formation energy of inorganic compounds
Yang et al. Approaches for handling high-dimensional cluster expansions of ionic systems
Mazaheri et al. Stochastic replica voting machine prediction of stable cubic and double perovskite materials and binary alloys
Cui et al. An autoencoder-embedded evolutionary optimization framework for high-dimensional problems
Li et al. Center-environment deep transfer machine learning across crystal structures: from spinel oxides to perovskite oxides
Zhang et al. Accurate and efficient machine learning models for predicting hydrogen evolution reaction catalysts based on structural and electronic feature engineering in alloys
Xu et al. Machine Learning in Energy Chemistry: Introduction, Challenge and Perspective
KR20240054488A (ko) 그래프 나선 신경망 및 양성 미분류 학습 기반 페로브스카이트 합성 가능성 예측 방법
Goswami et al. A new evaluation measure for feature subset selection with genetic algorithm
US20240135168A1 (en) Perovskite synthesizability prediction method using graph convolutional neural networks and positive unlabeled learning
Chen et al. Application of machine learning in perovskite materials and devices: A review
Zhu et al. WyCryst: Wyckoff Inorganic Crystal Generator Framework
Xie Deep learning methods for the design and understanding of solid materials
Shim et al. An energy-based sampling technique for multi-objective restricted Boltzmann machine
Li et al. Recent advances in the interface structure prediction for heteromaterial systems