KR20240000515A - 특성 예측 시스템, 특성 예측 방법, 및 특성 예측 프로그램 - Google Patents

특성 예측 시스템, 특성 예측 방법, 및 특성 예측 프로그램 Download PDF

Info

Publication number
KR20240000515A
KR20240000515A KR1020237038112A KR20237038112A KR20240000515A KR 20240000515 A KR20240000515 A KR 20240000515A KR 1020237038112 A KR1020237038112 A KR 1020237038112A KR 20237038112 A KR20237038112 A KR 20237038112A KR 20240000515 A KR20240000515 A KR 20240000515A
Authority
KR
South Korea
Prior art keywords
data
partial structure
input data
raw material
partial
Prior art date
Application number
KR1020237038112A
Other languages
English (en)
Inventor
교헤이 하나오카
Original Assignee
가부시끼가이샤 레조낙
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가부시끼가이샤 레조낙 filed Critical 가부시끼가이샤 레조낙
Publication of KR20240000515A publication Critical patent/KR20240000515A/ko

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C60/00Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

입력 데이터 생성 시스템(10)은, 이미 알려진 구조의 원재료를 기초로 한 재료의 특성을 예측하는 기계 학습용의 입력 데이터를 생성하는 입력 데이터 생성 시스템으로서, 적어도 하나의 프로세서를 구비하고, 적어도 하나의 프로세서가, 데이터베이스로부터 부분 구조를 나타내는 부분 구조 데이터를 취득하며, 원재료의 구조를 특정하는 원재료 구조 데이터와, 원재료의 배합의 비율을 나타내는 배합률 데이터의 입력을 적어도 받아들이고, 부분 구조 데이터와 원재료 구조 데이터를 기초로, 원재료의 구조 중에 존재하는 부분 구조를 나타내는 부분 구조 입력 데이터 D를 생성하며, 원재료의 부분 구조 입력 데이터 D에, 당해 배합률 데이터를 반영함으로써 입력 데이터를 생성하고, 입력 데이터를 기계 학습 모델에 입력시킨다.

Description

특성 예측 시스템, 특성 예측 방법, 및 특성 예측 프로그램
본 개시의 일 측면은, 특성 예측 시스템, 특성 예측 방법, 및 특성 예측 프로그램에 관한 것이다.
종래부터, 분자의 구조를 소정의 포맷으로 취득하고 그것을 벡터 정보로 변환하여 기계 학습 알고리즘에 입력하여 특성을 예측하는 것이 행해지고 있다. 예를 들면, 생체 고분자의 입체 구조와 화합물의 입체 구조의 결합성을 기계 학습을 이용하여 예측하는 방법이 알려져 있다(하기 특허문헌 1 참조). 이 방법에서는, 생체 고분자의 입체 구조와 화합물의 입체 구조에 근거하여 생체 고분자와 화합물의 복합체의 예측 입체 구조를 생성하고, 그 예측 입체 구조를 예측 입체 구조 벡터로 변환하며, 기계 학습 알고리즘을 이용하여 그 예측 입체 구조 벡터를 판별함으로써 생체 고분자의 입체 구조와 화합물의 입체 구조의 결합성을 예측하고 있다.
특허문헌 1: 일본 공개특허공보 2019-28879호
최근에서는, 구조가 명확한 재료에 관한 분자 그래프 등의 구조를 나타내는 데이터를 입력으로 한 뉴럴 네트워크에 의하여 재료의 특성을 예측하는 기술이 알려져 있다. 그러나, 입력되는 데이터가 적은 경우에 그 데이터를 기초로 한 기계 학습에 의하여, 재료의 특성을 예측하는 것은 곤란하다. 따라서, 원재료의 구조를 기초로 한 재료의 특성을 효율적으로 예측시키기 위한 구조가 요망되고 있다.
본 개시의 일 형태의 특성 예측 시스템은, 이미 알려진 구조의 원재료를 기초로 한 재료의 특성을 예측하는 특성 예측 시스템으로서, 적어도 하나의 프로세서를 구비하고, 적어도 하나의 프로세서가, 데이터베이스로부터 부분 구조를 나타내는 부분 구조 데이터를 취득하며, 원재료의 구조를 특정하는 원재료 구조 데이터와, 원재료의 배합의 비율을 나타내는 배합률 데이터의 입력을 적어도 받아들이고, 부분 구조 데이터와 원재료 구조 데이터를 기초로, 원재료의 구조 중에 존재하는 부분 구조를 나타내는 부분 구조 입력 데이터를 생성하며, 원재료의 부분 구조 입력 데이터에, 당해 배합률 데이터를 반영함으로써 입력 데이터를 생성하고, 입력 데이터를 기계 학습 모델에 입력시킨다.
혹은, 본 개시의 다른 형태의 특성 예측 방법은, 적어도 하나의 프로세서를 구비하는 컴퓨터에 의하여 실행되며, 이미 알려진 구조의 원재료를 기초로 한 재료의 특성을 예측하는 특성 예측 방법으로서, 데이터베이스로부터 부분 구조를 나타내는 부분 구조 데이터를 취득하는 스텝과, 원재료의 구조를 특정하는 원재료 구조 데이터와, 원재료의 배합의 비율을 나타내는 배합률 데이터의 입력을 적어도 받아들이는 스텝과, 부분 구조 데이터와 원재료 구조 데이터를 기초로, 원재료의 구조 중에 존재하는 부분 구조를 나타내는 부분 구조 입력 데이터를 생성하는 스텝과, 원재료의 부분 구조 입력 데이터에, 당해 배합률 데이터를 반영함으로써 입력 데이터를 생성하는 스텝과, 입력 데이터를 기계 학습 모델에 입력시키는 스텝을 구비한다.
혹은, 본 개시의 다른 형태의 특성 예측 프로그램은, 이미 알려진 구조의 원재료를 기초로 한 재료의 특성을 예측하는 특성 예측 프로그램으로서, 컴퓨터에, 데이터베이스로부터 부분 구조를 나타내는 부분 구조 데이터를 취득하는 스텝과, 원재료의 구조를 특정하는 원재료 구조 데이터와, 원재료의 배합의 비율을 나타내는 배합률 데이터의 입력을 적어도 받아들이는 스텝과, 부분 구조 데이터와 원재료 구조 데이터를 기초로, 원재료의 구조 중에 존재하는 부분 구조를 나타내는 부분 구조 입력 데이터를 생성하는 스텝과, 원재료의 부분 구조 입력 데이터에, 당해 배합률 데이터를 반영함으로써 입력 데이터를 생성하는 스텝과, 입력 데이터를 기계 학습 모델에 입력시키는 스텝을 실행시킨다.
상기 형태에 의하면, 원재료의 구조 데이터와 데이터베이스로부터 취득한 부분 구조의 구조 데이터를 기초로, 원재료의 구조 중의 이미 알려진 부분 구조를 표현한 부분 구조 입력 데이터가 생성되고, 그 부분 구조 입력 데이터에 원재료의 배합률이 반영됨으로써 입력 데이터가 생성된다. 그리고, 생성된 입력 데이터가 기계 학습 모델에 입력된다. 그 결과, 원재료의 전체의 구조로부터 미리 설정된 부분 구조의 데이터로 좁힌 입력 데이터가 생성되고, 기계 학습에 의하여 그 입력 데이터를 처리시킴으로써, 재료의 특성을 효율적으로 예측시킬 수 있다.
본 개시의 측면에 의하면, 원재료의 구조를 기초로 하여 재료의 특성을 효율적으로 예측할 수 있다.
도 1은 실시형태에 관한 특성 예측 시스템을 구성하는 컴퓨터의 하드웨어 구성의 일례를 나타내는 도이다.
도 2는 실시형태에 관한 특성 예측 시스템의 기능 구성의 일례를 나타내는 도이다.
도 3은 도 2의 취득부(11)가 취득하는 원재료 구조 데이터에 의하여 특정되는 분자 구조의 일례를 나타내는 도이다.
도 4는 실시형태에 관한 특성 예측 시스템의 동작의 일례를 나타내는 플로 차트이다.
도 5는 변형예에 관한 특성 예측 시스템의 기능 구성의 일례를 나타내는 도이다.
이하, 첨부 도면을 참조하여, 본 발명의 실시형태에 대하여 상세하게 설명한다. 또한, 설명에 있어서, 동일 요소 또는 동일 기능을 갖는 요소에는, 동일 부호를 이용하는 것으로 하고, 중복되는 설명은 생략한다.
[시스템의 개요]
실시형태에 관한 특성 예측 시스템(1)은, 이미 알려진 구조의 복수의 원재료를 다양한 비율로 배합함으로써 제조되는 재료인 다성분 물질의 특성의 예측 처리를, 기계 학습 모델을 이용하여 실행하는 컴퓨터 시스템이다. 원재료란, 다성분 물질을 생성하기 위하여 이용되는, 분자 구조가 명확한 화학 물질을 말하며, 예를 들면, 모노머, 폴리머, 또는, 저분자 첨가제, 용질 분자, 가스 분자 등의 단분자이다. 하나의 원재료에는 복수 종류의 분자가 포함되어 있어도 된다. 다성분 물질이란, 복수의 원재료를 소정의 비율로 배합함으로써 생성되는 화학 물질이며, 예를 들면, 원재료가 모노머 혹은 폴리머인 경우는 폴리머 알로이, 원재료가 용질 분자 혹은 용매인 경우에는 혼합 용액, 원재료가 가스 분자인 경우는 혼합 기체이다. 단, 입력 데이터의 생성 대상으로서는, 반드시 다성분 물질일 필요는 없고, 하나의 원재료로부터 생성되는 단성분 물질이어도 된다.
특성 예측 시스템(1)에 의한 예측 처리의 대상은, 다성분 물질의 특성이다. 다성분 물질의 특성이란, 예를 들면, 다성분 물질이 수지의 경우는, 유리 전이 온도, 융점 등의 열물성, 기계 물성, 접착성 등이다. 또, 다성분 물질의 특성은, 다성분 물질이 다른 종류의 물질의 경우는, 약제의 약효 혹은 독성, 가연물의 발화점 등의 위험성, 외관상의 특성, 특정 용도에 대한 적정 등이다. 특성 예측 시스템(1)의 예측 처리에는 기계 학습이 이용된다. 기계 학습이란, 부여된 정보에 근거하여 법칙 또는 룰을 자율적으로 알아내는 수법이다. 기계 학습의 구체적인 수법은 한정되지 않는다. 예를 들면, 기계 학습은, 계산 모델인 기계 학습 모델을 이용한 기계 학습이어도 된다. 보다 구체적으로는, 계산 모델은, 뉴럴 네트워크이다. 뉴럴 네트워크란, 인간의 뇌신경계의 구조를 모방한 정보 처리의 모델을 말한다. 그 이외의 계산 모델의 보다 구체적인 예로서, 뉴럴 네트워크 이외에, SVR(Support Vector Regression), 랜덤 포레스트 등이어도 된다.
[시스템의 구성]
특성 예측 시스템(1)은 한 대 이상의 컴퓨터로 구성된다. 복수 대의 컴퓨터를 이용하는 경우에는, 이들 컴퓨터가 인터넷, 인트라넷 등의 통신 네트워크를 통하여 접속됨으로써, 논리적으로 하나의 특성 예측 시스템(1)이 구축된다.
도 1은, 특성 예측 시스템(1)을 구성하는 컴퓨터(100)의 일반적인 하드웨어 구성의 일례를 나타내는 도이다. 예를 들면, 컴퓨터(100)는, 오퍼레이팅 시스템, 애플리케이션·프로그램 등을 실행하는 프로세서(예를 들면 CPU)(101)와, ROM 및 RAM으로 구성되는 주기억부(102)와, 하드 디스크, 플래시 메모리 등으로 구성되는 보조 기억부(103)와, 네트워크 카드 또는 무선 통신 모듈로 구성되는 통신 제어부(104)와, 키보드, 마우스, 터치 패널 등의 입력 장치(105)와, 모니터, 터치 패널 디스플레이 등의 출력 장치(106)를 구비한다.
특성 예측 시스템(1)의 각 기능 요소는, 프로세서(101) 또는 주기억부(102) 상에 미리 정해진 프로그램을 읽어 들여 프로세서(101)에 그 프로그램을 실행시킴으로써 실현된다. 프로세서(101)는 그 프로그램에 따라, 통신 제어부(104), 입력 장치(105), 또는 출력 장치(106)를 동작시키고, 주기억부(102) 또는 보조 기억부(103)에 있어서의 데이터의 독출 및 기입을 행한다. 처리에 필요한 데이터 또는 데이터베이스는 주기억부(102) 또는 보조 기억부(103) 내에 저장된다.
도 2는 특성 예측 시스템(1)의 기능 구성의 일례를 나타내는 도이다. 특성 예측 시스템(1)은, 입력 데이터 생성 시스템(10), 트레이닝부(20), 및 예측기(30)를 구비한다. 이들 입력 데이터 생성 시스템(10), 트레이닝부(20), 및 예측기(30)는, 동일한 컴퓨터(100) 상에서 구축되어 있어도 되고, 일부가 다른 컴퓨터(100) 상에 구축되어 있어도 된다. 먼저, 입력 데이터 생성 시스템(10)의 기능 구성을 설명한다. 입력 데이터 생성 시스템(10)은 기능 요소로서 취득부(11), 생성부(12), 벡터 변환부(13), 합성부(14), 및 부분 구조 데이터베이스(16)를 포함하고 있다.
부분 구조 데이터베이스(16)는, 미리 입력 데이터 생성 시스템(10)에 등록된 이미 알려진 분자 중의 복수의 부분 구조의 조합을 나타내는 부분 구조 데이터를 저장하는 데이터 저장 수단이다. 이 부분 구조 데이터베이스(16)에 저장되는 부분 구조 데이터로서는, 재료의 특성을 좌우하는 구조로서 이미 알려진 부분 구조를 나타내는 데이터(분자 구조 정보)가 적합하게 이용된다. 이와 같은 부분 구조로서는, 예를 들면, "OH", "CH3", "CCC", "NH" 등의 분자식으로 나타나는 구조를 들 수 있다. 부분 구조 데이터는, 미리 입력 데이터 생성 시스템(10) 내의 데이터베이스로부터 입력 데이터 생성 시스템(10)의 유저에 의한 선택 입력에 따라 선택된 복수의 부분 구조의 조합을 나타내는 데이터가 설정되어도 되고, 외부의 컴퓨터 등으로부터 유저에 의한 선택에 따라 설정되어도 된다. 부분 구조 데이터에 있어서의 부분 구조를 나타내는 데이터(분자 구조 정보)로서는, 분자 그래프여도 되고, 분자식 등의 문자로 분자 구조를 나타내는 데이터여도 되며, 구조식 등의 화상으로 분자 구조를 나타내는 데이터여도 된다. 더 구체적으로는, 이들 부분 구조 데이터는, 구조식, 분자 그래프 이외, SMILES(Simplified Molecular Input Line Entry System) 기법의 데이터, MOL 파일 포맷의 데이터 등이어도 된다.
단, 부분 구조 데이터는, 반드시 유저에 의한 선택에 의하여 설정된 것일 필요는 없다. 예를 들면, 특성 예측 시스템(1)에 의한 예측 대상의 특성(예를 들면, 폴리머의 유리 전이 온도)에 대하여, 예측의 정밀도를 높이면 예측되는 부분 구조의 세트가, 미리 자동 검증 처리에 의하여 판별되고, 판별된 부분 구조의 세트를 기초로, 부분 구조 데이터가 설정되어도 된다. 또, 예측의 정밀도를 높이는 부분 구조의 세트가 기계 학습의 과정에서 자동 선택되며, 선택된 부분 구조의 세트를 기초로, 부분 구조 데이터가 설정되어도 된다. 또, 특정 재료에 대한 특정 특성의 예측에 관계없이, 범용적으로 예측 정밀도를 높이는 부분 구조의 세트가 미리 설정되어 있어, 그 부분 구조의 세트를 기초로, 부분 구조 데이터가 설정되어도 된다.
취득부(11)는, 예측 대상의 다성분 물질의 기가 되는 복수의 원재료를 구성하는 각각의 분자의 구조에 관한 원재료 구조 데이터와, 이들 복수의 원재료를 배합하여 다성분 물질을 제조하는 것을 상정한 경우의 각각의 복수의 원재료의 배합의 비율을 나타내는 배합률 데이터의 입력을 받아들이는 기능 요소이다. 취득부(11)는, 이들 데이터를 입력 데이터 생성 시스템(10) 내의 데이터베이스로부터 입력 데이터 생성 시스템(10)의 유저에 의한 선택 입력에 따라 취득해도 되고, 외부의 컴퓨터 등으로부터 유저에 의한 선택에 따라 취득해도 된다.
구체적으로는, 취득부(11), 제1 원재료의 분자 구조를 특정하는 제1 원재료 구조 데이터와, 제2 원재료의 분자 구조를 특정하는 제2 원재료 구조 데이터를 적어도 취득한다. 이들 원재료 구조 데이터는, 분자 구조를 나타내는 분자 구조 정보이다. 예를 들면, 이들 원재료 구조 데이터는, 분자 구조를, 숫자, 영문자, 텍스트, 벡터 등으로 특정하는 데이터여도 되고, 2차원 좌표, 3차원 좌표 등에 의하여 가시화되는 데이터여도 되며, 이들 데이터 중 임의의 2 이상의 조합의 데이터여도 된다. 원재료 구조 데이터를 구성하는 개개의 수치는, 10진법으로 나타나도 되고, 2진법, 16진법 등의 다른 표기법에 의하여 나타나도 된다. 더 구체적으로는, 이들 원재료 구조 데이터는, 구조식, 분자 그래프, SMILES 기법의 데이터, MOL 파일 포맷의 데이터 등이어도 된다. 여기에서, 원재료 데이터는, 반드시 원재료의 분자 전체를 나타내는 것일 필요는 없고, 원재료의 분자 중의 부분 구조를 나타내는 것이어도 된다.
도 3의 (a)부 및 (b)부에는, 원재료 구조 데이터에 의하여 특정되는 분자 구조의 일례를 나타내고, (a)부에는 제1 원재료 구조 데이터에 의하여 특정되는 분자 구조의 일례를 나타내며, (b)부에는 제2 원재료 구조 데이터에 의하여 특정되는 분자 구조의 일례를 나타낸다. 제1 원재료 구조 데이터는, 제1 원재료의 분자 구조를 특정할 수 있는 데이터이다. 제2 부분 구조 데이터도, 동일하게, 제2 원재료의 분자 구조를 특정할 수 있는 데이터이다.
또, 취득부(11)는, 복수의 원재료의 비율 r을 나타내는 배합률 데이터로서, 각각의 원재료의 비율 자체를 나타내는 데이터를 취득해도 되고, 복수의 원재료 간의 배합비를 나타내는 데이터를 취득해도 되며, 복수의 원재료의 각각의 배합량(중량, 체적 등)을 절댓값 혹은 상댓값으로 나타내는 데이터를 취득해도 된다. 예를 들면, 취득부(11)는, 제1 원재료인 제1 모노머의 비율 r1="0.5"와, 제2 원재료인 제2 모노머의 비율 r2="0.5"를 취득한다. 또한, 취득부(11)는, 부분 구조 데이터베이스(16)로부터, 등록된 이미 알려진 분자 중의 복수의 부분 구조의 조합을 나타내는 부분 구조 데이터를 취득한다.
생성부(12)는, 취득부(11)가 취득한 복수의 원재료 구조 데이터 및 부분 구조 데이터를 기초로, 원재료의 분자 구조 중의 부분 구조 데이터에 나타난 부분 구조를 탐색함과 함께, 그 분자 구조 중에 존재하는 부분 구조의 개수를 특정한다. 예를 들면, 부분 구조 데이터로 나타난 부분 구조에, "OH", "CH3", "CCC", "NH"의 부분 구조가 포함되는 경우에는, 생성부(12)는, 도 3의 (a)부에 나타내는 제1 원재료 구조 데이터가 나타내는 분자 구조 중에서, 부분 구조 "CH3" 및 부분 구조 "CCC"의 존재를, 각각의 개수 "2개", "1개"로 함께 특정한다. 동일하게, 생성부(12)는, 도 3의 (b)부에 나타내는 제2 원재료 구조 데이터가 나타내는 분자 구조 중에서, 부분 구조 "OH", "CH3", 및 "CCC"의 존재를, 그 개수 "1개", "2개", 및 "2개"로 함께 특정한다. 또한, 여기에서 취득하는 부분 구조의 개수는, 동일한 원재료의 분자 중의 부분 구조의 개수의 총합이 "1"이 되도록 규격화된 개수를 나타내는 데이터여도 된다.
또, 생성부(12)는, 탐색한 부분 구조를 기초로, 복수의 원재료의 분자에 포함되는 부분 구조마다에 부분 구조 입력 데이터 D0을 생성한다. 상세하게는, 취득부(11)가 탐색한 부분 구조에 대응하는 분자 구조 정보를 기초로, 복수의 원재료마다에, 원재료에 포함되는 부분 구조에 관한 분자 구조 정보와, 그 원재료에 관한 비율 r의 데이터와, 그 부분 구조에 관한 개수의 데이터를 조합한 부분 구조 입력 데이터 D0을 생성한다. 그리고, 생성부(12)는, 복수의 원재료마다에 탐색된 모든 부분 구조를 대상으로 하여, 부분 구조 입력 데이터 D0의 생성을 반복한다.
벡터 변환부(13)는, 생성부(12)에 의하여 생성된 모든 부분 구조 입력 데이터 D0의 각각을 하나의 벡터 데이터로 변환한다. 예를 들면, 벡터 변환부(13)는, 부분 구조 입력 데이터 D0에 포함되는 각각의 부분 구조에 관한 분자 구조 정보를 참조하여 그들을 분자 기술화함으로써 벡터 VM으로 변환한다. 분자 기술화에 의하여, 분자 구조 정보가 나타내는 분자의 특징을 그 화학 구조에 근거하여 수치열(列)로서 나타낼 수 있다. 이 분자 기술화의 방식으로서는, 분자 구조를 벡터화하는 수법이면 임의의 방식을 채용할 수 있지만, 예를 들면, ECFP(Extended Connectivity FingerPrints), MACCS FingerPrints, PubChem FingerPrints, Substructure FingerPrints, Estate FingerPrints, BCI FingerPrints, Molprint2D FingerPrints, Pass base FingerPrints 등을 채용할 수 있다. 또한, 벡터 변환부(13)는, 각각의 부분 구조마다에 생성한 벡터 VM에 대하여, 해당 부분 구조를 포함하는 원재료에 관한 비율 r의 데이터와, 그 원재료 중의 해당 부분 구조의 개수의 데이터를 조합함으로써 부분 구조 입력 데이터 D를 생성한다.
합성부(14)는, 벡터 변환부(13)에 의하여 벡터로 변환된, 복수의 원재료마다의 모든 부분 구조마다의 벡터 VM을, 하나의 벡터 데이터로 정리하여, 합성 입력 데이터 F를 생성한다. 예를 들면, 합성부(14)는, 제1 원재료의 부분 구조 "CH3" 및 "CCC"에 대응한 2개의 부분 구조 입력 데이터 D1,1, D1,2와, 제2 원재료의 부분 구조 "OH", "CH3", 및 "CCC"에 대응한 3개의 부분 구조 입력 데이터 D2,1, D2,2, D2,3이 존재하는 경우에는, 그들의 5개의 부분 구조 입력 데이터 D1,1, D1,2, D2,1, D2,2, D2,3에 대응하는 5개의 벡터 VM을 정리한 합성 입력 데이터 F를 생성한다.
이때, 합성부(14)는, 그들의 5개의 부분 구조 입력 데이터 D1,1, D1,2, D2,1, D2,2, D2,3에 대응하는 5개의 벡터 VM에 각각의 부분 구조에 대응하는 배합률 데이터 및 개수 데이터를 반영함으로써, 5개의 벡터 VM의 가중값 부여 평균을 취하여 합성 입력 데이터 F를 생성한다. 보다 상세하게는, 합성부(14)는, 부분 구조 입력 데이터 D1,1, D1,2, D2,1, D2,2, D2,3에 대응하는 5개의 벡터 VM의 각각의 요소에, 각각의 부분 구조에 대응하는 비율 r 및 개수 n을 승산한 후에, 5개의 벡터 VM의 각각의 요소를 가산(혹은 평균화)함으로써, 합성 입력 데이터 F를 생성한다. 예를 들면, 합성부(14)는, 제1 원재료의 부분 구조에 대응하는 벡터 VM에 대해서는, 제1 원재료의 비율 r1에 그 부분 구조의 개수 n을 곱한 값을 승산하고, 제2 원재료의 부분 구조에 대응하는 벡터 VM에 대해서는, 제2 원재료의 비율 r2에 그 부분 구조의 개수 n을 곱한 값을 승산한다. 일례를 들면, 도 3의 (a)부에 나타낸 제1 원재료의 부분 구조 "CH3"에 대응하는 벡터 VM에 대해서는, 비율 r1=0.5에 그 부분 구조의 개수 "2"를 곱한 값(0.5×2=1.0)을 승산하고, 도 3의 (b)부에 나타낸 제2 원재료의 부분 구조 "OH"에 대응하는 벡터 VM에 대해서는, 비율 r2=0.5에 그 부분 구조의 개수 "1"을 곱한 값(0.5×1=0.5)을 승산한다. 단, 비율 및 개수 데이터의 반영은, 벡터 VM의 각 요소에 대하여, 비율 r에 개수 n을 곱한 값을 가산함으로써 행해져도 되고, 벡터 요소에 대하여, 비율 r에 개수 n을 곱한 값을 연결함으로써 행해져도 된다. 또, 보다 일반적으로는, 합성부(14)는, 모든 부분 구조에 관한 벡터, 배합비, 및 개수를 입력으로 하여, 일정한 룰로 단일의 벡터를 출력하는 함수를 이용하여 벡터를 생성해도 되고, 배합률의 반영과 벡터의 가산의 스텝으로 나누지 않고, 한 번의 처리로 단일의 벡터를 생성해도 된다.
또한, 합성부(14)는, 생성한 합성 입력 데이터 F를 외부로 출력함으로써, 외부의 기계 학습 모델에 입력한다. 즉, 출력된 합성 입력 데이터 F는, 입력 데이터 생성 시스템(10)의 외부에 접속된 컴퓨터 내의 트레이닝부(20)에 의하여 읽힌다. 그리고, 트레이닝부(20)에 있어서, 그 합성 입력 데이터 F가 설명 변수로서 임의의 교사 라벨과 함께 기계 학습 모델에 입력됨으로써, 학습 완료 모델이 생성된다. 또한, 트레이닝부(20)에 의하여 생성된 학습 완료 모델을 기초로 예측기(30) 내의 기계 학습 모델이 설정된다. 단, 트레이닝부(20)와 예측기(30)는 동일한 기능부여도 된다. 그리고, 입력 데이터 생성 시스템(10)에 의하여 생성된 합성 입력 데이터 F가 예측기(30) 내의 기계 학습 모델에 입력됨으로써, 예측기(30)에 의하여 다성분 물질의 특성의 예측 결과가 생성 및 출력된다. 또한, 이들 트레이닝부(20) 및 예측기(30)는, 입력 데이터 생성 시스템(10)을 구성하는 컴퓨터(100)와 동일한 컴퓨터 내에 구성되어도 되고, 컴퓨터(100)와 별체의 컴퓨터 내에 구성되어도 된다.
일례에서는, 트레이닝부(20)는, 뉴럴 네트워크를 이용한 학습 완료 모델을 생성한다. 학습 완료 모델은, 입력 데이터와 출력 데이터의 다수의 조합을 포함하는 교사 데이터를 컴퓨터가 처리함으로써 생성된다. 컴퓨터는, 입력 데이터를 기계 학습 모델에 입력함으로써 출력 데이터를 산출하고, 산출된 출력 데이터와, 교사 데이터로 나타나는 출력 데이터의 오차(즉, 추정 결과와 정해의 차)를 구한다. 그리고, 컴퓨터는 그 오차에 근거하여 기계 학습 모델인 뉴럴 네트워크의 주어진 파라미터를 갱신한다. 컴퓨터는 이와 같은 학습을 반복함으로써 학습 완료 모델을 생성한다. 학습 완료 모델을 생성하는 처리는 학습 페이즈라고 할 수 있으며, 그 학습 완료 모델을 이용하는 예측기(30)의 처리는 운용 페이즈라고 할 수 있다.
[시스템의 동작]
도 4를 참조하면서, 특성 예측 시스템(1)의 동작을 설명함과 함께 본 실시형태에 관한 특성 예측 방법에 대하여 설명한다. 도 4는 특성 예측 시스템(1)의 동작의 일례를 나타내는 플로 차트이다.
먼저, 입력 데이터 생성 시스템(10)의 유저의 지시 입력을 계기로 입력 데이터 생성 처리가 개시되면, 취득부(11)에 의하여, 복수의 원재료 각각에 대한 원재료 구조 데이터 및 배합률 데이터가 취득되고, 부분 구조 데이터베이스(16)로부터, 이미 알려진 복수의 부분 구조를 나타내는 부분 구조 데이터가 취득된다(스텝 S1). 다음으로, 생성부(12)에 의하여, 각각의 원재료 구조 데이터가 나타내는 원재료의 분자 구조를 대상으로 부분 구조가 탐색됨으로써, 그 분자 구조 중의 부분 구조 및 그 개수가 특정된다(스텝 S2). 또한, 생성부(12)에 의하여, 복수의 원재료의 분자 구조 중의 부분 구조마다에 부분 구조 입력 데이터 D0이 생성된다(스텝 S3). 그 후, 벡터 변환부(13)에 의하여, 모든 부분 구조 입력 데이터 D0의 각각이 하나의 벡터 형식의 벡터 VM으로 변환되고 벡터 VM에, 해당 부분 구조를 포함하는 원재료에 관한 비율 r의 데이터와, 그 원재료 중의 해당 부분 구조의 개수의 데이터가 조합됨으로써, 부분 구조 입력 데이터 D가 생성된다(스텝 S4).
다음으로, 합성부(14)에 의하여, 복수의 원재료마다의 모든 부분 구조 입력 데이터 D에 대응하는 벡터 VM이 정리되어, 합성 입력 데이터 F가 생성된다(스텝 S5). 그때, 합성부(14)에 의하여, 각각의 벡터 VM에 배합률 데이터 및 개수 데이터를 반영하면서 벡터 VM의 가중값 부여 평균을 계산함으로써, 합성 입력 데이터 F가 생성된다. 그 후, 합성부(14)에 의하여, 합성 입력 데이터 F가 트레이닝부(20)에 기계 학습용의 입력 데이터로서 출력된다(스텝 S6). 이때, 벡터 VM으로의 비율 및 개수의 반영은, 각 벡터 VM에 대하여, 비율 및 개수를 승산한 값을, 승산, 가산, 혹은 연결함으로써 행해진다. 또, 보다 일반적으로는, 합성부(14)는, 모든 부분 구조에 관한 벡터, 배합비, 및 개수를 입력으로 하여, 일정한 룰로 단일의 벡터를 출력하는 함수를 이용하여 벡터를 생성해도 되고, 배합률의 반영과 벡터의 가산의 스텝으로 나누지 않고, 한 번의 처리로 단일의 벡터를 생성해도 된다.
다음으로, 트레이닝부(20)에 있어서, 학습 페이즈가 실행되고, 입력 데이터와 교사 데이터를 이용하여 학습함으로써 학습 완료 모델이 생성된다(스텝 S7). 그리고, 생성된 학습 완료 모델이 예측기(30)에 설정되고, 예측기(30)에 의하여, 새롭게 입력 데이터 생성 시스템(10)으로부터 취득되는 입력 데이터를 이용하여 운용 페이즈가 실행되며, 다성분 물질의 특성의 예측 결과가 생성 및 출력된다(스텝 S8).
[프로그램]
컴퓨터 또는 컴퓨터 시스템을 특성 예측 시스템(1)으로서 기능시키기 위한 특성 예측 프로그램은, 그 컴퓨터 시스템을 취득부(11), 생성부(12), 벡터 변환부(13), 합성부(14), 부분 구조 데이터베이스(16), 트레이닝부(20), 및 예측기(30)로서 기능시키기 위한 프로그램 코드를 포함한다. 이 특성 예측 프로그램은, CD-ROM, DVD-ROM, 반도체 메모리 등의 유형(有形)의 기록 매체에 고정적으로 기록된 후에 제공되어도 된다. 혹은, 특성 예측 프로그램은, 반송파에 중첩된 데이터 신호로서 통신 네트워크를 통하여 제공되어도 된다. 제공된 특성 예측 프로그램은 예를 들면 보조 기억부(103)에 기억된다. 프로세서(101)가 보조 기억부(103)로부터 그 특성 예측 프로그램을 독출하여 실행함으로써, 상기의 각 기능 요소가 실현된다.
[효과]
이상 설명한 바와 같이, 상기 실시형태에 의하면, 원재료의 구조 데이터와 데이터베이스로부터 취득한 부분 구조의 구조 데이터를 기초로, 원재료의 구조 중의 이미 알려진 부분 구조를 표현한 부분 구조 입력 데이터 D가 생성되고, 그 부분 구조 입력 데이터 D에 원재료의 비율이 반영됨과 함께, 부분 구조 입력 데이터 D가 정리됨으로써 입력 데이터가 생성된다. 그리고, 생성된 입력 데이터가 기계 학습 모델에 입력된다. 그 결과, 원재료의 전체의 구조로부터 미리 설정된 부분 구조의 데이터로 좁힌 입력 데이터가 생성되고, 기계 학습에 의하여 그 입력 데이터를 처리시킴으로써, 재료의 특성을 효율적으로 예측시킬 수 있다.
또, 상기 실시형태에 있어서, 복수의 원재료에 관한 원재료 구조 데이터와, 복수의 원재료의 각각의 배합의 비율을 나타내는 배합률 데이터의 입력을 받아들여, 복수의 원재료마다에 부분 구조 입력 데이터를 생성함과 함께, 복수의 원재료의 부분 구조 입력 데이터에, 당해 복수의 원재료에 관한 배합률 데이터를 반영함으로써 입력 데이터를 생성한다. 이 경우, 복수의 원재료마다의 원재료 구조 데이터를 기초로, 이미 알려진 부분 구조를 표현한 부분 구조 입력 데이터 D0이 생성됨과 함께, 복수의 원재료마다의 부분 구조 입력 데이터 D0에 복수의 원재료마다의 비율이 반영됨으로써 합성 입력 데이터 F가 생성된다. 그리고, 생성된 합성 입력 데이터 F가 기계 학습 모델에 입력된다. 그 결과, 복수의 원재료를 기초로 제조되는 다성분 물질을 대상으로, 기계 학습에 의하여 입력 데이터를 처리시킴으로써, 그 물질의 특성을 효율적으로 예측시킬 수 있다.
또, 상기 실시형태에 있어서는, 원재료의 구조 중에 존재하는 부분 구조의 개수를 특정하고, 원재료의 부분 구조 입력 데이터에 대하여, 당해 배합률 데이터에 부분 구조의 개수를 곱한 값을 반영함으로써, 입력 데이터를 생성한다. 그 경우, 원재료의 분자 중의 부분 구조의 개수가 특정되어, 부분 구조 입력 데이터 D0에 원재료의 비율과 부분 구조의 개수를 반영할 수 있다. 그 결과, 그 원재료를 기초로 한 다성분 물질의 특성을 양호한 정밀도로 예측할 수 있다.
또한, 상기 실시형태에 있어서는, 부분 구조 입력 데이터 D에 포함되는 벡터에 대하여, 당해 배합률 데이터에 근거하는 값을, 승산, 가산, 혹은 연결하고, 승산, 가산, 혹은 연결한 벡터를 하나의 벡터로 정리함으로써, 기계 학습 모델에 입력시키는 입력 데이터를 생성한다. 이로써, 원재료의 부분 구조에 관한 부분 구조 입력 데이터 D에 대하여 그 원재료의 비율을 효과적 또한 간이하게 반영할 수 있다. 그 결과, 다성분 물질의 특성의 예측 정밀도가 향상된다.
[변형예]
이상, 본 발명을 그 실시형태에 근거하여 상세하게 설명했다. 그러나, 본 발명은 상기 실시형태에 한정되는 것은 아니다. 본 발명은, 그 요지를 벗어나지 않는 범위에서 다양한 변형이 가능하다.
상기 실시형태에서는, 입력 데이터 생성 시스템(10)이 2개의 원재료의 부분 구조 입력 데이터 D0을 조합하여 합성 입력 데이터 F를 생성하는 예를 나타냈지만, 3개 이상의 원재료의 부분 구조 입력 데이터 D0을 그들의 비율과 함께 조합하도록 기능해도 되고, 하나의 원재료의 부분 구조 입력 데이터 D만을 입력 데이터로서 생성하여 단성분 물질의 특성 예측에 이용해도 된다.
또, 입력 데이터 생성 시스템(10)의 벡터 변환부(13)에 구비되어 있는 일정한 변환 룰은, 다른 룰이어도 된다.
도 5에는, 변형예에 관한 특성 예측 시스템(1A)의 구성을 나타낸다. 이 변형예에서는, 벡터 변환부(13), 합성부(14), 및 예측기(30)의 기능이, 트레이닝부(20A)에 구비된다. 그리고, 트레이닝부(20A)에 있어서는, 이들 기능부에 있어서의, 벡터화의 기능, 데이터의 정리의 기능, 배합률 데이터·개수 데이터의 반영의 기능을, 예측기(30)와 일체화된 뉴럴 네트워크의 기계 학습 모델을 이용하여 실현한다. 그때에는, 트레이닝부(20A)는, 기계 학습 모델에, 입력 데이터 생성 시스템(10A)의 생성부(12)에 의하여 생성되는 부분 구조마다의 부분 구조 입력 데이터 D0을 입력시킨다.
여기에서는, 트레이닝부(20A)는, 뉴럴 네트워크를 이용한 기계 학습 모델에, 부분 구조 입력 데이터 D0을 입력한다. 입력되는 부분 구조 입력 데이터 D0에 포함되는 부분 구조 정보는, 구조식, 분자 그래프, SMILES 기법의 데이터, 3차원 좌표의 데이터 등이다. 이하, 부분 구조 입력 데이터 D0으로서 분자 그래프를 기계 학습 모델에 인풋하는 예에 대하여 설명한다.
즉, 상기 변형예에 있어서는, 생성부(12)는, 탐색한 각각의 부분 구조마다의 분자 구조 정보인 분자 그래프 데이터를 참조하여, 분자 그래프 G=(V,E)에 있어서의 노드 집합 V와 일대일로 대응하는 노드 벡터의 집합 FV와, 그 분자 그래프에 있어서의 에지 집합 E와 일대일로 대응하는 에지 벡터의 집합 FE를 생성한다. 노드 벡터는, 노드의 원자를 특정하기 위한 벡터이며, 예를 들면, 집합의 각 원래의 노드를 구성하는 원자의 특징을 나타내는 수치(원자 번호, 전기 음성도 등)를 차례로 나열한 벡터 요소이다. 에지 벡터는, 노드 간의 결합의 성질을 특정하기 위한 벡터이며, 예를 들면, 집합의 각 원래의 에지의 특징을 나타내는 수치(결합 차수, 결합 거리 등)를 차례로 나열한 벡터 요소이다. 또한, 생성부(12)는, 노드 벡터 집합 FV와 에지 벡터 집합 FE에 대하여, 원래의 부분 구조의 분자 그래프 데이터와, 해당 부분 구조를 포함하는 원재료에 관한 비율 r의 데이터와, 그 원재료 중의 해당 부분 구조의 개수의 데이터를 조합함으로써 부분 구조 입력 데이터 D0을 생성한다. 그리고, 생성부(12)는, 복수의 원재료마다에 탐색한 모든 부분 구조를 대상으로 하여, 부분 구조 입력 데이터 D0의 생성을 반복한다. 또, 생성부(12)는, 분자 그래프인 분자 구조 정보에 대하여, 비율 r의 데이터와 개수의 데이터만을 조합하여 부분 구조 입력 데이터 D0을 생성해도 된다.
트레이닝부(20A)는, 복수의 원재료마다의 모든 부분 구조 입력 데이터 D0이 입력되고, 뉴럴 네트워크를 이용한 기계 학습 모델에 의하여 실현되는 벡터 변환부(13) 및 합성부(14)에 의하여, 그들의 부분 구조 입력 데이터 D0을 기초로, 하나의 벡터인 합성 입력 데이터 F를 생성한다. 그리고, 합성 입력 데이터 F는, 동일한 기계 학습 모델 내의 예측기(30)에 입력된다. 또한, 본 변형예에서는, 예측기(30)의 기능이 트레이닝부(20A)의 기계 학습 모델로부터 분리되어 다른 기계 학습 모델에 의하여 실현되어도 된다.
또, 상기 실시형태의 입력 데이터 생성 시스템(10)은, 부분 구조마다의 분자 구조 정보와 배합률 데이터와 개수 데이터를, 하나의 분자 그래프에 머지(merge)하여 표현하는 기능을 갖고 있어도 된다. 이 경우, 상술한 변형예에 관한 특성 예측 시스템(1A)의 생성부(12)와 동일하게 하여, 부분 구조 입력 데이터 D0을 생성한다. 그리고, 부분 구조마다의 부분 구조 입력 데이터 D0에 포함되는 분자 그래프에 배합률 데이터와 개수 데이터를 반영한다. 상세하게는, 부분 구조 입력 데이터 D0에 포함되는 노드 벡터 집합 FV와 에지 벡터 집합 FE에 포함되는 특징 벡터에 대하여, 배합률 데이터와 개수 데이터를 반영한다. 또한, 배합률이 반영된 부분 구조마다의 부분 구조 입력 데이터 D0에 포함되는 분자 그래프를, 하나의 분자 그래프 데이터에 머지함으로써, 합성 입력 데이터 F를 생성한다. 이와 같은 경우는, 입력 데이터 생성 시스템(10)은, 분자 그래프를 인풋하여 예측 데이터를 생성할 수 있는 기계 학습 모델에, 생성한 다성분 재료마다의 분자 그래프를 입력시킴으로써, 특성 예측을 실현시킨다.
또, 상기 실시형태의 입력 데이터 생성 시스템(10)의 벡터 변환부(13)는, 복수의 원재료마다의 부분 구조 입력 데이터 D를 1차원 벡터로 변환할 때에는, 원재료의 차이를 나타내는 값을 그 벡터에 반영하도록 해도 된다. 예를 들면, 벡터 변환부(13)는, 원 핫(One-Hot) 벡터에 의하여 원재료의 차이가 나타난 벡터를 벡터 VM에 연결해도 된다. 또, 벡터 변환부(13)는, 분산 표현을 사용하여 원재료의 차이가 나타난 벡터를 벡터 VM에 연결해도 된다. 이로써, 원재료마다의 부분 구조 입력 데이터 D에, 부분 구조가 동일한 경우이더라도 원재료 간의 차이를 반영시킬 수 있다. 그 결과, 다성분 물질의 특성의 예측 정밀도가 한층 향상된다. 또, 합성부(14)는, 분자 구조가 알려져 있지 않은 원재료군의 배합량을 나열한 벡터를 합성 입력 데이터 F에 연결해도 된다. 이로써, 분자 구조가 알려져 있지 않은 원재료를 포함하는 경우에서도 특성을 예측할 수 있게 된다.
한편, 상기 변형예에 나타낸 바와 같은 그래프를 인풋으로 하는 뉴럴 네트워크를 이용하는 경우, 상기 실시형태의 입력 데이터 생성 시스템(10)은, 원재료의 차이가 나타난 벡터를 부가할 때에는, 생성부(12)에 의하여 생성되는 각 원재료의 노드 벡터에, 그 벡터를 연결해도 된다. 또한, 상기 변형예에 관한 특성 예측 시스템(1A)의 벡터 변환부(13)는, 뉴럴 네트워크의 기계 학습 모델로 실현되어도 된다. 그때에는, 벡터 변환부(13)는, 뉴럴 네트워크의 중간층의 벡터에 원재료의 차이가 나타난 벡터를 반영하도록 동작해도 된다.
또, 합성부(14)는, 생성부(12)에 의하여 탐색된 복수의 원재료마다의 모든 부분 구조 중에서, 일부의 부분 구조의 데이터를 소정의 룰에 의하여 선택하고 합성하여, 합성 입력 데이터 F를 생성해도 된다. 예를 들면, 소정의 룰로서는, 서로 유사한 부분 구조의 데이터 중에서 일부를 선택하는 등이 생각된다.
또, 상기 실시형태에 있어서는, 부분 구조 데이터베이스에 복수 종류의 부분 구조 데이터가 미리 설정되어도 된다. 예를 들면, 복수의 부분 구조 중에서 하나의 구조를 순차 삭제한 복수 종류의 부분 구조 데이터를 설정하는 것이 생각된다. 이 경우, 입력 데이터 생성 시스템(10)은, 부분 구조 데이터베이스(16)로부터 복수 종류의 부분 구조 데이터를 취득하고, 복수 종류의 부분 구조 데이터를 이용하여 복수 종류의 입력 데이터를 생성하며, 복수 종류의 입력 데이터를 복수의 기계 학습 모델에 입력함으로써 앙상블 학습기를 구축하는 기능을 갖는다. 이로써, 다양한 부분 구조의 탐색 결과를 기초로 한 입력 데이터를 복수의 학습기에 입력할 수 있고, 복수의 학습기의 예측 결과를 평균 또는 다수결로 회귀 또는 분류를 행하는 앙상블 학습을 실현할 수 있어, 다성분 물질의 특성의 예측 정밀도를 더 향상시킬 수 있다.
또, 상기 실시형태에 있어서는, 합성 입력 데이터 F로서, 원재료의 분자의 전체 구조를 나타내는 데이터를 기초로 한 특징 벡터가 병용되어도 된다. 예를 들면, 이와 같은 특징 벡터를 합성 입력 데이터 F에 연결하여 특성 예측에 이용되어도 되고, 이와 같은 특징 벡터를 기초로 한 입력 데이터가 앙상블 학습에 이용되어도 된다.
적어도 하나의 프로세서에 의하여 실행되는 입력 데이터 생성 방법의 처리 수순은 상기 실시형태에서의 예에 한정되지 않는다. 예를 들면, 상술한 스텝(처리)의 일부가 생략되어도 되고, 다른 순서로 각 스텝이 실행되어도 된다. 또, 상술한 스텝 중 임의의 2 이상의 스텝이 조합되어도 되고, 스텝의 일부가 수정 또는 삭제되어도 된다. 혹은, 상기의 각 스텝에 더하여 다른 스텝이 실행되어도 된다. 예를 들면 스텝 S8, S9의 처리가 생략되어도 된다.
본 개시에 있어서, "적어도 하나의 프로세서가, 제1 처리를 실행하고, 제2 처리를 실행하며, …제n 처리를 실행한다."라는 표현, 또는 이에 대응하는 표현은, 제1 처리에서부터 제n 처리까지의 n개의 처리의 실행 주체(즉 프로세서)가 도중에 바뀌는 경우를 포함하는 개념을 나타낸다. 즉, 이 표현은, n개의 처리의 전부가 동일한 프로세서로 실행되는 경우와, n개의 처리에 있어서 프로세서가 임의의 방침으로 바뀌는 경우의 쌍방을 포함하는 개념을 나타낸다.
1, 1A…특성 예측 시스템
10, 10A…입력 데이터 생성 시스템
100…컴퓨터
101…프로세서
11…취득부
12…생성부
13…벡터 변환부
14…합성부
16…부분 구조 데이터베이스
20…트레이닝부
30…예측기

Claims (9)

  1. 이미 알려진 구조의 원재료를 기초로 한 재료의 특성을 예측하는 특성 예측 시스템으로서,
    적어도 하나의 프로세서를 구비하고,
    상기 적어도 하나의 프로세서가,
    데이터베이스로부터 부분 구조를 나타내는 부분 구조 데이터를 취득하며,
    상기 원재료의 구조를 특정하는 원재료 구조 데이터와, 상기 원재료의 배합의 비율을 나타내는 배합률 데이터의 입력을 적어도 받아들이고,
    상기 부분 구조 데이터와 상기 원재료 구조 데이터를 기초로, 상기 원재료의 구조 중에 존재하는 상기 부분 구조를 나타내는 부분 구조 입력 데이터를 생성하며,
    상기 원재료의 부분 구조 입력 데이터에, 당해 배합률 데이터를 반영함으로써 입력 데이터를 생성하고,
    상기 입력 데이터를 기계 학습 모델에 입력시키는, 특성 예측 시스템.
  2. 청구항 1에 있어서,
    상기 적어도 하나의 프로세서는,
    복수의 상기 원재료에 관한 상기 원재료 구조 데이터와, 상기 복수의 원재료의 각각의 배합의 비율을 나타내는 배합률 데이터의 입력을 받아들이고,
    상기 복수의 원재료마다에 상기 부분 구조 입력 데이터를 생성함과 함께, 상기 복수의 원재료의 상기 부분 구조 입력 데이터에, 당해 복수의 원재료에 관한 배합률 데이터를 반영함으로써 상기 입력 데이터를 생성하는, 특성 예측 시스템.
  3. 청구항 1 또는 청구항 2에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 원재료의 구조 중에 존재하는 상기 부분 구조의 개수를 특정하고,
    상기 원재료의 상기 부분 구조 입력 데이터에 대하여, 당해 배합률 데이터에 상기 부분 구조의 개수를 곱한 값을 반영함으로써, 상기 입력 데이터를 생성하는, 특성 예측 시스템.
  4. 청구항 1 내지 청구항 3 중 어느 한 항에 있어서,
    상기 부분 구조 입력 데이터는, 상기 부분 구조의 구조를 나타내는 분자 구조 정보인, 특성 예측 시스템.
  5. 청구항 1 내지 청구항 4 중 어느 한 항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 부분 구조 입력 데이터를 기초로 한 벡터에 대하여, 당해 배합률 데이터에 근거하는 값을, 승산, 가산, 혹은 연결하고, 승산, 가산, 혹은 연결한 상기 벡터를 하나의 벡터로 정리함으로써, 상기 입력 데이터를 생성하는, 특성 예측 시스템.
  6. 청구항 2에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 복수의 원재료마다의 부분 구조 입력 데이터인 복수의 데이터에 대하여, 상기 원재료의 차이를 나타내는 값을 더 반영시켜 하나의 데이터로 정리함으로써, 상기 입력 데이터를 생성하는, 특성 예측 시스템.
  7. 청구항 1 내지 청구항 6 중 어느 한 항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 데이터베이스로부터 복수 종류의 상기 부분 구조 데이터를 취득하고,
    복수 종류의 상기 부분 구조 데이터를 이용하여 복수 종류의 상기 입력 데이터를 생성하며,
    복수 종류의 상기 입력 데이터를 복수의 기계 학습 모델에 입력하여 앙상블 학습기를 구축하는, 특성 예측 시스템.
  8. 적어도 하나의 프로세서를 구비하는 컴퓨터에 의하여 실행되며, 이미 알려진 구조의 원재료를 기초로 한 재료의 특성을 예측하는 특성 예측 방법으로서,
    데이터베이스로부터 부분 구조를 나타내는 부분 구조 데이터를 취득하는 스텝과,
    상기 원재료의 구조를 특정하는 원재료 구조 데이터와, 상기 원재료의 배합의 비율을 나타내는 배합률 데이터의 입력을 적어도 받아들이는 스텝과,
    상기 부분 구조 데이터와 상기 원재료 구조 데이터를 기초로, 상기 원재료의 구조 중에 존재하는 상기 부분 구조를 나타내는 부분 구조 입력 데이터를 생성하는 스텝과,
    상기 원재료의 부분 구조 입력 데이터에, 당해 배합률 데이터를 반영함으로써 입력 데이터를 생성하는 스텝과,
    상기 입력 데이터를 기계 학습 모델에 입력시키는 스텝을 구비하는 특성 예측 방법.
  9. 이미 알려진 구조의 원재료를 기초로 한 재료의 특성을 예측하는 특성 예측 프로그램으로서,
    컴퓨터에,
    데이터베이스로부터 부분 구조를 나타내는 부분 구조 데이터를 취득하는 스텝과,
    상기 원재료의 구조를 특정하는 원재료 구조 데이터와, 상기 원재료의 배합의 비율을 나타내는 배합률 데이터의 입력을 적어도 받아들이는 스텝과,
    상기 부분 구조 데이터와 상기 원재료 구조 데이터를 기초로, 상기 원재료의 구조 중에 존재하는 상기 부분 구조를 나타내는 부분 구조 입력 데이터를 생성하는 스텝과,
    상기 원재료의 부분 구조 입력 데이터에, 당해 배합률 데이터를 반영함으로써 입력 데이터를 생성하는 스텝과,
    상기 입력 데이터를 기계 학습 모델에 입력시키는 스텝을 실행시키는 특성 예측 프로그램.
KR1020237038112A 2021-04-23 2022-04-21 특성 예측 시스템, 특성 예측 방법, 및 특성 예측 프로그램 KR20240000515A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2021073164A JP2022167397A (ja) 2021-04-23 2021-04-23 特性予測システム、特性予測方法、及び特性予測プログラム
JPJP-P-2021-073164 2021-04-23
PCT/JP2022/018416 WO2022225009A1 (ja) 2021-04-23 2022-04-21 特性予測システム、特性予測方法、及び特性予測プログラム

Publications (1)

Publication Number Publication Date
KR20240000515A true KR20240000515A (ko) 2024-01-02

Family

ID=83722357

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237038112A KR20240000515A (ko) 2021-04-23 2022-04-21 특성 예측 시스템, 특성 예측 방법, 및 특성 예측 프로그램

Country Status (5)

Country Link
EP (1) EP4318481A1 (ko)
JP (1) JP2022167397A (ko)
KR (1) KR20240000515A (ko)
CN (1) CN117561575A (ko)
WO (1) WO2022225009A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023224012A1 (ja) * 2022-05-18 2023-11-23 国立研究開発法人産業技術総合研究所 物性予測装置、物性予測方法、及びプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019028879A (ja) 2017-08-02 2019-02-21 学校法人立命館 結合性予測方法、装置、プログラム、記録媒体、および機械学習アルゴリズムの製造方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019028879A (ja) 2017-08-02 2019-02-21 学校法人立命館 結合性予測方法、装置、プログラム、記録媒体、および機械学習アルゴリズムの製造方法

Also Published As

Publication number Publication date
WO2022225009A1 (ja) 2022-10-27
JP2022167397A (ja) 2022-11-04
CN117561575A (zh) 2024-02-13
EP4318481A1 (en) 2024-02-07

Similar Documents

Publication Publication Date Title
Zeng et al. ReacNetGenerator: an automatic reaction network generator for reactive molecular dynamics simulations
CN109791642A (zh) 工作流的自动生成
EP4044063A1 (en) Information processing system, information processing method, and information processing program
US11132621B2 (en) Correction of reaction rules databases by active learning
CN111949306B (zh) 一种支持开源项目碎片化学习的推送方法和系统
KR20240000515A (ko) 특성 예측 시스템, 특성 예측 방법, 및 특성 예측 프로그램
US20220391699A1 (en) Input data generation system, input data generation method, and storage medium
EP4318480A1 (en) Characteristics prediction system, characteristics prediction method, and characteristic prediction program
CN105260626B (zh) 蛋白质结构空间构象的全信息预测方法
Lin et al. Essential step toward mining big polymer data: polyname2structure, mapping polymer names to structures
JP7347147B2 (ja) 分子記述子生成システム、分子記述子生成方法、及び分子記述子生成プログラム
EP4044062A1 (en) Information processing system, information processing method, and information processing program
EP4092084A1 (en) Information processing system, information processing method, and information processing program
Heintz Systemic approach and decision process for sustainability in chemical engineering: Application to computer aided product design
JP7509152B2 (ja) 情報処理システム、情報処理方法、および情報処理プログラム
Requeno et al. Evaluation of properties over phylogenetic trees using stochastic logics
US20240047018A1 (en) Information processing system, information processing method, and storage medium
Ham et al. Evidential meta-model for molecular property prediction
KR101578606B1 (ko) Sns 기반 선물 추천 장치 및 방법
Bicerano et al. Polymer expert–A software tool for de novo polymer design
Dovier et al. Protein Structure Analysis with Constraint Programming
Tuji et al. Comparison of Protein Complexes Predicted from PPI Networks by DPClus and Newman Clustering Algorithms