KR20230175227A

KR20230175227A - 특성 예측 시스템, 특성 예측 방법, 및 특성 예측 프로그램

Info

Publication number: KR20230175227A
Application number: KR1020237038495A
Authority: KR
Inventors: 교헤이 하나오카
Original assignee: 가부시끼가이샤 레조낙
Priority date: 2021-04-23
Filing date: 2022-04-21
Publication date: 2023-12-29
Also published as: EP4318480A1; WO2022225008A1; JP2022167395A; CN117529781A

Abstract

입력 데이터 생성 시스템(10)은, 이미 알려진 부분 구조를 포함하는 복수의 원재료를 기초로 한 재료의 특성을 예측하는 기계 학습용의 입력 데이터를 생성하는 입력 데이터 생성 시스템으로서, 프로세서(101)를 구비하고, 프로세서(101)가, 복수의 원재료의 각각의 이미 알려진 부분 구조를 특정하는 부분 구조 데이터와, 복수의 원재료의 각각의 배합의 비율을 나타내는 배합률 데이터의 입력을 적어도 받아들이며, 복수의 원재료마다의 부분 구조 데이터를 기초로 이미 알려진 부분 구조를 나타내는 부분 구조 입력 데이터 D를 생성하고, 복수의 원재료의 부분 구조 입력 데이터 D에, 당해 복수의 원재료에 관한 배합률 데이터를 반영함과 함께, 복수의 원재료마다의 부분 구조 입력 데이터 D를 정리함으로써 합성 입력 데이터 F를 생성하며, 합성 입력 데이터 F를 기계 학습 모델에 입력한다.

Description

특성 예측 시스템, 특성 예측 방법, 및 특성 예측 프로그램

본 개시의 일 측면은, 특성 예측 시스템, 특성 예측 방법, 및 특성 예측 프로그램에 관한 것이다.

종래부터, 분자의 구조를 소정의 포맷으로 취득하고 그것을 벡터 정보로 변환하여 기계 학습 알고리즘에 입력하여 특성을 예측하는 것이 행해지고 있다. 예를 들면, 생체 고분자의 입체 구조와 화합물의 입체 구조의 결합성을 기계 학습을 이용하여 예측하는 방법이 알려져 있다(하기 특허문헌 1 참조). 이 방법에서는, 생체 고분자의 입체 구조와 화합물의 입체 구조에 근거하여 생체 고분자와 화합물의 복합체의 예측 입체 구조를 생성하고, 그 예측 입체 구조를 예측 입체 구조 벡터로 변환하며, 기계 학습 알고리즘을 이용하여 그 예측 입체 구조 벡터를 판별함으로써 생체 고분자의 입체 구조와 화합물의 입체 구조의 결합성을 예측하고 있다.

특허문헌 1: 일본 공개특허공보 2019-28879호

최근에서는, 구조가 명확한 재료에 관한 분자 그래프 등의 구조를 나타내는 데이터를 입력으로 한 뉴럴 네트워크에 의하여 재료의 특성을 예측하는 기술이 알려져 있다. 그러나, 기계 학습의 인풋이 되는 화학 구조의 일부밖에 명확하지 않은 케이스에 있어서, 복수의 불완전한 부분 구조를 학습하여, 재료의 특성을 예측하는 것은 실현되고 있지 않다. 따라서, 화학 구조의 일부밖에 명확하지 않은 재료의 특성을 효율적으로 예측시키기 위한 구조가 요망되고 있다.

본 개시의 일 형태의 특성 예측 시스템은, 이미 알려진 부분 구조를 포함하는 복수의 원재료를 기초로 한 재료의 특성을 예측하는 특성 예측 시스템으로서, 적어도 하나의 프로세서를 구비하고, 적어도 하나의 프로세서가, 복수의 원재료의 각각의 이미 알려진 부분 구조를 특정하는 부분 구조 데이터와, 복수의 원재료의 각각의 배합의 비율을 나타내는 배합률 데이터의 입력을 적어도 받아들이며, 복수의 원재료마다의 부분 구조 데이터를 기초로 이미 알려진 부분 구조를 나타내는 부분 구조 입력 데이터를 생성하고, 복수의 원재료의 부분 구조 입력 데이터에, 당해 복수의 원재료에 관한 배합률 데이터를 반영하며, 배합률 데이터가 반영된 복수의 원재료마다의 부분 구조 입력 데이터를 기초로 한 입력 데이터를 기계 학습 모델에 입력시킨다.

혹은, 본 개시의 다른 형태의 특성 예측 방법은, 적어도 하나의 프로세서를 구비하는 컴퓨터에 의하여 실행되어, 이미 알려진 부분 구조를 포함하는 복수의 원재료를 기초로 한 재료의 특성을 예측하는 특성 예측 방법으로서, 복수의 원재료의 각각의 이미 알려진 부분 구조를 특정하는 부분 구조 데이터와, 복수의 원재료의 각각의 배합의 비율을 나타내는 배합률 데이터의 입력을 적어도 받아들이는 스텝과, 복수의 원재료마다의 부분 구조 데이터를 기초로 이미 알려진 부분 구조를 나타내는 부분 구조 입력 데이터를 생성하는 스텝과, 복수의 원재료의 부분 구조 입력 데이터에, 당해 복수의 원재료에 관한 배합률 데이터를 반영하는 스텝과, 배합률 데이터가 반영된 복수의 원재료마다의 부분 구조 입력 데이터를 기초로 한 입력 데이터를 기계 학습 모델에 입력시키는 스텝을 구비한다.

혹은, 본 개시의 다른 형태의 특성 예측 프로그램은, 이미 알려진 부분 구조를 포함하는 복수의 원재료를 기초로 한 재료의 특성을 예측하는 특성 예측 프로그램으로서, 컴퓨터에, 복수의 원재료의 각각의 이미 알려진 부분 구조를 특정하는 부분 구조 데이터와, 복수의 원재료의 각각의 배합의 비율을 나타내는 배합률 데이터의 입력을 적어도 받아들이는 스텝과, 복수의 원재료마다의 부분 구조 데이터를 기초로 이미 알려진 부분 구조를 나타내는 부분 구조 입력 데이터를 생성하는 스텝과, 복수의 원재료의 부분 구조 입력 데이터에, 당해 복수의 원재료에 관한 배합률 데이터를 반영하는 스텝과, 배합률 데이터가 반영된 복수의 원재료마다의 부분 구조 입력 데이터를 기초로 한 입력 데이터를 기계 학습 모델에 입력시키는 스텝을 실행시킨다.

상기 형태에 의하면, 복수의 원재료마다의 부분 구조 데이터를 기초로, 이미 알려진 부분 구조를 표현한 부분 구조 입력 데이터가 생성되고, 복수의 원재료의 부분 구조 입력 데이터에 복수의 원재료에 관한 배합의 비율이 반영되며, 비율이 반영된 복수의 원재료마다의 부분 구조 입력 데이터를 기초로 한 입력 데이터가 기계 학습 모델에 입력된다. 그 결과, 화학 구조의 일부밖에 명확하지 않은 복수의 원재료를 기초로 제조되는 재료를 대상으로, 기계 학습에 의하여 입력 데이터를 처리시킴으로써, 그 재료의 특성을 효율적으로 예측시킬 수 있다.

본 개시의 측면에 의하면, 화학 구조의 일부밖에 명확하지 않은 원재료를 기초로 제조되는 재료의 특성을 효율적으로 예측할 수 있다.

도 1은 실시형태에 관한 특성 예측 시스템을 구성하는 컴퓨터의 하드웨어 구성의 일례를 나타내는 도이다.
도 2는 실시형태에 관한 특성 예측 시스템의 기능 구성의 일례를 나타내는 도이다.
도 3은 도 2의 취득부(11)가 취득하는 부분 구조 데이터에 의하여 특정되는 부분 구조의 일례를 나타내는 도이다.
도 4는 실시형태에 관한 특성 예측 시스템의 동작의 일례를 나타내는 플로 차트이다.
도 5는 변형예에 관한 특성 예측 시스템의 기능 구성의 일례를 나타내는 도이다.
도 6은 도 5의 생성부(12)가 생성하는 부분 구조 입력 데이터의 구체예를 나타내는 도이다.

이하, 첨부 도면을 참조하여, 본 발명의 실시형태에 대하여 상세하게 설명한다. 또한, 설명에 있어서, 동일 요소 또는 동일 기능을 갖는 요소에는, 동일 부호를 이용하는 것으로 하고, 중복되는 설명은 생략한다.

[시스템의 개요]

실시형태에 관한 특성 예측 시스템(1)은, 이미 알려진 부분 구조를 포함하는 복수의 원재료를 다양한 비율로 배합함으로써 제조되는 재료인 다성분 물질의 특성의 예측 처리를, 기계 학습 모델을 이용하여 실행하는 컴퓨터 시스템이다. 원재료란, 다성분 물질을 생성하기 위하여 이용되는, 적어도 분자 구조 중의 일부의 구조가 명확한 화학 물질, 및 완전히 구조가 불명한 화학 물질을 말하며, 예를 들면, 모노머, 폴리머, 또는, 저분자 첨가제, 용질 분자, 가스 분자 등의 단분자이다. 하나의 원재료에는 복수 종류의 분자가 포함되어 있어도 된다. 다성분 물질이란, 복수의 원재료를 소정의 비율로 배합함으로써 생성되는 화학 물질이며, 예를 들면, 원재료가 모노머 혹은 폴리머인 경우는 폴리머 알로이, 원재료가 용질 분자 혹은 용매인 경우에는 혼합 용액, 원재료가 가스 분자인 경우는 혼합 기체이다.

특성 예측 시스템(1)에 의한 예측 처리의 대상은, 다성분 물질의 특성이다. 다성분 물질의 특성이란, 예를 들면, 다성분 물질이 수지의 경우는, 유리 전이 온도, 융점 등의 열물성, 기계 물성, 접착성 등이다. 또, 다성분 물질의 특성은, 다성분 물질이 다른 종류의 물질의 경우는, 약제의 약효 혹은 독성, 가연물의 발화점 등의 위험성, 외관상의 특성, 특정 용도에 대한 적정 등이다. 특성 예측 시스템(1)의 예측 처리에는 기계 학습이 이용된다. 기계 학습이란, 부여된 정보에 근거하여 법칙 또는 룰을 자율적으로 알아내는 수법이다. 기계 학습의 구체적인 수법은 한정되지 않는다. 예를 들면, 기계 학습은, 계산 모델인 기계 학습 모델을 이용한 기계 학습이어도 된다. 보다 구체적으로는, 계산 모델은, 뉴럴 네트워크이다. 뉴럴 네트워크란, 인간의 뇌신경계의 구조를 모방한 정보 처리의 모델을 말한다. 그 이외의 계산 모델의 보다 구체적인 예로서, 뉴럴 네트워크 이외에, SVR(Support Vector Regression), 랜덤 포레스트 등이어도 된다.

[시스템의 구성]

특성 예측 시스템(1)은 한 대 이상의 컴퓨터로 구성된다. 복수 대의 컴퓨터를 이용하는 경우에는, 이들 컴퓨터가 인터넷, 인트라넷 등의 통신 네트워크를 통하여 접속됨으로써, 논리적으로 하나의 특성 예측 시스템(1)이 구축된다.

도 1은, 특성 예측 시스템(1)을 구성하는 컴퓨터(100)의 일반적인 하드웨어 구성의 일례를 나타내는 도이다. 예를 들면, 컴퓨터(100)는, 오퍼레이팅 시스템, 애플리케이션·프로그램 등을 실행하는 프로세서(예를 들면 CPU)(101)와, ROM 및 RAM으로 구성되는 주기억부(102)와, 하드 디스크, 플래시 메모리 등으로 구성되는 보조 기억부(103)와, 네트워크 카드 또는 무선 통신 모듈로 구성되는 통신 제어부(104)와, 키보드, 마우스, 터치 패널 등의 입력 장치(105)와, 모니터, 터치 패널 디스플레이 등의 출력 장치(106)를 구비한다.

특성 예측 시스템(1)의 각 기능 요소는, 프로세서(101) 또는 주기억부(102) 상에 미리 정해진 프로그램을 읽어 들여 프로세서(101)에 그 프로그램을 실행시킴으로써 실현된다. 프로세서(101)는 그 프로그램에 따라, 통신 제어부(104), 입력 장치(105), 또는 출력 장치(106)를 동작시키고, 주기억부(102) 또는 보조 기억부(103)에 있어서의 데이터의 독출 및 기입을 행한다. 처리에 필요한 데이터 또는 데이터베이스는 주기억부(102) 또는 보조 기억부(103) 내에 저장된다.

도 2는 특성 예측 시스템(1)의 기능 구성의 일례를 나타내는 도이다. 특성 예측 시스템(1)은, 입력 데이터 생성 시스템(10), 트레이닝부(20), 및 예측기(30)를 구비한다. 이들 입력 데이터 생성 시스템(10), 트레이닝부(20), 및 예측기(30)는, 동일한 컴퓨터(100) 상에서 구축되어 있어도 되고, 일부가 다른 컴퓨터(100) 상에 구축되어 있어도 된다. 먼저, 입력 데이터 생성 시스템(10)의 기능 구성을 설명한다. 입력 데이터 생성 시스템(10)은 기능 요소로서 취득부(11), 생성부(12), 벡터 변환부(13), 및 합성부(14)를 포함하고 있다.

취득부(11)는, 예측 대상의 다성분 물질의 기가 되는 복수의 원재료를 구성하는 각각의 분자 중의 이미 알려진 부분 구조에 관한 부분 구조 데이터와, 이들 복수의 원재료를 배합하여 다성분 물질을 제조하는 것을 상정한 경우의 각각의 원재료의 배합의 비율을 나타내는 배합률 데이터와, 복수의 원재료의 분자 중의 이미 알려진 부분 구조의 개수를 나타내는 개수 데이터의 입력을 받아들이는 기능 요소이다. 취득부(11)는, 이들 데이터를 입력 데이터 생성 시스템(10) 내의 데이터베이스로부터 입력 데이터 생성 시스템(10)의 유저에 의한 선택 입력에 따라 취득해도 되고, 외부의 컴퓨터 등으로부터 유저에 의한 선택에 따라 취득해도 된다. 또, 취득부(11)는, 이들 데이터를 유저가 직접 입력에 의하여 취득해도 된다.

구체적으로는, 취득부(11)는, 제1 원재료의 분자에 포함되는 부분 구조를 특정하는 제1 부분 구조 데이터와, 제2 원재료의 분자에 포함되는 부분 구조를 특정하는 제2 부분 구조 데이터를 적어도 취득한다. 이들 부분 구조 데이터는, 부분 구조를 나타내는 분자 구조 정보이다. 예를 들면, 이들 부분 구조 데이터는, 분자 구조를, 숫자, 영문자, 텍스트, 벡터 등으로 특정하는 데이터여도 되고, 2차원 좌표, 3차원 좌표 등에 의하여 가시화되는 데이터여도 되며, 이들 데이터 중 임의의 2 이상의 조합의 데이터여도 된다. 부분 구조 데이터를 구성하는 개개의 수치는, 10진법으로 나타나도 되고, 2진법, 16진법 등의 다른 표기법에 의하여 나타나도 된다. 더 구체적으로는, 이들 부분 구조 데이터는, 구조식, 분자 그래프, SMILES(Simplified Molecular Input Line Entry System) 기법의 데이터, MOL 파일 포맷의 데이터 등이어도 된다.

도 3의 (a)부 및 (b)부에는, 제1 부분 구조 데이터에 의하여 특정되는 부분 구조의 일례를 나타내고, (a)부에는 그 부분 구조의 일례를 나타내며, (b)부에 그 부분 구조의 다른 예를 나타낸다. 이와 같이, 각각의 원재료의 부분 구조 데이터는, 복수의 부분 구조를 특정하는 데이터가 포함되어도 된다. 제1 부분 구조 데이터는, 제1 원재료의 분자 중의 1 이상의 각 부분 구조를 특정할 수 있는 데이터이다. 제2 부분 구조 데이터도, 동일하게, 제2 원재료의 분자 중의 1 이상의 부분 구조를 특정할 수 있는 데이터이다.

또, 취득부(11)는, 복수의 원재료의 비율 r을 나타내는 배합률 데이터로서, 각각의 원재료의 비율 자체를 나타내는 데이터를 취득해도 되고, 복수의 원재료 간의 비율을 나타내는 데이터를 취득해도 되며, 복수의 원재료의 각각의 배합량(중량, 체적 등)을 절댓값 혹은 상댓값으로 나타내는 데이터를 취득해도 된다. 예를 들면, 취득부(11)는, 제1 원재료인 제1 모노머의 비율 r₁="0.5"와, 제2 원재료인 제2 모노머의 비율 r₂="0.5"를 취득한다.

또한, 취득부(11)는, 복수의 원재료의 분자 중의 이미 알려진 부분 구조의 개수에 관한 개수 데이터로서, 예를 들면, 제1 원재료의 분자 중의 도 3의 (a)부에 나타내는 부분 구조의 개수 "1"과, 제1 원재료 중의 도 3의 (b)부에 나타내는 부분 구조의 개수 "1"을 나타내는 데이터를 취득한다. 동일하게 하여, 취득부(11)는, 복수의 원재료의 각각의 분자 중의 부분 구조의 개수를 나타내는 데이터를 취득한다. 또한, 여기에서 취득하는 개수 데이터는, 동일한 원재료의 분자 중의 부분 구조의 개수의 총합이 "1"이 되도록 규격화된 개수를 나타내는 데이터여도 된다.

생성부(12)는, 취득부(11)가 취득한 부분 구조 데이터, 배합률 데이터, 및 개수 데이터를 기초로, 복수의 원재료의 부분 구조마다에, 원재료에 포함되는 부분 구조에 관한 부분 구조 데이터와, 그 원재료에 관한 비율 r의 데이터와, 그 부분 구조에 관한 개수의 데이터를 조합한 부분 구조 입력 데이터 D0을 생성한다. 그리고, 생성부(12)는, 복수의 원재료마다의 모든 부분 구조 데이터를 대상으로 하여, 부분 구조 입력 데이터 D0의 생성을 반복한다.

벡터 변환부(13)는, 생성부(12)에 의하여 생성된 모든 부분 구조 입력 데이터 D0의 각각을 하나의 벡터 데이터로 변환한다. 예를 들면, 벡터 변환부(13)는, 부분 구조 입력 데이터 D0에 포함되는 각각의 부분 구조 데이터를 참조하여 그들을 분자 기술화함으로써 벡터 V_M으로 변환한다. 분자 기술화에 의하여, 부분 구조 데이터가 나타내는 분자의 특징을 그 화학 구조에 근거하여 수치열로서 나타낼 수 있다. 이 분자 기술화의 방식으로서는, 분자 구조를 벡터화하는 수법이면 임의의 방식을 채용할 수 있지만, 예를 들면, ECFP(Extended Connectivity FingerPrints), MACCS FingerPrints, PubChem FingerPrints, Substructure FingerPrints, Estate FingerPrints, BCI FingerPrints, Molprint2D FingerPrints, Pass baseFingerPrints 등을 채용할 수 있다. 또한, 벡터 변환부(13)는, 각각의 부분 구조 데이터마다에 생성한 벡터 V_M에 대하여, 해당 부분 구조를 포함하는 원재료에 관한 비율 r의 데이터와, 그 원재료 중의 해당 부분 구조의 개수의 데이터를 조합함으로써 부분 구조 입력 데이터 D를 생성한다.

합성부(14)는, 벡터 변환부(13)에 의하여 벡터로 변환된, 복수의 원재료마다의 모든 부분 구조마다의 벡터 V_M을, 하나의 벡터 데이터로 정리하여, 합성 입력 데이터 F를 생성한다. 예를 들면, 합성부(14)는, 제1 원재료에 대응한 2개의 부분 구조 입력 데이터 D_1,1, D_1,2와, 제2 원재료에 대응한 2개의 부분 구조 입력 데이터 D_2,1, D_2,2가 존재하는 경우에는, 그들의 4개의 부분 구조 입력 데이터 D_1,1, D_1,2, D_2,1, D_2,2에 대응하는 4개의 벡터 V_M을 정리한 합성 입력 데이터 F를 생성한다.

이때, 합성부(14)는, 그들의 4개의 부분 구조 입력 데이터 D_1,1, D_1,2, D_2,1, D_2,2에 대응하는 4개의 벡터 V_M에 각각의 부분 구조에 대응하는 배합률 데이터 및 개수 데이터를 반영함으로써, 4개의 벡터 V_M의 가중값 부여 평균을 취하여 합성 입력 데이터 F를 생성한다. 보다 상세하게는, 합성부(14)는, 부분 구조 입력 데이터 D_1,1, D_1,2, D_2,1, D_2,2에 대응하는 4개의 벡터 V_M의 각각의 요소에, 각각의 부분 구조에 대응하는 비율 r 및 개수 n을 승산한 후에, 4개의 벡터 V_M의 각각의 요소를 가산(혹은 평균화)함으로써, 합성 입력 데이터 F를 생성한다. 예를 들면, 합성부(14)는, 제1 원재료의 부분 구조에 대응하는 벡터 V_M에 대해서는, 제1 원재료의 비율 r₁에 그 부분 구조의 개수 n을 곱한 값을 승산하고, 제2 원재료의 부분 구조에 대응하는 벡터 V_M에 대해서는, 제2 원재료의 비율 r₂에 그 부분 구조의 개수 n을 곱한 값을 승산한다. 단, 비율 및 개수 데이터의 반영은, 벡터 V_M의 각 요소에 대하여, 비율 r에 개수 n을 곱한 값을 가산함으로써 행해져도 되고, 각 요소에 대하여, 비율 r에 개수 n을 곱한 값을 연결함으로써 행해져도 된다. 또, 보다 일반적으로는, 합성부(14)는, 모든 부분 구조에 관한 벡터, 배합비, 및 개수를 입력으로 하여, 일정한 룰로 단일의 벡터를 출력하는 함수를 이용하여 벡터를 생성해도 되고, 배합률의 반영과 벡터의 가산의 스텝으로 나누지 않고, 한 번의 처리로 단일의 벡터를 생성해도 된다.

또한, 합성부(14)는, 생성한 합성 입력 데이터 F를 외부로 출력함으로써, 외부의 기계 학습 모델에 입력한다. 즉, 출력된 합성 입력 데이터 F는, 입력 데이터 생성 시스템(10)의 외부에 접속된 컴퓨터 내의 트레이닝부(20)에 의하여 읽힌다. 그리고, 트레이닝부(20)에 있어서, 그 합성 입력 데이터 F가 설명 변수로서 임의의 교사 라벨과 함께 기계 학습 모델에 입력됨으로써, 학습 완료 모델이 생성된다. 또한, 트레이닝부(20)에 의하여 생성된 학습 완료 모델을 기초로 예측기(30) 내의 기계 학습 모델이 설정된다. 단, 트레이닝부(20)와 예측기(30)는 동일한 기능부여도 된다. 그리고, 입력 데이터 생성 시스템(10)에 의하여 생성된 합성 입력 데이터 F가 예측기(30) 내의 기계 학습 모델에 입력됨으로써, 예측기(30)에 의하여 다성분 물질의 특성의 예측 결과가 생성 및 출력된다. 또한, 이들 트레이닝부(20) 및 예측기(30)는, 입력 데이터 생성 시스템(10)을 구성하는 컴퓨터(100)와 동일한 컴퓨터 내에 구성되어도 되고, 컴퓨터(100)와 별체의 컴퓨터 내에 구성되어도 된다.

일례에서는, 트레이닝부(20)는, 뉴럴 네트워크를 이용한 학습 완료 모델을 생성한다. 학습 완료 모델은, 입력 데이터와 출력 데이터의 다수의 조합을 포함하는 교사 데이터를 컴퓨터가 처리함으로써 생성된다. 컴퓨터는, 입력 데이터를 기계 학습 모델에 입력함으로써 출력 데이터를 산출하고, 산출된 출력 데이터와, 교사 데이터로 나타나는 출력 데이터의 오차(즉, 추정 결과와 정해의 차)를 구한다. 그리고, 컴퓨터는 그 오차에 근거하여 기계 학습 모델인 뉴럴 네트워크의 주어진 파라미터를 갱신한다. 컴퓨터는 이와 같은 학습을 반복함으로써 학습 완료 모델을 생성한다. 학습 완료 모델을 생성하는 처리는 학습 페이즈라고 할 수 있으며, 그 학습 완료 모델을 이용하는 예측기(30)의 처리는 운용 페이즈라고 할 수 있다.

[시스템의 동작]

도 4를 참조하면서, 특성 예측 시스템(1)의 동작을 설명함과 함께 본 실시형태에 관한 특성 예측 방법에 대하여 설명한다. 도 4는 특성 예측 시스템(1)의 동작의 일례를 나타내는 플로 차트이다.

먼저, 입력 데이터 생성 시스템(10)의 유저의 지시 입력을 계기로 입력 데이터 생성 처리가 개시되면, 취득부(11)에 의하여, 복수의 원재료 각각에 대한 부분 구조 데이터, 배합률 데이터, 및 개수 데이터가 취득된다(스텝 S1). 다음으로, 생성부(12)에 의하여, 각각의 부분 구조 데이터를 기초로, 복수의 원재료의 부분 구조마다에 부분 구조 입력 데이터 D0이 생성된다(스텝 S2). 그 후, 벡터 변환부(13)에 의하여, 모든 부분 구조 입력 데이터 D0의 각각이 하나의 벡터 형식의 벡터 V_M으로 변환되고, 벡터 V_M에, 해당 부분 구조를 포함하는 원재료에 관한 비율 r의 데이터와, 그 원재료 중의 해당 부분 구조의 개수의 데이터가 조합됨으로써, 부분 구조 입력 데이터 D가 생성된다(스텝 S3).

다음으로, 합성부(14)에 의하여, 복수의 원재료마다의 모든 부분 구조 입력 데이터 D에 대응하는 벡터 V_M이 정리되어, 합성 입력 데이터 F가 생성된다(스텝 S4). 그때, 합성부(14)에 의하여, 각각의 벡터 V_M에 배합률 데이터 및 개수 데이터를 반영하면서 벡터 V_M의 가중값 부여 평균을 계산함으로써, 합성 입력 데이터 F가 생성된다. 그 후, 합성부(14)에 의하여, 합성 입력 데이터 F가 트레이닝부(20)에 기계 학습용의 입력 데이터로서 출력된다(스텝 S5). 이때, 벡터 V_M으로의 비율 및 개수의 반영은, 각 벡터 V_M에 대하여, 비율 및 개수를 승산한 값을, 승산, 가산, 혹은 연결함으로써 행해진다. 또, 보다 일반적으로는, 합성부(14)는, 모든 부분 구조에 관한 벡터, 배합비, 및 개수를 입력으로 하여, 일정한 룰로 단일의 벡터를 출력하는 함수를 이용하여 벡터를 생성해도 되고, 배합률의 반영과 벡터의 가산의 스텝으로 나누지 않고, 한 번의 처리로 단일의 벡터를 생성해도 된다.

다음으로, 트레이닝부(20)에 있어서, 학습 페이즈가 실행되어, 입력 데이터와 교사 데이터를 이용하여 학습함으로써 학습 완료 모델이 생성된다(스텝 S6). 그리고, 생성된 학습 완료 모델이 예측기(30)로 설정되고, 예측기(30)에 의하여, 새롭게 입력 데이터 생성 시스템(10)으로부터 취득되는 입력 데이터를 이용하여 운용 페이즈가 실행되며, 다성분 물질의 특성의 예측 결과가 생성 및 출력된다(스텝 S7).

[프로그램]

컴퓨터 또는 컴퓨터 시스템을 특성 예측 시스템(1)으로서 기능시키기 위한 특성 예측 프로그램은, 그 컴퓨터 시스템을 취득부(11), 생성부(12), 벡터 변환부(13), 합성부(14), 트레이닝부(20), 및 예측기(30)로서 기능시키기 위한 프로그램 코드를 포함한다. 이 특성 예측 프로그램은, CD-ROM, DVD-ROM, 반도체 메모리 등의 유형(有形)의 기록 매체에 고정적으로 기록된 후에 제공되어도 된다. 혹은, 특성 예측 프로그램은, 반송파에 중첩된 데이터 신호로서 통신 네트워크를 통하여 제공되어도 된다. 제공된 특성 예측 프로그램은 예를 들면 보조 기억부(103)에 기억된다. 프로세서(101)가 보조 기억부(103)로부터 그 특성 예측 프로그램을 독출하여 실행함으로써, 상기의 각 기능 요소가 실현된다.

[효과]

이상 설명한 바와 같이, 상기 실시형태에 의하면, 복수의 원재료마다의 부분 구조 데이터를 기초로, 이미 알려진 부분 구조를 표현한 부분 구조 입력 데이터 D가 생성되고, 복수의 원재료의 부분 구조 입력 데이터 D에 복수의 원재료에 관한 비율이 반영됨과 함께, 복수의 원재료마다의 부분 구조 입력 데이터 D가 합성 입력 데이터 F로 정리되어 기계 학습 모델에 입력된다. 그 결과, 화학 구조의 일부밖에 명확하지 않은 복수의 원재료를 기초로 제조되는 다성분 물질을 대상으로, 기계 학습에 의하여 부분 구조 정보를 학습시킴으로써, 그 물질의 특성을 효율적으로 예측시킬 수 있다.

또, 상기 실시형태에 있어서는, 각각의 복수의 원재료를 구성하는 분자 중의 이미 알려진 부분 구조를 특정하는 부분 구조 데이터와, 당해 분자 중의 이미 알려진 부분 구조의 개수를 받아들여, 복수의 원재료마다의 부분 구조 입력 데이터 D에 대하여, 당해 복수의 원재료마다의 배합률 데이터에 이미 알려진 부분 구조의 개수를 곱한 값을 반영함으로써, 기계 학습 모델에 입력시키는 입력 데이터를 생성한다. 그 경우, 원재료의 분자 중의 부분 구조와 그 개수가 명확한 경우에, 부분 구조 입력 데이터 D에 원재료의 비율과 부분 구조의 개수를 반영할 수 있다. 그 결과, 그 원재료를 기초로 한 다성분 물질의 특성을 양호한 정밀도로 예측할 수 있다.

또, 상기 실시형태에 있어서는, 부분 구조 입력 데이터 D0은, 이미 알려진 부분 구조의 분자 구조 데이터로서 생성되어 있다. 그 결과, 효율적으로 부분 구조 입력 데이터 D0을 생성할 수 있다.

또한, 상기 실시형태에 있어서는, 복수의 원재료마다의 부분 구조 입력 데이터 D에 포함되는 복수의 벡터에 대하여, 당해 복수의 원재료마다의 배합률 데이터에 근거하는 값을, 승산, 가산, 혹은 연결하고, 승산, 가산, 혹은 연결한 복수의 벡터를 하나의 벡터로 정리함으로써, 기계 학습 모델에 입력시키는 입력 데이터를 생성한다. 이로써, 원재료마다의 부분 구조 입력 데이터 D에 대하여 그 원재료의 비율을 효과적 또한 간이하게 반영할 수 있다. 그 결과, 다성분 물질의 특성의 예측 정밀도가 향상된다.

[변형예]

이상, 본 발명을 그 실시형태에 근거하여 상세하게 설명했다. 그러나, 본 발명은 상기 실시형태에 한정되는 것은 아니다. 본 발명은, 그 요지를 벗어나지 않는 범위에서 다양한 변형이 가능하다.

상기 실시형태에서는, 입력 데이터 생성 시스템(10)이 2개의 원재료의 부분 구조 입력 데이터 D를 조합하여 합성 입력 데이터 F를 생성하는 예를 나타냈지만, 3개 이상의 원재료의 부분 구조 입력 데이터 D를 그들의 비율과 함께 조합하도록 기능해도 된다.

또, 입력 데이터 생성 시스템(10)의 벡터 변환부(13)에 구비되어 있는 일정한 변환 룰은, 다른 룰이어도 된다.

도 5에는, 변형예에 관한 특성 예측 시스템(1A)의 구성을 나타낸다. 이 변형예에서는, 벡터 변환부(13), 합성부(14), 및 예측기(30)의 기능이, 트레이닝부(20A)에 구비된다. 그리고, 트레이닝부(20A)에 있어서는, 이들 기능부에 있어서의, 벡터화의 기능, 데이터의 정리의 기능, 배합률 데이터·개수 데이터의 반영의 기능을, 예측기(30)와 일체화된 뉴럴 네트워크의 기계 학습 모델을 이용하여 실현한다. 그때에는, 트레이닝부(20A)는, 기계 학습 모델에, 입력 데이터 생성 시스템(10A)의 생성부(12)에 의하여 생성되는 부분 구조 입력 데이터 D0을 입력시킨다.

여기에서는, 트레이닝부(20A)는, 뉴럴 네트워크를 이용한 기계 학습 모델에, 부분 구조 입력 데이터 D0을 입력한다. 입력되는 부분 구조 입력 데이터 D0에 포함되는 부분 구조 데이터는, 구조식, 분자 그래프, SMILES 기법의 데이터, 3차원 좌표의 데이터 등이다. 이하, 부분 구조 입력 데이터 D0으로서 분자 그래프를 기계 학습 모델에 인풋하는 예에 대하여 설명한다.

즉, 상기 변형예에 있어서는, 생성부(12)는, 각각의 부분 구조마다에 분자 그래프 데이터를 참조하여, 분자 그래프 G=(V,E)에 있어서의 노드 집합 V와 일대일로 대응하는 노드 벡터의 집합 FV와, 그 분자 그래프에 있어서의 에지 집합 E와 일대일로 대응하는 에지 벡터의 집합 FE를 생성한다. 노드 벡터는, 노드의 원자를 특정하기 위한 벡터이며, 예를 들면, 집합의 각 원래의 노드를 구성하는 원자의 특징을 나타내는 수치(원자 번호, 전기 음성도 등)를 차례로 나열한 벡터 요소이다. 에지 벡터는, 노드 간의 결합의 성질을 특정하기 위한 벡터이며, 예를 들면, 집합의 각 원래의 에지의 특징을 나타내는 수치(결합 차수, 결합 거리 등)를 차례로 나열한 벡터 요소이다. 또한, 생성부(12)는, 노드 벡터 집합 FV와 에지 벡터 집합 FE에 대하여, 원래의 분자 그래프 데이터와, 해당 부분 구조를 포함하는 원재료에 관한 비율 r의 데이터와, 그 원재료 중의 해당 부분 구조의 개수의 데이터를 조합함으로써 부분 구조 입력 데이터 D0을 생성한다. 그리고, 생성부(12)는, 복수의 원재료마다의 모든 부분 구조 데이터를 대상으로 하여, 부분 구조 입력 데이터 D0의 생성을 반복한다. 또, 생성부(12)는, 분자 그래프인 부분 구조 데이터에 대하여, 비율 r의 데이터와 개수의 데이터만을 조합하여 부분 구조 입력 데이터 D0을 생성해도 된다.

도 6의 (a)부 및 (b)부에는, 생성부(12)가 생성하는 제1 원재료에 대응하는 부분 구조 입력 데이터의 구체예를 나타내고, 도 6의 (a)부에는, 도 3의 (a)부에 나타내는 부분 구조를 대상으로 생성하는 부분 구조 입력 데이터를 나타내며, 도 6의 (b)부에는, 도 3의 (b)부에 나타내는 부분 구조를 대상으로 생성하는 부분 구조 입력 데이터를 나타낸다. 이와 같이, 도 3의 (a)부에 나타내는 부분 구조를 대상으로 한 경우에는, 생성부(12)는, 노드 벡터 집합 FV_1,1={FC_α, FC_β, FC_γ}와, 에지 벡터 집합 FE_1,1={FC_αC_β, FC_βC_γ}를 생성하고, 이들 데이터에 대하여, 원래의 부분 구조 데이터인 분자 그래프 G_1,1=(V_1,1, E_1,1)과, 제1 원재료에 관한 비율 r₁의 데이터와, 제1 원재료의 분자 중의 해당 분자 구조의 개수 n_1,1의 데이터를 조합한 부분 구조 입력 데이터 D0_1,1을 생성한다. 상기의 벡터 집합 FV, FE의 기재에 있어서의 두문자 F로 표기되는 괄호 내의 각 요소는, 상술한 바와 같은 헥토르 변환 후의 벡터 요소를 의미한다(이하에 있어서도 동일). 예를 들면, 노드 벡터 집합 FV_1,1의 요소 FC_α는, 노드를 구성하는 분자 C_α의 특징을 나타내는 수치로 변환된 후의 벡터 요소이다. 또, 도 3의 (b)부에 나타내는 부분 구조를 대상으로 한 경우에는, 생성부(12)는, 노드 벡터 집합 FV_1,2={FC_δ, FC_ε, FC_ζ, FC_η}와, 에지 벡터 집합 FE_1,2={FC_δC_ε, FC_εC_ζ, FC_ζC_η}을 생성하고, 이들 데이터에 대하여, 원래의 부분 구조 데이터인 분자 그래프 G_1,2=(V_1,2, E_1,2)와, 제1 원재료에 관한 비율 r₁의 데이터와, 제1 원재료의 분자 중의 해당 분자 구조의 개수 n_1,2의 데이터를 조합한 부분 구조 입력 데이터 D0_1,2를 생성한다. 또한, 생성부(12)는, 제2 원재료에 대응하는 부분 구조를 대상으로 하여, 부분 구조 입력 데이터 D0_2,1, D0_2,2, …을 생성한다.

트레이닝부(20A)는, 복수의 원재료마다의 모든 부분 구조 입력 데이터 D0이 입력되고, 뉴럴 네트워크를 이용한 기계 학습 모델에 의하여 실현되는 벡터 변환부(13) 및 합성부(14)에 의하여, 그들의 부분 구조 입력 데이터 D0을 기초로, 하나의 벡터인 합성 입력 데이터 F를 생성한다. 그리고, 합성 입력 데이터 F는, 동일한 기계 학습 모델 내의 예측기(30)에 입력된다. 또한, 본 변형예에서는, 예측기(30)의 기능이 트레이닝부(20A)의 기계 학습 모델로부터 분리되어 다른 기계 학습 모델에 의하여 실현되어도 된다.

또, 상기 실시형태의 입력 데이터 생성 시스템(10)은, 부분 구조마다의 부분 구조 데이터와 배합률 데이터와 개수 데이터를, 하나의 분자 그래프에 머지하여 표현하는 기능을 갖고 있어도 된다. 이 경우, 상술한 변형예에 관한 특성 예측 시스템(1A)의 생성부(12)와 동일하게 하여, 부분 구조 입력 데이터 D0을 생성한다. 그리고, 부분 구조마다의 부분 구조 입력 데이터 D0에 포함되는 분자 그래프에 배합률 데이터와 개수 데이터를 반영한다. 상세하게는, 부분 구조 입력 데이터 D0에 포함되는 노드 벡터 집합 FV와 에지 벡터 집합 FE에 포함되는 특징 벡터에 대하여, 배합률 데이터와 개수 데이터를 반영한다. 또한, 배합률이 반영된 부분 구조마다의 부분 구조 입력 데이터 D0에 포함되는 분자 그래프를, 하나의 분자 그래프 데이터에 머지함으로써, 합성 입력 데이터 F를 생성한다. 이와 같은 경우는, 입력 데이터 생성 시스템(10)은, 분자 그래프를 인풋하여 예측 데이터를 생성할 수 있는 기계 학습 모델에, 생성한 다성분 재료마다의 분자 그래프를 입력시킴으로써, 특성 예측을 실현시킨다.

또, 상기 실시형태의 입력 데이터 생성 시스템(10)의 벡터 변환부(13)는, 복수의 원재료마다의 부분 구조 입력 데이터 D를 1차원 벡터로 변환할 때에는, 원재료의 차이를 나타내는 값을 그 벡터에 반영하도록 해도 된다. 예를 들면, 벡터 변환부(13)는, 원 핫(One-Hot) 벡터에 의하여 원재료의 차이가 나타난 벡터를 벡터 V_M에 연결해도 된다. 또, 벡터 변환부(13)는, 분산 표현을 사용하여 원재료의 차이가 나타난 벡터를 벡터 V_M에 연결해도 된다. 이로써, 원재료마다의 부분 구조 입력 데이터 D에, 부분 구조가 동일한 경우이더라도 원재료 간의 차이를 반영시킬 수 있다. 그 결과, 다성분 물질의 특성의 예측 정밀도가 한층 향상된다. 또, 합성부(14)는, 모든 구조가 알려져 있지 않은 원재료군의 배합량을 나열한 벡터를 합성 입력 데이터 F에 연결해도 된다. 이로써, 부분 구조도 알려져 있지 않은 원재료를 포함하는 경우에서도 특성을 예측할 수 있게 된다.

한편, 상기 변형예에 나타낸 바와 같은 그래프를 인풋으로 하는 뉴럴 네트워크를 이용하는 경우, 상기 실시형태의 입력 데이터 생성 시스템(10)은, 원재료의 차이가 나타난 벡터를 부가할 때에는, 생성부(12)에 의하여 생성되는 각 원재료의 노드 벡터에, 그 벡터를 연결해도 된다. 또한, 상기 변형예에 관한 특성 예측 시스템(1A)의 벡터 변환부(13)는, 뉴럴 네트워크의 기계 학습 모델로 실현되어도 된다. 그때에는, 벡터 변환부(13)는, 뉴럴 네트워크의 중간층의 벡터에 원재료의 차이가 나타난 벡터를 반영하도록 동작해도 된다.

적어도 하나의 프로세서에 의하여 실행되는 입력 데이터 생성 방법의 처리 수순은 상기 실시형태에서의 예에 한정되지 않는다. 예를 들면, 상술한 스텝(처리)의 일부가 생략되어도 되고, 다른 순서로 각 스텝이 실행되어도 된다. 또, 상술한 스텝 중 임의의 2 이상의 스텝이 조합되어도 되고, 스텝의 일부가 수정 또는 삭제되어도 된다. 혹은, 상기의 각 스텝에 더하여 다른 스텝이 실행되어도 된다. 예를 들면 스텝 S6, S7의 처리가 생략되어도 된다.

본 개시에 있어서, "적어도 하나의 프로세서가, 제1 처리를 실행하고, 제2 처리를 실행하며, …제n 처리를 실행한다."라는 표현, 또는 이에 대응하는 표현은, 제1 처리에서부터 제n 처리까지의 n개의 처리의 실행 주체(즉 프로세서)가 도중에 바뀌는 경우를 포함하는 개념을 나타낸다. 즉, 이 표현은, n개의 처리의 전부가 동일한 프로세서로 실행되는 경우와, n개의 처리에 있어서 프로세서가 임의의 방침으로 바뀌는 경우의 쌍방을 포함하는 개념을 나타낸다.

1, 1A…특성 예측 시스템
10, 10A…입력 데이터 생성 시스템
100…컴퓨터
101…프로세서
11…취득부
12…생성부
13…벡터 변환부
14…합성부
20…트레이닝부
30…예측기

Claims

이미 알려진 부분 구조를 포함하는 복수의 원재료를 기초로 한 재료의 특성을 예측하는 특성 예측 시스템으로서,
적어도 하나의 프로세서를 구비하고,
상기 적어도 하나의 프로세서가,
상기 복수의 원재료의 각각의 이미 알려진 부분 구조를 특정하는 부분 구조 데이터와, 상기 복수의 원재료의 각각의 배합의 비율을 나타내는 배합률 데이터의 입력을 적어도 받아들이며,
상기 복수의 원재료마다의 상기 부분 구조 데이터를 기초로 상기 이미 알려진 부분 구조를 나타내는 부분 구조 입력 데이터를 생성하고,
상기 복수의 원재료의 부분 구조 입력 데이터에, 당해 복수의 원재료에 관한 배합률 데이터를 반영하며,
상기 배합률 데이터가 반영된 상기 복수의 원재료마다의 부분 구조 입력 데이터를 기초로 한 입력 데이터를 기계 학습 모델에 입력시키는, 특성 예측 시스템.
청구항 1에 있어서,
상기 적어도 하나의 프로세서는,
각각의 상기 복수의 원재료를 구성하는 분자 중의 상기 이미 알려진 부분 구조를 특정하는 부분 구조 데이터와, 당해 분자 중의 상기 이미 알려진 부분 구조의 개수를 받아들이고,
상기 복수의 원재료의 상기 부분 구조 입력 데이터에 대하여, 당해 복수의 원재료에 관한 배합률 데이터에 상기 이미 알려진 부분 구조의 개수를 곱한 값을 반영하는, 특성 예측 시스템.
청구항 1 또는 청구항 2에 있어서,
상기 부분 구조 입력 데이터는, 상기 이미 알려진 부분 구조의 구조를 나타내는 분자 구조 정보인, 특성 예측 시스템.
청구항 1 내지 청구항 3 중 어느 한 항에 있어서,
상기 적어도 하나의 프로세서는,
상기 복수의 원재료마다의 상기 부분 구조 입력 데이터를 기초로 한 복수의 벡터에 대하여, 당해 복수의 원재료마다의 배합률 데이터에 근거하는 값을, 승산, 가산, 혹은 연결하고, 승산, 가산, 혹은 연결한 상기 복수의 벡터를 하나의 벡터로 정리하며, 상기 하나의 벡터를 상기 기계 학습 모델에 입력시키는, 특성 예측 시스템.
청구항 1 내지 청구항 4 중 어느 한 항에 있어서,
상기 적어도 하나의 프로세서는,
상기 복수의 원재료마다의 부분 구조 입력 데이터인 데이터에 대하여, 상기 원재료의 차이를 나타내는 값을 더 반영시켜 하나의 데이터로 정리하고, 당해 하나의 데이터를 상기 기계 학습 모델에 입력시키는, 특성 예측 시스템.
적어도 하나의 프로세서를 구비하는 컴퓨터에 의하여 실행되며, 이미 알려진 부분 구조를 포함하는 복수의 원재료를 기초로 한 재료의 특성을 예측하는 특성 예측 방법으로서,
상기 복수의 원재료의 각각의 이미 알려진 부분 구조를 특정하는 부분 구조 데이터와, 상기 복수의 원재료의 각각의 배합의 비율을 나타내는 배합률 데이터의 입력을 적어도 받아들이는 스텝과,
상기 복수의 원재료마다의 상기 부분 구조 데이터를 기초로 상기 이미 알려진 부분 구조를 나타내는 부분 구조 입력 데이터를 생성하는 스텝과,
상기 복수의 원재료의 부분 구조 입력 데이터에, 당해 복수의 원재료에 관한 배합률 데이터를 반영하는 스텝과,
상기 배합률 데이터가 반영된 상기 복수의 원재료마다의 부분 구조 입력 데이터를 기초로 한 입력 데이터를 기계 학습 모델에 입력시키는 스텝을 구비하는 특성 예측 방법.
이미 알려진 부분 구조를 포함하는 복수의 원재료를 기초로 한 재료의 특성을 예측하는 특성 예측 프로그램으로서,
컴퓨터에,
상기 복수의 원재료의 각각의 이미 알려진 부분 구조를 특정하는 부분 구조 데이터와, 상기 복수의 원재료의 각각의 배합의 비율을 나타내는 배합률 데이터의 입력을 적어도 받아들이는 스텝과,
상기 복수의 원재료마다의 상기 부분 구조 데이터를 기초로 상기 이미 알려진 부분 구조를 나타내는 부분 구조 입력 데이터를 생성하는 스텝과,
상기 복수의 원재료의 부분 구조 입력 데이터에, 당해 복수의 원재료에 관한 배합률 데이터를 반영하는 스텝과,
상기 배합률 데이터가 반영된 상기 복수의 원재료마다의 부분 구조 입력 데이터를 기초로 한 입력 데이터를 기계 학습 모델에 입력시키는 스텝을 실행시키는 특성 예측 프로그램.