KR102306917B1 - Method and apparatus for determining the optimal chemical process - Google Patents

Method and apparatus for determining the optimal chemical process Download PDF

Info

Publication number
KR102306917B1
KR102306917B1 KR1020210012016A KR20210012016A KR102306917B1 KR 102306917 B1 KR102306917 B1 KR 102306917B1 KR 1020210012016 A KR1020210012016 A KR 1020210012016A KR 20210012016 A KR20210012016 A KR 20210012016A KR 102306917 B1 KR102306917 B1 KR 102306917B1
Authority
KR
South Korea
Prior art keywords
optimal
criterion
determining
recipes
sentence
Prior art date
Application number
KR1020210012016A
Other languages
Korean (ko)
Inventor
전홍우
이재민
하태현
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020210012016A priority Critical patent/KR102306917B1/en
Application granted granted Critical
Publication of KR102306917B1 publication Critical patent/KR102306917B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/10Analysis or design of chemical reactions, syntheses or processes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Abstract

The present invention relates to a method and apparatus for determining an optimal chemical process. More specifically, the method for determining an optimal chemical process includes the steps of: constructing a database including a plurality of process recipes extracted from thesis data; selecting a first criterion from among a plurality of criteria for determining an optimal process from among the plurality of process recipes; and determining the optimal process by using the first criterion.

Description

최적 화학 공정 결정 방법 및 장치 방법 및 장치{Method and apparatus for determining the optimal chemical process}Method and apparatus for determining the optimal chemical process

본 발명은 시스템 성능 데이터의 최적 화학 공정 결정 방법 및 장치에 관한 것이다. 보다 자세하게는, 논문 데이터로부터 추출한 복수의 공정 레시피 중에서 최적 공정 레시피를 결정할 수 있는 최적 화학 공정 결정 방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for determining the optimal chemical process of system performance data. More particularly, it relates to a method and apparatus for determining an optimal chemical process capable of determining an optimal process recipe from among a plurality of process recipes extracted from thesis data.

종래의 연구를 통해 밝혀지지 않은 화학 물질은 약 1억개 이상이 있다고 알려져 있으며, 새로운 화학 물질을 만들기 위해 가능한 화합물 조합은 이보다 훨씬 많은 1,060개 정도가 존재하는 것으로 알려져 있다(Kishimoto, Buesser, & Botea, 2018). 새로운 화학 물질을 발굴하는 것은 다양한 제품에 활용될 수 있는 기초 자원을 확보하는 고부가가치 작업으로서, 여러 산업체에서 큰 관심을 가지고 연구하고 있는 분야이다.It is known that there are more than 100 million chemical substances that have not been revealed through prior research, and it is known that there are about 1,060 possible combinations of compounds to make new chemical substances (Kishimoto, Buesser, & Botea, 2018). Discovering new chemicals is a high-value-added task that secures basic resources that can be used in various products, and is a field that is being studied with great interest by various industries.

종래에는 전문가의 지식에 기초하여 가능한 화학 물질을 수동으로 탐색하는 방식을 써왔으나, 최근에는 자연어 처리 기술을 활용한 연구가 이뤄지고 있다.Conventionally, a method of manually searching for possible chemical substances based on expert knowledge has been used, but recently, research using natural language processing technology is being conducted.

특히 비정형 데이터인 논문으로부터 유의미한 과학지식을 추출하여 실제 R&D에 적용하려는 시도가 있었다. 주로 소재, 공정, 화학 분야에서 과학기술 텍스트 정보를 실제 연구에 활용하려는 시도가 활발히 진행되고 있다.In particular, there was an attempt to extract meaningful scientific knowledge from unstructured data and apply it to actual R&D. Attempts to utilize scientific and technological text information for actual research are actively underway, mainly in the fields of materials, processes, and chemistry.

그러나, 다른 기술과 달리 화학식이 포함된 논문 데이터나 또는 화학 분야의 공정이 기재된 논문 데이터에 대하여 정보를 추출하려는 경우 기존 자연어 처리 기술의 한계에 의해 정확한 정보를 추출하지 못하는 실정이었다.However, unlike other technologies, when extracting information from thesis data including chemical formulas or thesis data describing processes in the chemical field, accurate information could not be extracted due to limitations of existing natural language processing technologies.

또한, 종래에는 논문 데이터로부터 정보를 추출하여 저장하는 정도에 그쳤을 뿐 자동으로 추출된 화학 공정 또는 화학 분야의 정보를 효과적으로 활용할 수 있는 구체적인 수단이 존재하지 않았다.Also, in the prior art, there was no specific means for effectively utilizing the automatically extracted chemical process or chemical field information, except for extracting and storing information from the thesis data.

이에 논문 데이터에서 추출된 정보들을 효과적으로 활용할 수 있는 방안이 필요한 실정이다.Therefore, there is a need for a method to effectively utilize the information extracted from the thesis data.

공개특허공보 KR 10-2010-0080904(2010.07.13 공개)Laid-open Patent Publication KR 10-2010-0080904 (published on July 13, 2010)

본 발명이 해결하고자 하는 기술적 과제는, 자연어 처리 기술을 활용하여 과학문헌으로부터 절차적 지식을 자동 추출하고 화학 공정을 자동으로 추출할 수 있는 최적 화학 공정 결정 방법 및 장치를 제공하는 것이다.The technical problem to be solved by the present invention is to provide an optimal chemical process determination method and apparatus capable of automatically extracting procedural knowledge from scientific literature and automatically extracting chemical processes using natural language processing technology.

본 발명이 해결하고자 하는 다른 기술적 과제는, 논문 데이터로부터 자동 추출된 화학 공정들 중에서 최적의 공정을 추출할 수 있는 최적 화학 공정 결정 방법 및 장치를 제공하는 것이다.Another technical problem to be solved by the present invention is to provide a method and apparatus for determining an optimal chemical process capable of extracting an optimal process from among chemical processes automatically extracted from thesis data.

또한, 본 발명이 해결하고자 하는 또 다른 기술적 과제는, 최적 공정을 결정하기 위한 기준에 따라 복수의 공정 레시피 중에서 최적 화학 공정을 결정할 수 있는 최적 화학 공정 결정 방법 및 장치를 제공하는 것이다.In addition, another technical problem to be solved by the present invention is to provide a method and apparatus for determining an optimal chemical process capable of determining an optimal chemical process from among a plurality of process recipes according to a criterion for determining an optimal process.

또한, 본 발명이 해결하고자 하는 또 다른 기술적 과제는 다양한 기준과 그에 따른 최적 공정의 결정 방법에 의해 필요한 목적에 최적화된 화학 공정을 자동으로 결정하여 추출할 수 있는 최적 화학 공정 결정 방법 및 장치를 제공하는 것이다.In addition, another technical problem to be solved by the present invention is to provide an optimal chemical process determination method and apparatus capable of automatically determining and extracting a chemical process optimized for a necessary purpose by various criteria and a method for determining an optimal process according thereto will do

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The technical problems of the present invention are not limited to the technical problems mentioned above, and other technical problems not mentioned will be clearly understood by those skilled in the art from the following description.

상기의 문제점을 해결하기 위한 본 발명의 일 실시예에 따른 최적 화학 공정 결정 방법은 논문 데이터로부터 추출된 복수의 공정 레시피를 포함하는 데이터베이스를 구축하는 단계, 상기 복수의 공정 레시피 중에서 최적 공정을 결정하기 위한 복수의 기준 중 제1 기준을 선택하는 단계, 및 상기 제1 기준을 이용하여 상기 최적 공정을 결정하는 단계를 포함할 수 있다.The method for determining an optimal chemical process according to an embodiment of the present invention for solving the above problems includes: building a database including a plurality of process recipes extracted from thesis data; determining an optimal process from among the plurality of process recipes selecting a first criterion from among a plurality of criteria for

일 실시예에서, 상기 복수의 공정 레시피 중에서 최적 공정을 결정하기 위한 복수의 기준 중 제1 기준을 선택하는 단계는, 상기 복수의 기준 중에서 상기 공정 레시피 각각의 수행 과정에서 생성되는 중간물질의 양을 기초로 판단되는 제1 기준을 선택하는 단계를 포함할 수 있다.In an embodiment, the step of selecting a first criterion from among a plurality of criteria for determining an optimal process from among the plurality of process recipes includes determining the amount of intermediates generated in the process of performing each of the process recipes from among the plurality of criteria. The method may include selecting a first criterion determined based on the first criterion.

일 실시예에서, 상기 제1 기준을 이용하여 상기 최적 공정을 결정하는 단계는, 상기 복수의 공정 레시피 각각의 수행 과정에서 생성되는 중간물질을 식별하는 단계, 및 상기 복수의 공정 레시피 중에서 상기 중간물질의 양이 가장 적은 공정 레시피를 상기 최적 공정으로 결정하는 단계를 포함할 수 있다.In an embodiment, the determining of the optimal process by using the first criterion includes: identifying an intermediate produced in the process of performing each of the plurality of process recipes; and the intermediate material from among the plurality of process recipes. It may include determining a process recipe having the smallest amount as the optimal process.

일 실시예에서, 상기 복수의 공정 레시피 중에서 최적 공정을 결정하기 위한 복수의 기준 중 제1 기준을 선택하는 단계는, 상기 복수의 공정 레시피가 수행되는 환경의 구현 난이도에 따른 제1 기준을 선택하는 단계를 포함할 수 있다.In an embodiment, the selecting of a first criterion among a plurality of criteria for determining an optimal process from among the plurality of process recipes includes selecting a first criterion according to the implementation difficulty of an environment in which the plurality of process recipes are performed. may include steps.

일 실시예에서, 상기 제1 기준을 이용하여 상기 최적 공정을 결정하는 단계는, 상기 복수의 공정 레시피 중 제1 공정 레시피에 대해 수행 공정을 구현하기 위한 온도를 판단하는 단계, 및 상기 온도가 미리 설정된 온도에 해당되면 상기 제1 공정 레시피를 상기 최적 공정으로 결정하는 단계를 포함할 수 있다.In an embodiment, the determining of the optimal process using the first criterion includes determining a temperature for implementing a process to be performed with respect to a first process recipe among the plurality of process recipes, and the temperature is set in advance. It may include determining the first process recipe as the optimal process when it corresponds to the set temperature.

일 실시예에서, 상기 복수의 공정 레시피 중에서 최적 공정을 결정하기 위한 복수의 기준 중 제1 기준을 선택하는 단계는, 상기 복수의 공정 레시피의 수행 공정의 신뢰도에 따른 제1 기준을 선택하는 단계를 포함할 수 있다.In one embodiment, the selecting of a first criterion among a plurality of criteria for determining an optimal process from among the plurality of process recipes includes selecting a first criterion according to reliability of a process performed of the plurality of process recipes. may include

일 실시예에서, 상기 제1 기준을 이용하여 상기 최적 공정을 결정하는 단계는, 상기 복수의 공정 레시피의 수행 공정을 반복하여 상기 복수의 공정 레시피의 성공률을 판단하는 단계, 및 상기 복수의 공정 레시피 중에서 상기 성공률이 가장 높은 공정 레시피를 상기 제1 기준의 신뢰도가 높은 공정 레시피로 판단하여 상기 공정 레시피를 상기 최적 공정으로 결정하는 단계를 포함할 수 있다.In an embodiment, the determining of the optimal process using the first criterion includes repeating the process of performing the plurality of process recipes to determine success rates of the plurality of process recipes, and the plurality of process recipes. and determining the process recipe having the highest success rate among the process recipes as the process recipe having the high reliability of the first criterion, and determining the process recipe as the optimal process.

일 실시예에서, 상기 복수의 공정 레시피 중에서 최적 공정을 결정하기 위한 복수의 기준 중 제1 기준을 선택하는 단계는, 상기 복수의 공정 레시피의 수행 공정에서 이용되는 소재의 비용에 따른 제1 기준을 선택하는 단계를 포함할 수 있다.In an embodiment, the step of selecting a first criterion from among a plurality of criteria for determining an optimal process from among the plurality of process recipes includes a first criterion according to the cost of a material used in the process of performing the plurality of process recipes. It may include the step of selecting.

일 실시예에서, 상기 제1 기준을 이용하여 상기 최적 공정을 결정하는 단계는, 상기 복수의 공정 레시피 각각의 수행 공정에서 이용되는 소재를 식별하는 단계, 및 상기 복수의 공정 레시피 각각에 대한 수행 공정에서 상기 소재의 비용의 총 합을 기준으로 상기 복수의 공정 레시피 중에서 상기 소재의 비용의 총 합이 가장 낮은 공정 레시피를 상기 최적 공정으로 결정하는 단계를 포함할 수 있다.In an embodiment, the determining of the optimal process by using the first criterion includes: identifying a material used in a process for performing each of the plurality of process recipes; and a process for performing each of the plurality of process recipes and determining, as the optimal process, a process recipe having the lowest total sum of costs of the raw materials among the plurality of process recipes based on the total sum of costs of the raw materials.

일 실시예에서, 상기 제1 기준을 이용하여 상기 최적 공정을 결정하는 단계는, 상기 제1 기준에 할당된 가중치를 이용하여 기초하여 상기 복수의 공정 레시피 각각을 스코어링하는 단계, 및 상기 스코어링 결과에 따라 최적 공정을 결정하는 단계를 포함할 수 있다.In an embodiment, the determining of the optimal process using the first criterion comprises: scoring each of the plurality of process recipes based on a weight assigned to the first criterion; It may include the step of determining an optimal process according to the.

일 실시예에서, 상기 제1 기준에 할당된 가중치를 이용하여 기초하여 상기 복수의 공정 레시피 각각을 스코어링하는 단계는, 기 제1 기준에 할당된 가중치와 상기 복수의 기준 중 상기 제1 기준과 다른 제2 기준에 할당된 가중치를 합산한 스코어를 이용하여 상기 복수의 공정 레시피 각각을 스코어링하는 단계를 포함할 수 있다.In an embodiment, the scoring each of the plurality of process recipes based on the weight assigned to the first criterion may include a weight assigned to the first criterion and a weight assigned to the first criterion and different from the first criterion among the plurality of criteria. The method may include scoring each of the plurality of process recipes using a sum of weights assigned to the second criterion.

일 실시예에서, 상기 제1 기준에 할당된 가중치와 제2 기준에 할당된 가중치를 합산한 스코어를 이용하여 상기 복수의 공정 레시피 각각을 스코어링하는 단계는, 상기 제1 기준에 할당된 가중치에 따른 스코어 또는 제2 기준에 할당된 가중치에 따른 스코어가 0인 공정 레시피가 존재하는 경우 상기 공정 레시피를 상기 최적 공정에서 배제하는 단계를 포함할 수 있다.In an embodiment, scoring each of the plurality of process recipes using a score obtained by adding a weight assigned to the first criterion and a weight assigned to the second criterion may include: and excluding the process recipe from the optimal process when there is a process recipe having a score of 0 according to a score or a weight assigned to the second criterion.

일 실시예에서, 상기 제1 기준을 이용하여 상기 최적 공정을 결정하는 단계는, 상기 복수의 공정 레시피 중 상기 제1 기준에 기초하여 선택된 제1 공정 레시피를 이용하여 상기 최적 공정을 결정하는 단계를 포함할 수 있다.In an embodiment, the determining of the optimal process by using the first criterion includes determining the optimal process by using a first process recipe selected based on the first criterion among the plurality of process recipes. may include

일 실시예에서, 상기 논문 데이터로부터 추출된 복수의 공정 레시피를 포함하는 데이터베이스를 구축하는 단계는, 상기 논문 데이터로부터 공정 문장을 추출하는 단계, 제1 공정 문장에서 타겟 물질을 생성하는 공정 동사를 식별하고 상기 공정 동사에 해당되는 주어와 목적어를 추출하는 단계, 제2 공정 문장에서 상기 공정 동사가 형용사로 변경되고 주어와 목적어가 식별되지 않는 경우 상기 제1 공정 문장에서 생성된 상기 타겟 물질을 주어로 결정하는 단계를 포함할 수 있다.In an embodiment, the step of constructing a database including a plurality of process recipes extracted from the thesis data includes extracting a process sentence from the thesis data, and identifying a process verb for generating a target material in the first process sentence and extracting a subject and an object corresponding to the process verb, when the process verb is changed to an adjective in the second process sentence and the subject and the object are not identified, the target material generated in the first process sentence is used as a subject It may include the step of determining.

일 실시예에서, 상기 논문 데이터로부터 추출된 복수의 공정 레시피를 포함하는 데이터베이스를 구축하는 단계는, 상기 논문 데이터에 포함된 텍스트의 의미를 분석하는 학습을 수행하여 동일한 의미의 텍스트에 대한 동의어 리스트 데이터베이스를 구축하는 단계, 및 상기 동의어 리스트 데이터베이스를 이용하여 상기 논문 데이터로부터 공정 문장을 추출하는 단계를 포함할 수 있다.In one embodiment, the step of constructing a database including a plurality of process recipes extracted from the thesis data includes learning to analyze the meaning of the text included in the thesis data to obtain a synonym list database for text having the same meaning. constructing , and extracting a process sentence from the thesis data using the synonym list database.

다른 실시예에 따른 최적 화학 공정 결정 장치는 프로세서, 네트워크 인터페이스, 상기 프로세서에 의해 실행되어 컴퓨터 프로그램을 로드(load)하는 메모리, 및 상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하되, 상기 컴퓨터 프로그램은, 논문 데이터로부터 추출된 복수의 공정 레시피를 포함하는 데이터베이스를 구축하는 인스트럭션(instruction), 상기 복수의 공정 레시피 중에서 최적 공정을 결정하기 위한 복수의 기준 중 제1 기준을 선택하는 인스트럭션, 및 상기 제1 기준을 이용하여 상기 최적 공정을 결정하는 인스트럭션을 포함할 수 있다.An apparatus for determining an optimal chemical process according to another embodiment includes a processor, a network interface, a memory executed by the processor to load a computer program, and a storage for storing the computer program, wherein the computer program comprises: an instruction for constructing a database including a plurality of process recipes extracted from data, an instruction for selecting a first criterion from among a plurality of criteria for determining an optimal process from among the plurality of process recipes, and the first criterion It may include instructions for determining the optimal process using

다른 실시예에 따른 컴퓨터 판독 가능한 기록 매체는 프로세서에 의해 실행 가능한 컴퓨터 프로그램 명령어들을 포함하는, 최적 수행 공정을 결정하기 위한 컴퓨터 프로그램으로서, 상기 컴퓨터 프로그램 명령어들이 컴퓨팅 디바이스의 프로세서에 의해 실행되는 경우에, 논문 데이터로부터 추출된 복수의 공정 레시피를 포함하는 데이터베이스를 구축하는 단계, 상기 복수의 공정 레시피 중에서 최적 공정을 결정하기 위한 복수의 기준 중 제1 기준을 선택하는 단계, 및 상기 제1 기준을 이용하여 상기 최적 공정을 결정하는 단계를 포함하는, 동작들을 수행하는 컴퓨터 프로그램이 기록될 수 있다.A computer-readable recording medium according to another embodiment is a computer program for determining an optimal execution process, comprising computer program instructions executable by a processor, when the computer program instructions are executed by a processor of a computing device, Building a database including a plurality of process recipes extracted from thesis data, selecting a first criterion from among a plurality of criteria for determining an optimal process from among the plurality of process recipes, and using the first criterion A computer program may be recorded for performing operations, including determining the optimal process.

도 1은 본 발명의 일 실시예에 따른 최적 화학 공정 결정 장치의 동작을 나타내는 예시도이다.
도 2는 본 발명의 다른 실시예에 따른 최적 화학 공정 결정 방법의 순서도이다.
도 3은 논문 데이터로부터 공정 레시피 데이터 베이스의 구축하는 과정을 나타내는 예시도이다.
도 4는 논문 데이터로부터 공정 레시피를 추출하는 과정에서 주어 인식 오류가 발생되는 예시를 나타내는 도면이다.
도 5는 논문 데이터로부터 공정 레시피를 추출하는 과정에서 객체 인식 오류가 발생되는 예시를 나타내는 도면이다.
도 6은 도 2의 단계 S200과 단계 S300을 구체적으로 설명하기 위한 순서도이다.
도 7은 도 2의 단계 S300의 다양한 실시예를 설명하기 위한 순서도이다.
도 8은 본 발명의 일 실시예에 따른 최적 화학 공정 결정 장치의 하드웨어 구성도이다.
1 is an exemplary diagram illustrating an operation of an apparatus for determining an optimal chemical process according to an embodiment of the present invention.
2 is a flowchart of a method for determining an optimal chemical process according to another embodiment of the present invention.
3 is an exemplary diagram illustrating a process of constructing a process recipe database from thesis data.
4 is a diagram illustrating an example in which a subject recognition error occurs in the process of extracting a process recipe from thesis data.
5 is a diagram illustrating an example in which an object recognition error occurs in a process of extracting a process recipe from thesis data.
6 is a flowchart for specifically explaining steps S200 and S300 of FIG. 2 .
7 is a flowchart illustrating various embodiments of step S300 of FIG. 2 .
8 is a hardware configuration diagram of an apparatus for determining an optimal chemical process according to an embodiment of the present invention.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명의 기술적 사상은 이하의 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 발명의 기술적 사상을 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명의 기술적 사상은 청구항의 범주에 의해 정의될 뿐이다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. Advantages and features of the present invention and methods of achieving them will become apparent with reference to the embodiments described below in detail in conjunction with the accompanying drawings. However, the technical spirit of the present invention is not limited to the following embodiments, but may be implemented in various different forms, and only the following embodiments complete the technical spirit of the present invention, and in the technical field to which the present invention belongs It is provided to fully inform those of ordinary skill in the art of the scope of the present invention, and the technical spirit of the present invention is only defined by the scope of the claims.

각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.In adding reference numerals to the components of each drawing, it should be noted that the same components are given the same reference numerals as much as possible even though they are indicated on different drawings. In addition, in describing the present invention, if it is determined that a detailed description of a related known configuration or function may obscure the gist of the present invention, the detailed description thereof will be omitted.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.Unless otherwise defined, all terms (including technical and scientific terms) used herein may be used with the meaning commonly understood by those of ordinary skill in the art to which the present invention belongs. In addition, terms defined in a commonly used dictionary are not to be interpreted ideally or excessively unless clearly defined in particular. The terminology used herein is for the purpose of describing the embodiments and is not intended to limit the present invention. As used herein, the singular also includes the plural unless specifically stated otherwise in the phrase.

또한, 본 발명의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.In addition, in describing the components of the present invention, terms such as first, second, A, B, (a), (b), etc. may be used. These terms are only for distinguishing the components from other components, and the essence, order, or order of the components are not limited by the terms. When a component is described as being “connected”, “coupled” or “connected” to another component, the component may be directly connected or connected to the other component, but another component is between each component. It should be understood that elements may be “connected,” “coupled,” or “connected.”

명세서에서 사용되는 "포함한다 (comprises)" 및/또는 "포함하는 (comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.As used herein, “comprises” and/or “comprising” refers to the presence of one or more other components, steps, operations and/or elements mentioned. or addition is not excluded.

이하, 본 발명의 몇몇 실시예들에 대하여 첨부된 도면에 따라 상세하게 설명한다.Hereinafter, some embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 최적 화학 공정 결정 장치(100)의 동작을 나타내는 예시도이다.1 is an exemplary diagram illustrating an operation of an apparatus 100 for determining an optimum chemical process according to an embodiment of the present invention.

도 1을 참조하면 본 실시예에 따른 최적 화학 공정 결정 장치(100)는 복수의 논문으로부터 공정 레시피를 추출하여 최적 공정 레시피를 결정할 수 있다.Referring to FIG. 1 , the apparatus 100 for determining an optimal chemical process according to the present embodiment may extract a process recipe from a plurality of papers to determine an optimal process recipe.

구체적으로 최적 화학 공정 결정 장치(100)는 복수의 논문 데이터를 전처리하고, 전처리된 논문 데이터를 기계학습하여 복수의 논문 데이터에 포함된 공정 레시피를 추출할 수 있다.Specifically, the apparatus 100 for determining the optimal chemical process may pre-process a plurality of thesis data and extract a process recipe included in the plurality of thesis data by machine learning the pre-processed thesis data.

본 명세서에서 공정 레시피는 화학식, 화학 반응식, 복수 개의 화학 반응식, 타겟 물질을 생성하는 화학식, 기 산화물(Inorganic oxides) 합성 데이터, 재료 과학 분야 저널 논문의 제목과 메타 데이터, 비석(Zeolite) 합성 데이터셋, 기타 화학 반응에 대한 문장, 수식, 기호 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.In the present specification, the process recipe includes a chemical formula, a chemical reaction formula, a plurality of chemical reaction formulas, a chemical formula to generate a target material, organic oxides synthesis data, the title and metadata of a material science journal article, and a Zeolite synthesis dataset , may include sentences, formulas, symbols, etc. for other chemical reactions, but is not limited thereto.

최적 화학 공정 결정 장치(100)는 논문 데이터로부터 비정형 텍스트를 정형데이터로 전처리하고, 머신러닝을 통해 학습된 모델을 이용하여 전처리된 정형데이터로부터 자연어 처리를 통한 물질 또는 소재에 대한 개체추출(NER) 및 관계추출을 수행할 수 있다. 최적 화학 공정 결정 장치(100)는 상기와 같은 동작을 통해 복수의 공정 레시피를 추출할 수 있다.The optimal chemical process determination apparatus 100 pre-processes the unstructured text from the thesis data into structured data, and extracts entities for substances or materials through natural language processing from the pre-processed structured data using a model learned through machine learning (NER) and relationship extraction. The apparatus 100 for determining the optimal chemical process may extract a plurality of process recipes through the above operation.

최적 화학 공정 결정 장치(100)는 최적 공정을 결정하기 위한 기준이 입력될 수 있다. 최적 공정을 결정하기 위한 기준은 상기 공정 레시피에 따른 목표로서, 외부에서 입력되거나 선택된 기준일 수 있다. 예를 들어, 최적 화학 공정 결정 장치(100)는 공정 절차에 관한 기준, 환경에 관한 기준, 신뢰도에 대한 기준 또는 비용 기준의 최적 공정을 결정하기 위한 기준이 입력되거나 선택될 수 있다.The apparatus 100 for determining the optimal chemical process may input a criterion for determining the optimal process. The criterion for determining the optimal process is a target according to the process recipe, and may be an externally input or selected criterion. For example, in the apparatus 100 for determining the optimal chemical process, a criterion for determining an optimal process of a process procedure criterion, an environmental criterion, a reliability criterion, or a cost criterion may be input or selected.

최적 화학 공정 결정 장치(100)는 상기 기준을 통해 최적 공정 레시피를 결정할 수 있다. 최적 화학 공정 결정 장치(100)는 각각의 기준의 특성에 따라서 상이한 최적 공정 레시피를 결정할 수 있다.The optimal chemical process determination apparatus 100 may determine an optimal process recipe based on the above criteria. The optimal chemical process determination apparatus 100 may determine different optimal process recipes according to characteristics of each criterion.

이때 최적 화학 공정 결정 장치(100)는 복수의 공정 레시피 중 제1 기준에 기초하여 선택된 제1 공정 레시피를 이용하여 최적 공정을 결정할 수 있다. 여기서 제1 공정 레시피는 복수의 공정 레시피 중에서 타겟 물질을 생성하는 어느 하나의 공정, 또는 적어도 복수 개의 공정을 의미할 수 있으며, 이에 한정되지 않는다.In this case, the apparatus 100 for determining the optimal chemical process may determine the optimal process by using the first process recipe selected based on the first criterion among the plurality of process recipes. Here, the first process recipe may mean any one process of generating a target material from among a plurality of process recipes, or at least a plurality of processes, but is not limited thereto.

본 발명의 일 실시예에 따른 최적 화학 공정 결정 장치(100)는 최적 공정을 결정하기 위한 기준이 입력되기만 하면 논문 데이터로부터 자동으로 추출된 복수의 공정 레시피 중에서 최적 화학 공정을 결정할 수 있다.The apparatus 100 for determining an optimal chemical process according to an embodiment of the present invention may determine an optimal chemical process from among a plurality of process recipes automatically extracted from thesis data as long as a criterion for determining the optimal process is input.

지금까지 도 1을 참조하여 본 발명의 일 실시예에 따른 최적 화학 공정 결정 장치(100)의 동작을 개략적으로 설명하였다. 이하, 본 발명의 일 실시예에 따른 최적 화학 공정 결정 방법의 동작을 도 2 내지 도 8을 참조하여 설명한다. 본 실시예는 컴퓨팅 장치에 의하여 수행될 수 있다. 예를 들어, 상기 컴퓨팅 장치는 도 1를 참조하여 설명한 최적 화학 공정 결정 장치(100)일 수 있다. 본 실시예를 설명함에 있어서, 몇몇 동작의 수행 주체에 대한 기재가 생략될 수 있다. 이 때, 상기 수행 주체는 상기 컴퓨팅 장치이다.So far, the operation of the apparatus 100 for determining the optimum chemical process according to an embodiment of the present invention has been schematically described with reference to FIG. 1 . Hereinafter, an operation of the method for determining an optimal chemical process according to an embodiment of the present invention will be described with reference to FIGS. 2 to 8 . This embodiment may be performed by a computing device. For example, the computing device may be the apparatus 100 for determining the optimal chemical process described with reference to FIG. 1 . In describing the present embodiment, descriptions of subjects performing some operations may be omitted. In this case, the performing subject is the computing device.

도 2는 본 발명의 다른 실시예에 따른 최적 화학 공정 결정 방법의 순서도이고, 도 3은 논문 데이터로부터 공정 레시피 데이터 베이스의 구축하는 과정을 나타내는 예시도이다.2 is a flowchart of a method for determining an optimal chemical process according to another embodiment of the present invention, and FIG. 3 is an exemplary diagram illustrating a process of constructing a process recipe database from thesis data.

도 2를 참조하면, 단계 S100에서 논문 데이터로부터 추출된 복수의 공정 레시피를 포함하는 데이터베이스가 구축될 수 있다. 복수의 공정 레시피를 포함하는 데이터베이스는 물질에 대한 화학식이 저장된 데이터베이스일 수 있다.Referring to FIG. 2 , a database including a plurality of process recipes extracted from thesis data in step S100 may be built. The database including a plurality of process recipes may be a database in which chemical formulas for substances are stored.

도 3에서와 같이 복수의 공정 레시피를 포함하는 데이터베이스는 화학 논문 데이터로부터 자연어 처리 기반의 모델을 통해 추출된 화학 공정을 저장할 수 있다. 본 단계에서 논문 데이터는 화학식이 개시된 화학 논문 데이터일 수 있으나, 이에 한정되는 것은 아니다. As shown in FIG. 3 , a database including a plurality of process recipes may store a chemical process extracted from chemical thesis data through a natural language processing-based model. In this step, the thesis data may be chemical thesis data in which the chemical formula is disclosed, but is not limited thereto.

복수의 공정 레시피를 포함하는 데이터베이스는 레시피 자동생성 프레임워크와 레시피 최적화 프레임워크를 통해서 레시피를 자동으로 생성하거나, 최적화된 레시피를 저장할 수 있다. 또한, 복수의 공정 레시피를 포함하는 데이터베이스는 화합물질 DB와 연계될 수 있으며, 화학 공정의 전문가 기반 검증지원 시스템에 의해 관리될 수 있다.A database including a plurality of process recipes may automatically generate a recipe or store an optimized recipe through the recipe automatic creation framework and the recipe optimization framework. In addition, a database including a plurality of process recipes may be linked to a compound DB, and may be managed by an expert-based verification support system of a chemical process.

다시 도 2를 참조하면 단계 S100에서 데이터베이스가 구축될 때, 먼저 전처리 단계가 수행될 수 있다. 구체적으로, 1 단계인 내용 획득(Content acquisition) 단계에서는 화학 관련 논문 데이터를 대상으로 저자들이 재료 과학 분야와 관련된 것으로 판단되는 저널 대상의 논문들이 수집될 수 있다. 논문 원문 수집은 Scrapy 툴을 활용하여 2000년도 이후에 발행된 논문들의 HTML/XML 파일을 수집하는 형태로 진행되어 수집된 정보는 MongoDB에 저장될 수 있다.Referring back to FIG. 2 , when the database is built in step S100, a pre-processing step may be performed first. Specifically, in the content acquisition stage, which is the first stage, journal articles whose authors are judged to be related to the field of materials science may be collected based on chemistry-related thesis data. The original manuscript collection is carried out in the form of collecting HTML/XML files of papers published after 2000 using the scrapy tool, and the collected information can be stored in MongoDB.

2단계로서 문단 분류(Paragraphs classification) 단계에서 논문 데이터 내에서 고체상 합성(Solid-state synthesis)과 관련된 문단을 찾아내기 위하여 두 단계에 걸친 접근 방법이 활용될 수 있다.In the Paragraphs classification stage as the second stage, a two-stage approach can be used to find paragraphs related to solid-state synthesis in the thesis data.

클러스터링을 통한 주제 라벨링 단계에서 실험과 관련 문단의 키워드들을 기준으로 클러스터링이 실시되고, 각각의 클러스터를 구성하고 있는 키워드들을 바탕으로 주제 라벨링이 실시될 수 있다.In the topic labeling step through clustering, clustering may be performed based on the keywords of the experiment and related paragraphs, and topic labeling may be performed based on keywords constituting each cluster.

랜덤 포레스트 분류기를 통한 문단 주제 분류 단계에서 문단들을 구성하고 있는 다양한 주제들 중, 주요 주제를 맞추기 위한 랜덤 포레스트 분류기를 학습한 뒤 분류기로 문단의 주요 주제가 예측될 수 있다.. 주요 주제는 고체상 합성(Solid-state synthesis), 수열 합성(Hydrothermal synthesis), 솔-겔 전구체 합성(Sol-gel precursor synthesis), 해당 사항 없음 중 하나로 판별되었으며, 각 라벨별로 1000개의 문단을 학습하도록 구성될 수 있다.In the step of classifying the paragraph topic through the random forest classifier, the main topic of the paragraph can be predicted with the classifier after learning the random forest classifier to match the main topic among the various topics constituting the paragraphs. Solid-state synthesis), hydrothermal synthesis, sol-gel precursor synthesis, and n/a were identified as none, and it can be configured to study 1000 paragraphs for each label.

3단계인 합성 레시피 추출(Synthesis 레시피 extraction) 단계에서는 앞서 분류된 문단들 중 고체상 합성과 관련된 문단들을 대상으로, (1) 물질 개체명 인식(Material entities recognition), (2) 합성 방법(Synthesis operations), (3) 조합 및 가열 조건(Mixing and heating conditions), (4) 화학 반응식 균형 맞추기(Balancing equations)와 관련된 내용들을 추출될 수 있다.In step 3, the synthesis recipe extraction step, among the paragraphs classified above, the paragraphs related to solid-phase synthesis were used for (1) material entity recognition, (2) synthesis operations. , (3) mixing and heating conditions, and (4) balancing equations can be extracted.

보다 구체적으로, 물질 개체명 인식 단계에서 Bi-directional LSTM(Long-short term memory) 신경망과 conditional random field layer를 결합한 BiLSTM-CRF과, Word2Vec 모델을 활용하여 화학 논문 내 단어들의 개체명을 TARGET, PRECURSOR, OTHER 중 하나로 인식하는 인식기가 학습될 수 있으며, 학습에는 750개의 논문으로부터 추출된 834개의 고체상 합성 문단이 활용될 수 있다.More specifically, in the material entity name recognition stage, BiLSTM-CRF, which combines Bi-directional LSTM (Long-short term memory) neural network and conditional random field layer, and Word2Vec model to TARGET, PRECURSOR the entity names of words in chemical papers , a recognizer that recognizes as one of OTHER can be trained, and 834 solid-phase synthetic paragraphs extracted from 750 papers can be utilized for learning.

합성 방법은 신경망과 Word2Vec, SpaCy를 활용하여, 합성 방법 측면에서 문장 내 단어들을 NOT OPERATION, MIXING, HEATING, DRYING, SHAPING, QUENCHING 과 같은 6개의 라벨중 하나로 분류하는 분류기가 학습될 수 있다.The synthesis method utilizes a neural network, Word2Vec, and SpaCy, and in terms of the synthesis method, a classifier that classifies words in a sentence into one of six labels such as NOT OPERATION, MIXING, HEATING, DRYING, SHAPING, and QUENCHING can be learned.

조합 및 가열 조건설정 단계에서 정규식을 활용하여 시간과 온도와 같이 조합과 가열조건에 관련된 단어들을 찾고, 이를 HEATING과 MIXING로 라벨링 된 합성 방법의 세부 정보로 활용할 수 있도록 라벨링이 실시될 수 있다.In the combination and heating condition setting step, using regular expressions to find words related to combination and heating conditions, such as time and temperature, labeling can be carried out so that it can be utilized as detailed information of the synthesis method labeled HEATING and MIXING.

화학 반응식 균형 맞추기 단계에서 서 추출된 정보를 바탕으로 화학식 형태로 공정 과정이 표현되고 저장될 수 있다.Based on the information extracted in the chemical reaction equation balancing step, the process process can be expressed and stored in the form of a chemical formula.

4단계인 데이터셋 생성(Dataset generation) 단계에서는 앞서 학습된 화학 공정 정보 추출기를 활용하여 많은 양의 논문으로부터 데이터가 추출하고 저장될 수 있다. 4,204,170개의 논문으로부터 실험 섹션과 관련된 6,218,136개의 문단이 확보되고, 이 중 무기물과 관련된 188,198개의 문단이 확보될 수 있다. 이 중, 다시 53,538개의 고체상 합성 관련 문단이 분류되고, 이를 화학 합성물 공정 레시피 관련 데이터셋 확보에 활용되며, 실제 validation 테스트 결과, 전체 데이터의 약 28%에 해당하는 15,145개의 레시피 데이터만 활용될 수 있는 것으로 파악되었다.In the fourth step, the dataset generation step, data can be extracted and stored from a large amount of papers by using the previously learned chemical process information extractor. From 4,204,170 papers, 6,218,136 paragraphs related to the experimental section can be secured, of which 188,198 paragraphs related to inorganic substances can be secured. Of these, 53,538 paragraphs related to solid phase synthesis are again classified, and they are used to secure a dataset related to chemical synthesis process recipes. was found to be

이후, 전처리된 데이터를 이용하여 Solid-state, hydrothermal, sol-gel precursor 합성에 대한 단락 데이터 정보, 무기 화합물질명(Target), 무기 화합물 물질의 재료(Precursor), 합성 작업(Operation) 및 합성 작업 조건(Condition)으로 구성된 레시피 데이터셋을 이용하여 추출 모델이 학습될 수 있다.Thereafter, using the pre-processed data, paragraph data information for the synthesis of solid-state, hydrothermal, and sol-gel precursors, the name of the inorganic compound (Target), the material of the inorganic compound (Precursor), the synthesis operation (Operation) and the synthesis operating conditions An extraction model can be trained using a recipe dataset consisting of (Condition).

또한, 데이터 셋이 구축될 때, 일부 논문의 경우 화학식을 통일하지 않고 실험식, 분자식, 축약구조식 등 다양한 형태로 표기하여 참고 데이터셋에 표기된 화학식과 일치하지 않아 무기화합물 합성 반응의 결과물과 전구물질을 Annotate하지 못하는 문제가 발생될 수 있다.In addition, when the data set is built, in some papers, the chemical formula is not unified, and the chemical formula is expressed in various forms such as empirical formula, molecular formula, and abbreviated structural formula. A problem that cannot be annotated may occur.

따라서 논문의 화학식과 참고 데이터셋의 화학식이 통일되지 않은 단락 데이터의 경우 학습 데이터에서 제외하여 총 3,105건의 단락 데이터 중 2,852개의 단락 데이터만 학습 데이터로 사용되었다.Therefore, in the case of paragraph data in which the chemical formula of the thesis and the reference dataset are not unified, only 2,852 paragraph data out of a total of 3,105 paragraph data were used as training data.

개체명 인식 모델 학습을 위해 단락 데이터를 ‘NLTK(Natural Language Toolkit)’ 파이썬 외부 라이브러리1)를 사용하여 문장 단위로 분리를 진행하여 11,345개 문장이 구축되었는데, ‘NLTK(Natural Language Toolkit)’ 파이썬 외부 라이브러리는 일반적인 도메인의 비정형 텍스트를 대상으로는 높은 성능을 보여주지만 일부 전문적인 내용이 담기는 도메인에서는 문맥을 잘 못 파악하여 문장을 잘 못 분리하는 경우가 존재하였다. 따라서 무기 화합물 공식의 특성 때문에 정상적으로 문장 분리가 진행되지 않은 경우도 존재하였다.11,345 sentences were constructed by separating paragraph data into sentences using the 'NLTK (Natural Language Toolkit)' Python external library1) for learning the entity name recognition model. The library shows high performance for unstructured texts in general domains, but in domains containing some specialized contents, there were cases in which sentences were incorrectly separated by understanding the context incorrectly. Therefore, there were cases where sentence separation did not proceed normally due to the nature of the inorganic compound formula.

이러한 최종 구축된 개체명 인식 모델 학습 데이터의 크기는 학습 단락 데이터는 총 2,852건, 학습 문장 데이터는 11,345개 문장이며, 11,345개 문장을 7:1:2로 나누어 모델 학습 데이터 8,127문장, 검증 데이터 1,207문장, 테스트 데이터 2,016 문장으로 구성되었다.The size of the finally constructed entity name recognition model training data is 2,852 cases of training paragraph data and 11,345 sentences of learning sentence data. It was composed of sentences and 2,016 sentences of test data.

이러한 학습 데이터를 이용하여 모델이 학습되었고, 본 실시예에서 Bi-LSTM과 CRF를 결합한 Bidirectional LSTM-CRF가 모델로 사용되었으며 입력으로는 BERT 모델을 기반으로 한 BioBERT, ClinicalBERT, SciBert모델로 임베딩될 수 있다.A model was trained using this training data, and in this embodiment, a bidirectional LSTM-CRF combining Bi-LSTM and CRF was used as a model, and as an input, it can be embedded into BioBERT, ClinicalBERT, and SciBert models based on the BERT model. have.

본 단계에서 이용되는 추출 모델은 논문 데이터가 입력되면 무기 화합물질의 화합물질명(Target), 화합물질의 재료(Precursor), 합성 작업(Operation)을 출력할 수 있다.The extraction model used in this step can output the compound name of the inorganic compound (Target), the compound material (Precursor), and the synthesis operation (Operation) when the thesis data is input.

추출 모델의 검증 결과, 생물 의학 언어 표현 모델인 BioBERT의 F1-score가 80.78로 성능이 가장 높게 측정되었고 생물 의학 언어가 화학 관련 분야와 가장 밀접한 것으로 나타났다.As a result of the verification of the extraction model, the F1-score of BioBERT, a biomedical language expression model, was measured to have the highest performance as 80.78, and it was found that biomedical language was most closely related to chemistry-related fields.

상기 추출 모델을 이용하여 공정 레시피가 추출되는 과정에서 발생되는 오류를 해결하는 예시를 도 4 및 도 5를 참조하여 설명하도록 한다. 도 4는 논문 데이터로부터 공정 레시피를 추출하는 과정에서 주어 인식 오류가 발생되는 예시를 나타내는 도면이고, 도 5는 논문 데이터로부터 공정 레시피를 추출하는 과정에서 객체 인식 오류가 발생되는 예시를 나타내는 도면이다.An example of resolving an error occurring in the process of extracting a process recipe using the extraction model will be described with reference to FIGS. 4 and 5 . 4 is a diagram illustrating an example in which a subject recognition error occurs in the process of extracting a process recipe from thesis data, and FIG. 5 is a diagram illustrating an example in which an object recognition error occurs in the process of extracting a process recipe from thesis data.

도 4와 같이 calcined의 단어가 앞 문장에서는 동사로 쓰였지만 이후 문장에서 형용사로 사용되는 경우가 매우 적어 모델에서 올바르게 학습을 못하여 발생하는 문제가 존재하는데, 첫 번째 문장에서 dried and calcined는 ‘건조되고 하소되었다’로 동사 형태의 합성 작업(Operation)을 나타내지만 두 번째 문장에서의 The calcined products는 ‘하소 된 물체’로 명사를 의미하여 합성 작업(Operation)과는 다른 형태로 사용되는 문제가 존재한다.As shown in Figure 4, although the word of calcined was used as a verb in the previous sentence, it is rarely used as an adjective in a later sentence, so there is a problem that occurs because the model cannot learn correctly. In the first sentence, dried and calcined are 'dried and Although ‘calcined’ indicates a verb-form operation (Operation), The calcined products in the second sentence means ‘calcined object’ as a noun, so there is a problem that it is used in a different form from the operation. .

이를 해결하기 위한 일 실시예에서, 논문 데이터로부터 공정 문장이 추출될 때, 제1 공정 문장에서 타겟 물질을 생성하는 공정 동사가 식별되고 공정 동사에 해당되는 주어와 목적어가 추출될 수 있다.In an embodiment for solving this problem, when a process sentence is extracted from the thesis data, a process verb generating a target material may be identified from the first process sentence, and a subject and an object corresponding to the process verb may be extracted.

제2 공정 문장에서 상기 공정 동사가 형용사로 변경되고 주어와 목적어가 식별되지 않는 경우 상기 제1 공정 문장에서 생성된 타겟 물질이 주어로 결정될 수 있다.When the process verb is changed to an adjective in the second process sentence and the subject and the object are not identified, the target material generated in the first process sentence may be determined as the subject.

예를 들어, 추출 모델은 일반적인 주어-동사-목적어로 구성된 구조의 문장을 추출하는 것이 아니고 공정이 있을 것으로 판단한 단락을 대상으로 동사부터 인식할 수 있다. 이때, 해당 문장에서 동사가 타겟 공정동사(operation)이고 주어(target)와 목적어(precursor)가 존재하면 공정동사와 타겟에 해당되는 주어 및 전구체에 해당되는 목적어가 추출될 수 있다.For example, the extraction model may not extract a sentence having a structure composed of a general subject-verb-object word, but may recognize a verb from a paragraph determined to be fair. In this case, if the verb is a target fair verb (operation) and a subject (target) and an object (precursor) exist in the corresponding sentence, the object corresponding to the subject and precursor corresponding to the process verb and the target may be extracted.

이후, 추출 모델은 동사가 아닌 형용사인 "milled" 가 인식되고 주어와 목적어가 인식되지 않는 경우 목적어는 없는 것으로 판단하고 앞문장의 산출물을 주어로 취급할 수 있다. 다만, 추출 모델은 새로운 목적어가 "add"나 "combine" 과 같은 동사와 출현하는 것으로 식별하는 경우 앞문장의 산출물을 주어로 취급하고 새로운 목적어와 연관시킬 수 있다.Thereafter, when the adjective "milled", not a verb, is recognized and the subject and object are not recognized, the extraction model may determine that there is no object and treat the output of the preceding sentence as the subject. However, when the extraction model identifies that a new object appears with a verb such as "add" or "combine", it can treat the output of the previous sentence as a subject and associate it with a new object.

도 4와 같이 무기 화합물질명(Target)이 약어로 표현된 경우에 발생하는 문제로 BNT의 경우 일반 화학식과 다르므로 예측하기 어렵다는 문제가 존재한다.As shown in FIG. 4 , it is a problem that occurs when the name of the inorganic compound (Target) is expressed as an abbreviation, and in the case of BNT, it is difficult to predict because it is different from the general chemical formula.

이를 해결하기 위한 다른 실시예에서, 논문 데이터에 포함된 텍스트의 의미를 분석하는 학습이 수행되어 동일한 의미의 텍스트에 대한 동의어 리스트 데이터베이스가 구축될 수 있다. 이후, 동의어 리스트 데이터베이스를 이용하여 상기 논문 데이터로부터 공정 문장이 추출될 수 있다.In another embodiment for solving this problem, learning to analyze the meaning of the text included in the thesis data may be performed to build a synonym list database for the text having the same meaning. Thereafter, a process sentence may be extracted from the thesis data using a synonym list database.

본 실시예는 다른 문단에 존재하는 동의어의 경우에만 동의어 리스트 데이터베이스를 이용하여 공정 레시피가 추출될 수 있다.In this embodiment, the process recipe can be extracted using the synonym list database only in the case of synonyms existing in other paragraphs.

개체 인식은 일반적인 관계추출과는 다르게 한 문장이라도 누락되면 전체에 오류가 발생되기 때문에 개체인식을 포함하여 관계추출이 완벽하게 이루어져야 높은 성능을 발휘할 수 있다. 본 추출 모델은 다른 문단에 존재하는 동의어의 경우 동의어 리스트 데이터베이스를 이용하기 때문에 보다 높은 성능으로 공정 레시피를 추출할 수 있다.In object recognition, unlike general relationship extraction, if even one sentence is omitted, an error occurs in the whole. This extraction model can extract process recipes with higher performance because it uses a synonym list database for synonyms that exist in other paragraphs.

다시 도 2를 참조하면, 단계 S200에서 복수의 공정 레시피 중에서 최적 공정을 결정하기 위한 복수의 기준 중 제1 기준이 선택될 수 있고, 단계 S300에서 제1 기준을 이용하여 상기 최적 공정이 결정될 수 있다.Referring back to FIG. 2 , a first criterion among a plurality of criteria for determining an optimal process among a plurality of process recipes may be selected in step S200, and the optimal process may be determined using the first criterion in step S300 .

단계 S200과 단계 S300을 구체적으로 설명하기 위해 도 6을 참조하도록 한다. 도 6은 도 2의 단계 S200과 단계 S300을 구체적으로 설명하기 위한 순서도이다.In order to describe steps S200 and S300 in detail, reference is made to FIG. 6 . 6 is a flowchart for specifically explaining steps S200 and S300 of FIG. 2 .

단계 S200이 수행될 때 단계 S210 내지 단계 S240이 선택적으로 수행될 수 있다. 단계 S210에서 복수의 기준 중에서 상기 공정 레시피 각각의 수행 과정에서 생성되는 중간물질의 양을 기초로 판단되는 제1 기준이 선택될 수 있고, 단계 S220에서 복수의 공정 레시피가 수행되는 환경의 구현 난이도에 따른 제1 기준이 선택될 수 있다. 단계 S230에서 복수의 공정 레시피의 수행 공정의 신뢰도에 따른 제1 기준이 선택될 수 있으며, 단계 S240에서 복수의 공정 레시피의 수행 공정에서 이용되는 소재의 비용에 따른 제1 기준이 선택될 수 있다. 상기 단계 S200에서의 기준을 통해 단계 S300이 수행될 수 있다.When step S200 is performed, steps S210 to S240 may be selectively performed. In step S210, a first criterion determined based on the amount of intermediates generated in the process of performing each of the process recipes may be selected from among the plurality of criteria, and in step S220, the implementation difficulty of the environment in which the plurality of process recipes is performed A first criterion according to the may be selected. In step S230, the first criterion according to the reliability of the process of performing the plurality of process recipes may be selected, and in step S240, the first criterion according to the cost of the material used in the process of performing the plurality of process recipes may be selected. Step S300 may be performed through the criteria in step S200.

구체적으로, 단계 S210에서 각각의 수행 과정에서 생성되는 중간물질의 양을 기초로 판단되는 제1 기준이 선택되는 경우 단계 S310에서 복수의 공정 레시피 가각의 수행 과정에서 생성되는 중간물질이 식별되고, 복수의 공정 레시피 중에서 상기 중간물질의 양이 가장 적은 공정 레시피가 최적 공정으로 결정될 수 있다.Specifically, when the first criterion determined based on the amount of intermediates generated in each execution process is selected in step S210, intermediates generated in the process of performing each of a plurality of process recipes are identified in step S310, and a plurality of Among the process recipes of , a process recipe having the smallest amount of the intermediate material may be determined as an optimal process.

예를 들어, 공정 레시피 A, B, 및 C가 존재할 때, 공정 레시피 A의 수행 과정에서 중간물질의 양이 1mg 생성되고, 공정 레시피 B의 수행 과정에서 중간물질의 양이 5mg 생성되고 공정 레시피 C의 수행 과정에서 중간물질의 양이 10mg 생성되는 경우에, 중간물질의 양이 가장 적은 A가 최적 공정으로 결정될 수 있다.For example, when process recipes A, B, and C exist, 1 mg of the intermediate is produced in the process of performing process recipe A, and 5 mg of the intermediate is produced in the process of performing process recipe B, and process recipe C In the case where 10 mg of an intermediate is produced in the course of performing

단계 S220에서 복수의 공정 레시피가 수행되는 환경의 구현 난이도에 따른 제1 기준이 선택되는 경우 단계 S320에서 상기 복수의 공정 레시피 각각의 수행 공정을 구현하기 위한 온도를 판단되고, 복수의 공정 레시피 중에서 상기 복수의 공정 레시피의 수행 공정을 구현하기 위한 온도가 미리 설정된 온도에 해당되는 공정 레시피가 최적 공정으로 결정될 수 있다. 여기서 미리 설정된 온도는 0도, 10도, 20도와 같은 미리 설정된 온도 이거나, 10~20도와 같이 범위가 설정된 온도이거나 실온, 또는 상온 등으로 설정된 온도일 수 있다. 이때, 미리 설정된 온도에 가장 가까운 공정 레시피가 최적 공정으로 결정될 수 있다.When the first criterion according to the implementation difficulty of the environment in which the plurality of process recipes is performed is selected in step S220, a temperature for implementing each of the plurality of process recipes is determined in step S320, and among the plurality of process recipes A process recipe corresponding to a preset temperature for implementing a process of performing a plurality of process recipes may be determined as an optimal process. Here, the preset temperature may be a preset temperature such as 0 degrees, 10 degrees, or 20 degrees, a temperature set in a range such as 10 to 20 degrees, or a temperature set to room temperature, room temperature, or the like. In this case, the process recipe closest to the preset temperature may be determined as the optimal process.

예를 들어, 공정 레시피 A, B, 및 C가 존재하고 미리 설정된 온도가 20~25도인 경우의 예시를 들어 설명한다. 이때, 20~25도의 경우 난이도가 가장 낮은 레벨 1로 설정되고, 15~19도와 26~29도의 경우 레벨 1보다 난이도가 높은 레벨 2로 설정되고, 10~14도와 30~34도의 경우 레벨 2보다 난이도가 높은 레벨 2로 설정될 수 있다.For example, an example of a case where process recipes A, B, and C exist and the preset temperature is 20 to 25 degrees will be described. At this time, in the case of 20-25 degrees, the lowest level of difficulty is set to level 1, in the case of 15-19 degrees and 26-29 degrees, the difficulty level is set to higher than level 1, and in the case of 10-14 degrees and 30-34 degrees, it is set to level 2 It can be set to level 2 with high difficulty.

만약, 공정 레시피 A가 수행되는 온도가 23도이고, 공정 레시피 B가 수행되는 온도가 17도이고, 공정 레시피 C가 수행되는 온도가 33도인 경우 공정 레시피 A의 구현 난이도는 레벨 1, 레시피 B의 구현 난이도는 레벨 2, 레시피 C의 구현 난이도는 레벨 3으로 판단될 수 있다. 이에 따라 구현 난이도가 레벨 1로 가장 낮은 공정 레시피 A가 최적 공정으로 결정될 수 있다.단계 S230에서 복수의 공정 레시피의 수행 공정의 신뢰도에 따른 제1 기준이 선택되는 경우 단계 S330에서 복수의 공정 레시피 중에서 성공률이 가장 높은 공정 레시피를 제1 기준의 신뢰도가 높은 공정 레시피로 판단하여 공정 레시피가 최적 공정으로 결정될 수 있다.If the temperature at which the process recipe A is performed is 23 degrees, the temperature at which the process recipe B is performed is 17 degrees, and the temperature at which the process recipe C is performed is 33 degrees, the implementation difficulty of the process recipe A is level 1, the The implementation difficulty may be determined as level 2, and the implementation difficulty level of the recipe C may be determined as level 3. Accordingly, the process recipe A having the lowest implementation difficulty of level 1 may be determined as the optimal process. When the first criterion according to the reliability of the execution process of the plurality of process recipes is selected in step S230, among the plurality of process recipes in step S330 The process recipe with the highest success rate may be determined as the process recipe having the high reliability of the first criterion, and thus the process recipe may be determined as the optimal process.

단계 S240에서 복수의 공정 레시피의 수행 공정에서 이용되는 소재의 비용에 따른 제1 기준이 선택되는 경우 단계 S340에서 복수의 공정 레시피 각각에 대한 수행 공정에서 소재의 비용의 총합을 기준으로 소재의 비용의 총 합이 가장 낮은 공정 레시피가 최적 공정으로 결정될 수 있다. 일 실시예에서, 소재의 비용의 총 합은 소재의 구매 비용, 관리 비용, 실험 수행 비용, 소재 조달 비용 등을 의미할 수 있다.When the first criterion according to the cost of the material used in the process of performing the plurality of process recipes is selected in step S240, the cost of the material is based on the sum of the costs of the material in the process performed for each of the plurality of process recipes in step S340. The process recipe with the lowest sum may be determined as the optimal process. In an embodiment, the total sum of the cost of the material may mean the purchase cost of the material, the management cost, the experiment execution cost, the material procurement cost, and the like.

예를 들어, 공정 레시피 A, B, 및 C가 존재할때, 수행 공정에서 이용되는 소재의 비용의 총 합이 입력될 때 공정 레시피 A가 100만원이고, 공정 레시피 B가 500만원이고, 공정 레시피 C가 1000만원인 경우 소재의 비용의 총 합이 가장 적은 A가 최적 공정으로 결정될 수 있다.For example, when process recipes A, B, and C exist, process recipe A is 1 million won, process recipe B is 5 million won, and process recipe C is input when the total cost of materials used in the process to be performed is input If is 10 million won, A with the smallest total cost of materials may be determined as the optimal process.

본 발명의 다른 실시예에 따른 최적 화학 공정 결정 방법은 상기 다양한 기준과 그에 따른 최적 공정의 결정 방법에 의해 필요한 목적에 최적화된 화학 공정을 자동으로 결정하여 추출할 수 있는 장점이 있다.The optimal chemical process determination method according to another embodiment of the present invention has the advantage of automatically determining and extracting a chemical process optimized for a necessary purpose by the various criteria and the method for determining the optimal process according to the above-mentioned various criteria.

도 7은 도 2의 단계 S300의 다양한 실시예를 설명하기 위한 순서도이다.7 is a flowchart illustrating various embodiments of step S300 of FIG. 2 .

단계 S300이 수행될 때, 최적 화학 공정을 결정하기 위해 단계 S350 및 단계 S360이 수행될 수 있다.When step S300 is performed, steps S350 and S360 may be performed to determine an optimal chemical process.

구체적으로 단계 S350이 수행될 때 제1 기준에 할당된 가중치를 이용하여 기초하여 복수의 공정 레시피 각각에 대한 스코어링이 수행될 수 있다.Specifically, when step S350 is performed, scoring may be performed for each of the plurality of process recipes based on the weight assigned to the first criterion.

즉, 제1 기준에는 가중치가 할당될 수 있고 해당되는 가중치를 반영하여 공정 레시피에 대한 스코어링이 수행될 수 있다.That is, a weight may be assigned to the first criterion, and scoring of the process recipe may be performed by reflecting the corresponding weight.

또한, 여러 개의 기준을 기초로 복수의 공정 레시피가 스코어링 될 수 있다. 이때, 여러 개의 기준은 상기 단계 S210 내지 단계 S240에서 수행되는 적어도 하나의 단계 또는 복수의 조합일 수 있다. 또한, 제1 기준에 할당된 가중치와 제2 기준에 할당된 가중치를 합산한 스코어를 이용하여 상기 복수의 공정 레시피 각각이 스코어링될 수 있다.Additionally, multiple process recipes may be scored based on multiple criteria. In this case, the plurality of criteria may be at least one step or a combination of a plurality of steps performed in steps S210 to S240. In addition, each of the plurality of process recipes may be scored using a score obtained by adding the weight assigned to the first criterion and the weight assigned to the second criterion.

예를 들어, 제1 기준에 할당된 가중치가 0.7이고, 제2 기준에 할당된 가중치가 0.3인 경우, 해당되는 공정 레시피에 제1 기준의 가중치와 제2 기준의 가중치를 함께 반영하여 스코어링될 수 있다.For example, if the weight assigned to the first criterion is 0.7 and the weight assigned to the second criterion is 0.3, the corresponding process recipe may be scored by reflecting the weight of the first criterion and the weight of the second criterion together. have.

이때, 제1 기준에 할당된 가중치에 따른 스코어 또는 제2 기준에 할당된 가중치에 따른 스코어가 0인 공정 레시피가 존재하는 경우 스코어가 0인 공정 레시피는 상기 최적 공정에서 배제될 수 있다. 이에 따라, 본 실시예는 스코어가 0인 공정 레시피는 빠르게 제외되거나 배제되어 연산 속도를 높일 필요가 있는데, 이러한 동작에 의해 불필요한 연산이 수행되고 전체 연산이 지연되는 것을 방지할 수 있다.In this case, when a process recipe having a score of 0 according to a weight assigned to the first criterion or a score according to a weight assigned to the second criterion exists, the process recipe having a score of 0 may be excluded from the optimal process. Accordingly, in the present embodiment, it is necessary to quickly exclude or exclude a process recipe having a score of 0 to increase the operation speed. This operation can prevent unnecessary operation and delay of the entire operation.

지금까지 도 1 내지 도 8을 참조하여 본 명세서에 기재된 최적 화학 공정 결정 방법을 설명하였다.So far, the optimal chemical process determination method described herein has been described with reference to FIGS. 1 to 8 .

도 8은 본 발명의 일 실시예에 따른 최적 화학 공정 결정 장치의 하드웨어 구성도이다.8 is a hardware configuration diagram of an apparatus for determining an optimal chemical process according to an embodiment of the present invention.

도 8에 도시된 바와 같이, 컴퓨팅 장치(500)는 하나 이상의 프로세서(510), 버스(550), 통신 인터페이스(570), 프로세서(510)에 의하여 수행되는 컴퓨터 프로그램(591)을 로드(load)하는 메모리(530)와, 컴퓨터 프로그램(591)를 저장하는 스토리지(590)를 포함할 수 있다. 다만, 도 8에는 본 발명과 관련 있는 구성요소들 만이 도시되어 있다. 따라서, 본 발명이 속한 기술분야의 통상의 기술자라면 도 8에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다.As shown in FIG. 8 , the computing device 500 loads one or more processors 510 , a bus 550 , a communication interface 570 , and a computer program 591 executed by the processor 510 . It may include a memory 530 and a storage 590 for storing the computer program (591). However, only the components related to the present invention are illustrated in FIG. 8 . Accordingly, a person skilled in the art to which the present invention pertains can see that other general-purpose components other than the components shown in FIG. 8 may be further included.

프로세서(510)는 컴퓨팅 장치(500)의 각 구성의 전반적인 동작을 제어한다. 프로세서(510)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 발명의 기술 분야에 잘 알려진 임의의 형태의 프로세서 중 적어도 하나를 포함하여 구성될 수 있다. 또한, 프로세서(510)는 본 명세서에 기재된 다양한 실시예들에 따른 방법/동작을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 컴퓨팅 장치(500)는 하나 이상의 프로세서를 구비할 수 있다.The processor 510 controls the overall operation of each component of the computing device 500 . The processor 510 includes at least one of a central processing unit (CPU), a micro processor unit (MPU), a micro controller unit (MCU), a graphic processing unit (GPU), or any type of processor well known in the art. may be included. In addition, the processor 510 may perform an operation on at least one application or program for executing the method/operation according to various embodiments described herein. Computing device 500 may include one or more processors.

메모리(530)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(530)는 본 명세서에 기재된 다양한 실시예들에 따른 방법/동작들을 실행하기 위하여 스토리지(590)로부터 하나 이상의 프로그램(591)을 로드(load) 할 수 있다. 메모리(530)의 예시는 RAM이 될 수 있으나, 이에 한정되는 것은 아니다.The memory 530 stores various data, commands, and/or information. Memory 530 may load one or more programs 591 from storage 590 to execute methods/operations according to various embodiments described herein. An example of the memory 530 may be a RAM, but is not limited thereto.

버스(550)는 컴퓨팅 장치(500)의 구성 요소 간 통신 기능을 제공한다. 버스(550)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.The bus 550 provides communication between components of the computing device 500 . The bus 550 may be implemented as various types of buses, such as an address bus, a data bus, and a control bus.

통신 인터페이스(570)는 컴퓨팅 장치(500)의 유무선 인터넷 통신을 지원한다. 통신 인터페이스(570)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 통신 인터페이스(570)는 본 발명의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다.The communication interface 570 supports wired/wireless Internet communication of the computing device 500 . The communication interface 570 may support various communication methods other than Internet communication. To this end, the communication interface 570 may be configured to include a communication module well known in the art.

스토리지(590)는 하나 이상의 컴퓨터 프로그램(591)을 비임시적으로 저장할 수 있다. 스토리지(590)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.The storage 590 may non-temporarily store one or more computer programs 591 . The storage 590 is a non-volatile memory such as a read only memory (ROM), an erasable programmable ROM (EPROM), an electrically erasable programmable ROM (EEPROM), a flash memory, a hard disk, a removable disk, or well in the art to which the present invention pertains. It may be configured to include any known computer-readable recording medium.

컴퓨터 프로그램(591)은 본 명세서에 기재된 다양한 실시예들에 따른 방법/동작들이 구현된 하나 이상의 인스트럭션들을 포함할 수 있다. 컴퓨터 프로그램(591)이 메모리(530)에 로드 되면, 프로세서(510)는 상기 하나 이상의 인스트럭션들을 실행시킴으로써 본 명세서에 기재된 다양한 실시예들에 따른 방법/동작들을 수행할 수 있다.The computer program 591 may include one or more instructions in which methods/acts according to various embodiments described herein are implemented. When the computer program 591 is loaded into the memory 530 , the processor 510 may execute the one or more instructions to perform methods/operations according to various embodiments described herein.

지금까지 설명된 실시예들에 따른 방법들은 컴퓨터가 읽을 수 있는 코드로 구현된 컴퓨터프로그램의 실행에 의하여 수행될 수 있다. 상기 컴퓨터프로그램은 인터넷 등의 네트워크를 통하여 제1 컴퓨팅 장치로부터 제2 컴퓨팅 장치에 전송되어 상기 제2 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 제2 컴퓨팅 장치에서 사용될 수 있다. 상기 제1 컴퓨팅 장치 및 상기 제2 컴퓨팅 장치는, 서버 장치, 클라우드 서비스를 위한 서버 풀에 속한 물리 서버, 데스크탑 피씨와 같은 고정식 컴퓨팅 장치를 모두 포함한다.The methods according to the embodiments described so far may be performed by executing a computer program implemented as computer readable code. The computer program may be transmitted from the first computing device to the second computing device through a network such as the Internet and installed in the second computing device, thereby being used in the second computing device. The first computing device and the second computing device include all of a server device, a physical server belonging to a server pool for cloud services, and a stationary computing device such as a desktop PC.

상기 컴퓨터프로그램은 DVD-ROM, 플래시 메모리 장치 등의 기록매체에 저장된 것일 수도 있다.The computer program may be stored in a recording medium such as a DVD-ROM or a flash memory device.

이상 첨부된 도면을 참조하여 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다.Although the embodiments have been described above with reference to the accompanying drawings, those of ordinary skill in the art to which the present invention pertains can understand that the present invention can be embodied in other specific forms without changing the technical spirit or essential features. have. Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive.

Claims (17)

컴퓨팅 장치에 의해 수행되는 방법에 있어서,
논문 데이터로부터 추출된 복수의 공정 레시피를 포함하는 데이터베이스를 구축하는 단계;
상기 복수의 공정 레시피 중에서 최적 공정을 결정하기 위한 복수의 기준 중 제1 기준을 선택하는 단계; 및
상기 제1 기준을 이용하여 상기 최적 공정을 결정하는 단계를 포함하고,
상기 논문 데이터로부터 추출된 복수의 공정 레시피를 포함하는 데이터베이스를 구축하는 단계는,
상기 논문 데이터로부터 제1 공정 문장 및 상기 제1 공정 문장 이후에 나타나는 제2 공정 문장을 추출하는 단계;
상기 제1 공정 문장에서 타겟 물질을 생성하는 공정 동사를 식별하고 상기 공정 동사에 해당되는 주어와 목적어를 추출하는 단계; 및
상기 제2 공정 문장에서 상기 공정 동사가 형용사로 변경되고 주어와 목적어가 식별되지 않는 경우 상기 제1 공정 문장에서 생성된 상기 타겟 물질을 상기 제2 공정 문장의 주어로 결정하는 단계를 포함하는,
최적 화학 공정 결정 방법.
A method performed by a computing device, comprising:
constructing a database including a plurality of process recipes extracted from the thesis data;
selecting a first criterion from among a plurality of criteria for determining an optimal process from among the plurality of process recipes; and
determining the optimal process using the first criterion;
The step of constructing a database including a plurality of process recipes extracted from the thesis data includes:
extracting a first process sentence and a second process sentence appearing after the first process sentence from the thesis data;
identifying a process verb generating a target material from the first process sentence and extracting a subject and an object corresponding to the process verb; and
In the second process sentence, when the process verb is changed to an adjective and a subject and an object are not identified, determining the target material generated in the first process sentence as the subject of the second process sentence,
How to determine the optimal chemical process.
제1항에 있어서,
상기 복수의 공정 레시피 중에서 최적 공정을 결정하기 위한 복수의 기준 중 제1 기준을 선택하는 단계는,
상기 복수의 기준 중에서 상기 공정 레시피 각각의 수행 과정에서 생성되는 중간물질의 양을 기초로 판단되는 제1 기준을 선택하는 단계를 포함하는,
최적 화학 공정 결정 방법.
According to claim 1,
The step of selecting a first criterion from among a plurality of criteria for determining an optimal process from among the plurality of process recipes,
Selecting a first criterion determined based on an amount of an intermediate produced in the process of performing each of the process recipes from among the plurality of criteria,
How to determine the optimal chemical process.
제2항에 있어서,
상기 제1 기준을 이용하여 상기 최적 공정을 결정하는 단계는,
상기 복수의 공정 레시피 각각의 수행 과정에서 생성되는 중간물질을 식별하는 단계; 및
상기 복수의 공정 레시피 중에서 상기 중간물질의 양이 가장 적은 공정 레시피를 상기 최적 공정으로 결정하는 단계를 포함하는,
최적 화학 공정 결정 방법.
3. The method of claim 2,
Determining the optimal process using the first criterion comprises:
identifying intermediates generated in the process of performing each of the plurality of process recipes; and
Determining a process recipe having the smallest amount of the intermediate from among the plurality of process recipes as the optimal process,
How to determine the optimal chemical process.
제1항에 있어서,
상기 복수의 공정 레시피 중에서 최적 공정을 결정하기 위한 복수의 기준 중 제1 기준을 선택하는 단계는,
상기 복수의 공정 레시피가 수행되는 환경의 구현 난이도에 따른 제1 기준을 선택하는 단계를 포함하는,
최적 화학 공정 결정 방법.
According to claim 1,
The step of selecting a first criterion from among a plurality of criteria for determining an optimal process from among the plurality of process recipes,
Including the step of selecting a first criterion according to the implementation difficulty of the environment in which the plurality of process recipes are performed,
How to determine the optimal chemical process.
제4항에 있어서,
상기 제1 기준을 이용하여 상기 최적 공정을 결정하는 단계는,
상기 복수의 공정 레시피 중 제1 공정 레시피에 대해 수행 공정을 구현하기 위한 온도를 판단하는 단계; 및
상기 온도가 미리 설정된 온도에 해당되면 상기 제1 공정 레시피를 상기 최적 공정으로 결정하는 단계를 포함하는,
최적 화학 공정 결정 방법.
5. The method of claim 4,
Determining the optimal process using the first criterion comprises:
determining a temperature for implementing a process to be performed with respect to a first process recipe among the plurality of process recipes; and
Comprising the step of determining the first process recipe as the optimal process when the temperature corresponds to a preset temperature,
How to determine the optimal chemical process.
제1항에 있어서,
상기 복수의 공정 레시피 중에서 최적 공정을 결정하기 위한 복수의 기준 중 제1 기준을 선택하는 단계는,
상기 복수의 공정 레시피의 수행 공정의 신뢰도에 따른 제1 기준을 선택하는 단계를 포함하는,
최적 화학 공정 결정 방법.
According to claim 1,
The step of selecting a first criterion from among a plurality of criteria for determining an optimal process from among the plurality of process recipes,
Including the step of selecting a first criterion according to the reliability of the process of performing the plurality of process recipes,
How to determine the optimal chemical process.
제6항에 있어서,
상기 제1 기준을 이용하여 상기 최적 공정을 결정하는 단계는,
상기 복수의 공정 레시피의 수행 공정을 반복하여 상기 복수의 공정 레시피의 성공률을 판단하는 단계; 및
상기 복수의 공정 레시피 중에서 상기 성공률이 가장 높은 공정 레시피를 상기 제1 기준의 신뢰도가 높은 공정 레시피로 판단하여 상기 공정 레시피를 상기 최적 공정으로 결정하는 단계를 포함하는,
최적 화학 공정 결정 방법.
7. The method of claim 6,
Determining the optimal process using the first criterion comprises:
determining success rates of the plurality of process recipes by repeating the process of performing the plurality of process recipes; and
Comprising the step of determining the process recipe with the highest success rate among the plurality of process recipes as the process recipe with high reliability of the first criterion and determining the process recipe as the optimal process,
How to determine the optimal chemical process.
제1항에 있어서,
상기 복수의 공정 레시피 중에서 최적 공정을 결정하기 위한 복수의 기준 중 제1 기준을 선택하는 단계는,
상기 복수의 공정 레시피의 수행 공정에서 이용되는 소재의 비용에 따른 제1 기준을 선택하는 단계를 포함하는,
최적 화학 공정 결정 방법.
According to claim 1,
The step of selecting a first criterion from among a plurality of criteria for determining an optimal process from among the plurality of process recipes,
Including the step of selecting a first criterion according to the cost of the material used in the process of performing the plurality of process recipes,
How to determine the optimal chemical process.
제8항에 있어서,
상기 제1 기준을 이용하여 상기 최적 공정을 결정하는 단계는,
상기 복수의 공정 레시피 각각의 수행 공정에서 이용되는 소재를 식별하는 단계; 및
상기 복수의 공정 레시피 각각에 대한 수행 공정에서 상기 소재의 비용의 총 합을 기준으로 상기 복수의 공정 레시피 중에서 상기 소재의 비용의 총 합이 가장 낮은 공정 레시피를 상기 최적 공정으로 결정하는 단계를 포함하는,
최적 화학 공정 결정 방법.
9. The method of claim 8,
Determining the optimal process using the first criterion comprises:
identifying a material used in the process of performing each of the plurality of process recipes; and
In the process performed for each of the plurality of process recipes, based on the total sum of the costs of the materials, determining a process recipe having the lowest total cost of the materials among the plurality of process recipes as the optimal process. ,
How to determine the optimal chemical process.
제1항에 있어서,
상기 제1 기준을 이용하여 상기 최적 공정을 결정하는 단계는,
상기 제1 기준에 할당된 가중치에 따른 스코어를 이용하여, 상기 복수의 공정 레시피 각각을 스코어링하는 단계; 및
상기 스코어링 결과에 따라 최적 공정을 결정하는 단계를 포함하는,
최적 화학 공정 결정 방법.
According to claim 1,
Determining the optimal process using the first criterion comprises:
scoring each of the plurality of process recipes by using a score according to the weight assigned to the first criterion; and
Determining an optimal process according to the scoring result,
How to determine the optimal chemical process.
제10항에 있어서,
상기 제1 기준에 할당된 가중치에 따른 스코어를 이용하여, 상기 복수의 공정 레시피 각각을 스코어링하는 단계는,
상기 제1 기준에 할당된 가중치와 상기 복수의 기준 중 상기 제1 기준과 다른 제2 기준에 할당된 가중치를 합산한 스코어를 이용하여 상기 복수의 공정 레시피 각각을 스코어링하는 단계를 포함하는,
최적 화학 공정 결정 방법.
11. The method of claim 10,
Scoring each of the plurality of process recipes by using a score according to the weight assigned to the first criterion,
scoring each of the plurality of process recipes using a score obtained by adding a weight assigned to the first criterion and a weight assigned to a second criterion different from the first criterion among the plurality of criteria;
How to determine the optimal chemical process.
제11항에 있어서,
상기 제1 기준에 할당된 가중치와 제2 기준에 할당된 가중치를 합산한 스코어를 이용하여 상기 복수의 공정 레시피 각각을 스코어링하는 단계는,
상기 제1 기준에 할당된 가중치에 따른 스코어 또는 제2 기준에 할당된 가중치에 따른 스코어가 0인 공정 레시피가 존재하는 경우 상기 공정 레시피를 상기 최적 공정에서 배제하는 단계를 포함하는,
최적 화학 공정 결정 방법.
12. The method of claim 11,
The step of scoring each of the plurality of process recipes by using a score obtained by summing the weight assigned to the first criterion and the weight assigned to the second criterion,
excluding the process recipe from the optimal process when there is a process recipe having a score according to the weight assigned to the first criterion or a score according to the weight assigned to the second criterion is 0;
How to determine the optimal chemical process.
제1항에 있어서,
상기 제1 기준을 이용하여 상기 최적 공정을 결정하는 단계는,
상기 복수의 공정 레시피 중 상기 제1 기준에 기초하여 선택된 제1 공정 레시피를 이용하여 상기 최적 공정을 결정하는 단계를 포함하는,
최적 화학 공정 결정 방법.
According to claim 1,
Determining the optimal process using the first criterion comprises:
determining the optimal process by using a first process recipe selected based on the first criterion among the plurality of process recipes,
How to determine the optimal chemical process.
삭제delete 제1항에 있어서,
상기 논문 데이터로부터 추출된 복수의 공정 레시피를 포함하는 데이터베이스를 구축하는 단계는,
상기 논문 데이터에 포함된 텍스트의 의미를 분석하는 학습을 수행하여 동일한 의미의 텍스트에 대한 동의어 리스트 데이터베이스를 구축하는 단계; 및
상기 동의어 리스트 데이터베이스를 이용하여 상기 논문 데이터로부터 공정 문장을 추출하는 단계를 포함하는,
최적 화학 공정 결정 방법.
According to claim 1,
The step of constructing a database including a plurality of process recipes extracted from the thesis data includes:
constructing a synonym list database for text having the same meaning by performing learning to analyze the meaning of the text included in the thesis data; and
extracting a process sentence from the thesis data using the synonym list database,
How to determine the optimal chemical process.
프로세서;
네트워크 인터페이스;
상기 프로세서에 의해 실행되어 컴퓨터 프로그램을 로드(load)하는 메모리; 및
상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하는 컴퓨팅 장치에 있어서,
상기 컴퓨터 프로그램은,
논문 데이터로부터 추출된 복수의 공정 레시피를 포함하는 데이터베이스를 구축하는 인스트럭션(instruction);
상기 복수의 공정 레시피 중에서 최적 공정을 결정하기 위한 복수의 기준 중 제1 기준을 선택하는 인스트럭션; 및
상기 제1 기준을 이용하여 상기 최적 공정을 결정하는 인스트럭션을 포함하고,
상기 논문 데이터로부터 추출된 복수의 공정 레시피를 포함하는 데이터베이스를 구축하는 인스트럭션은,
상기 논문 데이터로부터 제1 공정 문장 및 상기 제1 공정 문장 이후에 나타나는 제2 공정 문장을 추출하는 인스트럭션;
상기 제1 공정 문장에서 타겟 물질을 생성하는 공정 동사를 식별하고 상기 공정 동사에 해당되는 주어와 목적어를 추출하는 인스트럭션; 및
상기 제2 공정 문장에서 상기 공정 동사가 형용사로 변경되고 주어와 목적어가 식별되지 않는 경우 상기 제1 공정 문장에서 생성된 상기 타겟 물질을 상기 제2 공정 문장의 주어로 결정하는 인스트럭션을 포함하는,
컴퓨팅 장치.
processor;
network interface;
a memory executed by the processor to load a computer program; and
A computing device comprising a storage for storing the computer program,
The computer program is
instructions for constructing a database including a plurality of process recipes extracted from the thesis data;
instructions for selecting a first criterion from among a plurality of criteria for determining an optimal process from among the plurality of process recipes; and
instructions for determining the optimal process using the first criterion;
Instruction for building a database including a plurality of process recipes extracted from the thesis data,
instructions for extracting a first process sentence and a second process sentence appearing after the first process sentence from the thesis data;
instructions for identifying a process verb generating a target material from the first process sentence and extracting a subject and an object corresponding to the process verb; and
and instructions for determining the target material generated in the first process sentence as the subject of the second process sentence when the process verb is changed to an adjective in the second process sentence and a subject and an object are not identified.
computing device.
프로세서에 의해 실행 가능한 컴퓨터 프로그램 명령어들을 포함하는, 최적 수행 공정을 결정하기 위한 컴퓨터 프로그램으로서, 상기 컴퓨터 프로그램 명령어들이 컴퓨팅 디바이스의 프로세서에 의해 실행되는 경우에,
논문 데이터로부터 추출된 복수의 공정 레시피를 포함하는 데이터베이스를 구축하는 단계;
상기 복수의 공정 레시피 중에서 최적 공정을 결정하기 위한 복수의 기준 중 제1 기준을 선택하는 단계; 및
상기 제1 기준을 이용하여 상기 최적 공정을 결정하는 단계를 포함하는, 동작들을 수행하는 컴퓨터 프로그램이 기록되되,
상기 논문 데이터로부터 추출된 복수의 공정 레시피를 포함하는 데이터베이스를 구축하는 단계는,
상기 논문 데이터로부터 제1 공정 문장 및 상기 제1 공정 문장 이후에 나타나는 제2 공정 문장을 추출하는 단계;
상기 제1 공정 문장에서 타겟 물질을 생성하는 공정 동사를 식별하고 상기 공정 동사에 해당되는 주어와 목적어를 추출하는 단계; 및
상기 제2 공정 문장에서 상기 공정 동사가 형용사로 변경되고 주어와 목적어가 식별되지 않는 경우 상기 제1 공정 문장에서 생성된 상기 타겟 물질을 상기 제2 공정 문장의 주어로 결정하는 단계를 포함하는,
동작들을 수행하는 컴퓨터 프로그램이 기록된,
컴퓨터 판독 가능한 기록 매체.
A computer program for determining an optimal performance process comprising computer program instructions executable by a processor, wherein the computer program instructions are executed by a processor of a computing device, comprising:
constructing a database including a plurality of process recipes extracted from the thesis data;
selecting a first criterion from among a plurality of criteria for determining an optimal process from among the plurality of process recipes; and
a computer program for performing operations comprising determining the optimal process using the first criterion;
The step of constructing a database including a plurality of process recipes extracted from the thesis data includes:
extracting a first process sentence and a second process sentence appearing after the first process sentence from the thesis data;
identifying a process verb generating a target material from the first process sentence and extracting a subject and an object corresponding to the process verb; and
In the second process sentence, when the process verb is changed to an adjective and a subject and an object are not identified, determining the target material generated in the first process sentence as the subject of the second process sentence,
A computer program that performs operations is recorded,
computer readable recording medium.
KR1020210012016A 2021-01-28 2021-01-28 Method and apparatus for determining the optimal chemical process KR102306917B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210012016A KR102306917B1 (en) 2021-01-28 2021-01-28 Method and apparatus for determining the optimal chemical process

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210012016A KR102306917B1 (en) 2021-01-28 2021-01-28 Method and apparatus for determining the optimal chemical process

Publications (1)

Publication Number Publication Date
KR102306917B1 true KR102306917B1 (en) 2021-09-30

Family

ID=77920480

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210012016A KR102306917B1 (en) 2021-01-28 2021-01-28 Method and apparatus for determining the optimal chemical process

Country Status (1)

Country Link
KR (1) KR102306917B1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100080904A (en) 2007-09-10 2010-07-13 에스데 리젠츠페어베르퉁스게젤샤프트 엠베하 엔 코. 카게 Chemical process optimization method that considers chemical process plant safety

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100080904A (en) 2007-09-10 2010-07-13 에스데 리젠츠페어베르퉁스게젤샤프트 엠베하 엔 코. 카게 Chemical process optimization method that considers chemical process plant safety

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Dustin Kaiser et al., Using Data Analysis To Evaluate and Compare Chemical Syntheses, Org. Process Res. Dev. Vol.22, pp1222-1235(2018.09.21.)* *
John E. Burks et al., Development of a Manufacturing Process for Zatosetron Maleate, Org. Process Res. Dev. Vol.1 pp198-210(1997.05.01.)* *
Liyuan Huang et al., Representing Multiword Chemical Terms through Phrase-Level Preprocessing and Word Embedding, ACS Omega Vol.4 pp18510-18519(2019.11.12.)* *
Olga Kononova et al., Text-mined dataset of inorganic materials synthesis recipes, Scientific Data Vol.6, 203(2019.10.15.)* *
Rolf Dach et al., The Eight Criteria Defining a Good Chemical Manufacturing Process, Org. Process Res. Dev. Vol.16 pp1697-1706(2012.11.16.)* *

Similar Documents

Publication Publication Date Title
Guggilla et al. CNN-and LSTM-based claim classification in online user comments
Khabsa et al. Learning to identify relevant studies for systematic reviews using random forest and external information
US8103671B2 (en) Text categorization with knowledge transfer from heterogeneous datasets
US11182433B1 (en) Neural network-based semantic information retrieval
Ye et al. Sparktext: Biomedical text mining on big data framework
Kim et al. Classifying protein-protein interaction articles using word and syntactic features
Kumar et al. Sentimentalizer: Docker container utility over Cloud
WO2018056423A1 (en) Scenario passage classifier, scenario classifier, and computer program therefor
JP7303195B2 (en) Facilitate subject area and client-specific application program interface recommendations
US11227183B1 (en) Section segmentation based information retrieval with entity expansion
Huynh et al. Vietnamese text classification with textrank and jaccard similarity coefficient
Ivanov et al. Extracting software requirements from unstructured documents
Vidyashree et al. An improvised sentiment analysis model on twitter data using stochastic gradient descent (SGD) optimization algorithm in stochastic gate neural network (SGNN)
CN112818126B (en) Training method, application method and device for network security corpus construction model
KR100575495B1 (en) Method for Extracting and Inferring the Interaction of Biological Components, Inferring Program for Performing the Method and Recording Medium thereof
Leonova Review of non-English corpora annotated for emotion classification in text
KR102306917B1 (en) Method and apparatus for determining the optimal chemical process
Tran et al. The recent advances in automatic term extraction: A survey
Sarawan et al. Machine Learning-Based Methods for Identifying Bug Severity Level from Bug Reports
Ferilli et al. Towards a Process Mining Approach to Grammar Induction for Digital Libraries: Syntax Checking and Style Analysis
KR102215259B1 (en) Method of analyzing relationships of words or documents by subject and device implementing the same
Espichán-Linares et al. Language identification with scarce data: A case study from peru
Afzal et al. Towards semantic annotation of bioinformatics services: building a controlled vocabulary
Evangeline et al. Frequency based feature extraction technique for text documents in Tamil Language
Netisopakul et al. The state of knowledge extraction from text for thai language

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant