KR102491346B1 - 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법, 장치 및 컴퓨터프로그램 - Google Patents
인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법, 장치 및 컴퓨터프로그램 Download PDFInfo
- Publication number
- KR102491346B1 KR102491346B1 KR1020210161668A KR20210161668A KR102491346B1 KR 102491346 B1 KR102491346 B1 KR 102491346B1 KR 1020210161668 A KR1020210161668 A KR 1020210161668A KR 20210161668 A KR20210161668 A KR 20210161668A KR 102491346 B1 KR102491346 B1 KR 102491346B1
- Authority
- KR
- South Korea
- Prior art keywords
- data
- research
- research record
- experiment
- information
- Prior art date
Links
- 238000011160 research Methods 0.000 title claims abstract description 515
- 238000000034 method Methods 0.000 title claims abstract description 184
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 136
- 238000004590 computer program Methods 0.000 title claims abstract description 18
- 238000002474 experimental method Methods 0.000 claims abstract description 171
- 238000012545 processing Methods 0.000 claims abstract description 30
- 239000000463 material Substances 0.000 claims description 125
- 230000008569 process Effects 0.000 claims description 96
- 238000012360 testing method Methods 0.000 claims description 36
- 238000003058 natural language processing Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 229920002994 synthetic fiber Polymers 0.000 description 87
- 230000000875 corresponding effect Effects 0.000 description 37
- 230000002194 synthesizing effect Effects 0.000 description 21
- 239000002547 new drug Substances 0.000 description 20
- 238000010586 diagram Methods 0.000 description 19
- 238000011161 development Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 16
- 238000001308 synthesis method Methods 0.000 description 16
- 230000004044 response Effects 0.000 description 10
- QTBSBXVTEAMEQO-UHFFFAOYSA-N Acetic acid Chemical compound CC(O)=O QTBSBXVTEAMEQO-UHFFFAOYSA-N 0.000 description 9
- 238000004088 simulation Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 8
- 239000000126 substance Substances 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 239000000203 mixture Substances 0.000 description 6
- 241000282326 Felis catus Species 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 5
- 201000010099 disease Diseases 0.000 description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 5
- 238000009509 drug development Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000013341 scale-up Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 239000007864 aqueous solution Substances 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 229910052729 chemical element Inorganic materials 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/90—Programming languages; Computing architectures; Database systems; Data warehousing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/10—Analysis or design of chemical reactions, syntheses or processes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/40—Searching chemical structures or physicochemical data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/80—Data visualisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S715/00—Data processing: presentation processing of document, operator interface processing, and screen saver display processing
- Y10S715/978—Audio interaction as part of an operator interface
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Analytical Chemistry (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Acoustics & Sound (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법, 장치 및 컴퓨터프로그램이 제공된다. 본 발명의 다양한 실시예에 따른 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법은 컴퓨팅 장치에 의해 수행되는 방법에 있어서, 실험에 관한 연구 기록 정보를 획득하는 단계, 기 저장된 실험과 관련된 데이터에 기초하여 상기 획득된 연구 기록 정보를 가공하는 단계 및 상기 가공된 연구 기록 정보를 이용하여 정형화된 연구 기록 데이터를 생성하는 단계를 포함한다.
Description
본 발명의 다양한 실시예는 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법, 장치 및 컴퓨터프로그램에 관한 것이다.
일반적으로 바이오, 나노 연구는 물질 및 재료를 합성하는 단계, 구조 및 구성 확인하는 단계, 애플리케이션(Application) 가능성 확인을 위한 여러 특성을 측정하는 단계 및 애플리케이션을 상용화하는 단계를 거쳐 수행된다.
여기서, 구조 및 구성 확인하는 단계에서 최적화된 물질의 구조 및 구성이 도출되지 않거나 애플리케이션 가능성 확인을 위한 여러 특성을 측정하는 단계에서, 원하는 특성이 특정되지 않는 경우, 첫번째 단계인 물질의 구조 및 구성을 합성하는 단계부터 재수행해야 하며, 최적화된 물질을 찾기 위하여 물질의 구조 및 구성을 합성하는 단계를 반복적으로 수행해야 하기 때문에 최적화된 물질을 찾을 때까지 최소 몇 개월에서 최대 몇 년 이상의 시간이 소요될 뿐만 아니라 합성 및 검사 등에 많은 비용이 지출된다는 문제가 있다.
한편, 이러한 종래의 문제점들을 해소하기 위하여, 바이오, 나노 연구와 관련된 각종 정보 및 데이터를 학습한 인공지능 모델을 이용하는 방법이 제안되고 있다.
여기서, 인공지능 모델을 이용하기 위해서는 인공지능 모델을 학습시키기 위한 자료로써, 연구 기록 데이터를 생성하는 과정이 필수적인데, 이러한 학습 데이터로 사용되는 연구 기록 데이터는 연구자 또는 실험자들이 일일이 실험 정보를 기록하여 작성하는 것이기 때문에, 비슷한 기록 반복 등과 같은 번거로움 야기, 실험의 중요 조건 누락, 데이터 활용 시 재가공 필수, 다량의 데이터 생성에 따른 분석 및 관리의 어려움 등 다양한 문제가 있다.
본 발명이 해결하고자 하는 과제는 정형화되지 않은 연구 기록 정보를 가공하여 자동으로 정형화된 연구 기록 데이터를 생성함으로써, 기록의 편의성을 증대 시키고, 기록의 정확도를 대폭 향상시키며, 연구 과정 및 결과 분석, 공유 및 관리가 용이하도록 할 뿐만 아니라, 상기의 방법에 따라 정형화된 연구 기록 데이터를 학습 데이터로 하여 학습된 인공지능 모델을 통해 특정 조건을 만족하는 합성 물질과 해당 합성 물질을 합성하기 위한 가이드 정보를 도출하는 합성 물질 개발 프로세스를 제공함으로써, 보다 편리하고 빠르게 합성 물질을 개발할 수 있도록 보조할 수 있는 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법, 장치 및 컴퓨터프로그램을 제공하는 것이다.
본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법은 컴퓨팅 장치에 의해 수행되는 방법에 있어서, 실험에 관한 연구 기록 정보를 획득하는 단계, 기 저장된 실험과 관련된 데이터에 기초하여 상기 획득된 연구 기록 정보를 가공하는 단계 및 상기 가공된 연구 기록 정보를 이용하여 정형화된 연구 기록 데이터를 생성하는 단계를 포함할 수 있다.
다양한 실시예에서, 상기 획득된 연구 기록 정보를 가공하는 단계는, 하나 이상의 텍스트 문장을 포함하는 줄글 형태의 연구 기록 정보가 획득된 경우, 상기 기 저장된 실험과 관련된 데이터에 기초하여 상기 획득된 줄글 형태의 연구 기록 정보에 포함된 복수의 단어 각각을 토큰화(Tokenization)하는 단계 및 상기 토큰화된 복수의 단어 각각에 속성 정보를 레이블링(Labeling)하여 가공된 연구 기록 정보를 생성하는 단계를 포함하며, 상기 정형화된 연구 기록 데이터를 생성하는 단계는, 상기 가공된 연구 기록 정보를 이용하여 연구 기록 그래프를 생성하고, 상기 생성된 연구 기록 그래프를 이용하여 상기 정형화된 연구 기록 데이터를 생성하는 단계를 포함할 수 있다.
다양한 실시예에서, 상기 생성된 연구 기록 그래프를 이용하여 상기 정형화된 연구 기록 데이터를 생성하는 단계는, 상기 속성 정보가 레이블링된 복수의 단어를 기 학습된 제1 모델의 입력 데이터로 하여 연구 기록 그래프 - 상기 연구 기록 그래프는 상기 복수의 단어 각각에 대응되는 노드(node)와 상기 복수의 단어 각각을 연결하는 엣지(edge)를 포함함 - 를 생성하는 단계를 포함할 수 있다.
다양한 실시예에서, 상기 획득된 연구 기록 정보를 가공하는 단계는, 사용자 인터페이스(User Interface, UI)를 통해 사용자로부터 하나 이상의 키워드 - 상기 하나 이상의 키워드는 실험 재료에 관한 키워드, 연구 및 실험 과정에 관한 키워드 및 연구 결과에 관한 키워드 중 적어도 하나를 포함함 - 를 입력받는 경우, 상기 기 저장된 실험과 관련된 데이터에 기초하여 상기 입력된 하나 이상의 키워드에 대응되는 실험과 관련된 데이터를 선택하는 단계 및 상기 선택된 실험과 관련된 데이터를 이용하여 상기 입력된 하나 이상의 키워드에 대응되는 연구 기록 정보를 자동완성 하는 단계를 포함할 수 있다.
다양한 실시예에서, 상기 입력된 하나 이상의 키워드에 대응되는 연구 기록 정보를 자동완성 하는 단계는, 상기 입력된 하나 이상의 키워드에 대응되는 실험과 관련된 데이터가 복수 개인 경우, 사용자의 검색 이력에 기초하여 복수의 실험과 관련된 데이터 중 하나 이상의 실험과 관련된 데이터를 추천 데이터로서 상기 사용자에게 제공하는 단계 및 상기 사용자로부터 상기 제공된 추천 데이터를 선택받는 경우, 상기 선택된 추천 데이터를 이용하여 상기 입력된 하나 이상의 키워드에 대응되는 연구 기록 정보를 자동완성 하는 단계를 포함할 수 있다.
다양한 실시예에서, 상기 획득된 연구 기록 정보를 가공하는 단계는, 사용자 인터페이스(User Interface, UI)를 통해 사용자로부터 음성 형태의 연구 기록 정보를 입력받는 경우, 상기 입력받은 음성 형태의 연구 기록 정보를 자연어 처리(NLP)하여 텍스트 형태의 연구 기록 정보로 변환하는 단계, 상기 변환된 텍스트 형태의 연구 기록 정보를 분석하여 하나 이상의 키워드 - 상기 하나 이상의 키워드는 실험 재료에 관한 키워드, 연구 및 실험 과정에 관한 키워드 및 연구 결과에 관한 키워드 중 적어도 하나를 포함함 - 를 추출하는 단계 및 상기 기 저장된 실험과 관련된 데이터에 기초하여 상기 추출된 하나 이상의 키워드에 대응되는 실험과 관련된 데이터를 선택하고, 상기 선택된 실험과 관련된 데이터를 이용하여 상기 추출된 하나 이상의 키워드에 대응되는 연구 기록 정보를 자동완성 하는 단계를 포함할 수 있다.
다양한 실시예에서, 상기 연구 기록 정보를 획득하는 단계는, 연구 및 실험에 사용되는 복수의 장비 각각에 구비되는 센서로부터 장비 사용 정보를 획득하는 단계 및 연구 및 실험에 사용되는 복수의 재료 각각에 구비되는 센서로부터 재료 사용 정보를 획득하는 단계를 포함하며, 상기 획득된 연구 기록 정보를 가공하는 단계는, 상기 획득된 장비 사용 정보 및 상기 획득된 재료 사용 정보를 이용하여 가공된 연구 기록 정보를 생성하는 단계를 포함할 수 있다.
다양한 실시예에서, 상기 획득된 연구 기록 정보는 실험 재료에 관한 키워드, 연구 및 실험 과정에 관한 키워드 및 연구 결과 키워드를 포함하며, 상기 획득된 연구 기록 정보를 가공하는 단계는, 상기 기 저장된 실험과 관련된 데이터에 포함된 실험 재료에 관한 데이터를 이용하여 상기 실험 재료에 관한 키워드를 자동완성 함으로써 실험 재료 정보를 생성하고, 상기 생성된 실험 재료 정보와 상기 기 저장된 실험과 관련된 데이터에 포함된 실험 재료에 관한 데이터를 연동하는 단계, 상기 기 저장된 실험과 관련된 데이터에 포함된 실험 재료에 관한 데이터를 이용하여 연구 및 실험 과정에 관한 키워드를 자동완성 함으로써 연구 및 실험 과정 정보를 생성하고, 상기 생성된 연구 및 실험 과정 정보와 상기 기 저장된 실험과 관련된 데이터에 포함된 실험 재료에 관한 데이터를 연동하는 단계 및 기 설정된 결과 데이터 양식에 기초하여 상기 연구 결과에 관한 키워드를 시각화하는 단계를 포함할 수 있다.
다양한 실시예에서, 상기 정형화된 연구 기록 데이터를 대응되는 연구 기록 그래프를 기 학습된 제2 모델의 입력 데이터로 하여 하나 이상의 텍스트 문장을 포함하는 줄글 형태의 연구 기록 정보를 생성하는 단계를 더 포함할 수 있다.
다양한 실시예에서, 상기 하나 이상의 텍스트 문장을 포함하는 줄글 형태의 연구 기록 정보를 생성하는 단계는, 제1 사용자로부터 제1 정형화된 연구 기록 데이터에 대한 텍스트 변환을 요청받는 경우, 상기 제1 정형화된 연구 기록 데이터를 그래프화 하여 제1 연구 기록 그래프를 생성하는 단계, 상기 생성된 제1 연구 기록 그래프를 이용하여 제1 줄글 형태의 연구 기록 정보를 생성하고, 상기 생성된 제1 줄글 형태의 연구 기록 정보를 상기 제1 사용자에게 제공하는 단계 및 상기 제1 사용자로부터 상기 제공된 제1 줄글 형태의 연구 기록 정보의 적어도 일부분이 수정되는 경우, 상기 적어도 일부분이 수정된 제1 줄글 형태의 연구 기록 정보와 상기 제1 연구 기록 그래프를 학습 데이터로 하여 상기 기 학습된 제2 모델을 재학습시키는 단계를 포함할 수 있다.
다양한 실시예에서, 상기 정형화된 연구 기록 데이터를 생성하는 단계는, 제1 정형화된 연구 기록 데이터를 이용하여 제1 연구 기록 그래프를 생성하고, 상기 생성된 제1 연구 기록 그래프를 이용하여 상기 제1 정형화된 연구 기록 데이터에 포함된 실험 재료, 실험 장비 및 실험 과정에 따라 실험을 시뮬레이션하는 단계 및 상기 실험을 시뮬레이션한 결과와 상기 제1 정형화된 연구 기록 데이터를 매칭하여 저장하는 단계를 포함할 수 있다.
상술한 과제를 해결하기 위한 본 발명의 다른 실시예에 따른 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 장치는 프로세서, 네트워크 인터페이스, 메모리 및 상기 메모리에 로드(load)되고, 상기 프로세서에 의해 실행되는 컴퓨터 프로그램을 포함하되, 상기 컴퓨터 프로그램은, 실험에 관한 연구 기록 정보를 획득하는 인스트럭션(instruction), 기 저장된 실험과 관련된 데이터에 기초하여 상기 획득된 연구 기록 정보를 가공하는 인스트럭션 및 상기 가공된 연구 기록 정보를 이용하여 정형화된 연구 기록 데이터를 생성하는 인스트럭션을 포함할 수 있다.
상술한 과제를 해결하기 위한 본 발명의 또 다른 실시예에 따른 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터프로그램은 실험에 관한 연구 기록 정보를 획득하는 단계, 기 저장된 실험과 관련된 데이터에 기초하여 상기 획득된 연구 기록 정보를 가공하는 단계 및 상기 가공된 연구 기록 정보를 이용하여 정형화된 연구 기록 데이터를 생성하는 단계를 포함하는 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법을 실행시키기 위하여 컴퓨터로 판독가능한 기록매체에 저장될 수 있다.
본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명의 다양한 실시예에 따르면, 정형화되지 않은 연구 기록 정보를 가공하여 자동으로 정형화된 연구 기록 데이터를 생성함으로써, 기록의 편의성을 증대 시키고, 기록의 정확도를 대폭 향상시키며, 연구 과정 및 결과 분석, 공유 및 관리가 용이하도록 할 뿐만 아니라, 상기의 방법에 따라 정형화된 연구 기록 데이터를 학습 데이터로 하여 학습된 인공지능 모델을 통해 특정 조건을 만족하는 합성 물질과 해당 합성 물질을 합성하기 위한 가이드 정보를 도출하는 합성 물질 개발 프로세스를 제공함으로써, 보다 편리하고 빠르게 합성 물질을 개발할 수 있도록 보조할 수 있다는 이점이 있다.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 시스템을 도시한 도면이다.
도 2는 본 발명의 다른 실시예에 따른 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 장치의 하드웨어 구성도이다.
도 3은 다양한 실시예에서, 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법을 설명하기 위한 순서도이다.
도 4는 다양한 실시예에서, 줄글 형태의 연구 기록 정보를 이용하여 정형화된 연구 기록 데이터 자동생성 방법을 설명하기 위한 순서도이다.
도 5 내지 7은 다양한 실시예에서, 줄글 형태의 연구 기록 정보를 이용하여 정형화된 연구 기록 데이터 자동생성 과정을 도시한 도면이다.
도 8은 다양한 실시예에서, 키워드 입력을 통한 정형화된 연구 기록 데이터 자동생성 방법을 설명하기 위한 순서도이다.
도 9는 다양한 실시예에서, 키워드 입력을 통한 정형화된 연구 기록 데이터 자동생성 과정을 도시한 도면이다.
도 10은 다양한 실시예에서, 음성 형태의 연구 기록 정보를 이용하여 정형화된 연구 기록 데이터 자동생성 과정을 도시한 도면이다.
도 11은 다양한 실시예에서, 정형화된 연구 기록 데이터를 이용하여 줄글 형태의 연구 기록 정보를 생성하는 방법을 설명하기 위한 순서도이다.
도 12 내지 14는 다양한 실시예에서, 정형화된 연구 기록 데이터를 이용하여 줄글 형태의 연구 기록 정보를 생성하는 과정을 도시한 도면이다.
도 15는 다양한 실시예에서, 정형화된 연구 기록 데이터를 기반으로 시뮬레이션을 수행하는 방법을 설명하기 위한 순서도이다.
도 16은 다양한 실시예에서, 제1 인공지능 모델을 통해 합성 물질 및 합성 물질의 합성을 위한 가이드 정보를 추출하는 방법을 설명하기 위한 도면이다.
도 17은 다양한 실시예에서, 제2 인공지능 모델을 통해 합성 물질에 대한 시험 조건을 설정하는 방법을 설명하기 위한 도면이다.
도 18은 다양한 실시예에서, 제3 인공지능 모델을 통해, 신약 개발 시 신약에 적합한 환자와 투약량을 도출하는 방법을 설명하기 위한 도면이다.
도 19는 다양한 실시예에서, 정형화된 연구 기록 데이터 기반 비정형 데이터를 추천 제공하는 과정을 도시한 도면이다.
도 20은 다양한 실시예에서, 정형화된 연구 기록 데이터 기반 연구자를 추천 매칭하는 과정을 도시한 도면이다.
도 21 내지 24는 다양한 실시예에 적용 가능한 사용자 인터페이스의 형태를 예시적으로 도시한 도면이다.
도 2는 본 발명의 다른 실시예에 따른 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 장치의 하드웨어 구성도이다.
도 3은 다양한 실시예에서, 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법을 설명하기 위한 순서도이다.
도 4는 다양한 실시예에서, 줄글 형태의 연구 기록 정보를 이용하여 정형화된 연구 기록 데이터 자동생성 방법을 설명하기 위한 순서도이다.
도 5 내지 7은 다양한 실시예에서, 줄글 형태의 연구 기록 정보를 이용하여 정형화된 연구 기록 데이터 자동생성 과정을 도시한 도면이다.
도 8은 다양한 실시예에서, 키워드 입력을 통한 정형화된 연구 기록 데이터 자동생성 방법을 설명하기 위한 순서도이다.
도 9는 다양한 실시예에서, 키워드 입력을 통한 정형화된 연구 기록 데이터 자동생성 과정을 도시한 도면이다.
도 10은 다양한 실시예에서, 음성 형태의 연구 기록 정보를 이용하여 정형화된 연구 기록 데이터 자동생성 과정을 도시한 도면이다.
도 11은 다양한 실시예에서, 정형화된 연구 기록 데이터를 이용하여 줄글 형태의 연구 기록 정보를 생성하는 방법을 설명하기 위한 순서도이다.
도 12 내지 14는 다양한 실시예에서, 정형화된 연구 기록 데이터를 이용하여 줄글 형태의 연구 기록 정보를 생성하는 과정을 도시한 도면이다.
도 15는 다양한 실시예에서, 정형화된 연구 기록 데이터를 기반으로 시뮬레이션을 수행하는 방법을 설명하기 위한 순서도이다.
도 16은 다양한 실시예에서, 제1 인공지능 모델을 통해 합성 물질 및 합성 물질의 합성을 위한 가이드 정보를 추출하는 방법을 설명하기 위한 도면이다.
도 17은 다양한 실시예에서, 제2 인공지능 모델을 통해 합성 물질에 대한 시험 조건을 설정하는 방법을 설명하기 위한 도면이다.
도 18은 다양한 실시예에서, 제3 인공지능 모델을 통해, 신약 개발 시 신약에 적합한 환자와 투약량을 도출하는 방법을 설명하기 위한 도면이다.
도 19는 다양한 실시예에서, 정형화된 연구 기록 데이터 기반 비정형 데이터를 추천 제공하는 과정을 도시한 도면이다.
도 20은 다양한 실시예에서, 정형화된 연구 기록 데이터 기반 연구자를 추천 매칭하는 과정을 도시한 도면이다.
도 21 내지 24는 다양한 실시예에 적용 가능한 사용자 인터페이스의 형태를 예시적으로 도시한 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
명세서에서 사용되는 "부" 또는 “모듈”이라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부" 또는 “모듈”은 어떤 역할들을 수행한다. 그렇지만 "부" 또는 “모듈”은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부" 또는 “모듈”은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부" 또는 “모듈”은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부" 또는 “모듈”들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부" 또는 “모듈”들로 결합되거나 추가적인 구성요소들과 "부" 또는 “모듈”들로 더 분리될 수 있다.
공간적으로 상대적인 용어인 "아래(below)", "아래(beneath)", "하부(lower)", "위(above)", "상부(upper)" 등은 도면에 도시되어 있는 바와 같이 하나의 구성요소와 다른 구성요소들과의 상관관계를 용이하게 기술하기 위해 사용될 수 있다. 공간적으로 상대적인 용어는 도면에 도시되어 있는 방향에 더하여 사용시 또는 동작시 구성요소들의 서로 다른 방향을 포함하는 용어로 이해되어야 한다. 예를 들어, 도면에 도시되어 있는 구성요소를 뒤집을 경우, 다른 구성요소의 "아래(below)"또는 "아래(beneath)"로 기술된 구성요소는 다른 구성요소의 "위(above)"에 놓여질 수 있다. 따라서, 예시적인 용어인 "아래"는 아래와 위의 방향을 모두 포함할 수 있다. 구성요소는 다른 방향으로도 배향될 수 있으며, 이에 따라 공간적으로 상대적인 용어들은 배향에 따라 해석될 수 있다.
본 명세서에서, 컴퓨터는 적어도 하나의 프로세서를 포함하는 모든 종류의 하드웨어 장치를 의미하는 것이고, 실시 예에 따라 해당 하드웨어 장치에서 동작하는 소프트웨어적 구성도 포괄하는 의미로서 이해될 수 있다. 예를 들어, 컴퓨터는 스마트폰, 태블릿 PC, 데스크톱, 노트북 및 각 장치에서 구동되는 사용자 클라이언트 및 애플리케이션을 모두 포함하는 의미로서 이해될 수 있으며, 또한 이에 제한되는 것은 아니다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.
본 명세서에서 설명되는 각 단계들은 컴퓨터에 의하여 수행되는 것으로 설명되나, 각 단계의 주체는 이에 제한되는 것은 아니며, 실시 예에 따라 각 단계들의 적어도 일부가 서로 다른 장치에서 수행될 수도 있다.
도 1은 본 발명의 일 실시예에 따른 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 시스템을 도시한 도면이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 시스템은 정형화된 연구 기록 데이터 자동생성 장치(100), 사용자 단말(200), 외부 서버(300) 및 네트워크(400)를 포함할 수 있다.
여기서, 도 1에 도시된 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 시스템은 일 실시예에 따른 것이고, 그 구성 요소가 도 1에 도시된 실시예에 한정되는 것은 아니며, 필요에 따라 부가, 변경 또는 삭제될 수 있다. 예를 들어, 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 시스템은 각종 정보 및 데이터를 저장 및 관리하는 외부 서버(300)를 별도로 구비하지 않고, 정형화된 연구 기록 데이터 자동생성 장치(100) 내에 구비되는 저장 공간을 이용하여 각종 정보 및 데이터를 저장 및 관리할 수 있다.
일 실시예에서, 정형화된 연구 기록 데이터 자동생성 장치(100)는 사용자로부터 실험에 대한 연구 기록 정보를 입력받을 수 있고, 입력된 연구 기록 정보를 기 설정된 양식에 맞춰 자동으로 가공 및 기록함으로써, 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터를 생성할 수 있다.
또한, 정형화된 연구 기록 데이터 자동생성 장치(100)는 정형화된 연구 기록 데이터를 기록 및 저장할 수 있고, 저장된 정형화된 연구 기록 데이터에 포함된 각종 정보들을 컴퓨팅(Computing)하여 특정 실험을 가상으로 시뮬레이션하기 위해 정형화된 연구 기록 데이터를 코드화 함으로써, 코드화된 연구 기록 데이터를 생성할 수 있다. 이때, 정형화된 연구 기록 데이터와 코드화된 연구 기록 데이터는 상호 연관되어 저장될 수 있다.
다양한 실시예에서, 정형화된 연구 기록 데이터 자동생성 장치(100)는 상기의 방법에 따라 정형화된 연구 기록 데이터를 학습 데이터로 하여 기 학습된 인공지능 모델을 통해, 특정 조건을 만족하는 합성 물질을 예측하고, 예측된 합성 물질을 합성하기 위한 가이드 정보를 추출 및 제공하는 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법을 제공할 수 있다.
다양한 실시예에서, 정형화된 연구 기록 데이터 자동생성 장치(100)는 네트워크(400)를 통해 사용자 단말(200)과 연결될 수 있으며, 사용자 단말(200)로 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법 및 인공지능 모델을 이용한 합성 물질 개발 프로세스 제공방법을 제공하기 위한 사용자 인터페이스(User Interface, UI)(예: 그래픽 사용자 인터페이스(Graphic User Interface, GUI), 도 20 내지 24의 10)를 제공할 수 있다.
여기서, 네트워크(400)는 복수의 단말 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미할 수 있다. 예를 들어, 네트워크(400)는 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷(WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함할 수 있다.
또한, 여기서, 무선 데이터 통신망은 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), 5GPP(5th Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), RF(Radio Frequency), 블루투스(Bluetooth) 네트워크, NFC(Near-Field Communication) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함할 수 있다. 그러나, 이에 한정되지 않고, 동일 또는 유사한 기술 분야에 적용 가능한 다른 범용적인 네트워크들이 더 포함될 수 있다.
다양한 실시예에서, 정형화된 연구 기록 데이터 자동생성 장치(100)는 특정 사용자로부터 입력된 연구 기록 정보에 기초하여, 정형화된 연구 기록 데이터를 생성할 수 있고, 해당 정형화된 연구 기록 데이터를 다른 사용자들에게 공유하는 정형화된 연구 기록 데이터 공유 서비스를 제공할 수 있다.
예를 들어, 정형화된 연구 기록 데이터 자동생성 장치(100)는 복수의 사용자들로부터 입력된 연구 기록 정보에 기초하여 생성된 복수의 정형화된 연구 기록 데이터를 저장 및 관리할 수 있고, 복수의 사용자 각각에게 기 저장된 정형화된 연구 기록 데이터들의 검색 및 재현 서비스를 제공할 수 있으며, 사용자들이 검색 및 재현 서비스를 통해 자신이 원하는 정형화된 연구 기록 데이터를 검색하여 확인(예: 데이터에 기록된 정보 확인 및 시뮬레이션)할 수 있도록 구현될 수 있다.
또한, 정형화된 연구 기록 데이터 자동생성 장치(100)는 외부로부터 정형화된 연구 기록 데이터를 가져와 저장하는 가져오기 기능(Import) 및 기 저장된 정형화된 연구 기록 데이터를 외부로 내보내는 내보내기(Export) 기능을 제공하여, 사용자가 기 저장된 복수의 정형화된 연구 기록 데이터를 다운받거나, 사용자로부터 외부에서 생성된 정형화된 연구 기록 데이터를 업로드할 수 있도록 구현될 수 있다.
이때, 컴퓨팅 장치(100)는 다양한 확장자를 지원하여, 외부로 내보내는 정형화된 연구 기록 데이터의 확장자를 사용자의 요청에 맞춰 변환하거나 외부로부터 다양한 확장자를 가지는 정형화된 연구 기록 데이터를 업로드 받는 등 넓은 호환성을 가지도록 구현될 수 있다.
다양한 실시예에서, 정형화된 연구 기록 데이터 자동생성 장치(100)는 사용자의 요청에 따라 웹(Web) 또는 애플리케이션(Application) 기반의 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법 및 인공지능 모델을 이용한 합성 물질 개발 프로세스 제공방법을 제공할 수 있으나, 이에 한정되지 않는다.
일 실시예에서, 사용자 단말(200)은 네트워크(400)를 통해 정형화된 연구 기록 데이터 자동생성 장치(100)와 연결될 수 있으며, 정형화된 연구 기록 데이터 자동생성 장치(100)로부터 제공된 UI를 통해 연구 기록 정보를 입력할 수 있고, 연구 기록 정보를 입력한 것에 대한 응답으로, 연구 기록 정보에 대응하여 생성된 정형화된 연구 기록 데이터를 제공받을 수 있다.
또한, 사용자 단말(200)은 정형화된 연구 기록 데이터 자동생성 장치(100)로부터 제공된 UI를 통해 특정 조건을 입력할 수 있고, 특정 조건을 입력한 것에 대한 응답으로, 특정 조건을 만족하는 구조 및 특성을 가지는 합성 물질과 해당 합성 물질을 합성하기 위한 가이드 정보를 제공받을 수 있다.
다양한 실시예에서, 사용자 단말(200)은 정형화된 연구 기록 데이터 자동생성 장치(100)로부터 제공된 애플리케이션을 다운로드, 설치 및 실행함에 따라 정형화된 연구 기록 데이터 자동생성 장치(100)로부터 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법 및 인공지능 모델을 이용한 합성 물질 개발 프로세스 제공방법을 제공받을 수 있다.
이를 위해, 사용자 단말(200)은 애플리케이션 구동이 가능한 운영체제를 포함하고, 사용자 단말(200)의 적어도 일부분에 UI 출력을 위한 디스플레이를 포함하는 스마트폰(Smartphone)일 수 있다. 그러나, 이에 한정되지 않고, 사용자 단말(200)은, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트 패드(Smartpad), 타블렛PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.
일 실시예에서, 외부 서버(300)는 네트워크(400)를 통해 정형화된 연구 기록 데이터 자동생성 장치(100)와 연결될 수 있으며, 정형화된 연구 기록 데이터 자동생성 장치(100)가 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법 및 인공지능 모델을 이용한 합성 물질 개발 프로세스 제공방법을 수행하기 위해 필요한 각종 정보/데이터(예: 실험 재료와 관련된 데이터, 연구 및 실험 과정과 관련된 데이터 및 결과 데이터 양식 등)를 저장 및 관리하거나, 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법 및 인공지능 모델을 이용한 합성 물질 개발 프로세스 제공방법을 수행함에 따라 생성되는 각종 정보/데이터(예: 정형화(또는 코드화)된 연구 기록 데이터)를 저장 및 관리할 수 있다.
여기서, 외부 서버(300)는 정형화된 연구 기록 데이터 자동생성 장치(100) 외부에 별도로 구비되는 저장 서버일 수 있으나, 이에 한정되지 않는다. 이하, 도 2를 참조하여 정형화된 연구 기록 데이터 자동생성 장치(100)의 하드웨어 구성에 대해 설명하도록 한다.
도 2는 본 발명의 다른 실시예에 따른 인공지능 모델을 이용한 정형화된 연구 기록 데이터 자동생성 장치의 하드웨어 구성도이다.
도 2를 참조하면, 다양한 실시예에서, 정형화된 연구 기록 데이터 자동생성 장치(100)(이하, “컴퓨팅 장치(100)”)는 하나 이상의 프로세서(110), 프로세서(110)에 의하여 수행되는 컴퓨터 프로그램(151)을 로드(Load)하는 메모리(120), 버스(130), 통신 인터페이스(140) 및 컴퓨터 프로그램(151)을 저장하는 스토리지(150)를 포함할 수 있다. 여기서, 도 2에는 본 발명의 실시예와 관련 있는 구성요소들만 도시되어 있다. 따라서, 본 발명이 속한 기술분야의 통상의 기술자라면 도 2에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다.
프로세서(110)는 컴퓨팅 장치(100)의 각 구성의 전반적인 동작을 제어한다. 프로세서(110)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 발명의 기술 분야에 잘 알려진 임의의 형태의 프로세서를 포함하여 구성될 수 있다.
또한, 프로세서(110)는 본 발명의 실시예들에 따른 방법을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있으며, 컴퓨팅 장치(100)는 하나 이상의 프로세서를 구비할 수 있다.
다양한 실시예에서, 프로세서(110)는 프로세서(110) 내부에서 처리되는 신호(또는, 데이터)를 일시적 및/또는 영구적으로 저장하는 램(RAM: Random Access Memory, 미도시) 및 롬(ROM: Read-Only Memory, 미도시)을 더 포함할 수 있다. 또한, 프로세서(110)는 그래픽 처리부, 램 및 롬 중 적어도 하나를 포함하는 시스템온칩(SoC: system on chip) 형태로 구현될 수 있다.
메모리(120)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(120)는 본 발명의 다양한 실시예에 따른 방법/동작을 실행하기 위하여 스토리지(150)로부터 컴퓨터 프로그램(151)을 로드할 수 있다. 메모리(120)에 컴퓨터 프로그램(151)이 로드되면, 프로세서(110)는 컴퓨터 프로그램(151)을 구성하는 하나 이상의 인스트럭션들을 실행함으로써 상기 방법/동작을 수행할 수 있다. 메모리(120)는 RAM과 같은 휘발성 메모리로 구현될 수 있을 것이나, 본 개시의 기술적 범위가 이에 한정되는 것은 아니다.
버스(130)는 컴퓨팅 장치(100)의 구성 요소 간 통신 기능을 제공한다. 버스(130)는 주소 버스(address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.
통신 인터페이스(140)는 컴퓨팅 장치(100)의 유무선 인터넷 통신을 지원한다. 또한, 통신 인터페이스(140)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 통신 인터페이스(140)는 본 발명의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다. 몇몇 실시예에서, 통신 인터페이스(140)는 생략될 수도 있다.
스토리지(150)는 컴퓨터 프로그램(151)을 비 임시적으로 저장할 수 있다. 컴퓨팅 장치(100)를 통해 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법 및 인공지능 모델을 이용한 합성 물질 개발 프로세스 제공방법을 수행하는 경우, 스토리지(150)는 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법 및 인공지능 모델을 이용한 합성 물질 개발 프로세스 제공방법을 제공하기 위하여 필요한 각종 정보를 저장할 수 있다.
스토리지(150)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.
컴퓨터 프로그램(151)은 메모리(120)에 로드될 때 프로세서(110)로 하여금 본 발명의 다양한 실시예에 따른 방법/동작을 수행하도록 하는 하나 이상의 인스트럭션들을 포함할 수 있다. 즉, 프로세서(110)는 상기 하나 이상의 인스트럭션들을 실행함으로써, 본 발명의 다양한 실시예에 따른 상기 방법/동작을 수행할 수 있다.
일 실시예에서, 컴퓨터 프로그램(151)은 실험에 관한 연구 기록 정보를 획득하는 단계, 기 저장된 실험과 관련된 데이터에 기초하여 획득된 연구 기록 정보를 가공하는 단계 및 가공된 연구 기록 정보를 이용하여 정형화된 연구 기록 데이터를 생성하는 단계를 포함하는 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법을 수행하도록 하는 하나 이상의 인스트럭션을 포함할 수 있다.
또한, 컴퓨터 프로그램(151)은 하나 이상의 조건을 획득하는 단계 및 획득된 하나 이상의 조건을 만족하는 합성 물질에 관한 정보를 추출하고, 추출된 합성 물질에 관한 정보에 기초하여 합성 물질을 합성하기 위한 가이드 정보를 추출하는 단계를 포함하는 인공지능 모델을 이용한 합성 물질 개발 프로세스 제공방법을 수행하도록 하는 하나 이상의 인스트럭션을 포함할 수 있다.
본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.
본 발명의 구성 요소들은 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 애플리케이션)으로 구현되어 매체에 저장될 수 있다. 본 발명의 구성 요소들은 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있으며, 이와 유사하게, 실시 예는 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 이하, 도 3 내지 15를 참조하여 컴퓨팅 장치(100)에 의해 수행되는 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법에 대해 설명하도록 한다.
도 3은 다양한 실시예에서, 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법을 설명하기 위한 순서도이다.
도 3을 참조하면, S110 단계에서, 컴퓨팅 장치(100)는 실험에 대한 연구 기록 정보를 획득할 수 있다.
여기서, 연구 기록 정보는 사용자가 실험 또는 연구를 수행함에 따라 생성되는 정보를 의미할 수 있다. 예를 들어, 연구 기록 정보는 실험 재료에 대한 정보, 실험 장비에 대한 정보, 실험 및 연구 과정에 대한 정보, 실험 및 연구 결과에 대한 정보를 포함할 수 있으나, 이에 한정되지 않는다.
다양한 실시예에서, 컴퓨팅 장치(100)는 사용자가 실험 또는 연구를 수행함에 따라 생성되는 실험에 대한 연구 기록 정보(예: 실험 재료에 대한 정보, 실험 장비에 대한 정보, 실험 및 연구 과정에 대한 정보, 실험 및 연구 결과에 대한 정보)를 사용자로부터 직접 입력받을 수 있다.
다양한 실시예에서, 컴퓨팅 장치(100)는 국내외 주요 바이오 나노 제조사에서 수행한 실험에 대한 연구 정보(예: 물질, 장비, 속성, 연구 프로세스, 실험 방법 등)를 웹 크롤링하여 수집할 수 있다. 그러나, 이에 한정되지 않고, 연구 기록 정보를 획득하기 위한 어떠한 방법이든 적용이 가능하다.
S120 단계에서, 컴퓨팅 장치(100)는 S110 단계를 거쳐 획득한 연구 기록 정보를 가공할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 기 저장된 실험과 관련된 데이터에 기초하여 S110 단계를 거쳐 획득한 연구 기록 정보 내에서 주요 키워드(예: 재료, 장비, 합성 방법 등을 가리키는 키워드)만을 추출하는 등, 연구 기록 정보 내에 포함된 복수의 정보들을 정형화된 연구 기록 데이터 생성을 위한 형태로 가공할 수 있다.
다양한 실시예에서, 컴퓨팅 장치(100)는 기 저장된 실험과 관련 데이터와 가공된 연구 기록 정보를 연동하여 저장할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 연구 기록 정보에 포함된 실험 재료에 관한 키워드를 가공함으로써 생성된 실험 재료 정보와 기 저장된 실험과 관련된 데이터에 포함된 실험 재료에 관한 데이터를 연동하여 저장할 수 있고, 연구 기록 정보에 포함된 연구 및 실험 과정에 관한 키워드를 가공함으로써 생성된 연구 및 실험 과정 정보와 기 저장된 실험과 관련된 데이터에 포함된 실험 재료에 관한 데이터를 연동하여 저장할 수 있다. 이를 통해, 정확한 샘플 정보 확인이 가능하도록 구현될 수 있다.
또한, 컴퓨팅 장치(100)는 기 설정된 결과 데이터 양식에 기초하여 사용자로부터 입력된 상기 연구 결과에 관한 키워드를 시각화(예: 이미지화, 그래프화 등)할 수 있다.
S130 단계에서, 컴퓨팅 장치(100)는 S120 단계를 거쳐 가공된 연구 기록 정보를 이용하여 정형화된 연구 기록 데이터(Labnote)를 생성할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 도 23에 도시된 바와 같이, 가공된 연구 기록 정보(예: 실험 재료 정보, 연구 및 실험 과정 정보와 시각화된 연구 결과)를 템플릿화 함으로써, 정형화된 연구 기록 데이터를 생성할 수 있다. 이하, 도 4 내지 12를 참조하여, 연구 기록 정보의 형태에 따라 연구 기록 정보를 가공하는 방법에 대해 설명하도록 한다.
도 4는 다양한 실시예에서, 줄글 형태의 연구 기록 정보를 이용하여 정형화된 연구 기록 데이터 자동생성 방법을 설명하기 위한 순서도이며, 도 5 내지 7은 다양한 실시예에서, 줄글 형태의 연구 기록 정보를 이용하여 정형화된 연구 기록 데이터 자동생성 과정을 도시한 도면이다.
도 4 내지 7을 참조하면, S210 단계에서, 컴퓨팅 장치(100)는 하나 이상의 텍스트 문장을 포함하는 줄글 형태의 연구 기록 정보를 획득할 수 있다(예: 도 5의 21).
다양한 실시예에서, 컴퓨팅 장치(100)는 하나 이상의 문장을 포함하는 줄글이나 수기 형태로 기록된 연구 기록 정보를 사용자로부터 직접 입력 받을 수 있다.
다양한 실시예에서, 컴퓨팅 장치(100)는 웹 크롤링 등을 통해 외부로부터 하나 이상의 문장을 포함하는 줄글 형태의 연구 기록 정보를 수집할 수 있다. 그러나, 이에 한정되지 않는다.
S220 단계에서, 컴퓨팅 장치(100)는 기 저장된 실험과 관련된 데이터(예: 논문 및 특허에서 발췌한 실험 연구 관련 단어 DB)에 기초하여 줄글 형태의 연구 기록 정보에 포함된 복수의 단어 각각을 토큰화(Tokenization)할 수 있다(예: 도 5의 22). 예를 들어, 컴퓨팅 장치(100)는 WPM(Wordpiece model)을 통해 BPE(Byte Pair Encoding으로, 자연어 처리 모델에서 널리 활용되는 정보 압축 알고리즘)의 변형 알고리즘으로 코퍼스(corpus)의 우도(likelihood)를 최대화 하는 방식으로 복수의 단어 각각을 토큰화할 수 있다.
여기서, 토큰화되는 단어의 의미는 하나의 단어일 수 있으나, 이에 한정되지 않고, 경우에 따라 둘 이상의 단어를 포함하는 구, 절, 문장일 수 있다. 예를 들어, "aqueous solution"의 경우, "aqueous"와 "solution" 두개의 단어로 구성되나, 두개의 단어가 결합되어 하나의 의미를 표현하는 것인 바, 복수의 단어를 의미 단위로 분류/그룹화하여 각각을 토큰화할 수 있다.
다양한 실시예에서, 컴퓨팅 장치(100)는 줄글 형태의 연구 기록 정보를 분석하여 실험 재료에 관한 키워드, 연구 및 실험 과정에 관한 키워드 및 연구 결과에 관한 키워드를 추출할 수 있고, 추출된 키워드에 대응되는 단어만을 선택적으로 토큰화할 수 있다.
다양한 실시예에서, 컴퓨팅 장치(100)는 줄글 형태의 연구 기록 정보를 분석(예: OCR 분석 등)하여 줄글 형태의 연구 기록 정보로부터 복수의 키워드를 추출할 수 있고, 추출된 복수의 키워드와 데이터베이스에 기 저장된 데이터(예: 실험 재료별 키워드 데이터, 연구 및 실험 과정별 키워드 데이터 및 연구 결과별 키워드 데이터)를 매칭함으로써, 추출된 복수의 키워드를 실험 재료에 관한 키워드, 연구 및 실험 과정에 관한 키워드 및 연구 결과에 관한 키워드로 분류할 수 있다.
즉, 컴퓨팅 장치(100)는 기 저장된 실험 재료별 키워드 데이터, 연구 및 실험 과정별 키워드 데이터 및 연구 결과별 키워드 데이터에 기초하여, 줄글 형태의 연구 기록 정보로부터 추출된 복수의 키워드 각각이 실험 재료를 가리키는 것인지, 연구 및 실험 과정을 가리키는 것인지 또는 연구 결과를 가리키는 것인지 판단하고, 판단 결과에 따라 키워드들을 카테고리별로 분류할 수 있다.
여기서, 컴퓨팅 장치(100)는 기 저장된 실험 재료별 키워드 데이터, 연구 및 실험 과정별 키워드 데이터 및 연구 결과별 키워드 데이터를 학습 데이터로 하여 기 학습된 인공지능 모델을 이용하여 문자열 분석 및 키워드 추출 동작을 수행할 수 있으나, 이에 한정되지 않는다.
다양한 실시예에서, 컴퓨팅 장치(100)는 줄글 형태의 연구 기록 정보를 분석하여 실험 재료에 관한 키워드, 연구 및 실험 과정에 관한 키워드 및 연구 결과에 관한 키워드를 추출하되, 추출된 키워드 중 정형화된 연구 기록 데이터 생성을 위해 필수적으로 필요한 정보에 대응되는 키워드가 추출되지 않은 경우, 해당 키워드가 추출될 때까지 줄글 형태의 연구 기록 정보를 반복하여 재분석할 수 있다.
이때, 컴퓨팅 장치(100)는 줄글 형태의 연구 기록 정보를 기 설정된 횟수(N회)동안 재분석하였음에도 불구하고, 해당 키워드가 추출되지 않는 경우, 해당 키워드에 대응되는 정보를 입력할 것을 안내하는 안내 정보를 제공할 수 있다. 이를 통해, 정형화된 연구 기록 데이터를 생성함에 있어서, 필수적으로 입력되야 하는 중요한 조건 및 정보를 빠짐없이 입력할 수 있도록 보조할 수 있다.
S230 단계에서, 컴퓨팅 장치(100)는 S220 단계를 거쳐 토큰화된 복수의 단어 각각에 대한 속성 정보를 레이블링(Labeling)하여 가공된 연구 기록 정보를 생성함으로써(예: 도 5의 23), 복수의 단어 각각에 속성 정보가 레이블링된 연구 기록 정보 즉, 가공된 연구 기록 정보를 생성할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 기 저장된 실험과 관련된 데이터(예: 논문 및 특허에서 발췌한 실험 연구 관련 단어 DB)에 기초하여 복수의 단어 각각의 속성을 판단할 수 있고, 판단된 속성에 따른 속성 정보를 복수의 단어 각각에 레이블링할 수 있다.
다양한 실시예에서, Named Entity Recognition을 통해 토큰화된 단어들에 대한 레이블링을 수행할 수 있다.
S240 단계에서, 컴퓨팅 장치(100)는 S230 단계를 거쳐 생성된 가공된 연구 기록 정보를 이용하여 연구 기록 그래프를 생성할 수 있다. 또한, 컴퓨팅 장치(100)는 연구 기록 그래프를 이용하여 정형화된 연구 기록 데이터를 생성할 수 있다.
다양한 실시예에서, 컴퓨팅 장치(100)는 기 학습된 제1 모델(Text2Labnote 모델)을 이용하여 연구 기록 그래프를 생성할 수 있다.
여기서, 기 학습된 제1 모델은 도 6에 도시된 바와 같이 복수의 인코더(encoder)를 포함하는 트랜스포머(Transformer) 구조를 기반으로 하는 도메인 언어 학습 모델(예: BERT(Bidirectional Encoder Representations from Transformers) 모델)일 수 있다.
또한, 기 학습된 제1 모델은 복수의 줄글 형태의 연구 기록 정보 및 복수의 줄글 형태의 연구 기록 정보 각각에 대응되는 복수의 연구 기록 그래프를 학습 데이터로 하여 학습된 모델일 수 있으나, 이에 한정되지 않는다.
먼저, 컴퓨팅 장치(100)는 속성 정보가 레이블링된 복수의 단어를 포함하는 가공된 연구 기록 정보를 기 학습된 제1 모델의 입력 데이터로 하여 인접 행렬(Adjacency matrix)를 생성할 수 있다.
이후, 컴퓨팅 장치(100)는 인접 행렬을 이용하여 연구 기록 그래프를 생성할 수 있다. 이때, 연구 기록 그래프는 복수의 단어 각각에 대응되는 노드(node)와 복수의 단어 각각을 연결하는 엣지(edge)를 포함할 수 있으나, 이에 한정되지 않는다. 예를 들어, 컴퓨팅 장치(100)는 도 7에 도시된 바와 같이 인접 행렬의 i행j열 셀의 값()을 이용하여 노드 i와 노드 j 간의 연결 관계를 판단할 수 있고, 복수의 노드 각각의 연결 관계에 따라 복수의 노드 사이를 연결하지 않거나 또는 연결함으로써 연구 기록 그래프를 생성할 수 있다.
이후, 컴퓨팅 장치(100)는 생성된 연구 기록 그래프를 이용하여 정형화된 연구 기록 데이터를 생성할 수 있다(예: S130 단계). 예를 들어, 컴퓨팅 장치(100)는 도 23에 도시된 바와 같이 UI(10) 상에 복수의 단어 각각에 대응되는 카드(16)를 배치하되, 연구 기록 그래프에 따라 복수의 단어 각각에 대응되는 카드(16)의 배치 형태 및 배치 순서를 결정할 수 있으나, 이에 한정되지 않는다.
다양한 실시예에서, 컴퓨팅 장치(100)는 제1 모델을 통해, 전자 장치에 의해 작성된 텍스트 형태의 연구 기록 정보뿐만 아니라 사용자가 직접 수기로 작성한 연구 기록 정보를 정형화된 연구 기록 데이터로 변환할 수 있다. 이를 위해, 컴퓨팅 장치(100)는 전자 장치에 의해 작성된 텍스트 형태의 연구 기록 정보 및 이에 대응되는 정형화된 데이터를 학습한 제1 모델과 수기 형태의 연구 기록 정보 및 이에 대응되는 정형화된 연구 기록 데이터를 학습한 제2 모델을 별도로 구축할 수 있다.
도 8은 다양한 실시예에서, 키워드 입력을 통한 정형화된 연구 기록 데이터 자동생성 방법을 설명하기 위한 순서도이며, 도 9는 다양한 실시예에서, 키워드 입력을 통한 정형화된 연구 기록 데이터 자동생성 과정을 도시한 도면이다.
도 8 및 9를 참조하면, 도 9를 참조하면, S310 단계에서, 컴퓨팅 장치(100)는 연구 기록 정보의 입력을 위한 UI(예: 도 21 내지 24의 10)를 제공할 수 있고, UI를 통해 실험 재료에 관한 키워드, 연구 및 실험 과정에 관한 키워드 및 연구 결과에 관한 키워드 중 적어도 하나를 포함하는 키워드를 검색어로서 입력받을 수 있다.
여기서, 연구 기록 정보가 실험 재료에 대한 정보, 실험 장비에 대한 정보 및 실험 및 연구 과정에 대한 정보를 포함하는 바, UI(10)는 실험 재료에 대한 정보를 입력받는 기능, 실험 장비에 대한 정보를 입력받는 기능 및 실험 및 연구 과정에 대한 정보를 입력받는 기능을 포함할 수 있다.
보다 구체적으로, 먼저, 컴퓨팅 장치(100)는 도 21 및 22에 도시된 바와 같이, 사용자가 제1 버튼(11)을 선택하는 것에 응답하여 실험 재료에 대한 정보의 입력을 위한 UI(14)를 제공할 수 있다. 이때, 컴퓨팅 장치(100)는 사용자가 제1 버튼(11)을 선택함에 따라 팝업 형태로 실험 재료에 대한 정보의 입력을 위한 UI(14)를 제공할 수 있으나, 이에 한정되지 않는다.
이후, 컴퓨팅 장치(100)는 실험 재료에 대한 정보의 입력을 위한 UI(14)를 통해 실험 재료에 관한 키워드를 입력받을 수 있다. 예를 들어, 컴퓨팅 장치(100)는 실험 재료에 대한 정보의 입력을 위한 UI(14)를 통해 닉네임(Nickname)에 관한 키워드, 원소 기호(Chemical)에 관한 키워드, 제품 번호(Product number)에 관한 키워드, 상태(state)에 관한 키워드, 용매(Solvent)에 관한 키워드, 부피(Volume)에 관한 키워드 및 농도(Concentration)에 관한 키워드(추가적으로, 해당 실험 재료에 대한 별도의 코멘트)를 입력받을 수 있다.
도면에 도시되어 있지 않으나, 상기와 마찬가지로, 컴퓨팅 장치(100)는 사용자가 제2 버튼(12)을 선택하는 것에 응답하여 실험 장비에 대한 정보의 입력을 위한 UI를 제공함으로써 실험 장비에 대한 정보의 입력을 위한 UI를 통해 실험 장비에 관한 키워드를 입력받을 수 있고, 사용자가 제3 버튼(13)을 선택하는 것에 응답하여, 실험 및 연구 과정에 대한 정보의 입력을 위한 UI를 제공함으로써, 실험 및 연구 과정에 관한 키워드를 입력받을 수 있다.
S320 단계에서, 컴퓨팅 장치(100)는 기 저장된 실험과 관련된 데이터에 기초하여 사용자로부터 입력된 하나 이상의 키워드에 대응되는 실험과 관련된 데이터를 선택할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 도 9에 도시된 바와 같이 사용자로부터 키워드로서 "아세트산(Acetic ac)"를 입력받는 경우, 기 저장된 실험과 관련된 데이터 중 아세트산에 관한 정보를 포함하는 데이터를 선택할 수 있으나, 이에 한정되지 않는다.
다양한 실시예에서, 컴퓨팅 장치(100)는 사용자로부터 입력된 하나 이상의 키워드에 대응되는 실험과 관련된 데이터가 복수 개인 경우, 사용자의 검색 이력에 기초하여 복수의 실험과 관련된 데이터 중 하나 이상의 실험과 관련된 데이터를 선택하여 추천 데이터로서 사용자에게 제공할 수 있으며, 사용자로부터 추천 데이터로서 제공된 하나 이상의 실험과 관련된 데이터 중 어느 하나의 데이터를 선택받을 수 있다. 예를 들어, 컴퓨팅 장치(100)는 아세트산에 관한 정보를 포함하는 데이터가 복수 개인 경우, 복수의 데이터 중 사용자의 검색 이력에 기초하여 마지막에 검색(또는 선택)된 데이터 또는 가장 많이 검색(또는 선택)된 데이터를 추천 데이터로서 제공할 수 있다.
다양한 실시예에서, 컴퓨팅 장치(100)는 사용자로부터 입력된 하나 이상의 키워드에 대응되는 실험과 관련된 데이터가 복수 개인 경우, 사용자와 동일한 연구 분야를 연구하는 복수의 사용자들의 검색 이력에 기초하여 복수의 실험과 관련된 데이터 중 하나 이상의 실험과 관련된 데이터를 선택하여 추천 데이터로서 사용자에게 제공할 수 있다.
S330 단계에서, 컴퓨팅 장치(100)는 S320 단계를 거쳐 선택된 실험과 관련된 데이터를 이용하여, 사용자로부터 입력된 하나 이상의 키워드에 대응되는 연구 기록 정보를 자동완성할 수 있다. 그러나, 이에 한정되지 않는다. 예를 들어, 컴퓨팅 장치(100)는 사용자로부터 선택된 데이터(키워드에 대응되는 실험에 관한 데이터)에 포함된 정보들을 정형화된 연구 기록 데이터를 생성하기 위한 템플릿 상에 자동적으로 배치할 수 있다.
이후, 컴퓨팅 장치(100)는 자동완성된 연구 기록 정보를 이용하여 정형화된 연구 기록 데이터를 생성할 수 있다. 여기서, 정형화된 연구 기록 데이터를 생성하는 방법은 도 3의 S130 단계와 동일한 형태로 구현될 수 있으나, 이에 한정되지 않는다.
도 10은 다양한 실시예에서, 음성 형태의 연구 기록 정보를 이용하여 정형화된 연구 기록 데이터 자동생성 과정을 도시한 도면이다.
도 10을 참조하면, S410 단계에서, UI를 통해 사용자로부터 음성 형태의 연구 기록 정보를 획득할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 사용자 단말(200)과 네트워크(400)로 연결될 수 있으며, 사용자 단말(200) 내에 별도로 구비되는 마이크(예; 스마트폰, 노트북) 또는 사용자 단말(200)과 연결되는 외부 마이크를 통해 입력되는 음성 형태의 연구 기록 정보를 수집할 수 있다. 그러나, 이에 한정되지 않는다.
S420 단계에서, 컴퓨팅 장치(100)는 S410 단계를 거쳐 획득한 음성 형태의 연구 기록 정보를 자연어 처리(NLP)하여 텍스트 형태의 연구 기록 정보로 변환할 수 있다.
여기서, 음성 형태의 정보를 자연어 처리하여 텍스트 형태의 정보로 변환하는 방식은 다양한 기술들이 공지되어 있고, 이러한 공지 기술들을 선택적으로 적용할 수 있는 바, 구체적인 방법에 대해서는 언급하지 않는다.
또한, 컴퓨팅 장치(100)는 텍스트 형태의 연구 기록 정보를 분석하여 하나 이상의 키워드를 추출할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 기 저장된 실험 재료별 키워드 데이터, 연구 및 실험 과정별 키워드 데이터 및 연구 결과별 키워드 데이터를 학습 데이터로 하여 기 학습된 인공지능 모델을 이용하여 문자열 분석 및 키워드 추출 동작을 수행할 수 있으나, 이에 한정되지 않는다.
다양한 실시예에서, 컴퓨팅 장치(100)는 S410 단계에서 입력된 음성 형태의 연구 기록 정보가 사용자 단말(200)에 구비된 음성 입력 장치를 통해 실시간으로 입력되는 것인 경우, 음성 입력 장치가 구동된 시점부터 실시간으로 입력되는 음성 입력 장치를 분석(예: 자연어 처리)함으로써 하나 이상의 키워드를 추출할 수 있다.
이때, 컴퓨팅 장치(100)는 음성 입력 장치의 구동이 종료될 경우 음성 입력 장치를 통해 입력된 음성 형태의 연구 기록 정보 전체를 재분석하여 실시간으로 추출된 하나 이상의 키워드에 대한 검증을 수행할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 음성 형태의 연구 기록 정보 전체를 재분석하여 실시간으로 추출된 키워드의 유효성(예: 추출된 키워드가 정확하게 추출되었는지 여부 및 잘못된 키워드가 추출되었는지 여부)을 판단하거나, 추출되지 못한 키워드가 있는지 여부를 확인할 수 있다.
S430 단계에서, 컴퓨팅 장치(100)는 기 저장된 실험과 관련된 데이터에 기초하여 S420 단계를 거쳐 추출된 하나 이상의 키워드에 대응되는 실험과 관련된 데이터를 선택할 수 있다. 여기서, 키워드에 대응되는 실험에 관한 데이터를 선택하는 과정은 도 8의 S320 단계와 동일 또는 유사한 형태로 구현될 수 있으나, 이에 한정되지 않는다.
S440 단계에서, 컴퓨팅 장치(100)는 S430 단계를 거쳐 선택된 실험과 관련된 데이터를 이용하여, 사용자로부터 입력된 하나 이상의 키워드에 대응되는 연구 기록 정보를 자동완성할 수 있다. 여기서, 연구 기록 정보를 자동완성 하는 과정은 도 8의 S330 단계와 동일 또는 유사한 형태로 구현될 수 있으나, 이에 한정되지 않는다.
S450 단계에서, 컴퓨팅 장치(100)는 연구 및 실험에 사용되는 복수의 장비 각각에 구비되는 센서로부터 장비 사용 정보를 획득할 수 있고, 연구 및 실험에 사용되는 복수의 재료 각각에 구비되는 센서로부터 재료 사용 정보를 획득할 수 있으며, 획득된 장비 사용 정보 및 획득된 재료 사용 정보를 통해 장비 및 재료의 사용을 인식함으로써 가공된 연구 기록 정보를 생성할 수 있다.
예를 들어, 컴퓨팅 장치(100)는 연구 및 실험에 사용되는 장비 각각에 구비되는 센서(예: 위치 센서, 움직임 센서 등)와 연결될 수 있고, 해당 센서로부터 수집되는 센서 데이터를 기초하여 장비 사용 정보(예: 장비의 사용 여부 및 사용된 장비의 종류 등)를 인식(예: 특정 장비의 위치가 기 설정된 거리 이상 이동한 경우 또는 특정 장비에 대한 움직임이 감지된 경우 등)할 수 있다.
또한, 컴퓨팅 장치(100)는 실험 재료의 용기 및 시약병 등에 부착된 RFID를 활용하여 재료 사용 정보(예: 재료의 사용 여부, 사용된 재료의 종류 및 양 등)를 인식 및 추적할 수 있다. 그러나, 이에 한정되지 않는다. 이하, 도 12 내지 14를 참조하여, 정형화된 연구 기록 데이터를 이용하여 줄글 형태의 연구 기록 정보를 생성하는 과정에 대해 설명하도록 한다.
이후, 컴퓨팅 장치(100)는 자동완성된 연구 기록 정보를 이용하여 정형화된 연구 기록 데이터를 생성할 수 있다. 여기서, 정형화된 연구 기록 데이터를 생성하는 방법은 도 3의 S130 단계와 동일한 형태로 구현될 수 있으나, 이에 한정되지 않는다. 이하, 도 12 내지 14를 참조하여, 정형화된 연구 기록 데이터를 이용하여 줄글 형태의 연구 기록 정보를 생성하는 과정에 대해 설명하도록 한다.
도 11은 다양한 실시예에서, 정형화된 연구 기록 데이터를 이용하여 줄글 형태의 연구 기록 정보를 생성하는 방법을 설명하기 위한 순서도이며, 도 12 내지 14는 다양한 실시예에서, 정형화된 연구 기록 데이터를 이용하여 줄글 형태의 연구 기록 정보를 생성하는 과정을 도시한 도면이다.
도 11 내지 14를 참조하면, S510 단계에서, 컴퓨팅 장치(100)는 사용자로부터 정형화된 연구 기록 데이터를 포함하는 줄글 형태의 연구 기록 정보 생성 요청을 획득할 수 있다.
S520 단계에서, 컴퓨팅 장치(100)는 S510 단계를 거쳐 획득된 줄글 형태의 연구 기록 정보 생성 요청에 포함된 정형화된 연구 기록 데이터를 이용하여 연구 기록 그래프를 생성할 수 있다. 여기서, 정형화된 연구 기록 데이터는 연구 기록 그래프를 기반으로 생성되는 것인 바, 컴퓨팅 장치(100)는 역변환함으로써 정형화된 연구 기록 데이터에 대응되는 연구 기록 그래프를 생성할 수 있다. 그러나, 이에 한정되지 않는다.
S530 단계에서, 컴퓨팅 장치(100)는 S520 단계를 거쳐 생성된 연구 기록 그래프를 이용하여 하나 이상의 텍스트 문장을 포함하는 줄글 형태의 연구 기록 정보를 생성할 수 있다.
다양한 실시예에서, 컴퓨팅 장치(100)는 연구 기록 그래프를 기 학습된 제2 모델(Labnote2Text 모델)의 입력 데이터로 하여 하나 이상의 텍스트 문장을 포함하는 줄글 형태의 연구 기록 정보를 생성할 수 있다.
여기서, 기 학습된 제2 모델은 도 12 및 13에 도시된 바와 같이 인코더(Encoder) 및 디코더(Decoder)를 포함하는 트랜스포머(Transformer) 구조를 기반으로 한 자연어 처리 모델(예: sequence to sequence 자연어 처리 모델)일 수 있으나, 이에 한정되지 않는다.
또한, 기 학습된 제2 모델은 어텐션 매커니즘(Attention mechanism)을 활용한 그래프 데이터 학습 모델로서, 연구 기록 그래프 형태로 변환된 정형화된 연구 기록 데이터를 제2 모델의 베이스 모델(Base model)로 활용 가능하도록 도 14에 도시된 바와 같이 GAP(Graph Attention Network)를 제작/구축할 수 있으나, 이에 한정되지 않는다.
또한, 기 학습된 제2 모델은 복수의 줄글 형태의 연구 기록 정보 및 복수의 줄글 형태의 연구 기록 정보 각각에 대응되는 복수의 연구 기록 그래프를 학습 데이터로 하여 학습된 모델일 수 있으나, 이에 한정되지 않는다.
다양한 실시예에서, 컴퓨팅 장치(100)는 제1 모델과 제2 모델을 상호 연동시켜 입출력 데이터를 통해 제1 모델 및 제2 모델을 학습시킬 수 있다. 예를 들어, 제1 모델은 줄글 형태의 연구 기록 정보를 입력으로 하여 연구 기록 그래프를 출력하는 모델이고, 제2 모델은 연구 기록 그래프를 입력으로 하여 줄글 형태의 연구 기록 정보를 출력하는 모델인 바, 제1 모델의 출력을 제2 모델의 입력으로 하고, 제2 모델의 출력을 제1 모델의 입력으로 하며, 제1 모델 및 제2 모델 각각이 입출력 데이터들을 학습 데이터로 하여 제1 모델 및 제2 모델을 학습시킬 수 있다.
이후, 컴퓨팅 장치(100)는 상기의 방법에 따라 생성된 줄글 형태의 연구 기록 정보를 사용자에게 제공할 수 있다.
즉, 사용자는 연구 기록 정보를 입력함에 따라 정형화된 연구 기록 데이터를 생성함으로써 연구 기록의 관리 및 공유를 보다 용이하게 수행할 수 있고, 논문, 특허 등의 문서를 작성하기 위해 줄글 형태로 연구 기록을 작성하고자 할 경우, 정형화된 연구 기록 데이터를 다시 줄글 형태의 연구 기록 정보로 변환함으로써 보다 빠르고 편리하게 작성이 가능하다는 이점이 있다.
다양한 실시예에서, 컴퓨팅 장치(100)는 제1 사용자로부터 제1 정형화된 연구 기록 데이터에 대한 텍스트 변환을 요청받는 경우, 제1 정형화된 연구 기록 데이터를 그래프화 하여 제1 연구 기록 그래프를 생성하고, 생성된 제1 연구 기록 그래프를 통해 제1 줄글 형태의 연구 기록 정보를 생성하여 제1 사용자에게 제공하되, 제1 사용자로부터 제1 줄글 형태의 연구 기록 정보의 적어도 일부분이 수정되는 경우, 적어도 일부분이 수정된 제1 줄글 형태의 연구 기록 정보와 제1 연구 기록 그래프를 학습 데이터로 하여 기 학습된 제2 모델을 재학습시킬 수 있다. 이를 통해, 정형화된 연구 기록 데이터의 텍스트 변환 성능을 향상시킬 수 있다.
다양한 실시예에서, 컴퓨팅 장치(100)는 정형화된 연구 기록 데이터를 이용하여, 실험 및 연구를 시뮬레이션할 수 있다. 이하, 도 15를 참조하여 설명하도록 한다.
도 15는 다양한 실시예에서, 정형화된 연구 기록 데이터를 기반으로 시뮬레이션을 수행하는 방법을 설명하기 위한 순서도이다.
도 15를 참조하면, S610 단계에서, 컴퓨팅 장치(100)는 제1 정형화된 연구 기록 데이터에 포함된 실험 재료, 실험 장비 및 실험 과정에 따라 실험을 시뮬레이션할 수 있다.
먼저, 컴퓨팅 장치(100)는 정형화된 연구 기록 데이터 기반의 실험 시뮬레이션을 수행하기 위하여, 클라우드 랩(무인 자동 연구실, 버추얼랩(Virtual Lab))을 구축할 수 있다.
여기서, 클라우드 랩은 클라우드 등의 자료 공유 시스템을 활용한 플랫폼 기반의 연구 및 실험 공간으로, 외부에서 가져온 데이터(예: 컴퓨팅 장치(100)에서 제공되는 정형화된 연구 기록 데이터)를 기초하여 특정 연구 및 실험을 가상으로 시뮬레이션하거나, 연구 및 실험에 관한 내용 및 결과를 시, 공간의 제약없이 다수의 사용자들과 공유 가능한 공간을 의미할 수 있다. 여기서, 클라우드 랩을 구축하고 이를 이용하는 방법은 사전이 공지되어 있는 기술인 바, 본 명세서에서 클라우드 랩을 구축하고 이를 이용하는 구체적인 방법에 대해 서술하지 않더라도 당업자라면 용이하게 인식할 수 있을 것이다.
이후, 컴퓨팅 장치(100)는 정형화된 연구 기록 데이터를 기반으로 가상의 연구 및 실험을 컴퓨팅하기 위하여, 정형화된 연구 기록 데이터를 컴퓨터가 읽을 수 있는 코드 형태로 변환함으로써, 코드화된 연구 기록 데이터를 생성할 수 있고, 생성된 코드화된 연구 기록 데이터를 클라우드 랩으로 제공할 수 있으며, 클라우드 랩을 동작시켜 코드화된 연구 기록 데이터 기반의 실험을 시뮬레이션할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 제1 정형화된 연구 기록 데이터를 이용하여 제1 연구 기록 그래프를 생성(코드화)하고, 제1 연구 기록 그래프를 이용하여 제1 정형화된 연구 기록 데이터에 포함된 실험 재료, 실험 장비 및 실험 과정에 따라 실험을 시뮬레이션할 수 있다. 그러나, 이에 한정되지 않는다.
여기서, 클라우드 랩을 통해 시뮬레이션되는 코드화된 연구 기록 데이터는 사용자가 입력한 연구 기록 정보에 기초하여 정형화된 연구 기록 데이터가 생성될 때마다 모든 정형화된 연구 기록 데이터를 대상으로 자동적으로 수행되거나, 또는 사용자로부터 특정 정형화된 연구 기록 데이터에 대한 시뮬레이션을 요청받는 경우 해당 정형화된 연구 기록 데이터에 대해서만 시뮬레이션을 수행할 수 있다.
S620 단계에서, 컴퓨팅 장치(100)는 클라우드 랩을 통해 코드화된 연구 기록 데이터 기반의 실험을 시뮬레이션한 결과(예: 코드화된 연구 기록 데이터에 포함된 실험 재료들과 실험 과정에 따라 도출되는 물질의 구조 및 구성과 해당 물질의 특성 등)를 시뮬레이션에 사용된 코드화된 연구 기록 데이터와 매칭하여 저장할 수 있다.
S520 단계에서, 컴퓨팅 장치(100)는 클라우드 랩을 통해 코드화된 연구 기록 데이터 기반의 실험을 시뮬레이션한 결과(예: 코드화된 연구 기록 데이터에 포함된 실험 재료들과 실험 과정에 따라 도출되는 물질의 구조 및 구성과 해당 물질의 특성 등)를 시뮬레이션에 사용된 코드화된 연구 기록 데이터와 매칭하여 저장할 수 있다.
이때, 클라우드 랩에서 시뮬레이션 결과를 코드화된 연구 기록 데이터에 포함된 연구 결과 정보에 추가하여 저장할 수 있고, 컴퓨팅 장치(100)는 시뮬레이션 결과가 추가되어 저장된 코드화된 연구 기록 데이터를 클라우드 랩으로부터 제공받아 저장 및 관리할 수 있다. 이하, 도 16 내지 20을 참조하여, 컴퓨팅 장치에 의해 수행되는 인공지능 모델을 이용한 합성 물질 개발 프로세스 제공방법에 대해 설명하도록 한다.
도 16은 다양한 실시예에서, 제1 인공지능 모델을 통해 합성 물질 및 합성 물질의 합성을 위한 가이드 정보를 추출하는 방법을 설명하기 위한 도면이다.
도 16을 참조하면, 컴퓨팅 장치(100)는 특정 구조 및 특성을 가지는 합성 물질에 관한 정보와 해당 합성 물질을 합성시키기 위한 가이드 정보를 추출 및 제공할 수 있다. 도 16 내지 18에서, 합성 물질은 신약 개발을 위한 후보 물질인 것으로 설명하고 있으며, 이에 한정되지 않는다.
이하에서는 개시된 실시 예에 따른 합성 물질 개발 프로세스를 설명하기 위해 신약개발의 예시를 들어 설명하고 있으나, 개시된 실시 예에 따른 합성 물질 개발 프로세스는 신약 외에도 다양한 분야의 합성 물질 개발에 활용될 수 있다.
예를 들어, 개시된 실시 예에 따른 합성 물질 개발 프로세스는 반도체 재료의 내열성을 높이기 위한 합성 물질 개발, 배터리 재료의 전기전도도를 높이기 위한 합성 물질 개발 등 다양한 영역에 활용될 수 있으며, 특정한 분야에 한정되지 않는다.
S710 단계에서, 컴퓨팅 장치(100)는 제1 인공지능 모델을 생성 및 학습시킬 수 있다.
여기서, 제1 인공지능 모델(또는 연산 모델, 신경망, 네트워크 함수, 뉴럴 네트워크(neural network))은 하나 이상의 네트워크 함수로 구성되며, 하나 이상의 네트워크 함수는 일반적으로 ‘노드’라 지칭될 수 있는 상호 연결된 계산 단위들의 집합으로 구성될 수 있다. 이러한 ‘노드’들은 ‘뉴런(neuron)’들로 지칭될 수도 있다. 하나 이상의 네트워크 함수는 적어도 하나 이상의 노드들을 포함하여 구성된다. 하나 이상의 네트워크 함수를 구성하는 노드(또는 뉴런)들은 하나 이상의 ‘링크’에 의해 상호 연결될 수 있다.
제1 인공지능 모델 내에서, 링크를 통해 연결된 하나 이상의 노드들은 상대적으로 입력 노드 및 출력 노드의 관계를 형성할 수 있다. 입력 노드 및 출력 노드의 개념은 상대적인 것으로서, 하나의 노드에 대하여 출력 노드 관계에 있는 임의의 노드는 다른 노드와의 관계에서 입력 노드 관계에 있을 수 있으며, 그 역도 성립할 수 있다. 전술한 바와 같이, 입력 노드 대 출력 노드 관계는 링크를 중심으로 생성될 수 있다. 하나의 입력 노드에 하나 이상의 출력 노드가 링크를 통해 연결될 수 있으며, 그 역도 성립할 수 있다.
하나의 링크를 통해 연결된 입력 노드 및 출력 노드 관계에서, 출력 노드는 입력 노드에 입력된 데이터에 기초하여 그 값이 결정될 수 있다. 여기서 입력 노드와 출력 노드를 상호 연결하는 노드는 가중치(weight)를 가질 수 있다. 가중치는 가변적일 수 있으며, 제1 인공지능 모델이 원하는 기능을 수행하기 위해, 사용자 또는 알고리즘에 의해 가변될 수 있다. 예를 들어, 하나의 출력 노드에 하나 이상의 입력 노드가 각각의 링크에 의해 상호 연결된 경우, 출력 노드는 상기 출력 노드와 연결된 입력 노드들에 입력된 값들 및 각각의 입력 노드들에 대응하는 링크에 설정된 가중치에 기초하여 출력 노드 값을 결정할 수 있다.
전술한 바와 같이, 제1 인공지능 모델은 하나 이상의 노드들이 하나 이상의 링크를 통해 상호연결 되어 제1 인공지능 모델 내에서 입력 노드 및 출력 노드 관계를 형성한다. 제1 인공지능 모델 내에서 노드들과 링크들의 개수 및 노드들과 링크들 사이의 연관관계, 링크들 각각에 부여된 가중치의 값에 따라, 제1 인공지능 모델의 특성이 결정될 수 있다. 예를 들어, 동일한 개수의 노드 및 링크들이 존재하고, 링크들 사이의 가중치 값이 상이한 두 제1 인공지능 모델이 존재하는 경우, 두 개의 제1 인공지능 모델들은 서로 상이한 것으로 인식될 수 있다.
제1 인공지능 모델을 구성하는 노드들 중 일부는, 최초 입력 노드로부터의 거리들에 기초하여, 하나의 레이어(layer)를 구성할 수 있다. 예를 들어, 최초 입력 노드로부터 거리가 n인 노드들의 집합은, n 레이어를 구성할 수 있다. 최초 입력 노드로부터 거리는, 최초 입력 노드로부터 해당 노드까지 도달하기 위해 거쳐야 하는 링크들의 최소 개수에 의해 정의될 수 있다. 그러나, 이러한 레이어의 정의는 설명을 위한 임의적인 것으로서, 제1 인공지능 모델 내에서 레이어의 차수는 전술한 것과 상이한 방법으로 정의될 수 있다. 예를 들어, 노드들의 레이어는 최종 출력 노드로부터 거리에 의해 정의될 수도 있다.
최초 입력 노드는 제1 인공지능 모델 내의 노드들 중 다른 노드들과의 관계에서 링크를 거치지 않고 데이터가 직접 입력되는 하나 이상의 노드들을 의미할 수 있다. 또는, 제1 인공지능 모델 네트워크 내에서, 링크를 기준으로 한 노드 간의 관계에 있어서, 링크로 연결된 다른 입력 노드들 가지지 않는 노드들을 의미할 수 있다. 이와 유사하게, 최종 출력 노드는 제1 인공지능 모델 내의 노드들 중 다른 노드들과의 관계에서, 출력 노드를 가지지 않는 하나 이상의 노드들을 의미할 수 있다. 또한, 히든 노드는 최초 입력 노드 및 최후 출력 노드가 아닌 제1 인공지능 모델을 구성하는 노드들을 의미할 수 있다. 본 개시의 일 실시예에 따른 제1 인공지능 모델은 입력 레이어의 노드가 출력 레이어에 가까운 히든 레이어의 노드보다 많을 수 있으며, 입력 레이어에서 히든 레이어로 진행됨에 따라 노드의 수가 감소하는 형태의 제1 인공지능 모델일 수 있다.
제1 인공지능 모델은 하나 이상의 히든 레이어를 포함할 수 있다. 히든 레이어의 히든 노드는 이전의 레이어의 출력과 주변 히든 노드의 출력을 입력으로 할 수 있다. 각 히든 레이어 별 히든 노드의 수는 동일할 수도 있고 상이할 수도 있다. 입력 레이어의 노드의 수는 입력 데이터의 데이터 필드의 수에 기초하여 결정될 수 있으며 히든 노드의 수와 동일할 수도 있고 상이할 수도 있다. 입력 레이어에 입력된 입력 데이터는 히든 레이어의 히든 노드에 의하여 연산될 수 있고 출력 레이어인 완전 연결 레이어(FCL: fully connected layer)에 의해 출력될 수 있다.
다양한 실시예에서, 컴퓨팅 장치(100)는 제1 인공지능 모델을 학습시키기 위한 학습 데이터를 구축할 수 있고, 구축된 학습 데이터를 이용하여 교사 학습(supervised learning), 비교사 학습(unsupervised learning), 및 반교사학습(semi supervised learning) 중 적어도 하나의 방식으로 제1 인공지능 모델을 학습시킬 수 있다.
제1 인공지능 모델의 학습은 출력의 오류를 최소화하기 위한 것이다. 제1 인공지능 모델의 학습에서 반복적으로 학습 데이터를 제1 인공지능 모델에 입력시키고 학습 데이터에 대한 제1 인공지능 모델의 출력과 타겟의 에러를 계산하고, 에러를 줄이기 위한 방향으로 제1 인공지능 모델의 에러를 제1 인공지능 모델의 출력 레이어에서부터 입력 레이어 방향으로 역전파(backpropagation)하여 제1 인공지능 모델의 각 노드의 가중치를 업데이트 하는 과정이다.
교사 학습의 경우 각각의 학습 데이터에 정답이 레이블링 되어있는 학습 데이터를 사용하며(즉, 레이블링된 학습 데이터), 비교사 학습의 경우는 각각의 학습 데이터에 정답이 레이블링 되어 있지 않을 수 있다. 즉, 예를 들어 데이터 분류에 관한 교사 학습의 경우의 학습 데이터는 학습 데이터 각각에 카테고리가 레이블링 된 데이터 일 수 있다. 레이블링된 학습 데이터가 제1 인공지능 모델에 입력되고, 제1 인공지능 모델의 출력(카테고리)과 학습 데이터의 레이블을 비교함으로써 오류(error)가 계산될 수 있다.
다른 예로, 데이터 분류에 관한 비교사 학습의 경우 입력인 학습 데이터가 제1 인공지능 모델 출력과 비교됨으로써 오류가 계산될 수 있다. 계산된 오류는 제1 인공지능 모델에서 역방향(즉, 출력 레이어에서 입력 레이어 방향)으로 역전파 되며, 역전파에 따라 제1 인공지능 모델의 각 레이어의 각 노드들의 연결 가중치가 업데이트 될 수 있다. 업데이트 되는 각 노드의 연결 가중치는 학습률(learning rate)에 따라 변화량이 결정될 수 있다.
입력 데이터에 대한 제1 인공지능 모델의 계산과 에러의 역전파는 학습 사이클(epoch)을 구성할 수 있다. 학습률은 제1 인공지능 모델의 학습 사이클의 반복 횟수에 따라 상이하게 적용될 수 있다. 예를 들어, 제1 인공지능 모델의 학습 초기에는 높은 학습률을 사용하여 제1 인공지능 모델이 빠르게 일정 수준의 성능을 확보하도록 하여 효율성을 높이고, 학습 후기에는 낮은 학습률을 사용하여 정확도를 높일 수 있다.
제1 인공지능 모델의 학습에서 일반적으로 학습 데이터는 실제 데이터(즉, 학습된 제1 인공지능 모델을 이용하여 처리하고자 하는 데이터)의 부분집합일 수 있으며, 따라서, 학습 데이터에 대한 오류는 감소하나 실제 데이터에 대해서는 오류가 증가하는 학습 사이클이 존재할 수 있다. 과적합(overfitting)은 이와 같이 학습 데이터에 과하게 학습하여 실제 데이터에 대한 오류가 증가하는 현상이다. 예를 들어, 노란색 고양이를 보여 고양이를 학습한 제1 인공지능 모델이 노란색 이외의 고양이를 보고는 고양이임을 인식하지 못하는 현상이 과적합의 일종일 수 있다.
과적합은 머신러닝 알고리즘의 오류를 증가시키는 원인으로 작용할 수 있다. 이러한 과적합을 막기 위하여 다양한 최적화 방법이 사용될 수 있다. 과적합을 막기 위해서는 학습 데이터를 증가시키거나, 레귤라이제이션(regularization), 학습의 과정에서 네트워크의 노드 일부를 생략하는 드롭아웃(dropout) 등의 방법이 적용될 수 있다.
다양한 실시예에서, 컴퓨팅 장치(100)는 복수의 합성 물질 각각의 속성 정보(예: 구조, 특성 정보)와 복수의 합성 물질 각각을 합성하기 위한 정보(예: 복수의 합성 물질 각각을 합성하기 위한 재료, 장비 및 합성 방법에 관한 정보 등)를 학습 데이터로 하여 제1 인공지능 모델을 학습시킬 수 있다. 그러나, 이에 한정되지 않고, 컴퓨팅 장치(100)는 복수의 합성 방법 각각에 대한 수율 정보를 학습 데이터로 하여 제1 인공지능 모델을 학습시킬 수 있다.
S720 단계에서, 컴퓨팅 장치(100)는 사용자로부터 하나 이상의 조건을 획득할 수 있다. 여기서, 하나 이상의 조건은 합성 물질이 가져야 하는 성질(예: 특정 질병에 대한 효과가 있어야 함 등)을 의미할 수 있으나, 이에 한정되지 않는다.
S730 단계에서, 컴퓨팅 장치(100)는 S720 단계를 거쳐 획득된 하나 이상의 조건을 제1 인공지능 모델의 입력 값으로 하여 하나 이상의 조건을 만족하는 구조 및 특성을 가지는 합성 물질을 예측하고, 예측된 합성 물질을 합성하기 위한 재료, 장비 및 합성 방법을 포함하는 결과 값을 추출할 수 있다.
일례로, 컴퓨팅 장치(100)는 사용자로부터 입력된 조건이 "질병 z에 효과가 있으면서 수율 90% 이상"인 경우, 해당 조건을 제1 인공지능 모델에 입력함으로써, 질병 z에 효과가 있도록 최적화된 구조 및 특성을 가지는 합성 물질을 예측할 수 있고, 예측된 합성 물질에 따라 해당 합성 물질을 생성하기 위한 재료를 판단할 수 있으며, 해당 합성 물질을 합성시킬 수 있으면서 수율 90% 이상이 되도록 하는 합성 방법과 이를 수행하기 위해 필요한 장비를 판단하여 결과 값으로 추출할 수 있다.
제1 인공지능 모델은 복수의 합성 물질 각각의 속성 정보(예: 구조, 특성 정보)와 복수의 합성 물질 각각을 합성하기 위한 정보(예: 복수의 합성 물질 각각을 합성하기 위한 재료, 장비 및 합성 방법) 및 합성 방법별 수율 정보를 "특정 재료, 특정 장비, 특정 합성 과정으로 합성 시 수율 N%로 특정 질병에 효과가 있는 특정 합성 물질 생성" 형태의 학습 데이터로 하여 학습된 모델 즉 합성 물질의 속성 정보 합성 물질을 합성하기 위한 정보 및 수율 정보 간의 상관관계를 학습한 모델인 바, 특정 조건을 제1 인공지능 모델에 입력하는 동작 만으로 해당 조건을 만족하는 합성 물질과 해당 합성 물질을 생성하기 위한 가이드 정보를 추출할 수 있다.
뿐만 아니라, 제1 인공지능 모델은 합성 물질의 속성 정보 합성 물질을 합성하기 위한 정보 및 수율 정보 간의 상관관계를 학습한 모델인 바, 상기의 동작과 반대로, 특정 재료, 장비 및 합성 방법을 제1 인공지능 모델의 입력 값으로 하여 특정 재료, 장비 및 합성 방법에 따라 합성될 것으로 예측되는 합성 물질에 관한 정보를 결과 값으로 추출할 수 있다.
다양한 실시예에서, 컴퓨팅 장치(100)는 사용자에게 상기의 결과 값을 제공할 수 있고, 상기의 결과 값을 제공한 것에 대한 응답으로, 사용자로부터 피드백 정보(예: 예측된 합성 물질을 합성하기 위한 재료, 장비 및 합성 방법에 따라 생성된 합성 물질에 관한 정보)를 입력받을 수 있으며, 입력된 피드백 정보를 학습 데이터로 하여 제1 인공지능 모델을 재학습시킬 수 있다.
이때, 컴퓨팅 장치(100)는 사용자에게 제공된 결과 값에 기초하여 생성될 것으로 예측된 합성 물질과 사용자로부터 입력된 피드백 정보에 기초하여 실제로 생성된 합성 물질이 상이한 경우에만 해당 정보를 학습 데이터로 하여 제1 인공지능 모델을 재학습시킬 수 있다.
다양한 실시예에서, 컴퓨팅 장치(100)는 제1 인공지능 모델을 통해 예측된 합성 물질에 대한 스케일업(scale-up)을 수행하고자 하는 경우, 복수의 합성 방법에 따른 수율을 학습 데이터로 하여 학습된 제1 인공지능 모델을 통해 합성 물질을 합성하기 위한 합성 방법을 재추출할 수 있다.
보다 구체적으로, 컴퓨팅 장치(100)는 합성 방법별 수율 정보를 학습한 제1 인공지능 모델과 합성 방법별 수율 정보를 학습 하지 않은 제1 인공지능 모델을 생성할 수 있으며, 합성 방법별 수율 정보를 학습하지 않은 제1 인공지능 모델을 통해 결과 값을 도출하는 것을 기본(default)로 이용함으로써, 특정 조건을 만족하는 합성 물질을 예측 하는 것에 우선순위를 두되, 경우에 따라 합성 물질의 개발이 승인 및 완료 되어 해당 합성 물질에 대한 스케일업을 수행하고자 하는 경우에만 합성 방법별 수율 정보를 학습한 제1 인공지능 모델을 통해 합성 방법을 재추출할 수 있다.
도 17은 다양한 실시예에서, 제2 인공지능 모델을 통해 합성 물질에 대한 시험 조건을 설정하는 방법을 설명하기 위한 도면이다.
도 17을 참조하면, 컴퓨팅 장치(100)는 특정 합성 물질의 시험(예: 전임상 시험 또는 임상 시험)을 위한 조건을 설정할 수 있다.
S810 단계에서, 컴퓨팅 장치(100)는 제2 인공지능 모델을 생성 및 학습시킬 수 있다.
여기서, 제2 인공지능 모델의 구조 및 동작 형태는 제1 인공지능 모델과 동일할 수 있으나, 이에 한정되지 않는다.
다양한 실시예에서, 컴퓨팅 장치(100)는 복수의 합성 물질에 관한 정보 및 시험에 관한 정보(예: 복수의 합성 물질에 대한 전임상 시험 또는 임상 시험을 수행하기 위해 설정된 조건, 설정된 조건에 따른 시험 결과 등)를 학습 데이터로 하여 제2 인공지능 모델을 학습시킬 수 있다.
S820 단계에서, 컴퓨팅 장치(100)는 전임상 또는 임상 시험을 수행하고자 하는 합성 물질에 관한 정보를 획득할 수 있다.
S830 단계에서, 컴퓨팅 장치(100)는 S820 단계를 거쳐 획득된 합성 물질에 관한 정보를 제2 인공지능 모델의 입력 값으로 하여 합성 물질의 시험을 위한 조건을 설정에 관한 결과 값을 추출할 수 있다.
제2 인공지능 모델은 복수의 합성 물질에 관한 정보 및 시험에 관한 정보를 학습 데이터로 하여 학습된 모델 즉, 학습 물질별 시험 조건에 따른 시험 결과를 학습한 모델인 바, 특정 학습 물질에 관한 정보를 제2 인공지능 모델에 입력하는 동작만으로 최적의 시험 결과를 도출할 수 있는 시험 조건을 추출할 수 있다.
뿐만 아니라, 제2 인공지능 모델은 학습 물질별 시험 조건에 따른 시험 결과를 학습한 모델인 바, 합성 물질의 시험에 대한 특정 조건을 제2 인공지능 모델의 입력 값으로 하여 합성 물질의 시험 결과 예측 값을 결과 값으로 추출할 수 있다.
다양한 실시예에서, 컴퓨팅 장치(100)는 상기의 방법에 따라 설정된 조건에 따라 학습 물질에 대한 시험을 수행한 결과를 학습 데이터로 하여 제2 인공지능 모델을 재학습시킬 수 있다.
도 18은 다양한 실시예에서, 제3 인공지능 모델을 통해, 신약 개발 시 신약에 적합한 환자와 투약량을 도출하는 방법을 설명하기 위한 도면이다.
도 18을 참조하면, 컴퓨팅 장치(100)는 도 17 및 도 18의 동작을 거쳐 특정 합성 물질에 대한 신약 개발 승인 및 완료처리가 되는 경우, 특정 합성 물질을 포함하는 신약 개발 시 해당 신약에 적합한 환자와 적합한 투약량을 추출할 수 있다.
S910 단계에서, 컴퓨팅 장치(100)는 제3 인공지능 모델을 생성 및 학습시킬 수 있다.
여기서, 제3 인공지능 모델의 구조 및 동작 형태는 제1 인공지능 모델 및 제2 인공지능 모델과 동일할 수 있으나, 이에 한정되지 않는다.
다양한 실시예에서, 컴퓨팅 장치(100)는 복수의 시험대상에 관한 정보, 신물질로 개발된 복수의 합성 물질에 관한 정보 및 신물질로 개발된 복수의 합성 물질 각각의 시험 결과를 학습 데이터로 하여 제3 인공지능 모델을 학습시킬 수 있다.
예를 들어, 컴퓨팅 장치(100)는 복수의 환자에 관한 정보, 신약으로 개발된 복수의 합성 물질에 관한 정보 및 신약으로 개발된 복수의 합성 물질 각각의 전임상 시험 또는 임상 시험 결과를 학습 데이터로 하여 제3 인공지능 모델을 학습시킬 수 있다.
S920 단계에서, 컴퓨팅 장치(100)는 시험이 완료된 합성 물질에 대한 정보를 획득할 수 있다.
예를 들어, 컴퓨팅 장치(100)는 신약 개발이 승인 및 완료된 합성 물질에 관한 정보를 획득할 수 있다.
S930 단계에서, 컴퓨팅 장치(100)는 컴퓨팅 장치(100)는 S920 단계를 거쳐 획득된 합성 물질에 관한 정보를 제3 인공지능 모델의 입력 값으로 하여 합성 물질을 포함하는 신물질을 사용하기 적합한 대상 및 사용량에 관한 정보를 결과 값으로 추출할 수 있다.
예를 들어, S920 단계를 거쳐 획득된 합성 물질에 관한 정보를 제3 인공지능 모델의 입력 값으로 하여 합성 물질을 포함하는 신약을 투약하기 적합한 환자 및 투약량에 관한 정보를 결과 값으로 추출할 수 있다.
신약개발과 관련한 실시 예에서, 제3 인공지능 모델은 복수의 환자에 관한 정보, 신약으로 개발된 복수의 합성 물질에 관한 정보 및 신약으로 개발된 복수의 합성 물질 각각의 전임상 시험 또는 임상 시험 결과를 학습 데이터로 하여 학습된 모델 즉, 환자의 속성(나이, 성별, 기저질환 등)와 신약 효과 간의 상관관계 및 투약량과 신약 효과 간의 상관관계를 학습한 모델인 바, 특정 학습 물질에 관한 정보를 제3 인공지능 모델에 입력하는 동작만으로 신약에 적합한 환자가 누구인지 또한 적당한 투약량이 어느정도 인지를 추출할 수 있다.
또한, 컴퓨팅 장치(100)는 상기와 같이 인공지능 모델을 통해 신약 개발을 위한 직접적으로 가이드할 뿐만 아니라, 연구 분야에 도움이 되는 문헌들을 제공하거나 유사 분야를 연구하는 연구원을 매칭하는 등 간접적으로 가이드할 수 있다.
보다 구체적으로, 컴퓨팅 장치(100)는 도 19에 도시된 바와 같이, 특정 사용자(연구자)에 대응하여 기 생성된 정형화된 연구 기록 데이터를 분석하여 중요 세부 조건(재료로서 사용되는 물질, 장비, 합성 과정 등)을 추출할 수 있고, 추출된 세부 조건에 대응되는 비정형 데이터(예: 논문, 특허)를 검색하여 제공함으로써, 연구 내용에 최적화된 자료를 제공할 수 있다.
또한, 컴퓨팅 장치(100)는 도 20에 도시된 바와 같이, 특정 사용자(연구자)에 대한 정보(예: 개인 정보, 연구 분야 및 포트폴리오)를 게재하거나, 연구 논문 데이터를 공유하는 기능 및 연구 내용을 기반으로 유사 분야를 연구하는 다른 연구자들을 매칭하는 기능을 제공하는 연구 공유 및 협업 플랫폼을 제공할 수 있다.
전술한 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법 및 인공지능 모델을 이용한 합성 물질 개발 프로세스 제공방법은 도면에 도시된 순서도를 참조하여 설명하였다. 간단한 설명을 위해 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법 및 인공지능 모델을 이용한 합성 물질 개발 프로세스 제공방법은 일련의 블록들로 도시하여 설명하였으나, 본 발명은 상기 블록들의 순서에 한정되지 않고, 몇몇 블록들은 본 명세서에 도시되고 시술된 것과 상이한 순서로 수행되거나 또는 동시에 수행될 수 있다. 또한, 본 명세서 및 도면에 기재되지 않은 새로운 블록이 추가되거나, 일부 블록이 삭제 또는 변경된 상태로 수행될 수 있다. 이하, 도 21 내지 24를 참조하여, 컴퓨팅 장치(100)가 제공하는 UI(10)에 대해 설명하도록 한다.
도 21 내지 24는 다양한 실시예에 적용 가능한 사용자 인터페이스의 형태를 예시적으로 도시한 도면이다.
도 21 내지 24를 참조하면, UI(10)는 실험 재료에 대한 정보의 입력을 위한 제1 버튼(11), 실험 장비에 대한 정보의 입력을 위한 제2 버튼(12) 및 실험 및 연구 과정에 대한 정보의 입력을 위한 제3 버튼(13)을 포함할 수 있다.
컴퓨팅 장치(100)는 사용자로부터 제1 버튼(11), 제2 버튼(12) 및 제3 버튼(13) 중 적어도 하나의 버튼이 선택되는 것에 응답하여, 실험 재료에 대한 정보, 실험 장비에 대한 정보 및 실험 및 연구 과정에 대한 정보 중 어느 하나의 정보를 입력받기 위한 UI를 제공할 수 있다. 예를 들어, 사용자가 UI(10) 상의 제1 버튼(11)을 선택(예: 마우스 클릭 입력)하는 경우, 팝업 형태의 실험 재료에 대한 정보의 입력을 위한 UI(14)를 제공할 수 있다.
또한, 도면에 도시되어 있지 않으나, 상기와 마찬가지로, 사용자가 제2 버튼(12)을 선택하는 것에 응답하여 실험 장비에 대한 정보의 입력을 위한 UI를 제공할 수 있고, 사용자가 제3 버튼(13)을 선택하는 것에 응답하여, 실험 및 연구 과정에 대한 정보의 입력을 위한 UI를 제공할 수 있다. 이때, 각각의 UI들은 실험 재료에 대한 정보의 입력을 위한 UI(14)와 마찬가지로 팝업 형태로 출력될 수 있다.
컴퓨팅 장치(100)는 실험 재료에 대한 정보의 입력을 위한 UI(14), 실험 장비에 대한 정보의 입력을 위한 UI 및 실험 및 연구 과정에 대한 정보의 입력을 위한 UI를 통해 입력된 실험 재료, 연구 및 실험 과정 및 연구 결과에 대한 키워드를 자동완성 및 연동하여 실험 재료 정보, 연구 및 실험 과정 정보 및 연구 결과 정보를 생성할 수 있고, 생성된 각각의 정보를 기 설정된 템플릿에 맞춰 UI(10) 상에 배치 및 등록할 수 있다. 예를 들어, 각각의 정보들은 도 23에 도시된 바와 같이 개별적인 박스 형태로 구현되되, 동일한 범주에 속하는 정보들끼리 동일한 열에 배치되도록 할 수 있다.
이때, UI(10) 상에 배치(등록)된 특정 정보를 포함하는 카드는 사용자의 요청에 따라 자유롭게 복사되어 UI(10) 상의 다른 영역에 배치될 수 있다. 예를 들어, 컴퓨팅 장치(100)는 특정 실험 재료에 대한 정보를 포함하는 제1 카드(16)에 대한 복사 요청(예: 제1 카드(16) 선택, 기 설정된 키(예: Ctrl) + 드래그 입력)을 얻는 것에 응답하여, 사용자가 지정한 영역(예: 드래그 입력 후 마우스 포인터가 위치하는 영역)에 제1 카드(16)의 복사본인 제2 카드(16')를 생성하여 표시 및 등록할 수 있다.
또한, UI(10) 상에 배치(등록)된 특정 정보를 포함하는 복수의 카드는 사용자의 요청에 따라 자유롭게 혼합될 수 있다. 예를 들어, 컴퓨팅 장치(100)는 제1 실험 재료에 대한 정보를 포함하는 제1 카드와 제2 실험 재료에 대한 정보를 포함하는 제2 카드에 대한 혼합 요청(예: 제1 카드를 선택 및 드래그하여 제2 카드 위에 올려놓거나, 제2 카드를 선택 및 드래그하여 제1 카드 위에 올려놓는 동작 등)을 얻는 것에 응답하여, 제1 카드에 포함된 정보와 제2 카드에 포함된 정보를 결합하여 새로운 제3 카드(예: 제1 실험 재료에 대한 정보와 제2 실험 재료에 대한 정보를 포함)를 생성할 수 있다.
컴퓨팅 장치(100)는 UI(10) 상에 모든 정보가 배치(등록)되어 최종적으로 정형화된 연구 기록 데이터의 생성이 완료되는 경우, 요약 정보 제공 UI(17)를 통해 정형화된 연구 기록 데이터에 대한 요약 정보를 제공할 수 있다.
이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.
100 : 정형화된 연구 기록 데이터 자동생성 장치(또는 컴퓨팅 장치)
200 : 사용자 단말
300 : 외부 서버
400 : 네트워크
200 : 사용자 단말
300 : 외부 서버
400 : 네트워크
Claims (13)
- 컴퓨팅 장치에 의해 수행되는 방법에 있어서,
실험에 관한 연구 기록 정보를 획득하는 단계;
기 저장된 실험과 관련된 데이터에 기초하여 상기 획득된 연구 기록 정보 - 상기 획득된 연구 기록 정보는 실험 재료에 관한 키워드, 연구 및 실험 과정에 관한 키워드 및 연구 결과 키워드를 포함함 - 를 가공하는 단계; 및
상기 가공된 연구 기록 정보를 이용하여 정형화된 연구 기록 데이터를 생성하는 단계를 포함하며,
상기 획득된 연구 기록 정보를 가공하는 단계는,
상기 기 저장된 실험과 관련된 데이터에 포함된 실험 재료에 관한 데이터를 이용하여 상기 실험 재료에 관한 키워드를 자동완성 함으로써 실험 재료 정보를 생성하고, 상기 생성된 실험 재료 정보와 상기 기 저장된 실험과 관련된 데이터에 포함된 실험 재료에 관한 데이터를 연동하는 단계;
상기 기 저장된 실험과 관련된 데이터에 포함된 실험 재료에 관한 데이터를 이용하여 연구 및 실험 과정에 관한 키워드를 자동완성 함으로써 연구 및 실험 과정 정보를 생성하고, 상기 생성된 연구 및 실험 과정 정보와 상기 기 저장된 실험과 관련된 데이터에 포함된 실험 재료에 관한 데이터를 연동하는 단계; 및
기 설정된 결과 데이터 양식에 기초하여 상기 연구 결과에 관한 키워드를 시각화하는 단계를 포함하고,
상기 획득된 연구 기록 정보를 가공하는 단계는,
사용자 인터페이스(User Interface, UI)를 통해 사용자로부터 하나 이상의 키워드 - 상기 하나 이상의 키워드는 실험 재료에 관한 키워드, 연구 및 실험 과정에 관한 키워드 및 연구 결과에 관한 키워드 중 적어도 하나를 포함함 - 를 입력받는 경우, 상기 기 저장된 실험과 관련된 데이터에 기초하여 상기 입력된 하나 이상의 키워드에 대응되는 실험과 관련된 데이터를 선택하는 단계; 및
상기 선택된 실험과 관련된 데이터를 이용하여 상기 입력된 하나 이상의 키워드에 대응되는 연구 기록 정보를 자동완성 하는 단계를 포함하며,
상기 입력된 하나 이상의 키워드에 대응되는 연구 기록 정보를 자동완성 하는 단계는,
상기 입력된 하나 이상의 키워드에 대응되는 실험과 관련된 데이터가 복수 개인 경우, 사용자의 검색 이력에 기초하여 복수의 실험과 관련된 데이터 중 하나 이상의 실험과 관련된 데이터를 추천 데이터로서 상기 사용자에게 제공하는 단계; 및
상기 사용자로부터 상기 제공된 추천 데이터를 선택받는 경우, 상기 선택된 추천 데이터를 이용하여 상기 입력된 하나 이상의 키워드에 대응되는 연구 기록 정보를 자동완성 하는 단계를 포함하는,
인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법. - 제1항에 있어서,
상기 획득된 연구 기록 정보를 가공하는 단계는,
하나 이상의 텍스트 문장을 포함하는 줄글 형태의 연구 기록 정보가 획득된 경우, 상기 기 저장된 실험과 관련된 데이터에 기초하여 상기 획득된 줄글 형태의 연구 기록 정보에 포함된 복수의 단어 각각을 토큰화(Tokenization)하는 단계; 및
상기 토큰화된 복수의 단어 각각에 속성 정보를 레이블링(Labeling)하여 가공된 연구 기록 정보를 생성하는 단계를 포함하며,
상기 정형화된 연구 기록 데이터를 생성하는 단계는,
상기 가공된 연구 기록 정보를 이용하여 연구 기록 그래프를 생성하고, 상기 생성된 연구 기록 그래프를 이용하여 상기 정형화된 연구 기록 데이터를 생성하는 단계를 포함하는,
인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법. - 제2항에 있어서,
상기 생성된 연구 기록 그래프를 이용하여 상기 정형화된 연구 기록 데이터를 생성하는 단계는,
상기 속성 정보가 레이블링된 복수의 단어를 기 학습된 제1 모델의 입력 데이터로 하여 연구 기록 그래프 - 상기 연구 기록 그래프는 상기 복수의 단어 각각에 대응되는 노드(node)와 상기 복수의 단어 각각을 연결하는 엣지(edge)를 포함함 - 를 생성하는 단계를 포함하는,
인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법. - 삭제
- 삭제
- 제1항에 있어서,
상기 획득된 연구 기록 정보를 가공하는 단계는,
사용자 인터페이스(User Interface, UI)를 통해 사용자로부터 음성 형태의 연구 기록 정보를 입력받는 경우, 상기 입력받은 음성 형태의 연구 기록 정보를 자연어 처리(NLP)하여 텍스트 형태의 연구 기록 정보로 변환하는 단계;
상기 변환된 텍스트 형태의 연구 기록 정보를 분석하여 하나 이상의 키워드 - 상기 하나 이상의 키워드는 실험 재료에 관한 키워드, 연구 및 실험 과정에 관한 키워드 및 연구 결과에 관한 키워드 중 적어도 하나를 포함함 - 를 추출하는 단계; 및
상기 기 저장된 실험과 관련된 데이터에 기초하여 상기 추출된 하나 이상의 키워드에 대응되는 실험과 관련된 데이터를 선택하고, 상기 선택된 실험과 관련된 데이터를 이용하여 상기 추출된 하나 이상의 키워드에 대응되는 연구 기록 정보를 자동완성 하는 단계를 포함하는,
인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법. - 제1항에 있어서,
상기 연구 기록 정보를 획득하는 단계는,
연구 및 실험에 사용되는 복수의 장비 각각에 구비되는 센서로부터 장비 사용 정보를 획득하는 단계; 및
연구 및 실험에 사용되는 복수의 재료 각각에 구비되는 센서로부터 재료 사용 정보를 획득하는 단계를 포함하며,
상기 획득된 연구 기록 정보를 가공하는 단계는,
상기 획득된 장비 사용 정보 및 상기 획득된 재료 사용 정보를 이용하여 가공된 연구 기록 정보를 생성하는 단계를 포함하는,
인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법. - 삭제
- 제1항에 있어서,
상기 정형화된 연구 기록 데이터에 대응되는 연구 기록 그래프를 기 학습된 제2 모델의 입력 데이터로 하여 하나 이상의 텍스트 문장을 포함하는 줄글 형태의 연구 기록 정보를 생성하는 단계를 더 포함하는,
인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법. - 제9항에 있어서,
상기 하나 이상의 텍스트 문장을 포함하는 줄글 형태의 연구 기록 정보를 생성하는 단계는,
제1 사용자로부터 제1 정형화된 연구 기록 데이터에 대한 텍스트 변환을 요청받는 경우, 상기 제1 정형화된 연구 기록 데이터를 그래프화 하여 제1 연구 기록 그래프를 생성하는 단계;
상기 생성된 제1 연구 기록 그래프를 이용하여 제1 줄글 형태의 연구 기록 정보를 생성하고, 상기 생성된 제1 줄글 형태의 연구 기록 정보를 상기 제1 사용자에게 제공하는 단계; 및
상기 제1 사용자로부터 상기 제공된 제1 줄글 형태의 연구 기록 정보의 적어도 일부분이 수정되는 경우, 상기 적어도 일부분이 수정된 제1 줄글 형태의 연구 기록 정보와 상기 제1 연구 기록 그래프를 학습 데이터로 하여 상기 기 학습된 제2 모델을 재학습시키는 단계를 포함하는,
인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법. - 제1항에 있어서,
상기 정형화된 연구 기록 데이터를 생성하는 단계는,
제1 정형화된 연구 기록 데이터를 이용하여 제1 연구 기록 그래프를 생성하고, 상기 생성된 제1 연구 기록 그래프를 이용하여 상기 제1 정형화된 연구 기록 데이터에 포함된 실험 재료, 실험 장비 및 실험 과정에 따라 실험을 시뮬레이션하는 단계; 및
상기 실험을 시뮬레이션한 결과와 상기 제1 정형화된 연구 기록 데이터를 매칭하여 저장하는 단계를 포함하는,
인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법. - 프로세서;
네트워크 인터페이스;
메모리; 및
상기 메모리에 로드(load)되고, 상기 프로세서에 의해 실행되는 컴퓨터 프로그램을 포함하되,
상기 컴퓨터 프로그램은,
실험에 관한 연구 기록 정보를 획득하는 인스트럭션(instruction);
기 저장된 실험과 관련된 데이터에 기초하여 상기 획득된 연구 기록 정보 - 상기 획득된 연구 기록 정보는 실험 재료에 관한 키워드, 연구 및 실험 과정에 관한 키워드 및 연구 결과 키워드를 포함함 - 를 가공하는 인스트럭션; 및
상기 가공된 연구 기록 정보를 이용하여 정형화된 연구 기록 데이터를 생성하는 인스트럭션을 포함하며,
상기 획득된 연구 기록 정보를 가공하는 인스트럭션은,
상기 기 저장된 실험과 관련된 데이터에 포함된 실험 재료에 관한 데이터를 이용하여 상기 실험 재료에 관한 키워드를 자동완성 함으로써 실험 재료 정보를 생성하고, 상기 생성된 실험 재료 정보와 상기 기 저장된 실험과 관련된 데이터에 포함된 실험 재료에 관한 데이터를 연동하는 인스트럭션;
상기 기 저장된 실험과 관련된 데이터에 포함된 실험 재료에 관한 데이터를 이용하여 연구 및 실험 과정에 관한 키워드를 자동완성 함으로써 연구 및 실험 과정 정보를 생성하고, 상기 생성된 연구 및 실험 과정 정보와 상기 기 저장된 실험과 관련된 데이터에 포함된 실험 재료에 관한 데이터를 연동하는 인스트럭션; 및
기 설정된 결과 데이터 양식에 기초하여 상기 연구 결과에 관한 키워드를 시각화하는 인스트럭션을 포함하고,
상기 획득된 연구 기록 정보를 가공하는 인스트럭션은,
사용자 인터페이스(User Interface, UI)를 통해 사용자로부터 하나 이상의 키워드 - 상기 하나 이상의 키워드는 실험 재료에 관한 키워드, 연구 및 실험 과정에 관한 키워드 및 연구 결과에 관한 키워드 중 적어도 하나를 포함함 - 를 입력받는 경우, 상기 기 저장된 실험과 관련된 데이터에 기초하여 상기 입력된 하나 이상의 키워드에 대응되는 실험과 관련된 데이터를 선택하는 인스트럭션; 및
상기 선택된 실험과 관련된 데이터를 이용하여 상기 입력된 하나 이상의 키워드에 대응되는 연구 기록 정보를 자동완성 하는 인스트럭션을 포함하며,
상기 입력된 하나 이상의 키워드에 대응되는 연구 기록 정보를 자동완성 하는 인스트럭션은,
상기 입력된 하나 이상의 키워드에 대응되는 실험과 관련된 데이터가 복수 개인 경우, 사용자의 검색 이력에 기초하여 복수의 실험과 관련된 데이터 중 하나 이상의 실험과 관련된 데이터를 추천 데이터로서 상기 사용자에게 제공하는 인스트럭션; 및
상기 사용자로부터 상기 제공된 추천 데이터를 선택받는 경우, 상기 선택된 추천 데이터를 이용하여 상기 입력된 하나 이상의 키워드에 대응되는 연구 기록 정보를 자동완성 하는 인스트럭션을 포함하는,
인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 장치. - 컴퓨팅 장치와 결합되어,
실험에 관한 연구 기록 정보를 획득하는 단계;
기 저장된 실험과 관련된 데이터에 기초하여 상기 획득된 연구 기록 정보 - 상기 획득된 연구 기록 정보는 실험 재료에 관한 키워드, 연구 및 실험 과정에 관한 키워드 및 연구 결과 키워드를 포함함 - 를 가공하는 단계; 및
상기 가공된 연구 기록 정보를 이용하여 정형화된 연구 기록 데이터를 생성하는 단계를 포함하며,
상기 획득된 연구 기록 정보를 가공하는 단계는,
상기 기 저장된 실험과 관련된 데이터에 포함된 실험 재료에 관한 데이터를 이용하여 상기 실험 재료에 관한 키워드를 자동완성 함으로써 실험 재료 정보를 생성하고, 상기 생성된 실험 재료 정보와 상기 기 저장된 실험과 관련된 데이터에 포함된 실험 재료에 관한 데이터를 연동하는 단계;
상기 기 저장된 실험과 관련된 데이터에 포함된 실험 재료에 관한 데이터를 이용하여 연구 및 실험 과정에 관한 키워드를 자동완성 함으로써 연구 및 실험 과정 정보를 생성하고, 상기 생성된 연구 및 실험 과정 정보와 상기 기 저장된 실험과 관련된 데이터에 포함된 실험 재료에 관한 데이터를 연동하는 단계; 및
기 설정된 결과 데이터 양식에 기초하여 상기 연구 결과에 관한 키워드를 시각화하는 단계를 포함하고,
상기 획득된 연구 기록 정보를 가공하는 단계는,
사용자 인터페이스(User Interface, UI)를 통해 사용자로부터 하나 이상의 키워드 - 상기 하나 이상의 키워드는 실험 재료에 관한 키워드, 연구 및 실험 과정에 관한 키워드 및 연구 결과에 관한 키워드 중 적어도 하나를 포함함 - 를 입력받는 경우, 상기 기 저장된 실험과 관련된 데이터에 기초하여 상기 입력된 하나 이상의 키워드에 대응되는 실험과 관련된 데이터를 선택하는 단계; 및
상기 선택된 실험과 관련된 데이터를 이용하여 상기 입력된 하나 이상의 키워드에 대응되는 연구 기록 정보를 자동완성 하는 단계를 포함하며,
상기 입력된 하나 이상의 키워드에 대응되는 연구 기록 정보를 자동완성 하는 단계는,
상기 입력된 하나 이상의 키워드에 대응되는 실험과 관련된 데이터가 복수 개인 경우, 사용자의 검색 이력에 기초하여 복수의 실험과 관련된 데이터 중 하나 이상의 실험과 관련된 데이터를 추천 데이터로서 상기 사용자에게 제공하는 단계; 및
상기 사용자로부터 상기 제공된 추천 데이터를 선택받는 경우, 상기 선택된 추천 데이터를 이용하여 상기 입력된 하나 이상의 키워드에 대응되는 연구 기록 정보를 자동완성 하는 단계를 포함하는 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법을 실행시키기 위하여 컴퓨터로 판독가능한 기록매체에 저장된, 컴퓨터프로그램.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020230002728A KR20230010803A (ko) | 2020-11-20 | 2023-01-09 | 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법, 장치 및 컴퓨터프로그램 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200157187 | 2020-11-20 | ||
KR20200157187 | 2020-11-20 | ||
KR20210018208 | 2021-02-09 | ||
KR1020210018208 | 2021-02-09 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020230002728A Division KR20230010803A (ko) | 2020-11-20 | 2023-01-09 | 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법, 장치 및 컴퓨터프로그램 |
Publications (3)
Publication Number | Publication Date |
---|---|
KR20220069871A KR20220069871A (ko) | 2022-05-27 |
KR102491346B1 true KR102491346B1 (ko) | 2023-01-27 |
KR102491346B9 KR102491346B9 (ko) | 2024-03-13 |
Family
ID=81791014
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210161667A KR102491345B1 (ko) | 2020-11-20 | 2021-11-22 | 인공지능 모델을 이용한 합성 물질 개발 프로세스 제공방법, 장치 및 컴퓨터프로그램 |
KR1020210161668A KR102491346B1 (ko) | 2020-11-20 | 2021-11-22 | 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법, 장치 및 컴퓨터프로그램 |
KR1020230002728A KR20230010803A (ko) | 2020-11-20 | 2023-01-09 | 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법, 장치 및 컴퓨터프로그램 |
KR1020230002727A KR20230010802A (ko) | 2020-11-20 | 2023-01-09 | 인공지능 모델을 이용한 합성 물질 개발 프로세스 제공방법, 장치 및 컴퓨터프로그램 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210161667A KR102491345B1 (ko) | 2020-11-20 | 2021-11-22 | 인공지능 모델을 이용한 합성 물질 개발 프로세스 제공방법, 장치 및 컴퓨터프로그램 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020230002728A KR20230010803A (ko) | 2020-11-20 | 2023-01-09 | 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법, 장치 및 컴퓨터프로그램 |
KR1020230002727A KR20230010802A (ko) | 2020-11-20 | 2023-01-09 | 인공지능 모델을 이용한 합성 물질 개발 프로세스 제공방법, 장치 및 컴퓨터프로그램 |
Country Status (1)
Country | Link |
---|---|
KR (4) | KR102491345B1 (ko) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115166153B (zh) * | 2022-07-20 | 2024-10-15 | 广州蓝勃生物科技有限公司 | 试剂开发的实验方法、装置、计算机设备和存储介质 |
CN115166154B (zh) * | 2022-07-20 | 2024-10-18 | 广州蓝勃生物科技有限公司 | 试剂开发实验方法、装置、计算机设备和存储介质 |
WO2024085731A1 (ko) * | 2022-10-20 | 2024-04-25 | 주식회사 씨젠 | 타겟 핵산 분자 검출용 시약 개발에 필요한 복수 개의 세부 성능 실험 가이딩 및 실험 결과 기록서 정리 방법 |
KR20240055290A (ko) * | 2022-10-20 | 2024-04-29 | 주식회사 아이팩토리 | 자연어 생성 모델을 이용하여 텍스트를 자동으로 생성하는 기능을 갖는 문서 작성 장치, 방법, 컴퓨터 프로그램, 컴퓨터로 판독 가능한 기록매체, 서버 및 시스템 |
KR102646547B1 (ko) * | 2023-11-01 | 2024-03-12 | 에프원테크시스템즈 주식회사 | 인공지능 모델을 활용한 사출 관련 정형 및 비정형 데이터 기반 금형 및 사출 상태 분석 솔루션 제공 방법 |
-
2021
- 2021-11-22 KR KR1020210161667A patent/KR102491345B1/ko active IP Right Grant
- 2021-11-22 KR KR1020210161668A patent/KR102491346B1/ko active IP Right Grant
-
2023
- 2023-01-09 KR KR1020230002728A patent/KR20230010803A/ko active Application Filing
- 2023-01-09 KR KR1020230002727A patent/KR20230010802A/ko active Application Filing
Non-Patent Citations (5)
Title |
---|
E. Soedarmadji et al., Tracking materials science data lineage to manage millions of materials experments and analyses, Npj Comput. Mater. Vol.5, 79(2019) |
J. Li et al., AI Applications through the Whole Life Cycle of Material Discovery, Matter Vol.3, pp393-432(2020.08.05.) |
L. Yao et al., Graph Convolutional Networks for Text Classification, arXiv:1809.05679v3(2018) |
R. D. King et al., On the formalization and reuse of scientific research, J. R. Soc. Interface Vol.8, pp1440-1448(2011) |
Y. Roh et al., A Survey on Data Collection for Machine Learning, arXiv:1811.030402v2(2019) |
Also Published As
Publication number | Publication date |
---|---|
KR102491346B9 (ko) | 2024-03-13 |
KR102491345B1 (ko) | 2023-01-27 |
KR20220069871A (ko) | 2022-05-27 |
KR102491345B9 (ko) | 2024-03-15 |
KR20220069870A (ko) | 2022-05-27 |
KR20230010802A (ko) | 2023-01-19 |
KR20230010803A (ko) | 2023-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102491346B1 (ko) | 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법, 장치 및 컴퓨터프로그램 | |
Saelens et al. | A comparison of single-cell trajectory inference methods | |
Yang et al. | Visually-enabled active deep learning for (geo) text and image classification: a review | |
Zeng et al. | Relation construction for aspect-level sentiment classification | |
Morris et al. | Predicting binding from screening assays with transformer network embeddings | |
CN112270951A (zh) | 基于多任务胶囊自编码器神经网络的全新分子生成方法 | |
Gorospe et al. | A generalization performance study using deep learning networks in embedded systems | |
Barbierato et al. | The challenges of machine learning: A critical review | |
Sidak et al. | Interpretable machine learning methods for predictions in systems biology from omics data | |
US20240152707A1 (en) | Automated Patent Language Generation | |
US20240055071A1 (en) | Artificial intelligence-based compound processing method and apparatus, device, storage medium, and computer program product | |
US11797281B2 (en) | Multi-language source code search engine | |
CN113948157B (zh) | 化学反应分类方法、装置、电子设备及存储介质 | |
Richarz | Big data in predictive toxicology: challenges, opportunities and perspectives | |
Sinha et al. | A review on the recent applications of deep learning in predictive drug toxicological studies | |
US12061880B2 (en) | Systems and methods for generating code using language models trained on computer code | |
US20220083907A1 (en) | Data generation and annotation for machine learning | |
Albu et al. | MM-StackEns: A new deep multimodal stacked generalization approach for protein–protein interaction prediction | |
Barchi et al. | Deep Learning Approaches to Source Code Analysis for Optimization of Heterogeneous Systems: Recent Results, Challenges and Opportunities | |
JP7521855B2 (ja) | 人工知能モデルの学習のための定型化された研究記録データ自動生成方法、装置およびコンピュータプログラム | |
Chen et al. | Applying interpretable machine learning in computational biology—pitfalls, recommendations and opportunities for new developments | |
KR20220114780A (ko) | 실험 데이터 자동 수집을 통한 정형화된 연구 기록 데이터 자동생성 방법 | |
KR20220114779A (ko) | 정형화된 연구 기록 데이터를 이용한 인공지능 모델의 학습 방법 | |
KR102483916B1 (ko) | 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법, 장치 및 컴퓨터프로그램 | |
Karthikeyan et al. | Mobile Artificial Intelligence Projects: Develop seven projects on your smartphone using artificial intelligence and deep learning techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
A107 | Divisional application of patent | ||
GRNT | Written decision to grant | ||
G170 | Re-publication after modification of scope of protection [patent] |