KR102609227B1 - 전자 문서 내 인공지능 기반 안전정보 탐지 방법 및 장치 - Google Patents

전자 문서 내 인공지능 기반 안전정보 탐지 방법 및 장치 Download PDF

Info

Publication number
KR102609227B1
KR102609227B1 KR1020220099171A KR20220099171A KR102609227B1 KR 102609227 B1 KR102609227 B1 KR 102609227B1 KR 1020220099171 A KR1020220099171 A KR 1020220099171A KR 20220099171 A KR20220099171 A KR 20220099171A KR 102609227 B1 KR102609227 B1 KR 102609227B1
Authority
KR
South Korea
Prior art keywords
text
information
result
data
electronic document
Prior art date
Application number
KR1020220099171A
Other languages
English (en)
Inventor
신민경
양솔지
이민수
Original Assignee
주식회사 셀타스퀘어
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 셀타스퀘어 filed Critical 주식회사 셀타스퀘어
Priority to KR1020220099171A priority Critical patent/KR102609227B1/ko
Priority to US18/361,925 priority patent/US20240054296A1/en
Priority to CN202310987488.0A priority patent/CN117594179A/zh
Priority to EP23190233.9A priority patent/EP4322047A1/en
Application granted granted Critical
Publication of KR102609227B1 publication Critical patent/KR102609227B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medicinal Chemistry (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Toxicology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 전자 문서 내 안전정보 탐지 방법 및 장치에 대한 것으로, 전자 문서 내 안전정보 탐지 방법은, 전자 문서 내의 텍스트 데이터를 획득하는 단계, 획득한 상기 전자 문서에 존재하는 약어를 본말(full term)로 변환하기 위한 전처리를 수행하는 단계, 전처리된 상기 전자 문서 내에 존재하는 텍스트를 색인 또는 분류하는 단계, 의약품 정보 및 이상반응 정보를 이용하여 상기 전자 문서가 ICSR(Individual Case Safety Report)인지 여부를 판별하는 단계 및 참고문헌을 판별한 제1 결과, 텍스트를 색인 또는 분류한 제2 결과 또는 ICSR인지 여부를 판별한 제3 결과 중 적어도 하나의 결과를 포함하는 적어도 하나의 보고서를 출력하는 단계를 포함하며, 상기 적어도 하나의 보고서는, 상기 제1 결과, 상기 제2 결과 또는 상기 제3 결과 중 하나를 포함하는 적어도 하나의 개별 보고서, 또는 상기 제1 결과, 상기 제2 결과, 상기 제3 결과 중 복수의 결과들을 통합한 결과를 포함하는 통합 보고서 중 적어도 하나를 포함하는 방법이다.

Description

전자 문서 내 인공지능 기반 안전정보 탐지 방법 및 장치{METHOD AND APPARATUS FOR DETECTING SAFETY INFORMATION VIA ARTIFICIAL INTELLIGENCE FROM ELECTRONIC DOCUMENT}
본 발명은 전자 문서 내에 존재하는 안전정보 탐지 방법 및 장치에 관한 것이다.
1960년대 탈리도마이드 최기형성 부작용이 보고된 이후 전세계적으로 약물감시(Pharmacovigilance)의 중요성이 대두되었고, 이는 국제적인 의약품의 안전관리 체계를 구축하는 계기가 되었다. 약물감시는 환자의 안전과 복지를 증진하기 위해 의약품 등의 이상사례 또는 안전성 관련 문제의 탐지, 평가, 해석, 예방에 대한 과학적 활동이다. 의약품 안전성 정보는 자발적으로 보고된 자료와 시험 및 연구 등 계획된 체계를 통해 수집된 정보로부터 수집할 수 있으며, 수집원의 범위는 1990년대 월드와이드웹(World Wide Web, WWW, W3)이 대중에게 일반화되고, 전자도서관이 생겨나기 시작한 이래로 세계보건기구(World Health Organization, WHO)와 의약품 규제조화국제회의 ICH(International Conference on Harmonization of Technical Requirements of Pharmaceuticals for Human Use), 그리고 이에 협력하는 전세계 규제기관은 안전성 정보 수집원을 인터넷 및 디지털 미디어까지 확장하였다. 하지만 인터넷 및 디지털 미디어를 통해 누적된 정보는 시공간에 대한 제약 없이 누적되고 있어 양이 방대하며, 누구나 정보 생산자가 될 수 있어 질이 보장되지 않을 수 있다. 이러한 특징으로 인해 의미 있는 안전성 정보를 탐지하기 위해서 많은 인적 자원을 비효율 적으로 소모하게 된다. 이는 최근 글로벌화된 약물 사용, 강화된 약물감시 규정, 주기적으로 발생한 팬데믹(pandemic) 사태가 맞물려 폭발적으로 증가하는 의약품 부작용 보고를 처리로 이미 업무 부담이 가중된 상황에 업계에 더 큰 부담으로 작용하고 있다. 이렇게 업계에 새로운 방법론, 시스템의 필요성이 대두되고 있는 상황에서 지속적으로 발전 중인 빅데이터 딥러닝 알고리즘과 인공지능(Artificial Intelligence, AI) 기술이 탈출구로 주목받고 있으며, 약물감시와 관련된 많은 연구가 이루어지고 있다.
삭제
대한민국 등록특허공보 제10-1950529호 (2014.04.04.) 대한민국 등록특허공보 제10-1814120호 (2013.03.06.)
본 발명은 전자 문서 내에 존재하는 안전정보(safety information)를 효과적으로 탐지하기 위한 방법 및 장치를 제공하기 위한 것이다.
본 발명은 전자 문서 내에 존재하는 안전정보를 확인하기 위한 방법 및 장치를 제공하기 위한 것이다.
본 발명은 전자 문서 내에 존재하는 의약품 이상 사례를 관리하기 위한 방법 및 장치를 제공하기 위한 것이다.
본 발명은 전자 문서 내 안전정보를 이용하여 보다 체계적으로 의학적 평가를 하기 위한 방법 및 장치를 제공하기 위한 것이다.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 실시예에 따른, 전자 문서 내 안전정보 탐지 방법은, 전자 문서 내의 텍스트 데이터를 획득하는 단계, 획득한 상기 전자 문서 내의 텍스트 데이터에 존재하는 약어를 본말(full term)로 변환하기 위한 전처리를 수행하는 단계, 상기 전자 문서 내에 존재하는 참고문헌을 판별하는 단계, 전처리된 상기 전자 문서 내에 존재하는 텍스트를 색인 또는 분류하는 단계, 의약품 정보 및 이상반응 정보를 이용하여 상기 전자 문서가 ICSR(Individual Case Safety Report)인지 여부를 판별하는 단계 및 참고문헌을 판별한 제1 결과, 텍스트를 색인 또는 분류한 제2 결과 또는 ICSR인지 여부를 판별한 제3 결과 중 적어도 하나의 결과를 포함하는 적어도 하나의 보고서를 출력하는 단계를 포함하며, 상기 적어도 하나의 보고서는, 상기 제1 결과, 상기 제2 결과 또는 상기 제3 결과 중 하나를 포함하는 적어도 하나의 개별 보고서, 또는 상기 제1 결과, 상기 제2 결과, 상기 제3 결과 중 복수의 결과들을 통합한 결과를 포함하는 통합 보고서 중 적어도 하나를 포함할 수 있다.
본 발명의 일 실시예에 따르면, 상기 전처리를 수행하는 단계는, 상기 전자 문서를 텍스트 데이터로 변환하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따르면, 참고문헌을 판별하는 단계는, 상기 전처리를 수행하는 단계에서 본말로 변환되지 않은 텍스트에 참고문헌이 존재하는지 여부를 탐지하는 단계 및 탐지된 상기 참고문헌에 기존 검토 완료한 타 문헌이 존재하는지 검사하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따르면, 상기 텍스트를 색인 또는 분류하는 단계는, 약어 변환 처리된 텍스트에 대하여 의약학 정보를 색인하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따르면, 상기 텍스트를 색인 또는 분류하는 단계는, 약어 변환 처리되지 않은 텍스트에 대하여 분류 모델(classification model)에 입력함으로써 텍스트를 분류하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따르면, 상기 분류 모델은, 입력된 텍스트를 분류 라벨 별로 분류하는 모델일 수 있다.
본 발명의 일 실시예에 따르면, 상기 분류 모델은 분류 모델 학습 데이터를 이용하여 미세 조정(fine-tuning)된 BERT 모델일 수 있다.
본 발명의 일 실시예에 따르면, ICSR인지 여부를 판별하는 단계는, 상기 텍스트를 색인 또는 분류하는 단계에서 수행된 결과물을 이용하여 정답 텍스트를 추론함으로써 독해 및 판별하는 단계, 의약품 허가정보에서 의약품의 이상반응 정보 존재 여부를 확인함으로써 예측성을 평가하는 단계 및 상기 전자 문서가 ICSR 보고서에 해당하는지 여부를 판별함으로써 개별이상사례를 판별하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따르면, 상기 독해 및 판별하는 단계는, 의약학 정보를 색인하는 단계에서 추출한 데이터를 활용하여 생성한 질의 데이터 및 분류 라벨 별로 분류하는 단계에서 생성된 문장들 중 적어도 하나의 문장을 기계 독해 모델에 입력함으로써 정답 텍스트를 추론하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따르면, 상기 기계 독해 모델은 독해 모델 학습 데이터를 이용하여 미세 조정(fine-tuning)된 BERT 모델일 수 있다.
본 발명의 일 실시예에 따르면, 상기 독해 모델 학습 데이터는 문단(paragraph), 질의(question) 및 정답(answer)을 포함할 수 있다.
본 발명의 일 실시예에 따르면, 상기 예측성을 평가하는 단계는, 상기 독해 및 판별하는 단계에서 의약품 이상반응 정보를 획득하는 단계, 의약품 허가정보에서 상기 이상반응 정보를 검색하는 단계 및 상기 의약품 허가정보 내에 상기 이상반응이 존재하는지 여부를 확인하는 단계를 포함하되, 상기 의약품 허가정보 내에 상기 이상반응이 존재하는지 여부를 확인하는 단계에서 상기 의약품 허가정보 내에 상기 이상반응이 존재하면 예측 가능한 부작용으로 판단하고, 상기 의약품 허가정보 내에 상기 이상반응이 존재하지 않으면 예측 불가능한 부작용으로 판단할 수 있다.
본 발명의 일 실시예에 따르면, 상기 개별이상사례를 판별하는 단계는, 상기 예측성을 평가하는 단계에서 획득한 결과를 ICSR 판별 시스템에 입력하는 단계 및 상기 획득된 결과가 ICSR에 해당하는지 여부를 판별하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따르면, 원문을 강조 처리하는 단계를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면, 상기 원문을 강조 처리하는 단계는, 분류 라벨 별로 분류하는 단계에서 분류 라벨 별로 분류된 문장들을 찾아 강조 처리하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따르면, 상기 원문을 강조 처리하는 단계는, 의약학 정보를 색인하는 단계에서 색인한 용어들을 상기 전자 문서 내에서 찾아 강조 처리하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따르면, 상기 원문을 강조 처리하는 단계는, 상기 분류 라벨 별로 분류하는 단계에서 탐지한 라벨의 분류 별로 색상을 다르게 하여 강조 처리하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따르면, 전자 문서 내 안전정보 탐지 장치는, 상기 장치의 동작에 필요한 정보를 저장하는 저장부 및 상기 저장부에 연결된 프로세서를 포함하며, 상기 프로세서는, 전자 문서를 획득하고, 획득한 상기 전자 문서에 존재하는 약어를 본말로 변환하기 위한 전처리를 수행하고, 상기 전자 문서 내에 존재하는 참고문헌을 판별하고, 전처리된 상기 전자 문서 내에 존재하는 텍스트를 색인 또는 분류하고, 의약품 정보 및 이상반응 정보를 이용하여 상기 전자 문서가 ICSR인지 여부를 판별하고, 참고문헌을 판별한 제1 결과, 텍스트를 색인 또는 분류한 제2 결과 또는 ICSR인지 여부를 판별한 제3 결과 중 적어도 하나의 결과를 포함하는 적어도 하나의 보고서를 출력하고, 상기 적어도 하나의 보고서는, 상기 제1 결과, 상기 제2 결과 또는 상기 제3 결과 중 하나를 포함하는 적어도 하나의 개별 보고서, 또는 상기 제1 결과, 상기 제2 결과, 상기 제3 결과 중 복수의 결과들을 통합한 결과를 포함하는 통합 보고서 중 적어도 하나를 포함할 수 있다.
본 발명의 일 실시예에 따르면, 상기 프로세서는, 상기 텍스트를 색인 또는 분류하는 과정에서 출력한 결과에 대하여 강조 처리를 수행할 수 있다.
본 발명에 대하여 위에서 간략하게 요약된 특징들은 후술하는 본 발명의 상세한 설명의 예시적인 양상일 뿐이며, 본 발명의 범위를 제한하는 것은 아니다.
본 발명에 따르면, 전자 문서 내의 의약품 이상 사례를 체계적으로 관리할 수 있다.
본 발명에 따르면, 논문, 문헌 등에서 ICSR(Individual Case Safety Report)을 탐지하고 추출할 수 있다.
본 발명에 따르면, 일반적으로 이해하기 어려운 논문, 문헌 등의 전문적인 문서를 보다 빠르게 처리할 수 있다.
본 발명에 따르면, 길이가 긴 문서에서 ICSR 정보가 있는 부분을 원문 강조를 통해 즉각적으로 확인할 수 있다.
본 발명에 따르면, 해석이 어려운 전문 용어를 보다 빠르게 처리할 수 있다.
본 발명에 따르면, 방대한 양의 문헌을 보다 빠르게 처리할 수 있다.
본 발명에 따르면, 길이가 긴 문헌에서도 ICSR 정보를 즉각적으로 확인할 수 있다.
본 발명에 따르면, ICSR의 핵심 정보를 추출함으로써 원문 확인 없이 보고서를 작성할 수 있다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 안전정보 탐지 방법을 제공하는 시스템 구조를 도시한다.
도 2는 본 발명의 일 실시예에 따른 장치의 구조를 도시한다.
도 3은 본 발명의 일 실시예에 따른 AI(Artificial Intelligence) 모델 기반 전자 문서 내 안전정보 탐지 장치의 기능적 구조를 도시한다.
도 4는 본 발명의 일 실시예에 따른 시스템에 적용 가능한 인공 신경망의 구조를 도시한다.
도 5는 본 발명의 일 실시예에 따른 탐지/분류부를 위한 BERT(Bidirectional Encoder Representations from Transformers) 모델을 도시한다.
도 6은 본 발명의 일 실시예에 따른 독해/판별부를 위한 BERT 모델을 도시한다.
도 7은 본 발명의 일 실시예에 따른 전자 문서 내 AI 안전 정보 탐지 순서도를 도시한다.
도 8은 본 발명의 일 실시예에 따른 전자 문서 내 참고문헌 판별 순서도를 도시한다.
도 9는 본 발명의 일 실시예에 따른 전자 문서 내 텍스트 강조 처리 순서도를 도시한다.
도 10은 본 발명의 일 실시예에 따른 전자 문서 내 AI 안전 정보 탐지 순서도를 도시한다.
도 11은 본 발명의 일 실시예에 따른 문서 전처리 과정의 순서도를 도시한다.
도 12는 본 발명의 일 실시예에 따른 기계 독해 모델 구동 방법의 순서도를 도시한다.
이하에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.
본 발명의 실시예를 설명함에 있어서 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그에 대한 상세한 설명은 생략한다. 그리고, 도면에서 본 발명에 대한 설명과 관계없는 부분은 생략하였으며, 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 발명은 전자 문서 내에 존재하는 안전정보 탐지를 위한 기술에 대해 제안한다. 구체적으로, 본 발명은 전자 문서 내 존재하는 텍스트 정보를 활용하고, AI(Artificial Intelligence) 모델에 기반하여 의약품 정보, 이상반응 정보 등의 데이터를 보고서 형태로 추출하는 방법 및 장치에 관한 것이다. 특히, 본 발명은 전자 문서 내에 존재하는 텍스트를 대상으로 개별이상사례 보고서(Individual Case Safety Report, ICSR)를 탐지하는 방법 및 장치에 관한 것이다. 본 발명에 따른 AI 모델 기반 안전정보 탐지 시스템은 LITUS(Literature-surfing Ultimate System)로 불릴 수도 있다.
또한, 본 발명에 따른 전자 문서에는 PDF(Portable Document Format), 웹페이지, 이메일, 스캔본, 이미지 파일, hwp(hangul word processor), txt, docx, doc 등의 문서를 포함할 수 있다. 특히, PDF 문서의 경우 다양한 형태의 포맷이 있을 수 있다. 예를 들어, PDF/A(archiving), PDF/X(exchange), PDF/E(engineering), PDF/VT(variable and transactional), PDF/UA(universal accessibility) 등이 있을 수 있다. 그리고, 본 발명에 따른 전자 문서는 논문, 보고서, 진단서, 서적, 신문기사, 저널 기사, 웹페이지, 이메일 등의 문서일 수 있다.
또한, 본 발명은 전자 문서에서 ICSR을 탐지하고 추출하기 위한 것이다. 약물의 안전성을 감시하기 위해서는 직접적인 조사 및 연구 외에도 문헌을 통해 의약품에서 발생한 이상반응을 검색하고 이를 보고서로 작성할 필요성이 있다. 그러나, 하나하나 전문가가 읽고 ICSR을 탐지하게 되면 지나치게 많은 시간이 소모되고, 비효율적으로 업무를 수행하게 된다. 이러한 문제점을 본 발명을 통해 개선할 수 있다. 예를 들면, 본 발명은 전문적인 용어로 작성되는 전자 문서로서, 전문적인 교육을 받지 않으면 이해하기가 어려운 문서를 보다 쉽게 처리할 수 있다. 또한, 실시간으로 발행되는 방대한 양의 문헌을 보다 효율적으로 처리할 수 있다.
본 발명은 다양한 형태의 전자 문서에 대해 적용될 수 있으며, 위의 예들에 한정되지 않는다.
도 1은 본 발명의 일 실시예에 따른 안전정보 탐지 방법을 제공하는 시스템 구조를 도시한다.
도 1을 참고하면, 시스템은 통신망에 연결된 사용자 장치(110a), 사용자 장치(110b), 서버(120)를 포함한다. 도 1은 2개의 사용자 장치들(110a, 110b)을 예시하였으나, 3개 이상의 사용자 장치들이 존재할 수 있다.
사용자 장치(110a) 및 사용자 장치(110b)는 본 발명의 실시예에 따른 플랫폼을 이용하여 전자 문서 내 안전정보 탐지를 하고자 하는 사용자에 의해 사용된다. 여기서, 플랫폼은 본 발명에 따른 안전정보 탐지 방법을 제공하는 시스템을 구성하는 운영체제를 말할 수 있다. 사용자 장치들(110a, 110b)은 입력 데이터(예: 이메일, 사용자의 입력, 전자 문서 등)를 획득하고, 입력 데이터를 통신 망을 통해 서버(120)로 송신할 수 있고, 서버(120)와 상호 작용할 수 있다. 사용자 장치들(110a, 110b) 각각은 통신을 위한 통신부, 데이터 및 프로그램을 저장하는 저장부, 정보를 표시하기 위한 표시부, 사용자의 입력을 위한 입력부, 제어를 위한 프로세서를 포함할 수 있다. 예를 들어, 사용자 장치들(110a, 110b) 각각은 플랫폼 접속을 위한 어플리케이션 또는 프로그램을 설치한 범용 장치(예: 스마트폰, 타블렛, 랩탑 컴퓨터, 데스크답 컴퓨터) 또는 플랫폼 전용 접속 단말일 수 있다.
서버(120)는 본 발명의 실시예들에 따른 플랫폼을 제공한다. 서버(120)는 전자 문서 내 안전정보 탐지 플랫폼을 위한 다양한 기능들을 제공하며, 인공지능 모델을 운용할 수 있다. 본 발명에 적용 가능한 인공 신경망의 일 예는 이하 도 4를 참고하여 설명된다. 또한, 서버(120)는 학습 데이터를 이용하여 인공지능 모델을 위한 학습을 수행할 수 있다. 본 발명의 다양한 실시예들에 따라, 서버(120)는 전자 문서 내 안전정보 탐지 절차에 포함되는 다양한 분석 업무들을 위한 복수의 인공지능 모델들을 저장하고, 필요에 따라 인공지능 모델들 중 적어도 하나를 선택적으로 사용한다. 여기서, 서버(120)는 로컬 네트워크에 존재하는 로컬 서버이거나, 외부 망을 통해 연결되는 원격 접속 서버(예: 클라우드 서버)일 수 있다. 서버(120)는 통신을 위한 통신부, 데이터 및 프로그램을 저장하는 저장부, 제어를 위한 프로세서를 포함할 수 있다.
도 2는 본 발명의 일 실시예에 따른 장치의 구조를 도시한다. 장치(200)는 프로그램의 실행에 필요한 데이터들을 위해 공용 기억 장소를 사용하는 기능적 단위이다. 장치(200)는 적어도 하나의 컴퓨터 및 이와 연관된 소프트웨어로 이루어질 수 있다. 장치(200)는 도 1의 서버(120)의 구조로 이해될 수 있다.
도 2를 참조하면, 장치(200)는 버스(207)를 통해 통신하는 프로세서(201), 통신 장치(202), 메모리(203), 저장 장치(204), 입력 인터페이스 장치(205) 및 출력 인터페이스 장치(206) 중 적어도 하나를 포함할 수 있다.
프로세서(201)는 장치(200) 내에서 각종 정보를 처리 및/또는 가공하는 기능을 가진 하드웨어이다. 프로세서(201)는 중앙 처리 장치(central processing unit, CPU), 메모리(203) 및/또는 저장 장치(204)에 저장된 명령을 실행하는 반도체 장치일 수 있다.
통신 장치(202)는 데이터 통신에서 다른 장치 또는 시스템과 데이터를 주고받기 위한 데이터 전송 장치이다. 통신 장치(202)는 데이터 입출력 장치 또는 통신 제어 장치가 포함될 수 있다. 예를 들어, 통신 장치(202)는 데이터 시스템과 다른 장치들 간의 음성, 영상, 문자 데이터 등의 통신이 가능하도록 한다.
메모리(203)는 정보를 저장할 수 있는 기억 장치이다. 정보는 장치(200)의 동작에 필요한 프로그램 또는 소프트웨어, 동작 중에 발생하는 데이터 등을 포함한다. 메모리(203)는 ROM(read only memory) 및 RAM(random access memory)을 포함할 수 있다. 여기서, RAM은 데이터를 불러올 수 있으며, 필요한 일을 처리한 후 변경된 내용을 다시 저장할 수 있다. ROM은 읽기 전용 기억 장치로써, ROM에 저장된 데이터는 영구적 또는 반영구적으로 보관될 수 있다.
저장 장치(204)는 장치(200) 내에서 처리되는 각종 정보를 저장할 수 있다. 저장 장치(204)는 다양한 형태의 휘발성 또는 비휘발성 저장 매체를 포함할 수 있다.
입력 인터페이스 장치(205)는 사용자로부터 명령을 검출할 수 있으며, 사용자가 시스템을 조작할 수 있게 한다. 또한, 출력 인터페이스 장치(206)는 시스템이 사용자가 이용한 것에 대한 결과를 표시할 수 있다. 입력 인터페이스 장치(205) 및 출력 인터페이스 장치(206)는 유저 인터페이스(user interface, UI)일 수 있다.
본 명세서에 기재된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서(201)에 의해 실행되는 하드웨어, 소프트웨어 모듈, 또는 그 2개의 결합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM(erasable programmable read only memory), EEPROM(electrically erasable programmable read only memory), 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM과 같은 저장 매체(즉, 메모리(203) 및/또는 저장 장치(204))에 상주할 수도 있다.
예시적인 저장 매체는 프로세서(201)에 커플링 되며, 그 프로세서(201)는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서(201)와 일체형일 수도 있다. 프로세서(201) 및 저장 매체는 주문형 집적회로(application specific integrated circuit, ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.
도 3은 본 발명의 일 실시예에 따른 AI(Artificial Intelligence) 모델 기반 전자 문서 내 안전정보 탐지 장치의 기능적 구조를 도시한다. 도 3의 AI 모델 기반 전자 문서 내 안전정보 탐지 장치(300)는 도 1의 서버(120)로 이해될 수 있다.
도 3을 참고하면, 본 발명에 따른 AI 모델 기반 전자 문서 내 안전정보 탐지 장치(300)는 문서 전처리부(311), 참고문헌 판별부(312), 의약용어 색인부(313), 탐지/분류부(314), 미세조정부(315a, 315b), 독해/판별부(316), 원문 강조 처리부(317), 예측성 평가부(318), 개별이상사례 판별부(319) 및 결과 출력부(320)를 포함할 수 있다.
문서 전처리부(311)는 입력된 전자 문서(331)를 전처리할 수 있다. 구체적으로, 입력된 전자 문서(331)가 텍스트 처리가 불가능한 파일인 경우 해당 문서를 텍스트 데이터로 변환할 수 있다. 또한, 입력된 전자 문서(331)에 존재하는 텍스트에 대하여 탐지/분류 및 독해/판별을 위해 텍스트를 문장 단위로 분할할 수 있다. 여기서, 문장은 문법적으로 완성된 형태를 가지는 것을 요구하지 아니하고, 구(phrase) 또는 절(clause)의 형태 등을 가질 수 있다. 또한, 문서 전처리부(311)는 전자 문서 내에 존재하는 텍스트 중 약어가 존재하는 경우, 이를 본말(full term)로 변환할 수 있다.
참고문헌 판별부(312)는 문서 전처리부(311)에서 입력 받은 문서에 존재하는 참고문헌(references) 목록에 기존에 검토 완료한 참고문헌이 존재하는지 검사할 수 있다. 이를 위해, 문서 전처리부(311)에서 입력 받은 문서에 참고문헌 목록이 존재하는지 여부를 탐지할 수 있다. 만약, 참고문헌 목록이 탐지되면, 참고문헌 판별부(312)는 탐지된 참고문헌 목록 내에 기존 검토 완료한 타 참고문헌이 존재하는 지 여부를 검사할 수 있다. 즉, 참고문헌 판별부(312)는 현재 처리 중인 문서에서 이전에 검토 완료한 문헌이 참조되었는지 여부를 확인할 수 있다. 특히, 참고문헌 판별부(312)는 문서 전처리부(311)에서 본말로 변환되지 않은 텍스트에 대하여 이전에 검토 완료한 문헌이 참조되었는지 여부를 확인할 수 있으며, 본 발명은 이에 한정되지 않는다. 이에 따라, 장치는 기존에 검토 완료한 문헌이 참조되었는지를 확인함으로써 의약품의 이상사례 검토를 더 효과적으로 수행할 수 있다. 특히, 장치가 기존에 검토 완료한 문헌이 참조되었는지를 확인함으로써 여러 개의 오리지널 문헌을 포함한 리뷰 논문(review paper) 등을 확인할 수 있어 중복 사례를 필터링할 수 있다. 여기서, 리뷰 논문은 기존 문헌을 요약한 문헌을 의미할 수 있다. 본 발명의 다른 실시예에 따르면, 참고문헌 판별부(312)는 문서 전처리를 거치지 않은 원문을 이용하여 참고문헌 존재 여부를 검사할 수 있다.
의약용어 색인부(313)는 문서 전처리부(311)에서 전처리된 문서를 입력 받을 수 있다. 이에 따라, 의약용어 색인부(313)는 입력 받은 문서에 포함된 의약학 정보를 색인할 수 있다. 이때, 의약용어 색인부(313)는 의약학 정보를 색인하기 위하여 용어 목록과 비교할 수 있다. 여기서, 용어 목록은 용어명과 코드로 이루어진 목록 또는 리스트를 의미할 수 있다. 또한, 의약학 정보의 색인은 해당 의약학 정보의 데이터 이름, 데이터 크기, 데이터의 속성 또는 데이터 기록 장소 중 적어도 하나를 저장하는 과정일 수 있다.
탐지/분류부(314)는 미세조정부(315a)에 의해 생성된 분류 모델(classification model)을 이용하여 문서 전처리부(311)에서 전처리한 문서 내에 존재하는 문장을 탐지하고 분류할 수 있다. 구체적으로, 분류 모델은 주어진 데이터를 카테고리별로 구별해 낼 수 있다. 이에 따라, 분류 모델은 다양한 분류 알고리즘을 통해 문장을 분류 라벨 별로 분류할 수 있다.
미세조정부(315a, 315b)는 탐지/분류부(314)를 위한 미세조정부(315a) 및 독해/판별부(316)를 위한 미세조정부(315b)를 포함할 수 있다. 미세조정부(315a, 315b)는 사전 학습된 BERT(Bidirectional Encoder Representations from Transformers) 모델을 의약 및 이상사례 등의 데이터셋을 이용하여 미세 조정(fine-tuning)할 수 있다. 구체적으로, 미세 조정은 목적별로 더욱 구체적인 태스크(task)를 이해하기 위해 파라미터를 재조정하는 추가 훈련과정일 수 있다.
독해/판별부(316)는 미세조정부(315b)에 의해 생성된 기계 독해 모델(machine reading comprehension)을 이용하여 원하는 정보를 찾고 판별할 수 있다. 구체적으로, 독해/판별부(316)는 의약용어 색인부(313)에서 추출한 데이터에 기반한 질의데이터를 이용하여 정답 텍스트를 추론할 수 있다. 또한, 독해/판별부(316)는 탐지/분류부(314)에서 탐지 및 분류한 문장 또는 그 문장의 근처에 존재하는 문장들 중에서 원하는 정보를 찾고 판별할 수 있다. 여기서, 근처에 존재하는 문장은 기준 문장의 앞 문장, 뒷문장 또는 같은 문단에 존재하는 문장 중 적어도 하나일 수 있으며, 본 발명은 이에 한정되지 않는다. 예를 들면, '어떤 약을 끊었는가'에 대한 질의데이터가 생성된 경우, 독해/판별부(316)는 문맥의 구조를 통해 이에 대한 정답 텍스트를 추론할 수 있다. 독해/판별부(316)는 추론한 정답 텍스트를 점수(score) 값으로 나타낸 후 해당 점수 값과 기준치를 비교함으로써 정답 처리 여부를 결정할 수 있다.
원문 강조 처리부(317)는 의약용어 색인부(313)에서 색인된 의약학 정보 또는 탐지/분류부(314)에서 탐지된 문장을 전자 문서 내에서 찾을 수 있다. 이후, 원문 강조 처리부(317)는 해당 문장 내의 텍스트들 또는 문장들을 강조 처리(하이라이팅)할 수 있다. 이에 따라, 전자 문서 내 텍스트 또는 문장에 대하여 강조 처리를 한 후, 원문 강조 처리부(317)는 해당 전자 문서(333)를 출력할 수 있다. 이때, 출력되는 전자 문서의 형식은 입력된 전자 문서(331)의 형식과 동일할 수 있다. 다만, 본 발명은 이에 한정되지 않으며, 원문 강조 처리부(317)는 다양한 형식의 문서를 출력할 수도 있다. 예를 들어, 원문 강조 처리부(317)는 출력 파일의 형식을 PDF, docx, hwp, 이미지 파일 등 다양한 형식의 전자 문서(333)로 출력할 수 있다.
예측성 평가부(318)는 독해/판별부(316)로부터 입력된 정보를 통해 예측성을 평가할 수 있다. 여기서, 독해/판별부(316)로부터 입력된 정보는 의약품 정보 또는 이상반응 정보를 포함할 수 있다. 본 발명에 따르면, 예측성 평가부(318)에 입력된 특정 의약품에 대한 이상반응 정보가 의약품 허가정보 사이트에서 검색한 이상반응에 존재하는지 여부를 확인할 수 있다. 여기서, 의약품 허가정보 사이트에서 검색한 이상반응은 각국의 규제기관 사이트에 게시된 의약품의 허가 라벨일 수 있다. 예를 들어, 의약품의 허가 라벨은 사용상주의사항, SmPC(Summary of Product Characteristics), TPP(Target Product Profile) 등일 수 있다. 만약, 의약품 허가정보 사이트에 존재한다면, 해당 이상반응 정보는 예측 가능한 부작용으로 판단될 수 있다. 반면, 특정 의약품에 대한 이상반응 정보가 의약품 허가정보 사이트에서 검색한 이상반응에 존재하지 않는 경우, 해당 이상반응 정보는 예측 불가능한 부작용으로 판단될 수 있다.
개별이상사례 판별부(319)는 예측성 평가부(318) 또는 참고문헌 판별부(312)에서 처리 및 추출된 정보를 개별이상사례 보고서(ICSR, Individual Case Safety Report) 판별 시스템에 입력하고, 피드백되는 출력에 기반하여 해당 문헌이 ICSR에 해당하는지 판별할 수 있다. 여기서, ICSR은 특정 시점에 단일 환자에서 발생하는 의약품에 대한 의심되는 부작용을 보고하기 위한 문서이다. 이에 따라, 예측성 평가부(318) 또는 참고문헌 판별부(312)에서 처리 및 추출된 정보가 개별이상사례 보고서 판별 시스템에 입력되면, ICSR 판별 시스템은 해당 문헌 정보가 ICSR인지 여부를 판별하고, 그 결과를 출력할 수 있다. 본 발명의 다른 실시예에 따르면, 개별이상사례 판별부(319)는 독해/판별부(316)에서 처리 및 추출된 정보 또한 개별이상사례 보고서 판별 시스템에 입력하고, 피드백되는 출력에 기반하여 해당 문헌이 ICSR에 해당하는지 판별할 수 있으며, 본 발명의 실시예는 이에 한정되지 않는다.
결과 출력부(320)는 의약용어 색인부(313), 참고문헌 판별부(312), 탐지/분류부(314), 독해/판별부(316), 예측성 평가부(318) 및 개별이상사례 판별부(319)를 통해 생성된 데이터를 이용하여 보고서를 생성할 수 있다. 이에 따라, 결과 출력부(320)는 생성한 보고서를 전자 문서(332) 형태로 출력할 수 있다. 여기서, 생성된 보고서는 개별이상사례 판별부(319)에서 판별한 결과 및 판별 근거를 포함할 수 있다. 결과 출력부(320)에서 출력되는 전자 문서(332)의 형식은 입력된 전자 문서(331)의 형식과 동일할 수 있다. 다만, 본 발명은 이에 한정되지 않으며, 결과 출력부(320)는 다양한 형식의 전자 문서를 출력할 수 있다. 예를 들어, 출력된 전자 문서(332)는 PDF, docx, hwp, 이미지 파일 등 다양한 포맷의 전자 문서일 수 있다.
도 4는 본 발명의 일 실시예에 따른 시스템에 적용 가능한 인공 신경망의 구조를 도시한다.
도 4와 같은 인공 신경망은 서버(120) 또는 서버(120)와 연동 가능한 제3의 장치에 저장된 인공지능(AI) 모델들의 구조로 이해될 수 있다. 또한, 도 4와 같은 인공 신경망은 본 발명에서 사용되는 BERT 모델들의 구조로 이해될 수도 있으며, BERT 모델 내의 FFNN(Feed Forward Neural Network)의 구조로 이해될 수도 있다.
도 4를 참고하면, 인공 신경망은 입력 계층(input layer)(401), 적어도 하나의 은닉 계층(hidden layer)(402), 출력 계층(output layer)(403)으로 이루어진다. 계층들(401, 402, 403) 각각은 복수의 노드(node)들로 구성되어 있으며, 노드들 각각은 이전 계층에 속한 적어도 하나의 노드의 출력과 연결되어 있다. 각 노드는 이전 계층의 노드들의 각 출력 값과 그에 상응하는 연결 가중치(weight)를 내적(inner product)한 값을 계산한 후, 비선형(non-linear)인 활성화 함수(activation function)와 곱한 출력 값을 다음 계층의 적어도 하나의 뉴런에게 전달한다.
도 4와 같은 인공 신경망은 학습(예: 기계 학습(machine learning), 딥 러닝(deep learning) 등)에 의해 형성될 수 있다. 또한, 본 발명의 다양한 실시예에서 사용되는 인공 신경망 모델은 완전 합성곱 신경망(fully convolutional neural network), 합성곱 신경망(convolutional neural network), 순환 신경망(recurrent neural network), 제한 볼츠만 머신(restricted Boltzmann machine, RBM) 및 심층 신뢰 신경망(deep belief neural network, DBN) 중 적어도 하나를 포함할 수 있으나, 이에 한정되지 않는다. 또는, 딥러닝 이외의 머신 러닝 방법도 포함할 수 있다. 또는 딥 러닝과 머신 러닝을 결합한 하이브리드 형태의 모델도 포함할 수 있다. 예컨대, 딥 러닝 기반의 모델을 적용함으로써, 영상의 특징을 추출하고, 추출된 특징에 기초하여 영상을 분류하거나 인식할 때는 머신 러닝 기반의 모델을 적용할 수도 있다. 머신 러닝 기반의 모델은 서포트 벡터 머신(Support Vector Machine, SVM), 에이다부스트(AdaBoost) 등을 포함할 수 있으나, 이에 한정되지 않는다.
도 5는 본 발명의 일 실시예에 따른 탐지/분류부를 위한 BERT 모델을 도시한다. 본 발명에 따르면, 탐지/분류부를 위한 BERT 모델은 분류 모델일 수 있다.
도 5를 참고하면, 원본 데이터(Raw text)(501)가 토크나이저(Tokenizer)(502)에 입력될 수 있다. 여기서, 토크나이저(502)는 전자 문서 내 존재하는 텍스트를 토큰화(Tokenization)할 수 있다. 구체적으로, 토큰화는 문장을 최소 의미 단위로 나누고, 컴퓨터가 인식 가능하도록 숫자로 변환하는 것을 의미한다. 즉, 토크나이저(502)는 문장을 여러 개의 단어로 분리할 수 있다. 이후, 토크나이저(502)는 분리된 단어를 숫자로 변환할 수 있다. 이때, 숫자로 변환된 단어들은 토큰이라 불릴 수 있다. 이에 따라, 숫자로 변환된 단어들은 BERT 모델(500)에 입력될 수 있다. 또한, 본 발명의 일 실시예에 따르면, BERT 모델(500)의 입력은 임베딩 벡터(embedding vector)일 수 있다. 임베딩 벡터는 토큰을 효과적으로 표현할 수 있도록 벡터화 한 것을 의미한다. 본 발명의 다른 실시예에 따르면, 토크나이저(502)에 의해 분리된 단어들은 필요에 따라 또 다시 여러 개의 단어들 또는 낱개의 문자들로 분리될 수도 있다.
BERT 모델(500)은 12개의 BERT 계층들(503-1 내지 503-12)로 이루어질 수 있다. 본 발명의 다른 실시예에 따르면, BERT 모델(500)은 24개의 BERT 계층들로 이루어질 수도 있다. 여기서, BERT 계층들은 트랜스포머 인코더(Transformer Encoder), 트랜스포머(Transformer) 또는 인코더(Encoder)로 불릴 수도 있다. 각각의 BERT 계층들(503-1 내지 503-12)은 다중-헤드 셀프 어텐션(multi-head self attention)(504), 잔차 연결 및 레이어 정규화(add&norm)(505a), FFNN(Feed Forward Neural Network)(506) 및 잔차 연결 및 레이어 정규화(add&norm)(505b)를 수행할 수 있다.
다중-헤드 셀프 어텐션(504)은 셀프 어텐션(self attention)을 병렬적으로 사용한 것을 의미한다. 셀프 어텐션은 BERT 모델(500)에 입력된 각 단어들이 서로에 대해 연관성을 얼마나 가지고 있는 지를 구할 수 있다. 보다 구체적으로, 셀프 어텐션은 각 단어들의 벡터값을 추출할 수 있고, 이 벡터 값들의 행렬 계산을 통해 연관성을 파악할 수 있다. 이에 따라, 본 발명은 문맥에 대해서 더욱 효과적으로 학습할 수 있다. 또한, 셀프 어텐션을 다중으로 함으로써, 정확도를 높일 수 있으며, 오류 발생 가능성이 낮아질 수 있다.
FFNN(506)은 BERT 모델(500)을 학습시키는 역할을 수행할 수 있다. 이러한 FFNN(506)은 입력 계층, 적어도 하나의 은닉 계층, 출력 계층으로 이루어질 수 있다. 또한, FFNN(506)은 입력 계층에서 출력 계층 방향으로 연산이 전개되는 신경망일 수 있다. FFNN(506)은 학습 시 가중치의 반복적인 업데이트를 통해 출력값의 에러를 최소화할 수 있다. 본 발명의 일 실시예에 따르면, FFNN(506)은 다중-헤드 셀프 어텐션(504)에서 출력한 벡터를 입력 받을 수 있다. 또한, FFNN(506)은 모든 단어의 벡터 시퀀스가 다음 트랜스포머 인코더에서 처리되기 쉽도록 할 수 있다.
잔차 연결 및 레이어 정규화(503a, 503b)는 멀티 헤드 셀프 어텐션(502) 및 FFNN(504) 사이에서 입력과 출력을 잇는 역할을 수행할 수 있다. 구체적으로, 잔차 연결(Residual connection)은 서브층의 입력과 출력을 더하는 것을 의미한다. 예를 들면, 잔차 연결은 다중-헤드 셀프 어텐션(504)의 입력과 출력을 더하는 것을 의미할 수 있다. 또한, 잔차 연결은 FFNN(506)의 입력과 출력을 더하는 것을 의미할 수 있다. 레이어 정규화(layer normalization)는 잔차 연결을 거친 결과에 대하여 평균 및 분산을 구하고, 이를 이용하여 정규화 하는 것을 의미한다. 잔차 연결 및 레이어 정규화(505a, 505b)는 계층과 계층 간의 변화가 커지는 것을 방지해 줄 수 있다. 또한, 잔차 연결 및 레이어 정규화(505a, 505b)는 BERT 모델(500)이 빠르게 학습하는 것을 도와줄 수 있다.
탐지/분류부(314)를 위한 BERT 모델(500)은 미세조정부(315a)에 의해 미세 조정될 수 있다. 즉, 탐지/분류부(314)를 위한 BERT 모델(500)은 미세조정부(315a)에 의해 생성된 분류 모델일 수 있다. 미세조정부(315a)는 사전 학습된 BERT 모델(500)에 대하여, 전이학습을 수행하여 기존 가중치를 다시 수정할 수 있다. 미세조정부(315a)는 PUBMED 또는 KOREAMED 등과 같은 문헌 사이트에서 수집한 문헌을 활용함으로써 학습 데이터 또는 데이터셋을 구축할 수 있다. 또한, 미세 조정부(315a)를 학습하기 위한 분류 모델 학습 데이터는 문장 및 문장의 분류 라벨(label)을 포함할 수 있다. 여기서, 분류 라벨은 Subject Identifier (ID)가 포함된 문장(제1분류), Reporter Identifier (ID)가 포함된 문장(제2분류), Current Drug이 포함된 문장(제3분류), Past Drug이 포함된 문장(제4분류), Suspect Drug이 포함된 문장(제5분류), Concomitant Drug이 포함된 문장(제6분류), Indication이 포함된 문장(제7분류), Adverse reaction이 포함된 문장(제8분류), Medical history가 포함된 문장(제9분류), Action with Drug이 포함된 문장(제10분류), Outcome이 포함된 문장(제11분류), De-challenge가 포함된 문장(제12분류), Rechallenge가 포함된 문장(제13분류), Causality가 포함된 문장(제14분류), lab test가 포함된 문장(제15분류) 및 아무런 정보가 포함되지 않은 문장(제16분류) 데이터의 분류를 포함할 수 있다. 이에 따라, 분류 모델 학습 데이터 및/또는 데이터셋은 BERT 모델의 미세조정을 위해 사용될 수 있다. 본 발명의 일 실시예에 따르면, 제1분류 내지 제16분류를 이용하여 미세조정을 수행하였을 때, 탐지/분류부(314)는 결과물로 제1분류 내지 제16분류로 분류된 문장을 출력할 수 있다.
도 6은 본 발명의 일 실시예에 따른 독해/판별부를 위한 BERT 모델을 도시한다. 본 발명에 따르면, 독해/판별부를 위한 BERT 모델은 기계 독해 모델일 수 있다.
도 6를 참고하면, 원본 데이터(601, Raw text)가 토크나이저(Tokenizer)(602)에 입력될 수 있다. 여기서, 토크나이저(602)는 전자 문서 내 존재하는 텍스트를 토큰화(Tokenization)할 수 있다. 구체적으로, 토큰화는 문장을 최소 의미 단위로 나누고, 컴퓨터가 인식 가능하도록 숫자로 변환하는 것을 의미한다. 즉, 토크나이저(602)는 문장을 여러 개의 단어로 분리할 수 있다. 이후, 토크나이저(602)는 분리된 단어를 숫자로 변환할 수 있다. 이때, 숫자로 변환된 단어들은 토큰이라 불릴 수 있다. 이에 따라, 숫자로 변환된 단어들은 BERT 모델(600)에 입력될 수 있다. 또한, 본 발명의 일 실시예에 따르면, BERT 모델(600)의 입력은 임베딩 벡터일 수 있다. 임베딩 벡터는 토큰을 효과적으로 표현할 수 있도록 벡터화한 것을 의미한다. 본 발명의 다른 실시예에 따르면, 토크나이저(602)에 의해 분리된 단어들은 필요에 따라 또 다시 여러 개의 단어들 또는 낱개의 문자들로 분리될 수도 있다.
BERT 모델(600)은 12개의 BERT 계층들(603-1 내지 603-12)로 이루어질 수 있다. 본 발명의 다른 실시예에 따르면, BERT 모델(600)은 24개의 BERT 계층들로 이루어질 수도 있다. 여기서, BERT 계층들은 트랜스포머 인코더, 트랜스포머 또는 인코더로 불릴 수도 있다. 각각의 BERT 계층들(603-1 내지 603-12)은 다중-헤드 셀프 어텐션(multi-head self attention)(604), 잔차 연결 및 레이어 정규화(add&norm)(605a, 605b) 및 FFNN(Feed Forward Neural Network)(606)를 수행할 수 있다.
다중-헤드 셀프 어텐션(604)은 셀프 어텐션(self attention)을 병렬적으로 사용한 것을 의미한다. 셀프 어텐션은 BERT 모델(600)에 입력된 각 단어들이 서로에 대해 연관성을 얼마나 가지고 있는 지를 구할 수 있다. 보다 구체적으로, 셀프 어텐션은 각 단어들의 벡터 값을 추출할 수 있고, 이 벡터 값들의 행렬 계산을 통해 연관성을 파악할 수 있다. 이에 따라, 본 발명은 문맥에 대해서 더욱 효과적으로 학습할 수 있다. 또한, 셀프 어텐션을 다중으로 함으로써, 정확도를 높일 수 있으며, 오류 발생 가능성이 낮아질 수 있다.
FFNN(606)은 BERT 모델(600)을 학습시키는 역할을 수행할 수 있다. 이러한 FFNN(606)은 입력 계층, 적어도 하나의 은닉 계층, 출력 계층으로 이루어질 수 있다. 또한, FFNN(606)은 입력 계층에서 출력 계층 방향으로 연산이 전개되는 신경망일 수 있다. FFNN(606)은 학습 시 가중치의 반복적인 업데이트를 통해 출력 값의 에러를 최소화할 수 있다. 본 발명의 일 실시예에 따르면, FFNN(606)은 다중-헤드 셀프 어텐션(604)에서 출력한 벡터를 입력 받을 수 있다. 또한, FFNN(606)은 모든 단어의 벡터 시퀀스가 다음 트랜스포머 인코더에서 처리되기 쉽도록 할 수 있다.
잔차 연결 및 레이어 정규화(603a, 603b)는 멀티 헤드 셀프 어텐션(602) 및 FFNN(604) 사이에서 입력과 출력을 잇는 역할을 수행할 수 있다. 구체적으로, 잔차 연결(Residual connection)은 서브층의 입력과 출력을 더하는 것을 의미한다. 예를 들면, 잔차 연결은 다중-헤드 셀프 어텐션(604)의 입력과 출력을 더하는 것을 의미할 수 있다. 또한, 잔차 연결은 FFNN(606)의 입력과 출력을 더하는 것을 의미할 수 있다. 레이어 정규화(layer normalization)는 잔차 연결을 거친 결과에 대하여 평균 및 분산을 구하고, 이를 이용하여 정규화 하는 것을 의미한다. 잔차 연결 및 레이어 정규화(605a, 605b)는 계층과 계층 간의 변화가 커지는 것을 방지해 줄 수 있다. 또한, 잔차 연결 및 레이어 정규화(605a, 605b)는 BERT 모델(600)이 빠르게 학습하는 것을 도와줄 수 있다.
독해/판별부(316)를 위한 BERT 모델(600)은 미세조정부(315b)에 의해 미세 조정될 수 있다. 즉, 독해/판별부(316)를 위한 BERT 모델(600)은 미세조정부(315b)에 의해 생성된 기계 독해 모델일 수 있다. 미세조정부(315b)는 사전 학습된 BERT 모델(600)에 대하여, 전이학습을 수행하여 기존 가중치를 다시 수정할 수 있다. 미세조정부(315b)는 PUBMED 또는 KOREAMED 등과 같은 문헌 사이트에서 수집한 문헌을 이용하여 학습 데이터 또는 데이터셋을 구축할 수 있다. 또한, 미세조정부(315b)를 학습하기 위한 독해 모델 학습 데이터는 문단(paragraph)과 질의(question), 정답(answer)을 포함할 수 있다. 여기서, 정답(answer)은 문단(paragraph) 내에 존재하는 질의(question)에 맞는 정보를 포함할 수 있다. 이에 따라, 독해 모델 학습 데이터 및/또는 데이터셋은 BERT 모델(600)의 미세조정을 위해 사용될 수 있다.
도 7은 본 발명의 일 실시예에 따른 전자 문서 내 AI 안전 정보 탐지 순서도를 도시한다. 도 7은 장치(예: 서버(120), 장치(200), 전자 문서 내 안전정보 탐지 장치(300))의 동작 방법을 예시한다.
도 7을 참고하면, S701 단계에서, 장치는 전자 문서를 획득할 수 있다. 여기서, 전자 문서는 PDF, 웹페이지, 이메일, 스캔본, 이미지 파일, hwp, txt, docx, doc 등의 문서를 포함할 수 있다. 특히, PDF 문서의 경우 다양한 형태의 포맷이 있을 수 있다. 그리고, 본 발명에 따른 전자 문서는 논문, 보고서, 진단서 등을 포함할 수 있다. 본 발명은 다양한 형태의 전자 문서에 대해 적용될 수 있으며, 위의 예들에 한정되지 않는다. 본 발명의 일 실시예에 따르면, 장치는 유무선 통신 방식을 통해 전자 문서를 획득할 수 있다. 예를 들어, 장치는 플랫폼 내 파일 업로드, 이메일(e-mail), 외장 하드, USB(universal serial bus), 외장/내장 SSD(solid state drive) 등을 통해 전자 문서를 획득할 수 있다.
S702 단계에서, 장치는 획득한 전자 문서에 대하여 전처리를 수행할 수 있다. 구체적으로, 장치는 전자 문서 내에 존재하는 글을 텍스트 데이터로 변환할 수 있다. 예를 들어, 획득한 전자 문서가 OCR(Optical Character Reader)처리되지 않은 문서인 경우, 장치는 해당 문서를 OCR 처리할 수 있다. 이후, 변환된 텍스트 데이터는 문장 단위로 분할될 수 있다. 여기서, 문장은 문법적으로 완성된 형태를 가지는 것을 요구하지 아니하고, 구(phrase) 또는 절(clause)의 형태 등을 가질 수 있다. 또한, 장치는 변환된 텍스트 데이터 내에 약어가 존재하는 경우, 해당 약어와 본말을 추출하여 데이터 쌍 목록을 생성할 수 있다. 또한, 약어-본말 데이터 쌍을 이용하여 텍스트 데이터 내에 존재하는 약어를 해당 본말로 변환할 수 있다.
S703 단계에서, 장치는 참고문헌을 판별할 수 있다. 여기서, 참고문헌의 판별은 텍스트 데이터 내에 기재되어 있는 참고문헌 목록이 기존에 검토한 타 문헌에 해당하는지 판별해 내는 과정을 의미할 수 있다. 구체적으로, 장치는 S702 단계에서 변환된 텍스트 데이터 내에 참고문헌 목록이 존재하는지 탐지할 수 있다. 이에 따라, 참고문헌 목록이 존재하는 경우, 장치는 해당 참고문헌 목록에 기존 검토 완료한 타 문헌이 존재하는지 여부를 검사할 수 있다. 또한, 장치는 해당 결과를 결과 출력부로 출력할 수 있다.
S704 단계에서, 장치는 용어 처리를 수행할 수 있다. 여기서, 용어 처리는 의약용어를 색인하는 과정 및/또는 전자 문서 내에 존재하는 문장을 탐지하고 분류하는 과정을 포함할 수 있다. 구체적으로, S702 단계에서 약어 변환 처리된 텍스트에 의약학 정보가 존재하는 경우, 장치는 해당 의약학 정보를 색인할 수 있다. 여기서, 의약학 정보를 색인하는 과정은 해당 의약학 정보의 데이터 이름, 데이터 크기, 데이터의 속성 또는 데이터 기록 장소 중 적어도 하나를 따로 저장하는 과정일 수 있다. 반면, 약어 변환 처리되지 않은 텍스트는 분류 모델에 의해 분류 라벨 별로 분류될 수 있다. 여기서 분류 라벨은 제1분류 내지 제16분류일 수 있으며, 본 발명은 이에 한정되지 않는다.
S705 단계에서, 장치는 ICSR 판별을 수행할 수 있다. 구체적으로, ICSR 판별은 전자 문서 내에 존재하는 문장을 독해 및 판별하는 과정, 예측성 평가 과정 및 개별이상사례 판별 과정을 포함할 수 있다. 전자 문서 내에 존재하는 문장을 독해 및 판별하는 과정은 기계 독해 모델을 이용하여 질의 데이터에 대한 정답 텍스트를 추론하는 과정일 수 있다. 정답 텍스트의 점수 값이 기준치 이상인 경우, 해당 정답 텍스트는 정답 처리될 수 있으며, 정답 텍스트의 점수 값이 기준치 미만인 경우, 해당 정답 텍스트는 정답 처리될 수 없다. 예측성 평가 과정은 전자 문서 내에 의약품 정보와 이상반응 정보가 있는 경우 해당 의약품의 허가정보에서 이상 반응을 검색하고 해당 결과를 출력할 수 있다. 개별이상사례 판별 과정은 예측성 평가 과정에서 출력된 정보를 이용하여 해당 정보가 ICSR에 해당하는지 판별할 수 있다. ICSR에 해당하는지 판별하기 위하여, 장치는 ICSR 판별 시스템에 예측성 평가 과정에서 출력된 정보를 입력할 수 있다. 여기서, ICSR 판별 시스템은 의약학 전문가 집단의 피드백 결과를 이용하여 가중치 항목을 설정하고, 이를 활용한 통계적인 기법을 통해 새로운 학습데이터를 생성함으로써 재 학습시킨 인공지능모델을 기반으로 할 수 있다.
S706 단계에서, 장치는 최종 보고서를 출력할 수 있다. 구체적으로, 장치는 의약용어 색인부(313), 참고문헌 판별부(312), 탐지/분류부(314), 독해/판별부(316), 예측성 평가부(318) 및 개별이상사례 판별부(319)를 통해 생성된 데이터를 이용하여 보고서를 생성할 수 있다. 여기서, 보고서의 양식은 hwp, pdf, txt, docx, doc 등일 수 있으며, 본 발명은 이에 한정되지 않는다. 또한, 생성된 보고서는 다운로드할 수 있으며, API(Application Programing Interface), 이메일 등의 수단을 통해 전송될 수도 있다.
도 8은 본 발명의 일 실시예에 따른 전자 문서 내 참고문헌 판별 순서도를 도시한다. 도 8은 장치(예: 서버(120), 장치(200), 전자 문서 내 안전정보 탐지 장치(300))의 동작 방법을 예시한다.
도 8을 참고하면, S801 단계에서, 장치는 전자 문서를 획득할 수 있다. 여기서, 전자 문서는 PDF, 웹페이지, 이메일, 스캔본, 이미지 파일, hwp, txt, docx, doc 등의 문서를 포함할 수 있다. 특히, PDF 문서의 경우 다양한 형태의 포맷이 있을 수 있다. 그리고, 본 발명에 따른 전자 문서는 논문, 보고서, 진단서 등을 포함할 수 있다. 본 발명은 다양한 형태의 전자 문서에 대해 적용될 수 있으며, 위의 예들에 한정되지 않는다. 본 발명의 일 실시예에 따르면, 장치는 유무선 통신 방식을 통해 전자 문서를 획득할 수 있다. 예를 들어, 장치는 플랫폼 내 파일 업로드, 이메일, 외장 하드, USB, 외장/내장 SSD 등을 통해 전자 문서를 획득할 수 있다.
S802 단계에서, 장치는 획득한 전자 문서에 대하여 전처리를 수행할 수 있다. 구체적으로, 장치는 전자 문서 내에 존재하는 글을 텍스트 데이터로 변환할 수 있다. 예를 들어, 획득한 전자 문서가 OCR 처리되지 않은 문서인 경우, 장치는 해당 문서를 OCR 처리할 수 있다. 이후, 변환된 텍스트 데이터는 문장 단위로 분할될 수 있다. 여기서, 문장은 문법적으로 완성된 형태를 가지는 것을 요구하지 아니하고, 구(phrase) 또는 절(clause)의 형태 등을 가질 수 있다. 또한, 장치는 변환된 텍스트 데이터 내에 약어가 존재하는 경우, 해당 약어를 본말로 변환할 수 있다.
S803 단계에서, 장치는 참고문헌을 판별할 수 있다. 여기서, 참고문헌의 판별은 텍스트 데이터 내에 참고문헌이 기재되어 있는지를 구별해 내는 과정을 의미할 수 있다. 구체적으로, 장치는 문서 전처리 단계에서 변환된 텍스트 데이터에서 참고문헌 목록이 있는지 탐지할 수 있다. 장치가 탐지한 결과, 참고문헌 목록이 존재하는 경우, 해당 참고문헌 목록을 분리할 수 있다. 이에 따라, 장치는 해당 참고문헌 목록에 기존 검토 완료한 타 문헌이 존재하는지 여부를 검사할 수 있다. 특히, 장치는 S802 단계에서 본말로 변환되지 않은 텍스트 데이터에서 기존 검토 완료한 타 문헌이 존재하는지 탐지할 수 있다. 또한, 장치는 해당 결과를 결과 출력부로 출력할 수 있다. 여기서, 기존 검토 완료한 타 문헌 정보는 해당 시스템이 연결된 데이터 베이스 또는 기타 시스템에서 가져오거나 목록형 데이터를 활용할 수 있다. 장치는 동일한 문헌을 판별하기 위하여 문헌 제목, DOI(Digital Object Identifier) 등과 같은 정보를 사용할 수 있다. 본 발명의 다른 실시예에 따르면, S802 단계에서, 장치는 본말로 변환된 텍스트 데이터에서 기존 검토 완료한 타 문헌이 존재하는지 탐지할 수 있으며, 본 발명은 이에 한정되지 않는다.
S804 단계에서, 장치는 최종 보고서를 출력할 수 있다. 구체적으로, 장치는 참고문헌 판별 과정을 통해 생성된 데이터를 이용하여 보고서를 생성할 수 있다. 여기서, 보고서의 양식은 hwp, pdf, txt, docx, doc 등일 수 있으며, 본 발명은 이에 한정되지 않는다. 또한, 생성된 보고서는 다운로드할 수 있으며, API, 이메일 등의 방법으로 전송될 수도 있다.
도 9는 본 발명의 일 실시예에 따른 전자 문서 내 텍스트 강조 처리 순서도를 도시한다. 도 9는 장치(예: 서버(120), 장치(200), 전자 문서 내 안전정보 탐지 장치(300))의 동작 방법을 예시한다.
도 9를 참고하면, S901 단계에서, 장치는 전자 문서를 획득할 수 있다. 여기서, 전자 문서는 PDF, 웹페이지, 이메일, 스캔본, 이미지 파일, hwp, txt, docx, doc 등의 문서를 포함할 수 있다. 특히, PDF 문서의 경우 다양한 형태의 포맷이 있을 수 있다. 그리고, 본 발명에 따른 전자 문서는 논문, 보고서, 진단서 등을 포함할 수 있다. 본 발명은 다양한 형태의 전자 문서에 대해 적용될 수 있으며, 위의 예들에 한정되지 않는다. 본 발명의 일 실시예에 따르면, 장치는 유무선 통신 방식을 통해 전자 문서를 획득할 수 있다. 예를 들어, 장치는 플랫폼 내 파일 업로드, 이메일, 외장 하드, USB, 외장/내장 SSD 등을 통해 전자 문서를 획득할 수 있다.
S902 단계에서, 장치는 획득한 전자 문서에 대하여 전처리를 수행할 수 있다. 구체적으로, 장치는 전자 문서 내에 존재하는 글을 텍스트 데이터로 변환할 수 있다. 예를 들어, 획득한 전자 문서가 OCR 처리되지 않은 문서인 경우, 장치는 해당 문서를 OCR 처리할 수 있다. 이후, 변환된 텍스트 데이터는 문장 단위로 분할될 수 있다. 여기서, 문장은 문법적으로 완성된 형태를 가지는 것을 요구하지 아니하고, 구(phrase) 또는 절(clause)의 형태 등을 가질 수 있다. 또한, 장치는 변환된 텍스트 데이터 내에 약어가 존재하는 경우, 해당 약어를 본말로 변환할 수 있다.
S903 단계에서, 장치는 용어 처리를 수행할 수 있다. 구체적으로, 장치는 탐지/분류 및 의약용어 색인을 통해 용어 처리를 수행할 수 있다. 여기서, 탐지/분류는 분류 라벨 별로 분류된 문장을 출력하는 것을 의미한다. 또한, 의약용어 색인은 전자 문서 내에 포함된 의약학 정보를 색인하는 것을 의미한다. 여기서, 의약학 정보를 색인하는 과정은 해당 의약학 정보의 데이터 이름, 데이터 크기, 데이터의 속성 또는 데이터 기록 장소 중 적어도 하나를 따로 저장하는 과정일 수 있다. 보다 구체적인 탐지/분류 방법 및 의약용어 색인 방법은 후술한다.
S904 단계에서, 장치는 원문 강조 처리를 수행할 수 있다. 구체적으로, 장치는 탐지/분류 단계에서 탐지한 분류 라벨 별로 분류된 문장들 및 의약용어 색인부(313)에서 색인한 용어들을 원본 전자 문서 내에서 찾을 수 있다. 장치가 원본 전자 문서 내에서 해당 용어들을 찾은 경우, 이에 대하여 강조 처리(하이라이팅)할 수 있다. 본 발명의 일 실시예에 따르면, 장치는 미세 조정을 위한 데이터셋의 제1분류 내지 제16분류 별로 각각 다른 색상을 이용하여 강조 처리를 할 수 있다. 본 발명에 따른 장치는 원본 전자 문서를 글자의 위치 변형, 전자 문서에 포함된 이미지 변형 및 표(table)의 변형 등이 없이 원본 상태 그대로 유지하면서 분류된 문장들에 대하여 강조 처리할 수 있다.
S905 단계에서, 장치는 강조 처리한 전자 문서를 출력할 수 있다. 여기서, 해당 전자 문서의 출력은 독립적으로 이루어질 수 있다. 이에 따라 출력된 강조 처리된 전자 문서는 시각적으로 더욱 효율적인 인지가 가능할 수 있다. 또한, 본 발명에 따라 출력된 최종 전자 문서(332)와 원문을 비교함으로써 사용자의 검토 과정을 편리하게 할 수 있다. 또한, 길이가 긴 문헌에서도 원문 강조를 통해 즉각적으로 ICSR 정보가 있는 부분을 확인할 수 있으며, ICSR의 핵심 정보를 추출하여 원문 확인 없이도 보고서를 작성할 수 있다.
본 발명의 일 실시예에 따라, S903 단계에서 수행되는 탐지/분류 단계는 문서 전처리 단계에서 전처리된 문서를 입력 받을 수 있다. 이에 따라, 장치는 전처리된 문서를 생성된 분류 모델에 입력함으로써 문서의 각 문장을 분류할 수 있다. 즉, 장치는 분류 대상 문장이 어떤 분류 라벨의 문장인지 판단할 수 있다. 예를 들어, 분류 대상 문장이 '환자 정보'로 분류된 경우, 장치는 분류 대상 문장을 환자 정보를 포함한 문장으로 판단하고, 해당 라벨을 부여함으로써 분류할 수 있다. 또 다른 실시예에 따르면, 분류 대상 문장을 제1분류 내지 제16분류로 분류할 수 있다. 최종적으로, 장치는 분류 라벨 별로 분류된 문장을 출력할 수 있다.
S903 단계에서 수행되는 의약용어 색인 단계는 전자 문서 내에 존재하는 의약학 정보를 색인할 수 있다. 여기서, 의약학 정보를 색인하는 과정은 해당 의약학 정보의 데이터 이름, 데이터 크기, 데이터의 속성 또는 데이터 기록 장소 중 적어도 하나를 따로 저장하는 과정일 수 있다. 구체적으로, 장치는 문서 전처리 단계에서 전처리된 문서를 입력 받을 수 있다. 이에 따라, 장치는 전처리된 문서 내의 용어들을 용어 목록과 비교하여 문서에 포함된 의약학 정보를 색인할 수 있다. 여기서, 용어 목록은 MedDRA, WHODrug, The International Statistical Classification of Diseases and Related Health Problems, ICD 11, 한국질병분류(KCD8), 보건의료용어표준(KOrean Standard Terminology Of Medicine, KOSTOM) 등일 수 있으며, 본 발명은 이에 한정되지 않는다. 또한, 용어 목록은 국제 공통으로 사용되는 목록으로, 용어명과 코드로 이루어질 수 있다. 이후, 장치는 전처리된 문서에서 용어명을 검색하고, 일치하는 용어를 탐색할 수 있다. 이에 따라, 해당 용어를 지정한 라벨로 분류하고 추출할 수 있다. 예를 들면, WHODrug(World Health Organization Drug)은 국제 의약품 및 성분에 관한 용어목록으로, WHODrug의 성분(Substance) 목록에 포함된 용어가 검색되면 해당 용어를 '성분(substance)' 라벨로 색인하고 추출할 수 있다.
도 10은 본 발명의 일 실시예에 따른 전자 문서 내 AI 안전 정보 탐지 순서도를 도시한다. 도 10은 장치(예: 서버(120), 장치(200), 전자 문서 내 안전정보 탐지 장치(300))의 동작 방법을 예시한다.
도 10을 참고하면, S1001 단계에서, 장치는 전자 문서를 획득할 수 있다. 여기서, 전자 문서는 PDF, 웹페이지, 이메일, 스캔본, 이미지 파일, hwp, txt, docx, doc 등의 문서를 포함할 수 있다. 특히, PDF 문서의 경우 다양한 형태의 포맷이 있을 수 있다. 그리고, 본 발명에 따른 전자 문서는 논문, 보고서, 진단서 등을 포함할 수 있다. 본 발명은 다양한 형태의 전자 문서에 대해 적용될 수 있으며, 위의 예들에 한정되지 않는다. 본 발명의 일 실시예에 따르면, 장치는 유무선 통신 방식을 통해 전자 문서를 획득할 수 있다. 예를 들어, 장치는 플랫폼 내 파일 업로드, 이메일, 외장 하드, USB, 외장/내장 SSD 등을 통해 전자 문서를 획득할 수 있다.
S1002 단계에서, 장치는 획득한 전자 문서에 대하여 전처리를 수행할 수 있다. 구체적으로, 장치는 전자 문서 내에 존재하는 글을 텍스트 데이터로 변환할 수 있다. 예를 들어, 획득한 전자 문서가 OCR 처리되지 않은 문서인 경우, 장치는 해당 문서를 OCR 처리할 수 있다. 이후, 변환된 텍스트 데이터는 문장 단위로 분할될 수 있다. 여기서, 문장은 문법적으로 완성된 형태를 가지는 것을 요구하지 아니하고, 구(phrase) 또는 절(clause)의 형태 등을 가질 수 있다. 또한, 장치는 변환된 텍스트 데이터 내에 약어가 존재하는 경우, 해당 약어를 본말로 변환할 수 있다.
S1003 단계에서, 장치는 용어 처리를 수행할 수 있다. 구체적으로, 장치는 탐지/분류 단계 및 의약용어 색인 단계를 통해 용어 처리를 수행할 수 있다. 여기서, 탐지/분류는 분류 라벨 별로 분류된 문장을 출력하는 것을 의미한다. 또한, 의약용어 색인은 전자 문서 내에 포함된 의약학 정보를 색인하는 것을 의미한다. 여기서, 의약학 정보를 색인하는 과정은 해당 의약학 정보의 데이터 이름, 데이터 크기, 데이터의 속성 또는 데이터 기록 장소 중 적어도 하나를 따로 저장하는 과정일 수 있다.
S1004 단계에서, 장치는 기계 독해 모델을 활용하여 정보를 추출할 수 있다. 구체적으로, 장치는 기계 독해 모델을 활용하여 연관성 있는 데이터를 대응시킴으로써 해당 정보를 추출할 수 있다. 본 발명의 일 실시예에 따르면, 의약용어 색인 단계에서 추출한 데이터를 활용하여 생성한 질의 데이터는 미세조정부(315b)에서 생성한 기계 독해 모델에 입력될 수 있다. 여기서, 질의 데이터는 의약용어 색인 단계에서 추출한 데이터를 기반으로 의약 전문가가 사전에 정해 놓거나 사용자가 직접 입력한 질의문을 사용하여 생성될 수 있다. 즉, 질의 데이터는 사전에 외부 시스템에서 생성한 데이터를 이용하여 생성될 수도 있다. 또한, 탐지/분류 단계에서 탐지 및 분류한 문장 또는 그 문장의 근처 문장들(이하, 본문 데이터)도 미세조정부(315b)에서 생성한 기계 독해 모델에 입력될 수 있다. 이와 같이 입력된 정보에 의해 기계 독해 모델은 본문 데이터에서 정답 텍스트를 추론할 수 있다. 기계 독해 모델을 통해 추출된 연관성 있는 데이터 정보는 예측성 평가부로 출력될 수 있다.
S1005 단계에서, 장치는 이상반응 예측성 평가를 할 수 있다. 구체적으로, 예측성 평가는 독해/판별 단계에서 출력된 연관성 있는 데이터에 의약품 정보와 이상반응 정보가 있는 경우, 해당 데이터를 예측성 평가부(318)에 입력함으로써 처리할 수 있다. 이에 따라, 의약품-이상반응 정보가 입력되면, 해당 의약품의 허가정보에서 이상반응을 검색한 후, 이상반응의 존재 여부를 확인하고 해당 결과를 출력할 수 있다. 여기서, 의약품 허가정보는 실시간으로 지정된 전세계 의약품 관련 규제기관 사이트에 접속한 후, 의약품명 검색을 통해 확보한 라벨일 수 있다. 의약품 관련 규제 사이트에는 의약품 안전나라, FDA(Food and Drug Administration), EMA(European Medicines Agency) 등이 있을 수 있다. 또한, 라벨에는 SmPC(Summary of Product Characteristics), 사용상 주의사항, Patient information, Product leaflet 등이 있을 수 있다. 또한, 의약품 허가정보로 본 시스템과 연결된 데이터베이스 또는 직접 입력한 데이터셋을 활용할 수 있으며, 본 발명은 이에 한정되지 않는다. 만약, 장치가 해당 데이터를 확보하지 못한 경우에는 이를 결과로 출력할 수 있다.
S1006 단계에서, 장치는 개별이상사례를 판별할 수 있다. 구체적으로, 장치는 예측성 평가 단계 및 참고문헌 판별 단계에서 처리 및 추출된 정보를 ICSR 판별 시스템에 입력할 수 있다. 이에 따라, 장치는 예측성 평가 단계 및 참고문헌 판별 단계에서 처리 및 추출된 정보가 ICSR에 해당하는지 판별할 수 있다. 여기서, ICSR 판별 시스템은 AI 모델을 기반으로 한 시스템일 수 있다. 구체적으로, ICSR 판별 시스템을 구성하는 AI 모델은 의약학 전공을 가진 전문가 집단의 피드백 결과를 가중치 항목으로 설정하고, 이를 활용하여 통계적인 기법을 통해 새로운 학습 데이터를 생성할 수 있다. 또한, ICSR 판별 시스템을 구성하는 AI 모델은 새롭게 생성한 학습 데이터를 이용하여 재 학습할 수 있다. 최종적으로, 장치는 입력된 정보의 ICSR 여부를 판별하고, 해당 결과를 출력할 수 있다.
S1007 단계에서, 장치는 최종 보고서를 출력할 수 있다. 구체적으로, 장치는 개별이상사례 판별 단계를 통해 생성된 데이터를 이용하여 보고서를 생성할 수 있다. 여기서, 보고서의 양식은 hwp, PDF, txt, docx, doc 등일 수 있으며, 본 발명은 이에 한정되지 않는다. 또한, 생성된 보고서는 다운로드할 수 있으며, API, 이메일 등의 방법으로 전송될 수도 있다.
도 11은 본 발명의 일 실시예에 따른 문서 전처리 과정의 순서도를 도시한다. 도 11은 장치(예: 서버(120), 장치(200), 전자 문서 내 안전정보 탐지 장치(300))의 동작 방법을 예시한다.
도 11을 참고하면, S1101 단계에서, 장치는 전자 문서를 획득할 수 있다. 여기서, 전자 문서는 PDF, 웹페이지, 이메일, 스캔본, 이미지 파일, hwp, txt, docx, doc 등의 문서를 포함할 수 있다. 특히, PDF 문서의 경우 다양한 형태의 포맷이 있을 수 있다. 그리고, 본 발명에 따른 전자 문서는 논문, 보고서, 진단서 등을 포함할 수 있다. 본 발명은 다양한 형태의 전자 문서에 대해 적용될 수 있으며, 위의 예들에 한정되지 않는다. 본 발명의 일 실시예에 따르면, 장치는 유무선 통신 방식을 통해 전자 문서를 획득할 수 있다. 예를 들어, 장치는 플랫폼 내 파일 업로드, 이메일, 외장 하드, USB, 외장/내장 SSD 등을 통해 전자 문서를 획득할 수 있다.
S1102 단계에서, 장치는 전자 문서를 텍스트 데이터로 변환할 수 있다. 구체적으로, 장치는 전자 문서 내에 존재하는 글을 텍스트 데이터로 변환할 수 있다. 예를 들어, 획득한 전자 문서가 OCR 처리되지 않은 문서인 경우, 장치는 해당 문서를 OCR 처리할 수 있다. 이후, 변환된 텍스트 데이터는 문장 단위로 분할될 수 있다. 여기서, 문장은 문법적으로 완성된 형태를 가지는 것을 요구하지 아니하고, 구(phrase) 또는 절(clause)의 형태 등을 가질 수 있다.
S1103 단계에서, 장치는 변환된 텍스트들을 문장 단위로 분할할 수 있다. 본 발명의 일 실시예에 따라, 하나의 문장이 단 나누기로 인하여 끊겨 있는 경우, 해당 문장은 하나의 문장으로 처리될 수 있다.
S1104 단계에서, 장치는 약어 변환 처리를 수행할 수 있다. 구체적으로, S1102 단계에서 변환된 텍스트 데이터 내에 약어가 있는 경우, 장치는 해당 약어와 본말을 추출함으로써 약어-본말 데이터 쌍 목록을 생성할 수 있다. 전자 문서 내에 최초로 사용된 본말의 경우 약어와 함께 기재되므로, 장치는 이를 활용하여 약어-본말 데이터 쌍 목록을 생성할 수 있다. 이에 따라, 생성된 약어-본말 데이터 쌍 목록을 활용하여 변환된 텍스트 데이터들에서 약어를 검색한 후, 본말로 변환할 수 있다. 만약, 약어 변환 처리가 수행된 경우 해당 텍스트는 S1105 단계를 수행할 수 있다. 즉, 약어 변환 처리된 텍스트는 의약용어 색인 과정을 수행할 수 있다. 반면, 약어 변환 처리되지 않은 텍스트는 S1106 단계를 수행할 수 있다. 즉, 약어 변환 처리되지 않은 텍스트는 탐지/분류 과정을 수행할 수 있다.
도 12는 본 발명의 일 실시예에 따른 기계 독해 모델 구동 방법의 순서도를 도시한다. 도 12는 장치(예: 서버(120), 장치(200), 전자 문서 내 안전정보 탐지 장치(300))의 동작 방법을 예시한다.
도 12를 참고하면, S1201 단계에서, 장치는 질의 데이터 및/또는 문장 정보를 획득할 수 있다. 여기서, 질의 데이터는 의약용어 색인 단계에서 추출한 데이터를 활용하여 생성될 수 있다. 또한, 문장 정보는 탐지/분류 단계에서 탐지 및 분류한 문장이나 그 문장의 근처 문장들을 의미한다. 구체적으로, 질의 데이터는 의약용어 색인부에서 추출한 데이터를 기반으로 의약전문가가 사전에 정해 놓거나 사용자가 직접 입력한 질의문을 사용하여 생성할 수 있다.
S1202 단계에서, 장치는 정답 텍스트(answer)를 추론할 수 있다. 즉, 장치는 획득한 질의 데이터 및/또는 문장 정보들이 기계 독해 모델에 입력되면 해당 모델이 정답 텍스트를 추론할 수 있다. 예를 들어, 장치가 획득한 질의 데이터가 '환자가 어떤 약을 복용 중단하였습니까?'인 경우, 장치는 정답 텍스트로 "타이레놀"을 추론해 낼 수 있다. 이에 따라, 기계 독해 모델에 의해 판별된 텍스트는 'answer', '점수' 쌍일 수 있다. 여기서, 점수는 질의에 대하여 AI가 찾아낸 정답이 얼마나 정확한지에 대한 값일 수 있다. 구체적으로, 점수는 MRC(Machine Reading Comprehension) 모델 출력 값의 정답에 대한 가능성 점수일 수 있다. MRC 딥러닝 모델은 문장 정보들 속에서 정답 가능성이 높은 부분들의 점수를 계산할 수 있다.
S1203 단계에서, 장치는 정답 텍스트의 점수 값이 기준치 이상인지 판별할 수 있다. 여기서, 기준치는 사용자가 자체적으로 확보한 데이터를 통해 설정한 값일 수 있다. 만약, 정답 텍스트의 점수 값이 기준치 이상인 경우, S1204 단계가 수행될 수 있다. S1204 단계는 정답 텍스트에 대하여 정답 처리를 할 수 있다. 반면, 정답 텍스트의 점수 값이 기준치 미만인 경우, S1205 단계가 수행될 수 있다. S1205 단계는 정답 테스트에 대하여 오답 처리를 할 수 있다. 만약, 정답 텍스트의 점수 값이 기준치 이상인 정답 텍스트가 다수인 경우, 장치는 복수 정답으로 처리될 수 있다. 예를 들어, 질의에 대하여 AI가 찾은 정답이 다수인 경우, 각 정답에 대한 점수 값이 존재할 수 있다. 이때, 기준치 이상인 점수 값이 다수라면, 장치는 이를 복수 정답으로 처리할 수 있다. 최종적으로, S1206 단계에서, 위의 과정을 수행한 결과를 예측성 평가부(318)에 입력할 수 있다. 즉, 기계 독해 모델을 통해 추출된 연관성 있는 데이터 정보를 예측성 평가부(318)에 입력할 수 있다.
본 발명의 예시적인 방법들은 설명의 명확성을 위해서 동작의 시리즈로 표현되어 있지만, 이는 단계가 수행되는 순서를 제한하기 위한 것은 아니며, 필요한 경우에는 각각의 단계가 동시에 또는 상이한 순서로 수행될 수도 있다. 본 발명에 따른 방법을 구현하기 위해서, 예시하는 단계에 추가적으로 다른 단계를 포함하거나, 일부의 단계를 제외하고 추가적인 다른 단계를 포함할 수도 있다.
본 발명의 다양한 실시예는 모든 가능한 조합을 나열한 것이 아니고 본 발명의 대표적인 양상을 설명하기 위한 것이며, 다양한 실시예에서 설명하는 사항들은 독립적으로 적용되거나 또는 둘 이상의 조합으로 적용될 수도 있다.
또한, 본 발명의 다양한 실시예는 하드웨어, 펌웨어(firmware), 소프트웨어, 또는 그들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 범용 프로세서(general processor), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.
본 발명의 범위는 다양한 실시예의 방법에 따른 동작이 장치 또는 컴퓨터 상에서 실행되도록 하는 소프트웨어 또는 머신-실행가능한 명령들(예를 들어, 운영체제, 애플리케이션, 펌웨어(firmware), 프로그램 등) 및 이러한 소프트웨어 또는 명령 등이 저장되어 장치 또는 컴퓨터 상에서 실행 가능한 비-일시적 컴퓨터-판독가능 매체(non-transitory computer-readable medium)를 포함한다.

Claims (21)

  1. 전자 문서 내 안전정보 탐지 방법은,
    전자 문서 내의 텍스트 데이터를 획득하는 단계;
    상기 텍스트 데이터를 문장 단위로 분할하는 단계;
    문장 단위로 분할된 상기 텍스트 데이터에 존재하는 약어 및 본말(full term)을 추출하는 단계;
    상기 약어 및 상기 본말에 기반하여, 데이터 쌍 목록을 생성하는 단계;
    상기 데이터 쌍 목록에 기반하여, 상기 약어를 본말로 변환하기 위한 전처리를 수행하는 단계;
    상기 텍스트 데이터 내의 참고문헌 목록에 기존에 검토 완료한 참고문헌에 관한 정보가 포함되어 있는지 여부에 기반하여, 중복 사례를 필터링하는 단계;
    전처리된 텍스트에 대하여 의약학 정보를 색인하는 단계;
    상기 의약학 정보 및 용어 목록을 비교하는 단계;
    상기 의약학 정보의 데이터 이름, 데이터 크기, 데이터의 속성 또는 데이터 기록 장소 중 적어도 하나를 저장하는 단계;
    의약품 정보 및 이상반응 정보를 이용하여 상기 전자 문서가 ICSR(Individual Case Safety Report)인지 여부를 판별하는 단계;
    상기 텍스트를 색인 또는 분류한 제1 결과, 상기 의약학 정보 및 상기 용어 목록을 비교한 제2 결과, 상기 의약학 정보를 저장한 제3 결과 또는 ICSR인지 여부를 판별한 제4 결과 중 적어도 하나의 결과를 포함하는 적어도 하나의 보고서 생성하는 단계; 및
    상기 적어도 하나의 보고서를 열람 가능한 파일 형태로 출력하는 단계를 포함하며,
    상기 적어도 하나의 보고서는,
    상기 제1 결과, 상기 제2 결과, 상기 제3 결과 또는 상기 제4 결과 중 하나를 포함하는 적어도 하나의 개별 보고서, 또는
    상기 제1 결과, 상기 제2 결과, 상기 제3 결과 또는 상기 제4 결과 중 복수의 결과들을 통합한 결과를 포함하는 통합 보고서 중 적어도 하나를 포함하고,
    상기 적어도 하나의 보고서는, 중복 사례 필터링된 결과에 더 기반하여 생성되고,
    상기 용어 목록은 의약용어명 및 코드로 이루어진 목록 또는 리스트를 의미하는 방법.
  2. 삭제
  3. 청구항 1에 있어서,
    상기 전처리를 수행하는 단계는,
    상기 전자 문서를 텍스트 데이터로 변환하는 단계를 포함하는 방법.
  4. 청구항 1에 있어서,
    상기 참고문헌이 존재하는지 여부의 판별은,
    상기 전처리를 수행하는 단계에서 본말로 변환되지 않은 텍스트에 참고문헌이 존재하는지 여부를 탐지하는 단계; 및
    탐지된 상기 참고문헌에 기존 검토 완료한 타 문헌이 존재하는지 검사하는 단계를 포함하는 방법.
  5. 삭제
  6. 청구항 1에 있어서,
    상기 텍스트를 색인하는 단계는,
    약어 변환 처리되지 않은 텍스트에 대하여 분류 모델(classification model)에 입력함으로써 텍스트를 분류하는 단계를 포함하는 방법.
  7. 청구항 6에 있어서,
    상기 분류 모델은,
    입력된 텍스트를 분류 라벨 별로 분류하는 모델인 방법.
  8. 청구항 6에 있어서,
    상기 분류 모델은 분류 모델 학습 데이터를 이용하여 미세 조정(fine-tuning)된 BERT 모델인 방법.
  9. 청구항 1에 있어서,
    ICSR인지 여부를 판별하는 단계는,
    상기 텍스트를 색인 또는 분류하는 단계에서 수행된 결과물을 이용하여 정답 텍스트를 추론함으로써 독해 및 판별하는 단계;
    상기 독해 및 판별하는 단계에서 수행된 결과물 내에 의약품의 이상반응 정보가 존재하는지 여부를 확인함으로써 예측성을 평가하는 단계; 및
    상기 전자 문서가 ICSR 보고서에 해당하는지 여부를 판별함으로써 개별이상사례를 판별하는 단계를 포함하되,
    상기 의약품의 이상반응 정보가 존재하는지 여부는 상기 전자 문서 내 의약품의 허가 라벨이 존재하는지 여부로 판별하는 방법.
  10. 청구항 9에 있어서,
    상기 독해 및 판별하는 단계는,
    의약학 정보를 색인하는 단계에서 추출한 데이터를 활용하여 생성한 질의 데이터 또는 분류 라벨 별로 분류하는 단계에서 생성된 문장들 중 적어도 하나를 기계 독해 모델에 입력함으로써 정답 텍스트를 추론하는 단계를 포함하는 방법.
  11. 청구항 10에 있어서,
    상기 기계 독해 모델은 독해 모델 학습 데이터를 이용하여 미세 조정(fine-tuning)된 BERT 모델인 방법.
  12. 청구항 11에 있어서,
    상기 독해 모델 학습 데이터는 문단(paragraph), 질의(question) 또는 정답(answer) 중 적어도 하나를 포함하는 방법.
  13. 청구항 9에 있어서,
    상기 예측성을 평가하는 단계는,
    상기 독해 및 판별하는 단계에서 의약품 이상반응 정보를 획득하는 단계;
    의약품 허가정보에서 상기 이상반응 정보를 검색하는 단계; 및
    상기 의약품 허가정보 내에 상기 이상반응이 존재하는지 여부를 확인하는 단계를 포함하되,
    상기 의약품 허가정보 내에 상기 이상반응이 존재하는지 여부를 확인하는 단계에서 상기 의약품 허가정보 내에 상기 이상반응이 존재하면 예측 가능한 부작용으로 판단하고, 상기 의약품 허가정보 내에 상기 이상반응이 존재하지 않으면 예측 불가능한 부작용으로 판단하는 방법.
  14. 청구항 9에 있어서,
    상기 개별이상사례를 판별하는 단계는,
    상기 예측성을 평가하는 단계에서 획득한 결과를 ICSR 판별 시스템에 입력하는 단계; 및
    상기 획득된 결과가 ICSR에 해당하는지 여부를 판별하는 단계를 포함하는 방법.
  15. 청구항 1에 있어서,
    원문을 강조 처리하는 단계를 더 포함하는 방법.
  16. 청구항 15에 있어서,
    상기 원문을 강조 처리하는 단계는,
    분류 라벨 별로 분류하는 단계에서 분류 라벨 별로 분류된 문장들을 찾아 강조 처리하는 단계를 포함하는 방법.
  17. 청구항 15에 있어서,
    상기 원문을 강조 처리하는 단계는,
    의약학 정보를 색인하는 단계에서 색인한 용어들을 상기 전자 문서 내에서 찾아 강조 처리하는 단계를 포함하는 방법.
  18. 청구항 16에 있어서,
    상기 원문을 강조 처리하는 단계는,
    상기 분류 라벨 별로 분류하는 단계에서 탐지한 라벨의 분류 별로 색상을 다르게 하여 강조 처리하는 단계를 포함하는 방법.
  19. 전자 문서 내 안전정보 탐지 장치는,
    상기 장치의 동작에 필요한 정보를 저장하는 저장부; 및
    상기 저장부에 연결된 프로세서를 포함하며,
    상기 프로세서는,
    전자 문서 내의 텍스트 데이터를 획득하고,
    상기 텍스트 데이터를 문장 단위로 분할하고,
    문장 단위로 분할된 상기 텍스트 데이터에 존재하는 약어 및 본말(full term)을 추출하고,
    상기 약어 및 상기 본말에 기반하여, 데이터 쌍 목록을 생성하고,
    상기 데이터 쌍 목록에 기반하여, 상기 약어를 본말로 변환하기 위한 전처리를 수행하고,
    상기 텍스트 데이터 내의 참고문헌 목록에 기존에 검토 완료한 참고문헌에 관한 정보가 포함되어 있는지 여부에 기반하여, 중복 사례를 필터링하고,
    전처리된 텍스트에 대하여 의약학 정보를 색인하고,
    상기 의약학 정보 및 용어 목록을 비교하고,
    상기 의약학 정보의 데이터 이름, 데이터 크기, 데이터의 속성 또는 데이터 기록 장소 중 적어도 하나를 저장하고,
    의약품 정보 및 이상반응 정보를 이용하여 상기 전자 문서가 ICSR인지 여부를 판별하고,
    상기 텍스트를 색인 또는 분류한 제1 결과, 상기 의약학 정보 및 상기 용어 목록을 비교한 제2 결과, 상기 의약학 정보를 저장한 제3 결과 또는 ICSR인지 여부를 판별한 제4 결과 중 적어도 하나의 결과를 포함하는 적어도 하나의 보고서를 생성하고,
    상기 적어도 하나의 보고서를 열람 가능한 파일 형태로 출력하되,
    상기 적어도 하나의 보고서는,
    상기 제1 결과, 상기 제2 결과, 상기 제3 결과 또는 상기 제4 결과 중 하나를 포함하는 적어도 하나의 개별 보고서, 또는
    상기 제1 결과, 상기 제2 결과, 상기 제3 결과 또는 상기 제4 결과 중 복수의 결과들을 통합한 결과를 포함하는 통합 보고서 중 적어도 하나를 포함하고,
    상기 적어도 하나의 보고서는, 중복 사례 필터링된 결과에 더 기반하여 생성되고,
    상기 용어 목록은 의약용어명 및 코드로 이루어진 목록 또는 리스트를 의미하는 장치.
  20. 삭제
  21. 청구항 19에 있어서,
    상기 프로세서는,
    상기 텍스트를 색인하는 과정에서 출력한 결과에 대하여 강조 처리를 수행하는 장치.
KR1020220099171A 2022-08-09 2022-08-09 전자 문서 내 인공지능 기반 안전정보 탐지 방법 및 장치 KR102609227B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020220099171A KR102609227B1 (ko) 2022-08-09 2022-08-09 전자 문서 내 인공지능 기반 안전정보 탐지 방법 및 장치
US18/361,925 US20240054296A1 (en) 2022-08-09 2023-07-31 Method and apparatus for detecting safety information via artificial intelligence from electronic document
CN202310987488.0A CN117594179A (zh) 2022-08-09 2023-08-07 基于人工智能检测电子文件中的安全信息的方法及装置
EP23190233.9A EP4322047A1 (en) 2022-08-09 2023-08-08 Method and apparatus for detecting safety information via artificial intelligence from electronic document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220099171A KR102609227B1 (ko) 2022-08-09 2022-08-09 전자 문서 내 인공지능 기반 안전정보 탐지 방법 및 장치

Publications (1)

Publication Number Publication Date
KR102609227B1 true KR102609227B1 (ko) 2023-12-04

Family

ID=87567531

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220099171A KR102609227B1 (ko) 2022-08-09 2022-08-09 전자 문서 내 인공지능 기반 안전정보 탐지 방법 및 장치

Country Status (4)

Country Link
US (1) US20240054296A1 (ko)
EP (1) EP4322047A1 (ko)
KR (1) KR102609227B1 (ko)
CN (1) CN117594179A (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101814120B1 (ko) 2011-08-26 2018-01-03 에스프린팅솔루션 주식회사 이미지를 전자문서에 삽입하는 방법 및 이를 수행하는 장치
KR101950529B1 (ko) 2011-02-24 2019-02-20 렉시스넥시스, 어 디비젼 오브 리드 엘서비어 인크. 전자 문서를 검색하는 방법 및 전자 문서 검색을 그래픽적으로 나타내는 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11847415B2 (en) * 2020-09-30 2023-12-19 Astrazeneca Ab Automated detection of safety signals for pharmacovigilance
JP2023553121A (ja) * 2020-12-09 2023-12-20 ブリストル-マイヤーズ スクイブ カンパニー 分野特有の自然言語処理モデルを使用した文書の分類

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101950529B1 (ko) 2011-02-24 2019-02-20 렉시스넥시스, 어 디비젼 오브 리드 엘서비어 인크. 전자 문서를 검색하는 방법 및 전자 문서 검색을 그래픽적으로 나타내는 방법
KR101814120B1 (ko) 2011-08-26 2018-01-03 에스프린팅솔루션 주식회사 이미지를 전자문서에 삽입하는 방법 및 이를 수행하는 장치

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
Abdhul Ahadh 외, Process Safety and Environmental Protection, 2021.09.16., Vol.155, pp.455-465. *
Brent Biseda 외, arXiv, 2020.04.18., pp.1-6. *
Daphne Chopard 외, JMIR Med Inform., 2021.12.09., Vol.12. *
Harsha Gurulingappa 외, Journal of Biomedical Informatics, 2012.04.25., Vol.45, pp.885-892.* *
Sajid Hussain 외, Computational and Mathematical Methods in Medicine, 2021.08.13., Vol.2021, No.5589829, pp.1-12. *
Shaun Comfort 외, Drug Safety, 2018.02.14., Vol.2018, No.41, pp.579-590.* *
Vanja Wallner 외, Uppsala Universitet, 2020.11.30., pp.1-43.* *
Yoojoong Kim 외, Scientific Reports, 2022.08.16., Vol.12, No.13847, pp.1-10. *

Also Published As

Publication number Publication date
EP4322047A1 (en) 2024-02-14
CN117594179A (zh) 2024-02-23
US20240054296A1 (en) 2024-02-15

Similar Documents

Publication Publication Date Title
Hussain et al. Approximation of COSMIC functional size to support early effort estimation in Agile
US20230059494A1 (en) Semantic map generation from natural-language text documents
US10503830B2 (en) Natural language processing with adaptable rules based on user inputs
US11728014B2 (en) Deep learning architecture for analyzing unstructured data
Asgari et al. Identifying key success factors for startups With sentiment analysis using text data mining
Kotzé et al. Automatic classification of social media reports on violent incidents in South Africa using machine learning
Thakur et al. A review on text based emotion recognition system
KR102280490B1 (ko) 상담 의도 분류용 인공지능 모델을 위한 훈련 데이터를 자동으로 생성하는 훈련 데이터 구축 방법
González Canché Latent code identification (LACOID): A machine learning-based integrative framework [and open-source software] to classify big textual data, rebuild contextualized/unaltered meanings, and avoid aggregation bias
CN117501283A (zh) 文本到问答模型系统
Ruposh et al. A computational approach of recognizing emotion from Bengali texts
West et al. Using machine learning to extract information and predict outcomes from reports of randomised trials of smoking cessation interventions in the Human Behaviour-Change Project
KR102609227B1 (ko) 전자 문서 내 인공지능 기반 안전정보 탐지 방법 및 장치
US20230057706A1 (en) System and method for use of text analytics to transform, analyze, and visualize data
RU2755606C2 (ru) Способ и система классификации данных для выявления конфиденциальной информации в тексте
US20170293863A1 (en) Data analysis system, and control method, program, and recording medium therefor
Alreshedy et al. Predicting the programming language of questions and snippets of StackOverflow using natural language processing
Butcher Contract Information Extraction Using Machine Learning
KR20200061317A (ko) 보험 감사 시스템 및 방법
Ulyanovska et al. STUDY OF THE PROCESS OF IDENTIFYING THE AUTHORSHIP OF TEXTS WRITTEN IN NATURAL LANGUAGE.
Denisiuk et al. Feature Extraction for Polish Language Named Entities Recognition in Intelligent Office Assistant.
Setzu et al. Explainable authorship identification in cultural heritage applications: Analysis of a new perspective
Pereira et al. MCRB: A multiclassifier tool for risk of bias assessment in a systematic review to produce health evidence to decision making
Malak Text Preprocessing: A Tool of Information Visualization and Digital Humanities
Wininger Measuring the evolution of a revised document

Legal Events

Date Code Title Description
GRNT Written decision to grant