KR102318674B1 - 임상 시험 주요 키워드 예측 방법 및 이를 실행하는 서버 - Google Patents

임상 시험 주요 키워드 예측 방법 및 이를 실행하는 서버 Download PDF

Info

Publication number
KR102318674B1
KR102318674B1 KR1020200140279A KR20200140279A KR102318674B1 KR 102318674 B1 KR102318674 B1 KR 102318674B1 KR 1020200140279 A KR1020200140279 A KR 1020200140279A KR 20200140279 A KR20200140279 A KR 20200140279A KR 102318674 B1 KR102318674 B1 KR 102318674B1
Authority
KR
South Korea
Prior art keywords
token
clinical trial
tokens
word
data
Prior art date
Application number
KR1020200140279A
Other languages
English (en)
Inventor
정지희
송남구
Original Assignee
(주)메디아이플러스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)메디아이플러스 filed Critical (주)메디아이플러스
Priority to KR1020200140279A priority Critical patent/KR102318674B1/ko
Priority to PCT/KR2020/017232 priority patent/WO2022092409A1/ko
Priority to US18/033,968 priority patent/US20230394237A1/en
Application granted granted Critical
Publication of KR102318674B1 publication Critical patent/KR102318674B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/67ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for remote operation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Human Computer Interaction (AREA)
  • Pathology (AREA)
  • Machine Translation (AREA)

Abstract

본 발명의 일 실시예에 따른 임상 시험 주요 키워드 예측 장치에서 실행되는 임상 시험 주요 키워드 예측 방법은 사용자 단말로부터 질문 데이터를 수신하면, 상기 질문 데이터에서 미리 결정된 임상 불이용 단어를 삭제하는 단계, 상기 미리 결정된 임상 불이용 단어가 삭제된 임상 시험 타이틀 데이터를 공백을 기준으로 단어를 추출하는 단계, 상기 단어 각각에 대한 형태소 분석을 실행하여 단어 및 형태소 값이 쌍으로 형성된 토큰을 생성하는 단계, 상기 토큰을 미리 학습된 학습 모델에 입력하고, 상기 학습 모델에서 상기 질문 데이터의 토큰과 매칭되는 토큰을 추출하는 단계, 상기 토큰에 미리 할당된 가중치 및 미리 할당된 레이블이 지시하는 빈도 수를 기초로 상기 토큰을 정렬하는 단계 및 상기 정렬된 토큰을 텍스트로 변환하여 상기 사용자 단말에 제공하는 단계를 포함한다.

Description

임상 시험 주요 키워드 예측 방법 및 이를 실행하는 서버{METHOD OF PREDICTING CLINICAL TRIAL KEYWORD AND SERVER PERFORMING THE SAME}
본 발명은 임상 시험 주요 키워드 예측 방법 및 이를 실행하는 서버에 관한 것으로, 보다 상세하게는 임상 시험 타이틀에서 해당 임상 시험의 대표성을 가지는 주요 키워드를 추출함으로써 증가하는 임상 시험 데이터를 효과적으로 탐색하고 분류할 수 있도록 하는 임상 시험 주요 키워드 예측 방법 및 이를 실행하는 서버에 관한 것이다.
바이오 산업의 확대에 따라 신약 개발을 위한 임상 시험(clinical trial) 역시 증가하고 있다. 통상적으로 임상 시험은 새롭게 개발된 의약품 등에 대한 약효 평가 또는 안정성 기준 마련, 적용 가능한 질환의 범위, 적정 투약, 부작용 범위, 해당 의약품 등의 약동, 약력, 약리, 임상적 효과 등을 확인하고 이상 반응 또는 약물 유해 반응을 조사하기 위하여 사람을 대상으로 실시하는 시험 또는 연구라고 정의할 수 있다.
이러한 임상 시험은 종래 종이 매체 기반 관리 체계(Case Report Form. CRF)를 통하여 이용되고 있는데, 다수의 피험자를 대상으로 진행되는 수차례의 면담, 약제 투여, 검사, 평가와 그 과정에서 수집된 데이터를 종이 매체에 기입하고 이를 통계 분석하여 임상 시험의 가설 또는 목적을 객관적이고 귀험적으로 검증하는 방식으로 이용되고 있다.
그러나 이러한 종이 매체 기반의 임상 시험 데이터 관리는 데이터 보관, 유지 및 보안 자체가 극히 취약함은 물론, 자료 공유, 데이터의 재가공, 시험 또는 심사 기간의 가변성 내지 유동성, 후속 참조 및 활용 등이 극도로 제한되는 본질적인 문제점을 가지고 있다고 할 수 있다.
근래, 이러한 문제점을 해소하기 위하여 일부 전자 데이터 기반의 임상 시험 관리 시스템(electronic Case Report Form, eCRF)이 개시되어 있다. 이러한 임상 시험 관리 시스템은 임상 시험 데이터를 저장하는 임상 데이터 데이터베이스를 포함한다.
한편, 임상 시험 관리 시스템은 임상 데이터 데이터베이스에 저장되어 있는 임상 데이터를 임상 연구자에게 제공한다. 따라서, 임상 연구를 하는 연구자들은 연구 주제를 고려하여 필요한 항목들을 검색한다.
본 발명은 임상 시험 타이틀에서 해당 임상 시험의 대표성을 가지는 주요 키워드를 추출함으로써 증가하는 임상 시험 데이터를 효과적으로 탐색하고 분류할 수 있도록 하는 임상 시험 주요 키워드 예측 방법 및 이를 실행하는 서버에 관한 것이다.
본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
이러한 목적을 달성하기 위한 임상 시험 주요 키워드 예측 장치에서 실행되는 임상 시험 주요 키워드 예측 방법은 사용자 단말로부터 질문 데이터를 수신하면, 상기 질문 데이터에서 미리 결정된 임상 불이용 단어를 삭제하는 단계, 상기 미리 결정된 임상 불이용 단어가 삭제된 임상 시험 타이틀 데이터를 공백을 기준으로 단어를 추출하는 단계, 상기 단어 각각에 대한 형태소 분석을 실행하여 단어 및 형태소 값이 쌍으로 형성된 토큰을 생성하는 단계, 상기 토큰을 미리 학습된 학습 모델에 입력하고, 상기 학습 모델에서 상기 질문 데이터의 토큰과 매칭되는 토큰을 추출하는 단계, 상기 토큰에 미리 할당된 가중치 및 미리 할당된 레이블이 지시하는 빈도 수를 기초로 상기 토큰을 정렬하는 단계 및 상기 정렬된 토큰을 텍스트로 변환하여 상기 사용자 단말에 제공하는 단계를 포함한다.
또한 이러한 목적을 달성하기 위한 임상 시험 주요 키워드 예측 장치는 사용자 단말로부터 질문 데이터를 수신하면, 상기 질문 데이터에서 미리 결정된 임상 불이용 단어를 삭제하고, 상기 미리 결정된 임상 불이용 단어가 삭제된 임상 시험 타이틀 데이터를 공백을 기준으로 단어를 추출하고, 상기 단어 각각에 대한 형태소 분석을 실행하여 단어 및 형태소 값이 쌍으로 형성된 토큰을 생성하여 상기 토큰을 미리 학습된 학습 모델에 입력하는 키워드 질의부 및 상기 학습 모델에서 상기 질문 데이터의 토큰과 매칭되는 토큰을 추출하고, 상기 토큰에 미리 할당된 가중치 및 미리 할당된 레이블이 지시하는 빈도 수를 기초로 상기 토큰을 정렬하고, 상기 정렬된 토큰을 텍스트로 변환하여 상기 사용자 단말에 제공하는 키워드 추출부를 포함한다.
전술한 바와 같은 본 발명에 의하면, 임상 시험 타이틀에서 해당 임상 시험의 대표성을 가지는 주요 키워드를 추출함으로써 증가하는 임상 시험 타이틀 데이터를 효과적으로 탐색하고 분류할 수 있다는 장점이 있다.
도 1은 본 발명의 일 실시예에 따른 임상 시험 주요 키워드 예측 시스템을 설명하기 위한 네트워크 구성도이다.
도 2는 본 발명의 일 실시예에 따른 임상 시험 주요 키워드 예측 서버의 내부 구조를 설명하기 위한 블록도이다.
도 3은 본 발명에 따른 임상 시험 주요 키워드 예측 방법의 일 실시예를 설명하기 위한 흐름도이다.
도 4는 본 발명에 따른 임상 시험 주요 키워드 예측 방법의 다른 일 실시예를 설명하기 위한 흐름도이다.
도 5는 본 발명에 따른 임상 시험 주요 키워드 예측 과정을 설명하기 위한 예시도이다.
전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다. 도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용된다.
도 1은 본 발명의 일 실시예에 따른 임상 시험 주요 키워드 예측 시스템을 설명하기 위한 네트워크 구성도이다.
도 1을 참조하면, 임상 시험 주요 키워드 예측 시스템은 사용자 단말(100_1~100_N) 및 임상 시험 주요 키워드 예측 서버(200)를 포함한다.
사용자 단말(100_1~100_N)은 질문 데이터를 임상 시험 주요 키워드 예측 서버(200)에 입력하여 질문 데이터에 해당하는 키워드를 제공받는 사용자가 보유하는 단말이다. 이러한 사용자 단말(100_1~100_N)은 스마트폰, 테블릿 PC, 노트북, 데스크탑 등으로 구현될 수 있다.
임상 시험 주요 키워드 예측 서버(200)는 사용자 단말(100_1~100_N)로부터 질문 데이터를 수신하면 미리 학습된 학습 모델을 이용하여 질문 데이터에 대한 키워드를 추출하여 사용자 단말(100_1~100_N)에 제공하는 서버이다.
먼저, 임상 시험 주요 키워드 예측 서버(200)는 미리 학습된 학습 모델을 생성하는 과정을 설명하기로 한다.
임상 시험 주요 키워드 예측 서버(200)는 임상 시험 데이터베이스에서 임상 시험 데이터에 대한 임상 시험 타이틀 데이터를 추출하고, 임상 불용어 데이터베이스를 기초로 임상 시험 타이틀 데이터에 대한 전처리를 실행한다.
일 실시예에서, 임상 시험 주요 키워드 예측 서버(200)는 임상 시험 타이틀 데이터에서 미리 결정된 임상 불이용 단어를 삭제한다.
예를 들어, 임상 시험 주요 키워드 예측 서버(200)는 임상 시험 타이틀 데이터 “A Randomized, Double Blind Trial of LdT(Telbivudine) Versus Lamivudine in Adults With Compensated Chronic Hepatitis B”를 수신하면, 미리 결정된 임상 불이용 단어인 “A”, “of”, “in”, “with”, “B”를 삭제한다.
다른 일 실시예에서, 임상 시험 주요 키워드 예측 서버(200)는 임상 시험 타이틀 데이터에서 미리 결정된 임상 불이용 단어 품사를 삭제한다. 이때, 미리 결정된 임상 불이용 단어 품사는 관사, 전치사, 접속사, 감탄사 등을 포함할 수 있다.
그런 다음, 임상 시험 주요 키워드 예측 서버(200)는 미리 결정된 임상 불이용 단어가 삭제된 임상 시험 타이틀 데이터를 공백을 기준으로 단어를 추출하고, 미리 생성된 단어 별 빈도 수 데이터베이스를 기초로 단어의 빈도 수를 측정한다.
예를 들어, 미리 생성된 단어 별 빈도 수 데이터베이스에 “Chronic”에 저장된 빈도 수가 1000인 경우, 임상 시험 주요 키워드 예측 서버(200)는 “Chronic”의 빈도 수를 1000으로 결정한다.
그 후, 임상 시험 주요 키워드 예측 서버(200)는 단어 각각에 대한 형태소 분석을 실행하여 단어 및 형태소 값이 쌍으로 이루어지고, 빈도 수를 지시하는 레이블이 할당된 토큰을 생성한다.
예를 들어, 임상 시험 주요 키워드 예측 서버(200)는 미리 결정된 임상 불이용 단어가 삭제된 임상 시험 타이틀을 (빈도 수: 1000번, (단어, 형태소 값)), (빈도 수: 234번, (단어, 형태소)), (빈도수: 2541번, (단어, 형태소)), (빈도수: 2516(단어, 형태소)) … 등의 토큰을 생성할 수 있다.
상기와 같이 미리 결정된 임상 불이용 단어가 삭제된 임상 시험 타이틀을 기초로 토큰이 생성된 후, 임상 시험 주요 키워드 예측 서버(200)는 토큰 각각에 대해서 해당 토큰의 단어 및 토큰의 레이블에 따라 토큰 각각에 서로 다른 가중치를 부여한다.
일 실시예에서, 임상 시험 주요 키워드 예측 서버(200)는 토큰 각각에 대해서 해당 토큰의 단어를 구현하는 언어 종류(즉, 영어, 중국어, 한국어 등), 단어가 임상 시험 타이틀에서 존재하는 위치 및 토큰에 할당된 레이블의 빈도 수에 따라 서로 다른 가중치를 부여한다.
그런 다음, 임상 시험 주요 키워드 예측 서버(200)는 토큰을 벡터화한 후 학습시켜 학습 모델을 생성한다. 이러한 학습 모델은 추후에 사용자 단말(100_1~100_N)로부터 질문 데이터를 수신한 경우 질문 데이터에 해당하는 키워드를 추출할 수 있도록 하는 모델이다.
이하에서는, 학습 모델을 이용하여 질문 데이터에 해당하는 키워드를 추출하는 과정을 설명하기로 한다.
먼저, 임상 시험 주요 키워드 예측 서버(200)는 사용자 단말(100_1~100_N)로부터 질문 데이터를 수신하면, 상기 질문 데이터에서 미리 결정된 임상 불이용 단어를 삭제하고, 미리 결정된 임상 불이용 단어가 삭제된 임상 시험 타이틀 데이터를 공백을 기준으로 단어를 추출한다.
그 후, 임상 시험 주요 키워드 예측 서버(200)는 단어 각각에 대한 형태소 분석을 실행하여 단어 및 형태소 값이 쌍으로 형성된 토큰을 생성하고, 토큰을 미리 학습된 학습 모델에 입력한다.
마지막으로, 임상 시험 주요 키워드 예측 서버(200)는 학습 모델에서 상기 질문 데이터의 토큰과 매칭되는 토큰을 추출하고, 토큰에 미리 할당된 가중치 및 미리 할당된 레이블이 지시하는 빈도 수를 기초로 상기 토큰을 정렬한다.
이와 같은 이유는, 학습 모델에서 상기 질문 데이터의 토큰과 매칭되는 토큰의 양이 많더라도 가중치가 높고 빈도 수가 높은 토큰의 경우 질문 데이터의 토큰과 유사하기 때문이다.
따라서, 임상 시험 주요 키워드 예측 서버(200)는 토큰을 정렬화한 후 토큰을 텍스트로 변환하여 사용자 단말(100_1~100_N)에 제공한다.
도 2는 본 발명의 일 실시예에 따른 임상 시험 주요 키워드 예측 서버의 내부 구조를 설명하기 위한 블록도이다.
도 2를 참조하면, 임상 시험 주요 키워드 예측 서버(200)는 전처리부(210), 임상 불용어 데이터베이스(220), 학습 모델 생성부(230), 키워드 질의부(240) 및 키워드 추출부(250)를 포함한다.
전처리부(210)는 임상 시험 데이터베이스에서 임상 시험 데이터에 대한 임상 시험 타이틀 데이터를 수신하고, 임상 불용어 데이터베이스(220)를 기초로 임상 시험 타이틀 데이터에 대한 전처리를 실행한다.
일 실시예에서, 전처리부(210)는 임상 시험 타이틀 데이터에서 임상 불용어 데이터베이스(220)에 저장된 미리 결정된 임상 불이용 단어를 삭제한다.
예를 들어, 전처리부(210)는 임상 시험 타이틀 데이터 “A Randomized, Double Blind Trial of LdT (Telbivudine) Versus Lamivudine in Adults With Compensated Chronic Hepatitis B”를 수신하면, 미리 결정된 임상 불이용 단어인 “A”, “of”, “in”, “with”, “B”를 삭제한다.
다른 일 실시예에서, 전처리부(210)는 임상 시험 타이틀 데이터에서 임상 불용어 데이터베이스(220)에 저장된 미리 결정된 임상 불이용 품사를 삭제한다. 이때, 임상 품사는 관사, 전치사, 접속사, 감탄사 등을 포함할 수 있다.
그런 다음, 전처리부(210)는 미리 결정된 임상 불용어가 삭제된 임상 시험 타이틀 데이터를 공백을 기준으로 단어를 추출하고, 미리 생성된 단어 별 빈도 수 데이터베이스를 기초로 단어의 빈도 수를 측정한다.
예를 들어, 미리 생성된 단어 별 빈도 수 데이터베이스에 “Chronic”에 저장된 빈도 수가 1000인 경우, 임상 시험 주요 키워드 예측 서버(200)는 “Chronic”의 빈도 수를 1000으로 결정한다.
그 후, 전처리부(210)는 단어 각각에 대한 형태소 분석을 실행하여 단어 및 형태소 값이 쌍으로 이루어지고, 빈도 수를 지시하는 레이블이 할당된 토큰을 생성한다.
예를 들어, 전처리부(210)는 미리 결정된 임상 불용어가 삭제된 임상 시험 타이틀을 (빈도 수: 1000번, (단어, 형태소 값)), (빈도 수: 234번, (단어, 형태소)), (빈도수: 2541번, (단어, 형태소)), (빈도수: 2516(단어, 형태소)) … 등의 토큰을 생성할 수 있다.
학습 모델 생성부(230)는 전처리부(210)에 의해 생성된 토큰 각각에 대해서 해당 토큰의 단어 및 토큰의 레이블에 따라 토큰 각각에 서로 다른 가중치를 부여한다.
즉, 학습 모델 생성부(230)는 토큰 각각에 대해서 해당 토큰의 단어를 구현하는 언어의 종류(즉, 영어, 중국어, 한국어 등), 단어가 임상 시험 타이틀에서 존재하는 위치 및 토큰에 할당된 레이블의 빈도 수에 따라 서로 다른 가중치를 부여한다.
먼저, 학습 모델 생성부(230)는 하기의 [수학식 1]을 기초로 임상 시험 타이틀에서 생성된 전체 토큰의 개수 및 각각의 토큰의 순서를 이용하여 제1 가중치를 산출한다.
[수학식 1]
Figure 112020114074889-pat00001
W1: 토큰의 제1 가중치,
input_data: 임상 시험 타이틀,
token(): 임상 시험 타이틀에 대한 토큰화를 실행한 후 전체 토큰의 개수를 반환하는 함수,
token_i: 전체 토큰의 개수 중 i 번째 토큰의 번호,
i: 토큰의 위치를 지시하는 번호,
L: 언어의 종류에 따라 미리 결정된 중요 값
즉, 학습 모델 생성부(230)는 [수학식 1]을 기초로 전체 토큰의 개수를 기준으로 토큰의 순서가 어느 정도인지 여부 및 언어의 종류에 따라 미리 결정된 중요 값에 제1 가중치를 산출한다.
예를 들어, 학습 모델 생성부(230)는 전체 토큰의 개수가 12개 이고 토큰의 순서가 4번째인 경우, “0.25”를 산출하고, 언어의 종류에 따라 미리 결정된 중요 값을 반영하여 제1 가중치를 산출할 수 있다.
이때, 언어의 종류에 따라 미리 결정된 중요 값은 언어의 종류 별로 중요한 단어가 어느 위치에 나타내는지 여부에 따라 변경될 수 있다. 즉, 언어의 종류에 따라 미리 결정된 중요 값은 현재 토큰의 번호에 따라 변경될 수 있다.
그런 다음, 학습 모델 생성부(230)는 하기의 [수학식 2] 및 [수학식 3]을 기초로 토큰 각각에 대해서 토큰에 미리 할당된 레이블이 지시하는 빈도 수와 이전 토큰 및 다음 토큰 각각에 미리 할당된 레이블이 지시하는 빈도 수를 이용하여 제2 가중치를 산출할 수 있다.
[수학식 2]
Figure 112020114074889-pat00002
Difference_value: 빈도 수의 평균 값
token_i: 전체 토큰의 개수 중 i 번째 토큰,
token_i-1: 전체 토큰의 개수 중 i 번째 토큰의 이전 토큰,
token_i+1: 전체 토큰의 개수 중 i 번째 토큰의 다음 토큰,
f(): 토큰에 할당된 레이블이 지시하는 빈도 수를 추출하는 함수,
i: 토큰의 위치를 지시하는 번호
[수학식 3]
Figure 112020114074889-pat00003
W2: 토큰의 제2 가중치,
Difference_Value: [수학식 2]에서 산출된 빈도 수의 평균 값,
Threshold: 임계값
상기와 같이, 학습 모델 생성부(230)는 [수학식 1] 내지 [수학식 3]를 기초로 제1 가중치 및 제2 가중치를 산출하여 할당한다.
그런 다음, 학습 모델 생성부(230)는 토큰을 벡터화한 후 학습시켜 학습 모델을 생성한다. 이러한 학습 모델은 추후에 사용자 단말(100_1~100_N)로부터 질문 데이터를 수신한 경우 질문 데이터에 해당하는 키워드를 추출할 수 있도록 하는 모델이다.
키워드 질의부(240)는 사용자 단말(100_1~100_N)로부터 질문 데이터를 수신하면, 질문 데이터에서 미리 결정된 임상 불이용 단어를 삭제하고, 미리 결정된 임상 불이용 단어가 삭제된 임상 시험 타이틀 데이터를 공백을 기준으로 단어를 추출한다.
그 후, 키워드 질의부(240)는 단어 각각에 대한 형태소 분석을 실행하여 단어 및 형태소 값이 쌍으로 형성된 토큰을 생성하고, 토큰을 미리 학습된 학습 모델에 입력한다.
키워드 추출부(250)는 학습 모델 생성부(230)에 의해 생성된 학습 모델에 질문 데이터에 대한 토큰을 입력하면, 학습 모델에서 질문 데이터에 대한 토큰과 매칭되는 토큰을 추출한 후 토큰을 텍스트로 변환하여 사용자 단말(100_1~100_N)에 제공한다.
일 실시예에서, 키워드 추출부(250)는 학습 모델에서 질문 데이터에 대한 토큰과 매칭되는 토큰을 추출하고, 추출된 토큰에 미리 할당된 가중치 및 미리 할당된 레이블이 지시하는 빈도 수를 기초로 상기 토큰을 정렬한다.
이와 같은 이유는, 학습 모델에서 상기 질문 데이터의 토큰과 매칭되는 토큰의 양이 많더라도 가중치가 높고 빈도 수가 높은 토큰의 경우 질문 데이터의 토큰과 유사하기 때문이다.
따라서, 키워드 추출부(250)는 토큰을 정렬화한 후 토큰을 텍스트로 변환하여 사용자 단말(100_1~100_N)에 제공한다.
도 3은 본 발명에 따른 임상 시험 주요 키워드 예측 방법의 일 실시예를 설명하기 위한 흐름도이다. 도 3에 개시된 일 실시예는 임상 시험 주요 키워드를 예측하기 위한 학습 모델을 생성할 수 있는 일 실시예에 관한 것이다.
도 3을 참조하면, 임상 시험 주요 키워드 예측 장치(200)는 임상 시험 타이틀 데이터에서 미리 결정된 임상 불이용 단어를 삭제한다(단계 S310).
단계 S310에 대한 일 실시예에서, 임상 시험 주요 키워드 예측 장치(200)는 질문 데이터에서 임상 불용어 데이터베이스(220)에 저장된 미리 결정된 임상 불이용 단어를 삭제한다.
단계 S310에 대한 다른 일 실시예에서, 임상 시험 주요 키워드 예측 장치(200)는 질문 데이터에서 임상 불용어 데이터베이스(220)에 저장된 미리 결정된 임상 불이용 품사를 삭제한다. 이때, 임상 품사는 관사, 전치사, 접속사, 감탄사 등을 포함할 수 있다.
임상 시험 주요 키워드 예측 장치(200)는 미리 결정된 임상 불이용 단어가 삭제된 임상 시험 타이틀 데이터를 공백을 기준으로 단어를 추출한다(단계 S320).
임상 시험 주요 키워드 예측 장치(200)는 미리 생성된 단어 별 빈도 수 데이터베이스를 기초로 상기 단어의 빈도 수를 측정한다(단계 S330).
임상 시험 주요 키워드 예측 장치(200)는 단어 각각에 대한 형태소 분석을 실행하여 단어 및 형태소 값이 쌍으로 이루어지고, 상기 빈도 수를 지시하는 레이블이 할당된 토큰을 생성한다(단계 S340).
임상 시험 주요 키워드 예측 장치(200)는 데이터 셋의 토큰 각각에 대해서 해당 토큰의 단어 및 상기 토큰에 할당된 레이블을 기초로 상기 토큰에 서로 다른 가중치를 부여한다(단계 S350).
임상 시험 주요 키워드 예측 장치(200)는 토큰을 벡터화한 후 학습시켜 학습 모델을 생성한다(단계 S360).
도 4는 본 발명에 따른 임상 시험 주요 키워드 예측 방법의 다른 일 실시예를 설명하기 위한 흐름도이다. 도 4에 개시된 일 실시예는 학습 모델을 기초로 사용자 단말로부터 수신된 질문 데이터에 해당하는 키워드를 예측하여 제공할 수 있는 일 실시예에 관한 것이다.
도 4를 참조하면, 임상 시험 주요 키워드 예측 장치(200)는 사용자 단말(100_1~100_N)로부터 수신된 질문 데이터에서 미리 결정된 임상 불이용 단어를 삭제한다(단계 S410).
단계 S410에 대한 일 실시예에서, 임상 시험 주요 키워드 예측 장치(200)는 질문 데이터에서 임상 불용어 데이터베이스(220)에 저장된 미리 결정된 임상 불이용 단어를 삭제한다.
단계 S410에 대한 다른 일 실시예에서, 임상 시험 주요 키워드 예측 장치(200)는 질문 데이터에서 임상 불용어 데이터베이스(220)에 저장된 미리 결정된 임상 불이용 품사를 삭제한다. 이때, 임상 품사는 관사, 전치사, 접속사, 감탄사 등을 포함할 수 있다.
임상 시험 주요 키워드 예측 장치(200)는 미리 결정된 임상 불이용 단어가 삭제된 질문 데이터를 공백을 기준으로 단어를 추출한다(단계 S420).
임상 시험 주요 키워드 예측 장치(200)는 단어 각각에 대한 형태소 분석을 실행하여 단어 및 형태소 값이 쌍으로 이루어진 토큰을 생성한다(단계 S430).
예를 들어, 임상 시험 주요 키워드 예측 장치(200)는 미리 결정된 임상 불용어가 삭제된 질문 데이터를 (단어, 형태소 값), (단어, 형태소), (단어, 형태소), (단어, 형태소) … 등의 토큰을 생성할 수 있다.
임상 시험 주요 키워드 예측 장치(200)는 단계 S330에서 생성된 질문 데이터에 대한 토큰을 미리 생성된 학습 모델에 입력한다(단계 S440).
임상 시험 주요 키워드 예측 장치(200)는 학습 모델에서 질문 데이터에 대한 토큰과 매칭되는 토큰을 추출한 후(단계 S450), 토큰을 텍스트로 변환하여 사용자 단말(100_1~100_N)에 제공한다(단계 S460).
한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.
100_1~100_N: 사용자 단말,
200: 임상 시험 주요 키워드 예측 서버,
210: 전처리부,
220: 임상 불용어 데이터베이스,
230: 학습 모델 생성부,
240: 키워드 질의부,
250: 키워드 추출부

Claims (4)

  1. 임상 시험 주요 키워드 예측 장치에서 실행되는 임상 시험 주요 키워드 예측 방법에 있어서,
    사용자 단말로부터 질문 데이터를 수신하면, 상기 질문 데이터에서 미리 결정된 임상 불이용 단어를 삭제하는 단계;
    상기 미리 결정된 임상 불이용 단어가 삭제된 임상 시험 타이틀 데이터를 공백을 기준으로 단어를 추출하는 단계;
    상기 단어 각각에 대한 형태소 분석을 실행하여 단어 및 형태소 값이 쌍으로 형성된 토큰을 생성하는 단계;
    상기 토큰을 미리 학습된 학습 모델에 입력하고, 상기 학습 모델에서 상기 질문 데이터의 토큰과 매칭되는 토큰을 추출하는 단계;
    상기 토큰에 미리 할당된 가중치 및 미리 할당된 레이블이 지시하는 빈도 수를 기초로 상기 토큰을 정렬하는 단계; 및
    상기 정렬된 토큰을 텍스트로 변환하여 상기 사용자 단말에 제공하는 단계를 포함하고,
    임상 시험 타이틀 데이터에서 미리 결정된 임상 불이용 단어를 삭제하고, 미리 결정된 임상 불이용 단어가 삭제된 임상 시험 타이틀 데이터를 공백을 기준으로 단어를 추출하는 단계;
    상기 단어 각각에 대한 형태소 분석을 실행하여 단어 및 형태소 값이 쌍으로 이루어지고, 빈도 수를 지시하는 레이블이 할당된 토큰을 생성하는 단계;
    상기 토큰 각각에 대해서 해당 토큰의 단어 및 토큰의 레이블에 따라 토큰 각각에 서로 다른 가중치를 부여하는 단계; 및
    상기 토큰을 벡터화한 후 학습시켜 상기 학습 모델을 생성하는 단계를 더 포함하고,
    상기 토큰 각각에 대해서 해당 토큰의 단어 및 토큰의 레이블에 따라 토큰 각각에 서로 다른 가중치를 부여하는 단계는
    상기 임상 시험 타이틀 데이터에서 생성된 전체 토큰의 개수 및 각각의 토큰의 순서를 이용하여 제1 가중치를 산출하고, 토큰 각각에 대해서 토큰에 미리 할당된 레이블이 지시하는 빈도 수와 이전 토큰 및 다음 토큰 각각에 미리 할당된 레이블이 지시하는 빈도 수를 이용하여 제2 가중치를 산출하여 해당 토큰에 할당하는 단계를 포함하고,
    상기 제1 가중치는
    [수학식 1]
    Figure 112021091467734-pat00008
    에 의해 산출되고,
    W1는 토큰의 제1 가중치이고, input_data는 임상 시험 타이틀이고, token()는 임상 시험 타이틀에 대한 토큰화를 실행한 후 전체 토큰의 개수를 반환하는 함수이고, token_i는 전체 토큰의 개수 중 i 번째 토큰의 번호이고, i는 토큰의 위치를 지시하는 번호이고, L는 언어의 종류에 따라 미리 결정된 중요 값을 의미하고,
    상기 제2 가중치는
    [수학식 2]
    Figure 112021091467734-pat00009

    [수학식 3]
    Figure 112021091467734-pat00010
    에 의해 산출되고,
    Difference_value는 빈도 수의 평균 값이고, token_i는 전체 토큰의 개수 중 i 번째 토큰이고, token_i-1는 전체 토큰의 개수 중 i 번째 토큰의 이전 토큰이고, token_i+1는 전체 토큰의 개수 중 i 번째 토큰의 다음 토큰이고, f()는 토큰에 할당된 레이블이 지시하는 빈도 수를 추출하는 함수이고, i는 토큰의 위치를 지시하는 번호이고, W2는 토큰의 제2 가중치이고, Difference_Value는 [수학식 2]에서 산출된 빈도 수의 평균 값이고, Threshold는 임계값인 것을 특징으로 하는
    임상 시험 주요 키워드 예측 방법.
  2. 삭제
  3. 사용자 단말로부터 질문 데이터를 수신하면, 상기 질문 데이터에서 미리 결정된 임상 불이용 단어를 삭제하고, 상기 미리 결정된 임상 불이용 단어가 삭제된 임상 시험 타이틀 데이터를 공백을 기준으로 단어를 추출하고, 상기 단어 각각에 대한 형태소 분석을 실행하여 단어 및 형태소 값이 쌍으로 형성된 토큰을 생성하는 키워드 질의부;
    상기 토큰 각각에 대해서 해당 토큰의 단어 및 토큰의 레이블에 따라 토큰 각각에 서로 다른 가중치를 부여하고, 상기 토큰을 벡터화한 후 학습시켜 학습 모델을 생성하는 학습 모델 생성부;
    임상 시험 타이틀 데이터에서 미리 결정된 임상 불이용 단어를 삭제하고, 미리 결정된 임상 불이용 단어가 삭제된 임상 시험 타이틀 데이터를 공백을 기준으로 단어를 추출하고, 상기 단어 각각에 대한 형태소 분석을 실행하여 단어 및 형태소 값이 쌍으로 이루어지고, 빈도 수를 지시하는 레이블이 할당된 토큰을 생성하는 전처리부; 및
    상기 학습 모델에서 상기 질문 데이터의 토큰과 매칭되는 토큰을 추출하고, 상기 토큰에 미리 할당된 가중치 및 미리 할당된 레이블이 지시하는 빈도 수를 기초로 상기 토큰을 정렬하고, 상기 정렬된 토큰을 텍스트로 변환하여 상기 사용자 단말에 제공하는 키워드 추출부를 포함하고,
    상기 학습 모델 생성부는
    상기 임상 시험 타이틀 데이터에서 생성된 전체 토큰의 개수 및 각각의 토큰의 순서를 이용하여 제1 가중치를 산출하고, 토큰 각각에 대해서 토큰에 미리 할당된 레이블이 지시하는 빈도 수와 이전 토큰 및 다음 토큰 각각에 미리 할당된 레이블이 지시하는 빈도 수를 이용하여 제2 가중치를 산출하여 해당 토큰에 할당하고,
    상기 제1 가중치는
    [수학식 1]
    Figure 112021502638708-pat00011
    에 의해 산출되고,
    W1는 토큰의 제1 가중치이고, input_data는 임상 시험 타이틀이고, token()는 임상 시험 타이틀에 대한 토큰화를 실행한 후 전체 토큰의 개수를 반환하는 함수이고, token_i는 전체 토큰의 개수 중 i 번째 토큰의 번호이고, i는 토큰의 위치를 지시하는 번호이고, L는 언어의 종류에 따라 미리 결정된 중요 값을 의미하고,
    상기 제2 가중치는
    [수학식 2]
    Figure 112021502638708-pat00012

    [수학식 3]
    Figure 112021502638708-pat00013
    에 의해 산출되고,
    Difference_value는 빈도 수의 평균 값이고, token_i는 전체 토큰의 개수 중 i 번째 토큰이고, token_i-1는 전체 토큰의 개수 중 i 번째 토큰의 이전 토큰이고, token_i+1는 전체 토큰의 개수 중 i 번째 토큰의 다음 토큰이고, f()는 토큰에 할당된 레이블이 지시하는 빈도 수를 추출하는 함수이고, i는 토큰의 위치를 지시하는 번호이고, W2는 토큰의 제2 가중치이고, Difference_Value는 [수학식 2]에서 산출된 빈도 수의 평균 값이고, Threshold는 임계값인 것을 특징으로 하는
    임상 시험 주요 키워드 예측 장치.
  4. 삭제
KR1020200140279A 2020-10-27 2020-10-27 임상 시험 주요 키워드 예측 방법 및 이를 실행하는 서버 KR102318674B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020200140279A KR102318674B1 (ko) 2020-10-27 2020-10-27 임상 시험 주요 키워드 예측 방법 및 이를 실행하는 서버
PCT/KR2020/017232 WO2022092409A1 (ko) 2020-10-27 2020-11-30 임상 시험 주요 키워드 예측 방법 및 이를 실행하는 서버
US18/033,968 US20230394237A1 (en) 2020-10-27 2020-11-30 Clinical trial main keyword prediction method and server for executing same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200140279A KR102318674B1 (ko) 2020-10-27 2020-10-27 임상 시험 주요 키워드 예측 방법 및 이를 실행하는 서버

Publications (1)

Publication Number Publication Date
KR102318674B1 true KR102318674B1 (ko) 2021-10-28

Family

ID=78232434

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200140279A KR102318674B1 (ko) 2020-10-27 2020-10-27 임상 시험 주요 키워드 예측 방법 및 이를 실행하는 서버

Country Status (3)

Country Link
US (1) US20230394237A1 (ko)
KR (1) KR102318674B1 (ko)
WO (1) WO2022092409A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102464893B1 (ko) * 2022-06-03 2022-11-09 주식회사 클래스액트 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법
KR20240077601A (ko) 2022-11-24 2024-06-03 (주)서울의료정보연구소 실사용 데이터(rwd) 수집을 위한 키워드 추출과 분석을 통해 임상시험 대상자 추천 서비스를 제공할 수 있는 서버, 방법 및 프로그램

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101709055B1 (ko) * 2010-12-09 2017-02-23 한국전자통신연구원 오픈 웹 질의응답을 위한 질문분석 장치 및 방법
KR20170045403A (ko) * 2015-10-01 2017-04-27 한국외국어대학교 연구산학협력단 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템
KR101850772B1 (ko) * 2015-05-27 2018-04-23 삼성에스디에스 주식회사 의료용 메타 데이터베이스 관리 방법 및 그 장치
KR20190135129A (ko) * 2018-05-28 2019-12-06 인천대학교 산학협력단 문서 구조와 딥러닝을 이용한 문서 분류 장치 및 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011089568A1 (en) * 2010-01-21 2011-07-28 Indegene Lifesystems Pvt. Ltd. Method for organizing clinical trial data
WO2017042396A1 (en) * 2015-09-10 2017-03-16 F. Hoffmann-La Roche Ag Informatics platform for integrated clinical care
KR102226715B1 (ko) * 2018-11-21 2021-03-11 주식회사 바이오크 임상시험 데이터 검증 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101709055B1 (ko) * 2010-12-09 2017-02-23 한국전자통신연구원 오픈 웹 질의응답을 위한 질문분석 장치 및 방법
KR101850772B1 (ko) * 2015-05-27 2018-04-23 삼성에스디에스 주식회사 의료용 메타 데이터베이스 관리 방법 및 그 장치
KR20170045403A (ko) * 2015-10-01 2017-04-27 한국외국어대학교 연구산학협력단 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템
KR20190135129A (ko) * 2018-05-28 2019-12-06 인천대학교 산학협력단 문서 구조와 딥러닝을 이용한 문서 분류 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Ho Young Jeong 외, Comparison of term weighting schemes for document classifcation, The Korean Journal of Applied Statistics, 2019.04.30., Vol.32, Issue.2, pp.265-276. *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102464893B1 (ko) * 2022-06-03 2022-11-09 주식회사 클래스액트 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법
KR20240077601A (ko) 2022-11-24 2024-06-03 (주)서울의료정보연구소 실사용 데이터(rwd) 수집을 위한 키워드 추출과 분석을 통해 임상시험 대상자 추천 서비스를 제공할 수 있는 서버, 방법 및 프로그램

Also Published As

Publication number Publication date
WO2022092409A1 (ko) 2022-05-05
US20230394237A1 (en) 2023-12-07

Similar Documents

Publication Publication Date Title
Tandel et al. A survey on text mining techniques
Elmadany et al. An arabic speech-act and sentiment corpus of tweets
Tahmasebi et al. Survey of computational approaches to lexical semantic change detection
Bharti et al. Sarcastic sentiment detection in tweets streamed in real time: a big data approach
Sharma et al. Prediction of Indian election using sentiment analysis on Hindi Twitter
Mohammad et al. Semantic role labeling of emotions in tweets
El-Shishtawy et al. An accurate arabic root-based lemmatizer for information retrieval purposes
Sleeman et al. Entity type recognition for heterogeneous semantic graphs
KR102318674B1 (ko) 임상 시험 주요 키워드 예측 방법 및 이를 실행하는 서버
Rajagopal et al. Commonsense-based topic modeling
Eichler et al. Unsupervised Relation Extraction From Web Documents.
Gopan et al. Comparative study on different approaches in keyword extraction
Thakur et al. A review on text based emotion recognition system
Al-Ayyoub et al. Framework for Affective News Analysis of Arabic News: 2014 Gaza Attacks Case Study.
Jain et al. TexEmo: Conveying emotion from text-the study
KR20220075815A (ko) 유사 임상 시험 데이터 제공 방법 및 이를 실행하는 서버
Ullah et al. Pattern and semantic analysis to improve unsupervised techniques for opinion target identification
Suvorov et al. Establishing the similarity of scientific and technical documents based on thematic significance
Alabid et al. Summarizing twitter posts regarding COVID-19 based on n-grams
Basaldella et al. Exploiting and evaluating a supervised, multilanguage keyphrase extraction pipeline for under-resourced languages
Khozani et al. Specialization of keyword extraction approach to persian texts
Al-Khulaidi et al. Comparative Analysis and Evaluation of Stemming and Preprocessing Techniques for Arabic Text
Uejima et al. Improving text categorization by resolving semantic ambiguity
Abdulrahman et al. Automated Analysis of Comments on Press Articles in Websites (Articles Literature as Case Study)
Chandralekha et al. Sentiment Analysis of National Eligibility-Cum Entrance Test on Twitter Data Using Machine Learning Techniques

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant