KR20230020608A - Apparatus and method for building a pipelines to explore adverse drug reaction - Google Patents

Apparatus and method for building a pipelines to explore adverse drug reaction Download PDF

Info

Publication number
KR20230020608A
KR20230020608A KR1020210101922A KR20210101922A KR20230020608A KR 20230020608 A KR20230020608 A KR 20230020608A KR 1020210101922 A KR1020210101922 A KR 1020210101922A KR 20210101922 A KR20210101922 A KR 20210101922A KR 20230020608 A KR20230020608 A KR 20230020608A
Authority
KR
South Korea
Prior art keywords
drug
data
side effect
side effects
social
Prior art date
Application number
KR1020210101922A
Other languages
Korean (ko)
Other versions
KR102577105B1 (en
Inventor
이수현
김종엽
이승희
이충천
우혜경
Original Assignee
건양대학교산학협력단
공주대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 건양대학교산학협력단, 공주대학교 산학협력단 filed Critical 건양대학교산학협력단
Priority to KR1020210101922A priority Critical patent/KR102577105B1/en
Publication of KR20230020608A publication Critical patent/KR20230020608A/en
Application granted granted Critical
Publication of KR102577105B1 publication Critical patent/KR102577105B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Probability & Statistics with Applications (AREA)
  • Chemical & Material Sciences (AREA)
  • Mathematical Physics (AREA)
  • Medicinal Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Fuzzy Systems (AREA)
  • Toxicology (AREA)
  • Pathology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

The present invention relates to a method and an apparatus for building a pipeline to explore the side effects of a drug. The method for building a pipeline to explore the side effects of a drug according to one embodiment of the present invention comprises the steps of: accessing a social channel based on social network services (SNS) to collect at least one piece of social data related to a target drug, based on a first term set; pre-processing the collected social data; extracting data related to side effects from the preprocessed social data, based on the second term set; analyzing drug side effect patterns for the target drug according to analysis results to classify the same according to preset categories; and building or learning a drug side effect detection prediction model by using the classification results, wherein the first term set may include data sets consisting of at least one term representing at least one drug and the second term set may include a data set consisting of terms representing drug side effects. Accordingly, the side effects of the target drug can be more accurately predicted.

Description

약물 부작용 탐지를 위한 파이프라인 구축 방법 및 장치{APPARATUS AND METHOD FOR BUILDING A PIPELINES TO EXPLORE ADVERSE DRUG REACTION}Pipeline construction method and apparatus for drug side effect detection {APPARATUS AND METHOD FOR BUILDING A PIPELINES TO EXPLORE ADVERSE DRUG REACTION}

본 발명은 약물 부작용 탐지를 위한 파이프라인 구축 방법 및 장치에 관한 것으로, 보다 상세하게는 소셜 데이터 분석을 통해 약물에 대한 부작용을 탐색 및 업데이트 할 수 있도록 하는 약물 부작용 탐지를 위한 파이프라인 구축 방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for constructing a pipeline for detecting side effects of a drug, and more particularly, to a method and apparatus for constructing a pipeline for detecting side effects of a drug that enables search and update of side effects of a drug through social data analysis. It is about.

최근 전 세계적으로 고령화에 따른 약물 복용 빈도와 수량은 급격하게 증가하고 있는 추세이다. 이에 따른 약물 부작용 역시 급속하게 증가하여 환자의 안전을 위협하고 있는 실정이다. 이에 시판되고 있는 약물에 대한 새로운 부작용 또는 심각한 부작용이 있는지를 분석하여 조기에 발견하는 것이 중요한 이슈로 부각되고 있다.In recent years, the frequency and quantity of drug use are rapidly increasing due to the aging of the world. As a result, drug side effects are also rapidly increasing, threatening the safety of patients. Accordingly, it is emerging as an important issue to analyze whether there are new side effects or serious side effects of drugs on the market for early detection.

목표 약물에 대해 공공연하게 알려져있는 부작용 외에도 새로운 부작용이 발생되는 경우가 있고, 또한 장기간 복용에 따른 부작용이 추가로 발생되는 경우가 있다.In addition to publicly known side effects of the target drug, new side effects may occur, and side effects may additionally occur due to long-term administration.

그러나, 일상생활에서 그 목표 약물을 복용하는 약물 복용자가 약물, 약물 복용 후기 데이터를 입력받아 복용에 의해 발현한 증상들을 일일이 수집 또는 모니터링 하는 것이 번거롭고 불편하여 약물에 대한 실제적인 정보를 얻는 것에는 한계가 있다. However, it is cumbersome and inconvenient for a drug taker who takes the target drug in daily life to collect or monitor the symptoms expressed by taking the drug by receiving the data of the drug and the drug intake review, so there is a limit to obtaining actual information about the drug. there is

한편, 최근 의료산업에서 소셜 네트워킹의 사용이 급속히 증가함에 따라, 많은 사람들이 자신의 감정과 경험을 소셜 네트워크 서비스(Social Network Services, SNS)에서 공유한다. 그들은 귀중한 정보를 공유하는 행위 중 하나로서 자신이 복용한(하는) 특정 약물에 대한 복용 후기를 게시물로서 게재하거나 댓글 등을 기재하여 반응한다.Meanwhile, as the use of social networking is rapidly increasing in the recent medical industry, many people share their feelings and experiences in social network services (SNS). As one of the acts of sharing valuable information, they respond by posting a review of a particular drug they have taken (or are taking) as a post or by writing comments.

이와 같이 소셜 네트워크 서비스를 통해 게재 또는 등록되는 정보들은 개개인에 의한 직접적인 복용 후기에 해당하기 때문에, 그 특정 약물에 대해 이미 알려진 부작용 외에 새로운 부작용이나 적응증과 관련한 데이터들을 포함하고 있어 유의미할 것이다.As such, information posted or registered through social network services corresponds to the individual's direct testimonials, so it will be meaningful as it includes data related to new side effects or indications in addition to the side effects already known about the specific drug.

따라서, 소셜 네트워크 서비스를 기반으로 목표 약물과 관련한 소셜데이터를 수집하여 약물 부작용의 패턴을 분석함으로써, 그 목표 약물에 의한 약물 부작용을 보다 정확하게 예측할 수 있도록 하는 기술이 개발될 필요가 있다.Therefore, it is necessary to develop a technology that can more accurately predict drug side effects caused by a target drug by analyzing patterns of drug side effects by collecting social data related to a target drug based on a social network service.

한국공개특허공보 제10-2015-0049937호 (공개일: 2015년 05월 08일)Korean Patent Publication No. 10-2015-0049937 (published on May 08, 2015)

본 발명은 상기한 바와 같은 문제점을 해결하기 위하여 제안된 것으로, 소셜 네트워크 서비스를 기반으로 목표 약물과 관련한 소셜데이터를 수집하여 약물 부작용의 패턴을 분석함으로써, 그 목표 약물에 의한 약물 부작용을 보다 정확하게 예측할 수 있도록 하는 약물 부작용 탐지를 위한 파이프라인 구축 방법 및 장치를 제공함에 있다.The present invention has been proposed to solve the above problems, and collects social data related to a target drug based on a social network service and analyzes the pattern of drug side effects to more accurately predict drug side effects caused by the target drug. An object of the present invention is to provide a pipeline construction method and apparatus for detecting side effects of a drug.

본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The problems to be solved by the present invention are not limited to the problems mentioned above, and other problems not mentioned will be clearly understood by those skilled in the art from the description below.

상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 약물 부작용 탐지를 위한 파이프라인 구축 방법은, 소셜 네트워크 서비스(Social Network Services, SNS)를 기반으로 하는 소셜 채널에 접속하여 제1 용어세트를 기반으로 목표 약물과 관련한 적어도 하나의 소셜데이터를 수집하는 단계; 상기 수집된 소셜데이터를 전처리하는 단계; 제2 용어세트를 기반으로 상기 전처리된 소셜데이터 중 부작용 관련 데이터를 추출하여 탐색적 데이터 분석을 수행하는 단계; 상기 분석 결과에 따라 상기 목표 약물에 대한 약물 부작용 패턴을 분석하여 미리 설정된 카테고리에 따라 분류하는 단계; 및 상기 분류 결과를 이용하여 약물 부작용 탐지 예측 모델을 구축 또는 학습하는 단계를 포함하며, 상기 제1 용어세트는 적어도 하나의 약물 각각을 나타내는 적어도 하나의 용어로 구성된 데이터 세트들을 포함하며, 상기 제2 용어세트는 약물 부작용을 나타내는 용어로 구성된 데이터 세트를 포함할 수 있다.In order to solve the above problems, a pipeline construction method for drug side effect detection according to an embodiment of the present invention accesses a social channel based on Social Network Services (SNS) to obtain a first term set. collecting at least one piece of social data related to a target drug based on; pre-processing the collected social data; performing exploratory data analysis by extracting data related to side effects from the preprocessed social data based on a second term set; Analyzing a drug side effect pattern for the target drug according to the analysis result and classifying it according to a preset category; and constructing or learning a drug side effect detection prediction model using the classification result, wherein the first term set includes data sets composed of at least one term representing each of at least one drug, and wherein the second A term set may include a data set composed of terms representing adverse drug reactions.

한편, 본 발명의 일 실시예에 따른 약물 부작용 탐지를 위한 파이프라인 구축 장치는, 통신모듈; 상기 약물 부작용 탐지를 위한 파이프라인을 구축하기 위한 적어도 하나의 정보 또는 데이터를 저장하는 저장모듈; 소셜 네트워크 서비스(Social Network Services, SNS)를 기반으로 하는 소셜 채널에 접속하여 제1 용어세트를 기반으로 목표 약물과 관련한 적어도 하나의 소셜데이터를 수집하여 전처리하고, 제2 용어세트를 기반으로 상기 전처리된 소셜데이터 중 부작용 관련 데이터를 추출하여 탐색적 데이터 분석을 수행한 후, 상기 분석 결과에 따라 상기 목표 약물에 대한 약물 부작용 패턴을 분석하여 미리 설정된 카테고리에 따라 분류하는 분석모듈; 상기 분류 결과를 이용하여 약물 부작용 탐지 예측 모델을 구축 또는 학습하는 학습모듈; 및 상기 제1 용어세트를 기반으로 목표 약물과 관련한 적어도 하나의 소셜데이터를 수집하여 전처리하고, 상기 제2 용어세트를 기반으로 상기 전처리된 소셜데이터 중 부작용 관련 데이터를 추출하여 탐색적 데이터 분석을 수행하고, 상기 분석 결과에 따라 상기 목표 약물에 대한 약물 부작용 패턴을 분석하여 미리 설정된 카테고리에 따라 분류한 후, 상기 분류 결과를 이용하여 약물 부작용 탐지 예측 모델을 구축 또는 학습하도록 제어하는 제어모듈을 포함하며, 상기 제1 용어세트는 적어도 하나의 약물 각각을 나타내는 적어도 하나의 용어로 구성된 데이터 세트들을 포함하며, 상기 제2 용어세트는 약물 부작용을 나타내는 용어로 구성된 데이터 세트를 포함할 수 있다.On the other hand, an apparatus for constructing a pipeline for detecting side effects of drugs according to an embodiment of the present invention includes a communication module; a storage module for storing at least one piece of information or data for constructing a pipeline for detecting the side effect of the drug; At least one social data related to a target drug is collected and pre-processed based on a first term set by accessing a social channel based on Social Network Services (SNS), and pre-processed based on a second term set. an analysis module for performing exploratory data analysis by extracting data related to side effects from social data, analyzing patterns of drug side effects for the target drug according to the analysis results, and classifying them according to preset categories; a learning module for constructing or learning a drug side effect detection prediction model using the classification result; and collecting and pre-processing at least one social data related to a target drug based on the first term set, and performing exploratory data analysis by extracting data related to side effects from the pre-processed social data based on the second term set. and a control module for controlling to construct or learn a drug side effect detection prediction model using the classification result after analyzing the drug side effect pattern for the target drug according to the analysis result and classifying it according to a preset category, , The first term set may include data sets composed of at least one term representing each of at least one drug, and the second term set may include a data set composed of terms representing drug side effects.

본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.Other specific details of the invention are included in the detailed description and drawings.

본 발명에 의하면, 소셜 네트워크 서비스를 기반으로 목표 약물과 관련한 소셜데이터를 수집하여 약물 부작용의 패턴을 분석함으로써, 그 목표 약물에 의한 약물 부작용을 보다 정확하게 예측할 수 있도록 한다.According to the present invention, by collecting social data related to a target drug based on a social network service and analyzing a pattern of drug side effects, it is possible to more accurately predict drug side effects caused by the target drug.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The effects of the present invention are not limited to the effects mentioned above, and other effects not mentioned will be clearly understood by those skilled in the art from the description below.

도 1은 본 발명의 실시예에 따른 약물 부작용 탐지를 위한 파이프라인 구축 장치의 구성을 나타내는 블록도이다.
도 2는 본 발명의 실시예에 따른 약물 부작용 탐지를 위한 파이프라인 구축 방법을 나타내는 순서도이다.
도 3은 본 발명의 실시예에 따른 약물 부작용 탐지를 위한 파이프라인을 개략적으로 나타내는 도면이다.
도 4는 본 발명의 실시예에 따른 약물 부작용 탐지를 위한 파이프라인 구축을 위해 사용되는 제2 용어세트의 생성 절차를 나타내는 도면이다.
도 5a는 본 발명의 실시예에 따른 약물 부작용 탐지를 위한 파이프라인 구축 시에 약물 부작용 패턴을 분석하는 제1 실시예를 나타내는 도면이다.
도 5b은 본 발명의 실시예에 따른 약물 부작용 탐지를 위한 파이프라인 구축 시에 약물 부작용 패턴을 분석하는 제2 실시예를 나타내는 도면이다.
도 5c은 본 발명의 실시예에 따른 약물 부작용 탐지를 위한 파이프라인 구축 시에 약물 부작용 패턴을 분석하는 제3 실시예를 나타내는 도면이다.
1 is a block diagram showing the configuration of a pipeline construction apparatus for detecting side effects of drugs according to an embodiment of the present invention.
2 is a flowchart illustrating a method for constructing a pipeline for detecting side effects of drugs according to an embodiment of the present invention.
3 is a diagram schematically illustrating a pipeline for detecting side effects of drugs according to an embodiment of the present invention.
4 is a diagram illustrating a procedure for generating a second term set used for constructing a pipeline for detecting side effects of drugs according to an embodiment of the present invention.
5A is a diagram showing a first embodiment of analyzing a drug side effect pattern when constructing a pipeline for detecting side effect drug according to an embodiment of the present invention.
5B is a diagram illustrating a second embodiment of analyzing a drug side effect pattern when constructing a pipeline for detecting side effect drug according to an embodiment of the present invention.
5C is a diagram showing a third embodiment of analyzing a drug side effect pattern when constructing a pipeline for detecting side effect drug according to an embodiment of the present invention.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. Advantages and features of the present invention, and methods of achieving them, will become clear with reference to the detailed description of the following embodiments taken in conjunction with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but may be implemented in various different forms, only these embodiments are intended to complete the disclosure of the present invention, and are common in the art to which the present invention belongs. It is provided to fully inform the person skilled in the art of the scope of the invention, and the invention is only defined by the scope of the claims.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.Terminology used herein is for describing the embodiments and is not intended to limit the present invention. In this specification, singular forms also include plural forms unless specifically stated otherwise in a phrase. As used herein, "comprises" and/or "comprising" does not exclude the presence or addition of one or more other elements other than the recited elements. Like reference numerals throughout the specification refer to like elements, and “and/or” includes each and every combination of one or more of the recited elements. Although "first", "second", etc. are used to describe various components, these components are not limited by these terms, of course. These terms are only used to distinguish one component from another. Accordingly, it goes without saying that the first element mentioned below may also be the second element within the technical spirit of the present invention.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.Unless otherwise defined, all terms (including technical and scientific terms) used in this specification may be used with meanings commonly understood by those skilled in the art to which the present invention belongs. In addition, terms defined in commonly used dictionaries are not interpreted ideally or excessively unless explicitly specifically defined.

공간적으로 상대적인 용어인 "아래(below)", "아래(beneath)", "하부(lower)", "위(above)", "상부(upper)" 등은 도면에 도시되어 있는 바와 같이 하나의 구성요소와 다른 구성요소들과의 상관관계를 용이하게 기술하기 위해 사용될 수 있다. 공간적으로 상대적인 용어는 도면에 도시되어 있는 방향에 더하여 사용시 또는 동작시 구성요소들의 서로 다른 방향을 포함하는 용어로 이해되어야 한다. 예를 들어, 도면에 도시되어 있는 구성요소를 뒤집을 경우, 다른 구성요소의 "아래(below)"또는 "아래(beneath)"로 기술된 구성요소는 다른 구성요소의 "위(above)"에 놓여질 수 있다. 따라서, 예시적인 용어인 "아래"는 아래와 위의 방향을 모두 포함할 수 있다. 구성요소는 다른 방향으로도 배향될 수 있으며, 이에 따라 공간적으로 상대적인 용어들은 배향에 따라 해석될 수 있다.The spatially relative terms "below", "beneath", "lower", "above", "upper", etc. It can be used to easily describe a component's correlation with other components. Spatially relative terms should be understood as including different orientations of elements in use or operation in addition to the orientations shown in the drawings. For example, if you flip a component that is shown in a drawing, a component described as "below" or "beneath" another component will be placed "above" the other component. can Thus, the exemplary term “below” may include directions of both below and above. Components may also be oriented in other orientations, and thus spatially relative terms may be interpreted according to orientation.

명세서에서 사용되는 "부" 또는 "모듈"이라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부" 또는 "모듈"은 어떤 역할들을 수행한다. 그렇지만 "부" 또는 "모듈"은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부" 또는 "모듈"은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부" 또는 "모듈"은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부" 또는 "모듈"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부" 또는 "모듈"들로 결합되거나 추가적인 구성요소들과 "부" 또는 "모듈"들로 더 분리될 수 있다.The term "unit" or "module" used in the specification means a hardware component such as software, FPGA or ASIC, and "unit" or "module" performs certain roles. However, "unit" or "module" is not meant to be limited to software or hardware. A "unit" or "module" may be configured to reside in an addressable storage medium and may be configured to reproduce one or more processors. Thus, as an example, a “unit” or “module” may refer to components such as software components, object-oriented software components, class components, and task components, processes, functions, properties, procedures, subroutines, segments of program code, drivers, firmware, microcode, circuitry, data, databases, data structures, tables, arrays and variables. Functions provided within components and "units" or "modules" may be combined into fewer components and "units" or "modules" or may be combined into additional components and "units" or "modules". can be further separated.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.Unless otherwise defined, all terms (including technical and scientific terms) used in this specification may be used with meanings commonly understood by those skilled in the art to which the present invention belongs. In addition, terms defined in commonly used dictionaries are not interpreted ideally or excessively unless explicitly specifically defined.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 실시예에 따른 약물 부작용 탐지를 위한 파이프라인 구축 장치의 구성을 나타내는 블록도이다.1 is a block diagram showing the configuration of a pipeline construction apparatus for detecting side effects of drugs according to an embodiment of the present invention.

도 1을 참조하면, 약물 부작용 예측를 위한 파이프라인 구축 장치(이하, ‘구축 장치’라 칭함)(100)는 통신모듈(110), 저장모듈(130), 분석모듈(150), 학습모듈(170) 및 제어모듈(190)을 포함하여 구성된다.Referring to FIG. 1, an apparatus for constructing a pipeline for predicting adverse drug reactions (hereinafter referred to as 'construction apparatus') 100 includes a communication module 110, a storage module 130, an analysis module 150, and a learning module 170 ) and a control module 190.

통신모듈(110)은 약물 부작용 탐지를 위한 파이프라인 구축을 위해 필요한 각종 정보 또는 데이터들을 외부 장치와 송수신한다. 구체적으로, 이 통신모듈(110)을 통해 소셜 네트워크 서비스(포털 사이트, 메신저 서비스 등)에 접속(접근)하여 소셜데이터들을 수집할 수 있다. 즉, 이 통신모듈(110)은 다른 단말, 서버, 장치 등과의 통신을 수행하기 위한 것으로, 무선 인터넷 기술들에 따른 통신망에서 무선 신호를 송수신하도록 한다. The communication module 110 transmits and receives various types of information or data necessary for constructing a pipeline for detecting side effects of drugs with an external device. Specifically, social data may be collected by accessing (accessing) a social network service (portal site, messenger service, etc.) through the communication module 110 . That is, the communication module 110 is for performing communication with other terminals, servers, devices, etc., and transmits and receives wireless signals in a communication network according to wireless Internet technologies.

무선 인터넷 기술로는, 예를 들어 WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), Wi-Fi(Wireless Fidelity) Direct, DLNA(Digital Living Network Alliance), WiBro(Wireless Broadband), WiMAX(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced) 등이 있으며, 식사 모니터링 장치(100)는 앞에서 나열되지 않은 인터넷 기술까지 포함한 범위에서 적어도 하나의 무선 인터넷 기술에 따라 데이터를 송수신하게 된다.Wireless Internet technologies include, for example, WLAN (Wireless LAN), Wi-Fi (Wireless-Fidelity), Wi-Fi (Wireless Fidelity) Direct, DLNA (Digital Living Network Alliance), WiBro (Wireless Broadband), WiMAX (World Interoperability for Microwave Access), HSDPA (High Speed Downlink Packet Access), HSUPA (High Speed Uplink Packet Access), LTE (Long Term Evolution), LTE-A (Long Term Evolution-Advanced), etc. ) transmits and receives data according to at least one wireless Internet technology within a range including Internet technologies not listed above.

근거리 통신(Short range communication)을 위한 것으로서, 블루투스(Bluetooth™RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), UWB(Ultra Wideband), ZigBee, NFC(Near Field Communication), Wi-Fi(Wireless-Fidelity), Wi-Fi Direct, Wireless USB(Wireless Universal Serial Bus) 기술 중 적어도 하나를 이용하여, 근거리 통신을 지원할 수 있다. 이러한, 근거리 무선 통신망(Wireless Area Networks)을 구축 장치(100)와 외부 장치 간 무선 통신을 지원할 수 있다. 이때, 근거리 무선 통신망은 근거리 무선 개인 통신망(Wireless Personal Area Networks)일 수 있다.As for short range communication, Bluetooth™ RFID (Radio Frequency Identification), infrared communication (Infrared Data Association; IrDA), UWB (Ultra Wideband), ZigBee, NFC (Near Field Communication), Wi-Fi (Wireless-Fidelity), Wi-Fi Direct, and wireless USB (Wireless Universal Serial Bus) technology, and support for short-range communication using at least one of these, the apparatus 100 for establishing such a wireless local area network (Wireless Area Networks) Wireless communication between the device and an external device may be supported In this case, the local area wireless communication network may be a local area wireless personal area network.

저장모듈(130)은 약물 관련 정보로서 적어도 하나의 용어 세트를 저장하고, 약물 부작용 탐지를 위한 파이프라인 구축을 위해 필요한 적어도 하나의 프로세스를 저장한다.The storage module 130 stores at least one term set as drug-related information and stores at least one process necessary for constructing a pipeline for detecting side effects of a drug.

분석모듈(150)은 소셜 네트워크 서비스를 기반으로 목표 약물에 대한 소셜데이터를 수집하여 적어도 하나의 용어세트를 구축하고, 이를 기반으로 그 목표 약물에 대한 약물 부작용 패턴을 분석 및 분류한다. 여기서, 소셜 데이터는 소셜 네트워크 서비스를 기반으로 하는 포털 사이트, 메신저 서비스 등일 수 있다.The analysis module 150 collects social data on a target drug based on a social network service, constructs at least one term set, and analyzes and classifies a drug side effect pattern for the target drug based on this. Here, the social data may be a portal site based on a social network service, a messenger service, and the like.

이를 위해, 분석모듈(150)은 수집부(151), 전처리부(153), 용어생성부(155), 패턴분석부(157) 및 분류부(159)를 포함하여 구성될 수 있다.To this end, the analysis module 150 may include a collection unit 151, a pre-processing unit 153, a term generation unit 155, a pattern analysis unit 157, and a classification unit 159.

구체적으로, 수집부(151)가 소셜 네트워크에 접속하여 목표 약물과 관련한 적어도 하나의 소셜데이터를 수집하고, 전처리부(153)가 그 수집된 적어도 하나의 소셜데이터를 전처리(정제)하면, 용어생성부(155)가 그 목표 약물에 대한 적어도 하나의 용어세트를 구축한다. 이후, 패턴분석부(157)가 구축된 적어도 하나의 용어세트를 기반으로 그 수집된 소셜데이터 중 부작용 관련 데이터를 추출하여 부작용 패턴을 분석하고, 분류부(159)가 그 분석결과를 기반으로 미리 설정된 카테고리에 따라 부작용 정보를 분류한다. 이때, 미리 설정된 카테고리는 알려진 부작용, 알려지지 않은 부작용, 적응증으로 구분되어 설정될 수 있으나, 이를 한정하지 않으며, 변경 설정되거나 다른 카테고리가 더 추가될 수 있다.Specifically, when the collecting unit 151 accesses a social network, collects at least one social data related to a target drug, and the preprocessing unit 153 preprocesses (refines) the collected at least one social data, a term is generated. A section 155 builds at least one term set for the target drug. Thereafter, the pattern analysis unit 157 analyzes the side effect pattern by extracting side effect-related data from the collected social data based on the at least one constructed term set, and the classification unit 159 analyzes the side effect pattern in advance based on the analysis result. Classify side effect information according to the set category. At this time, the preset category may be divided into known side effects, unknown side effects, and indications, but is not limited thereto, and may be changed or other categories may be added.

여기서, 적어도 하나의 용어세트는 목표 약물을 나타내는(지칭하는) 용어(예를 들어, 성분, 상품 이름, 브랜드, 별칭, 줄임말 등)에 대한 데이터 세트인 제1 용어세트 및 약물 부작용과 관련된 표준화되어 공개된 데이터베이스를 기반으로 구축된 목표 약물과 관련한 약물 부작용을 나타내는 용어에 대한 데이터 세트인 제2 용어세트를 포함할 수 있다. 이때, 제1 용어세트 및 제2 용어세트는 복수의 약물들 각각에 대한 데이터 세트를 구분하여 포함할 수 있다. 다만, 파이프라인을 최초 구축할 시에 관리자 또는 작업자에 의해 입력되고, 파이프라인이 구동되며 제1 용어세트 및 제2 용어세트는 각각 업데이트 될 수 있다.Here, the at least one term set is a first term set that is a data set for terms representing (referring to) the target drug (eg, ingredient, product name, brand, alias, abbreviation, etc.) and is standardized related to drug side effects. A second term set, which is a data set for terms representing drug side effects related to a target drug, constructed based on an open database, may be included. In this case, the first term set and the second term set may separately include data sets for each of a plurality of drugs. However, when a pipeline is first constructed, it is input by a manager or a worker, the pipeline is driven, and the first term set and the second term set may be respectively updated.

한편, 분석모듈(150)은 소셜 네트워크에 접속하여 목표 약물과 관련한 적어도 하나의 소셜데이터를 수집할 시, 기구축된 제1 용어세트를 이용할 수 있다. 즉, 분석모듈(150)은 제1 용어세트에서 목표 약물에 대한 데이터 세트에 포함된 키워드를 이용하여 소셜데이터를 수집한다.Meanwhile, when the analysis module 150 accesses a social network and collects at least one piece of social data related to a target drug, it may use the pre-constructed first term set. That is, the analysis module 150 collects social data by using keywords included in the data set for the target drug in the first term set.

학습모듈(170)은 분석모듈(150)에 의해 분류된 데이터에 대한 약물 부작용 레이블링을 수행한 후, 그 레이블링 된 데이터를 학습데이터로 이용하여 약물 부작용 탐지 예측 모델을 구축 및/또는 학습한다.The learning module 170 performs drug side effect labeling on the data classified by the analysis module 150, and then builds and/or learns a drug side effect detection prediction model by using the labeled data as training data.

이때, 학습모듈(170)은 순환 신경망(Recurrent Neural Nerwork, RNN) 학습 방식에 기초하여 약물 부작용 탐지 예측 모델을 구축할 수 있는데, 순환 신경망(RNN)을 구성하는 구조로서 LSTM(Long short term memory network) 방식이 사용될 수 있다.At this time, the learning module 170 may build a drug side effect detection prediction model based on a recurrent neural network (RNN) learning method. As a structure constituting a recurrent neural network (RNN), a long short term memory network ) method can be used.

한편, 학습모듈(170)은 분류된 데이터 중에서 알려진 부작용으로 분류된 데이터를 기반으로 약물 부작용 탐지 예측 모델을 학습에 이용하고, 알려지지 않은 부작용으로 분류된 데이터가 미리 설정된 횟수 이상으로 누적되면, 이를 알려진 부작용으로 재분류하여 약물 부작용 탐지 예측 모델을 학습하는데 이용할 수 있다.On the other hand, the learning module 170 uses a drug side effect detection prediction model based on data classified as known side effects among the classified data for learning, and when the data classified as unknown side effects is accumulated more than a preset number of times, it is known. It can be reclassified as a side effect and used to learn a drug side effect detection prediction model.

제어모듈(190)은 소셜 네트워크에 접속하여 목표 약물과 관련한 적어도 하나의 소셜데이터를 수집하고, 그 수집된 적어도 하나의 소셜데이터를 전처리(정제)하면, 용어생성부(155)가 그 목표 약물에 대한 적어도 하나의 용어세트를 구축하도록 제어한다. 이후, 제어모듈(190)은 구축된 적어도 하나의 용어세트를 기반으로 그 수집된 소셜데이터 중 부작용 관련 데이터를 추출하여 부작용 패턴을 분석하고, 그 분석결과를 기반으로 미리 설정된 카테고리에 따라 부작용 정보를 분류하도록 제어한다.The control module 190 accesses a social network, collects at least one social data related to a target drug, and pre-processes (refines) the collected at least one social data, and the term generator 155 determines the target drug. Control to build at least one term set for Thereafter, the control module 190 extracts side effect-related data from the collected social data based on at least one constructed term set, analyzes the side effect pattern, and based on the analysis result, provides side effect information according to preset categories. control to classify.

도 2는 본 발명의 실시예에 따른 약물 부작용 탐지를 위한 파이프라인 구축 방법을 나타내는 순서도이다.2 is a flowchart illustrating a method for constructing a pipeline for detecting side effects of drugs according to an embodiment of the present invention.

도 2를 참조하면, 약물 부작용 탐지를 위한 파이프라인 구축을 위해 분석모듈(150)이 소셜 네트워크에 접속하여 제1 용어세트 중 목표 약물과 관련한 데이터 세트를 이용하여 그 목표 약물과 관련한 적어도 하나의 소셜데이터를 수집하여 전처리하고(S201), 제2 용어세트를 기반으로 그 전처리된 소셜데이터 중 부작용 관련 데이터를 추출하여 부작용 패턴을 분석한다(S203).Referring to FIG. 2 , in order to build a pipeline for detecting adverse drug reactions, the analysis module 150 accesses a social network and uses a data set related to a target drug in the first term set to generate at least one social network related to the target drug. Data is collected and preprocessed (S201), and side effect patterns are analyzed by extracting side effect related data from the preprocessed social data based on the second term set (S203).

이후, 그 분석 결과에 따라 추출된 데이터들을 기반으로 약물 부작용에 대한 레이블링을 수행하되(S205), 이때, 레이블링은 분석모듈(150)에 의해 자동으로 수행되거나, 관리자 또는 작업자에 의해 수동으로 수행될 수 있다.Thereafter, labeling of drug side effects is performed based on the data extracted according to the analysis result (S205). At this time, the labeling may be performed automatically by the analysis module 150 or manually by a manager or operator. can

이후, 학습모듈(170)이 레이블링 된 데이터를 학습데이터로 이용하여 약물 부작용 예측 모듈을 학습한다(S207). Thereafter, the learning module 170 uses the labeled data as learning data to learn the drug side effect prediction module (S207).

도 3은 본 발명의 실시예에 따른 약물 부작용 탐지를 위한 파이프라인을 개략적으로 나타내는 도면이다. 이 파이프라인은 목표 약물에 대한 부작용을 지속적으로 또는 주기적을 예측(탐지)하고 그 결과를 업데이트할 수 있도록 한다. 여기서, 제1 용어세트 및 제2 용어세트는 사전에 미리 구축된(생성된) 것을 이용한 경우를 가정하여 설명한다.3 is a diagram schematically illustrating a pipeline for detecting side effects of drugs according to an embodiment of the present invention. This pipeline enables continuous or periodic prediction (detection) of side effects for a target drug and updates of the results. Here, the first term set and the second term set are described on the assumption that pre-constructed (generated) ones are used.

도 3을 참조하면, 구축 장치(100)는 소셜 네트워크 서비스를 기반으로 하는 소셜 채널에 접속하고(S301), 목표 약물에 대한 제1 용어세트를 기반으로 그 목표 약물에 대한 적어도 하나의 소셜데이터를 수집한다(S303).Referring to FIG. 3 , the construction device 100 accesses a social channel based on a social network service (S301), and generates at least one social data for a target drug based on a first term set for the target drug. Collect (S303).

그렇게 수집된 적어도 하나의 소셜데이터는 비정형적이고 예기지 못한 비정형 데이터로서 이를 이용하기 위해서는 전처리(정제)해야만 하는데, 이때 비정형 데이터는 자연어 처리 또는 텍스트 마이닝(text mining)을 통해 정제할 수 있다(S305).At least one social data collected in this way is unstructured and unexpected unstructured data, and must be pre-processed (refined) in order to use it. At this time, unstructured data can be refined through natural language processing or text mining (S305). .

여기서, 텍스트 마이닝이란 비정형 데이터에 대한 마이닝 과정으로서, 데이터로부터 통계적인 의미가 있는 개념이나 특성을 추출하고, 이것들 간의 패턴이나 추세 등의 고품질의 정보를 끌어내는 것이다.Here, text mining is a mining process for unstructured data, in which concepts or characteristics having statistical significance are extracted from data, and high-quality information such as patterns or trends among them is extracted.

한편, 전처리된 적어도 하나의 소셜데이터는 제2 용어세트를 기반으로 탐색적 데이터 분석을 기반으로 데이터를 분석하고(S307), 그 분석 결과를 이용하여 통해 약물 부작용 패턴을 분석한다(S309). 여기서, 탐색적 데이터 분석은 빅데이터 중에서 사용자 설정에 따라 유효 데이터를 분석하고, 그 분석된 유효 데이터를 미리 설정된 설정 옵션에 따라 축약하여 시각화하는 것일 수 있다.On the other hand, at least one preprocessed social data is analyzed based on exploratory data analysis based on the second term set (S307), and a drug side effect pattern is analyzed using the analysis result (S309). Here, the exploratory data analysis may be to analyze valid data from big data according to user settings, and reduce and visualize the analyzed valid data according to preset setting options.

여기서, 탐색적 데이터 분석은 연관성 분석 또는 워드 임베딩(word2vec) 모델을 기반으로 이뤄질 수 있다. 구체적으로, 연관성 분석은 데이터 내부에 존재하는 데이터 간의 상호관계 혹은 종속관계를 찾아내는 분석으로서, 단순하지만 명확한 결과 해석이 가능하도록 한다. 이를 통해 데이터에 대한 이해하기 쉬운 규칙을 생성하여 데이터에서 예상치 못한 지식을 발굴하는데 유용하게 활용될 수 있다. 또한, 워드 임베딩은 단어(키워드) 간 유사성을 고려하기 위해 단어의 의미를 벡터화 시켜주는 추론 기반 기법으로서, 텍스트를 정량화하여 새로운 시각으로 지식을 발굴하도록 한다. 이를 위해 단어의 의미를 최대한 담는 벡터를 생성하여 단어쌍의 유사도나 관련도를 검사하여 해석한다.Here, exploratory data analysis may be performed based on correlation analysis or word embedding (word2vec) model. Specifically, correlation analysis is an analysis that finds interrelationships or dependent relationships between data existing within data, and enables simple but clear interpretation of results. Through this, it can be usefully used to discover unexpected knowledge from data by creating easy-to-understand rules for data. In addition, word embedding is an inference-based technique that vectorizes the meaning of words in order to consider similarities between words (keywords), and quantifies text to discover knowledge from a new perspective. To this end, a vector containing the maximum meaning of a word is created, and the similarity or relevance of a word pair is examined and interpreted.

S309 단계에 의한 분석 결과에 따라 약물 부작용 패턴이 어느 하나의 카테고리로 분류되는데, 예를 들어, 그 목표 약물에 대해 이미 알려진 부작용, 알려지지 않은 부작용, 적응증 중 어느 하나의 카테고리로 분류될 수 있다.According to the analysis result in step S309, the drug side effect pattern is classified into one category, for example, it can be classified into any one of known side effects, unknown side effects, and indications for the target drug.

이후, 그 분류된 데이터 중에서 알려진 부작용으로 분류된 데이터를 기반으로 레이블링을 수행하고, 그 레이블링 된 데이터를 학습데이터로서 이용하여 약물 부작용 탐지 예측 모델을 학습한다. Thereafter, labeling is performed based on data classified as known side effects among the classified data, and a drug side effect detection prediction model is learned using the labeled data as training data.

이렇게 학습된 약물 부작용 탐지 예측 모델은 이후 수집되는 소셜데이터의 부작용을 탐지하기 위해 사용되며, 소셜데이터의 수집 및 분석이 이뤄질 때마다 그 성능이 향상됨에 따라 보다 정확한 예측 및 탐지가 가능해진다. The trained drug side effect detection prediction model is used to detect side effects of social data collected later, and as the performance improves each time social data is collected and analyzed, more accurate prediction and detection becomes possible.

도 4는 본 발명의 실시예에 따른 약물 부작용 탐지를 위한 파이프라인 구축을 위해 사용되는 제2 용어세트의 생성 절차를 나타내는 도면이다.4 is a diagram illustrating a procedure for generating a second term set used for constructing a pipeline for detecting side effects of drugs according to an embodiment of the present invention.

도 4를 참조하면, 제2 용어세트는 표준화되어 공개된 데이터베이스인 WHO-ART, SIDER를 기반으로 생성된 약물 부작용 리스트 및 사전 생성된 소비자 용어 사전을 이용하여 생성될 수 있다. 여기서, WHO-ART는 의약품 부작용 용어에 관한 국제 분류 체계를 나타내는 것으로, 이미 국내에서 ADR(Adverse Drug Reaction) 보고에 가장 널리 사용되고 있다. 또한, SIDER는 Drug-ADR 관계를 제공하는 약물 부작용 데이터 베이스로서 시판되는 의약품 및 그 의약품들에 대한 약물 부작용 정보를 포함한다. 또한, 소비자 용어 사전은 관리자 또는 작업자에 의해 정의된 것일 수 있다. 즉, 제2 용어세트는 WHO-ART 및 SIDER 등의 표준화된 세트를 활용하여 생성된다.Referring to FIG. 4 , the second term set may be generated using a list of adverse drug reactions generated based on WHO-ART and SIDER, which are standardized and open databases, and a pre-generated consumer dictionary. Here, WHO-ART represents an international classification system for terminology of adverse drug reactions, and is already most widely used in reporting ADR (Adverse Drug Reaction) in Korea. In addition, SIDER is a drug-side-effects database that provides a Drug-ADR relationship, and includes information on drug side effects on commercially available drugs and the drugs. Also, the consumer term dictionary may be defined by a manager or an operator. That is, the second term set is generated using standardized sets such as WHO-ART and SIDER.

구체적으로, WHO-ART 기반으로 약물 부작용 리스트를 생성하고(S401), SIDER 기반으로 그 약물 부작용 리스트를 보완하며(S403), 소비자 용어를 기반으로 하는 약물 부작용 리스트를 생성한 후(S405), 이들을 상호 매핑함으로써(S407), 그 결과로 제2 용어세트를 생성한다(S409).Specifically, after generating a drug side effect list based on WHO-ART (S401), supplementing the drug side effect list based on SIDER (S403), and generating a drug side effect list based on consumer terms (S405), these By mutual mapping (S407), a second term set is generated as a result (S409).

그러나, S401 단계 내지 S405 단계의 수행 순서는 규정되어 있지 않으며, 독립적으로(개별적으로) 수행될 수 있으며, 필요에 따라 자동 또는 수동으로 각각 업데이트가 개별적으로 이뤄질 수 있다.However, the order of performing steps S401 to S405 is not defined, and may be performed independently (individually), and updates may be individually performed automatically or manually as needed.

그러나, WHO-ART 및 SIDER는 표준화되어 공개된 데이터베이스의 일 예시일 뿐, 이를 한정하지 않으며, 다른 약물 체계, 약물 데이터 등을 이용할 수도 있다.However, WHO-ART and SIDER are only examples of standardized and open databases, and are not limited thereto, and other drug systems and drug data may be used.

한편, 구축 장치(100)가 소셜 네트워크 서비스를 기반으로 수집된 적어도 하나의 소셜데이터로부터 약물 부작용 패턴을 분석을 위한 탐색적 데이터 분석에 다양한 방식이 적용될 수 있다. 그 각각의 방식에 대한 예시들을 도 5a 내지 도 5c를 이용하여 설명하도록 한다.Meanwhile, various methods may be applied to exploratory data analysis for analyzing drug side effect patterns from at least one piece of social data collected by the construction device 100 based on a social network service. Examples of each method will be described using FIGS. 5A to 5C.

도 5a는 본 발명의 실시예에 따른 약물 부작용 탐지를 위한 파이프라인 구축 시에 약물 부작용 패턴을 분석하는 제1 실시예를 나타내는 도면이다.5A is a diagram showing a first embodiment of analyzing a drug side effect pattern when constructing a pipeline for detecting side effect drug according to an embodiment of the present invention.

도 5a에 따르면, 구축 장치(100)의 분석모듈(150)은 그 수집된 적어도 하나의 소셜데이터들에 등장하는 단어(키워드)들을 추출하고, 그 추출된 단어들 각각의 빈도수를 분석하여 (a)에 도시된 바와 같이 빈도표를 생성한다. According to FIG. 5A, the analysis module 150 of the construction device 100 extracts words (keywords) appearing in the collected at least one piece of social data, analyzes the frequency of each of the extracted words (a ) to generate a frequency table as shown in

또한, 그 용어들을 이용하여 (b)에 도시된 바와 같이 워드클라우드를 생성함으로써 어떤 단어가 얼마나 높은 빈도로 사용되었는지를 시각적으로 확인할 수 있도록 한다.In addition, by using the terms to create a word cloud as shown in (b), it is possible to visually check which words and how frequently they are used.

도 5b은 본 발명의 실시예에 따른 약물 부작용 탐지를 위한 파이프라인 구축 시에 약물 부작용 패턴을 분석하는 제2 실시예를 나타내는 도면이다.5B is a diagram illustrating a second embodiment of analyzing a drug side effect pattern when constructing a pipeline for detecting side effect drug according to an embodiment of the present invention.

도 5b에 따르면, 구축 장치(100)의 분석모듈(150)은 그 수집된 적어도 하나의 소셜데이터들에 등장하는 단어(키워드)들을 추출하고, 그 추출된 단어들 중 상위 n개의 연관 단어표를 생성하고, 또한 그 단어들 간의 연관성을 분석하여 시각적으로 확인할 수 있도록 시각화 그래프를 생성한다.According to FIG. 5B, the analysis module 150 of the construction device 100 extracts words (keywords) appearing in the collected at least one piece of social data, and generates a table of top n related words among the extracted words. and create a visualization graph to visually confirm by analyzing the association between the words.

도 5c은 본 발명의 실시예에 따른 약물 부작용 탐지를 위한 파이프라인 구축 시에 약물 부작용 패턴을 분석하는 제3 실시예를 나타내는 도면이다.5C is a diagram showing a third embodiment of analyzing a drug side effect pattern when constructing a pipeline for detecting side effect drug according to an embodiment of the present invention.

도 5c에 따르면, 구축 장치(100)의 분석모듈(150)은 워드임베딩 그 수집된 적어도 하나의 소셜데이터들에 등장하는 단어(키워드)들을 추출하고, 그 추출된 단어들을 임베딩 후 부작용 사전과 매칭하여 인체의 기관계(SOC) 별 부작용 패턴을 파악하고, 특정 부작용 코사인 거리순 상위 단어를 파악하여 약물 부작용 패턴을 확인할 수 있다.According to FIG. 5C, the analysis module 150 of the construction device 100 extracts words (keywords) appearing in at least one social data collected from the word embedding, and matches the extracted words with a side effect dictionary after embedding them. Thus, it is possible to identify the pattern of side effects by organ system (SOC) of the human body, and to identify the top words in the order of specific side effect cosine distance to confirm the pattern of side effects of drugs.

여기서, 워드임베딩 방법 중의 하나로서 word2vec을 이용할 수 있다.Here, word2vec can be used as one of the word embedding methods.

본 발명의 일 실시예에 따른 구축 장치(100)는 약물 부작용 탐지를 위한 파이프라인을 구축하는 서버일 수 있으며, 구축 장치(100)는 관리자 또는 작업자가 원하는 다수의 응용 프로그램(즉, 애플리케이션)을 설치하여 실행할 수 있는 컴퓨터, UMPC(Ultra Mobile PC), 워크스테이션, 넷북(net-book), PDA(Personal Digital Assistants), 포터블(portable) 컴퓨터, 웹 테블릿(web tablet), 무선 전화기(wireless phone), 모바일 폰(mobile phone), 스마트 폰(smart phone), 패드(Pad), 스마트 워치(Smart watch), 웨어러블(wearable) 단말, e-북(e-book), PMP(portable multimedia player), 휴대용 게임기, 네비게이션(navigation) 장치, 블랙 박스(black box) 또는 디지털 카메라(digital camera), 기타 이동통신 단말 등일 수 있다. 이로써, 구축 장치(100)는 파이프라인을 구축하기 위해 별도의 프로그램 또는 어플리케이션을 설치해야할 수 있다. 그러나, 이는 하나의 실시예일 뿐, 웹페이지에 접속함으로써 파이프라인을 구축하도록 할 수도 있다.The construction device 100 according to an embodiment of the present invention may be a server that builds a pipeline for detecting side effects of drugs, and the construction device 100 runs a plurality of applications (ie, applications) desired by a manager or operator. Computers that can be installed and run, Ultra Mobile PCs (UMPCs), workstations, net-books, Personal Digital Assistants (PDAs), portable computers, web tablets, wireless phones ), mobile phone, smart phone, pad, smart watch, wearable terminal, e-book, portable multimedia player (PMP), It may be a portable game device, a navigation device, a black box or digital camera, or other mobile communication terminals. Thus, the building device 100 may need to install a separate program or application to build a pipeline. However, this is only one example, and a pipeline may be constructed by accessing a web page.

본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.Steps of a method or algorithm described in connection with an embodiment of the present invention may be implemented directly in hardware, implemented in a software module executed by hardware, or implemented by a combination thereof. A software module may include random access memory (RAM), read only memory (ROM), erasable programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), flash memory, hard disk, removable disk, CD-ROM, or It may reside in any form of computer readable recording medium well known in the art to which the present invention pertains.

이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.Although the embodiments of the present invention have been described with reference to the accompanying drawings, those skilled in the art to which the present invention pertains can be implemented in other specific forms without changing the technical spirit or essential features of the present invention. you will be able to understand Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive.

100 : 파이프라인 구축 장치 110 : 통신모듈
130 : 저장모듈 150: 분석모듈
170 : 학습모듈 190: 제어모듈
151 : 수집부 153 : 전처리부
155 : 용어생성부 157 : 패턴분석부
159 : 분류부
100: pipeline building device 110: communication module
130: storage module 150: analysis module
170: learning module 190: control module
151: collection unit 153: pre-processing unit
155: term generation unit 157: pattern analysis unit
159: classification unit

Claims (5)

약물 부작용 탐지를 위한 파이프라인 구축 방법에 있어서,
소셜 네트워크 서비스(Social Network Services, SNS)를 기반으로 하는 소셜 채널에 접속하여 제1 용어세트를 기반으로 목표 약물과 관련한 적어도 하나의 소셜데이터를 수집하는 단계;
상기 수집된 소셜데이터를 전처리하는 단계;
제2 용어세트를 기반으로 상기 전처리된 소셜데이터 중 부작용 관련 데이터를 추출하여 탐색적 데이터 분석을 수행하는 단계;
상기 분석 결과에 따라 상기 목표 약물에 대한 약물 부작용 패턴을 분석하여 미리 설정된 카테고리에 따라 분류하는 단계; 및
상기 분류 결과를 이용하여 약물 부작용 탐지 예측 모델을 구축 또는 학습하는 단계를 포함하며,
상기 제1 용어세트는 적어도 하나의 약물 각각을 나타내는 적어도 하나의 용어로 구성된 데이터 세트들을 포함하며, 상기 제2 용어세트는 약물 부작용을 나타내는 용어로 구성된 데이터 세트를 포함하는 것을 특징으로 하는,
약물 부작용 탐지를 위한 파이프라인 구축 방법.
In the pipeline construction method for drug side effect detection,
accessing a social channel based on Social Network Services (SNS) and collecting at least one piece of social data related to a target drug based on a first term set;
pre-processing the collected social data;
performing exploratory data analysis by extracting data related to side effects from the preprocessed social data based on a second term set;
Analyzing a drug side effect pattern for the target drug according to the analysis result and classifying it according to a preset category; and
Building or learning a drug side effect detection prediction model using the classification result,
Characterized in that the first term set comprises data sets consisting of at least one term representing each of at least one drug, and the second term set comprises a data set consisting of terms representing drug side effects.
A method for constructing a pipeline for drug side effect detection.
제1항에 있어서,
상기 미리 설정된 카테고리는, 상기 목표 약물에 대한 알려진 부작용, 알려지지 않은 부작용 및 적응증으로 구분되어 설정되고,
상기 약물 부작용 탐지 예측 모델은, 상기 알려진 부작용으로 분류된 데이터를 학습데이터로서 이용하여 학습하되, 상기 알려지지 않은 부작용으로 분류된 데이터 중 미리 설정된 횟수 이상으로 누적된 데이터는 상기 알려진 부작용으로 재분류하여 이후 상기 약물 부작용 탐지 예측 모델을 학습하기 위한 학습데이터로서 이용하는 것을 특징으로 하는,
약물 부작용 탐지를 위한 파이프라인 구축 방법.
According to claim 1,
The preset category is set by dividing into known side effects, unknown side effects and indications for the target drug,
The drug side effect detection prediction model learns using data classified as known side effects as learning data, and among the data classified as unknown side effects, data accumulated more than a preset number of times is reclassified as known side effects, and then Characterized in that the drug side effect detection prediction model is used as learning data for learning,
A method for constructing a pipeline for drug side effect detection.
제1항에 있어서,
상기 탐색적 데이터 분석은,
상기 수집된 적어도 하나의 소셜데이터에 등장하는 키워드들을 추출하고, 그 추출된 키워드들을 이용하여 시각화된 그래프를 생성함으로써 이루지며,
상기 시각화된 그래프는 빈도 분석 기법, 연관성 분석 기법 및 워드임베딩 기법 중 어느 하나를 이용하여 생성되느 것을 특징으로 하는,
약물 부작용 탐지를 위한 파이프라인 구축 방법.
According to claim 1,
The exploratory data analysis,
This is achieved by extracting keywords appearing in the at least one collected social data and creating a visualized graph using the extracted keywords,
Characterized in that the visualized graph is generated using any one of a frequency analysis technique, an association analysis technique, and a word embedding technique,
A method for constructing a pipeline for drug side effect detection.
제1항에 있어서,
상기 제2 용어세트는,
SIDER 기반으로 확보한 상기 목표 약물에 대한 약물 부작용 리스트 및 미리 생성된 소비자 용어 사전을 WHO-ART에 매핑함으로써 생성되는 것임을 특징으로 하는,
약물 부작용 탐지를 위한 파이프라인 구축 방법.
According to claim 1,
The second term set,
Characterized in that it is generated by mapping a drug side effect list for the target drug obtained based on SIDER and a pre-generated consumer terminology dictionary to WHO-ART,
A method for constructing a pipeline for drug side effect detection.
약물 부작용 탐지를 위한 파이프라인 구축 장치에 있어서,
통신모듈;
상기 약물 부작용 탐지를 위한 파이프라인을 구축하기 위한 적어도 하나의 정보 또는 데이터를 저장하는 저장모듈;
소셜 네트워크 서비스(Social Network Services, SNS)를 기반으로 하는 소셜 채널에 접속하여 제1 용어세트를 기반으로 목표 약물과 관련한 적어도 하나의 소셜데이터를 수집하여 전처리하고, 제2 용어세트를 기반으로 상기 전처리된 소셜데이터 중 부작용 관련 데이터를 추출하여 탐색적 데이터 분석을 수행한 후, 상기 분석 결과에 따라 상기 목표 약물에 대한 약물 부작용 패턴을 분석하여 미리 설정된 카테고리에 따라 분류하는 분석모듈;
상기 분류 결과를 이용하여 약물 부작용 탐지 예측 모델을 구축 또는 학습하는 학습모듈; 및
상기 제1 용어세트를 기반으로 목표 약물과 관련한 적어도 하나의 소셜데이터를 수집하여 전처리하고, 상기 제2 용어세트를 기반으로 상기 전처리된 소셜데이터 중 부작용 관련 데이터를 추출하여 탐색적 데이터 분석을 수행하고, 상기 분석 결과에 따라 상기 목표 약물에 대한 약물 부작용 패턴을 분석하여 미리 설정된 카테고리에 따라 분류한 후, 상기 분류 결과를 이용하여 약물 부작용 탐지 예측 모델을 구축 또는 학습하도록 제어하는 제어모듈을 포함하며,
상기 제1 용어세트는 적어도 하나의 약물 각각을 나타내는 적어도 하나의 용어로 구성된 데이터 세트들을 포함하며, 상기 제2 용어세트는 약물 부작용을 나타내는 용어로 구성된 데이터 세트를 포함하는 것을 특징으로 하는,
약물 부작용 탐지를 위한 파이프라인 구축 장치.
In the pipeline construction device for detecting side effects of drugs,
communication module;
a storage module for storing at least one piece of information or data for constructing a pipeline for detecting the side effect of the drug;
At least one social data related to a target drug is collected and pre-processed based on a first term set by accessing a social channel based on Social Network Services (SNS), and pre-processed based on a second term set. an analysis module for performing exploratory data analysis by extracting data related to side effects from social data, analyzing patterns of drug side effects for the target drug according to the analysis results, and classifying them according to preset categories;
a learning module for constructing or learning a drug side effect detection prediction model using the classification result; and
Collecting and pre-processing at least one social data related to a target drug based on the first term set, extracting side effect-related data from the pre-processed social data based on the second term set, and performing exploratory data analysis; , A control module for controlling to construct or learn a drug side effect detection prediction model using the classification result after analyzing the drug side effect pattern for the target drug according to the analysis result and classifying it according to a preset category,
Characterized in that the first term set comprises data sets consisting of at least one term representing each of at least one drug, and the second term set comprises a data set consisting of terms representing drug side effects.
Pipeline construction device for drug side effect detection.
KR1020210101922A 2021-08-03 2021-08-03 Apparatus and method for building a pipelines to explore adverse drug reaction KR102577105B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210101922A KR102577105B1 (en) 2021-08-03 2021-08-03 Apparatus and method for building a pipelines to explore adverse drug reaction

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210101922A KR102577105B1 (en) 2021-08-03 2021-08-03 Apparatus and method for building a pipelines to explore adverse drug reaction

Publications (2)

Publication Number Publication Date
KR20230020608A true KR20230020608A (en) 2023-02-13
KR102577105B1 KR102577105B1 (en) 2023-09-12

Family

ID=85202642

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210101922A KR102577105B1 (en) 2021-08-03 2021-08-03 Apparatus and method for building a pipelines to explore adverse drug reaction

Country Status (1)

Country Link
KR (1) KR102577105B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116453710A (en) * 2023-06-14 2023-07-18 中国地质大学(武汉) Drug side effect prediction method and device, electronic equipment and storage medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150049937A (en) 2013-10-31 2015-05-08 한국전자통신연구원 Apparatus for gathering adverse drug event data from personal based on network, and the method of thereof
US20160092793A1 (en) * 2014-09-26 2016-03-31 Thomson Reuters Global Resources Pharmacovigilance systems and methods utilizing cascading filters and machine learning models to classify and discern pharmaceutical trends from social media posts

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150049937A (en) 2013-10-31 2015-05-08 한국전자통신연구원 Apparatus for gathering adverse drug event data from personal based on network, and the method of thereof
US20160092793A1 (en) * 2014-09-26 2016-03-31 Thomson Reuters Global Resources Pharmacovigilance systems and methods utilizing cascading filters and machine learning models to classify and discern pharmaceutical trends from social media posts

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
김현희. "의약품 부작용 예측을 위한 빅데이터 분석 기술 동향". 정보처리학회지. 제24권, 제5호, pp14-21, 2017년 9월 공개 1부.* *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116453710A (en) * 2023-06-14 2023-07-18 中国地质大学(武汉) Drug side effect prediction method and device, electronic equipment and storage medium

Also Published As

Publication number Publication date
KR102577105B1 (en) 2023-09-12

Similar Documents

Publication Publication Date Title
US10692588B2 (en) Method and system for exploring the associations between drug side-effects and therapeutic indications
Roettger et al. Emergent data analysis in phonetic sciences: Towards pluralism and reproducibility
CN110337645A (en) The processing component that can be adapted to
Dehmer et al. Generalized graph entropies
EP3047475A2 (en) System and method for evaluating a cognitive load on a user corresponding to a stimulus
US8972406B2 (en) Generating epigenetic cohorts through clustering of epigenetic surprisal data based on parameters
US20210312288A1 (en) Method for training classification model, classification method, apparatus and device
CN113792153B (en) Question and answer recommendation method and device
KR102649918B1 (en) System for recommending customized welfare policy based on large language model
CN108320798A (en) Illness result generation method and device
US20180365589A1 (en) Machine learning for ranking candidate subjects based on a training set
CN114141358A (en) Disease diagnosis apparatus based on knowledge map, computer device, and storage medium
KR102577105B1 (en) Apparatus and method for building a pipelines to explore adverse drug reaction
CN116775897A (en) Knowledge graph construction and query method and device, electronic equipment and storage medium
CN115862840A (en) Intelligent auxiliary diagnosis method and device for arthralgia diseases
Maram et al. A framework for performance analysis on machine learning algorithms using covid-19 dataset
Yadav et al. Artificial intelligence model for parkinson disease detection using machine learning algorithms
Behnisch et al. Urban data-mining: spatiotemporal exploration of multidimensional data
Dhivya et al. Square static–deep hyper optimization and genetic meta-learning approach for disease classification
EP4167128A1 (en) Signal analysis method and system based on model for acquiring and identifying noise panoramic distribution
Sun et al. Deep adversarial learning based heterogeneous defect prediction
JP2014056516A (en) Device, method and program for extracting knowledge structure out of document set
CN113990514A (en) Abnormality detection device for doctor diagnosis and treatment behavior, computer device and storage medium
De Silva et al. Performance Analysis of Machine Learning Classification Algorithms in the Case of Heart Failure Prediction
Krishnaraj et al. Big Data based medical data classification using oppositional Gray Wolf Optimization with kernel ridge regression

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant