KR20130097475A - 의료 프로세스 모델링 및 검증 방법 - Google Patents
의료 프로세스 모델링 및 검증 방법 Download PDFInfo
- Publication number
- KR20130097475A KR20130097475A KR1020120019152A KR20120019152A KR20130097475A KR 20130097475 A KR20130097475 A KR 20130097475A KR 1020120019152 A KR1020120019152 A KR 1020120019152A KR 20120019152 A KR20120019152 A KR 20120019152A KR 20130097475 A KR20130097475 A KR 20130097475A
- Authority
- KR
- South Korea
- Prior art keywords
- sentence
- medical
- clinical
- process modeling
- feature
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000008569 process Effects 0.000 title claims abstract description 17
- 238000012795 verification Methods 0.000 title description 28
- 238000000968 medical method and process Methods 0.000 claims abstract description 42
- 238000012545 processing Methods 0.000 claims abstract description 3
- 238000000605 extraction Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 19
- 230000014509 gene expression Effects 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 238000012806 monitoring device Methods 0.000 claims description 4
- 238000010200 validation analysis Methods 0.000 claims 7
- 238000004458 analytical method Methods 0.000 abstract description 7
- 238000004519 manufacturing process Methods 0.000 abstract description 5
- 230000009193 crawling Effects 0.000 abstract description 2
- 239000013598 vector Substances 0.000 description 11
- 238000012549 training Methods 0.000 description 10
- 238000013145 classification model Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 230000009466 transformation Effects 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 2
- DDRJAANPRJIHGJ-UHFFFAOYSA-N creatinine Chemical compound CN1CC(=O)NC1=N DDRJAANPRJIHGJ-UHFFFAOYSA-N 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- ZLMJMSJWJFRBEC-UHFFFAOYSA-N Potassium Chemical compound [K] ZLMJMSJWJFRBEC-UHFFFAOYSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 229940109239 creatinine Drugs 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 229910052700 potassium Inorganic materials 0.000 description 1
- 239000011591 potassium Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/22—Social work or social welfare, e.g. community support activities or counselling services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Tourism & Hospitality (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Child & Adolescent Psychology (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 의료 프로세스 모델링 및 검증 방법을 공개한다. 이 방법은 (a) 제어부가 임상 지식 자원을 수집하고 의학적 증거를 처리하여 인덱싱하는 단계; (b) 분류기 조합부가 임상 데이터 결정 지원 알고리즘을 참조하여 문단 레벨로 분리된 문장 내에서의 구문 정보를 분석하고 상기 문장의 특징을 추출하여 텍스트 매핑된 의료 프로세스 모델을 추천하는 단계; 및 (c) 제어부가 임상 과정 동안 생성된 데이터를 분석하여 환자의 지침 준수 점수를 산출하고, 상기 산출된 점수를 기초로 상기 임상 데이터 결정 지원 알고리즘을 수정하는 단계;를 포함하는 것을 특징으로 한다. 본 발명에 의할 경우, 백 오브 워드(Bag-of-words, BOW) 특징 벡터 표현 방법에 의해 보이지 않는 구조와 기본 특징을 이용할 수 있고, TF-IDF 기반의 검색 엔진으로 문장 분류기가 통합되어 가이드라인 제작 환경에서 생성되는 문맥에 필요한 관련 정보의 자동 제시 가능성이 극대화됨으로써 검색 프로세스를 향상시킬 수 있으며, 특징 추출에 의해 차원이 감소되어 문장 분류의 정확도가 향상된다.
Description
본 발명은 의료 프로세스 가이드라인 서비스 방법에 관한 것으로서, 특히 의료 가이드라인 및 문서로부터 발생하는 새로운 근거를 기반으로 다중 분류기를 이용하여 갱신되는 동적인 환자 상황에 적합한 의료 프로세스 모델링 및 검증 방법에 관한 것이다.
일반적으로, 의료 프로세스 가이드라인(Clinical Process Guidelines, CPG)은 의사의 임상 의사 결정 및 의료 근거 사이의 간격을 최소화하고 환자에게 더 나은 치료를 제공하는 데 사용되는 표준화된 경로 모델링을 위한 효과적인 도구이다.
이는 문제 해결을 위한 임상 지식을 인코딩하고 임상 이벤트 구조의 전체 프로세스를 모델링하는 순서도를 만드는데 사용되며, 이를 통해 추론 엔진이 지식 기반 및 임상 알고리즘을 사용할 수 있도록 한다.
또한, 새로운 의학, 과학적 조사 결과를 기반으로 환자의 동적 상황을 반영하고 이를 수정하기 위해 기존의 규칙과 알고리즘을 업데이트하는 방법을 제공한다.
이와 같이 규칙을 인코딩하고 알고리즘을 작성하며 지식 기반을 업데이트하는 데에는 관련 지식을 검색하고 관리할 필요가 있다.
이를 위하여 하나의 프레젠테이션 레이어 내에서 지식, 검색, 제작 및 지식 관리를 통합하는 아키텍처 설계와 사용자 인터페이스에서 의료 프로세스 가이드라인 제작 이벤트의 상황을 근거로 자동으로 의사에게 정보를 제공하는 문장 분류기의 필요성이 대두되고 있었다.
이에 최근에 문장 분류에 관한 연구가 진행되어 왔는데, 특히 스팸 메일 필터링 및 생명 의학 텍스트 마이닝 분야에서 상당이 많은 관련 연구가 수행되었다.
하지만, 종래의 연구 결과들은 고급 문장 분류 문제에 대한 방법을 용이하게 하는 반면 총체적인 학습을 채용하지 못하거나, 질의 및 응답 시스템에 사용되는 문장 분류에서 결합되는 여러 개의 분류기를 사용하는 경우 정확도가 떨어지는 문제점이 있었다.
또한, 고차원 특징 공간 내에서 생성된 인스턴스를 분류하는 문제에 직면하는 경향이 있고 상대적으로 긴 임상 가이드라인 텍스트의 경우 부울 기능 공간에 광범위하게 흩어져 있는 경향이 있고, 문장은 문서에 비해 상대적으로 짧기 때문에 문장 카테고리의 분류 기능은 공간에 흩어진 클러스터 지역을 차지해도 의미적으로 유사한 경우가 발생되는 문제점이 있었다.
한편, 단일 분류 모델은 훈련이나 시험에서 분류 오류 발생 없이 모든 데이터 포인트를 분류할 수 없으므로 다중 분류를 사용하는데, 분류 오류가 없거나 분류 성공율이 만족스러운 수준으로 될 때까지 취약한 분류기의 연속적인 조합은 계속될 것이다.
또한, 숫자 또는 명사 상당 어구와 같은 값들의 배열에 인스턴스 또는 이벤트를 변형하는 것을 특징 표현(feature representation)이라고 하고, 분류기로 입력되는 값들의 배열을 특징 벡터라고 하는데, 텍스트 객체가 매우 큰 특징 세트로부터의 예시에서 취해지는 제한된 특징을 가진 문장인 경우 2개의 의미적으로 유사한 인스턴스들이 상호 배타적인 부울 특징 세트로 구성될 수 있는 문제점이 있었다.
본 발명의 목적은 어휘 생성 이벤트 하의 기본 구문 구조에서 문장 인스턴스를 분석하여 구조적 특징 벡터의 미리 정의된 집합을 추출하는 변환 기능을 제공하고, 텍스트 객체와 같이 노이즈가 많고 고차원 및 비선형 시스템에서 생성되는 인스턴스를 분류하는데 있어서의 어려움을 해결하기 위한 의료 프로세스 모델링 및 검증 방법을 제공하는 것이다.
또한, 분류 오류를 최소화하기 위해 최적의 가설이 결정되는 이종 분류 모델 세트를 순차적으로 결합하여 최적의 비선형 매개 변수를 학습하는 임상 데이터 결정 지원 알고리즘을 제공하는 의료 프로세스 모델링 및 검증 방법을 제공하는 것이다.
상기 목적을 달성하기 위한 본 발명의 의료 프로세스 모델링 및 검증 방법은 (a) 제어부가 임상 지식 자원을 수집하고 의학적 증거를 처리하여 인덱싱하는 단계; (b) 분류기 조합부가 임상 데이터 결정 지원 알고리즘을 참조하여 문단 레벨로 분리된 문장 내에서의 구문 정보를 분석하고 상기 문장의 특징을 추출하여 텍스트 매핑된 의료 프로세스 모델을 추천하는 단계; 및 (c) 제어부가 임상 과정 동안 생성된 데이터를 분석하여 환자의 지침 준수 점수를 산출하고, 상기 산출된 점수를 기초로 상기 임상 데이터 결정 지원 알고리즘을 수정하는 단계;를 포함하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 의료 프로세스 모델링 및 검증 방법의 상기 (b) 단계는 문장 분리부가 입력된 문서의 상기 문장을 문단 레벨로 분리하는 단계; 제어부가 상기 문장 내에서의 단어 출현 빈도에 따라 토큰 가중치를 계산하는 단계; 구문 분석부가 상기 문장의 인스턴스를 구성하는 요소 및 결합 관계에 포함된 상기 구문 정보를 분석하는 단계; 특징 추출 및 분류부가 상기 계산된 토큰 가중치를 이용하여 상기 문장의 특징을 추출하고 의미 범주를 분류하는 단계; 및 상기 분류기 조합부가 패턴 템플릿을 이용하여 상기 텍스트 매핑하고 상기 의료 프로세스 모델을 추천하는 단계;를 포함하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 의료 프로세스 모델링 및 검증 방법은 상기 (b) 단계 후 상기 (c) 단계 전에 상기 환자에 장착되는 모니터링 장치가 상기 임상 과정 동안 환자의 활동 패턴을 관찰하여 추가적인 의학적 증거를 제공하는 단계;를 더 포함하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 의료 프로세스 모델링 및 검증 방법의 상기 추가적인 의학적 증거는 상기 임상 데이터 결정 지원 알고리즘이 생성 또는 갱신되는 시점에 고려되지 않은 의학적 증거인 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 의료 프로세스 모델링 및 검증 방법의 상기 특징 추출 및 분류부는 상기 문장에서 자주 출현하는 고유명사, 구 단위 토큰 열, 형식 언어 심볼 및 단어 단위 공동 발생(co-occurrence) 회수 중 어느 하나 이상의 특징을 추출하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 의료 프로세스 모델링 및 검증 방법의 상기 제어부는 상기 계산된 토큰 가중치를 특징 추출 함수의 출력 값에 곱하여 런타임에서 해당 표현의 발생 회수를 계산하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 의료 프로세스 모델링 및 검증 방법의 상기 패턴 템플릿은 상기 텍스트 매핑을 위한 상기 문장 내부의 계층성, 반복성 및 동시 발생 이벤트 중 어느 하나 이상의 구조적 특징을 포함하는 것을 특징으로 한다.
본 발명에 의할 경우, 백 오브 워드(Bag-of-words, BOW) 특징 벡터 표현 방법에 의해 보이지 않는 구조와 기본 특징을 이용할 수 있고, TF-IDF 기반의 검색 엔진으로 문장 분류기가 통합되어 가이드라인 제작 환경에서 생성되는 문맥에 필요한 관련 정보의 자동 제시 가능성이 극대화됨으로써 검색 프로세스를 향상시킬 수 있으며, 특징 추출에 의해 차원이 감소되어 문장 분류의 정확도가 향상된다.
도 1은 본 발명에 따른 의료 프로세스 모델링 및 검증 시스템의 블록도이다.
도 2는 본 발명에 따른 의료 프로세스 모델링 및 검증 방법의 동작을 나타내는 순서도이다.
도 3은 본 발명에 따른 의료 프로세스 모델링 및 검증 방법에서 의미 범주를 태깅되는 과정을 나타내는 순서도이다.
도 4는 본 발명에 따른 의료 프로세스 모델링 및 검증 시스템 내 구문 분석부(156)를 통하여 구문 분석된 문장의 트리 구조이다.
도 5는 본 발명에 따른 의료 프로세스 모델링 및 검증 방법에 의하여 특징 이벤트의 수량적 속성을 추출하기 위하여 테스트 시스템의 <FRS> 특징 추출 함수가 참조하는 테이블이다.
도 6은 본 발명에 따른 의료 프로세스 모델링 및 검증 방법에 의하여 특징 이벤트의 수량적 속성을 추출하기 위하여 테스트 시스템의 <RECOMMENDED> 특징 추출 함수가 참조하는 테이블이다.
도 2는 본 발명에 따른 의료 프로세스 모델링 및 검증 방법의 동작을 나타내는 순서도이다.
도 3은 본 발명에 따른 의료 프로세스 모델링 및 검증 방법에서 의미 범주를 태깅되는 과정을 나타내는 순서도이다.
도 4는 본 발명에 따른 의료 프로세스 모델링 및 검증 시스템 내 구문 분석부(156)를 통하여 구문 분석된 문장의 트리 구조이다.
도 5는 본 발명에 따른 의료 프로세스 모델링 및 검증 방법에 의하여 특징 이벤트의 수량적 속성을 추출하기 위하여 테스트 시스템의 <FRS> 특징 추출 함수가 참조하는 테이블이다.
도 6은 본 발명에 따른 의료 프로세스 모델링 및 검증 방법에 의하여 특징 이벤트의 수량적 속성을 추출하기 위하여 테스트 시스템의 <RECOMMENDED> 특징 추출 함수가 참조하는 테이블이다.
이하, 본 발명에 따른 의료 프로세스 모델링 및 검증 방법의 바람직한 실시예를 첨부된 도면을 참조하여 설명한다.
도 1은 본 발명에 따른 의료 프로세스 모델링 및 검증 시스템의 블록도로서, 이벤트 핸들러(110), 기본 검색 엔진(120), 문서 검색부(130), 내용 추출부(140), 문장 분리부(152), POS 태깅부(154), 구문 분석부(156), 특징 추출 및 분류부(160), 분류기 조합부(170), 서브 내용 선택 및 프리젠테이션부(180) 및 제어부(190)를 구비한다.
도 2는 본 발명에 따른 의료 프로세스 모델링 및 검증 방법의 동작을 나타내는 순서도이다.
도 3은 본 발명에 따른 의료 프로세스 모델링 및 검증 방법에서 의미 범주를 태깅하는 과정을 나타내는 순서도이다.
도 1 내지 도 3을 참조하여 본 발명에 따른 의료 프로세스 모델링 및 검증 방법의 동작을 설명하면 다음과 같다.
본 시스템은 신뢰할 수 있는 기관이 발행하는 의학 논문 및 가이드라인을 근거로 현재 작성된 만성질환환자 진료 모델을 최적화한다. 즉, 지식 소스 설정, 필요 지식 수집, 수집된 데이터의 인덱싱, 문맥인지기반 검색 및 유의미한 지식 프레젠테이션 기능을 통합한다.
의학적 지식 소스로부터 html 또는 PDF 형식의 문서를 수집하는 수집기(aggregator)를 이용하여 검색 인덱스를 구축하고, 가이드라인 저작자가 원하는 지식을 검색 창을 이용해 직접 획득한다.
또한, 현재 작성 중인 알고리즘 노드 상의 메타 정보를 기반으로 원하는 정보를 출력한다. 이 때, 메타 정보와 관련된 문구가 포함된 지식 소스의 페이지를 출력한다. 이 경우, 직접 검색 키워드를 입력하지 않고 노드(node)를 클릭한다. 노드 를 클릭하였을 때 이벤트 핸들러(event handler, 110)가 전송하는 노드의 메타정보를 검색 모듈의 인수로 사용하여 검색을 진행한다. 그 결과로서 주어지는 후보 지식 리스트의 스코어에 따라 해당 문서에 포함된 텍스트를 추출한다. 추출된 텍스트를 구성하는 문장 단위의 의미 범주(class)를 분류하기 위한 사전 단계로서 문장 분리, 품사 태깅 및 문장 구조 분석을 수행한다.
여기에서, 의학적 지식 소스는 우선 미국 국립의학도서관에서 운영하는 pubmed.gov와 미국 식품의약국(FDA)을 활용할 수 있고, 분류기로는 Maximum Entropy, Support Vector Machine, Nave Bayes, Multi-Layer Perceptron, Radial Basis Function Network 등이 있다.
도 2에서 보는 바와 같이, 의학적 증거 기반의 임상 지식 자원이 수집 및 크롤링(crawling) 과정을 통하여 의학적 증거가 처리되고 정기적으로 갱신되어 지능적인 검색을 위하여 인덱싱된다(S110 내지 S130).
의료진이 지원 데이터, 실험, 또는 기존 알고리즘의 반대 증거와 같은 의학적 증거들을 능동적으로 제시 및 제안하고, 기존 임상 데이터 결정 지원 (Clinical Data Decision Supporting System, CDSS) 알고리즘을 업데이트하는 과정으로 통합된 검색 경험을 수집하여 지능적인 검색을 정의하여 검색 및 지식을 관리한다.
분류기 조합부(170)는 임상 데이터 결정 지원 알고리즘을 참조하여 문단 레벨로 분리된 문장 내에서의 구문 정보를 분석하고 문장의 특징을 추출하여 텍스트 매핑된 의료 프로세스 모델을 추천한다(S140).
환자에 장착되는 모니터링 장치는 임상 과정 동안 환자의 활동을 관찰하여 CDSS 알고리즘 생성 및 갱신하는 시점에 고려되지 않은 추가적인 의학적 증거들을 제공한다(S150).
즉, 바이오 센서 또는 모바일 기기와 같은 모니터링 장치에 의해 보고된 새로운 데이터 및 활동 패턴들이 추가 분석을 위하여 기록된다.
제어부(190)는 임상 과정 동안 생성된 많은 데이터를 분석하여 환자 그룹의 분류 또는 클러스터링, 수행된 알고리즘에 기초한 지침 준수에 대한 환자의 점수를 위하여 의미있는 모델로 변화시킨다(S160).
상기 점수를 기초로 하여 환자가 자신의 활동을 수정할 수 있도록 의료진은 알고리즘에 로컬 경로를 수정하는 의학적 결정을 하고, 현재 프로그램을 동적으로 최적화할 수 있도록 지원한다(S170).
한편, 도 3에서 보는 바와 같이, 문장 분리부(152)가 입력된 문서를 구성하는 문장을 문단 레벨로 분리(segmentation)한 후에 문장 단위에서 진행한다(S210 내지 S220). POS(Part-of-speech) 태깅부(154)는 특정 알고리즘 노드에 포함된 규칙과 의미적으로 관련성을 맺고 있는 문장을 선택적으로 추출한다.
본 발명은 단일 의미 태그를 분별하는 작업만으로 현재 작업 중인 의료 프로세스 가이드라인과 관련성이 높은 지식을 검색한다.
개별 문장의 의미 범주를 분류하기 위해서 특징 벡터로 표현해야 하는데, 특징 벡터는 문장의 특징 값을 추출하여 훈련 알고리즘이 사용할 수 있는 형태이다.
토큰으로 구성된 텍스트 인스턴스(instance)의 분류 모델을 훈련할 때 일반적으로는 백 오브 워드(Bag-of-words, BOW) 특징 벡터 표현 방법이 사용되는데, 개별 토큰 출현 여부 자체가 가장 큰 특징 요소로 간주된다.
또한, 제어부(190)는 문서를 구성하는 단어의 순서에 관계없이 단일 문서 내에서의 개별 단어 출현 빈도에 근거하여 최적 모델의 토큰 가중치(weight)를 계산한다(S230). 가중치 계산은 토큰 특징별 분류 모델이 런타임에서 선형 결합(linear interpolation)되기 때문에, 개별 모델의 기여도를 판단하기 위해 이루어진다.
그런데, 백 오브 워드 특징 벡터 표현 방법은 특징 공간(feature space)의 차원이 문서에 출현한 유일한 토큰의 사이즈와 같기 때문에 일반적인 분류기 훈련 알고리즘으로는 실제 활용이 가능한 판별모델의 매개변수 추정이 어렵고, 훈련데이터의 사이즈가 적을 경우, 벡터 공간에서 서로 다른 의미 범주에 속한 인스턴스 데이터 포인트가 선형적으로 분리되지 않는다는 문제점이 있다.
이러한 문제점을 해결하기 위해서 특징 공간의 차원 수를 줄이는 것이 필요한데, 본 발명에서는 특징 추출 및 분류부(160)가 특징 선택(feature selection)을 통하여 분류모델 훈련에 장애가 되는 토큰을 제거하게 된다. 하지만, 특징공간 차원의 수를 줄이더라도 토큰 단위의 특징만을 추출할 경우 두 개 이상의 토큰으로 구성된 고유명사, 구 단위 표현의 출현 유무, 또는 특정 토큰들의 공동 발생(co-occurrence)와 같은 토큰 단위를 넘어서는 특징 요소들을 고려하지 못하는 문제가 있다.
따라서, 특정 의미 클래스에 속하는 문장에서 자주 출현하는 고유명사, 구 단위 토큰 열, 형식 언어 심볼, 단어 단위 공동 발생(co-occurrence) 회수 특징을 추출하는 함수를 이용할 필요성이 있다.
이를 위해 본 발명에서는 특징 추출 및 분류부(160)가 특징 공간의 차원 사이즈를 줄이는 방법으로 특징 추출(feature extraction) 함수를 사용한다(S240).
특징 추출은 문장 인스턴스의 구성 요소와 그들간의 결합 관계에 은닉된 구문 정보가 구문 분석부(156)에 의해 분석되고, 패턴 템플릿은 분류기 조합부(170)에 의해 `특징 요소'로 활용된다.
이때, 패턴 템플릿은 텍스트 매핑을 위한 문장 내부의 계층성, 반복성, 동시 발생 이벤트와 같은 구조적 특징을 포함한다(S256). 이를 통하여 분류기 조합부(170)는 토큰으로 구성된 인스턴스 집합으로부터 보다 일반화 정도가 높은 모델을 추천할 수 있고(S254), 훈련 데이터에 과적합된(over-fit) 모델 생성 확률을 낮출 수 있게 된다. 그 이유는 구조적 패턴이 도메인 범주에 영향을 받는 어휘적 특징 요소들간의 결합도를 나타내는 상위 레벨 특징이기 때문이다.
따라서, 훈련 데이터에서 관측되지 않았던 고유명사가 런타임 인스턴스에 존재하더라도 해당 인스턴스의 구조적 특징을 추출하는 것이 가능하다.
도 4는 본 발명에 따른 의료 프로세스 모델링 및 검증 시스템 내 구문 분석부(156)를 통하여 구문 분석된 문장의 트리 구조이다.
도 5는 본 발명에 따른 의료 프로세스 모델링 및 검증 방법에 의하여 특징 이벤트의 수량적 속성을 추출하기 위하여 테스트 시스템의 <FRS> 특징 추출 함수가 참조하는 테이블이다.
도 6은 본 발명에 따른 의료 프로세스 모델링 및 검증 방법에 의하여 특징 이벤트의 수량적 속성을 추출하기 위하여 테스트 시스템의 <RECOMMENDED> 특징 추출 함수가 참조하는 테이블이다.
도 5 및 도 6을 참조하여 본 발명에 따른 의료 프로세스 모델링 및 검증 방법의 결과들을 설명하면 다음과 같다.
도 3에서 보는 바와 같이, 구문 분석 트리에서 추출되는 특징 값은 (1) 의료 상황, 규칙을 약호화(encoding)하는 형식 표현(formal representation)에서 출현했던 심볼 토큰의 수, (2) 형식 표현에서 출현했던 구 단위 표현의 수, (3) 자연어로 표현된 의료 규칙에서 출현했던 단어들이 토큰 단위에서 함께 출현했을 때, 이러한 발생 이벤트를 구성하는 요소 토큰의 수 (고유명사는 단일 토큰으로 간주), (4) <RECOMMEND> 범주에 해당하는 문장에서 출현했던 구 단위 표현의 수, (5) <ANALYSIS> 범주에 해당하는 문장에서 자주 출현했던 구 단위 표현의 수로 나타낼 수 있다.
예를 들어, 도 3에 제시된 문장 구조 분석 트리로부터 추출되는 실수 타입 특징 벡터는 다음과 같다.
<0, 0, 3, 3, 2> <RECOMMEND>
여기에서, 첫 번째 값은 의료 규칙의 형식 표현에서 자주 쓰이는 부등호나 mL와 같은 단위 심볼의 발생 수가 해당 문장에서 0개라는 사실을 의미하고, 두 번째 값은 not achieved와 같이 형식 표현에서 자주 출현하는 구 단위 토큰 열이 0개라는 사실을 의미하며, 세 번째 값은 형식 표현에서 자주 출현하는 토큰이 문장 내 공동 발생(co-occurrence) 이벤트를 구성할 때, 구성 요소 토큰({(serum potassium), (creatinine), (monitored)})의 수가 3이라는 의미이다.
또한, 네 번째 값은 <RECOMMEND> 의미 범주에 해당하는 문장에서 자주 출현하는 구 단위 표현 또는 구 단위 템플릿의 수가 3이라는 의미로서, 도 3에서 동사구(VP) node의 하위 요소로 (should be), 한정어구(QP)의 하위 요소로 (at least + 숫자표현) 템플릿, 명사구(NP)의 하위 요소로 (숫자표현 + times + per + year) 템플릿이 존재하는 것을 확인할 수 있다.
마지막으로 다섯 번째 값은 <ANALYSIS> 범주에 해당하는 문장에서 자주 출현하는 구 단위 표현인 (correlated with)와 같은 토큰 열이 2개라는 의미이다.
결과적으로 상기 단락에서 설명한 5차원 특징 추출 함수는 문장 인스턴스의 구조, 패턴 템플릿, 공동 발생(co-occurrence) 이벤트의 수량적(quantitative) 속성을 포착한 후 그 값을 음이 아닌 정수 형태로 치환한다.
한편, 훈련 및 런타임 인스턴스 특징 이벤트의 수량적 속성을 추출하기 위해서는 각각의 특징 추출 함수에 입력 가능한 정의역(domain) 요소 이벤트 테이블이 있어야 하는데, 이는 테스트 시스템의 <FRS>, <RECOMMENDED> 구 단위 표현 특징 추출 함수가 참조하는 테이블이다.
이 자료는 훈련/테스트/검증 데이터와는 별도로 수집된 가이드라인을 구문 분석한 후 획득한 것으로 상기 구문 분석 트리에서 추출되는 특징 값 중 (1), (4)번 특징을 추출하는 함수가 훈련/런타임에서 입력 받을 수 있는 구 단위 표현을 나타낸다.
도 4에 도시된 테이블은 (1)번 특징 추출 함수의 정의역 요소에 포함되는 구 단위 표현을 등록해놓은 것으로서, 개별 표현 옆의 비율은 가이드라인 데이터에서 전체 80개의 at least CD 표현 중 <FRS> 가 태깅된 데이터의 수가 10개이며 그 비율은 0.125이다.
도 5에 도시된 테이블에서는 동일한 표현이 <RECOMMEND>라는 태그 부착된 경우가 70회이므로 그 비율이 0.875가 된다. 이 비율은 런타임에서 해당 표현의 발생 회수를 계산하는 특징 추출 함수의 출력 값에 곱해지는 가중치의 역할을 한다.
예를 들어, 특정 문장 인스턴스의 기본 특징 벡터가 <3, 1, 2, 3, 2>와 같다고 했을 때, 첫 번째와 네 번째 특징 값이 at_least_CD 표현에 의한 것이라면 다음과 같은 가중치를 적용하는 변형 함수(transformation function)를 사용하여 데이터의 특징이 더 잘 반영되도록 만들어준다.
Tweight(<3, 1, 2, 3, 2>) = <0.375, 1, 2, 2.625, 2>
즉, 첫 번째와 네 번째 특징 값에 가중치 0.125, 0.875를 각각 곱한 결과, 동일한 카운트 값 '3'이었던 첫 번째와 네 번째 특징 값이 0.375/2.625로 변환된 것을 확인할 수 있다.
이와 같이 본 발명에 따른 의료 프로세스 모델링 및 검증 방법은 본 발명의 목적은 어휘 생성 이벤트 하의 기본 구문 구조에서 문장 인스턴스를 분석하여 구조적 특징 벡터의 미리 정의된 집합을 추출하는 변환 기능을 제공하고, 텍스트 객체와 같이 노이즈가 많고 고차원 및 비선형 시스템에서 생성되는 인스턴스를 분류하는데 있어서의 어려움을 해결할 수 있다.
또한, 분류 오류를 최소화하기 위해 최적의 가설이 결정되는 이종 분류 모델 세트를 순차적으로 결합하여 최적의 비선형 매개 변수를 학습하는 임상 데이터 결정 지원 알고리즘을 제공하는 의료 프로세스 모델링 및 검증 방법을 제공한다.
이를 통하여 백 오브 워드(Bag-of-words, BOW) 특징 벡터 표현 방법에 의해 보이지 않는 구조와 기본 특징을 이용할 수 있고, TF-IDF 기반의 검색 엔진으로 문장 분류기가 통합되어 가이드라인 제작 환경에서 생성되는 문맥에 필요한 관련 정보의 자동 제시 가능성이 극대화됨으로써 검색 프로세스를 향상시킬 수 있으며, 특징 추출에 의해 차원이 감소되어 문장 분류의 정확도가 향상된다.
상기에서는 본 발명의 바람직한 실시 예를 참조하여 설명하였지만, 당 업계에서 통상의 지식을 가진 자라면 이하의 특허 청구범위에 기재된 본 발명의 사상 및 영역을 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
110: 이벤트 핸들러
120: 기본 검색 엔진
130: 문서 검색부
140: 내용 추출부
152: 문장 분리부
154: POS 태깅부
156: 구문 분석부
160: 특징 추출 및 분류부
170: 분류기 조합부
180: 서브 내용 선택 및 프리젠테이션부
190: 제어부
120: 기본 검색 엔진
130: 문서 검색부
140: 내용 추출부
152: 문장 분리부
154: POS 태깅부
156: 구문 분석부
160: 특징 추출 및 분류부
170: 분류기 조합부
180: 서브 내용 선택 및 프리젠테이션부
190: 제어부
Claims (7)
- (a) 제어부가 임상 지식 자원을 수집하고 의학적 증거를 처리하여 인덱싱하는 단계;
(b) 분류기 조합부가 임상 데이터 결정 지원 알고리즘을 참조하여 문단 레벨로 분리된 문장 내에서의 구문 정보를 분석하고 상기 문장의 특징을 추출하여 텍스트 매핑된 의료 프로세스 모델을 추천하는 단계; 및
(c) 제어부가 임상 과정 동안 생성된 데이터를 분석하여 환자의 지침 준수 점수를 산출하고, 상기 산출된 점수를 기초로 상기 임상 데이터 결정 지원 알고리즘을 수정하는 단계;
를 포함하는 것을 특징으로 하는,
의료 프로세스 모델링 및 검증 방법.
- 제1항에 있어서,
상기 (b) 단계는
문장 분리부가 입력된 문서의 상기 문장을 문단 레벨로 분리하는 단계;
제어부가 상기 문장 내에서의 단어 출현 빈도에 따라 토큰 가중치를 계산하는 단계;
구문 분석부가 상기 문장의 인스턴스를 구성하는 요소 및 결합 관계에 포함된 상기 구문 정보를 분석하는 단계;
특징 추출 및 분류부가 상기 계산된 토큰 가중치를 이용하여 상기 문장의 특징을 추출하고 의미 범주를 분류하는 단계; 및
상기 분류기 조합부가 패턴 템플릿을 이용하여 상기 텍스트 매핑하고 상기 의료 프로세스 모델을 추천하는 단계;
를 포함하는 것을 특징으로 하는,
의료 프로세스 모델링 및 검증 방법.
- 제1항에 있어서,
상기 (b) 단계 후 상기 (c) 단계 전에
상기 환자에 장착되는 모니터링 장치가 상기 임상 과정 동안 환자의 활동 패턴을 관찰하여 추가적인 의학적 증거를 제공하는 단계;
를 더 포함하는 것을 특징으로 하는,
의료 프로세스 모델링 및 검증 방법.
- 제3항에 있어서,
상기 추가적인 의학적 증거는
상기 임상 데이터 결정 지원 알고리즘이 생성 또는 갱신되는 시점에 고려되지 않은 의학적 증거인 것을 특징으로 하는,
의료 프로세스 모델링 및 검증 방법.
- 제2항에 있어서,
상기 특징 추출 및 분류부는
상기 문장에서 자주 출현하는 고유명사, 구 단위 토큰 열, 형식 언어 심볼 및 단어 단위 공동 발생(co-occurrence) 회수 중 어느 하나 이상의 특징을 추출하는 것을 특징으로 하는,
의료 프로세스 모델링 및 검증 방법.
- 제2항에 있어서,
상기 제어부는
상기 계산된 토큰 가중치를 특징 추출 함수의 출력 값에 곱하여 런타임에서 해당 표현의 발생 회수를 계산하는 것을 특징으로 하는,
의료 프로세스 모델링 및 검증 방법.
- 제2항에 있어서,
상기 패턴 템플릿은
상기 텍스트 매핑을 위한 상기 문장 내부의 계층성, 반복성 및 동시 발생 이벤트 중 어느 하나 이상의 구조적 특징을 포함하는 것을 특징으로 하는,
의료 프로세스 모델링 및 검증 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120019152A KR101375221B1 (ko) | 2012-02-24 | 2012-02-24 | 의료 프로세스 모델링 및 검증 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120019152A KR101375221B1 (ko) | 2012-02-24 | 2012-02-24 | 의료 프로세스 모델링 및 검증 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20130097475A true KR20130097475A (ko) | 2013-09-03 |
KR101375221B1 KR101375221B1 (ko) | 2014-03-18 |
Family
ID=49449838
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020120019152A KR101375221B1 (ko) | 2012-02-24 | 2012-02-24 | 의료 프로세스 모델링 및 검증 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101375221B1 (ko) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224689A (zh) * | 2015-10-30 | 2016-01-06 | 北京信息科技大学 | 一种东巴文献分类方法 |
CN106920151A (zh) * | 2017-03-06 | 2017-07-04 | 携程旅游网络技术(上海)有限公司 | 酒店备选池的推荐方法和系统 |
KR20180076479A (ko) * | 2016-12-28 | 2018-07-06 | 부산대학교 산학협력단 | 프로세스 모델 검증 장치 및 방법 |
KR20200082474A (ko) * | 2018-12-28 | 2020-07-08 | 아주대학교산학협력단 | 허혈성 심장질환 진단 방법 |
WO2023201075A1 (en) * | 2022-04-15 | 2023-10-19 | Recovery Exploration Technologies Inc. | Translation of medical evidence into computational evidence and applications thereof |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040031469A (ko) * | 2002-10-07 | 2004-04-13 | (주)메드 밴 | 비뇨기과 의료 전문가시스템 및 그 운용방법 |
JP2005110944A (ja) * | 2003-10-07 | 2005-04-28 | Sanyo Electric Co Ltd | 診療支援装置、診療支援方法及び診療支援プログラム |
-
2012
- 2012-02-24 KR KR1020120019152A patent/KR101375221B1/ko not_active IP Right Cessation
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224689A (zh) * | 2015-10-30 | 2016-01-06 | 北京信息科技大学 | 一种东巴文献分类方法 |
KR20180076479A (ko) * | 2016-12-28 | 2018-07-06 | 부산대학교 산학협력단 | 프로세스 모델 검증 장치 및 방법 |
CN106920151A (zh) * | 2017-03-06 | 2017-07-04 | 携程旅游网络技术(上海)有限公司 | 酒店备选池的推荐方法和系统 |
KR20200082474A (ko) * | 2018-12-28 | 2020-07-08 | 아주대학교산학협력단 | 허혈성 심장질환 진단 방법 |
WO2023201075A1 (en) * | 2022-04-15 | 2023-10-19 | Recovery Exploration Technologies Inc. | Translation of medical evidence into computational evidence and applications thereof |
Also Published As
Publication number | Publication date |
---|---|
KR101375221B1 (ko) | 2014-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ji et al. | Survey of hallucination in natural language generation | |
US10372739B2 (en) | Corpus search systems and methods | |
US9336485B2 (en) | Determining answers in a question/answer system when answer is not contained in corpus | |
CN107408156B (zh) | 用于从临床文档进行语义搜索和提取相关概念的系统和方法 | |
US9275115B2 (en) | Correlating corpus/corpora value from answered questions | |
US9621601B2 (en) | User collaboration for answer generation in question and answer system | |
JP2021007031A (ja) | 電子診療レコードからの医学的状態および事実の自動的特定および抽出 | |
US8630989B2 (en) | Systems and methods for information extraction using contextual pattern discovery | |
US20170228368A1 (en) | Solving Textual Logic Problems Using a Statistical Approach and Natural Language Processing | |
Boudin et al. | Clinical information retrieval using document and PICO structure | |
Badal et al. | Natural language processing in text mining for structural modeling of protein complexes | |
US20200075135A1 (en) | Trial planning support apparatus, trial planning support method, and storage medium | |
Elhadad et al. | Characterizing the sublanguage of online breast cancer forums for medications, symptoms, and emotions | |
Rivas et al. | Automatic classification of online doctor reviews: evaluation of text classifier algorithms | |
KR101375221B1 (ko) | 의료 프로세스 모델링 및 검증 방법 | |
Abulaish et al. | A concept-driven biomedical knowledge extraction and visualization framework for conceptualization of text corpora | |
Panja | Information Retrieval Systems in Healthcare: Understanding Medical Data Through Text Analysis | |
Yuan et al. | HClaimE: A tool for identifying health claims in health news headlines | |
JP6409071B2 (ja) | 文の並び替え方法および計算機 | |
Liu et al. | Extracting patient demographics and personal medical information from online health forums | |
Xu et al. | A comprehensive analysis of five million UMLS metathesaurus terms using eighteen million MEDLINE citations | |
Rijo et al. | Decision Support System to Diagnosis and Classification of Epilepsy in Children. | |
Janani et al. | Text mining research: A survey | |
KR20120070713A (ko) | 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체 | |
Faralli et al. | DWS at the 2016 open knowledge extraction challenge: a hearst-like pattern-based approach to hypernym extraction and class induction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
N231 | Notification of change of applicant | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20180312 Year of fee payment: 5 |
|
LAPS | Lapse due to unpaid annual fee |