KR20130097475A - 의료 프로세스 모델링 및 검증 방법 - Google Patents

의료 프로세스 모델링 및 검증 방법 Download PDF

Info

Publication number
KR20130097475A
KR20130097475A KR1020120019152A KR20120019152A KR20130097475A KR 20130097475 A KR20130097475 A KR 20130097475A KR 1020120019152 A KR1020120019152 A KR 1020120019152A KR 20120019152 A KR20120019152 A KR 20120019152A KR 20130097475 A KR20130097475 A KR 20130097475A
Authority
KR
South Korea
Prior art keywords
sentence
medical
clinical
process modeling
feature
Prior art date
Application number
KR1020120019152A
Other languages
English (en)
Other versions
KR101375221B1 (ko
Inventor
송미화
김성현
박동균
이영호
Original Assignee
가천의과학대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가천의과학대학교 산학협력단 filed Critical 가천의과학대학교 산학협력단
Priority to KR1020120019152A priority Critical patent/KR101375221B1/ko
Publication of KR20130097475A publication Critical patent/KR20130097475A/ko
Application granted granted Critical
Publication of KR101375221B1 publication Critical patent/KR101375221B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/22Social work or social welfare, e.g. community support activities or counselling services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Tourism & Hospitality (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Child & Adolescent Psychology (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 의료 프로세스 모델링 및 검증 방법을 공개한다. 이 방법은 (a) 제어부가 임상 지식 자원을 수집하고 의학적 증거를 처리하여 인덱싱하는 단계; (b) 분류기 조합부가 임상 데이터 결정 지원 알고리즘을 참조하여 문단 레벨로 분리된 문장 내에서의 구문 정보를 분석하고 상기 문장의 특징을 추출하여 텍스트 매핑된 의료 프로세스 모델을 추천하는 단계; 및 (c) 제어부가 임상 과정 동안 생성된 데이터를 분석하여 환자의 지침 준수 점수를 산출하고, 상기 산출된 점수를 기초로 상기 임상 데이터 결정 지원 알고리즘을 수정하는 단계;를 포함하는 것을 특징으로 한다. 본 발명에 의할 경우, 백 오브 워드(Bag-of-words, BOW) 특징 벡터 표현 방법에 의해 보이지 않는 구조와 기본 특징을 이용할 수 있고, TF-IDF 기반의 검색 엔진으로 문장 분류기가 통합되어 가이드라인 제작 환경에서 생성되는 문맥에 필요한 관련 정보의 자동 제시 가능성이 극대화됨으로써 검색 프로세스를 향상시킬 수 있으며, 특징 추출에 의해 차원이 감소되어 문장 분류의 정확도가 향상된다.

Description

의료 프로세스 모델링 및 검증 방법{A clinical process modeling and verification method}
본 발명은 의료 프로세스 가이드라인 서비스 방법에 관한 것으로서, 특히 의료 가이드라인 및 문서로부터 발생하는 새로운 근거를 기반으로 다중 분류기를 이용하여 갱신되는 동적인 환자 상황에 적합한 의료 프로세스 모델링 및 검증 방법에 관한 것이다.
일반적으로, 의료 프로세스 가이드라인(Clinical Process Guidelines, CPG)은 의사의 임상 의사 결정 및 의료 근거 사이의 간격을 최소화하고 환자에게 더 나은 치료를 제공하는 데 사용되는 표준화된 경로 모델링을 위한 효과적인 도구이다.
이는 문제 해결을 위한 임상 지식을 인코딩하고 임상 이벤트 구조의 전체 프로세스를 모델링하는 순서도를 만드는데 사용되며, 이를 통해 추론 엔진이 지식 기반 및 임상 알고리즘을 사용할 수 있도록 한다.
또한, 새로운 의학, 과학적 조사 결과를 기반으로 환자의 동적 상황을 반영하고 이를 수정하기 위해 기존의 규칙과 알고리즘을 업데이트하는 방법을 제공한다.
이와 같이 규칙을 인코딩하고 알고리즘을 작성하며 지식 기반을 업데이트하는 데에는 관련 지식을 검색하고 관리할 필요가 있다.
이를 위하여 하나의 프레젠테이션 레이어 내에서 지식, 검색, 제작 및 지식 관리를 통합하는 아키텍처 설계와 사용자 인터페이스에서 의료 프로세스 가이드라인 제작 이벤트의 상황을 근거로 자동으로 의사에게 정보를 제공하는 문장 분류기의 필요성이 대두되고 있었다.
이에 최근에 문장 분류에 관한 연구가 진행되어 왔는데, 특히 스팸 메일 필터링 및 생명 의학 텍스트 마이닝 분야에서 상당이 많은 관련 연구가 수행되었다.
하지만, 종래의 연구 결과들은 고급 문장 분류 문제에 대한 방법을 용이하게 하는 반면 총체적인 학습을 채용하지 못하거나, 질의 및 응답 시스템에 사용되는 문장 분류에서 결합되는 여러 개의 분류기를 사용하는 경우 정확도가 떨어지는 문제점이 있었다.
또한, 고차원 특징 공간 내에서 생성된 인스턴스를 분류하는 문제에 직면하는 경향이 있고 상대적으로 긴 임상 가이드라인 텍스트의 경우 부울 기능 공간에 광범위하게 흩어져 있는 경향이 있고, 문장은 문서에 비해 상대적으로 짧기 때문에 문장 카테고리의 분류 기능은 공간에 흩어진 클러스터 지역을 차지해도 의미적으로 유사한 경우가 발생되는 문제점이 있었다.
한편, 단일 분류 모델은 훈련이나 시험에서 분류 오류 발생 없이 모든 데이터 포인트를 분류할 수 없으므로 다중 분류를 사용하는데, 분류 오류가 없거나 분류 성공율이 만족스러운 수준으로 될 때까지 취약한 분류기의 연속적인 조합은 계속될 것이다.
또한, 숫자 또는 명사 상당 어구와 같은 값들의 배열에 인스턴스 또는 이벤트를 변형하는 것을 특징 표현(feature representation)이라고 하고, 분류기로 입력되는 값들의 배열을 특징 벡터라고 하는데, 텍스트 객체가 매우 큰 특징 세트로부터의 예시에서 취해지는 제한된 특징을 가진 문장인 경우 2개의 의미적으로 유사한 인스턴스들이 상호 배타적인 부울 특징 세트로 구성될 수 있는 문제점이 있었다.
본 발명의 목적은 어휘 생성 이벤트 하의 기본 구문 구조에서 문장 인스턴스를 분석하여 구조적 특징 벡터의 미리 정의된 집합을 추출하는 변환 기능을 제공하고, 텍스트 객체와 같이 노이즈가 많고 고차원 및 비선형 시스템에서 생성되는 인스턴스를 분류하는데 있어서의 어려움을 해결하기 위한 의료 프로세스 모델링 및 검증 방법을 제공하는 것이다.
또한, 분류 오류를 최소화하기 위해 최적의 가설이 결정되는 이종 분류 모델 세트를 순차적으로 결합하여 최적의 비선형 매개 변수를 학습하는 임상 데이터 결정 지원 알고리즘을 제공하는 의료 프로세스 모델링 및 검증 방법을 제공하는 것이다.
상기 목적을 달성하기 위한 본 발명의 의료 프로세스 모델링 및 검증 방법은 (a) 제어부가 임상 지식 자원을 수집하고 의학적 증거를 처리하여 인덱싱하는 단계; (b) 분류기 조합부가 임상 데이터 결정 지원 알고리즘을 참조하여 문단 레벨로 분리된 문장 내에서의 구문 정보를 분석하고 상기 문장의 특징을 추출하여 텍스트 매핑된 의료 프로세스 모델을 추천하는 단계; 및 (c) 제어부가 임상 과정 동안 생성된 데이터를 분석하여 환자의 지침 준수 점수를 산출하고, 상기 산출된 점수를 기초로 상기 임상 데이터 결정 지원 알고리즘을 수정하는 단계;를 포함하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 의료 프로세스 모델링 및 검증 방법의 상기 (b) 단계는 문장 분리부가 입력된 문서의 상기 문장을 문단 레벨로 분리하는 단계; 제어부가 상기 문장 내에서의 단어 출현 빈도에 따라 토큰 가중치를 계산하는 단계; 구문 분석부가 상기 문장의 인스턴스를 구성하는 요소 및 결합 관계에 포함된 상기 구문 정보를 분석하는 단계; 특징 추출 및 분류부가 상기 계산된 토큰 가중치를 이용하여 상기 문장의 특징을 추출하고 의미 범주를 분류하는 단계; 및 상기 분류기 조합부가 패턴 템플릿을 이용하여 상기 텍스트 매핑하고 상기 의료 프로세스 모델을 추천하는 단계;를 포함하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 의료 프로세스 모델링 및 검증 방법은 상기 (b) 단계 후 상기 (c) 단계 전에 상기 환자에 장착되는 모니터링 장치가 상기 임상 과정 동안 환자의 활동 패턴을 관찰하여 추가적인 의학적 증거를 제공하는 단계;를 더 포함하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 의료 프로세스 모델링 및 검증 방법의 상기 추가적인 의학적 증거는 상기 임상 데이터 결정 지원 알고리즘이 생성 또는 갱신되는 시점에 고려되지 않은 의학적 증거인 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 의료 프로세스 모델링 및 검증 방법의 상기 특징 추출 및 분류부는 상기 문장에서 자주 출현하는 고유명사, 구 단위 토큰 열, 형식 언어 심볼 및 단어 단위 공동 발생(co-occurrence) 회수 중 어느 하나 이상의 특징을 추출하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 의료 프로세스 모델링 및 검증 방법의 상기 제어부는 상기 계산된 토큰 가중치를 특징 추출 함수의 출력 값에 곱하여 런타임에서 해당 표현의 발생 회수를 계산하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 의료 프로세스 모델링 및 검증 방법의 상기 패턴 템플릿은 상기 텍스트 매핑을 위한 상기 문장 내부의 계층성, 반복성 및 동시 발생 이벤트 중 어느 하나 이상의 구조적 특징을 포함하는 것을 특징으로 한다.
본 발명에 의할 경우, 백 오브 워드(Bag-of-words, BOW) 특징 벡터 표현 방법에 의해 보이지 않는 구조와 기본 특징을 이용할 수 있고, TF-IDF 기반의 검색 엔진으로 문장 분류기가 통합되어 가이드라인 제작 환경에서 생성되는 문맥에 필요한 관련 정보의 자동 제시 가능성이 극대화됨으로써 검색 프로세스를 향상시킬 수 있으며, 특징 추출에 의해 차원이 감소되어 문장 분류의 정확도가 향상된다.
도 1은 본 발명에 따른 의료 프로세스 모델링 및 검증 시스템의 블록도이다.
도 2는 본 발명에 따른 의료 프로세스 모델링 및 검증 방법의 동작을 나타내는 순서도이다.
도 3은 본 발명에 따른 의료 프로세스 모델링 및 검증 방법에서 의미 범주를 태깅되는 과정을 나타내는 순서도이다.
도 4는 본 발명에 따른 의료 프로세스 모델링 및 검증 시스템 내 구문 분석부(156)를 통하여 구문 분석된 문장의 트리 구조이다.
도 5는 본 발명에 따른 의료 프로세스 모델링 및 검증 방법에 의하여 특징 이벤트의 수량적 속성을 추출하기 위하여 테스트 시스템의 <FRS> 특징 추출 함수가 참조하는 테이블이다.
도 6은 본 발명에 따른 의료 프로세스 모델링 및 검증 방법에 의하여 특징 이벤트의 수량적 속성을 추출하기 위하여 테스트 시스템의 <RECOMMENDED> 특징 추출 함수가 참조하는 테이블이다.
이하, 본 발명에 따른 의료 프로세스 모델링 및 검증 방법의 바람직한 실시예를 첨부된 도면을 참조하여 설명한다.
도 1은 본 발명에 따른 의료 프로세스 모델링 및 검증 시스템의 블록도로서, 이벤트 핸들러(110), 기본 검색 엔진(120), 문서 검색부(130), 내용 추출부(140), 문장 분리부(152), POS 태깅부(154), 구문 분석부(156), 특징 추출 및 분류부(160), 분류기 조합부(170), 서브 내용 선택 및 프리젠테이션부(180) 및 제어부(190)를 구비한다.
도 2는 본 발명에 따른 의료 프로세스 모델링 및 검증 방법의 동작을 나타내는 순서도이다.
도 3은 본 발명에 따른 의료 프로세스 모델링 및 검증 방법에서 의미 범주를 태깅하는 과정을 나타내는 순서도이다.
도 1 내지 도 3을 참조하여 본 발명에 따른 의료 프로세스 모델링 및 검증 방법의 동작을 설명하면 다음과 같다.
본 시스템은 신뢰할 수 있는 기관이 발행하는 의학 논문 및 가이드라인을 근거로 현재 작성된 만성질환환자 진료 모델을 최적화한다. 즉, 지식 소스 설정, 필요 지식 수집, 수집된 데이터의 인덱싱, 문맥인지기반 검색 및 유의미한 지식 프레젠테이션 기능을 통합한다.
의학적 지식 소스로부터 html 또는 PDF 형식의 문서를 수집하는 수집기(aggregator)를 이용하여 검색 인덱스를 구축하고, 가이드라인 저작자가 원하는 지식을 검색 창을 이용해 직접 획득한다.
또한, 현재 작성 중인 알고리즘 노드 상의 메타 정보를 기반으로 원하는 정보를 출력한다. 이 때, 메타 정보와 관련된 문구가 포함된 지식 소스의 페이지를 출력한다. 이 경우, 직접 검색 키워드를 입력하지 않고 노드(node)를 클릭한다. 노드 를 클릭하였을 때 이벤트 핸들러(event handler, 110)가 전송하는 노드의 메타정보를 검색 모듈의 인수로 사용하여 검색을 진행한다. 그 결과로서 주어지는 후보 지식 리스트의 스코어에 따라 해당 문서에 포함된 텍스트를 추출한다. 추출된 텍스트를 구성하는 문장 단위의 의미 범주(class)를 분류하기 위한 사전 단계로서 문장 분리, 품사 태깅 및 문장 구조 분석을 수행한다.
여기에서, 의학적 지식 소스는 우선 미국 국립의학도서관에서 운영하는 pubmed.gov와 미국 식품의약국(FDA)을 활용할 수 있고, 분류기로는 Maximum Entropy, Support Vector Machine, Nave Bayes, Multi-Layer Perceptron, Radial Basis Function Network 등이 있다.
도 2에서 보는 바와 같이, 의학적 증거 기반의 임상 지식 자원이 수집 및 크롤링(crawling) 과정을 통하여 의학적 증거가 처리되고 정기적으로 갱신되어 지능적인 검색을 위하여 인덱싱된다(S110 내지 S130).
의료진이 지원 데이터, 실험, 또는 기존 알고리즘의 반대 증거와 같은 의학적 증거들을 능동적으로 제시 및 제안하고, 기존 임상 데이터 결정 지원 (Clinical Data Decision Supporting System, CDSS) 알고리즘을 업데이트하는 과정으로 통합된 검색 경험을 수집하여 지능적인 검색을 정의하여 검색 및 지식을 관리한다.
분류기 조합부(170)는 임상 데이터 결정 지원 알고리즘을 참조하여 문단 레벨로 분리된 문장 내에서의 구문 정보를 분석하고 문장의 특징을 추출하여 텍스트 매핑된 의료 프로세스 모델을 추천한다(S140).
환자에 장착되는 모니터링 장치는 임상 과정 동안 환자의 활동을 관찰하여 CDSS 알고리즘 생성 및 갱신하는 시점에 고려되지 않은 추가적인 의학적 증거들을 제공한다(S150).
즉, 바이오 센서 또는 모바일 기기와 같은 모니터링 장치에 의해 보고된 새로운 데이터 및 활동 패턴들이 추가 분석을 위하여 기록된다.
제어부(190)는 임상 과정 동안 생성된 많은 데이터를 분석하여 환자 그룹의 분류 또는 클러스터링, 수행된 알고리즘에 기초한 지침 준수에 대한 환자의 점수를 위하여 의미있는 모델로 변화시킨다(S160).
상기 점수를 기초로 하여 환자가 자신의 활동을 수정할 수 있도록 의료진은 알고리즘에 로컬 경로를 수정하는 의학적 결정을 하고, 현재 프로그램을 동적으로 최적화할 수 있도록 지원한다(S170).
한편, 도 3에서 보는 바와 같이, 문장 분리부(152)가 입력된 문서를 구성하는 문장을 문단 레벨로 분리(segmentation)한 후에 문장 단위에서 진행한다(S210 내지 S220). POS(Part-of-speech) 태깅부(154)는 특정 알고리즘 노드에 포함된 규칙과 의미적으로 관련성을 맺고 있는 문장을 선택적으로 추출한다.
본 발명은 단일 의미 태그를 분별하는 작업만으로 현재 작업 중인 의료 프로세스 가이드라인과 관련성이 높은 지식을 검색한다.
개별 문장의 의미 범주를 분류하기 위해서 특징 벡터로 표현해야 하는데, 특징 벡터는 문장의 특징 값을 추출하여 훈련 알고리즘이 사용할 수 있는 형태이다.
토큰으로 구성된 텍스트 인스턴스(instance)의 분류 모델을 훈련할 때 일반적으로는 백 오브 워드(Bag-of-words, BOW) 특징 벡터 표현 방법이 사용되는데, 개별 토큰 출현 여부 자체가 가장 큰 특징 요소로 간주된다.
또한, 제어부(190)는 문서를 구성하는 단어의 순서에 관계없이 단일 문서 내에서의 개별 단어 출현 빈도에 근거하여 최적 모델의 토큰 가중치(weight)를 계산한다(S230). 가중치 계산은 토큰 특징별 분류 모델이 런타임에서 선형 결합(linear interpolation)되기 때문에, 개별 모델의 기여도를 판단하기 위해 이루어진다.
그런데, 백 오브 워드 특징 벡터 표현 방법은 특징 공간(feature space)의 차원이 문서에 출현한 유일한 토큰의 사이즈와 같기 때문에 일반적인 분류기 훈련 알고리즘으로는 실제 활용이 가능한 판별모델의 매개변수 추정이 어렵고, 훈련데이터의 사이즈가 적을 경우, 벡터 공간에서 서로 다른 의미 범주에 속한 인스턴스 데이터 포인트가 선형적으로 분리되지 않는다는 문제점이 있다.
이러한 문제점을 해결하기 위해서 특징 공간의 차원 수를 줄이는 것이 필요한데, 본 발명에서는 특징 추출 및 분류부(160)가 특징 선택(feature selection)을 통하여 분류모델 훈련에 장애가 되는 토큰을 제거하게 된다. 하지만, 특징공간 차원의 수를 줄이더라도 토큰 단위의 특징만을 추출할 경우 두 개 이상의 토큰으로 구성된 고유명사, 구 단위 표현의 출현 유무, 또는 특정 토큰들의 공동 발생(co-occurrence)와 같은 토큰 단위를 넘어서는 특징 요소들을 고려하지 못하는 문제가 있다.
따라서, 특정 의미 클래스에 속하는 문장에서 자주 출현하는 고유명사, 구 단위 토큰 열, 형식 언어 심볼, 단어 단위 공동 발생(co-occurrence) 회수 특징을 추출하는 함수를 이용할 필요성이 있다.
이를 위해 본 발명에서는 특징 추출 및 분류부(160)가 특징 공간의 차원 사이즈를 줄이는 방법으로 특징 추출(feature extraction) 함수를 사용한다(S240).
특징 추출은 문장 인스턴스의 구성 요소와 그들간의 결합 관계에 은닉된 구문 정보가 구문 분석부(156)에 의해 분석되고, 패턴 템플릿은 분류기 조합부(170)에 의해 `특징 요소'로 활용된다.
이때, 패턴 템플릿은 텍스트 매핑을 위한 문장 내부의 계층성, 반복성, 동시 발생 이벤트와 같은 구조적 특징을 포함한다(S256). 이를 통하여 분류기 조합부(170)는 토큰으로 구성된 인스턴스 집합으로부터 보다 일반화 정도가 높은 모델을 추천할 수 있고(S254), 훈련 데이터에 과적합된(over-fit) 모델 생성 확률을 낮출 수 있게 된다. 그 이유는 구조적 패턴이 도메인 범주에 영향을 받는 어휘적 특징 요소들간의 결합도를 나타내는 상위 레벨 특징이기 때문이다.
따라서, 훈련 데이터에서 관측되지 않았던 고유명사가 런타임 인스턴스에 존재하더라도 해당 인스턴스의 구조적 특징을 추출하는 것이 가능하다.
도 4는 본 발명에 따른 의료 프로세스 모델링 및 검증 시스템 내 구문 분석부(156)를 통하여 구문 분석된 문장의 트리 구조이다.
도 5는 본 발명에 따른 의료 프로세스 모델링 및 검증 방법에 의하여 특징 이벤트의 수량적 속성을 추출하기 위하여 테스트 시스템의 <FRS> 특징 추출 함수가 참조하는 테이블이다.
도 6은 본 발명에 따른 의료 프로세스 모델링 및 검증 방법에 의하여 특징 이벤트의 수량적 속성을 추출하기 위하여 테스트 시스템의 <RECOMMENDED> 특징 추출 함수가 참조하는 테이블이다.
도 5 및 도 6을 참조하여 본 발명에 따른 의료 프로세스 모델링 및 검증 방법의 결과들을 설명하면 다음과 같다.
도 3에서 보는 바와 같이, 구문 분석 트리에서 추출되는 특징 값은 (1) 의료 상황, 규칙을 약호화(encoding)하는 형식 표현(formal representation)에서 출현했던 심볼 토큰의 수, (2) 형식 표현에서 출현했던 구 단위 표현의 수, (3) 자연어로 표현된 의료 규칙에서 출현했던 단어들이 토큰 단위에서 함께 출현했을 때, 이러한 발생 이벤트를 구성하는 요소 토큰의 수 (고유명사는 단일 토큰으로 간주), (4) <RECOMMEND> 범주에 해당하는 문장에서 출현했던 구 단위 표현의 수, (5) <ANALYSIS> 범주에 해당하는 문장에서 자주 출현했던 구 단위 표현의 수로 나타낼 수 있다.
예를 들어, 도 3에 제시된 문장 구조 분석 트리로부터 추출되는 실수 타입 특징 벡터는 다음과 같다.
<0, 0, 3, 3, 2> <RECOMMEND>
여기에서, 첫 번째 값은 의료 규칙의 형식 표현에서 자주 쓰이는 부등호나 mL와 같은 단위 심볼의 발생 수가 해당 문장에서 0개라는 사실을 의미하고, 두 번째 값은 not achieved와 같이 형식 표현에서 자주 출현하는 구 단위 토큰 열이 0개라는 사실을 의미하며, 세 번째 값은 형식 표현에서 자주 출현하는 토큰이 문장 내 공동 발생(co-occurrence) 이벤트를 구성할 때, 구성 요소 토큰({(serum potassium), (creatinine), (monitored)})의 수가 3이라는 의미이다.
또한, 네 번째 값은 <RECOMMEND> 의미 범주에 해당하는 문장에서 자주 출현하는 구 단위 표현 또는 구 단위 템플릿의 수가 3이라는 의미로서, 도 3에서 동사구(VP) node의 하위 요소로 (should be), 한정어구(QP)의 하위 요소로 (at least + 숫자표현) 템플릿, 명사구(NP)의 하위 요소로 (숫자표현 + times + per + year) 템플릿이 존재하는 것을 확인할 수 있다.
마지막으로 다섯 번째 값은 <ANALYSIS> 범주에 해당하는 문장에서 자주 출현하는 구 단위 표현인 (correlated with)와 같은 토큰 열이 2개라는 의미이다.
결과적으로 상기 단락에서 설명한 5차원 특징 추출 함수는 문장 인스턴스의 구조, 패턴 템플릿, 공동 발생(co-occurrence) 이벤트의 수량적(quantitative) 속성을 포착한 후 그 값을 음이 아닌 정수 형태로 치환한다.
한편, 훈련 및 런타임 인스턴스 특징 이벤트의 수량적 속성을 추출하기 위해서는 각각의 특징 추출 함수에 입력 가능한 정의역(domain) 요소 이벤트 테이블이 있어야 하는데, 이는 테스트 시스템의 <FRS>, <RECOMMENDED> 구 단위 표현 특징 추출 함수가 참조하는 테이블이다.
이 자료는 훈련/테스트/검증 데이터와는 별도로 수집된 가이드라인을 구문 분석한 후 획득한 것으로 상기 구문 분석 트리에서 추출되는 특징 값 중 (1), (4)번 특징을 추출하는 함수가 훈련/런타임에서 입력 받을 수 있는 구 단위 표현을 나타낸다.
도 4에 도시된 테이블은 (1)번 특징 추출 함수의 정의역 요소에 포함되는 구 단위 표현을 등록해놓은 것으로서, 개별 표현 옆의 비율은 가이드라인 데이터에서 전체 80개의 at least CD 표현 중 <FRS> 가 태깅된 데이터의 수가 10개이며 그 비율은 0.125이다.
도 5에 도시된 테이블에서는 동일한 표현이 <RECOMMEND>라는 태그 부착된 경우가 70회이므로 그 비율이 0.875가 된다. 이 비율은 런타임에서 해당 표현의 발생 회수를 계산하는 특징 추출 함수의 출력 값에 곱해지는 가중치의 역할을 한다.
예를 들어, 특정 문장 인스턴스의 기본 특징 벡터가 <3, 1, 2, 3, 2>와 같다고 했을 때, 첫 번째와 네 번째 특징 값이 at_least_CD 표현에 의한 것이라면 다음과 같은 가중치를 적용하는 변형 함수(transformation function)를 사용하여 데이터의 특징이 더 잘 반영되도록 만들어준다.
Tweight(<3, 1, 2, 3, 2>) = <0.375, 1, 2, 2.625, 2>
즉, 첫 번째와 네 번째 특징 값에 가중치 0.125, 0.875를 각각 곱한 결과, 동일한 카운트 값 '3'이었던 첫 번째와 네 번째 특징 값이 0.375/2.625로 변환된 것을 확인할 수 있다.
이와 같이 본 발명에 따른 의료 프로세스 모델링 및 검증 방법은 본 발명의 목적은 어휘 생성 이벤트 하의 기본 구문 구조에서 문장 인스턴스를 분석하여 구조적 특징 벡터의 미리 정의된 집합을 추출하는 변환 기능을 제공하고, 텍스트 객체와 같이 노이즈가 많고 고차원 및 비선형 시스템에서 생성되는 인스턴스를 분류하는데 있어서의 어려움을 해결할 수 있다.
또한, 분류 오류를 최소화하기 위해 최적의 가설이 결정되는 이종 분류 모델 세트를 순차적으로 결합하여 최적의 비선형 매개 변수를 학습하는 임상 데이터 결정 지원 알고리즘을 제공하는 의료 프로세스 모델링 및 검증 방법을 제공한다.
이를 통하여 백 오브 워드(Bag-of-words, BOW) 특징 벡터 표현 방법에 의해 보이지 않는 구조와 기본 특징을 이용할 수 있고, TF-IDF 기반의 검색 엔진으로 문장 분류기가 통합되어 가이드라인 제작 환경에서 생성되는 문맥에 필요한 관련 정보의 자동 제시 가능성이 극대화됨으로써 검색 프로세스를 향상시킬 수 있으며, 특징 추출에 의해 차원이 감소되어 문장 분류의 정확도가 향상된다.
상기에서는 본 발명의 바람직한 실시 예를 참조하여 설명하였지만, 당 업계에서 통상의 지식을 가진 자라면 이하의 특허 청구범위에 기재된 본 발명의 사상 및 영역을 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
110: 이벤트 핸들러
120: 기본 검색 엔진
130: 문서 검색부
140: 내용 추출부
152: 문장 분리부
154: POS 태깅부
156: 구문 분석부
160: 특징 추출 및 분류부
170: 분류기 조합부
180: 서브 내용 선택 및 프리젠테이션부
190: 제어부

Claims (7)

  1. (a) 제어부가 임상 지식 자원을 수집하고 의학적 증거를 처리하여 인덱싱하는 단계;
    (b) 분류기 조합부가 임상 데이터 결정 지원 알고리즘을 참조하여 문단 레벨로 분리된 문장 내에서의 구문 정보를 분석하고 상기 문장의 특징을 추출하여 텍스트 매핑된 의료 프로세스 모델을 추천하는 단계; 및
    (c) 제어부가 임상 과정 동안 생성된 데이터를 분석하여 환자의 지침 준수 점수를 산출하고, 상기 산출된 점수를 기초로 상기 임상 데이터 결정 지원 알고리즘을 수정하는 단계;
    를 포함하는 것을 특징으로 하는,
    의료 프로세스 모델링 및 검증 방법.
  2. 제1항에 있어서,
    상기 (b) 단계는
    문장 분리부가 입력된 문서의 상기 문장을 문단 레벨로 분리하는 단계;
    제어부가 상기 문장 내에서의 단어 출현 빈도에 따라 토큰 가중치를 계산하는 단계;
    구문 분석부가 상기 문장의 인스턴스를 구성하는 요소 및 결합 관계에 포함된 상기 구문 정보를 분석하는 단계;
    특징 추출 및 분류부가 상기 계산된 토큰 가중치를 이용하여 상기 문장의 특징을 추출하고 의미 범주를 분류하는 단계; 및
    상기 분류기 조합부가 패턴 템플릿을 이용하여 상기 텍스트 매핑하고 상기 의료 프로세스 모델을 추천하는 단계;
    를 포함하는 것을 특징으로 하는,
    의료 프로세스 모델링 및 검증 방법.
  3. 제1항에 있어서,
    상기 (b) 단계 후 상기 (c) 단계 전에
    상기 환자에 장착되는 모니터링 장치가 상기 임상 과정 동안 환자의 활동 패턴을 관찰하여 추가적인 의학적 증거를 제공하는 단계;
    를 더 포함하는 것을 특징으로 하는,
    의료 프로세스 모델링 및 검증 방법.
  4. 제3항에 있어서,
    상기 추가적인 의학적 증거는
    상기 임상 데이터 결정 지원 알고리즘이 생성 또는 갱신되는 시점에 고려되지 않은 의학적 증거인 것을 특징으로 하는,
    의료 프로세스 모델링 및 검증 방법.
  5. 제2항에 있어서,
    상기 특징 추출 및 분류부는
    상기 문장에서 자주 출현하는 고유명사, 구 단위 토큰 열, 형식 언어 심볼 및 단어 단위 공동 발생(co-occurrence) 회수 중 어느 하나 이상의 특징을 추출하는 것을 특징으로 하는,
    의료 프로세스 모델링 및 검증 방법.
  6. 제2항에 있어서,
    상기 제어부는
    상기 계산된 토큰 가중치를 특징 추출 함수의 출력 값에 곱하여 런타임에서 해당 표현의 발생 회수를 계산하는 것을 특징으로 하는,
    의료 프로세스 모델링 및 검증 방법.
  7. 제2항에 있어서,
    상기 패턴 템플릿은
    상기 텍스트 매핑을 위한 상기 문장 내부의 계층성, 반복성 및 동시 발생 이벤트 중 어느 하나 이상의 구조적 특징을 포함하는 것을 특징으로 하는,
    의료 프로세스 모델링 및 검증 방법.
KR1020120019152A 2012-02-24 2012-02-24 의료 프로세스 모델링 및 검증 방법 KR101375221B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120019152A KR101375221B1 (ko) 2012-02-24 2012-02-24 의료 프로세스 모델링 및 검증 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120019152A KR101375221B1 (ko) 2012-02-24 2012-02-24 의료 프로세스 모델링 및 검증 방법

Publications (2)

Publication Number Publication Date
KR20130097475A true KR20130097475A (ko) 2013-09-03
KR101375221B1 KR101375221B1 (ko) 2014-03-18

Family

ID=49449838

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120019152A KR101375221B1 (ko) 2012-02-24 2012-02-24 의료 프로세스 모델링 및 검증 방법

Country Status (1)

Country Link
KR (1) KR101375221B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224689A (zh) * 2015-10-30 2016-01-06 北京信息科技大学 一种东巴文献分类方法
CN106920151A (zh) * 2017-03-06 2017-07-04 携程旅游网络技术(上海)有限公司 酒店备选池的推荐方法和系统
KR20180076479A (ko) * 2016-12-28 2018-07-06 부산대학교 산학협력단 프로세스 모델 검증 장치 및 방법
KR20200082474A (ko) * 2018-12-28 2020-07-08 아주대학교산학협력단 허혈성 심장질환 진단 방법
WO2023201075A1 (en) * 2022-04-15 2023-10-19 Recovery Exploration Technologies Inc. Translation of medical evidence into computational evidence and applications thereof

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040031469A (ko) * 2002-10-07 2004-04-13 (주)메드 밴 비뇨기과 의료 전문가시스템 및 그 운용방법
JP2005110944A (ja) * 2003-10-07 2005-04-28 Sanyo Electric Co Ltd 診療支援装置、診療支援方法及び診療支援プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224689A (zh) * 2015-10-30 2016-01-06 北京信息科技大学 一种东巴文献分类方法
KR20180076479A (ko) * 2016-12-28 2018-07-06 부산대학교 산학협력단 프로세스 모델 검증 장치 및 방법
CN106920151A (zh) * 2017-03-06 2017-07-04 携程旅游网络技术(上海)有限公司 酒店备选池的推荐方法和系统
KR20200082474A (ko) * 2018-12-28 2020-07-08 아주대학교산학협력단 허혈성 심장질환 진단 방법
WO2023201075A1 (en) * 2022-04-15 2023-10-19 Recovery Exploration Technologies Inc. Translation of medical evidence into computational evidence and applications thereof

Also Published As

Publication number Publication date
KR101375221B1 (ko) 2014-03-18

Similar Documents

Publication Publication Date Title
Ji et al. Survey of hallucination in natural language generation
US10372739B2 (en) Corpus search systems and methods
US9336485B2 (en) Determining answers in a question/answer system when answer is not contained in corpus
CN107408156B (zh) 用于从临床文档进行语义搜索和提取相关概念的系统和方法
US9275115B2 (en) Correlating corpus/corpora value from answered questions
US9621601B2 (en) User collaboration for answer generation in question and answer system
JP2021007031A (ja) 電子診療レコードからの医学的状態および事実の自動的特定および抽出
US8630989B2 (en) Systems and methods for information extraction using contextual pattern discovery
US20170228368A1 (en) Solving Textual Logic Problems Using a Statistical Approach and Natural Language Processing
Boudin et al. Clinical information retrieval using document and PICO structure
Badal et al. Natural language processing in text mining for structural modeling of protein complexes
US20200075135A1 (en) Trial planning support apparatus, trial planning support method, and storage medium
Elhadad et al. Characterizing the sublanguage of online breast cancer forums for medications, symptoms, and emotions
Rivas et al. Automatic classification of online doctor reviews: evaluation of text classifier algorithms
KR101375221B1 (ko) 의료 프로세스 모델링 및 검증 방법
Abulaish et al. A concept-driven biomedical knowledge extraction and visualization framework for conceptualization of text corpora
Panja Information Retrieval Systems in Healthcare: Understanding Medical Data Through Text Analysis
Yuan et al. HClaimE: A tool for identifying health claims in health news headlines
JP6409071B2 (ja) 文の並び替え方法および計算機
Liu et al. Extracting patient demographics and personal medical information from online health forums
Xu et al. A comprehensive analysis of five million UMLS metathesaurus terms using eighteen million MEDLINE citations
Rijo et al. Decision Support System to Diagnosis and Classification of Epilepsy in Children.
Janani et al. Text mining research: A survey
KR20120070713A (ko) 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
Faralli et al. DWS at the 2016 open knowledge extraction challenge: a hearst-like pattern-based approach to hypernym extraction and class induction

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
N231 Notification of change of applicant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180312

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee