KR102455521B1

KR102455521B1 - 의료 데이터에 대한 즉각 의미 조정 장치 및 그 방법과, 그 장치에서의 스키마 맵 생성 방법

Info

Publication number: KR102455521B1
Application number: KR1020200156787A
Authority: KR
Inventors: 이승룡; 아메드 사티 파하드
Original assignee: 경희대학교 산학협력단
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2022-10-14
Also published as: KR20220069552A

Abstract

의료 데이터에 대한 즉각 의미 조정 장치 및 그 방법과, 그 장치에서의 스키마 맵 생성 방법이 개시된다.
이 장치에서, 데이터 관리부는 의료 데이터를 반 구조화된 데이터로서 저장하여 관리한다. 매핑 처리부는 데이터 관리부에 의해 관리되는 의료 데이터에서 속성 기반으로 스키마를 식별하고, 식별된 스키마를 기존 스키마와 비교하여 매칭되는 스키마와의 매핑을 수행하여 스키마 맵을 생성한다. 의미 조정부는 즉각 의미 조정을 위한 소스 의료 데이터에 대해 매핑 처리부에서 생성된 스키마 맵을 적용하여 속성 수준의 스키마 매핑을 수행하여 의미가 조정된 타겟 의료 데이터를 생성한다.

Description

의료 데이터에 대한 즉각 의미 조정 장치 및 그 방법과, 그 장치에서의 스키마 맵 생성 방법 {APPARATUS FOR JUST-IN-TIME SEMANTIC RECONCILIATION OF MEDICAL DATA AND METHOD THEREOF, AND METHOD FOR GENERATING SCHEME MAP ON THE APPARATUS}

본 발명은 의료 데이터에 대한 즉각 의미 조정 장치 및 그 방법과, 그 장치에서의 스키마 맵 생성 방법에 관한 것이다.

건강 관리 서비스를 지원하는 디지털 시스템은 지난 10년간 다양하게 개선되었다. 이러한 기술 발전은 확장 가능한 건강 정보 관리 시스템(Health Information Management System), 지능형 CDSS(Clinical Decision Support Systems) 및 기타 여러 도구 및 플랫폼의 개발 및 개선으로 이어졌다.

이러한 시스템들은 정보에 입각한 의사 결정을 내리고, 건강 관리 서비스의 질을 높이며, 지식 소스를 풍부하게 하고, 2차 연구를 위한 능력을 제공함으로써 의료 전문가에게 큰 도움이 되는 것으로 입증되었다. 그러나, 이로 인해 이기종 소프트웨어 시스템, 의료 기기 및 표준의 과다 개발 및 배포로 이어졌고, 이러한 이질성으로 인해 의료 시스템과 데이터 간의 상호 운용성이 부족하여, 건강 서비스의 세계화에 큰 장애물이 되었다.

이러한 이질성 문제를 해결하기 위한 현재 접근 방식은 표준 기반 구동 접근 방식 또는 통합 쿼리에 초점을 맞추고 있다. 전자의 경우는, 여러 이니셔티브가 전문가의 입력을 사용하여 유사점을 식별하고 차이점을 매핑하는 데 초점을 맞춘다. 후자의 경우는, 데이터 검색 쿼리가 의미론적으로 복제되어 해당 의료 시스템 및 데이터 소스를 대상으로 한다. 그런 다음, 결과 데이터가 통합되어 사용자에게 제공된다. 이러한 접근 방식은 대부분의 상호 운용성 해결 이니셔티브를 통해 기존 표준 및 데이터 교환 방법론을 매우 엄격하게 준수한다.

CIMI(Clinical Information Modeling Initiative) 및 Yosemite 프로젝트와 같은 기존 표준 간의 매핑을 개발하려는 이니셔티브는 전문가의 개입이 필요하므로 매우 느리다는 문제점이 있다.

또한, LinkEHR, OBDA 및 HSB와 같은 플랫폼은 참여하는 의료 시스템에 엄격하게 의존하는 전문 쿼리 인터페이스 및/또는 온톨로지를 사용하여 대체 전문가 중심 전략을 제공한다. 그러나, 이러한 플랫폼에서 의료 데이터 스키마를 변경하거나 새로운 소스를 추가하려면 기존 인프라와의 건전한 준수를 위해 매우 많은 양의 전문가 개입이 필요하다는 문제점이 있다.

본 발명이 해결하고자 하는 과제는 의료 시스템에 대한 데이터 수준의 상호 운용성을 달성할 수 있도록 하는 의료 데이터에 대한 즉각 의미 조정 장치 및 그 방법과, 그 장치에서의 스키마 맵 생성 방법을 제공하는 것이다.

상기한 바와 같은 본 발명의 과제를 달성하고, 후술하는 본 발명의 특징적인 효과를 실현하기 위한, 본 발명의 특징적인 구성은 하기와 같다.

본 발명의 일 측면에 따르면, 즉각 의미 조정 장치가 제공되며, 이 장치는,

의료 데이터에 대한 즉각 의미 조정 장치로서, 의료 데이터를 반 구조화된 데이터로서 저장하여 관리하는 데이터 관리부, 상기 데이터 관리부에 의해 관리되는 의료 데이터에서 속성 기반으로 스키마를 식별하고, 식별된 스키마를 기존 스키마와 비교하여 매칭되는 스키마와의 매핑을 수행하여 스키마 맵을 생성하는 매핑 처리부, 그리고 즉각 의미 조정을 위한 소스 의료 데이터에 대해 상기 매핑 처리부에서 생성된 스키마 맵을 적용하여 속성 수준의 스키마 매핑을 수행하여 의미가 조정된 타겟 의료 데이터를 생성하는 의미 조정부를 포함한다.

본 발명의 다른 측면에 따르면, 스키마 맵 생성 방법이 제공되며, 이 방법은,

의료 데이터에 대한 즉각 의미 조정을 위해 사용되는 속성 기준의 스키마 맵을 생성하는 방법으로서, 의료 데이터를 미리 설정된 포맷의 데이터로 직렬화하는 단계, 직렬화된 의료 데이터를 반 구조화된 데이터로 변환하는 단계, 상기 반 구조화된 데이터에서 스키마를 식별하는 단계, 그리고 식별된 스키마에 대해 매칭 알고리즘을 사용하여 기존의 스키마와 비교하여 속성 기준의 매핑을 수행하여 대응하는 스키마 맵을 생성하는 단계를 포함한다.

본 발명의 또 다른 측면에 따르면, 즉각 의미 조정 방법이 제공되며, 이 방법은,

의료 데이터에 대한 즉각 의미 조정 방법으로서, 의료 데이터에서 속성 기반으로 스키마를 식별하고, 식별된 스키마를 기존 스키마와 비교하여 매칭되는 스키마와의 매핑을 수행하여 스키마 맵을 생성하는 단계, 즉각 의미 조정을 위한 소스 의료 데이터에서 표준 의료 용어를 식별하는 단계, 표준 의료 용어가 식별된 소스 의료 데이터에서 사용된 용어의 개념을 식별하고 소스 의료 데이터로 확대하는 보강을 수행하는 단계, 그리고 보강된 소스 의료 데이터에 대해 상기 스키마 맵을 적용한 속성 수준의 스키마 매핑을 수행하여 의미가 변환된 타겟 의료 데이터를 생성하는 단계를 포함한다.

본 발명에 따르면, 의료 시스템에 대한 데이터 수준의 상호 운용성을 달성할 수 있다.

또한, 병원 간의 원활한 의료 데이터 교환으로 환자의 관리 능력을 향상시켜 환자에 대한 간병과 서비스 품질이 향상될 수 있다.

또한, 의료 데이터 조각이 저장 매체에 보관되고 일부 소프트 타임 내에서 검색될 수 있는 적시성, 모든 의료 데이터 조각이 완전히 기록될 수 있는 확장성, 및 각각의 의료 데이터 조각이 정확하게 검색될 수 있는 정확성을 제공할 수 있다.

도 1은 본 발명의 실시예에 따른 의료 데이터에 대한 즉각 의미 조정 장치의 개략적인 구성 블록도이다.
도 2는 도 1에 도시된 데이터 관리부의 구체적인 구성 블록도이다.
도 3은 본 발명의 실시예에 따른 반 구조화된 데이터를 저장하기 위한 도 2에 도시된 의료 데이터 저장부의 개략적인 구성을 도시한 도면이다.
도 4는 도 1에 도시된 매핑 처리부의 구체적인 구성 블록도이다.
도 5는 본 발명의 실시예에 따른 스키마 매핑 생성 방법의 개략적인 흐름도이다.
도 6은 도 1에 도시된 매핑 검증부의 구체적인 구성 블록도이다.
도 7은 도 1에 도시된 의미 조정부의 구체적인 구성 블록도이다.
도 8은 본 발명의 실시예에 따른 의료 데이터에 대한 즉각 의미 조정을 위한 스키마 맵 생성 방법의 개략적인 흐름도이다.
도 9는 본 발명의 실시예에 따른 의료 데이터에 대한 즉각 의미 조정 방법의 개략적인 흐름도이다.
도 10은 본 발명의 다른 실시예에 따른 의료 데이터에 대한 즉각 의미 조정 장치의 개략적인 구성 블록도이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

명세서 전체에서, "및/또는"이라는 용어는 관련된 객체를 기술하기 위한 연관 관계만을 설명하고 세 가지 관계가 존재할 수 있음을 나타낸다는 것이 이해되어야 한다. 예를 들어, A 및/또는 B는 A만 존재하고, A와 B가 모두 존재하며, B만 존재하는 세 가지 경우를 나타낼 수 있다. 또한, 명세서 전체에서 문자 "/"는 일반적으로 연관된 객체 사이의 "또는" 관계를 지시한다.

본 발명에서 설명하는 장치들은 적어도 하나의 프로세서, 메모리 장치, 통신 장치 등을 포함하는 하드웨어로 구성되고, 지정된 장소에 하드웨어와 결합되어 실행되는 프로그램이 저장된다. 하드웨어는 본 발명의 방법을 실행할 수 있는 구성과 성능을 가진다. 프로그램은 도면들을 참고로 설명한 본 발명의 동작 방법을 구현한 명령어(instructions)를 포함하고, 프로세서와 메모리 장치 등의 하드웨어와 결합하여 본 발명을 실행한다.

이하, 도면을 참조하여 본 발명의 실시예에 따른 의료 데이터에 대한 즉각 의미 조정 장치에 대해 설명한다.

도 1은 본 발명의 실시예에 따른 의료 데이터에 대한 즉각 의미 조정 장치의 개략적인 구성 블록도이다.

도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 의료 데이터에 대한 즉각 의미 조정 장치(100)는 조정 제어부(110), 데이터 관리부(120), 매핑 처리부(130), 매핑 검증부(140) 및 의미 조정부(150)를 포함한다.

조정 제어부(110)는 소스 데이터인 의료 데이터를 외부로부터 수신하여 데이터 관리부(120) 및/또는 의미 조정부(150)로 제공한다. 이러한 의료 데이터는 의사, 간호사 또는 기타 병원 관리 직원을 포함한 의료 전문가가 전자 건강 기록(Electronic Health Records, EHR)의 형태로서 제공되는 데이터일 수 있으나, 이것으로만 한정되는 것은 아니다. 이러한 EHR은 유연하며 임의의 특정 표준을 준수할 필요가 없는 데이터이다.

조정 제어부(110)는 운용자의 의도에 따라 수신되는 의료 데이터를 데이터 관리부(120) 및/또는 의미 조정부(150)로 제공할 수 있다. 예를 들어, 조정 제어부(110)는 의료 데이터에 대한 스키마 맵을 생성하기 위한 경우에는 의료 데이터를 데이터 관리부(120)로 제공하지만, 의료 데이터를 의사에게 제공하기 위한 경우에는 즉각적인 의미 조정을 위해 의미 조정부(150)로 제공하며, 이 때 의미 조정부(150)로 제공되는 의료 데이터는 또한 의료 데이터의 데이터 관리를 위해 데이터 관리부(120)로도 제공될 수 있다.

데이터 관리부(120)는 조정 제어부(110)로부터 제공되는 의료 데이터를 반 구조화된 데이터(semi-structured data)로 변환한 후 저장하여 관리한다. 이를 위해, 데이터 관리부(120)는 의료 데이터에 대한 전처리를 수행할 수 있다. 여기서, 반 구조화된 데이터에 대해서는 추후 구체적으로 설명한다.

또한, 데이터 관리부(120)는 의료 데이터를 저장하기 위해 특정 포맷의 데이터로의 변환을 수행할 수 있다. 여기서, 특정 포맷은 예를 들어 CSV(Comma Separated Value) 포맷일 수 있다.

매핑 처리부(130)는 데이터 관리부(120)에서 처리된 의료 데이터에서 속성 기반으로 스키마를 식별하고, 식별된 스키마를 기존 스키마와 비교하여 매칭되는 스키마와의 매핑을 수행하여 스키마 맵을 생성하며, 생성된 스키마 맵을 저장하여 관리한다.

매핑 검증부(140)는 매핑 처리부(130)에 의해 생성된 스키마 맵에서 중복 매핑을 제거하고 논리적 충돌을 제거한 후 전문가를 통한 검증을 수행하여 최종 검증된 스키마 맵을 매핑 처리부(130)로 전달하여 저장하여 관리되도록 한다.

의미 조정부(150)는 조정 제어부(110)로부터 제공되는 의료 데이터에 대해 매핑 처리부(130)에 의해 저장되어 관리되고 있는 스키마 맵을 적용하여 의미가 조정된 의료 데이터로 변환하여 출력한다.

도 2는 도 1에 도시된 데이터 관리부(120)의 구체적인 구성 블록도이다.

도 2에 도시된 바와 같이, 데이터 관리부(120)는 전처리부(121), 데이터 변환부(122) 및 의료 데이터 저장부(123)를 포함한다.

전처리부(121)는 조정 제어부(110)로부터 제공되는 의료 데이터에 최소한의 처리를 적용하여 메타 데이터를 제거한다.

데이터 변환부(122)는 전처리부(121)에서 전처리된 의료 데이터를 CSV 포맷의 데이터로 직렬화한 후 반 구조화된 데이터로 변환하여 의료 데이터 저장부(123)에 저장한다.

의료 데이터 저장부(123)는 데이터 변환부(122)에 의해 CSV 포맷의 데이터로 변환된 후 반 구조화된 데이터를 저장한다.

이하, 데이터 변환부(122)에 의해 변환되어 의료 데이터 저장부(123)에 저장되는 반 구조화된 데이터에 대해 설명한다.

데이터 변환부(122)에 의해 직렬화된 후, 의료 데이터의 각 인스턴스는 쉼표로 구분된 값 포맷 파일, 즉 CSV 포맷의 파일로 변환되며, 이 파일에는 인스턴스의 스키마:값에 있는 속성의 이름에 해당하는 키:값 쌍이 있다. 그 후, 파일의 데이터는 도 3에 도시된 바와 같이 2개의 저장소, 즉 위치 저장소(L-Store)(1231)와 의료 데이터 아카이브(Medical Data Archive)(1232)를 사용하여 반 구조화된 형태로서 저장된다.

위치 저장소(1231)는 환자를 지시하는 식별자(Patient Identifier, Pid)와 환자에 대응하여 의료 데이터 아카이브(1232)에 저장된 의료 데이터 조각(Medical data fragment)을 지시하는 식별자(i_f)를 환자를 지시하는 식별자(Pid)에 연결하여 저장한다. 이 때, 예를 들어, 한 명의 환자(Pid1)에 대해 의료 데이터 아카이브(1232)에 다수의 의료 데이터 조각, 예를 들어 3개의 의료 데이터 조각(i_f1, i_f4, i_f5)이 저장되어 있는 경우, 도 3에 도시된 바와 같이, 한 명의 환자에 대응하는 식별자(Pid1)에 연결 리스트(linked list) 형태로 대응시켜서 저장하지만, 이것으로만 한정되는 것은 아니다.

의료 데이터 아카이브(1232)는 환자에 대한 의료 데이터 조각을 저장한다. 도 3을 참조하면, 각각의 의료 데이터 조각은 의료 데이터 조각을 나타내는 식별자(i_f), 해당 의료 데이터 조각에 대한 스키마 이름(τ), 각각의 인스턴스에 대한 키 값 쌍의 집합으로 직렬화된 조각(Raw Data), 해당 의료 데이터 조각의 버전(v_f)으로 구성된다.

다음은 전술한 반 구조화된 데이터의 일 예에 대해 설명한다.

먼저, 'Harry Potter'라는 환자의 메타 데이터는 다음의 [표 1]과 같이 나타낼 수 있다.

[표 1]

다음, 환자 'Harry Potter'에 대해 위치 저장소(1231)에는 다음의 [표 2]와 같이 저장될 수 있다.

[표 2]

[표 2]에서는 설명의 편의를 위해 동일한 'Harry Potter'의 식별자에 대해 연결 리스트 형태로 저장되지 않고, 식별자에 대해 한 개씩의 의료 데이터 조각이 대응하도록 저장되어 있는 것으로 가정한다.

[표 2]와 같이 'Harry Potter'에 대해 위치 저장소(1231)에 저장된 정보에 따라, 'Harry Potter'에 대한 의료 데이터 조각이 의료 데이터 아카이브(1232)에 저장된다. 여기서는 'Harry Potter'에 대응하는 6개의 의료 데이터 조각 중에서, 하나의 의료 데이터 조각, 예를 들어, i_f가 '93492677-8d5d-4322-84e2-c87c71c7b98f'인 의료 데이터 조각에 대해 다음의 [표 3]과 같이 의료 데이터 아카이브(1232)에 저장될 수 있다.

[표 3]

전술한 바와 같이, 의료 데이터를 반 구조화된 데이터 형식으로 저장함으로써, 비교적 적은 수의 파일에 많은 양의 데이터를 저장할 수 있다.

도 4는 도 1에 도시된 매핑 처리부(130)의 구체적인 구성 블록도이다.

도 4에 도시된 바와 같이, 매핑 처리부(130)는 스키마 식별부(131), 스키마 매핑부(132), 매칭 알고리즘(133) 및 스키마 맵 저장부(134)를 포함한다.

스키마 식별부(131)는 데이터 관리부(120)에서 저장하여 관리되는 의료 데이터에서 스키마를 식별한다.

스키마 매핑부(132)는 스키마 식별부(131)에서 식별된 스키마에 대해 매칭 알고리즘(133)을 사용하여 스키마 맵 저장부(134)에 저장된 기존의 스키마와 비교하여 새로운 스키마이거나 또는 업데이트될 스키마인 경우, 식별된 스키마와 기존 스키마 사이의 속성을 매핑함으로써 새로운 스키마 또는 업데이트될 스키마와 기존의 스키마 사이의 매핑을 생성하고, 생성된 스키마 맵을 스키마 맵 저장부(134)에 저장한다.

스키마 맵 저장부(134)는 스키마 매핑부(132)에 의해 생성되거나 업데이트된 스키마 맵을 저장한다.

이하, 스키마 매핑부(132)에 의해 스키마 맵을 생성하는 일 예의 프로세스에 대해 설명한다.

먼저, 참여하는 모든 의료 데이터 조각의 스키마는 'SchemaName_IgnoredText, AttributeName'의 형식의 속성 목록을 포함하는 텍스트 파일 포맷으로 제공된다.

그 후, 이러한 속성 목록은 개념(C) 및 해당 단어(W)로 각각의 속성(A)을 의미적으로 보강하는 것과, 속성 쌍과 해당 단어 사이의 구문 비교, 및 속성과 단어 쌍 사이의 의미 비교를 위해 후술할 7단계를 적용하는 데 사용되며, 도 5를 참조한다.

먼저, 1 단계에서, 속성 문자열 사이에 대소 문자를 구분하지 않는 단순 매칭이 적용된다(A-A)(S100). 두 속성이 일치하면(S110), 더 이상 처리되지 않지만, 두 속성이 일치하지 않으면, 2 단계가 수행된다.

2 단계에서, 서픽스 트리(Suffix Tree) 방식을 사용하여 두 속성 A-A 사이에서 가장 긴 공통 서브시퀀스(subsequence)를 검색하며, 두 속성 문자열은 두 문자열 사이에 가능한 모든 길이의 문자 시퀀스를 포함하는 하나의 서픽스 트리로 결합된다(S120). 두 문자열 사이에 공통적인 가장 긴 서브시퀀스는 이러한 트리의 리프노드(leaf node)에 배치되며 빠르게 쿼리될 수 있다. 여기서, 서픽스 트리는 주어진 모든 문자열의 모든 서픽스를 트리 형태로 나타내는 자료 구조로서, 선형 시간에 구성할 수 있으며 문자열에 대한 많은 문제를 효율적으로 해결할 수 있다.

그런 다음, 속성은 3 단계에서 단어로 분할된다. 여기서, 단어를 식별하기 위해, 정규식을 사용하여 대소 문자 변경, 숫자 또는 특수 문자 발생시 속성 문자열을 단어로 분할한다(A → W)(이것은 PatientMRNo가 'Patient', 'MR' 및 'No'가 되도록 하는 것임) (S130).

다음, 4 단계에서, 각 단어는 UMLS(Unified Medical Language System)에서 쿼리되어 관련 개념에 대응하는 식별자 및 소스(C[W])로서 수집된다(S140). 여기서, 의학에서 다양한 목적을 위해 여러 용어 체계가 만들어졌으며 대표적인 것들로는 진단명 분류에 사용되는 ICD-10, 병리적인 진단을 위한 SNOMED, MEDLINE와 PubMED 및 기타 NML 데이터베이서의 주체 설명자(subject descriptor)를 모아 놓은 MeSH, 유전체학 데이터베이스인 유전자 온톨로지 등이 있으며, 이러한 상이한 데이터베이스를 통합하여 상호 호환성을 확보하고 임상 연구 및 자료 검색에 활용될 수 있는 통합 모델을 UMLS라고 하며, 이미 잘 알려져 있으므로, 여기에서는 구체적인 설명을 생략한다.

그 후, 각각의 별개의 단어 쌍에 대해 5, 6 및 7 단계가 계속 수행된다.

먼저, 5 단계에서, 각 단어 쌍으로부터의 UMLS 개념이 유사한 개념 (C1[W1]-C2[W2])을 식별하기 위해 비교가 수행된다(S150). 이러한 비교는 단어 쌍의 두 단어에서 개념 목록을 교차하여 수행된다.

다음으로, 6 단계에서, 속성과 단어 사이의 구문 유사성을 식별하기 위해 가장 긴 서브시퀀스 매칭이 적용된다(S160). 여기서, 두 문자열 사이의 가장 긴 서브 문자열 공통을 식별하기 위해 병행 서픽스 트리(Concurrent Suffix Tree) 구현이 사용될 수 있다.

마지막으로, 7 단계에서, 단어에 대해 개념넷(ConceptNet)을 통해 관련성 확인이 수행된다(S170). 여기서, 단어에 대한 관련성 확인은 개념넷에서 numberbatch.h5 임베딩으로부터 획득되는 관련성(C1[W1] = C2[W2]) 측정을 통해 수행될 수 있다. 이 때, 개념넷은 단어 간의 관계를 이용하여 유사도를 구하는 서비스를 제공하는 시스템으로, 이미 잘 알려져 있으므로 여기에서는 구체적인 설명을 생략한다.

7 단계를 통해 생성되는 최종 결과인 스키마 맵은 예를 들어 JSON 포맷의 스키마 맵(SchemaMap)으로서 스키마 맵 저장부(134)에 저장될 수 있다(S170).

도 6은 도 1에 도시된 매핑 검증부(140)의 구체적인 구성 블록도이다.

도 6에 도시된 바와 같이, 매핑 검증부(140)는 중복 제거부(141), 충돌 제거부(142) 및 전문가 검증부(143)를 포함한다.

중복 제거부(141)는 매핑 처리부(130)에서 생성된 새로운 스키마 맵 또는 업데이트된 스키마 맵의 속성들 사이의 중복 매핑을 식별하여 제거한다.

충돌 제거부(142)는 중복 제거부(141)에 의해 중복 매핑이 제거된 스키마 맵에 대해 간단한 규칙을 사용하여 매핑 사이의 충돌을 제거한다.

전문가 검증부(143)는 충돌 제거부(142)에 의해 충돌 매핑이 제거된 스키마 맵에 대해 승인하고 반증하거나 또는 변경할 수 있는 전문가(들)에 의한 검증이 수행되도록 한다.

전문가 검증부(143)에 의해 검증된 스키마 맵은 다시 매핑 처리부(130)로 반환되어 스키마 맵 저장부(134)에 저장된다.

도 7은 도 1에 도시된 의미 조정부(150)의 구체적인 구성 블록도이다.

도 7에 도시된 바와 같이, 의미 조정부(150)는 표준 용어 식별부(151), 의미 보강부(152), 의미 변환부(153) 및 표준 포맷화부(153)를 포함한다.

표준 용어 식별부(151)는 조정 제어부(110)로부터 제공되는 의미 조정이 수행될 소스 의료 데이터에서 표준 의료 용어를 식별한다.

의미 보강부(152)는 표준 용어 식별부(151)에서 표준 의료 용어가 식별된 의료 데이터에서 사용된 용어의 개념을 식별하고 소스 의료 데이터로 확대하는 보강을 수행한다.

의미 변환부(153)는 의미 보강부(152)에서 보강된 의료 데이터에 대해 매핑 처리부(130)에서 생성된 스키마 맵을 적용한 속성 수준의 스키마 매핑을 수행하여 의미가 변환된 타겟 의료 데이터를 생성한다.

표준 출력 포맷화부(154)는 의미 변환부(153)에서 생성된 타겟 의료 데이터를 반복 가능하고 판독 가능한 표준 포맷의 데이터로 포맷화하여 출력한다.

이하, 도면을 참조하여 본 발명의 실시예에 따른 의료 데이터에 대한 즉각 의미 조정 방법에 대해 설명한다.

먼저, 의료 데이터에 대한 즉각 의미 조정을 위해 사용되는 속성 기준의 스키마 맵을 생성하는 방법에 대해 설명한다.

도 8은 본 발명의 실시예에 따른 의료 데이터에 대한 즉각 의미 조정을 위한 스키마 맵 생성 방법의 개략적인 흐름도이다.

도 8을 참조하면, 먼저, 의료 데이터가 새로 입력되면(S100), 메타 데이터를 제거하는 전처리가 수행된다(S210).

다음, 전처리가 수행된 의료 데이터를 CSV 포맷의 데이터로 직렬화한 후 반 구조화된 의료 데이터로 변환한다(S220).

그 후, 반 구조화된 의료 데이터에서 스키마를 식별하고(S230), 식별된 스키마에 대해 매칭 알고리즘(133)을 사용하여 기존의 스키마와 비교한다(S240).

비교 결과, 새로운 스키마(또는 업데이트될 스키마)인 것으로 판단되는 경우(S250), 새로운 스키마와 기존 스키마 사이의 속성 매핑을 통한 스키마 맵을 생성한다(S260).

계속해서, 생성된 스키마 맵의 속성들 사이의 중복 매핑을 제거하고, 간단한 규칙을 사용하여 매핑 사이의 충돌을 제거한다(S270).

그 후, 스키마 맵에 대해 승인하고 반증하거나 또는 변경할 수 있는 전문가(들)에 의한 검증이 수행된다(S280).

이와 같이, 전문가(들)에 의해 최종 검증된 스키마 맵은 스키마 맵 저장부(134)에 저장되어 유지 및 관리된다(S290).

이와 같이, 전술한 단계들을 통해 생성된 스키마 맵은 추후 설명될 의료 데이터에 대한 즉각 의미 조정을 위해 사용될 수 있다.

한편, 전술한 단계(S260)에 대한 구체적인 프로세스는 전술한 도 5를 참조하여 설명한 바와 같으므로, 여기에서는 구체적인 설명을 생략한다.

다음, 전술한 단계들을 통해 생성된 스키마 맵을 사용하여 의료 데이터에 대한 즉각 의미 조정을 수행하는 방법에 대해 설명한다.

도 9는 본 발명의 실시예에 따른 의료 데이터에 대한 즉각 의미 조정 방법의 개략적인 흐름도이다.

도 9를 참조하면, 즉각 의미 조정을 위해 소스 의료 데이터가 입력되면(S300), 소스 의료 데이터에서 표준 의료 용어를 식별한다(S310).

그 후, 소스 의료 데이터에서 사용된 용어의 개념을 식별하고 소스 의료 데이터로 확대하는 보강을 수행한다(S320).

계속해서, 보강된 의료 데이터에 대해 전술한 도 8을 참조하여 설명한 방법에 따라 생성된 스키마 맵을 적용하여 속성 수준의 스키마 매핑을 수행하여 의미가 변환된 타겟 의료 데이터를 생성한다(S330).

마지막으로, 생성된 타겟 의료 데이터를 반복 가능하고 판독 가능한 표준 포맷의 데이터로 포맷화하여 출력한다(S340).

이와 같이, 본 발명의 실시예에 따르면, 의료 데이터 조각이 저장 매체에 보관되고 일부 소프트 타임 내에서 검색될 수 있는 적시성, 모든 의료 데이터 조각이 완전히 기록될 수 있는 확장성, 및 각각의 의료 데이터 조각이 정확하게 검색될 수 있는 정확성을 제공할 수 있다.

도 10은 본 발명의 다른 실시예에 따른 의료 데이터에 대한 즉각 의미 조정 장치의 개략적인 구성 블록도이다.

도 10에 도시된 바와 같이, 본 발명의 다른 실시예에 따른 즉각 의미 조정 장치(200)는 적어도 하나의 프로세서(210), 메모리(220), 통신기(230), 입출력기(240) 및 통신 버스(250)를 포함한다.

프로세서(210)는 범용 CPU(Central Processing Unit), 마이크로프로세서, ASIC(Application-Specific Integrated Circuit), 또는 본 출원의 해결수단에서 프로그램 실행을 제어하기 위한 하나 이상의 집적 회로일 수 있다.

메모리(220)는 본 발명의 실시예에 따른 의료 데이터에 대한 즉각 의미 조정 서비스와 관련된 정보를 저장한다.

구체적으로, 메모리(220)는 코드의 집합을 저장하도록 추가로 구성되고, 그 코드는 다음과 같은 프로세스를 실행하기 위해 프로세서(210)를 제어하는 데 사용된다. 이러한 프로세스는, 통신기(230) 또는 입출력기(240)를 통해 외부로부터 의료 데이터를 입력받는 프로세스, 입력되는 의료 데이터를 반 구조화된 데이터로 변환하는 프로세스, 변환된 반 구조화된 데이터를 저장하여 관리하는 프로세스, 의료 데이터에서 속성 기반으로 스키마를 식별하는 프로세스, 식별된 스키마를 기존 스키마와 비교하여 매칭되는 스키마와의 매핑을 수행하여 스키마 맵을 생성하는 프로세스, 생성된 스키마 맵을 저장하여 관리하는 프로세스, 생성된 스키마 맵에서 중복 매핑을 제거하고 논리적 충돌을 제거한 후 전문가를 통한 검증을 수행하는 프로세스, 검증된 스키마 맵을 저장하여 관리하는 프로세스, 소스 의료 데이터에 대해 스키마 맵을 적용하여 의미가 조정된 타겟 의료 데이터로 변환하는 프로세스를 포함한다.

또한, 이러한 프로세스는 입력되는 의료 데이터에 대해 최소한의 처리를 적용하여 메타 데이터를 제거하는 프로세서, 의료 데이터를 CSV 포맷의 데이터로 직렬화하는 프로세스, 의료 데이터에서 스키마를 식별하는 프로세스, 소스 의료 데이터에서 표준 의료 용어를 식별하는 프로세스, 표준 의료 용어가 식별된 의료 데이터에서 사용된 용어의 개념을 식별하고 소스 의료 데이터로 확대하는 보강을 수행하는 프로세스, 보강된 의료 데이터에 대해 스키마 맵을 적용한 속성 수준의 스키마 매핑을 수행하여 의미가 변환된 타겟 의료 데이터를 생성하는 프로세스, 타겟 의료 데이터를 반복 가능하고 판독 가능한 표준 포맷의 데이터로 포맷화하여 출력하는 프로세스를 더 포함할 수 있다.

메모리(220)는 ROM(Read-Only Memory) 또는 명령을 저장할 수 있는 다른 유형의 정적 저장 장치, 또는 RAM(Random Access Memory) 또는 정보 및 명령을 저장할 수 있는 다른 유형의 동적 저장 장치일 수 있거나, 또는 EEPROM(Electrically Erasable Programmable Read-Only Memory), CD-ROM(Compact Disc Read-Only Memory) 또는 다른 컴팩트 디스크 저장 장치 또는 광 디스크 저장 장치(압축 광 디스크, 레이저 디스크, 광 디스크, 디지털 다용도 디스크, 블루레이 디스크 등을 포함함), 자기 디스크 저장 매체 또는 다른 자기 저장 장치, 또는 명령 또는 데이터 구조의 형태로 예상 프로그램 코드를 운반하거나 저장할 수 있으면서 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체일 수 있으며, 이것은 제한되지 않는다. 메모리(220)는 독립적으로 존재할 수 있으며, 통신 버스(250)에 의해 프로세서(210)에 연결된다.

통신기(230)는 다른 장치 또는 통신 네트워크와 통신을 수행하며, 다양한 통신 기술로 구현될 수 있다. 즉, 와이파이(WIFI), WCDMA(Wideband CDMA), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), HSPA(High Speed Packet Access), 모바일 와이맥스(Mobile WiMAX), 와이브로(WiBro), LTE(Long Term Evolution), 블루투스(bluetooth), 적외선통신(IrDA, infrared data association), NFC(Near Field Communication), 지그비(Zigbee), 무선랜 기술, USB(Universal Serial Bus) 등이 적용될 수 있다. 또한, 인터넷과 연결되어 서비스를 제공하는 경우 인터넷에서 정보 전송을 위한 표준 프로토콜인 TCP/IP를 따를 수 있다.

입출력기(240)는 구체적으로는 입력 장치(241)와 출력 장치(242)로 구성되며, 입력 장치(241)는 프로세서(210)와 통신하고, 복수의 방식으로 사용자의 입력을 수신할 수 있다. 예를 들어, 입력 장치(241)는 마우스, 키보드, 터치 스크린 또는 센싱 장치일 수 있다. 출력 장치(242)는 프로세서(210)와 통신하고, 복수의 방식으로 정보를 디스플레이하거나 음성을 출력할 수 있다. 예를 들어, 출력 장치(242)는 LCD(Liquid Crystal Display, LCD), LED(Light Emitting Diode, LED) 디스플레이, OLED(Organic Light Emitting Diode) 디스플레이, 스피커 등일 수 있다.

통신 버스(250)는 적응형 추천 장치(200)의 모든 컴포넌트들, 즉 프로세서(210), 메모리(220), 통신기(230) 및 입출력기(240)를 결합하도록 구성된다.

이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

의료 데이터에 대한 즉각 의미 조정 장치로서,
의료 데이터를 반 구조화된 데이터로서 저장하여 관리하는 데이터 관리부,
상기 데이터 관리부에 의해 관리되는 의료 데이터에서 속성 기반으로 스키마를 식별하고, 식별된 스키마를 기존 스키마와 비교하여 매칭되는 스키마와의 매핑을 수행하여 스키마 맵을 생성하는 매핑 처리부, 그리고
즉각 의미 조정을 위한 소스 의료 데이터에 대해 상기 매핑 처리부에서 생성된 스키마 맵을 적용하여 속성 수준의 스키마 매핑을 수행하여 의미가 조정된 타겟 의료 데이터를 생성하는 의미 조정부
를 포함하고,
상기 데이터 관리부는,
상기 의료 데이터에서 메타 데이터를 제거하는 전처리부,
상기 전처리부에 의해 메타 데이터가 제거된 의료 데이터를 CSV(Comma Separated Value) 포맷의 데이터로 직렬화한 후 반 구조화된 데이터로 변환하는 데이터 변환부, 그리고
상기 데이터 변환부에 의해 변환된 반 구조화된 데이터를 저장하는 의료 데이터 저장부
를 포함하는, 즉각 의미 조정 장치.
삭제
제1항에 있어서,
상기 의료 데이터 저장부는,
환자에 대응하는 의료 데이터 조각을 저장하는 의료 데이터 아카이브, 그리고
환자를 지시하는 식별자와 환자에 대응하여 상기 의료 데이터 아카이브에 저장된 의료 데이터 조각을 지시하는 지시자를 저장하는 위치 저장소
를 사용하여 상기 반 구조화된 데이터를 저장하는,
즉각 의미 조정 장치.
제3항에 있어서,
상기 의료 데이터 아카이브에 저장된 의료 데이터 조각은,
의료 데이터 조각을 지시하는 식별자(i_f),
의료 데이터 조각에 대한 스키마 이름(τ),
인스턴스에 대한 키 값 쌍의 집합으로 직렬화된 조각(Raw Data), 그리고
의료 데이터 조각의 버전(v_f)
을 포함하는, 즉각 의미 조정 장치.
제1항에 있어서,
상기 매핑 처리부는,
의료 데이터에서 스키마를 식별하는 스키마 식별부,
상기 스키마 식별부에 의해 식별된 스키마에 대해 매칭 알고리즘을 사용하여 기존의 스키마와 비교하여 속성 기준의 매핑을 수행하여 대응하는 스키마 맵을 생성하는 스키마 매핑부, 그리고
상기 스키마 매핑부에 의해 생성된 스키마 맵을 저장하는 스키마 맵 저장부
를 포함하는, 즉각 의미 조정 장치.
제1항에 있어서,
상기 매핑 처리부에 의해 생성되는 스키마 맵에 대한 검증을 수행하고, 검증된 스키마 맵을 상기 매핑 처리부로 전달하여 관리되도록 하는 매핑 검증부
를 더 포함하는 즉각 의미 조정 장치.
제6항에 있어서,
상기 매핑 검증부는,
상기 매핑 처리부에 의해 생성되는 스키마 맵의 속성들 사이의 중복 매핑을 식별하여 제거하는 중복 제거부,
상기 중복 제거부에 의해 중복 매핑이 제거된 스키마 맵에 대해 매핑 사이의 충돌을 제거하는 충돌 제거부, 그리고
상기 충돌 제거부에 의해 충돌이 제거된 스키마 맵에 대해 승인하고 반증하거나 또는 변경할 수 있는 전문가에 의한 검증이 수행되도록 하는 전문가 검증부
를 포함하는, 즉각 의미 조정 장치.
제1항에 있어서,
상기 의미 조정부는,
상기 소스 의료 데이터에서 표준 의료 용어를 식별하는 표준 용어 식별부,
상기 소스 의료 데이터에서 사용된 용어의 개념을 식별하여 상기 소스 의료 데이터로 확대하는 보강을 수행하는 의미 보강부, 그리고
상기 의미 보강부에 의해 보강된 소스 의료 데이터에 대해 상기 매핑 처리부에서 생성된 스키마 맵을 적용한 속성 수준의 스키마 매핑을 수행하여 의미가 변환된 타겟 의료 데이터를 생성하는 의미 변환부
를 포함하는, 즉각 의미 조정 장치.
프로세서를 포함하는 즉각 의미 조정 장치가 의료 데이터에 대한 즉각 의미 조정을 위해 사용되는 속성 기준의 스키마 맵을 생성하는 방법으로서,
의료 데이터를 미리 설정된 포맷의 데이터로 직렬화하는 단계,
직렬화된 의료 데이터를 반 구조화된 데이터로 변환하는 단계,
상기 반 구조화된 데이터에서 스키마를 식별하는 단계, 그리고
식별된 스키마에 대해 매칭 알고리즘을 사용하여 기존의 스키마와 비교하여 속성 기준의 매핑을 수행하여 대응하는 스키마 맵을 생성하는 단계
를 포함하고,
상기 직렬화하는 단계에서, 상기 의료 데이터에서 메타 데이터를 제거하는 전처리가 수행되고, 상기 전처리에 의해 메타 데이터가 제거된 의료 데이터가 CSV 포맷의 데이터로 직렬화되며,
상기 변환하는 단계에서 변환된 반 구조화된 데이터가 의료 데이터 저장부에 저장되는,
스키마 맵 생성 방법.
제9항에 있어서,
상기 스키마 맵을 생성하는 단계는,
상기 식별된 스키마와 상기 기존의 스키마에 대해, 속성 문자열 사이에 대소 문자를 구분하지 않는 단순 매칭을 수행하는 단계,
두 속성이 일치하지 않는 경우, 서픽스 트리(Suffix Tree) 방식을 사용하여 상기 두 속성 사이에서 가장 긴 공통 서브시퀀스(subsequence)를 검색하는 단계,
검색된 가장 긴 공통 서브시퀀스의 속성을 단어로 분할하는 단계,
분할된 각각의 단어에 대해 UMLS(Unified Medical Language System)에서 개념 정보를 수집하는 단계,
각각의 단어 쌍에 대해 수집된 개념을 식별하기 위한 비교를 수행하는 단계,
속성과 단어 사이의 구문 유사성을 식별하기 위해 가장 긴 서브시퀀스 매칭을 수행하는 단계, 그리고
단어에 대해 개념넷(ConceptNet)을 통해 관련성 확인을 수행하여 스키마 맵을 생성하는 단계
를 포함하는, 스키마 맵 생성 방법.
제10항에 있어서,
상기 가장 긴 서브시퀀스 매칭을 수행하는 단계에서,
두 문자열 사이의 가장 긴 서브 문자열 공통을 식별하기 위해 병행 서피스 트리(Concurrent Suffix Tree) 구현을 사용하는,
스키마 맵 생성 방법.
제10항에 있어서,
상기 검색하는 단계에서,
상기 두 속성의 문자열은 두 문자열 사이에 가능한 모든 길이의 문자 시퀀스를 포함하는 하나의 서픽스 트리로 결합되는,
스키마 맵 생성 방법.
프로세서를 포함하는 즉각 의미 조정 장치에 의해 수행되는, 의료 데이터에 대한 즉각 의미 조정 방법으로서,
의료 데이터에서 속성 기반으로 스키마를 식별하고, 식별된 스키마를 기존 스키마와 비교하여 매칭되는 스키마와의 매핑을 수행하여 스키마 맵을 생성하는 단계,
즉각 의미 조정을 위한 소스 의료 데이터에서 표준 의료 용어를 식별하는 단계,
표준 의료 용어가 식별된 소스 의료 데이터에서 사용된 용어의 개념을 식별하고 소스 의료 데이터로 확대하는 보강을 수행하는 단계, 그리고
보강된 소스 의료 데이터에 대해 상기 스키마 맵을 적용한 속성 수준의 스키마 매핑을 수행하여 의미가 변환된 타겟 의료 데이터를 생성하는 단계
를 포함하는 즉각 의미 조정 방법.
제13항에 있어서,
상기 스키마 맵을 생성하는 단계는,
상기 의료 데이터를 미리 설정된 포맷의 데이터로 직렬화하는 단계,
직렬화된 의료 데이터를 반 구조화된 데이터로 변환하는 단계,
상기 반 구조화된 데이터에서 스키마를 식별하는 단계, 그리고
식별된 스키마에 대해 매칭 알고리즘을 사용하여 기존의 스키마와 비교하여 속성 기준의 매핑을 수행하여 대응하는 스키마 맵을 생성하는 단계
를 포함하는, 즉각 의미 조정 방법.
제13항에 있어서,
상기 스키마 맵을 생성하는 단계와 상기 표준 의료 용어를 식별하는 단계 사이에,
상기 스키마 맵에 대한 검증을 수행하는 단계
를 더 포함하는, 즉각 의미 조정 방법.