KR20210120489A - 레이블 데이터 생성 방법 및 이를 이용한 학습방법 및 장치 - Google Patents

레이블 데이터 생성 방법 및 이를 이용한 학습방법 및 장치 Download PDF

Info

Publication number
KR20210120489A
KR20210120489A KR1020200037256A KR20200037256A KR20210120489A KR 20210120489 A KR20210120489 A KR 20210120489A KR 1020200037256 A KR1020200037256 A KR 1020200037256A KR 20200037256 A KR20200037256 A KR 20200037256A KR 20210120489 A KR20210120489 A KR 20210120489A
Authority
KR
South Korea
Prior art keywords
region
medical image
information
computing device
learning
Prior art date
Application number
KR1020200037256A
Other languages
English (en)
Inventor
박정혁
김영원
김경덕
Original Assignee
주식회사 뷰노
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 뷰노 filed Critical 주식회사 뷰노
Priority to KR1020200037256A priority Critical patent/KR20210120489A/ko
Publication of KR20210120489A publication Critical patent/KR20210120489A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Image Analysis (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

본 발명은 컴퓨팅 장치에 의해 수행되는, 인공 신경망에 대한 학습을 위한 레이블 데이터 생성 방법에 관한 것이다.
일 실시예에 따른 레이블 데이터 생성 방법은 의료 영상 내의 각각의 영역에 대한 관찰 정보를 획득하는 단계, 상기 관찰 정보에 기초하여, 상기 의료 영상 내에서 소정의 조건을 충족하는 관심 영역을 산출하는 단계, 및 상기 관심 영역에 기초하여 상기 의료 영상에 대한 레이블 데이터를 생성하는 단계를 포함할 수 있다.

Description

레이블 데이터 생성 방법 및 이를 이용한 장치 {LABEL DATA GENERATION METHOD AND APPARATUS USING SAME}
본 발명은 레이블 데이터 생성 방법 및 이를 이용한 장치에 관한 것이다.
지도 학습(supervised learning)이란, 각각에 대해 정답 주어진 입력 데이터 셋을 이용하여 인공 신경망을 학습시키는 방식이다.
이와 달리 약한 지도 학습(weakly supervised learning)은 각각에 대해 정답이 주어지진 않은 입력 데이터와 일부 추가적인 정보에 기초하여 인공 신경망을 학습시키는 방식이다. 비지도 학습(unsupervised learning)과 같이 아무런 정답이 주어지지 않는 경우와는 다르지만, 약한 지도 학습 환경에서는 데이터 셋의 일부에 대한 정보만 제공받아 인공 신경망에 대한 학습이 진행되고, 제공받지 않은 정보에 대해서는 학습 과정에서 예측이 수행된다. 인공 신경망에 대한 학습 데이터는 그 양이 방대하기 때문에, 학습 데이터 생성 과정에서 개별적인 데이터 셋에 대한 정답을 라벨링(labeling)해야하는 지도 학습에 비하여 약한 지도 학습의 경우 보다 효과적인 학습 방법으로 주목을 받고 있다.
약한 지도 학습 환경에서는, 학습 데이터를 생성하기 위하여 데이터 셋에 대한 라벨링 과정에서 반영될 수 있는 판독자(예를 들어, 전문의)의 편견에 따라 인공 신경망의 성능이 달라지는 지도 학습 환경 상의 문제가 해결할 수 있다.
하지만, 약한 지도 학습은 각각의 학습 데이터에 개략적인 정답이 미리 정해져 있고, 세부적인 정답은 미리 정해져 있지 않으므로(예를 들어, 개별 슬라이드 영상이 양성인지, 음성인지 여부에 대한 개략적인 정답은 정해져 있으나, 양성 슬라이드 영상 내에 병변 영역이 어디인지와 같은 세부적인 정답은 정해져 있지 않음), 효과적인 학습을 위해 지도 학습에 비해 방대한 양의 학습 데이터가 요구되고, 학습 데이터에 불필요한 정보가 다수 포함되는 경우, 학습이 원활하게 이루어지지 않는 문제점이 있다.
본 명세서에서 설명되는 발명은 약한 지도 학습을 보다 효과적으로 진행할 수 있는 레이블 데이터를 자동으로 생성하는 것을 목적으로 한다.
보다 구체적으로, 본 발명은 의료 영상에 포함되는 소정의 영역(조직 또는 병변)에 대한 레이블 데이터를 자동으로 생성하는 방법을 제공하고자 한다.
상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 효과를 실현하기 위한 본 발명의 특징적인 구성은 하기와 같다.
본 발명의 일 실시예에 따르면, 컴퓨팅 장치에 의해 수행되는, 인공 신경망에 대한 학습을 위한 레이블 데이터 생성 방법은 의료 영상 내의 각각의 영역에 대한 관찰 정보를 획득하는 단계; 상기 관찰 정보에 기초하여, 상기 의료 영상 내에서 소정의 조건을 충족하는 관심 영역을 산출하는 단계; 및 상기 관심 영역에 기초하여 상기 의료 영상에 대한 레이블 데이터를 생성하는 단계를 포함할 수 있다.
본 발명의 실시예의 설명에 이용되기 위하여 첨부된 아래 도면들은 본 발명의 실시예들 중 단지 일부일 뿐이며, 본 발명이 속한 기술분야의 통상의 기술자에게 있어서는 별개의 발명에 이르는 노력 없이 이 도면들에 기초하여 다른 도면들이 얻어질 수 있다.
도 1은 일 실시예에 따른 레이블 데이터 생성 방법의 필요성을 개략적으로 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 레이블 데이터 생성 방법을 수행하는 컴퓨팅 장치의 예시적 구성을 개략적으로 도시한 개념도이다.
도 3은 일 실시예에 따른 레이블 데이터 생성 방법을 수행하는 컴퓨팅 장치의 하드웨어 또는 소프트웨어 구성 요소를 도시한 예시적인 블록도이다.
도 4는 일 실시예에 따른 레이블 데이터 생성 방법을 설명하기 위한 흐름도이다.
도 5는 일 실시예에 따른 레이블 데이터가 생성되는 방식을 예시적으로 설명하기 위한 도면이다.
도 6은 다른 실시예에 따른 레이블 데이터 생성 방법을 설명하기 위한 흐름도이다.
도 7은 다른 실시예에 따른 스코어 정보가 산출되는 방식을 예시적으로 설명하기 위한 도면이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명의 목적들, 기술적 해법들 및 장점들을 분명하게 하기 위하여 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 통상의 기술자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다.
본 명세서의 상세한 설명 및 청구항들에 걸쳐 이용된 "영상" 또는 "영상 데이터"라는 용어는 이산적 영상 요소들(예컨대, 2차원 영상에 있어서는 픽셀, 3차원 영상에 있어서는 복셀)로 구성된 다차원 데이터를 지칭한다.
예를 들어 "영상"은 현미경을 이용하여 관찰되는 소정 조직에 대한 슬라이드에 대응하는 2차원 영상을 의미할 수 있으나, "영상"은 이에 한정되는 것이 아니고, (콘-빔형; cone-beam) 전산화 단층 촬영(computed tomography), MRI(magnetic resonance imaging), 초음파 또는 본 발명의 기술분야에서 공지된 임의의 다른 의료 영상 시스템의 의하여 수집된 피검체(subject)의 의료 영상일 수 있다. 또한 영상은 비의료적 맥락에서 제공될 수도 있는바, 예를 들어 원격 감지 시스템(remote sensing system), 전자현미경(electron microscopy) 등등이 있을 수 있다.
본 명세서의 상세한 설명 및 청구항들에 걸쳐, '영상'은 (예컨대, 화면에 표시된) 눈으로 볼 수 있는 영상 또는 영상의 디지털 표현물을 지칭하는 용어이다.
설명의 편의를 위하여 제시된 도면에서는 슬라이드 영상 데이터가 예시적 영상 형식(modality)인 것으로 도시되었다. 그러나 통상의 기술자는 본 발명의 다양한 실시예에서 이용되는 영상 형식들이 X선 영상, MRI, CT, PET(positron emission tomography), PET-CT, SPECT, SPECT-CT, MR-PET, 3D 초음파 영상 등등을 포함하나 예시적으로 열거된 형식에 한정되지 않는다는 점을 이해할 수 있을 것이다.
본 명세서의 상세한 설명 및 청구항들에 걸쳐 설명되는 의료 영상은 'DICOM(Digital Imaging and Communications in Medicine; 의료용 디지털 영상 및 통신)' 표준에 따를 수 있다. DICOM 표준은 의료용 기기에서 디지털 영상 표현과 통신에 이용되는 여러 가지 표준을 총칭하는 용어인바, DICOM 표준은 미국 방사선 의학회(ACR)와 미국 전기 공업회(NEMA)에서 구성한 연합 위원회에서 발표한다.
또한, 본 명세서의 상세한 설명 및 청구항들에 걸쳐 설명되는 의료 영상은 '의료영상 저장 전송 시스템(PACS; Picture Archiving and Communication System)'을 통해 저장되거나 전송될 수 있으며, 의료영상 저장 전송 시스템은 DICOM 표준에 맞게 의료 영상을 저장, 가공, 전송하는 시스템일 수 있다. X선, CT, MRI와 같은 디지털 의료영상 장비를 이용하여 획득된 의료영상은 DICOM 형식으로 저장되고 네트워크를 통하여 병원 내외의 단말로 전송이 가능하며, 이에는 관찰 결과 및 진료 기록이 추가될 수 있다.
그리고 본 명세서의 상세한 설명 및 청구항들에 걸쳐 '학습' 혹은 '러닝'은 절차에 따른 컴퓨팅(computing)을 통하여 기계 학습(machine learning)을 수행함을 일컫는 용어인바, 인간의 교육 활동과 같은 정신적 작용을 지칭하도록 의도된 것이 아님을 통상의 기술자는 이해할 수 있을 것이다.
본 명세서에서 사용되는 레이블 데이터는, 각각의 의료 영상에 대응하여 생성되는 데이터로써, 의료 영상의 특성 정보 중 적어도 하나를 포함하는 데이터를 의미할 수 있다. 의료 영상의 특성 정보는 조직 영역 또는 병변 영역의 존재 여부 및 그 위치 정보, 조직 영역 또는 병변 영역이 관찰된 경과 시간에 대응되는 시간 정보(예를 들어, 30초), 관찰 과정에서 각각의 영역이 확대된 배율 정보를 포함할 수 있으나, 이에 한정되는 것은 아니고, 의료 영상의 특성을 반영할 수 있는 임의의 정보를 포함할 수 있다.
그리고 본 명세서의 상세한 설명 및 청구항들에 걸쳐, '포함하다'라는 단어 및 그 변형은 다른 기술적 특징들, 부가물들, 구성요소들 또는 단계들을 제외하는 것으로 의도된 것이 아니다. 또한, '하나' 또는 '한'은 하나 이상의 의미로 쓰인 것이며, '또 다른'은 적어도 두 번째 이상으로 한정된다.
통상의 기술자에게 본 발명의 다른 목적들, 장점들 및 특성들이 일부는 본 명세서로부터, 그리고 일부는 본 발명의 실시로부터 드러날 것이다. 아래의 예시 및 도면은 실례로서 제공되며, 본 발명을 한정하는 것으로 의도된 것이 아니다. 따라서, 특정 구조나 기능에 관하여 본 명세서에 개시된 상세 사항들은 한정하는 의미로 해석되어서는 아니되고, 단지 통상의 기술자가 실질적으로 적합한 임의의 상세 구조들로써 본 발명을 다양하게 실시하도록 지침을 제공하는 대표적인 기초 자료로 해석되어야 할 것이다.
더욱이 본 발명은 본 명세서에 나타난 실시예들의 모든 가능한 조합들을 망라한다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 사상 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 사상 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
본 명세서에서 달리 표시되거나 분명히 문맥에 모순되지 않는 한, 단수로 지칭된 항목은, 그 문맥에서 달리 요구되지 않는 한, 복수의 것을 아우른다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
이하, 통상의 기술자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 1은 일 실시예에 따른 레이블 데이터 생성 방법을 개략적으로 설명하기 위한 도면이다.
약한 지도 학습을 통해 학습 시킨 인공 신경망을 이용하는 경우, 의료 영상에 대한 진단이 지도 학습과 유사한 정도의 정확도를 보인다는 것이 밝혀져 있으며, 이에 따라 약한 지도 학습의 의료 영상 분야에 대한 적용이 증가하고 있다. 예를 들어, 약한 지도 학습 환경에서는, 각각의 의료 영상이 양성인지, 음성인지 여부에 대한 정답이 정해져 있고, 양성 의료 영상 내에 병변 영역(또는 조직 영역)에 대한 정답이 정해지지 않은 학습 데이터에 기초하여 인공 신경망에 대한 학습이 진행될 수 있다. 또한, 약한 지도 학습은 추가적으로 다중 인스턴스 학습(Multi-instance learning)을 포함할 수 있고, 다중 인스턴스 학습에서는 의료 영상과 더불어 음성 의료 영상에 포함된 모든 영역은 음성에 해당하고, 양성 의료 영상에 포함된 일부 영역은 병변 영역에 대응하는 양성에 해당하는 것을 나타내는 추가 정보에 기초하여 인공 신경망이 학습될 수 있다.
학습 데이터로 제공되는 의료 영상은 병변 영역 이외에도 병변의 진단과 무관한 영역을 다수 포함할 수 있다. 예를 들어, 병변의 진단과 무관한 영역은 의료 영상 내에 빈 공간으로 존재하는 영역, 이물질이 존재하는 영역 등을 포함할 수 있다. 인공 신경망이 학습되는 과정에서 의료 영상의 모든 영역이 참조되므로, 병변의 진단과 무관한 영역을 다수 포함하는 학습 데이터는 인공 신경망의 학습에 부정적인 영향을 미친다. 학습 데이터인 의료 영상에서 병변 진단과 무관한 영역이 차지하는 비율이 증가하는 경우, 인공 신경망의 학습 효율 및 학습된 인공 신경망의 성능은 더 떨어질 수 있다. 특히, 약한 지도 학습에서는 학습 데이터로 사용되는 각각의 의료 영상 내 학습 대상 영역(예를 들어, 병변 영역 또는 조직 영역)에 대한 세부적인 정답에 해당하는 레이블 데이터가 미리 생성되어 있지 않아, 의료 영상 내에서 학습 대상 영역이 특정되지 않을 수 있다. 따라서, 병변 진단과 무관한 영역이 의료 영상에서 차지하는 비율이 큰 경우, 학습된 인공 신경망의 성능이 더욱 저하될 수 있다.
도 1을 참고하면, 의료 영상(110-1, 110-2, ..., 110-N)은 현미경을 통해 판독되는 피검체의 세포 조직에 대한 슬라이드 영상으로, 의료 영상을 통해 병리 진단을 수행하는 인공 신경망의 학습을 위해 사용되는 영상일 수 있다. 의료 영상(110-1)은 조직 영역(111) 내에 병변 영역(112, 113)을 포함하는 양성 의료 영상에 대응될 수 있고, 의료 영상 (110-N)은 병변 영역을 포함하지 않는 조직 영역(114)만을 포함하는 음성 의료 영상일 수 있다. 약한 지도 학습에서, 의료 영상을 통해 병리 진단을 수행하는 인공 신경망은 의료 영상(110-1, 110-2, ..., 110-N) 및 의료 영상(110-1, 110-2, ..., 110-N)에 대한 소정의 추가 정보에 기초하여 학습될 수 있다. 보다 구체적으로, 추가 정보는 음성 의료 영상에 포함된 모든 영역은 음성에 해당하고, 양성 의료 영상에 포함된 일부 영역만이 양성에 해당하는 것을 나타내는 정보(예를 들어, 일부 영역만이 병변 영역에 해당함.)이거나, 각각의 의료 영상(110-1, 110-2, ..., 110-N)이 양성 의료 영상인지 음성 의료 영상인지 여부에 대한 정보일 수 있다.
일반적으로 추가 정보는 의료 영상(110-1, 100-2, ..., 100-N)에서 조직 영역(111)에 대한 위치 정보 및 양성 의료 영상(100-1) 내의 병변 영역(112, 113)의 위치 정보를 포함하지 않으므로, 인공 신경망은 학습 과정에서 의료 영상(110-1, 100-2, ..., 100-N)의 전 영역을 참조하게 된다. 따라서, 의료 영상(110-1, 100-2, ..., 100-N)에 포함되는 조직 영역(111, 114) 또는 병변 영역(112, 113)이 전체 의료 영상(110-1, 100-2, ..., 100-N)에서 차지하는 비율이 감소할수록 인공 신경망에 대한 학습 효율 및 학습된 인공 신경망의 진단 정확성은 감소될 수 있다.
인공 신경망에 대한 학습의 효율성을 높이기 위해서는 의료 영상(110-1, 100-2, ..., 110-N)에서 학습 대상 영역을 조직 영역 또는 병변 영역으로 한정하는 프로세스를 수행하는 부가적인 모듈이 요구될 수 있다.
일 실시예에 따른 컴퓨팅 장치는 의료 영상(110-1, 110-2, ..., 110-N)에 대해 기 수행된 판독 과정(판독자의 뷰어 시스템을 이용한 관찰 등)에서 생성된 관찰 정보에 기초하여, 의료 영상(110-1, 110-2, ..., 110-N)에 포함된 조직 영역(111, 114) 또는 병변 영역(112, 113)에 대응하는 레이블 데이터를 생성할 수 있다. 생성된 레이블 데이터는 인공 신경망의 학습 과정에서 이용될 수 있다. 이를 통해 컴퓨팅 장치는 조직 영역(111, 114) 또는 병변 영역(112, 113)이 의료 영상 내에서 차지하는 비율이 작은 경우에도, 인공 신경망에 대한 효율적인 학습을 수행할 수 있는 수단을 제공할 수 있다.
인력을 통해 각각의 의료 영상에 대한 레이블링으로 학습 데이터를 생성하던 기존 방식에 비해, 본 발명에 따른 레이블 데이터 생성 방법은 효과적인 학습 데이터 생성 수단을 제공할 수 있다.
또한, 일 실시예에 따른 컴퓨팅 장치는, 생성된 레이블 데이터를 통해 학습 데이터를 보다 경량화할 수 있다. 보다 구체적으로, 컴퓨팅 장치는 생성된 레이블 데이터에 기초하여, 의료 영상을 레이블 데이터에서 지시되는 소정 영역을 의료 영상으로부터 획득하고, 획득한 영역을 통해 학습 데이터를 생성함으로써, 보다 경량화된 학습 데이터를 생성할 수 있다. 컴퓨팅 장치는 방대한 용량의 학습 데이터를 보다 경량화함으로써, 학습 속도를 향상시키고, 시스템의 부하를 저감할 수 있는 수단을 제공할 수 있다.
도 1에서, 의료 영상의 예시로써 소정의 조직에 대한 병리 슬라이드 영상을 이용하여 본원 발명의 동작을 설명하였으나, 통상의 기술자는 본원 발명이 적용되는 의료 영상이 슬라이드 영상에 한정되지 않고, 진단 과정에서 상세한 판독을 위해 확대가 진행되는 3차원 CT 영상과 같이 임의의 의료 영상에 적용될 있음을 이해할 것이다.
도 2는 일 실시예에 따른 레이블 데이터 생성 방법을 수행하는 컴퓨팅 장치의 예시적 구성을 개략적으로 도시한 개념도이다.
본 발명의 일 실시예에 따른 컴퓨팅 장치(200)는, 통신부(210) 및 프로세서(220)를 포함하며, 상기 통신부(210)를 통하여 외부 컴퓨팅 장치(미도시)와 직간접적으로 통신할 수 있다.
구체적으로, 상기 컴퓨팅 장치(200)는, 전형적인 컴퓨터 하드웨어(예컨대, 컴퓨터 프로세서, 메모리, 스토리지, 입력 장치 및 출력 장치, 기타 기존의 컴퓨팅 장치의 구성요소들을 포함할 수 있는 장치; 라우터, 스위치 등과 같은 전자 통신 장치; 네트워크 부착 스토리지(NAS; network-attached storage) 및 스토리지 영역 네트워크(SAN; storage area network)와 같은 전자 정보 스토리지 시스템)와 컴퓨터 소프트웨어(즉, 컴퓨팅 장치로 하여금 특정의 방식으로 기능하게 하는 명령어들)의 조합을 이용하여 원하는 시스템 성능을 달성하는 것일 수 있다.
이와 같은 컴퓨팅 장치의 통신부(210)는 연동되는 타 컴퓨팅 장치와 요청과 응답을 송수신할 수 있는바, 일 예시로서 그러한 요청과 응답은 동일한 TCP(transmission control protocol) 세션(session)에 의하여 이루어질 수 있지만, 이에 한정되지는 않는바, 예컨대 UDP(user datagram protocol) 데이터그램(datagram)으로서 송수신될 수도 있을 것이다. 덧붙여, 넓은 의미에서 상기 통신부(210)는 명령어 또는 지시 등을 전달받기 위한 키보드, 마우스와 같은 포인팅 장치(pointing device), 기타 외부 입력장치, 프린터, 디스플레이, 기타 외부 출력장치를 포함할 수 있다.
또한, 컴퓨팅 장치의 프로세서(220)는 MPU(micro processing unit), CPU(central processing unit), GPU(graphics processing unit) 또는 TPU(tensor processing unit), 캐시 메모리(cache memory), 데이터 버스(data bus) 등의 하드웨어 구성을 포함할 수 있다. 또한, 운영체제, 특정 목적을 수행하는 애플리케이션의 소프트웨어 구성을 더 포함할 수도 있다.
도 3은 일 실시예에 따른 레이블 데이터 생성 방법을 수행하는 컴퓨팅 장치의 하드웨어 또는 소프트웨어 구성 요소를 도시한 예시적인 블록도이다.
도 3을 참조하면, 컴퓨팅 장치는 관찰 정보 획득 모듈(310), 관심 영역 검출 모듈(330), 분류 모듈(340), 스코어 정보 산출 모듈(345), 레이블 데이터 생성 모듈(350) 및 학습 데이터 생성 모듈(370)을 포함할 수 있다.
도 3에 도시된 개별 모듈들은, 예컨대, 컴퓨팅 장치에 포함된 통신부나 프로세서, 또는 상기 통신부 및 프로세서의 연동에 의하여 구현될 수 있음은 통상의 기술자가 이해할 수 있을 것이다.
도 3을 참조하면, 컴퓨팅 장치는 관찰 정보 획득 모듈(310)을 통해 의료 영상에 대해 수행된 판독 과정에서 판독자가 관찰한 영역에 대한 관찰 정보를 획득할 수 있다. 관찰 정보는 뷰어 시스템을 이용하여 의료 영상에 대해 수행된 판독 과정에서, 의료 영상에 포함된 영역들 중, 판독자에 의해 관찰된 영역에 대응하는 관찰 영역의 위치 정보(예를 들어, 관찰 영역의 좌표 정보), 관찰 영역에 대한 관찰이 진행된 경과 시간에 대응하는 관찰 시간 정보(예를 들어, 1분) 및 관찰 영역이 관찰되는 과정에서 확대된 정도에 대응하는 배율 정보(예를 들어, 원본 슬라이드 영상으로부터 100배) 중 적어도 하나를 포함할 수 있다. 관찰 정보는 판독 과정에서 사용되는 뷰어 시스템에 의해 자동으로 생성될 수 있다.
관찰 시간 정보는, 각각의 영역(픽셀)이 연속적으로 관찰된 최대 시간 또는 누적된 총 관찰 시간에 대한 정보를 포함할 수 있다. 또한, 배율 정보는 각각의 영역이 확대된 최대 확대 배율 또는 누적된 확대 배율의 평균값에 대한 정보를 포함할 수 있다. 관찰 시간 정보 및 배율 정보는 제시된 예시만에 한정되는 것은 아니고, 관찰 시간 또는 확대 배율이 소정의 방식으로 가공된 임의의 정보를 포함할 수 있음은 통상의 기술자가 이해할 것이다.
컴퓨팅 장치는 관심 영역 검출 모듈(330)을 통해 의료 영상에서 소정의 조건을 만족하는 관심 영역을 검출할 수 있다. 예를 들어, 컴퓨팅 장치는 관찰 정보를 통해 관찰 영역 중 소정 시간 이상 관찰된 영역 또는 소정 배율 이상으로 확대되어 관찰된 영역을 관심 영역으로 검출할 수 있다. 관심 영역은 연속적으로 관찰된 최대 시간이 소정의 조건을 만족하는 영역(픽셀)로 결정되거나, 누적된 관찰 시간이 소정의 조건을 만족하는 영역으로 결정될 수 있다. 또한, 관심 영역은, 최대 확대 배율이 소정의 조건을 만족하는 영역으로 결정되거나, 누적된 확대 배율의 평균 값이 소정의 조건을 만족하는 영역으로 결정될 수 있다.
컴퓨팅 장치는 추가적으로, 분류 모듈(340)을 더 포함할 수 있다. 컴퓨팅 장치는 분류 모듈을 통해 관심 영역을 세부 영역으로 분류할 수 있다. 예를 들어, 관심 영역은 소정의 기준에 따라서 조직 영역 또는 병변 영역으로 분류될 수 있으며, 컴퓨팅 장치가 관심 영역을 분류하는 구체적인 방식은 도 4를 통해 보다 상세히 설명된다. 컴퓨팅 장치가 관심 영역을 조직 영역 또는 병변 영역 중 적어도 하나로 분류하는 것으로 설명되었으나, 이에 본원 발명의 실시예가 한정되는 것은 아니고, 관심 영역이 보다 세부적인 영역들로 분류될 수 있음은 통상의 기술자가 이해할 것이다.
컴퓨팅 장치는 스코어 정보 산출 모듈(345)를 포함할 수 있다. 컴퓨팅 장치는 스코어 산출 모듈(345)를 통해 각각의 의료 영상에 대한 스코어 정보를 산출할 수 있다. 스코어 정보는, 의료 영상의 각각의 영역(픽셀)에 대해 산출된 개별 스코어를 포함할 수 있고, 개별 스코어는 각각의 영역의 관찰 정보에 기초하여 산출될 수 있다. 스코어 정보를 산출하는 구체적인 방식은 도 6을 통해 상세히 설명된다.
컴퓨팅 장치는 레이블 데이터 생성 모듈(350)을 통해 의료 영상에 대한 레이블 데이터를 생성할 수 있다. 보다 구체적으로, 컴퓨팅 장치는 관심 영역의 위치 정보, 관심 영역에 대한 분류 결과 정보, 스코어 정보 중 적어도 하나에 기초하여, 의료 영상에 대한 레이블 데이터를 생성할 수 있다.
컴퓨팅 장치는 학습 데이터 생성 모듈(370)을 더 포함할 수 있다. 컴퓨팅 장치는 학습 데이터 생성 모듈(370)을 통해, 생성된 레이블 데이터를 이용하여 학습 데이터를 생성할 수 있다. 예를 들어, 컴퓨팅 장치는 레이블 데이터와 이에 대응되는 의료 영상 자체를 결합하거나, 레이블 데이터에 의료 영상의 식별 정보를 결합함으로써 학습 데이터를 생성할 수 있다.
또한, 컴퓨팅 장치는 학습 데이터 생성 모듈(370)을 통해, 경량화된 학습 데이터를 생성할 있다. 보다 구체적으로, 컴퓨팅 장치는 의료 영상으로부터 관심 영역에 대응하는 관심 영역 영상을 획득하고, 관심 영역 영상에 기초하여 학습 데이터를 생성할 수 있다. 컴퓨팅 장치는 전체 의료 영상을 학습 데이터로 이용하는 종래 방식에 비하여, 관심 영역으로 한정된 경량화된 학습 데이터를 생성할 수 있다. 경량화된 학습 데이터는 방대한 용량의 학습 데이터 저장 공간을 절감할 수 있다. 이외에도 컴퓨팅 장치는 경량화된 학습 데이터를 통해 인공 신경망의 학습 시간 및 사용되는 리소스가 절감될 수 있고, 학습 데이터 송수신이 보다 용이하게 수행될 수 있다. 이를 통해 컴퓨팅 시스템은 인공 신경망 학습 관련 시스템의 부하를 경감할 수 있는 수단을 제공할 수 있다.
실시예에 따라서, 컴퓨팅 장치가 인공 신경망 훈련에 직접 이용되는 경우, 인공 신경망 훈련 모듈(미도시)을 더 포함할 수 있다. 컴퓨팅 장치는 학습 데이터 생성 모듈(370)을 통해 생성한 학습 데이터를 이용하여 인공 신경망을 훈련시킬 수 있다. 컴퓨팅 장치는 레이블 데이터 생성 모듈(350)을 통해 생성된 레이블 데이터를 통해 의료 영상 내에서 학습 대상 영역을 특정되는 수단을 제공함으로써, 일반적인 약한 지도 학습에 따른 인공 신경망 훈련 방법에 비해 보다 효과적으로 인공 신경망을 훈련시킬 수 있다.
도 3에 나타난 구성요소들은 설명의 편의상 하나의 컴퓨팅 장치에서 실현되는 것으로 예시되었으나, 본 발명의 방법을 수행하는 컴퓨팅 장치는 복수개의 장치들이 서로 연동되도록 구성될 수도 있다는 점이 이해될 것이다.
도 4는 일 실시예에 따른 레이블 데이터 생성 방법을 설명하기 위한 흐름도이다.
도 4를 참조하면, 컴퓨팅 장치는 단계(410)에서 의료 영상에 대한 관찰 정보를 획득할 수 있다. 관찰 정보는, 의료 영상에 대해 수행된 판독 과정에서, 의료 영상에 포함된 각각의 영역들 중, 판독자가 관찰한 영역에 대응하는 관찰 영역의 위치 정보, 관찰 영역이 관찰된 시간에 대응하는 관찰 시간 정보, 관찰 영역이 관찰되는 과정에서 확대된 정도에 대응하는 배율 정보 중 적어도 하나를 포함할 수 있다. 의료 영상이 피검체의 조직에 대한 슬라이드 영상에 해당하는 경우, 슬라이드 영상에 포함된 영역들 중 현미경을 통해 확인된 영역이 관찰 수행 영역으로 결정될 수 있다. 즉, 현미경을 통해 확인된 픽셀들의 집합이 관찰 수행 영역으로 결정될 수 있다. 관찰 정보는 의료 영상에 대한 판독 과정에서 사용된 뷰어(viewer) 시스템에 의해 자동으로 생성될 수 있다. 보다 구체적으로, 관찰 영역은 뷰어 시스템 상에서, 슬라이드 영상의 전체 영역들 중 메인 뷰어 화면에 디스플레이된 이력이 있는 소정의 영역으로 결정될 수 있다.
의료 영상은 앞선 예시로 제시된 슬라이드 영상에 한정되는 것이 아니고, X-ray, CT, MRI 등 임의의 형태의 영상을 포함할 수 있고, 뷰어 시스템은 각각의 의료 영상과 연동되는 임의의 뷰어 시스템에 해당할 수 있음은 통상의 기술자가 이해할 것이다.
컴퓨팅 장치는 단계(420)에서 관찰 정보에 기초하여 의료 영상 내에서 소정의 조건을 충족하는 관심 영역을 산출할 수 있다.
구체적으로, 컴퓨팅 장치는 의료 영상 내에서 관찰 시간이 소정의 임계 시간 이상인 영역을 관심 영역으로 산출할 수 있다.
또한, 컴퓨팅 장치는 판독 과정에서 확대된 배율이 소정의 임계 배율 이상인 영역을 관심 영역으로 산출할 수 있다.
관심 영역을 산출하기 위한 임계 시간 및 임계 배율은 의료 영상의 종류, 조직의 종류 등에 기초하여 결정될 수 있다. 보다 구체적으로, 의료 영상 또는 조직의 종류에 따라 임계 시간 또는 임계 배율이 통계적으로 결정될 수 있다. 예를 들어, 의료 영상이 조직의 슬라이드에 대응하는 영상인 경우, 슬라이드 영상에 대한 판독 과정에서 통상적으로 이용되는 배율의 평균에 근거하여 임계 배율이 결정될 수 있다. 또한, 임계 시간은 조직 영역 또는 병변 영역에 대해 관찰이 진행되는 평균적인 시간을 산출함으로써 결정될 수 있다. 또한, 의료 영상에 대한 판독 과정에서, 의료 영상이 3차원 CT 영상인 경우 슬라이드 영상에 비해 통계적으로 작은 배율의 확대가 진행되므로, 의료 영상이 3차원 CT 영상인 경우, 임계 배율은 의료 영상이 병변 슬라이드 영상인 경우보다 적은 배율로 결정될 수 있다. 또한, 판독 과정에서 병변 판독의 난이도가 낮은 조직의 경우, 비교적 병변 판독의 난이도가 높은 조직에 비해 임계 시간이 짧게 설정될 수 있으며, 임계 배율이 더 작은 배율로 결정될 수 있다. 이외에도, 관심 영역 산출을 위해 임계 배율 혹은 임계 시간은 학습 효율을 최대화할 수 있는 수치로 실험적으로 결정될 수 있음은 통상의 기술자가 이해할 것이다.
또한, 3차원 CT 영상은 3차원 형태의 병변 영역이 복수의 연속된 슬라이스 영상에 포함될 수 있으므로, 현재 슬라이스 영상 이외에 전/후 슬라이스 영상에 대한 관찰 정보를 고려하여 현재 슬라이스 영상에 대한 관심 영역이 산출될 수도 있다. 보다 구체적으로 현재 슬라이스 영상의 소정 영역에 대한 관찰 시간과 전/후 슬라이스 영상에서 소정 영역에 대응되는 영역에 대한 관찰 시간 각각에 가중치를 부여하여 최종 관찰 시간이 산출되고, 산출된 최종 관찰 시간이 미리 정해진 임계 조건을 만족하는지 여부에 기초하여 현재 슬라이스 영상에 대한 관심 영역이 산출될 수 있다.
컴퓨팅 장치는 추가적인 조건에 따라서 관심 영역을 분류할 수 있다. 예를 들어, 컴퓨팅 장치는 관심 영역에 대한 관찰 시간 또는 관심 영역이 관찰되는 과정에서 확대된 배율에 따라 관심 영역을 조직 영역 또는 병변 영역으로 분류할 수 있다. 보다 구체적으로, 컴퓨팅 장치는 관심 영역 중 관찰 시간이, 제1 임계 시간 이상이고, 제2 임계 시간 미만인 영역을 조직 영역에 대응되는 영역으로 분류할 수 있다. 또한, 컴퓨팅 장치는 관심 영역 중 관찰 시간이 제2 임계 시간 이상인 영역에 대하여 병변 영역에 대응되는 영역으로 분류할 수 있다.
다른 실시예에 따르면, 컴퓨팅 장치는 관심 영역 중 배율 정보가 제1 임계 배율 이상이고, 제2 임계 배율 미만인 영역에 대하여 조직 영역에 대응하는 영역으로 분류할 수 있다. 또한, 컴퓨팅 장치는 관심 영역 중 배율 정보가 제2 임계 배율 이상인 영역을 병변 영역에 대응되는 영역으로 분류할 수 있다.
판독자는 병변 영역에 대해서는 음성 조직 영역보다 오랜 기간 관찰을 진행하거나, 더 큰 배율로 확대하여 관찰을 진행할 확률이 높다. 컴퓨팅 장치는 관찰 시간 또는 배율 정보에 따른 관심 영역의 분류 결과 정보가 반영된 레이블 데이터를 통해, 인공 신경망의 학습의 정확도를 향상시킬 수 있는 수단을 제공할 수 있다.
앞선 동작에서 관심 영역이 조직 영역과 병변 영역으로 분류되는 것으로 설명되었으나, 이는 예시적인 설명에 해당하고, 의료 영상에 포함된 영역들이 보다 세부적인 영역으로 분류될 수 있음은 통상의 기술자가 이해할 것이다. 예를 들어, 관심 영역이 관찰된 시간 또는 확대된 배율과, 병변 영역의 악성도에 대한 통계적인 상관 관계를 통해 병변 영역이 악성도에 따라 분류될 수도 있음은 통상의 기술자가 이해할 것이다.
또한, 본원 명세서에서 예시적으로 관찰 시간 또는 확대 배율 각각에 기초하여 관심 영역이 결정되거나, 관심 영역이 분류되는 것으로 설명되었으나, 두 조건이 동시에 적용되어 분류가 진행될 수 있거나, 관찰과 관련된 추가적인 요인에 따라 의료 영상의 영역이 식별될 수 있음은 통상의 기술자가 이해할 것이다.
컴퓨팅 장치는 단계(430)에서 관심 영역에 대한 레이블 데이터를 생성할 수 있다. 보다 구체적으로, 레이블 데이터는 관심 영역의 위치 정보에 기초하여 생성될 수 있다. 또한, 레이블 데이터는 관심 영역에 포함된 각 영역의 분류 결과 정보(예를 들어, 관심 영역이 병변 영역에 해당하는 지, 조직 영역에 해당하는 지에 대한 정보)를 더 포함할 수 있다. 실시예에 따라서, 레이블 데이터는 소정의 가중치 정보를 더 포함할 수 있다. 예를 들어, 컴퓨팅 장치는 병변 영역에 대응하는 관심 영역에 대해 보다 높은 가중치가 부여되거나, 관찰 시간 혹은 확대된 배율이 보다 높은 영역에 대해 더 높은 가중치가 부여된 가중치 정보에 기초하여 레이블 데이터를 생성할 수 있다. 가중치 정보에 기초하여 인공 신경망 학습 효율성이 증대될 수 있다.
또한, 컴퓨팅 장치는 생성된 레이블 데이터에 기초하여 인공 신경망을 위한 학습 데이터를 생성할 수 있다. 예를 들어, 학습 데이터는 레이블과 대응되는 의료 영상이 결합된 데이터 형태일 수 있다.
추가적으로, 컴퓨팅 장치는 레이블 데이터에 기초하여 경량화된 학습 데이터를 생성할 수 있다. 예를 들어, 컴퓨팅 장치는 레이블 데이터에 기초하여 의료 영상에서 관심 영역에 대응하는 관심 영역 영상을 산출하고, 산출된 관심 영역 영상에 기초하여 학습 데이터를 생성할 수 있다. 학습 데이터로써 의료 영상은 용량이 매우 크므로, 보관 및 처리에 있어서 시스템에 높은 부하를 줄 수 있다. 컴퓨팅 장치는 관심 영역 영상을 통해 학습 데이터를 생성함으로써, 시스템에 대한 부하를 절감할 수 있으며, 학습 데이터 저장 공간을 대폭 감소시킬 수 있다.
학습 데이터로 사용되는 각각의 의료 영상에 통계적으로 의료 영상 전체 크기의 30%에 대응되는 조직 영역이 포함되는 예시적인 상황에서, 본원의 레이블 데이터가 인공 신경망 학습에 이용되는 경우, 의료 영상의 학습 대상 영역이 의료 영상의 전체 영역의 약 30%에 가까워질 수 있다는 점은 통상의 기술자가 이해할 것이다. 이를 통하여 학습 과정에서 의료 영상의 전체가 참조될 것으로 예상되는 종래 방식에 비해 학습의 효율성이 증대될 수 있다. 또한, 본원의 발명은 학습 영역이 조직 영역 또는 병변 영역으로 한정된 양질의 학습 데이터를 제공할 수 있어, 인공 신경망을 이용한 진단의 정확성도 급격히 증가될 수 있다. 이외에도, 레이블 데이터를 이용하여 생성된 경량화된 학습 데이터는 종래 학습 데이터 용량의 약 30%에 해당하는 용량으로 생성될 수 있다.
또한, 의료 영상에 포함된 병변 영역을 판독하는 인공 신경망은, 전체 학습 데이터에서 음성 영역(예를 들어, 병변이 없는 조직 영역)과 양성 영역(예를 들어, 병변 영역)이 소정의 비율(예를 들어, 3:7)일 때에 최적의 학습이 이루어진다는 것은 실험적으로 확인될 수 있으며, 통상의 기술자는 약한 지도 학습에서 학습 데이터의 적정 수준의 비율(양성 영역과 음성 영역 사이의 비율)이 인공신경망의 학습 효율 및 학습된 인공 신경망의 성능 향상에 영향을 줄 수 있음을 이해할 것이다. 앞서 설명된 방식에서 설정되는 임계치(예를 들어, 임계 시간, 임계 배율)을 적절히 조절함으로써, 본원 발명은 종래의 학습 데이터로 제공되는 의료 영상을, 최적의 학습이 이루어질 수 있는 학습 데이터로 가공할 수 있는 수단을 제공할 수 있다.
상기 제시된 본원 발명의 효과는 예시적인 효과로, 학습에 사용되는 의료 영상의 종류, 조직의 종류 등에 따라 효과는 변화할 수 있으나, 통상의 기술자는 의료 영상 내에 포함되는 조직 영역의 비율이 작을수록, 본원 발명이 제공하는 효과가 증대될 수 있음을 이해할 것이다.
또한, 본원의 레이블 데이터 생성 방법에 따르면, 수작업을 통한 레이블링을 이용한 종래 학습 데이터 생성 방식에 비해 보다 효과적인 학습 데이터 생성이 가능하다.
도 5는 일 실시예에 따른 레이블 데이터가 생성되는 방식을 예시적으로 설명하기 위한 도면이다.
도 5를 참고하면, 컴퓨팅 장치는 의료 영상(510-1, ..., 510-N) 각각에 대한 레이블 데이터를 생성할 수 있다.
컴퓨팅 장치는 획득한 관찰 정보에 기초하여 의료 영상 내에서 소정의 조건을 만족하는 관심 영역을 산출할 수 있다.
병변 영역을 포함하는 양성의 의료 영상(510-1)을 참고하면, 관찰 정보는 의료 영상(510-1)에서 관찰 영역(511, 512)에 대한 위치 정보를 포함할 수 있다. 관찰 영역(511, 512)은 의료 영상(510-1)에 대해 기진행된 판독 과정에서, 판독자가 관찰한 영역으로, 관찰 영역(511, 512) 이외의 영역은 판독 과정에서 뷰어 시스템을 통해 관찰되지 않은 영역에 대응될 수 있다. 관찰 정보는 관찰 영역(511, 512)에 대한 위치 정보와 더불어 관찰 영역(511, 512)이 관찰된 시간에 대응하는 관찰 시간 정보 및 판독 과정에서 관찰 영역이 확대된 정도인 배율 정보를 포함할 수 있다.컴퓨팅 장치는 관찰 영역(511, 512) 중 소정의 조건을 만족하는 영역을 관심 영역(512)으로 결정할 수 있다. 예를 들어, 관심 영역은, 관찰 영역(511, 512) 중 판독 과정에서 i) 5초 이상 관찰이 수행되었거나 ii) 초기 슬라이드 영상에서 대물렌즈 배율을 기준으로 10배 이상 확대되어 관찰된 영역으로 결정될 수 있다. 예시적으로, 관찰 영역(511)은 불순물을 포함하는 영역으로 이전 판독 과정에서 5배의 배율로 2초 동안 관찰되고, 관찰 영역(512)의 경우 조직 영역으로 10배 이상의 배율로 5초 이상 관찰된 상황에서, 컴퓨팅 장치는 관찰 영역(512)만을 관심 영역으로 결정할 수 있다. 실시예에 따라서, 관심 영역은 i) 각각의 영역(픽셀)이 연속적으로 관찰된 최대 시간을 기준으로 미리 결정된 조건을 만족하는 영역으로 결정되거나, ii) 누적된 총 관찰 시간을 기준으로 미리 결정된 조건을 만족하는 영역으로 결정될 수 있다. 마찬가지로, 관심 영역은 i) 각각의 영역(픽셀)의 최대 확대 배율을 기준으로 미리 결정된 조건을 만족하는 영역으로 결정되거나, ii) 확대 배율의 평균값을 기준으로 미리 결정된 조건을 만족하는 영역으로 결정될 수 있다. 이하, 관심 영역에 대한 분류가 진행되는 과정에서도 위에서 설명한 방식과 동일한 방식이 적용될 수 있음은 통상의 기술자가 이해할 것이다.
또한, 컴퓨팅 장치는 소정의 추가적인 조건에 따라 관심 영역을 조직 영역과 병변 영역으로 분류할 수 있다. 예를 들어, 컴퓨팅 장치는 관심 영역(512)에서 i) 10초 이상 관찰되거나, 20배 이상의 배율로 확대되어 관찰된 영역을 병변 영역으로 분류하고, ii) 이외의 영역은 조직 영역으로 분류할 수 있다. 예시적인 상황에서 40배의 배율로 7초 동안 관찰된 영역(514) 및 15배의 배율로 16초 동안 관찰된 영역(513)은 병변 영역으로 분류되고, 관심 영역(512)에서 영역(513, 514)을 제외한 영역은 조직 영역으로 분류될 수 있다.
음성의 의료 영상(510-N)에도 앞서 설명된 방식과 동일한 방식으로 레이블 데이터가 생성될 수 있다. 보다 구체적으로, 의료 영상(510-N)에서 영역(515)은 8초간 관찰되어, 조직 영역으로 분류되는 관심 영역으로 결정될 있고, 그 이외의 영역은 관심 영역이 아닌 것으로 결정될 수 있다. 컴퓨팅 장치는 영역(515)의 위치 정보 및 조직 영역에 대응되는 분류 결과에 기초하여 영상(510-N)에 대한 레이블 데이터를 생성할 수 있다.
또한, 컴퓨팅 장치는 레이블 데이터에 기초하여 경량화된 학습 데이터를 생성할 수 있다. 예를 들어, 컴퓨팅 장치는 의료 영상(510-1, 510-N)에서 관심 영역으로 검출된 영역(512, 515)에 대응되는 관심 영역 영상에 기초하여 학습 데이터를 생성할 수 있다.
도 6은 다른 실시예에 따른 레이블 데이터 생성 방법을 설명하기 위한 흐름도이다.
도 6을 참조하면, 컴퓨팅 장치는 단계(610)에서 의료 영상에 대한 관찰 정보를 획득할 수 있다. 단계(610)에서 컴퓨팅 장치의 동작은 앞선 도 4의 단계(410)을 통해 설명된 바와 동일하다.
컴퓨팅 장치는 단계(620)에서 관찰 정보에 기초하여 의료 영상에 대한 스코어 정보를 산출할 수 있다.
스코어 정보는, 의료 영상의 각각의 영역(픽셀)에 대해 산출되는 개별 스코어를 포함하고, 개별 스코어는 각각의 영역의 관찰 정보에 기초하여 산출될 수 있다.
보다 구체적으로, 개별 스코어는 의료 영상에 포함된 각각의 영역의 관찰 시간 정보, 배율 정보 중 적어도 하나에 기초하여 산출될 수 있다. 예를 들어, 각각의 영역의 개별 스코어는, 해당 픽셀의 관찰 시간 정보 및 배율 정보에 각각 제1 가중치 및 제2 가중치를 부여하고, 가중치가 부여된 관찰 시간 정보 및 배율 정보를 합산함으로써 생성될 수 있다. 개별 스코어는 관찰 시간이 길수록, 확대된 배율이 클수록 더 큰 값으로 산출될 수 있다. 관찰 시간 정보 및 배율 정보를 통해 개별 스코어가 산출되는 방식은 제시된 방식에 한정되는 것이 아니고, 관찰 시간과 배율을 조합하여 소정의 스코어를 산출하는 임의의 방식을 포함할 수 있음은 통상의 기술자가 이해할 것이다.
컴퓨팅 장치는 단계(630)에서 생성된 스코어 정보에 기초하여 각각의 의료 영상에 대한 레이블 데이터를 생성할 수 있다. 레이블 데이터는 의료 영상과 스코어 정보가 결합된 형태이거나, 의료 영상의 식별 정보와 스코어 정보가 결합된 형태일 수 있다.
또한, 레이블 데이터는 의료 영상에 대한 소정의 추가 정보를 더 포함할 수 있다. 예를 들어, 컴퓨팅 장치는 개별 스코어가 소정의 조건을 만족하는지 여부에 따라 의료 영상의 영역을 관심 영역과 비 관심 영역으로 분류하고, 분류 결과에 따라 관심 영역의 위치 정보에 기초하여 추가 정보를 생성할 수 있다. 이외에도, 컴퓨팅 장치는 개별 스코어를 이용하여 의료 영상의 영역을 조직 영역과 병변 영역으로 분류할 수 있고, 분류 결과에 따라 조직 영역 및 병변 영역의 위치 정보를 이용하여 추가 정보를 생성할 수 있다.
도 7은 다른 실시예에 따른 스코어 정보가 산출되는 방식을 예시적으로 설명하기 위한 도면이다.
컴퓨팅 장치는 의료 영상(710-1, 710-2, ..., 710-N)에 포함된 각각의 영역(픽셀)에 대한 개별 스코어를 산출할 수 있다.
도 7에 도시된 바와 같이, 의료 영상(710-1, 710-2, ..., 710-N)에 포함된 모든 영역에 대해 개별 스코어가 산출될 수 있으며, 높은 스코어에 대응되는 영역은 보다 짙은 색으로 표현될 수 있다.
영역(711)은 비교적 오랜 시간 관찰이 진행되거나 높은 배율로 관찰이 진행되어 비교적 높은 스코어가 산출된 영역에 해당할 수 있고, 영역(712)는 짧은 시간 동안 관찰이 진행되거나 낮은 배율로 관찰이 진행되어 비교적 낮은 스코어가 산출된 영역에 해당할 수 있다. 미리 설정된 조건에 따라서 영역(711)은 병변 영역으로 분류될 수 있고, 영역(712)는 비 관심 영역으로 분류될 수 있다.
컴퓨팅 장치는 의료 영상(710-1, 710-2, ..., 710-N) 각각에 대해 산출된 스코어 정보 및 각각의 영역에 대한 분류 결과와 관련된 추가 정보에 기초하여, 의료 영상(710-1, 710-2, ..., 710-N) 각각에 대한 레이블 데이터를 생성할 수 있다.
인공 신경망은 스코어 정보를 포함하는 레이블 데이터를 이용하여, 의료 영상(710-1, 710-2, ..., 710-N)에서 보다 오랜 시간 관찰되거나, 높은 배율로 관찰된 영역에 가중치를 두어 학습이 진행될 수 있다. 이를 통해, 보다 효율적이고 정확도 높은 학습이 진행될 수 있다. 또한, 레이블 데이터에 포함된 분류 결과에 기초하여 인공 신경망의 학습 정확도 및 효율성이 증가될 수 있음은 통상의 기술자가 이해할 것이다.
위 실시예의 설명에 기초하여 해당 기술분야의 통상의 기술자는, 본 발명의 방법 및/또는 프로세스들, 그리고 그 단계들이 하드웨어, 소프트웨어 또는 특정 용례에 적합한 하드웨어 및 소프트웨어의 임의의 조합으로 실현될 수 있다는 점을 명확하게 이해할 수 있다. 상기 하드웨어는 범용 컴퓨터 및/또는 전용 컴퓨팅 장치 또는 특정 컴퓨팅 장치 또는 특정 컴퓨팅 장치의 특별한 모습 또는 구성요소를 포함할 수 있다. 상기 프로세스들은 내부 및/또는 외부 메모리를 가지는, 하나 이상의 마이크로프로세서, 마이크로컨트롤러, 임베디드 마이크로컨트롤러, 프로그래머블 디지털 신호 프로세서 또는 기타 프로그래머블 장치에 의하여 실현될 수 있다. 게다가, 혹은 대안으로서, 상기 프로세스들은 주문형 집적회로(application specific integrated circuit; ASIC), 프로그래머블 게이트 어레이(programmable gate array), 프로그래머블 어레이 로직(Programmable Array Logic; PAL) 또는 전자 신호들을 처리하기 위해 구성될 수 있는 임의의 다른 장치 또는 장치들의 조합으로 실시될 수 있다. 더욱이 본 발명의 기술적 해법의 대상물 또는 선행 기술들에 기여하는 부분들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 기계 관찰 가능한 기록 매체에 기록될 수 있다. 상기 기계 관찰 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 기계 관찰 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다. 기계 관찰 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD, Blu-ray와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 전술한 장치들 중 어느 하나뿐만 아니라 프로세서, 프로세서 아키텍처 또는 상이한 하드웨어 및 소프트웨어의 조합들의 이종 조합, 또는 다른 어떤 프로그램 명령어들을 실행할 수 있는 기계 상에서 실행되기 위하여 저장 및 컴파일 또는 인터프리트될 수 있는, C와 같은 구조적 프로그래밍 언어, C++ 같은 객체지향적 프로그래밍 언어 또는 고급 또는 저급 프로그래밍 언어(어셈블리어, 하드웨어 기술 언어들 및 데이터베이스 프로그래밍 언어 및 기술들)를 사용하여 만들어질 수 있는바, 기계어 코드, 바이트코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 이에 포함된다.
따라서 본 명세서에 따른 일 태양에서는, 앞서 설명된 방법 및 그 조합들이 하나 이상의 컴퓨팅 장치들에 의하여 수행될 때, 그 방법 및 방법의 조합들이 각 단계들을 수행하는 실행 가능한 코드로서 실시될 수 있다. 다른 일 태양에서는, 상기 방법은 상기 단계들을 수행하는 시스템들로서 실시될 수 있고, 방법들은 장치들에 걸쳐 여러 가지 방법으로 분산되거나 모든 기능들이 하나의 전용, 독립형 장치 또는 다른 하드웨어에 통합될 수 있다. 또 다른 일 태양에서는, 위에서 설명한 프로세스들과 연관된 단계들을 수행하는 수단들은 앞서 설명한 임의의 하드웨어 및/또는 소프트웨어를 포함할 수 있다. 그러한 모든 순차 결합 및 조합들은 본 명세서의 범위 내에 속하도록 의도된 것이다.
예를 들어, 상기 하드웨어 장치는 본 명세서에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다. 상기 하드웨어 장치는, 프로그램 명령어를 저장하기 위한 ROM/RAM 등과 같은 메모리와 결합되고 상기 메모리에 저장된 명령어들을 실행하도록 구성되는 MPU, CPU, GPU, TPU와 같은 프로세서를 포함할 수 있으며, 외부 장치와 신호를 주고받을 수 있는 통신부를 포함할 수 있다. 덧붙여, 상기 하드웨어 장치는 개발자들에 의하여 작성된 명령어들을 전달받기 위한 키보드, 마우스, 기타 외부 입력장치를 포함할 수 있다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 사람이라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.
그와 같이 균등하게 또는 등가적으로 변형된 것에는, 예컨대 본 명세서에 따른 방법을 실시한 것과 동일한 결과를 낼 수 있는, 논리적으로 동치(logically equivalent)인 방법이 포함될 것인바, 본 발명의 진의 및 범위는 전술한 예시들에 의하여 제한되어서는 아니되며, 법률에 의하여 허용 가능한 가장 넓은 의미로 이해되어야 한다.

Claims (1)

  1. 컴퓨팅 장치에 의해 수행되는, 인공 신경망에 대한 학습을 위한 레이블 데이터 생성 방법에 있어서,
    의료 영상 내의 각각의 영역에 대한 관찰 정보를 획득하는 단계;
    상기 관찰 정보에 기초하여, 상기 의료 영상 내에서 소정의 조건을 충족하는 관심 영역을 산출하는 단계; 및
    상기 관심 영역에 기초하여 상기 의료 영상에 대한 레이블 데이터를 생성하는 단계
    를 포함하는, 레이블 데이터 생성 방법.
KR1020200037256A 2020-03-27 2020-03-27 레이블 데이터 생성 방법 및 이를 이용한 학습방법 및 장치 KR20210120489A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200037256A KR20210120489A (ko) 2020-03-27 2020-03-27 레이블 데이터 생성 방법 및 이를 이용한 학습방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200037256A KR20210120489A (ko) 2020-03-27 2020-03-27 레이블 데이터 생성 방법 및 이를 이용한 학습방법 및 장치

Publications (1)

Publication Number Publication Date
KR20210120489A true KR20210120489A (ko) 2021-10-07

Family

ID=78114620

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200037256A KR20210120489A (ko) 2020-03-27 2020-03-27 레이블 데이터 생성 방법 및 이를 이용한 학습방법 및 장치

Country Status (1)

Country Link
KR (1) KR20210120489A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102442591B1 (ko) * 2022-01-24 2022-09-13 주식회사 에어스메디컬 라벨 생성 방법, 프로그램 및 장치
KR20230146320A (ko) 2022-04-12 2023-10-19 삼성에스디에스 주식회사 레이블링 시스템 및 그 방법
CN117197593A (zh) * 2023-11-06 2023-12-08 天河超级计算淮海分中心 一种医学影像伪标签生成系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102442591B1 (ko) * 2022-01-24 2022-09-13 주식회사 에어스메디컬 라벨 생성 방법, 프로그램 및 장치
KR20230146320A (ko) 2022-04-12 2023-10-19 삼성에스디에스 주식회사 레이블링 시스템 및 그 방법
CN117197593A (zh) * 2023-11-06 2023-12-08 天河超级计算淮海分中心 一种医学影像伪标签生成系统

Similar Documents

Publication Publication Date Title
US11593943B2 (en) RECIST assessment of tumour progression
US11816833B2 (en) Method for reconstructing series of slice images and apparatus using same
Startsev et al. 360-aware saliency estimation with conventional image saliency predictors
US20230351594A1 (en) Method for aiding visualization of lesions in medical imagery and apparatus using the same
US11929174B2 (en) Machine learning method and apparatus, program, learned model, and discrimination apparatus using multilayer neural network
RU2571523C2 (ru) Вероятностная оптимизация сегментации, основанной на модели
EP3567548A1 (en) Medical image segmentation
KR20210120489A (ko) 레이블 데이터 생성 방법 및 이를 이용한 학습방법 및 장치
JP7463575B2 (ja) 情報処理装置、情報処理方法およびプログラム
US11449210B2 (en) Method for providing an image base on a reconstructed image group and an apparatus using the same
WO2018195501A2 (en) System and method for creating, querying, and displaying a miba master file
KR101995383B1 (ko) 의료 영상에 대한 특징 순위에 기반하여 뇌질환을 판정하는 방법 및 이를 이용한 장치
AU2019430369B2 (en) VRDS 4D medical image-based vein Ai endoscopic analysis method and product
US20210082567A1 (en) Method for supporting viewing of images and apparatus using same
Upendra et al. Automated segmentation of cardiac chambers from cine cardiac MRI using an adversarial network architecture
KR102112706B1 (ko) 결절 검출 방법 및 이를 이용한 장치
WO2020085336A1 (ja) 重み画像生成装置、方法およびプログラム、判別器学習装置、方法およびプログラム、領域抽出装置、方法およびプログラム並びに判別器
KR102222816B1 (ko) 진행성 병변의 미래 영상을 생성하는 방법 및 이를 이용한 장치
CN115965785A (zh) 图像分割方法、装置、设备、程序产品及介质
KR102556646B1 (ko) 의료 영상 생성 방법 및 장치
CN114926448A (zh) 一种胶囊内窥镜图像特征点提取方法
CN112862785B (zh) Cta影像数据识别方法、装置及存储介质
AU2019430258B2 (en) VRDS 4D medical image-based tumor and blood vessel ai processing method and product
US20220180194A1 (en) Method for improving reproduction performance of trained deep neural network model and device using same
EP3928706A1 (en) Ai identification method of embolism based on vrds 4d medical image, and product

Legal Events

Date Code Title Description
E902 Notification of reason for refusal