KR20230095805A - 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법 및 시스템 - Google Patents
클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법 및 시스템 Download PDFInfo
- Publication number
- KR20230095805A KR20230095805A KR1020220155426A KR20220155426A KR20230095805A KR 20230095805 A KR20230095805 A KR 20230095805A KR 1020220155426 A KR1020220155426 A KR 1020220155426A KR 20220155426 A KR20220155426 A KR 20220155426A KR 20230095805 A KR20230095805 A KR 20230095805A
- Authority
- KR
- South Korea
- Prior art keywords
- group
- annotation
- points
- user
- annotations
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012552 review Methods 0.000 title description 3
- 238000007689 inspection Methods 0.000 claims abstract description 55
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 9
- 201000011510 cancer Diseases 0.000 claims abstract description 9
- 238000012795 verification Methods 0.000 claims description 13
- 238000003745 diagnosis Methods 0.000 description 6
- 201000010099 disease Diseases 0.000 description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 2
- 230000007170 pathology Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012729 kappa analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06398—Performance of employee with respect to a job function
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/40—ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Educational Administration (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Mathematical Physics (AREA)
- Radiology & Medical Imaging (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법 및 시스템에 관한 것으로, 본 발명에 따른 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법은 어노테이션 수집부가 동일한 의료 데이터의 이미지에 다수의 사용자가 암 또는 정상을 각각 표시한 표식인 어노테이션(annotation)을 수집하는 어노테이션 수집 단계; 그룹 생성부가 수집된 상기 어노테이션을 제1 그룹과 제2 그룹으로 클러스터링하는 그룹 생성 단계; 및 검수 작업부가 제1 사용자가 생성한 상기 제1 그룹의 제1 어노테이션과, 제2 사용자가 생성한 상기 제2 그룹의 제2 어노테이션과, 상기 제1 어노테이션을 수정한 제1-1 어노테이션을 사용자 단말을 통해 상기 제1 사용자에게 제공하는 검수 작업 단계;를 포함하여 구성된다.
Description
본 발명은 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법 및 시스템에 관한 것으로, 보다 상세하게는 어노테이션 검수자들의 어노테이션 일치도를 비교해 그룹을 생성해 불필요한 어노테이션 검수 작업을 줄인 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법 및 시스템에 관한 것이다.
병리학 또는 병리과에서 수행하는 주요한 업무 중 하나는 환자의 생체 이미지(예를 들어, 환자인 생체 조직 슬라이드)를 판독하여 특정 질병에 대한 상태 또는 징후를 판단하는 진단을 수행하는 일이다. 이러한 진단은 오랜 기간 숙련된 의료인의 경험과 지식에 의해 의존되는 방식이다. 최근의 추세는 생체 조직을 디지털 이미징하여 생성된 슬라이드 이미지를 판독하는 방식이 점차 증가하고 있다.
한편, 최근에는 기계 학습의 발달로 인해 이미지를 인식하거나 분류하는 등의 업무를 컴퓨터 시스템에 의해 자동화하고자 하는 시도가 활발히 이루어지고 있다. 특히 기계학습의 일종인 뉴럴 네트워크(예컨대, 컨벌루션 뉴럴 네트워크(Convolution Neural Network, CNN)를 이용한 딥러닝 방식)를 이용하여 숙련된 의료인이 수행하던 진단을 자동화하기 위한 시도가 이루어지고 있으며, 뉴럴 네트워크(예컨대, CNN)를 이용한 딥러닝을 통한 이미지 기반의 질병 진단을 대표적으로 예로 들 수 있다.
특히 뉴럴 네트워크(예컨대, CNN)를 이용한 딥러닝을 통한 진단은 종래에 숙련된 의료인의 경험과 지식을 단순히 자동화하는 것이 아니라, 스스로 학습을 통해 특징적인 요소들을 찾아내어 원하는 해답을 도출한다는 점에 있어서 오히려 숙련된 의료인이 알지 못하던 질병인자의 특징을 이미지에서 찾아내는 경우도 있다.
일반적으로 생체이미지를 이용하는 뉴럴 네트워크를 통한 질병의 진단은 생체이미지인 슬라이드의 조각 즉, 패치(pathch, 또는 타일(tile)이라고도 함)을 이용한다. 즉, 해당 패치 이미지에 대해 숙련된 의료인은 특정 질병의 상태(예컨대, 암이 발현되었는지 여부)나 질병의 발병 영역을 어노테이션(annotaion)하고, 이러한 어노테이션된 다수의 패치 이미지들을 트레이닝 데이터로 이용하여 뉴럴 네트워크를 학습하게 된다. 이때 상기 뉴럴 네트워크는 컨볼루션 뉴럴 네트워크가 이용될 수 있다.
또한, 이와 같은 의료 인공지능 학습을 위한 어노테이션 수행 시 전문의들 간 불일치가 발생할 가능성이 높다. 따라서, 고품질의 의료 인공지능 데이터 구축에 있어 여러 명의 전문의들의 검수 작업은 필수적이다.
하지만 일반적인 어노테이션 검수 작업인 크로스 체크(cross check) 방식은 노동적이고 오랜 시간이 걸리는 단점이 있었다.
본 발명은 전술한 문제를 해결하기 위해 안출된 것으로서, 본 발명은 전문의들의 어노테이션 일치도를 바탕으로 하는 클러스터링 알고리즘을 통해 일치도가 높은 전문의들끼리 그룹을 생성하여 효율적인 검수 작업을 진행하며, 두 명 이상의 작업자가 시행한 어노테이션들을 토대로 Ground Truth를 도출하고자 한다.
이와 같이 본 발명은 어노테이션 검수 작업을 효율적으로 하여 검수 작업에 걸리는 시간을 줄임으로써 두 명 이상의 작업자가 시행한 어노테이션을 바탕으로 효율적으로 의료 인공지능 학습용 데이터를 구축하고, 검수자들의 어노테이션 일치도를 비교해 그룹을 생성해 불필요한 어노테이션 검수 작업을 줄이고자 한다.
전술한 문제를 해결하기 위한 본 발명의 일실시예에 따른 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법은, 어노테이션 수집부가 동일한 의료 데이터의 이미지에 다수의 사용자가 암 또는 정상을 각각 표시한 표식인 어노테이션(annotation)을 수집하는 어노테이션 수집 단계; 그룹 생성부가 수집된 상기 어노테이션을 제1 그룹과 제2 그룹으로 클러스터링하는 그룹 생성 단계; 및 검수 작업부가 제1 사용자가 생성한 상기 제1 그룹의 제1 어노테이션과, 제2 사용자가 생성한 상기 제2 그룹의 제2 어노테이션과, 상기 제1 어노테이션을 수정한 제1-1 어노테이션을 사용자 단말을 통해 상기 제1 사용자에게 제공하는 검수 작업 단계;를 포함하여 구성된다.
본 발명의 다른 일실시예에 따르면, 상기 그룹 생성 단계는 상기 그룹 생성부가 DPC(Density Peak Clustering) 알고리즘을 이용하여 수집된 상기 어노테이션을 제1 그룹과 제2 그룹으로 클러스터링할 수 있다.
본 발명의 다른 일실시예에 따르면, 상기 그룹 생성 단계는 상기 그룹 생성부가 상기 사용자들의 어노테이션의 위치를 나타내는 점(point)들로 이루어진 상기 제1 그룹 및 상기 제2 그룹의 중심점들의 일치도가 설정값을 초과하면, 상기 중심점들 중 선택된 중심점을 최종 값으로 확정하고, 상기 제1 그룹 및 상기 제2 그룹의 중심점들의 일치도가 설정값 이하이면, 상기 중심점을 제외한 나머지 점들을 상기 제1 그룹 또는 상기 제2 그룹으로 할당하여 클러스터링 할 수 있다.
본 발명의 다른 일실시예에 따르면, 상기 그룹 생성 단계는 상기 그룹 생성부가 상기 사용자들의 어노테이션의 위치를 나타내는 점(point)들의 밀도()와, 상기 점 보다 높은 밀도의 점들 중에서 상기 점과 가장 가까운 어느 한 점과의 최소 거리()를 곱하고, 상기 곱한 값()이 가장 큰 2개의 점을 상기 제1 그룹과 상기 제2 그룹의 중심점으로 선택하고, 2 개의 상기 두 중심점 사이의 거리가 설정값 미만이면, 상기 밀도()와 상기 최소 거리()를 곱한 값()이 가장 큰 중심점을 최종 값으로 확정할 수 있다.
본 발명의 다른 일실시예에 따르면, 상기 그룹 생성 단계는 상기 그룹 생성부가 2 개의 상기 두 중심점 사이의 거리가 설정값 이상이면, 상기 중심점들 이외의 점들을 상기 제1 그룹과 상기 제2 그룹에 할당할 수 있다.
본 발명의 다른 일실시예에 따르면, 상기 검수 작업 단계는 상기 검수 작업부가 제1 사용자가 생성한 상기 제1 그룹의 제1 어노테이션을 표시한 이미지와, 제2 사용자가 생성한 상기 제2 그룹의 제2 어노테이션을 표시한 이미지와, 상기 제1 어노테이션을 수정한 제1-1 어노테이션을 표시한 이미지를 포함하는 사용자 인터페이스를 사용자 단말을 통해 상기 제1 사용자에게 제공할 수 있다.
본 발명의 일실시예에 따른 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 시스템은, 동일한 의료 데이터의 이미지에 다수의 사용자가 암 또는 정상을 각각 표시한 표식인 어노테이션(annotation)을 수집하는 어노테이션 수집부; 수집된 상기 어노테이션을 제1 그룹과 제2 그룹으로 클러스터링하는 그룹 생성부; 및 제1 사용자가 생성한 상기 제1 그룹의 제1 어노테이션과, 제2 사용자가 생성한 상기 제2 그룹의 제2 어노테이션과, 상기 제1 어노테이션을 수정한 제1-1 어노테이션을 사용자 단말을 통해 상기 제1 사용자에게 제공하는 검수 작업부;를 포함하여 구성된다.
본 발명의 다른 일실시예에 따르면, 상기 그룹 생성부는 DPC(Density Peak Clustering) 알고리즘을 이용하여 수집된 상기 어노테이션을 제1 그룹과 제2 그룹으로 클러스터링 할 수 있다.
본 발명의 다른 일실시예에 따르면, 상기 그룹 생성부는 상기 사용자들의 어노테이션의 위치를 나타내는 점(point)들로 이루어진 상기 제1 그룹 및 상기 제2 그룹의 중심점들의 일치도가 설정값을 초과하면, 상기 중심점들 중 선택된 중심점을 최종 값으로 확정하고, 상기 제1 그룹 및 상기 제2 그룹의 중심점들의 일치도가 설정값 이하이면, 상기 중심점을 제외한 나머지 점들을 상기 제1 그룹 또는 상기 제2 그룹으로 할당하여 클러스터링 할 수 있다.
본 발명의 다른 일실시예에 따르면, 상기 그룹 생성부는 상기 사용자들의 어노테이션의 위치를 나타내는 점(point)들의 밀도()와, 상기 점 보다 높은 밀도의 점들 중에서 상기 점과 가장 가까운 어느 한 점과의 최소 거리()를 곱하고, 상기 곱한 값()이 가장 큰 2개의 점을 상기 제1 그룹과 상기 제2 그룹의 중심점으로 선택하고, 2 개의 상기 두 중심점 사이의 거리가 설정값 미만이면 상기 밀도()와 상기 최소 거리()를 곱한 값()이 가장 큰 중심점을 최종 값으로 확정할 수 있다.
본 발명의 다른 일실시예에 따르면, 상기 그룹 생성부는 2 개의 상기 두 중심점 사이의 거리가 설정값 이상이면, 상기 중심점들 이외의 점들을 상기 제1 그룹과 상기 제2 그룹에 할당할 수 있다.
본 발명의 다른 일실시예에 따르면, 상기 검수 작업부는 제1 사용자가 생성한 상기 제1 그룹의 제1 어노테이션을 표시한 이미지와, 제2 사용자가 생성한 상기 제2 그룹의 제2 어노테이션을 표시한 이미지와, 상기 제1 어노테이션을 수정한 제1-1 어노테이션을 표시한 이미지를 포함하는 사용자 인터페이스를 사용자 단말을 통해 상기 제1 사용자에게 제공할 수 있다.
본 발명에 따르면 전문의들의 어노테이션 일치도를 바탕으로 하는 클러스터링 알고리즘을 통해 일치도가 높은 전문의들끼리 그룹을 생성하여 효율적인 검수 작업을 진행한다. 또한, 두 명 이상의 작업자가 시행한 어노테이션들을 토대로 Ground Truth를 도출한다.
이와 같이, 본 발명은 어노테이션 검수 작업을 효율적으로 하여 검수 작업에 걸리는 시간을 줄임으로써 두 명 이상의 작업자가 시행한 어노테이션을 바탕으로 효율적으로 의료 인공지능 학습용 데이터를 구축하고, 검수자들의 어노테이션 일치도를 비교해 그룹을 생성해 불필요한 어노테이션 검수 작업을 줄일 수 있다.
도 1은 본 발명의 일실시예에 따른 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 시스템의 구성도이다.
도 2 및 도 3은 본 발명의 일실시예에 따른 검수 작업을 설명하기 위한 도면이다.
도 4는 본 발명의 일실시예에 따른 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법을 설명하기 위한 흐름도이다.
도 2 및 도 3은 본 발명의 일실시예에 따른 검수 작업을 설명하기 위한 도면이다.
도 4는 본 발명의 일실시예에 따른 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법을 설명하기 위한 흐름도이다.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
다만, 실시형태를 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략한다. 또한, 도면에서의 각 구성요소들의 크기는 설명을 위하여 과장될 수 있으며, 실제로 적용되는 크기를 의미하는 것은 아니다.
또한, 명세서 전체에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다. 또한, 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
도 1은 본 발명의 일실시예에 따른 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 시스템의 구성도이고, 도 2 및 도 3은 본 발명의 일실시예에 따른 검수 작업을 설명하기 위한 도면이다.
이후부터는 도 1 내지 도 3을 참조하여 본 발명의 일실시예에 따른 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 시스템을 설명하기로 한다.
본 발명의 일실시예에 따른 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 시스템(100)은 컴퓨터 단말, 서버 또는 전용 장치로 구성되거나, 각 기능을 제공하는 구성요소가 각각 컴퓨터 단말, 서버 또는 전용 장치로 구성될 수 있다. 또는, 본 발명의 일실시예에 따른 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 시스템(100)은 각 기능을 제공하는 각각의 구성요소가 하드웨어 또는 소프트웨어로 구성될 수 있다.
보다 구체적으로, 본 발명의 일실시예에 따른 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 시스템(100)은 어노테이션 수집부(110), 그룹 생성부(120) 및 검수 작업부(130)를 포함하여 구성된다.
상기 어노테이션 수집부(110)는 어노테이션(annotation)을 수집한다.
상기 어노테이션(annotation)이라 함은 동일한 의료 데이터의 이미지에 다수의 사용자가 암 또는 정상을 각각 표시한 표식을 말한다.
보다 상세하게 설명하면, 상기 어노테이션 수집부(110)는 동일한 의료 데이터에 대한 다수의 전문의(사용자)의 어노테이션을 수집하는 부(모듈)로서, 분류 어노테이션 작업(Classification) 시에는 각 이미지에 대해 암/정상 버튼의 입력을 통해 어노테이션한 정보를 수집하도록 구성될 수 있으며, 분할 어노테이션의 경우 각 이미지 위에 암 영역을 그려 어노테이션 하도록 구성되며, 이때 상기 어노테이션은 마우스를 이용하여 이미지에 자유곡선의 형태로 그려지도록 구성될 수 있다. 이와 같은 어노테이션의 완료 이후에는 어노테이션이 저장된다.
상기 그룹 생성부(120)는 수집된 상기 어노테이션을 제1 그룹과 제2 그룹으로 클러스터링(clustering) 한다.
클러스터링이란 유사한 성격을 갖는 개체들을 묶어 그룹(클러스터)으로 구성하는 것을 말한다. 동일한 클러스터에 속해 있는 개체들 사이에는 유사도가 높으며, 다른 클러스터에 속해 있는 개체들 사이에는 유사도가 낮다.
2014년 Rodriguez 외 1명은 "Clustering by fast search and find of density peaks"논문에서 DPC(Density Peak Clustering) 알고리즘을 발표하였다.
DPC 알고리즘은 밀도(density)와 거리(distance) 기반의 알고리즘이다. DPC 알고리즘은 클러스터의 중심점은 그보다 밀도가 더 작은 점들로 둘러싸여 있고, 밀도가 더 높은 점과의 거리는 비교적 멀 것이라는 가정을 기반으로 한다. (This algorithm has its basis on the assumptions that cluster centers are surrounded by neighbors with lower local density and that they are at a relatively larger distance from any points with a higher local density.)
[수학식 1]
점 i 보다 높은 밀도를 가지는 점들 중 점 i 와 최소 거리(distance between point and nearest higher-density point of point i)를 로 정의한다.
[수학식 2]
[수학식 3]
[수학식 4]
DPC 클러스터링 알고리즘은 2개의 단계로 구성된다. 첫째는 클러스터의 중심점들을 찾는 단계이며, 둘째는 나머지 점들을 클러스터에 할당(assign)하는 단계이다.
둘째로, 클러스터의 중심점으로 선택되지 않은 나머지 점들을 밀도가 높은 순으로 정렬한 후 (descending order of density), 그 순서대로 각 점의 nearest higher-density point()에 할당(assign)된 클러스터와 같은 클러스터로 할당(assign) 한다.
상기 그룹 생성부(120)는 DPC(Density Peak Clustering) 알고리즘을 이용하여 수집된 상기 어노테이션을 제1 그룹과 제2 그룹으로 클러스터링 할 수 있다. 이때, 상기 클러스터링에 포함되는 각 점은 각 사용자(전문의)의 위치를 나타낸다.
이때, 상기 그룹 생성부(120)는 상기 사용자들의 어노테이션의 위치를 나타내는 점(point)들로 이루어진 상기 제1 그룹 및 상기 제2 그룹의 중심점들의 일치도가 설정값을 초과하면, 상기 중심점들 중 선택된 중심점을 최종 값으로 확정하고, 상기 제1 그룹 및 상기 제2 그룹의 중심점들의 일치도가 설정값 이하이면, 상기 중심점을 제외한 나머지 점들을 상기 제1 그룹 또는 상기 제2 그룹으로 할당하여 클러스터링 할 수 있다.
보다 구체적으로, 상기 그룹 생성부(120)는 상기 사용자들의 어노테이션의 위치를 나타내는 점(point)들의 밀도()와, 상기 점 보다 높은 밀도의 점들 중에서 상기 점과 가장 가까운 어느 한 점과의 최소 거리()를 곱하고, 상기 곱한 값()이 가장 큰 2개의 점을 상기 제1 그룹과 상기 제2 그룹의 중심점으로 선택하고, 2 개의 상기 두 중심점 사이의 거리가 설정값 미만이면 상기 밀도()와 상기 최소 거리()를 곱한 값()이 가장 큰 중심점을 최종 값으로 확정할 수 있다. 또한, 상기 그룹 생성부(120)는 2 개의 상기 두 중심점 사이의 거리가 설정값 이상이면, 상기 중심점들 이외의 점들을 상기 제1 그룹과 상기 제2 그룹에 할당할 수 있다.
이때, 점 i 와 점 j 간의 거리 는 전문의(사용자) i와 전문의(사용자) j의 어노테이션의 일치도를 측정하는 Cohen's Kappa score 를 사용하여 정의한다. (M. L. McHugh. Interrater reliability: the kappa statistic. Biochemia medica: Biochemia medica, 22(3):276-282, 2012.)
두 중심점 사이의 거리가 사용자가 지정한 설정값(agreement threshold) 미만이면 값이 가장 큰 점을 최종값(Ground Truth)으로 확정하고 검수 작업을 중단한다. 설정값(agreement threshold)의 기본값은 0.3으로 설정한다. (에 해당하는 값, 두 중심점 간의 Cohen's Kappa score가 0.7 이상이면 전체 전문의들의 어노테이션 일치도가 높다고 판단하여 검수 작업을 중단한다.)
두 중심점 사이의 거리가 설정값(agreement threshold) 이상이면 클러스터의 중심점으로 선택되지 않은 나머지 점들을 클러스터에 할당(assign) 하여 전체 전문의들을 두 개의 클러스터로 클러스터링하고, 검수 작업부(130)로 진입한다.
상기 검수 작업부(130)는 제1 사용자가 생성한 상기 제1 그룹의 제1 어노테이션(기존 어노테이션)과, 제2 사용자가 생성한 상기 제2 그룹의 제2 어노테이션(참고 어노테이션)과, 상기 제1 어노테이션(기존 어노테이션)을 수정한 제1-1 어노테이션(수정 어노테이션)을 사용자 단말을 통해 상기 제1 사용자에게 제공한다.
즉, 상기 검수 작업부(130)는 제1 사용자가 생성한 상기 제1 그룹의 제1 어노테이션(기존 어노테이션)을 표시한 이미지와, 제2 사용자가 생성한 상기 제2 그룹의 제2 어노테이션(참고 어노테이션)을 표시한 이미지와, 상기 제1 어노테이션을 수정한 제1-1 어노테이션(수정 어노테이션)을 표시한 이미지를 포함하는 사용자 인터페이스를 사용자 단말을 통해 상기 제1 사용자에게 제공할 수 있다.
도 2를 참조하면, 상기 검수 작업부(130)는 분할 어노테이션 작업시에는, 사용자 인터페이스 화면의 좌측에는 제1 어노테이션(기존 어노테이션), 중간에는 제1-1 어노테이션(수정 어노테이션)과 입력 인터페이스, 우측에는 제2 어노테이션(참고 어노테이션)을 표시할 수 있다.
또한, 도 3을 참조하면, 상기 검수 작업부(130)는 분류 어노테이션 작업 시에는, 사용자 인터페이스 화면의 좌측에는 어노테이션 이미지를 표시하고, 우측 상단에는 제1 어노테이션(기존 어노테이션)의 인터페이스, 우측 중간에는 제1-1 어노테이션(수정 어노테이션)의 인터페이스, 우측 하단에는 제2 어노테이션(참고 어노테이션)의 인터페이스를 표시할 수 있다.
이와 같이, 상기 검수 작업부(130)는 인터페이스를 통해 어노테이션 불러오기 기능을 제공하여 검수 작업을 효율적으로 진행하도록 할 수 있다. 즉, 기존 어노테이션을 불러와서 수정할 수 있는 기존 어노테이션 불러오기 기능과, 참고 어노테이션을 불러와서 수정할 수 있는 참고 어노테이션 불러오기 기능이 있다.
그룹 1에 속한 전문의(사용자)들에게는 그룹 2의 중심점에 해당하는 전문의(사용자)의 어노테이션을 참고 어노테이션으로 제공하고, 그룹 2에 속한 전문의(사용자)들에게는 그룹 1의 중심점에 해당하는 전문의(사용자)의 어노테이션을 참고 어노테이션으로 제공할 수 있으며, 각 전문의(사용자)는 제공받은 어노테이션을 참고하여 어노테이션을 수정한다.
한편, 사용자가 인터페이스의 초기화 버튼을 선택하면 작업한 수정 어노테이션이 초기화 되며, 저장 버튼을 선택하면 작업한 수정 어노테이션이 저장되고 다음 이미지에 대한 작업화면으로 이동할 수 있다.
이와 같이, 상기 그룹 생성부(120)는 이와 같이 수정된 어노테이션을 입력받아 어노테이션의 일치도에 따라 그룹으로 클러스터링 할 수 있다.
도 4는 본 발명의 일실시예에 따른 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법을 설명하기 위한 흐름도이다.
먼저, 어노테이션 수집부가 동일한 의료 데이터의 이미지에 다수의 사용자가 암 또는 정상을 각각 표시한 표식인 어노테이션(annotation)을 수집한다(S410).
이후, 상기 그룹 생성부(120)는 수집된 상기 어노테이션을 DPC(Density Peak Clustering) 알고리즘을 이용하여 제1 그룹과 제2 그룹으로 클러스터링(clustering) 하는 데, 이때, 상기 그룹 생성부(120)는 상기 사용자들의 어노테이션의 위치를 나타내는 점(point)들로 이루어진 상기 제1 그룹 및 상기 제2 그룹의 중심점들의 일치도가 설정값을 초과하면(S420), 상기 중심점들 중 선택된 중심점을 최종 값으로 확정하고(S425), 상기 제1 그룹 및 상기 제2 그룹의 중심점들의 일치도가 설정값 이하이면, 상기 중심점을 제외한 나머지 점들을 상기 제1 그룹 또는 상기 제2 그룹으로 할당하여 클러스터링 할 수 있다(S430).
보다 구체적으로, 상기 그룹 생성부(120)는 상기 사용자들의 어노테이션의 위치를 나타내는 점(point)들의 밀도()와, 상기 점 보다 높은 밀도의 점들 중에서 상기 점과 가장 가까운 어느 한 점과의 최소 거리()를 곱하고, 상기 곱한 값()이 가장 큰 2개의 점을 상기 제1 그룹과 상기 제2 그룹의 중심점으로 선택하고, 2 개의 상기 두 중심점 사이의 거리가 설정값 미만이면 상기 밀도()와 상기 최소 거리()를 곱한 값()이 가장 큰 중심점을 최종 값으로 확정할 수 있다. 또한, 상기 그룹 생성부(120)는 2 개의 상기 두 중심점 사이의 거리가 설정값 이상이면, 상기 중심점들 이외의 점들을 상기 제1 그룹과 상기 제2 그룹에 할당할 수 있다.
이후, 상기 검수 작업부(130)는 검수 작업 환경을 제공할 수 있다(S440).
보다 상세하게 설명하면, 상기 검수 작업부(130)는 제1 사용자가 생성한 상기 제1 그룹의 제1 어노테이션(기존 어노테이션)과, 제2 사용자가 생성한 상기 제2 그룹의 제2 어노테이션(참고 어노테이션)과, 상기 제1 어노테이션(기존 어노테이션)을 수정한 제1-1 어노테이션(수정 어노테이션)을 사용자 단말을 통해 상기 제1 사용자에게 제공한다.
즉, 상기 검수 작업부(130)는 제1 사용자가 생성한 상기 제1 그룹의 제1 어노테이션(기존 어노테이션)을 표시한 이미지와, 제2 사용자가 생성한 상기 제2 그룹의 제2 어노테이션(참고 어노테이션)을 표시한 이미지와, 상기 제1 어노테이션을 수정한 제1-1 어노테이션(수정 어노테이션)을 표시한 이미지를 포함하는 사용자 인터페이스를 사용자 단말을 통해 상기 제1 사용자에게 제공할 수 있다.
그에 따라, 제1 사용자는 상기 사용자 단말을 통해 상기 제1 어노테이션(기존 어노테이션)을 제1-1 어노테이션(수정 어노테이션)으로 수정할 수 있다(S450).
전술한 바와 같은 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였다. 그러나 본 발명의 범주에서 벗어나지 않는 한도 내에서는 여러 가지 변형이 가능하다. 본 발명의 기술적 사상은 본 발명의 전술한 실시예에 국한되어 정해져서는 안 되며, 청구범위뿐만 아니라 이 청구범위와 균등한 것들에 의해 정해져야 한다.
100: 어노테이션 검수 작업 시스템
110: 어노테이션 수집부
120: 그룹 생성부
130: 검수 작업부
110: 어노테이션 수집부
120: 그룹 생성부
130: 검수 작업부
Claims (12)
- 어노테이션 수집부가 동일한 의료 데이터의 이미지에 다수의 사용자가 암 또는 정상을 각각 표시한 표식인 어노테이션(annotation)을 수집하는 어노테이션 수집 단계;
그룹 생성부가 수집된 상기 어노테이션을 제1 그룹과 제2 그룹으로 클러스터링하는 그룹 생성 단계; 및
검수 작업부가 제1 사용자가 생성한 상기 제1 그룹의 제1 어노테이션과, 제2 사용자가 생성한 상기 제2 그룹의 제2 어노테이션과, 상기 제1 어노테이션을 수정한 제1-1 어노테이션을 사용자 단말을 통해 상기 제1 사용자에게 제공하는 검수 작업 단계;
를 포함하는 것을 특징으로 하는 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법.
- 청구항 1에 있어서,
상기 그룹 생성 단계는,
상기 그룹 생성부가 DPC(Density Peak Clustering) 알고리즘을 이용하여 수집된 상기 어노테이션을 제1 그룹과 제2 그룹으로 클러스터링하는 것을 특징으로 하는 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법.
- 청구항 1에 있어서,
상기 그룹 생성 단계는,
상기 그룹 생성부가 상기 사용자들의 어노테이션의 위치를 나타내는 점(point)들로 이루어진 상기 제1 그룹 및 상기 제2 그룹의 중심점들의 일치도가 설정값을 초과하면, 상기 중심점들 중 선택된 중심점을 최종 값으로 확정하고,
상기 제1 그룹 및 상기 제2 그룹의 중심점들의 일치도가 설정값 이하이면, 상기 중심점을 제외한 나머지 점들을 상기 제1 그룹 또는 상기 제2 그룹으로 할당하여 클러스터링 하는 것을 특징으로 하는 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법.
- 청구항 3에 있어서,
상기 그룹 생성 단계는,
상기 그룹 생성부가 상기 사용자들의 어노테이션의 위치를 나타내는 점(point)들의 밀도()와,
상기 점 보다 높은 밀도의 점들 중에서 상기 점과 가장 가까운 어느 한 점과의 최소 거리()를 곱하고,
상기 곱한 값()이 가장 큰 2개의 점을 상기 제1 그룹과 상기 제2 그룹의 중심점으로 선택하고,
2 개의 상기 두 중심점 사이의 거리가 설정값 미만이면, 상기 밀도()와 상기 최소 거리()를 곱한 값()이 가장 큰 중심점을 최종 값으로 확정하는 것을 특징으로 하는 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법.
- 청구항 4에 있어서,
상기 그룹 생성 단계는,
상기 그룹 생성부가 2 개의 상기 두 중심점 사이의 거리가 설정값 이상이면, 상기 중심점들 이외의 점들을 상기 제1 그룹과 상기 제2 그룹에 할당하는 것을 특징으로 하는 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법.
- 청구항 1에 있어서,
상기 검수 작업 단계는,
상기 검수 작업부가 제1 사용자가 생성한 상기 제1 그룹의 제1 어노테이션을 표시한 이미지와, 제2 사용자가 생성한 상기 제2 그룹의 제2 어노테이션을 표시한 이미지와, 상기 제1 어노테이션을 수정한 제1-1 어노테이션을 표시한 이미지를 포함하는 사용자 인터페이스를 사용자 단말을 통해 상기 제1 사용자에게 제공하는 것을 특징으로 하는 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법.
- 동일한 의료 데이터의 이미지에 다수의 사용자가 암 또는 정상을 각각 표시한 표식인 어노테이션(annotation)을 수집하는 어노테이션 수집부;
수집된 상기 어노테이션을 제1 그룹과 제2 그룹으로 클러스터링하는 그룹 생성부; 및
제1 사용자가 생성한 상기 제1 그룹의 제1 어노테이션과, 제2 사용자가 생성한 상기 제2 그룹의 제2 어노테이션과, 상기 제1 어노테이션을 수정한 제1-1 어노테이션을 사용자 단말을 통해 상기 제1 사용자에게 제공하는 검수 작업부;
를 포함하는 것을 특징으로 하는 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 시스템.
- 청구항 7에 있어서,
상기 그룹 생성부는,
DPC(Density Peak Clustering) 알고리즘을 이용하여 수집된 상기 어노테이션을 제1 그룹과 제2 그룹으로 클러스터링하는 것을 특징으로 하는 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 시스템.
- 청구항 7에 있어서,
상기 그룹 생성부는,
상기 사용자들의 어노테이션의 위치를 나타내는 점(point)들로 이루어진 상기 제1 그룹 및 상기 제2 그룹의 중심점들의 일치도가 설정값을 초과하면, 상기 중심점들 중 선택된 중심점을 최종 값으로 확정하고,
상기 제1 그룹 및 상기 제2 그룹의 중심점들의 일치도가 설정값 이하이면, 상기 중심점을 제외한 나머지 점들을 상기 제1 그룹 또는 상기 제2 그룹으로 할당하여 클러스터링 하는 것을 특징으로 하는 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 시스템.
- 청구항 9에 있어서,
상기 그룹 생성부는,
상기 사용자들의 어노테이션의 위치를 나타내는 점(point)들의 밀도()와,
상기 점 보다 높은 밀도의 점들 중에서 상기 점과 가장 가까운 어느 한 점과의 최소 거리()를 곱하고,
상기 곱한 값()이 가장 큰 2개의 점을 상기 제1 그룹과 상기 제2 그룹의 중심점으로 선택하고,
2 개의 상기 두 중심점 사이의 거리가 설정값 미만이면 상기 밀도()와 상기 최소 거리()를 곱한 값()이 가장 큰 중심점을 최종 값으로 확정하는 것을 특징으로 하는 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 시스템.
- 청구항 10에 있어서,
상기 그룹 생성부는,
2 개의 상기 두 중심점 사이의 거리가 설정값 이상이면, 상기 중심점들 이외의 점들을 상기 제1 그룹과 상기 제2 그룹에 할당하는 것을 특징으로 하는 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 시스템.
- 청구항 7에 있어서,
상기 검수 작업부는,
제1 사용자가 생성한 상기 제1 그룹의 제1 어노테이션을 표시한 이미지와, 제2 사용자가 생성한 상기 제2 그룹의 제2 어노테이션을 표시한 이미지와, 상기 제1 어노테이션을 수정한 제1-1 어노테이션을 표시한 이미지를 포함하는 사용자 인터페이스를 사용자 단말을 통해 상기 제1 사용자에게 제공하는 것을 특징으로 하는 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 시스템.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20210184743 | 2021-12-22 | ||
KR1020210184743 | 2021-12-22 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20230095805A true KR20230095805A (ko) | 2023-06-29 |
Family
ID=86946561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220155426A KR20230095805A (ko) | 2021-12-22 | 2022-11-18 | 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법 및 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20230095805A (ko) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102446638B1 (ko) | 2021-04-28 | 2022-09-26 | 주식회사 딥바이오 | 유방암 병변 영역을 판별하기 위한 인공 신경망을 학습하기 위한 학습 방법, 및 이를 수행하는 컴퓨팅 시스템 |
-
2022
- 2022-11-18 KR KR1020220155426A patent/KR20230095805A/ko unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102446638B1 (ko) | 2021-04-28 | 2022-09-26 | 주식회사 딥바이오 | 유방암 병변 영역을 판별하기 위한 인공 신경망을 학습하기 위한 학습 방법, 및 이를 수행하는 컴퓨팅 시스템 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021027553A1 (zh) | 微表情分类模型生成、图像识别方法、装置、设备及介质 | |
US8244002B2 (en) | System and method for performing rapid facial recognition | |
JP5618787B2 (ja) | レポート作成支援装置及びその作成支援方法、並びにプログラム | |
US10560601B2 (en) | Image processing method, image processing apparatus, and storage medium | |
EP4181059A1 (en) | Medical image processing method, apparatus, device, storage medium, and product | |
CN112581438B (zh) | 切片图像识别方法、装置和存储介质及电子设备 | |
CN112365471B (zh) | 基于深度学习的宫颈癌细胞智能检测方法 | |
CN108461130B (zh) | 就诊任务智能调度方法及系统 | |
US12094189B2 (en) | Learning method, learning program, and learning device to accurately identify sub-objects of an object included in an image | |
CN109934229A (zh) | 图像处理方法、装置、介质和计算设备 | |
KR101653505B1 (ko) | 이미지를 기반으로 건강상태에 대한 진단을 보조하는 컴퓨팅 장치 및 방법 | |
CN102027490A (zh) | 基于图像分割的图像分类 | |
CN115862113A (zh) | 陌生人异常识别方法、装置、设备及存储介质 | |
CN117294727A (zh) | 一种基于云原生和容器技术的云边端协同管理方法 | |
CN113704474A (zh) | 银行网点设备操作指引生成方法、装置、设备及存储介质 | |
KR20230095805A (ko) | 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법 및 시스템 | |
Salamó et al. | Rough sets reduction techniques for case-based reasoning | |
CN113903433B (zh) | 一种图像处理方法、装置和电子设备 | |
CN113110804B (zh) | 重复图片删除方法、装置、设备及存储介质 | |
JP5428646B2 (ja) | 画像処理装置及びプログラム | |
EP3772703A2 (en) | Image processing apparatus and image processing method | |
KR20230134887A (ko) | 인공 지능을 이용한 치석 인식 시스템 및 방법 | |
CN111783869A (zh) | 训练数据筛选方法、装置、电子设备及存储介质 | |
CN111126121B (zh) | 人脸识别模型的调整方法、装置、设备及存储介质 | |
JP2017187824A (ja) | データ分類装置、方法およびプログラム |