KR20230095805A - 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법 및 시스템 - Google Patents

클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법 및 시스템 Download PDF

Info

Publication number
KR20230095805A
KR20230095805A KR1020220155426A KR20220155426A KR20230095805A KR 20230095805 A KR20230095805 A KR 20230095805A KR 1020220155426 A KR1020220155426 A KR 1020220155426A KR 20220155426 A KR20220155426 A KR 20220155426A KR 20230095805 A KR20230095805 A KR 20230095805A
Authority
KR
South Korea
Prior art keywords
group
annotation
points
user
annotations
Prior art date
Application number
KR1020220155426A
Other languages
English (en)
Inventor
김동민
이명재
강신욱
최흥국
문다민
Original Assignee
(주)제이엘케이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)제이엘케이 filed Critical (주)제이엘케이
Publication of KR20230095805A publication Critical patent/KR20230095805A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06398Performance of employee with respect to a job function
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Educational Administration (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Mathematical Physics (AREA)
  • Radiology & Medical Imaging (AREA)
  • Game Theory and Decision Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법 및 시스템에 관한 것으로, 본 발명에 따른 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법은 어노테이션 수집부가 동일한 의료 데이터의 이미지에 다수의 사용자가 암 또는 정상을 각각 표시한 표식인 어노테이션(annotation)을 수집하는 어노테이션 수집 단계; 그룹 생성부가 수집된 상기 어노테이션을 제1 그룹과 제2 그룹으로 클러스터링하는 그룹 생성 단계; 및 검수 작업부가 제1 사용자가 생성한 상기 제1 그룹의 제1 어노테이션과, 제2 사용자가 생성한 상기 제2 그룹의 제2 어노테이션과, 상기 제1 어노테이션을 수정한 제1-1 어노테이션을 사용자 단말을 통해 상기 제1 사용자에게 제공하는 검수 작업 단계;를 포함하여 구성된다.

Description

클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법 및 시스템{EFFICIENT METHOD AND SYSTEM TO REVIEW ANNOTATION WITH CLUSTERING ALGORITHM}
본 발명은 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법 및 시스템에 관한 것으로, 보다 상세하게는 어노테이션 검수자들의 어노테이션 일치도를 비교해 그룹을 생성해 불필요한 어노테이션 검수 작업을 줄인 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법 및 시스템에 관한 것이다.
병리학 또는 병리과에서 수행하는 주요한 업무 중 하나는 환자의 생체 이미지(예를 들어, 환자인 생체 조직 슬라이드)를 판독하여 특정 질병에 대한 상태 또는 징후를 판단하는 진단을 수행하는 일이다. 이러한 진단은 오랜 기간 숙련된 의료인의 경험과 지식에 의해 의존되는 방식이다. 최근의 추세는 생체 조직을 디지털 이미징하여 생성된 슬라이드 이미지를 판독하는 방식이 점차 증가하고 있다.
한편, 최근에는 기계 학습의 발달로 인해 이미지를 인식하거나 분류하는 등의 업무를 컴퓨터 시스템에 의해 자동화하고자 하는 시도가 활발히 이루어지고 있다. 특히 기계학습의 일종인 뉴럴 네트워크(예컨대, 컨벌루션 뉴럴 네트워크(Convolution Neural Network, CNN)를 이용한 딥러닝 방식)를 이용하여 숙련된 의료인이 수행하던 진단을 자동화하기 위한 시도가 이루어지고 있으며, 뉴럴 네트워크(예컨대, CNN)를 이용한 딥러닝을 통한 이미지 기반의 질병 진단을 대표적으로 예로 들 수 있다.
특히 뉴럴 네트워크(예컨대, CNN)를 이용한 딥러닝을 통한 진단은 종래에 숙련된 의료인의 경험과 지식을 단순히 자동화하는 것이 아니라, 스스로 학습을 통해 특징적인 요소들을 찾아내어 원하는 해답을 도출한다는 점에 있어서 오히려 숙련된 의료인이 알지 못하던 질병인자의 특징을 이미지에서 찾아내는 경우도 있다.
일반적으로 생체이미지를 이용하는 뉴럴 네트워크를 통한 질병의 진단은 생체이미지인 슬라이드의 조각 즉, 패치(pathch, 또는 타일(tile)이라고도 함)을 이용한다. 즉, 해당 패치 이미지에 대해 숙련된 의료인은 특정 질병의 상태(예컨대, 암이 발현되었는지 여부)나 질병의 발병 영역을 어노테이션(annotaion)하고, 이러한 어노테이션된 다수의 패치 이미지들을 트레이닝 데이터로 이용하여 뉴럴 네트워크를 학습하게 된다. 이때 상기 뉴럴 네트워크는 컨볼루션 뉴럴 네트워크가 이용될 수 있다.
또한, 이와 같은 의료 인공지능 학습을 위한 어노테이션 수행 시 전문의들 간 불일치가 발생할 가능성이 높다. 따라서, 고품질의 의료 인공지능 데이터 구축에 있어 여러 명의 전문의들의 검수 작업은 필수적이다.
하지만 일반적인 어노테이션 검수 작업인 크로스 체크(cross check) 방식은 노동적이고 오랜 시간이 걸리는 단점이 있었다.
특허문헌 1: 등록특허공보 제10-2446638호(2022.09.26)
본 발명은 전술한 문제를 해결하기 위해 안출된 것으로서, 본 발명은 전문의들의 어노테이션 일치도를 바탕으로 하는 클러스터링 알고리즘을 통해 일치도가 높은 전문의들끼리 그룹을 생성하여 효율적인 검수 작업을 진행하며, 두 명 이상의 작업자가 시행한 어노테이션들을 토대로 Ground Truth를 도출하고자 한다.
이와 같이 본 발명은 어노테이션 검수 작업을 효율적으로 하여 검수 작업에 걸리는 시간을 줄임으로써 두 명 이상의 작업자가 시행한 어노테이션을 바탕으로 효율적으로 의료 인공지능 학습용 데이터를 구축하고, 검수자들의 어노테이션 일치도를 비교해 그룹을 생성해 불필요한 어노테이션 검수 작업을 줄이고자 한다.
전술한 문제를 해결하기 위한 본 발명의 일실시예에 따른 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법은, 어노테이션 수집부가 동일한 의료 데이터의 이미지에 다수의 사용자가 암 또는 정상을 각각 표시한 표식인 어노테이션(annotation)을 수집하는 어노테이션 수집 단계; 그룹 생성부가 수집된 상기 어노테이션을 제1 그룹과 제2 그룹으로 클러스터링하는 그룹 생성 단계; 및 검수 작업부가 제1 사용자가 생성한 상기 제1 그룹의 제1 어노테이션과, 제2 사용자가 생성한 상기 제2 그룹의 제2 어노테이션과, 상기 제1 어노테이션을 수정한 제1-1 어노테이션을 사용자 단말을 통해 상기 제1 사용자에게 제공하는 검수 작업 단계;를 포함하여 구성된다.
본 발명의 다른 일실시예에 따르면, 상기 그룹 생성 단계는 상기 그룹 생성부가 DPC(Density Peak Clustering) 알고리즘을 이용하여 수집된 상기 어노테이션을 제1 그룹과 제2 그룹으로 클러스터링할 수 있다.
본 발명의 다른 일실시예에 따르면, 상기 그룹 생성 단계는 상기 그룹 생성부가 상기 사용자들의 어노테이션의 위치를 나타내는 점(point)들로 이루어진 상기 제1 그룹 및 상기 제2 그룹의 중심점들의 일치도가 설정값을 초과하면, 상기 중심점들 중 선택된 중심점을 최종 값으로 확정하고, 상기 제1 그룹 및 상기 제2 그룹의 중심점들의 일치도가 설정값 이하이면, 상기 중심점을 제외한 나머지 점들을 상기 제1 그룹 또는 상기 제2 그룹으로 할당하여 클러스터링 할 수 있다.
본 발명의 다른 일실시예에 따르면, 상기 그룹 생성 단계는 상기 그룹 생성부가 상기 사용자들의 어노테이션의 위치를 나타내는 점(point)들의 밀도(
Figure pat00001
)와, 상기 점 보다 높은 밀도의 점들 중에서 상기 점과 가장 가까운 어느 한 점과의 최소 거리(
Figure pat00002
)를 곱하고, 상기 곱한 값(
Figure pat00003
)이 가장 큰 2개의 점을 상기 제1 그룹과 상기 제2 그룹의 중심점으로 선택하고, 2 개의 상기 두 중심점 사이의 거리가 설정값 미만이면, 상기 밀도(
Figure pat00004
)와 상기 최소 거리(
Figure pat00005
)를 곱한 값(
Figure pat00006
)이 가장 큰 중심점을 최종 값으로 확정할 수 있다.
본 발명의 다른 일실시예에 따르면, 상기 그룹 생성 단계는 상기 그룹 생성부가 2 개의 상기 두 중심점 사이의 거리가 설정값 이상이면, 상기 중심점들 이외의 점들을 상기 제1 그룹과 상기 제2 그룹에 할당할 수 있다.
본 발명의 다른 일실시예에 따르면, 상기 검수 작업 단계는 상기 검수 작업부가 제1 사용자가 생성한 상기 제1 그룹의 제1 어노테이션을 표시한 이미지와, 제2 사용자가 생성한 상기 제2 그룹의 제2 어노테이션을 표시한 이미지와, 상기 제1 어노테이션을 수정한 제1-1 어노테이션을 표시한 이미지를 포함하는 사용자 인터페이스를 사용자 단말을 통해 상기 제1 사용자에게 제공할 수 있다.
본 발명의 일실시예에 따른 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 시스템은, 동일한 의료 데이터의 이미지에 다수의 사용자가 암 또는 정상을 각각 표시한 표식인 어노테이션(annotation)을 수집하는 어노테이션 수집부; 수집된 상기 어노테이션을 제1 그룹과 제2 그룹으로 클러스터링하는 그룹 생성부; 및 제1 사용자가 생성한 상기 제1 그룹의 제1 어노테이션과, 제2 사용자가 생성한 상기 제2 그룹의 제2 어노테이션과, 상기 제1 어노테이션을 수정한 제1-1 어노테이션을 사용자 단말을 통해 상기 제1 사용자에게 제공하는 검수 작업부;를 포함하여 구성된다.
본 발명의 다른 일실시예에 따르면, 상기 그룹 생성부는 DPC(Density Peak Clustering) 알고리즘을 이용하여 수집된 상기 어노테이션을 제1 그룹과 제2 그룹으로 클러스터링 할 수 있다.
본 발명의 다른 일실시예에 따르면, 상기 그룹 생성부는 상기 사용자들의 어노테이션의 위치를 나타내는 점(point)들로 이루어진 상기 제1 그룹 및 상기 제2 그룹의 중심점들의 일치도가 설정값을 초과하면, 상기 중심점들 중 선택된 중심점을 최종 값으로 확정하고, 상기 제1 그룹 및 상기 제2 그룹의 중심점들의 일치도가 설정값 이하이면, 상기 중심점을 제외한 나머지 점들을 상기 제1 그룹 또는 상기 제2 그룹으로 할당하여 클러스터링 할 수 있다.
본 발명의 다른 일실시예에 따르면, 상기 그룹 생성부는 상기 사용자들의 어노테이션의 위치를 나타내는 점(point)들의 밀도(
Figure pat00007
)와, 상기 점 보다 높은 밀도의 점들 중에서 상기 점과 가장 가까운 어느 한 점과의 최소 거리(
Figure pat00008
)를 곱하고, 상기 곱한 값(
Figure pat00009
)이 가장 큰 2개의 점을 상기 제1 그룹과 상기 제2 그룹의 중심점으로 선택하고, 2 개의 상기 두 중심점 사이의 거리가 설정값 미만이면 상기 밀도(
Figure pat00010
)와 상기 최소 거리(
Figure pat00011
)를 곱한 값(
Figure pat00012
)이 가장 큰 중심점을 최종 값으로 확정할 수 있다.
본 발명의 다른 일실시예에 따르면, 상기 그룹 생성부는 2 개의 상기 두 중심점 사이의 거리가 설정값 이상이면, 상기 중심점들 이외의 점들을 상기 제1 그룹과 상기 제2 그룹에 할당할 수 있다.
본 발명의 다른 일실시예에 따르면, 상기 검수 작업부는 제1 사용자가 생성한 상기 제1 그룹의 제1 어노테이션을 표시한 이미지와, 제2 사용자가 생성한 상기 제2 그룹의 제2 어노테이션을 표시한 이미지와, 상기 제1 어노테이션을 수정한 제1-1 어노테이션을 표시한 이미지를 포함하는 사용자 인터페이스를 사용자 단말을 통해 상기 제1 사용자에게 제공할 수 있다.
본 발명에 따르면 전문의들의 어노테이션 일치도를 바탕으로 하는 클러스터링 알고리즘을 통해 일치도가 높은 전문의들끼리 그룹을 생성하여 효율적인 검수 작업을 진행한다. 또한, 두 명 이상의 작업자가 시행한 어노테이션들을 토대로 Ground Truth를 도출한다.
이와 같이, 본 발명은 어노테이션 검수 작업을 효율적으로 하여 검수 작업에 걸리는 시간을 줄임으로써 두 명 이상의 작업자가 시행한 어노테이션을 바탕으로 효율적으로 의료 인공지능 학습용 데이터를 구축하고, 검수자들의 어노테이션 일치도를 비교해 그룹을 생성해 불필요한 어노테이션 검수 작업을 줄일 수 있다.
도 1은 본 발명의 일실시예에 따른 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 시스템의 구성도이다.
도 2 및 도 3은 본 발명의 일실시예에 따른 검수 작업을 설명하기 위한 도면이다.
도 4는 본 발명의 일실시예에 따른 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법을 설명하기 위한 흐름도이다.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
다만, 실시형태를 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략한다. 또한, 도면에서의 각 구성요소들의 크기는 설명을 위하여 과장될 수 있으며, 실제로 적용되는 크기를 의미하는 것은 아니다.
또한, 명세서 전체에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다. 또한, 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
도 1은 본 발명의 일실시예에 따른 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 시스템의 구성도이고, 도 2 및 도 3은 본 발명의 일실시예에 따른 검수 작업을 설명하기 위한 도면이다.
이후부터는 도 1 내지 도 3을 참조하여 본 발명의 일실시예에 따른 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 시스템을 설명하기로 한다.
본 발명의 일실시예에 따른 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 시스템(100)은 컴퓨터 단말, 서버 또는 전용 장치로 구성되거나, 각 기능을 제공하는 구성요소가 각각 컴퓨터 단말, 서버 또는 전용 장치로 구성될 수 있다. 또는, 본 발명의 일실시예에 따른 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 시스템(100)은 각 기능을 제공하는 각각의 구성요소가 하드웨어 또는 소프트웨어로 구성될 수 있다.
보다 구체적으로, 본 발명의 일실시예에 따른 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 시스템(100)은 어노테이션 수집부(110), 그룹 생성부(120) 및 검수 작업부(130)를 포함하여 구성된다.
상기 어노테이션 수집부(110)는 어노테이션(annotation)을 수집한다.
상기 어노테이션(annotation)이라 함은 동일한 의료 데이터의 이미지에 다수의 사용자가 암 또는 정상을 각각 표시한 표식을 말한다.
보다 상세하게 설명하면, 상기 어노테이션 수집부(110)는 동일한 의료 데이터에 대한 다수의 전문의(사용자)의 어노테이션을 수집하는 부(모듈)로서, 분류 어노테이션 작업(Classification) 시에는 각 이미지에 대해 암/정상 버튼의 입력을 통해 어노테이션한 정보를 수집하도록 구성될 수 있으며, 분할 어노테이션의 경우 각 이미지 위에 암 영역을 그려 어노테이션 하도록 구성되며, 이때 상기 어노테이션은 마우스를 이용하여 이미지에 자유곡선의 형태로 그려지도록 구성될 수 있다. 이와 같은 어노테이션의 완료 이후에는 어노테이션이 저장된다.
상기 그룹 생성부(120)는 수집된 상기 어노테이션을 제1 그룹과 제2 그룹으로 클러스터링(clustering) 한다.
클러스터링이란 유사한 성격을 갖는 개체들을 묶어 그룹(클러스터)으로 구성하는 것을 말한다. 동일한 클러스터에 속해 있는 개체들 사이에는 유사도가 높으며, 다른 클러스터에 속해 있는 개체들 사이에는 유사도가 낮다.
2014년 Rodriguez 외 1명은 "Clustering by fast search and find of density peaks"논문에서 DPC(Density Peak Clustering) 알고리즘을 발표하였다.
DPC 알고리즘은 밀도(density)와 거리(distance) 기반의 알고리즘이다. DPC 알고리즘은 클러스터의 중심점은 그보다 밀도가 더 작은 점들로 둘러싸여 있고, 밀도가 더 높은 점과의 거리는 비교적 멀 것이라는 가정을 기반으로 한다. (This algorithm has its basis on the assumptions that cluster centers are surrounded by neighbors with lower local density and that they are at a relatively larger distance from any points with a higher local density.)
점(i)의 밀도(
Figure pat00013
)는 다음과 같이 정의된다.
[수학식 1]
Figure pat00014
이때,
Figure pat00015
는 점 i의 밀도이고,
Figure pat00016
는 점 i 와 점 j 간의 거리이며,
Figure pat00017
는 두 점 사이의 모든 거리들(
Figure pat00018
)의 평균값이고,
Figure pat00019
는 점 i 와 거리가
Figure pat00020
미만인 점의 개수이다.
점 i 보다 높은 밀도를 가지는 점들 중 점 i 와 최소 거리(distance between point
Figure pat00021
and nearest higher-density point of point i)를
Figure pat00022
로 정의한다.
[수학식 2]
Figure pat00023
점 i 의 밀도가 최대인 경우,
Figure pat00024
는 다음과 같이 정의한다.
[수학식 3]
Figure pat00025
국소적으로 밀도가 최대인 점(local maxima)의 경우
Figure pat00026
값이 주위의 점들 보다 클 것임을 알 수 있다.
또한, 점 i 보다 높은 밀도를 가지는 점들 중 점 i 와 최소 거리에 있는 점을 (nearest higher-density point of point i)
Figure pat00027
로 정의한다.
[수학식 4]
Figure pat00028
점 i 의 밀도가 최대인 경우,
Figure pat00029
로 정의한다.
DPC 클러스터링 알고리즘은 2개의 단계로 구성된다. 첫째는 클러스터의 중심점들을 찾는 단계이며, 둘째는 나머지 점들을 클러스터에 할당(assign)하는 단계이다.
첫째로, 클러스터의 중심점들을 찾기 위해서, 각 점마다 앞서 설명한
Figure pat00030
Figure pat00031
를 계산한다. 여러 점들 중
Figure pat00032
Figure pat00033
가 비교적 큰 점들을 클러스터의 중심점으로 삼는다.
둘째로, 클러스터의 중심점으로 선택되지 않은 나머지 점들을 밀도가 높은 순으로 정렬한 후 (descending order of density), 그 순서대로 각 점의 nearest higher-density point(
Figure pat00034
)에 할당(assign)된 클러스터와 같은 클러스터로 할당(assign) 한다.
상기 그룹 생성부(120)는 DPC(Density Peak Clustering) 알고리즘을 이용하여 수집된 상기 어노테이션을 제1 그룹과 제2 그룹으로 클러스터링 할 수 있다. 이때, 상기 클러스터링에 포함되는 각 점은 각 사용자(전문의)의 위치를 나타낸다.
이때, 상기 그룹 생성부(120)는 상기 사용자들의 어노테이션의 위치를 나타내는 점(point)들로 이루어진 상기 제1 그룹 및 상기 제2 그룹의 중심점들의 일치도가 설정값을 초과하면, 상기 중심점들 중 선택된 중심점을 최종 값으로 확정하고, 상기 제1 그룹 및 상기 제2 그룹의 중심점들의 일치도가 설정값 이하이면, 상기 중심점을 제외한 나머지 점들을 상기 제1 그룹 또는 상기 제2 그룹으로 할당하여 클러스터링 할 수 있다.
보다 구체적으로, 상기 그룹 생성부(120)는 상기 사용자들의 어노테이션의 위치를 나타내는 점(point)들의 밀도(
Figure pat00035
)와, 상기 점 보다 높은 밀도의 점들 중에서 상기 점과 가장 가까운 어느 한 점과의 최소 거리(
Figure pat00036
)를 곱하고, 상기 곱한 값(
Figure pat00037
)이 가장 큰 2개의 점을 상기 제1 그룹과 상기 제2 그룹의 중심점으로 선택하고, 2 개의 상기 두 중심점 사이의 거리가 설정값 미만이면 상기 밀도(
Figure pat00038
)와 상기 최소 거리(
Figure pat00039
)를 곱한 값(
Figure pat00040
)이 가장 큰 중심점을 최종 값으로 확정할 수 있다. 또한, 상기 그룹 생성부(120)는 2 개의 상기 두 중심점 사이의 거리가 설정값 이상이면, 상기 중심점들 이외의 점들을 상기 제1 그룹과 상기 제2 그룹에 할당할 수 있다.
이때, 점 i 와 점 j 간의 거리
Figure pat00041
는 전문의(사용자) i와 전문의(사용자) j의 어노테이션의 일치도를 측정하는 Cohen's Kappa score
Figure pat00042
를 사용하여 정의한다. (M. L. McHugh. Interrater reliability: the kappa statistic. Biochemia medica: Biochemia medica, 22(3):276-282, 2012.)
두 전문의(사용자)의 어노테이션이 완전히 일치하면
Figure pat00043
이며,
Figure pat00044
값이 작을수록 일치도가 낮음을 의미한다. 이때, 음수가 나올 수도 있다
Figure pat00045
로 정의한다. 이때, 두 전문의(사용자)의 어노테이션의 일치도가 높을수록 거리가 짧아진다.
각 점마다
Figure pat00046
Figure pat00047
값을 계산하며,
Figure pat00048
값을 계산한다.
Figure pat00049
값이 큰 두 개의 점을 클러스터의 중심점으로 선택한다.
두 중심점 사이의 거리가 사용자가 지정한 설정값(agreement threshold) 미만이면
Figure pat00050
값이 가장 큰 점을 최종값(Ground Truth)으로 확정하고 검수 작업을 중단한다. 설정값(agreement threshold)의 기본값은 0.3으로 설정한다. (
Figure pat00051
에 해당하는 값, 두 중심점 간의 Cohen's Kappa score가 0.7 이상이면 전체 전문의들의 어노테이션 일치도가 높다고 판단하여 검수 작업을 중단한다.)
두 중심점 사이의 거리가 설정값(agreement threshold) 이상이면 클러스터의 중심점으로 선택되지 않은 나머지 점들을 클러스터에 할당(assign) 하여 전체 전문의들을 두 개의 클러스터로 클러스터링하고, 검수 작업부(130)로 진입한다.
상기 검수 작업부(130)는 제1 사용자가 생성한 상기 제1 그룹의 제1 어노테이션(기존 어노테이션)과, 제2 사용자가 생성한 상기 제2 그룹의 제2 어노테이션(참고 어노테이션)과, 상기 제1 어노테이션(기존 어노테이션)을 수정한 제1-1 어노테이션(수정 어노테이션)을 사용자 단말을 통해 상기 제1 사용자에게 제공한다.
즉, 상기 검수 작업부(130)는 제1 사용자가 생성한 상기 제1 그룹의 제1 어노테이션(기존 어노테이션)을 표시한 이미지와, 제2 사용자가 생성한 상기 제2 그룹의 제2 어노테이션(참고 어노테이션)을 표시한 이미지와, 상기 제1 어노테이션을 수정한 제1-1 어노테이션(수정 어노테이션)을 표시한 이미지를 포함하는 사용자 인터페이스를 사용자 단말을 통해 상기 제1 사용자에게 제공할 수 있다.
도 2를 참조하면, 상기 검수 작업부(130)는 분할 어노테이션 작업시에는, 사용자 인터페이스 화면의 좌측에는 제1 어노테이션(기존 어노테이션), 중간에는 제1-1 어노테이션(수정 어노테이션)과 입력 인터페이스, 우측에는 제2 어노테이션(참고 어노테이션)을 표시할 수 있다.
또한, 도 3을 참조하면, 상기 검수 작업부(130)는 분류 어노테이션 작업 시에는, 사용자 인터페이스 화면의 좌측에는 어노테이션 이미지를 표시하고, 우측 상단에는 제1 어노테이션(기존 어노테이션)의 인터페이스, 우측 중간에는 제1-1 어노테이션(수정 어노테이션)의 인터페이스, 우측 하단에는 제2 어노테이션(참고 어노테이션)의 인터페이스를 표시할 수 있다.
이와 같이, 상기 검수 작업부(130)는 인터페이스를 통해 어노테이션 불러오기 기능을 제공하여 검수 작업을 효율적으로 진행하도록 할 수 있다. 즉, 기존 어노테이션을 불러와서 수정할 수 있는 기존 어노테이션 불러오기 기능과, 참고 어노테이션을 불러와서 수정할 수 있는 참고 어노테이션 불러오기 기능이 있다.
그룹 1에 속한 전문의(사용자)들에게는 그룹 2의 중심점에 해당하는 전문의(사용자)의 어노테이션을 참고 어노테이션으로 제공하고, 그룹 2에 속한 전문의(사용자)들에게는 그룹 1의 중심점에 해당하는 전문의(사용자)의 어노테이션을 참고 어노테이션으로 제공할 수 있으며, 각 전문의(사용자)는 제공받은 어노테이션을 참고하여 어노테이션을 수정한다.
한편, 사용자가 인터페이스의 초기화 버튼을 선택하면 작업한 수정 어노테이션이 초기화 되며, 저장 버튼을 선택하면 작업한 수정 어노테이션이 저장되고 다음 이미지에 대한 작업화면으로 이동할 수 있다.
이와 같이, 상기 그룹 생성부(120)는 이와 같이 수정된 어노테이션을 입력받아 어노테이션의 일치도에 따라 그룹으로 클러스터링 할 수 있다.
도 4는 본 발명의 일실시예에 따른 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법을 설명하기 위한 흐름도이다.
먼저, 어노테이션 수집부가 동일한 의료 데이터의 이미지에 다수의 사용자가 암 또는 정상을 각각 표시한 표식인 어노테이션(annotation)을 수집한다(S410).
이후, 상기 그룹 생성부(120)는 수집된 상기 어노테이션을 DPC(Density Peak Clustering) 알고리즘을 이용하여 제1 그룹과 제2 그룹으로 클러스터링(clustering) 하는 데, 이때, 상기 그룹 생성부(120)는 상기 사용자들의 어노테이션의 위치를 나타내는 점(point)들로 이루어진 상기 제1 그룹 및 상기 제2 그룹의 중심점들의 일치도가 설정값을 초과하면(S420), 상기 중심점들 중 선택된 중심점을 최종 값으로 확정하고(S425), 상기 제1 그룹 및 상기 제2 그룹의 중심점들의 일치도가 설정값 이하이면, 상기 중심점을 제외한 나머지 점들을 상기 제1 그룹 또는 상기 제2 그룹으로 할당하여 클러스터링 할 수 있다(S430).
보다 구체적으로, 상기 그룹 생성부(120)는 상기 사용자들의 어노테이션의 위치를 나타내는 점(point)들의 밀도(
Figure pat00052
)와, 상기 점 보다 높은 밀도의 점들 중에서 상기 점과 가장 가까운 어느 한 점과의 최소 거리(
Figure pat00053
)를 곱하고, 상기 곱한 값(
Figure pat00054
)이 가장 큰 2개의 점을 상기 제1 그룹과 상기 제2 그룹의 중심점으로 선택하고, 2 개의 상기 두 중심점 사이의 거리가 설정값 미만이면 상기 밀도(
Figure pat00055
)와 상기 최소 거리(
Figure pat00056
)를 곱한 값(
Figure pat00057
)이 가장 큰 중심점을 최종 값으로 확정할 수 있다. 또한, 상기 그룹 생성부(120)는 2 개의 상기 두 중심점 사이의 거리가 설정값 이상이면, 상기 중심점들 이외의 점들을 상기 제1 그룹과 상기 제2 그룹에 할당할 수 있다.
이후, 상기 검수 작업부(130)는 검수 작업 환경을 제공할 수 있다(S440).
보다 상세하게 설명하면, 상기 검수 작업부(130)는 제1 사용자가 생성한 상기 제1 그룹의 제1 어노테이션(기존 어노테이션)과, 제2 사용자가 생성한 상기 제2 그룹의 제2 어노테이션(참고 어노테이션)과, 상기 제1 어노테이션(기존 어노테이션)을 수정한 제1-1 어노테이션(수정 어노테이션)을 사용자 단말을 통해 상기 제1 사용자에게 제공한다.
즉, 상기 검수 작업부(130)는 제1 사용자가 생성한 상기 제1 그룹의 제1 어노테이션(기존 어노테이션)을 표시한 이미지와, 제2 사용자가 생성한 상기 제2 그룹의 제2 어노테이션(참고 어노테이션)을 표시한 이미지와, 상기 제1 어노테이션을 수정한 제1-1 어노테이션(수정 어노테이션)을 표시한 이미지를 포함하는 사용자 인터페이스를 사용자 단말을 통해 상기 제1 사용자에게 제공할 수 있다.
그에 따라, 제1 사용자는 상기 사용자 단말을 통해 상기 제1 어노테이션(기존 어노테이션)을 제1-1 어노테이션(수정 어노테이션)으로 수정할 수 있다(S450).
전술한 바와 같은 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였다. 그러나 본 발명의 범주에서 벗어나지 않는 한도 내에서는 여러 가지 변형이 가능하다. 본 발명의 기술적 사상은 본 발명의 전술한 실시예에 국한되어 정해져서는 안 되며, 청구범위뿐만 아니라 이 청구범위와 균등한 것들에 의해 정해져야 한다.
100: 어노테이션 검수 작업 시스템
110: 어노테이션 수집부
120: 그룹 생성부
130: 검수 작업부

Claims (12)

  1. 어노테이션 수집부가 동일한 의료 데이터의 이미지에 다수의 사용자가 암 또는 정상을 각각 표시한 표식인 어노테이션(annotation)을 수집하는 어노테이션 수집 단계;
    그룹 생성부가 수집된 상기 어노테이션을 제1 그룹과 제2 그룹으로 클러스터링하는 그룹 생성 단계; 및
    검수 작업부가 제1 사용자가 생성한 상기 제1 그룹의 제1 어노테이션과, 제2 사용자가 생성한 상기 제2 그룹의 제2 어노테이션과, 상기 제1 어노테이션을 수정한 제1-1 어노테이션을 사용자 단말을 통해 상기 제1 사용자에게 제공하는 검수 작업 단계;
    를 포함하는 것을 특징으로 하는 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법.
  2. 청구항 1에 있어서,
    상기 그룹 생성 단계는,
    상기 그룹 생성부가 DPC(Density Peak Clustering) 알고리즘을 이용하여 수집된 상기 어노테이션을 제1 그룹과 제2 그룹으로 클러스터링하는 것을 특징으로 하는 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법.
  3. 청구항 1에 있어서,
    상기 그룹 생성 단계는,
    상기 그룹 생성부가 상기 사용자들의 어노테이션의 위치를 나타내는 점(point)들로 이루어진 상기 제1 그룹 및 상기 제2 그룹의 중심점들의 일치도가 설정값을 초과하면, 상기 중심점들 중 선택된 중심점을 최종 값으로 확정하고,
    상기 제1 그룹 및 상기 제2 그룹의 중심점들의 일치도가 설정값 이하이면, 상기 중심점을 제외한 나머지 점들을 상기 제1 그룹 또는 상기 제2 그룹으로 할당하여 클러스터링 하는 것을 특징으로 하는 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법.
  4. 청구항 3에 있어서,
    상기 그룹 생성 단계는,
    상기 그룹 생성부가 상기 사용자들의 어노테이션의 위치를 나타내는 점(point)들의 밀도(
    Figure pat00058
    )와,
    상기 점 보다 높은 밀도의 점들 중에서 상기 점과 가장 가까운 어느 한 점과의 최소 거리(
    Figure pat00059
    )를 곱하고,
    상기 곱한 값(
    Figure pat00060
    )이 가장 큰 2개의 점을 상기 제1 그룹과 상기 제2 그룹의 중심점으로 선택하고,
    2 개의 상기 두 중심점 사이의 거리가 설정값 미만이면, 상기 밀도(
    Figure pat00061
    )와 상기 최소 거리(
    Figure pat00062
    )를 곱한 값(
    Figure pat00063
    )이 가장 큰 중심점을 최종 값으로 확정하는 것을 특징으로 하는 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법.
  5. 청구항 4에 있어서,
    상기 그룹 생성 단계는,
    상기 그룹 생성부가 2 개의 상기 두 중심점 사이의 거리가 설정값 이상이면, 상기 중심점들 이외의 점들을 상기 제1 그룹과 상기 제2 그룹에 할당하는 것을 특징으로 하는 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법.
  6. 청구항 1에 있어서,
    상기 검수 작업 단계는,
    상기 검수 작업부가 제1 사용자가 생성한 상기 제1 그룹의 제1 어노테이션을 표시한 이미지와, 제2 사용자가 생성한 상기 제2 그룹의 제2 어노테이션을 표시한 이미지와, 상기 제1 어노테이션을 수정한 제1-1 어노테이션을 표시한 이미지를 포함하는 사용자 인터페이스를 사용자 단말을 통해 상기 제1 사용자에게 제공하는 것을 특징으로 하는 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법.
  7. 동일한 의료 데이터의 이미지에 다수의 사용자가 암 또는 정상을 각각 표시한 표식인 어노테이션(annotation)을 수집하는 어노테이션 수집부;
    수집된 상기 어노테이션을 제1 그룹과 제2 그룹으로 클러스터링하는 그룹 생성부; 및
    제1 사용자가 생성한 상기 제1 그룹의 제1 어노테이션과, 제2 사용자가 생성한 상기 제2 그룹의 제2 어노테이션과, 상기 제1 어노테이션을 수정한 제1-1 어노테이션을 사용자 단말을 통해 상기 제1 사용자에게 제공하는 검수 작업부;
    를 포함하는 것을 특징으로 하는 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 시스템.
  8. 청구항 7에 있어서,
    상기 그룹 생성부는,
    DPC(Density Peak Clustering) 알고리즘을 이용하여 수집된 상기 어노테이션을 제1 그룹과 제2 그룹으로 클러스터링하는 것을 특징으로 하는 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 시스템.
  9. 청구항 7에 있어서,
    상기 그룹 생성부는,
    상기 사용자들의 어노테이션의 위치를 나타내는 점(point)들로 이루어진 상기 제1 그룹 및 상기 제2 그룹의 중심점들의 일치도가 설정값을 초과하면, 상기 중심점들 중 선택된 중심점을 최종 값으로 확정하고,
    상기 제1 그룹 및 상기 제2 그룹의 중심점들의 일치도가 설정값 이하이면, 상기 중심점을 제외한 나머지 점들을 상기 제1 그룹 또는 상기 제2 그룹으로 할당하여 클러스터링 하는 것을 특징으로 하는 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 시스템.
  10. 청구항 9에 있어서,
    상기 그룹 생성부는,
    상기 사용자들의 어노테이션의 위치를 나타내는 점(point)들의 밀도(
    Figure pat00064
    )와,
    상기 점 보다 높은 밀도의 점들 중에서 상기 점과 가장 가까운 어느 한 점과의 최소 거리(
    Figure pat00065
    )를 곱하고,
    상기 곱한 값(
    Figure pat00066
    )이 가장 큰 2개의 점을 상기 제1 그룹과 상기 제2 그룹의 중심점으로 선택하고,
    2 개의 상기 두 중심점 사이의 거리가 설정값 미만이면 상기 밀도(
    Figure pat00067
    )와 상기 최소 거리(
    Figure pat00068
    )를 곱한 값(
    Figure pat00069
    )이 가장 큰 중심점을 최종 값으로 확정하는 것을 특징으로 하는 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 시스템.
  11. 청구항 10에 있어서,
    상기 그룹 생성부는,
    2 개의 상기 두 중심점 사이의 거리가 설정값 이상이면, 상기 중심점들 이외의 점들을 상기 제1 그룹과 상기 제2 그룹에 할당하는 것을 특징으로 하는 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 시스템.
  12. 청구항 7에 있어서,
    상기 검수 작업부는,
    제1 사용자가 생성한 상기 제1 그룹의 제1 어노테이션을 표시한 이미지와, 제2 사용자가 생성한 상기 제2 그룹의 제2 어노테이션을 표시한 이미지와, 상기 제1 어노테이션을 수정한 제1-1 어노테이션을 표시한 이미지를 포함하는 사용자 인터페이스를 사용자 단말을 통해 상기 제1 사용자에게 제공하는 것을 특징으로 하는 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 시스템.
KR1020220155426A 2021-12-22 2022-11-18 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법 및 시스템 KR20230095805A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20210184743 2021-12-22
KR1020210184743 2021-12-22

Publications (1)

Publication Number Publication Date
KR20230095805A true KR20230095805A (ko) 2023-06-29

Family

ID=86946561

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220155426A KR20230095805A (ko) 2021-12-22 2022-11-18 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR20230095805A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102446638B1 (ko) 2021-04-28 2022-09-26 주식회사 딥바이오 유방암 병변 영역을 판별하기 위한 인공 신경망을 학습하기 위한 학습 방법, 및 이를 수행하는 컴퓨팅 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102446638B1 (ko) 2021-04-28 2022-09-26 주식회사 딥바이오 유방암 병변 영역을 판별하기 위한 인공 신경망을 학습하기 위한 학습 방법, 및 이를 수행하는 컴퓨팅 시스템

Similar Documents

Publication Publication Date Title
WO2021027553A1 (zh) 微表情分类模型生成、图像识别方法、装置、设备及介质
US8244002B2 (en) System and method for performing rapid facial recognition
JP5618787B2 (ja) レポート作成支援装置及びその作成支援方法、並びにプログラム
US10560601B2 (en) Image processing method, image processing apparatus, and storage medium
EP4181059A1 (en) Medical image processing method, apparatus, device, storage medium, and product
CN112581438B (zh) 切片图像识别方法、装置和存储介质及电子设备
CN112365471B (zh) 基于深度学习的宫颈癌细胞智能检测方法
CN108461130B (zh) 就诊任务智能调度方法及系统
US12094189B2 (en) Learning method, learning program, and learning device to accurately identify sub-objects of an object included in an image
CN109934229A (zh) 图像处理方法、装置、介质和计算设备
KR101653505B1 (ko) 이미지를 기반으로 건강상태에 대한 진단을 보조하는 컴퓨팅 장치 및 방법
CN102027490A (zh) 基于图像分割的图像分类
CN115862113A (zh) 陌生人异常识别方法、装置、设备及存储介质
CN117294727A (zh) 一种基于云原生和容器技术的云边端协同管理方法
CN113704474A (zh) 银行网点设备操作指引生成方法、装置、设备及存储介质
KR20230095805A (ko) 클러스터링 알고리즘 기반의 효율적인 어노테이션 검수 작업 방법 및 시스템
Salamó et al. Rough sets reduction techniques for case-based reasoning
CN113903433B (zh) 一种图像处理方法、装置和电子设备
CN113110804B (zh) 重复图片删除方法、装置、设备及存储介质
JP5428646B2 (ja) 画像処理装置及びプログラム
EP3772703A2 (en) Image processing apparatus and image processing method
KR20230134887A (ko) 인공 지능을 이용한 치석 인식 시스템 및 방법
CN111783869A (zh) 训练数据筛选方法、装置、电子设备及存储介质
CN111126121B (zh) 人脸识别模型的调整方法、装置、设备及存储介质
JP2017187824A (ja) データ分類装置、方法およびプログラム