WO2020111754A9

WO2020111754A9 - 세미 슈퍼바이즈드 학습을 이용한 진단 시스템 제공방법 및 이를 이용하는 진단 시스템

Info

Publication number: WO2020111754A9
Application number: PCT/KR2019/016425
Authority: WO
Inventors: 김선우
Original assignee: 주식회사 딥바이오
Priority date: 2018-11-30
Filing date: 2019-11-27
Publication date: 2020-11-19
Also published as: EP3872818A2; CN113168907A; KR20200066083A; EP3872818A4; US20210398674A1; WO2020111754A3; JP2022510113A; WO2020111754A2; KR102261473B1

Abstract

세미 슈퍼바이즈드 학습을 이용한 진단 시스템 제공방법 및 그 시스템이 개시된다. 상기 세미 슈퍼바이즈드 학습을 이용한 진단 시스템 제공방법은 지도학습기반의 뉴럴 네트워크를 통해 학습된 진단 시스템이 소정의 입력 데이터를 입력 받고, 상기 입력 데이터에 대한 진단 결과를 출력하는 단계, 상기 진단 시스템이 상기 진단 결과로 어노테이션된 상기 입력 데이터를 포함하는 자동 어노테이션 학습 데이터를 생성하는 단계, 및 상기 진단 시스템이 생성된 상기 자동 어노테이션 학습 데이터를 이용하여 재학습 프로세스를 수행하는 단계를 포함한다.

Description

세미 슈퍼바이즈드 학습을 이용한 진단 시스템 제공방법 및 이를 이용하는 진단 시스템

본 발명은 뉴럴 네트워크를 이용한 학습방법 및 이를 이용하는 진단 시스템에 관한 것이다. 보다 상세하게는 지도학습기반으로 학습된 시스템(예컨대, 질병의 진단 시스템 등)을 이용하여 자동으로 데이터에 어노테이션을 수행하여 학습 데이터를 생성하고, 이렇게 자동으로 생성된 즉, 자동으로 어노테이션된 학습 데이터를 이용하여 시스템의 재학습을 수행하여 성능을 고도화할 수 있는 방법 및 시스템에 관한 것이다.

뉴럴 네트워크를 이용한 딥러닝(deep learning, 예컨대, 컨벌루션 뉴럴 네트워크(Convolution neurla network, CNN)를 이용한 딥러닝 방식) 기술이 널리 이용되고 있다.

이러한 딥러닝을 이용하여 질병의 진단을 수행하기 위한 시도도 점차 증대되고 있다.

예컨대, 종래의 병리학 또는 병리과에서 수행하는 주요한 업무 중 하나는 환자의 생체이미지를 판독하여 특정 질병에 대한 상태 또는 징후를 판단하는 진단을 수행하는 일이다. 이러한 진단은 오랜기간 숙련된 의료인의 경험과 지식에 의해 의존되는 방식이다.

하지만 이러한 진단 분야에서도 기계학습의 발달로 인해 이미지를 인식하거나 분류하는 등의 업무를 컴퓨터 시스템에 의해 자동화하고자 하는 시도가 활발히 이루어지고 있다. 특히 기계학습의 일종인 뉴럴 네트워크를 이용하여 숙련된 의료인이 수행하던 진단을 자동화하기 위한 시도가 이루어지고 있다.

특히 뉴럴 네트워크(예컨대, CNN)를 이용한 딥러닝을 통한 진단은 종래에 숙련된 의료인의 경험과 지식을 단순히 자동화하는 것이 아니라, 스스로 학습을 통해 특징적인 요소들을 찾아내어 원하는 해답을 도출한다는 점에 있어서 오히려 숙련된 의료인이 알지 못하던 질병인자의 특징을 이미지에서 찾아내는 경우도 있다.

일반적으로 생체 데이터(예컨대, 생체 이미지)를 이용하는 뉴럴 네트워크를 통한 질병의 진단은 생체 데이터에 숙련된 의료인이 특정 질병의 상태(예컨대, 암이 발현되었는지 여부)를 어노테이션(annotaion)하고, 이러한 어노테이션된 다수의 데이터들을 학습 데이터로 이용하여 뉴럴 네트워크를 학습하게 된다. 즉, 학습을 위해 학습 데이터에 어노테이션을 수행하여 어노테이션된 학습 데이터를 통한 학습이 주로 이용되는데 이러한 학습방식을 지도학습(supervised learning)이라고 한다.

하지만 이러한 지도학습에는 지도학습을 위해 어노테이션된 학습 데이터가 다수 필요하게 된다. 그리고 이러한 다수의 어노테이션된 학습 데이터를 생성하는데에는 숙련된 전문가가 상당히 많은 시간을 소요하여 수행하여야 하는 특성상 높은 비용 및 시간이 요구되는 프로세스이다.

따라서 이러한 어노테이션을 통한 학습 데이터의 준비 프로세스에 소요되는 시간과 비용을 다소 경감할 수 있으면서도 성능이 우수한 학습된 시스템(예컨대, 질병의 진단 시스템)을 구현할 수 있는 학습방법이 요구된다.

*선행기술문헌

-특허문헌

한국등록특허 10-1818074 "인공지능 기반 의료용 자동 진단 보조 방법 및 그 시스템"

본 발명이 이루고자 하는 기술적인 과제는 질병을 진단하기 위해 지도학습 기반으로 학습된 시스템으로 진단한 결과를 재학습에 이용함으로써 진단 시스템의 진단 성능을 높일 수 있는 방법 및 시스템을 제공하는 것이다.

또한 진단 시스템이 진단 결과를 결정하는데 기반이 되는 수치의 기준 문턱 값을 효과적으로 결정할 수 있는 방법 및 시스템을 제공하는 것이다.

또한 이러한 수치의 기준 문턱 값을 재학습 이후 소정의 시점에 재설정함으로써 보다 높은 성능 개선이 이루어질 수 있는 방법 및 시스템을 제공하는 것이다.

상기 기술적 과제를 달성하기 위한 세미 슈퍼바이즈드 학습을 이용한 진단 시스템 제공방법은 지도학습기반의 뉴럴 네트워크를 통해 학습된 진단 시스템이 소정의 입력 데이터를 입력 받고, 상기 입력 데이터에 대한 진단 결과를 출력하는 단계, 상기 진단 시스템이 상기 진단 결과로 어노테이션된 상기 입력 데이터를 포함하는 자동 어노테이션 학습 데이터를 생성하는 단계, 및 상기 진단 시스템이 생성된 상기 자동 어노테이션 학습 데이터를 이용하여 재학습 프로세스를 수행하는 단계를 포함한다.

상기 진단 시스템이 상기 진단 결과로 어노테이션된 상기 입력 데이터를 포함하는 자동 어노테이션 학습 데이터를 생성하는 단계는 상기 진단 결과에 기초가 되며 진단결과의 확률을 나타내는 수치 값이 소정의 문턱 값 이상일 경우 상기 입력 데이터를 상기 자동 어노테이션 학습 데이터에 포함시키는 것을 특징으로 할 수 있다.

상기 세미 슈퍼바이즈드 학습을 이용한 진단 시스템 제공방법은 상기 문턱 값을 변경하면서 상기 재학습 프로세스를 수행한 후의 상기 진단 시스템의 성능을 테스트하는 단계 및 테스트 결과에 기초하여 기준 문턱 값을 결정하는 단계를 더 포함할 수 있다.

상기 세미 슈퍼바이즈드 학습을 이용한 진단 시스템 제공방법은 상기 진단 시스템이 상기 기준 문턱 값을 이용하여 상기 자동 어노테이션 학습 데이터를 생성하고, 생성된 상기 자동 어노테이션 학습 데이터를 이용하여 상기 재학습 프로세스를 수행하는 것을 특징으로 하며, 상기 재학습 프로세스를 수행한 후, 상기 기준 문턱 값을 변경하는 단계를 더 포함할 수 있다.

상기 진단 시스템은 입력 데이터에 대해 제1판단 및 제2판단을 포함하는 복수의 진단들 중 어느 하나를 진단 결과로 출력하고, 상기 자동 어노테이션 학습 데이터는 상기 제1진단으로 어노테이션된 입력 데이터가 미리 정해진 개수 이상 포함하고, 상기 제2진단으로 어노테이션된 입력 데이터가 미리 정해진 개수 이상 포함하는 것을 특징으로 할 수 있다.

상기 입력 데이터는 생체 데이터이고, 상기 진단 결과는 질병의 발현여부 또는 질병의 진행상태에 따른 분류 중 적어도 하나인 것을 특징으로 할 수 있다.

상기의 방법은 데이터 처리장치에 설치된 컴퓨터 프로그램에 의해 구현될 수 있다.

상기의 기술적 과제를 해결하기 위한 진단 시스템은 프로세서, 상기 프로세서에 의해 실행되는 프로그램이 저장된 저장장치를 포함하며, 상기 프로그램은 상기 저장장치에 저장되며 지도학습기반으로 학습된 뉴럴 네트워크가 소정의 입력 데이터를 입력 받고, 상기 입력 데이터에 대한 진단 결과를 출력하도록 하며, 출력된 상기 진단 결과로 어노테이션된 상기 입력 데이터를 포함하는 자동 어노테이션 학습 데이터 생성하고, 생성한 자동 어노테이션 학습 데이터를 이용하여 상기 뉴럴 네트워크의 재학습을 수행한다.

상기 프로그램은 상기 진단 결과에 기초가 되며 진단결과의 확률을 나타내는 수치 값이 소정의 문턱 값 이상일 경우 상기 입력 데이터를 상기 자동 어노테이션 학습 데이터에 포함시키며, 상기 문턱 값을 변경하면서 상기 재학습을 수행한 후의 상기 뉴럴 네트워크의 성능을 테스트하고, 테스트 결과에 기초하여 기준 문턱 값을 결정할 수 있다.

상기 프로그램은 상기 기준 문턱 값을 이용하여 상기 자동 어노테이션 학습 데이터를 생성하고, 생성된 상기 자동 어노테이션 학습 데이터를 이용하여 상기 재학습 프로세스를 수행하는 것을 특징으로 하며, 상기 재학습 프로세스를 수행한 후, 상기 기준 문턱 값을 변경할 수 있다.

상기 프로그램은 입력 데이터에 대해 제1판단 및 제2판단을 포함하는 복수의 진단들 중 어느 하나를 진단 결과로 출력하고, 상기 자동 어노테이션 학습 데이터는 상기 제1진단으로 어노테이션된 입력 데이터가 미리 정해진 개수 이상 포함하고, 상기 제2진단으로 어노테이션된 입력 데이터가 미리 정해진 개수 이상 포함하는 것을 특징으로 할 수 있다.

본 발명의 기술적 사상에 따르면 질병을 진단하기 위해 지도학습 기반으로 학습된 시스템으로 진단한 결과를 재학습에 이용함으로써 특히 어노테이션에 많은 비용과 시간이 소요되는 어노테이션 프로세스를 효과적으로 수행할 수 있는 효과가 있다. 또한 이러한 재학습을 통해 진단 시스템의 진단 성능이 개선될 수 있는 효과가 있다.

또한 진단 시스템이 진단 결과를 결정하는데 기반이 되는 수치의 기준 문턱 값을 재학습의 성능 개선에 따라 효과적으로 결정함으로써 재학습 후의 진단 시스템의 성능 향상에 효과가 있다.

또한 이러한 수치의 기준 문턱 값을 재학습 이후 소정의 시점에 재설정함으로써 보다 높은 성능 개선이 이루어질 수 있는 효과가 있다.

본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.

도 1은 본 발명의 기술적 사상에 따른 세미 슈퍼바이즈드 학습을 이용한 진단 시스템 제공방법을 구현하기 위한 개략적인 시스템 구성을 나타내는 도면이다.

도 2는 본 발명의 실시 예에 따른 진단 시스템의 개략적인 구성을 설명하기 위한 도면이다.

도 3은 본 발명의 실시 예에 따른 뉴럴 네트워크의 개략적인 진단 방식을 설명하기 위한 도면이다.

도 4는 본 발명의 실시 예에 따른 기준 문턱 값을 설정하는 기준을 설명하기 위한 도면이다.

도 5는 본 발명의 실시 예에 따라 기준 문턱 값을 재설정하는 방식을 설명하기 위한 도면이다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 아니 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 명세서에 있어서, “포함하다”또는 “가지다”등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

또한, 본 명세서에 있어서는 어느 하나의 구성요소가 다른 구성요소로 데이터를 '전송'하는 경우에는 상기 구성요소는 상기 다른 구성요소로 직접 상기 데이터를 전송할 수도 있고, 적어도 하나의 또 다른 구성요소를 통하여 상기 데이터를 상기 다른 구성요소로 전송할 수도 있는 것을 의미한다. 반대로 어느 하나의 구성요소가 다른 구성요소로 데이터를 '직접 전송'하는 경우에는 상기 구성요소에서 다른 구성요소를 통하지 않고 상기 다른 구성요소로 상기 데이터가 전송되는 것을 의미한다.

이하, 첨부된 도면들을 참조하여 본 발명의 실시 예들을 중심으로 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.

도 1을 참조하면, 본 발명의 기술적 사상에 따른 세미 슈퍼바이즈드 학습을 이용한 진단 시스템 제공방법을 구현하기 위해서는 지도학습(supervised learning)기반으로 학습된 진단 시스템(100)이 구현될 수 있다.

상기 진단 시스템(100)은 본 발명의 기술적 사상에 따라 소정의 입력 데이터가 입력되면 진단 결과를 출력하도록 지도학습 기반으로 학습된 시스템일 수 있다.

예컨대, 상기 진단 시스템(100)은 지도학습 기반으로 학습되어 소정의 생체 데이터(예컨대, 생체 이미지)가 입력되면, 상기 생체 데이터를 학습된 뉴럴 네트워크를 통해 미리 정해진 분류(예컨대, 질병의 발현여부 또는 질병의 진행정도에 따른 분류)로 분류하여 그 결과를 진단결과로 출력하는 시스템일 수 있다.

상기 진단 시스템(100)은 본 명세서에서 정의된 기능을 수행할 수만 있으면 다양한 데이터 처리시스템(예컨대, 컴퓨터, 서버, 스마트 폰, 또는 전용장치 등)로 구현될 수 있음은 물론이다.

상기 진단 시스템(100)은 다수의 학습 데이터를 이용해 학습될 수 있다. 소정의 뉴럴 네트워크를 구비한 시스템(100-1)이 상기 다수의 학습 데이터를 입력받아(S10) 학습을 수행하면(S20) 상기 진단 시스템(100)이 구현될 수 있다.

상기 학습 데이터는 원하는 진단 시스템(100)이 진단 결과를 출력하기 위해 미리 어노테이션된 데이터일 수 있다. 어노테이션은 진단 시스템(100)이 출력하는 진단 결과에 상응하는 정보일 수 있다.

상기 진단 시스템(100)이 단순히 입력 데이터(예컨대, 생체 이미지)를 입력받고 해당 입력 데이터에 질병이 발현되었는지를 진단결과로 출력하는 시스템이라면, 상기 어노테이션 역시 다수의 데이터(예컨대, 생체 이미지) 각각에 질병이 발현되었는지 여부에 대한 정보를 라벨링하는 것을 의미할 수 있다.

또는 상기 진단 시스템(100)이 병의 진행상태 정도(예컨대, 전립선 암의 경우 글리슨 스코어)를 진단 결과로 출력하는 시스템일 경우, 상기 어노테이션 역시 다수의 데이터(예컨대, 생체 이미지) 각각에 질병의 진행상태 정도를 라벨링하는 것을 의미할 수 있다.

어떤 경우이든 어노테이션하는 정보에 따라 상기 진단 시스템(100)이 출력하는 진단 결과가 의존적으로 정의될 수 있다.

이처럼 어노테이션된 학습 데이터를 이용하여 학습된 진단 시스템(100)의 성능은 학습 데이터의 양과 질에 의존적일 수 있다.

하지만 특히 질병의 진단에 학습된 진단 시스템(100)이 이용되기 위해서는 이러한 어노테이션이 입력 데이터를 보고 진단결과를 진단할 수 있는 숙련된 의료인에 의해 수행되어야 하고, 충분히 많은 양의 학습 데이터 각각에 이러한 어노테이션이 수행되어야 한다.

따라서 본 발명의 기술적 사상에 따른 세미 슈퍼바이즈드 학습을 이용한 진단 시스템 제공방법은 이러한 문제점을 완화하기 위해, 어느 정도 수준으로 지도학습 기반으로 학습된 진단 시스템(100)을 구현한 후 그 이후에는 상기 진단 시스템(100)의 진단 결과를 상기 진단 결과에 대응되는 입력 데이터의 어노테이션 결과로 설정할 수 있다.

예컨대, 지도학습 기반으로 이미 학습된 상기 진단 시스템(100)이 특정 입력 데이터를 입력받으면(S100), 상기 진단 시스템(100)은 진단 결과를 출력할 수 있다(S110).

그러면 상기 특정 입력 데이터는 상기 진단 결과로 어노테이션된 데이터로 설정할 수 있다.

이처럼 지도학습 기반으로 학습된 진단 시스템(100)에 의해 진단결과가 입력 데이터의 어노테이션 결과로 설정하여, 상기 진단 시스템(100)의 진단 결과로 어노테이션된 데이터를 자동 어노테이션 학습 데이터로 정의하기로 한다.

이러한 자동 어노테이션 학습 데이터는 상기 진단 시스템(100)의 재학습의 학습 데이터로 이용될 수 있다(S120). 즉, 상기 진단 시스템(100)은 상기 자동 어노테이션 학습 데이터를 이용하여 재학습을 수행할 수 있다.

한편, 상기 진단 시스템(100)이 진단 결과를 출력한 모든 입력 데이터가 자동 어노테이션 학습 데이터로 이용되는 것은 아닐 수 있다. 즉, 자동 어노테이션 학습 데이터는 후술할 바와 같이 상기 진단 시스템(100)의 재학습에 이용되는 데이터이므로 상기 자동 어노테이션 학습 데이터의 어노테이션 결과는 신뢰할 수 있는 것이어야 한다.

따라서 상기 자동 어노테이션 학습 데이터는 입력 데이터에 대해 상기 진단 시스템(100)이 소정의 진단결과를 출력하였을 때, 일정 확률 이상으로 상기 진단 결과를 출력한 경우의 입력 데이터로 제한될 수 있다.

이러한 확률에 상응하는 수치 값은, 상기 진단 시스템(100)에 포함된 뉴럴 네트워크의 최종 레이어 이전 레이어에 의해 출력되도록 상기 뉴럴 네트워크가 설계될 수 있다 물론, 실시 예에 따라서는 상기 뉴럴 네트워크의 최종 레이어가 상기 수치 값을 출력하도록 구현될 수도 있다. 어떠한 경우든 상기 진단 시스템(100)에 포함되는 뉴럴 네트워크의 적어도 하나의 레이어는 최종 진단 결과를 출력하기 전에 진단 결과를 결정하는 기초가 되는 수치 값을 출력하도록 설계되고 학습될 수 있다.

그러면 상기 진단 시스템(100)은 상기 수치 값이 미리 정해진 문턱 값 이상일 경우에 상기 제1진단 결과(예컨대, 질병 발현 또는 질병의 진행상태 정도 등과 같은 제1클래스)로 진단결과를 출력(입력 데이터를 분류)할 수 있고, 문턱 값 미만일 경우는 제2진단 결과(진단결과로 분류 가능한 복수의 클래스들 중 제2클래스)로 진단결과를 출력할 수 있다.

다른 실시 예에 따르면, 상기 진단 시스템(100)은 진단 결과를 분류하는 기준이 되는 수치 값의 기준과는 별개로 자동 어노테이션 학습 데이터로 이용되기 위한 기준이 되는 문턱 값을 별개로 정의할 수도 있다.

예컨대, 수치 값이 일정 값(예컨대, 0.8)이상이면 제1진단 결과를 출력하되, 자동 어노테이션 학습 데이터로 이용되기 위한 기준이 되는 문턱 값은 0.85일 수 있다. 즉, 제1진단결과로 분류된 입력 데이터들 중에서 상기 문턱 값이 0.85이상이 입력 데이터만이 상기 자동 어노테이션 학습 데이터로 이용될 수 있다.

어떠한 경우든 상기 문턱 값은 상기 진단 시스템(100)이 입력받은 입력 데이터가 상기 진단 시스템(100)에 의해 소정의 진단 결과로 분류된 경우, 상기 입력 데이터를 자동 어노테이션 학습 데이터로 이용할지를 판단하는 기준이 될 수 있다.

그리고 이처럼 자동 어노테이션 학습 데이터로 이용할 기준이 되는 문턱 값을 기준 문턱 값으로 정의할 수 있다. 상기 기준 문턱 값에 따라 자동 어노테이션 학습 데이터에 포함될 데이터가 결정될 수 있고, 결정된 상기 자동 어노테이션 학습 데이터가 상기 진단 시스템(100)의 재학습에 이용될 수 있으므로 기준 문턱 값이 재학습을 수행한 후의 상기 진단 시스템(100)의 성능에 많은 영향을 미칠 수 있다.

실시 예에 따라 상기 진단 결과의 기초가 되는 수치 값은 상기 진단 시스템(100)이 출력할 수 있는 진단 결과들(예컨대, 복수의 클래스들) 중 제1진단 결과(예컨대, 복수의 클래스들 중 제1클래스)의 정확도를 나타내는 확률에 상응할 수 있다. 하지만 실시 예에 따라 상기 자동 어노테이션 학습 데이터에는 제1진단 결과로 분류된 입력 데이터뿐만 아니라 타 진단결과(예컨대, 복수의 클래스들 중 제1클래스가 아닌 타 클래스)로 분류된 입력 데이터 역시 포함되어야 할 수도 있다. 따라서 반드시 기준 문턱 값을 높일수록 재학습 후의 진단 시스템(100)의 성능개선 정도가 커지는 것은 아닐 수 있다.

따라서 본 발명의 기술적 사상에 의하면, 상기 기준 문턱 값 역시 상기 진단 시스템(100)에 의해 결정될 수 있다.

상기 진단 시스템(100)은 문턱 값을 복수 개 설정하고, 설정된 복수 개의 문턱 값 각각에 따라 재학습에 이용될 자동 어노테이션 학습 데이터 세트를 복수 개 특정할 수 있다. 각각의 자동 어노테이션 학습 데이터에는 복수의 진단 결과로 어노테이션된 데이터들이 각각 미리 정해진 개수 이상 포함되도록 특정될 수 있다. 물론, 실시 예에 따라서는 어느 하나의 진단 결과로 어노테이션된 데이터만이 상기 자동 어노테이션 학습 데이터로 특정될 수도 있지만, 일반적으로 각각의 진단 결과별로 유사한 정도의 비중을 갖도록 학습 데이터가 준비되는 것이 학습 성능에 더 유리한 효과를 가질 수 있으므로 복수의 진단 결과들(즉, 분류되는 클래스들) 각각으로 어노테이션된 데이터가 미리 정해진 개수 이상 상기 자동 어노테이션 학습 데이터에 포함되도록 상기 자동 어노테이션 학습 데이터 세트가 정의될 수 있다.

그리고 이러한 복수 개의 서로 다른 학습 데이터 세트를 이용하여 각각 진단 시스템(100)을 재학습시킬 수 있다. 이를 위해 상기 진단 시스템(100)과 동일한 뉴럴 네트워크가 복수개 미리 준비될 수 있음은 물론이다.

그리고 재학습된 복수 개의 진단 시스템(100) 각각별로 미리 정의된 테스트 데이터 세트를 이용하여 성능 평가를 수행할 수 있다. 그리고 성능 평가결과에 따라 재학습 후의 성능이 가장 좋은 경우의 문턱 값을 기준 문턱 값으로 결정할 수 있다.

이러한 기준 문턱 값이 결정되면, 상기 진단 시스템(100)은 기준 문턱 값을 기준으로 다수의 자동 어노테이션 학습 데이터를 생성할 수 있다. 그리고 소정의 개수 이상 자동 어노테이션 학습 데이터가 생성된 경우(이때는 기준 문턱 값을 결정하기 위해 사용된 자동 어노테이션 학습 데이터의 수 보다 많을 수 있다), 자동 어노테이션 학습 데이터를 이용하여 상기 진단 시스템(100)은 재학습을 수행할 수 있다.

재학습이 수행된 진단 시스템(100)은 재학습 전의 진단 시스템(100)에 비해 보다 좋은 성능을 가질 수 있다.

그리고 이렇게 개선된 성능을 가지게 된 상기 진단 시스템(100)은 재학습 전의 진단 시스템(100)과는 뉴럴 네트워크를 구성하는 다수의 파라미터들이 변경된 시스템일 수 있다. 따라서 기존의 기준 문턱 값을 계속 이용하여 다시 재학습을 수행하기 위한 자동 어노테이션 학습 데이터를 생성하는 것은 바람직하지 않을 수 있다. 따라서 재학습 후의 상기 진단 시스템(100)에 대해서는 다시 전술한 바와 같이 기준 문턱 값을 재결정하는 프로세스를 수행함으로써 다시 재학습을 수행할 때 이요될 자동 어노테이션 학습 데이터를 분류하는 기준을 변경하는 것이 바람직할 수 있다.

이러한 기술적 사상을 구현하기 위한 진단 시스템(100)의 개략적인 구성은 도 2에 도시된 바와 같을 수 있다.

도 2를 참조하면, 상기 진단 시스템(100)은 도 2에 도시된 바와 같은 구성을 포함할 수 있다.

진단 시스템(10)은 프로세서(110) 및 저장장치(120)를 포함할 수 있다. 상기 진단 시스템(100)은 본 발명의 기술적 사상을 구현하기 위한 연산능력을 가진 데이터 처리시스템을 의미하며, 일반적으로 네트워크를 통해 클라이언트가 접속가능한 데이터 처리시스템 뿐만 아니라 개인용 컴퓨터, 휴대 단말 등과 같이 특정 서비스를 수행할 수 있는 어떠한 장치로도 구현될 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.

상기 프로세서(110)는 본 발명의 기술적 사상을 구현하기 위한 프로그램(121)을 구동시킬 수 있는 연산장치를 의미할 수 있으며, 상기 프로세서(110)는 상기 프로그램(121)과 본 발명의 기술적 사상에 의해 정의되는 뉴럴 네트워크(Nerual Network, 123)를 이용해 진단을 수행할 수 있다. 상기 뉴럴 네트워크는 컨벌루션 뉴럴 네트워크일 수 있으며, 생체 데이터(예컨대, 이미지)를 입력받으면 학습된 뉴럴 네트워크를 통해 진단결과를 출력할 수 있다.

상기 프로그램(121)은 지도학습을 통해 뉴럴 네트워크(123)를 학습시키거나 또는 학습된 뉴럴 네트워크(123)를 이용하여 진단을 수행할 수 있도록 정의되는 소프트웨어를 의미할 수 있다.

상기 저장장치(120)는 상기 프로그램(121) 및 뉴럴 네트워크(123)를 저장할 수 있는 데이터 저장수단을 의미할 수 있으며, 구현 예에 따라 복수의 저장수단으로 구현될 수도 있다. 또한 상기 저장장치(120)는 상기 진단 시스템(100)에 포함된 주 기억장치 뿐만 아니라, 상기 프로세서(110)에 포함될 수 있는 임시 저장장치 또는 메모리 등을 포함하는 의미일 수도 있다.

상기 진단 시스템(100)은 도 2에서는 어느 하나의 물리적 장치로 구현된 것으로 도시하였지만, 필요에 따라 복수의 물리적 장치가 유기적으로 결합되어 본 발명의 기술적 사상에 따른 진단 시스템(100)을 구현할 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.

이하 본 명세서에서 상기 진단 시스템(예컨대, 100)이 소정의 기능을 수행한다고 함은, 진단 시스템(예컨대, 100)에 구비된 프로세서(예110)가 상기 프로그램(예컨대, 121)을 이용하여 소정의 기능을 수행함을 의미할 수 있음은 물론이다.

본 명세서에서 상기 진단 시스템(100)이 진단을 수행한다고 함은 생체 데이터를 입력받아 본 명세서에서 정의된 출력 데이터 예컨대, 진단결과를 출력하는 일련의 프로세스를 의미할 수 있다.

상기 진단 시스템(100)은 생체 데이터를 소정의 단위 유닛별로 입력받을 수 있다. 단위 유닛은 예컨대, 픽셀 단위일 수도 있고 패치, 또는 슬라이드 단위일 수도 있다.

진단 시스템(100)의 진단결과는 질병의 종류에 따라 단순히 질병의 발현여부 또는 이에 상응하는 값(예컨대, 확률 등)일 수도 있고, 또는 질병이 발현된 경우에는 질병의 상태 정도를 나타내는 상태정보일 수도 있다.

예컨대, 후술할 바와 같이 본 발명의 기술적 사상이 전립선 암의 진단에 이용되는 경우, 전립선 암의 진행 정도를 나타내는 지표인 글리슨 패턴(Gleason Pattern) 또는 글리슨 스코어(Gleason Score)가 상기 상태정보에 포함될 수 있다. 예컨대, 글리슨 패턴은 2 내지 5의 값을 가지며, 숫자가 클수록 전립선 암이 발현된 정도가 심한 것을 나타낸다. 따라서 상기 상태정보는 진단의 대상이 되는 단위 유닛에 해당하는 생체조직이 글리슨 패턴의 특정 값(예컨대, 3, 4, 또는 5)에 해당할 확률에 상응하는 정보 또는 노멀(즉, 질병이 발현되지 않은 경우)에 해당할 확률에 상응하는 정보를 포함할 수 있다.

어떠한 경우든 상기 진단 시스템(100)은 학습된 뉴럴 네트워크(123)를 통해 입력 데이터를 소정의 진단결과로 분류하는 기능을 수행할 수 있다.

이러한 진단 결과로 분류하기 위해, 일 실시 예에 따르면 상기 진단 시스템(100)에 포함된 뉴럴 네트워크(123)은 전술한 바와 같이 최종적 진단 결과를 결정하기 전에 소정의 수치 값을 출력할 수 있다.

이러한 일 예는 도 3에 도시된다.

도 3을 참조하면, 상기 뉴럴 네트워크(123)는 널리 알려진 바와 같이 인풋 레이어(Input Layer), 히든 레이어(Hidden Layer), 및 아웃풋 레이어(Output Layer)를 포함할 수 있다.

상기 아웃풋 레이어는 진단 결과 즉, 입력 데이터를 미리 정해진 클래스들 중 하나로 분류한 결과를 출력할 수 있고, 이러한 아웃풋 레이어 이전 레이어는 소정의 수치 값을 적어도 하나 출력하도록 설계될 수 있다. 그러면 아웃풋 레이어는 상기 수치 값에 기초하여 진단 결과를 결정하여 출력할 수 있다.

이때 상기 수치 값은 진단 결과를 결정하는 기준이 될 수도 있고, 전술한 바와 같이 본 발명의 실시 예에 따른 자동 어노테이션 학습 데이터를 생성하는 기준이 될 수도 있다. 예컨대, 상기 수치 값이 제1값 이상이면 상기 뉴럴 네트워크(123)는 입력 데이터를 제1진단 결과로 분류할 수 있다. 또한 상기 제1진단 결과로 분류된 입력 데이터들 중 상기 수치 값이 제2값 이상이어야 상기 입력 데이터를 자동 어노테이션 학습 데이터에 포함시킬 수 있다.

물론, 실시 예에 따라서는 상기 제1값과 상기 제2값이 동일하게 설정될 수도 있고, 이러한 경우에는 전술한 바와 같은 기준 문턱 값을 결정하는 방식으로 제2값즉, 입력 데이터를 자동 어노테이션 학습 데이터에 포함시킬지 여부를 결정하는 기준 뿐만 아니라 진단결과를 분류하는 기준 수치가 같이 결정될 수도 있다.

도 4를 참조하면, 상기 진단 시스템(100)은 복수의 문턱 값들에 따라 특정되는 서로 다른 복수의 자동 어노테이션 학습 데이터 세트를 특정할 수 있다.

그러면 상기 진단 시스템(100)은 복수의 자동 어노테이션 학습 데이터 세트 각각을 이용하여 상기 진단 시스템(100)이 재학습된 경우의 성능을 평가할 수 있다.

성능의 평가는 학습 모델의 성능을 평가하는 대표적인 기준 accuracy, precision, sensitivity, specificity 들 중 적어도 하나에 기초하여 수행될 수 있다.

상기 accuracy, precision, sensitivity, specificity 모두가 개선되어야 성능이 개선되었다고 판단할 수 있지만, 필요에 따라 어느 하나 또는 일부에만 중점을 두어 성능 평가를 수행할 수 있음은 물론이다.

왜냐하면 입력 데이터의 종류 또는 뉴럴 네트워크의 설계 예에 따라 accuracy, precision, sensitivity, specificity 중 일부는 다소 트레이드 오프 관계를 가질 수도 있고, 각각의 성능 중 가장 중요한 성능지표는 실시 예에 따라 다를 수 있기 때문이다.

물론, 평가 기준에 복수의 기준들이 포함될 경우는 미리 정해진 웨이트 팩터에 따라 종합적인 성능이 평가될 수 있다.

이러한 방식으로 재학습된 진단 시스템(100) 각각의 성능이 평가되면, 가장 높은 성능을 가지게 한 자동 어노테이션 학습 데이터에 상응하는 문턱 값이 기준 문턱 값이 될 수 있다.

도 5를 참조하면, 전술한 바와 같이 기준 문턱 값이 탐색되어 결정되면(S200), 진단 시스템(100)은 기준 문턱 값에 기초하여 미리 결정된 유의미한 개수의 자동 어노테이션 학습 데이터를 생성할 수 있다. 물론 이때의 상기 진단 시스템(100)은 기준 문턱 값을 결정하기 위해 이미 재학습된 진단 시스템(100)일 수도 있고, 그 이전의 진단 시스템(100) 즉, 재학습되지 않은 시스템일 수도 있다.

그리고 상기 자동 어노테이션 학습 데이터가 미리 정해진 개수만큼 생성되면, 상기 진단 시스템(100)은 생성된 자동 어노테이션 학습 데이터를 이용하여 재학습을 수행할 수 있다(S210). 상기 자동 어노테이션 학습 데이터에는 진단 결과로 분류 가능한 각각의 진단들(클래스들)별로 미리 정해진 데이터 개수 또는 미리 정해진 비율 범위 내의 데이터 개수가 존재하는 조건을 만족시켜야 할 수도 있다.

재학습이 수행된 상기 진단 시스템(100)을 이용하여 새로운 입력 데이터에 따른 진단이 소정의 개수 수행될 수 있다. 그리고 기준 문턱 값을 재탐색할 정도로 진단이 수행되면, 전술한 바와 같이 새로운 기준 문턱 값을 재탐색하여 결정할 수 있다. 그리고 새로운 기준 문턱 값을 이용하여 다시 자동 어노테이션 학습 데이터가 일정 개수 이상 생성되면, 상기 진단 시스템(100)은 다시 재학습을 수행하여 보다 높은 성능을 가지도록 개선될 수 있다.

본 발명의 실시 예에 따른 세미 슈퍼바이즈드 학습을 이용한 진단 시스템 제공방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 광 데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

본 발명은 도면에 도시된 일 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

본 발명은"세미 슈퍼바이즈드 학습을 이용한 진단 시스템 제공방법 및 이를 이용하는 진단 시스템"에 이용될 수 있다.

Claims

지도학습기반의 뉴럴 네트워크를 통해 학습된 진단 시스템이 소정의 입력 데이터를 입력 받고, 상기 입력 데이터에 대한 진단 결과를 출력하는 단계;

상기 진단 시스템이 상기 진단 결과로 어노테이션된 상기 입력 데이터를 포함하는 자동 어노테이션 학습 데이터를 생성하는 단계; 및

상기 진단 시스템이 생성된 상기 자동 어노테이션 학습 데이터를 이용하여 재학습 프로세스를 수행하는 단계를 포함하는 세미 슈퍼바이즈드 학습을 이용한 진단 시스템 제공방법.
제1항에 있어서, 상기 진단 시스템이 상기 진단 결과로 어노테이션된 상기 입력 데이터를 포함하는 자동 어노테이션 학습 데이터를 생성하는 단계는,

상기 진단 결과에 기초가 되며 진단결과의 확률을 나타내는 수치 값이 소정의 문턱 값 이상일 경우 상기 입력 데이터를 상기 자동 어노테이션 학습 데이터에 포함시키는 것을 특징으로 하는 세미 슈퍼바이즈드 학습을 이용한 진단 시스템 제공방법.
제2항에 있어서, 상기 세미 슈퍼바이즈드 학습을 이용한 진단 시스템 제공방법은,

상기 문턱 값을 변경하면서 상기 재학습 프로세스를 수행한 후의 상기 진단 시스템의 성능을 테스트하는 단계; 및

테스트 결과에 기초하여 기준 문턱 값을 결정하는 단계를 더 포함하는 세미 슈퍼바이즈드 학습을 이용한 진단 시스템 제공방법.
제1항에 있어서, 상기 세미 슈퍼바이즈드 학습을 이용한 진단 시스템 제공방법은,

상기 진단 시스템이 상기 기준 문턱 값을 이용하여 상기 자동 어노테이션 학습 데이터를 생성하고, 생성된 상기 자동 어노테이션 학습 데이터를 이용하여 상기 재학습 프로세스를 수행하는 것을 특징으로 하며,

상기 재학습 프로세스를 수행한 후, 상기 기준 문턱 값을 변경하는 단계를 더 포함하는 세미 슈퍼바이즈드 학습을 이용한 진단 시스템 제공방법.
제1항에 있어서, 상기 학습 시스템은,

입력 데이터에 대해 제1판단 및 제2판단을 포함하는 복수의 진단들 중 어느 하나를 진단 결과로 출력하고,

상기 자동 어노테이션 학습 데이터는,

상기 제1진단으로 어노테이션된 입력 데이터가 미리 정해진 개수 이상 포함하고,

상기 제2진단으로 어노테이션된 입력 데이터가 미리 정해진 개수 이상 포함하는 것을 특징으로 하는 세미 슈퍼바이즈드 학습을 이용한 진단 시스템 제공방법.
제1항에 있어서, 상기 입력 데이터는,

생체 데이터이고,

상기 진단 결과는 질병의 발현여부 또는 질병의 진행상태에 따른 분류 중 적어도 하나인 것을 특징으로 하는 세미 슈퍼바이즈드 학습을 이용한 진단 시스템 제공방법.
데이터 처리장치에 설치되며 제1항 내지 제6항 중 어느 한 항에 기재된 방법을 수행하기 위한 컴퓨터 판독가능한 기록매체에 저장된 컴퓨터 프로그램.
프로세서; 및

프로그램이 저장된 저장장치를 포함하며,

상기 프로세서에 의해 실행되는 상기 프로그램에 의해 상기 제1항 내지 제6항 중 어느 한 항에 기재된 방법이 수행되는 데이터 처리 시스템.
프로세서;

상기 프로세서에 의해 실행되는 프로그램이 저장된 저장장치를 포함하며,

상기 프로그램은,

상기 저장장치에 저장되며 지도학습기반으로 학습된 뉴럴 네트워크가 소정의 입력 데이터를 입력 받고, 상기 입력 데이터에 대한 진단 결과를 출력하도록 하며,

출력된 상기 진단 결과로 어노테이션된 상기 입력 데이터를 포함하는 자동 어노테이션 학습 데이터 생성하고, 생성한 자동 어노테이션 학습 데이터를 이용하여 상기 뉴럴 네트워크의 재학습을 수행하는 진단 시스템.
제9항에 있어서, 상기 프로그램은,

상기 진단 결과에 기초가 되며 진단결과의 확률을 나타내는 수치 값이 소정의 문턱 값 이상일 경우 상기 입력 데이터를 상기 자동 어노테이션 학습 데이터에 포함시키며,

상기 문턱 값을 변경하면서 상기 재학습을 수행한 후의 상기 뉴럴 네트워크의 성능을 테스트하고, 테스트 결과에 기초하여 기준 문턱 값을 결정하는 진단 시스템.
제10항에 있어서, 상기 프로그램은,

상기 기준 문턱 값을 이용하여 상기 자동 어노테이션 학습 데이터를 생성하고, 생성된 상기 자동 어노테이션 학습 데이터를 이용하여 상기 재학습 프로세스를 수행하는 것을 특징으로 하며,

상기 재학습 프로세스를 수행한 후, 상기 기준 문턱 값을 변경하는 진단 시스템.
제9항에 있어서, 상기 프로그램은,

입력 데이터에 대해 제1판단 및 제2판단을 포함하는 복수의 진단들 중 어느 하나를 진단 결과로 출력하고,

상기 자동 어노테이션 학습 데이터는,

상기 제1진단으로 어노테이션된 입력 데이터가 미리 정해진 개수 이상 포함하고, 상기 제2진단으로 어노테이션된 입력 데이터가 미리 정해진 개수 이상 포함하는 것을 특징으로 하는 진단 시스템.