KR102177568B1

KR102177568B1 - 레이블 있는 데이터 및 레이블 없는 데이터를 병용하는 준지도 강화 학습 방법 및 이를 이용한 장치

Info

Publication number: KR102177568B1
Application number: KR1020180040972A
Authority: KR
Inventors: 박세진
Original assignee: 주식회사 뷰노
Priority date: 2018-04-09
Filing date: 2018-04-09
Publication date: 2020-11-11
Also published as: KR20190117969A

Abstract

본 발명은 레이블 있는 데이터 및 레이블 없는 데이터를 병용하는 준지도 강화 학습을 수행하는 방법 및 이를 이용한 장치에 관한 것이다. 구체적으로, 본 발명에 따른 방법에 의하면, 컴퓨팅 장치가, 상기 레이블 있는 데이터 및 상기 레이블 없는 데이터를 획득하면, 상기 레이블 있는 데이터를 이용하여 기준 뉴럴 네트워크(baseline neural network)를 즉시 보상 표시자로서 훈련시키고, 상기 레이블 없는 데이터들의 부분집합을 탐색하기 위한 정책 뉴럴 네트워크(policy neural network)를 훈련시키는데, 상기 부분집합은 상기 즉시 보상 표시자의 추가 훈련에 있어서 상기 즉시 보상 표시자의 검증 정확도(validation accuracy)가 높아지도록 탐색되며, 그 후, 상기 컴퓨팅 장치는, 상기 부분집합 및 상기 정책 뉴럴 네트워크에 의하여 상기 부분집합에 부여된 레이블을 이용하여 상기 즉시 보상 표시자를 추가로 훈련시킨다.

Description

레이블 있는 데이터 및 레이블 없는 데이터를 병용하는 준지도 강화 학습 방법 및 이를 이용한 장치{METHOD FOR SEMI SUPERVISED REINFORCEMENT LEARNING USING DATA WITH LABEL AND DATA WITHOUT LABEL TOGETHER AND APPARATUS USING THE SAME}

지난 수년간 제안되었던 다양한 기계학습 기반 CADe 시스템 사이에서 차이가 있는 부분은 훈련용 데이터의 품질이다. 특히 흉부 X선으로부터의 폐결절 검출의 경우에 있어서는 대량의 데이터 집합에 대하여 결절들을 정확하게 레이블링하는 것은 많은 시간이 걸리고 비용도 많이 드는 문제가 있다. 임상 현장에서 수집되는 의료 영상 데이터는 대부분 PACS 시스템에 연계되어 저장되어 있는 의료 영상과 판독문 데이터의 집합을 자연어 처리, 데이터마이닝 등을 통한 처리 과정을 거쳐 의료진의 최종 판단으로 확정된다. 이 과정에서 데이터나 레이블의 왜곡, 손실 등이 발생하며 특히 대량의 영상 데이터에 비하여 정확한 레이블의 수는 매우 적다. 따라서, 현재 다수의 구현물은 소수의 정확한 데이터와 다수의 부정확한 레이블을 가지는 데이터를 병용하여 알고리즘을 훈련하는 준지도학습의 형태를 취하고 있다.

그러나 이들 중 다수는 실제 임상적으로 검증된 데이터를 이용한 평가 및 샘플링 방법에 있어서 임기응변적이며 불분명하고 임의적이라는 문제가 있는데, 본 발명은 준지도 샘플링과 폐결절 검출의 성능 사이의 액션 관계(action relation)을 정의하는 강화 학습을 이용하여 그 문제를 해결하고자 한다. 본 발명에 의하여 정련된 알고리즘 방법은 임상적으로 검증된 데이터 집합에 대한 평가에서 위양성률(false positive rates)의 극적인 감소를 보여주었다. 요컨대, 본 발명에 의하여 강화 학습을 이용하여 임상 환경에 풍부한 레이블링되지 않은 데이터를 활용하는 신규한 접근법이 제시된다.

기계학습의 의료 영상에 대한 응용은 양질의 레이블 있는 데이터를 방대한 양으로 얻어야 하는 고전적 문제를 겪고 있다. 레이블들은 대부분의 경우 이미지 파일과 함께 PACS 시스템에 저장된 정보에 기반한 분류 또는 자연어 처리 프로세싱을 통하여 생성되므로, 그 무결성(integrity)에는 본질적인 한계가 있다. 비록 이것이 간단해 보이더라도 PACS 시스템에 저장된 진단서(medical report)의 내용은 방사선학적 소견과 동일하지 않을 수도 있다. 예를 들어, 환자가 진단서에서는 폐암이라는 최종 진단을 받았더라도 PACS 시스템에는 폐결절이나 경화가 보이지 않는 오래된 X선 사진만이 기록되어 있을 수 있다. 게다가 다수의 소견들을 포함하는 영상들에 대해서는 대표적이거나 현저한 소견만이 진단서에 포함되고 그렇지 않는 것들은 제외될 수도 있다. 그러한 실무가 효율적인 임상 워크플로를 위해서는 더 좋을 수는 있어도 그러한 진단서에 의하여 생성된 레이블들은 알고리즘의 최적 성능을 저해하는 문제가 있다.

CT에 의하여 검증된 레이블이 있는 다량의 X선 데이터를 얻는 것이 현실적으로 불가능한 제한된 환경에서는 레이블이 없거나 검증되지 않은 다량의 X선 데이터를 활용하는 준지도학습이 논리적인 접근법이다. 대부분의 현존하는 준지도학습 방법은 사용자 또는 스승 모델(teacher model)이 가이드/힌트에 기반하여 데이터를 생성하도록 질의(query)를 던지는 능동 학습 스타일로 구현되어 있는데, 그후 그 데이터는 모델의 재학습(retraining)에 이용된다.

능동 학습에서는 훈련 프로세스 중에 레이블 있는 집합과 나란히 레이블 없는 집합의 부분집합이 포함된다. 레이블 없는 집합으로부터 서브샘플링하기 위하여 이용되는 잘 알려진 방법은 다음과 같다.

A. 불확정적 샘플링(uncertainty sampling): 높은 불확정성을 가진 데이터의 생략

B. 위원회(committee)에 의한 질의: 다수의 미리 훈련된 지도학습 모델들의 투표를 통한 샘플링

C. 예상되는 모델 변화: 현재 모델을 극적으로 변화시키는 데이터 포인트들의 선택

D. 균형 탐사 및 이용(balance exploration and exploitation): 데이터 포인트들의 탐사 및 선택의 밴딧 문제(contextual bandit problem)를 풂

다수의 경우에 이들 종래 방법들이 효과적인 것으로 판명되더라도 여전히 개선의 여지는 크다. 앞서 열거된 모든 경우에서 샘플링 프로세스와 성능의 검증 프로세스는 서로 독립적이므로, 샘플링 프로세스에 직접적인 피드백이 주어지지 않는다. 샘플링 방법의 선택이 성능에 있어서 극적인 변화를 가져다 줄 수 있으므로, 직접적 피드백이 주어지지 않는다는 것은 실험을 복잡하게 한다. 더욱이 그러한 방법들은 이미지 세트들이 큰 경우에는 그 적용에 있어 자동화가 되어 있지 않아 사람이 훈련의 전략을 세워 여러 시도를 하여야 하므로 시간이 많이 들어 하나의 한계사항으로 작용하는 단점이 있다.

그와 같은 종래 샘플링 방법들의 한계를 극복하는 한 가지 방안은 샘플링 프로세스에 강화 학습(reinforcement learning; RL)을 도입하는 것이다. 강화 학습이란 에이전트(agent)가 현재 상태를 인식하고 보상을 최대화하는 액션(action) 또는 액션들의 시퀀스(sequence of actions)를 선택하게 하는 기계 학습의 방법론이다. 본 발명자는 준지도학습에 강화 학습을 결합한 방법론을 이미지에 적용함으로써 레이블 없는 데이터를 유용하게 활용하여 성능의 개선을 도모하는 방안을 제안하고자 한다.

Sutton, Richard S., et al. "Policy gradient methods for reinforcement learning with function approximation." Advances in neural information processing systems. 2000. Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning." Nature 518.7540 (2015): 529.

본 발명은 의료 기관 등에서 의료진, 예컨대, 의사 또는 그로부터 권한을 위임받은 간호사, 연구원 등이 판독하여 레이블을 추가한 의료 이미지 데이터를 이용하여 레이블이 부착되지 않은 의료 이미지 데이터에 대하여도 정확하고 다양한 레이블을 부착함으로써 기계 학습을 위한 대량의 레이블이 있는 데이터를 생성할 수 있게 함으로써 기계 학습에 의한 진단 보조의 정확도 및 효율을 증진할 수 있게 하는 것을 목적으로 한다.

구체적으로, 본 발명은 기계 학습을 위한 이미지 데이터를 자동으로 분류함으로써, 사람이 미처 보지 못하거나 판별이 어려운 사례에 대한 기계 학습 기반의 진단 보조를 통하여 판독 오류를 감소시키는 등, 의료진의 진단 품질 및 속도를 향상시키는 데 조력하는 것을 목적으로 한다.

상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 효과를 실현하기 위한 본 발명의 특징적인 구성은 하기와 같다.

본 발명의 일 태양(aspect)에 따르면, 레이블 있는 데이터 및 레이블 없는 데이터를 병용하는 준지도 강화 학습 방법이 제공되는바, 그 방법은, (a) 컴퓨팅 장치가, 상기 레이블 있는 데이터 및 상기 레이블 없는 데이터를 획득하는 단계; (b) 컴퓨팅 장치가, 상기 레이블 있는 데이터를 이용하여 기준 뉴럴 네트워크(baseline neural network)를 즉시 보상 표시자로서 훈련시키는 단계; (c) 상기 컴퓨팅 장치가, 상기 레이블 없는 데이터들의 부분집합을 탐색하기 위한 정책 뉴럴 네트워크(policy neural network)를 훈련시키는 단계로서, 상기 부분집합은 상기 즉시 보상 표시자의 추가 훈련에 있어서 상기 즉시 보상 표시자의 검증 정확도(validation accuracy)가 높아지도록 탐색되는, 단계; 및 (d) 상기 컴퓨팅 장치가, 상기 부분집합 및 상기 정책 뉴럴 네트워크에 의하여 상기 부분집합에 부여된 레이블을 이용하여 상기 즉시 보상 표시자를 추가로 훈련시키는 단계를 포함하며, 상기 컴퓨팅 장치는, (d) 단계 후에, 상기 (c) 단계 및 상기 (d) 단계를 적어도 1회 반복한다.

본 발명의 다른 태양에 따르면, 본 발명에 따른 방법을 수행하도록 구현된 명령어(instructions)를 포함하는, 기계 판독 가능한 비일시적 기록 매체에 저장된, 컴퓨터 프로그램도 제공된다.

본 발명의 또 다른 태양에 따르면, 레이블 있는 데이터 및 레이블 없는 데이터를 병용하는 준지도 강화 학습을 수행하는 장치가 제공되는바, 그 장치는, 레이블 있는 데이터 및 레이블 없는 데이터를 획득하는 통신부; (i) 상기 레이블 있는 데이터를 이용하여 기준 뉴럴 네트워크(baseline neural network)를 즉시 보상 표시자로서 훈련시키는 프로세스; (ii) 상기 레이블 없는 데이터들의 부분집합을 탐색하기 위한 정책 뉴럴 네트워크(policy neural network)를 훈련시키는 프로세스로서, 상기 부분집합은 상기 즉시 보상 표시자의 추가 훈련에 있어서 상기 즉시 보상 표시자의 검증 정확도(validation accuracy)가 높아지도록 탐색되는, 프로세스; 및 (iii) 상기 부분집합 및 상기 정책 뉴럴 네트워크에 의하여 상기 부분집합에 부여된 레이블을 이용하여 상기 즉시 보상 표시자를 추가로 훈련시키는 프로세스를 수행하는 프로세서를 포함하고, 상기 프로세서는, 상기 (iii) 프로세스의 수행 후에, 상기 (ii) 프로세스 및 상기 (iii) 프로세스를 적어도 1회 반복한다.

본 발명에 의하면, 레이블이 부착된 의료 이미지 데이터를 이용하여 레이블이 부착되지 않은 의료 이미지 데이터에 대하여도 정확하고 다양한 레이블을 부착할 수 있게 되는 효과가 있다. 이로써 기계 학습에 의한 진단 보조의 정확도 및 효율을 손쉽게 증진할 수 있게 될 수 있다.

따라서 본 발명에 의하면 기계 학습을 위한 이미지 데이터가 자동으로 레이블링됨으로써, 사람이 미처 보지 못하거나 판별이 어려운 사례에 대한 기계 학습 기반의 진단 보조를 통하여 판독 오류가 감소되어 의료진의 진단 품질 및 속도를 향상시키는 데 조력할 수 있는 효과가 있다.

결과적으로 본 발명에 따르면, 타 의료진에 의한 결과물을 이용할 수 있게 되어 오랜 경험을 보유한 의료진과 비슷한 수준의 진단 능력을 확보할 수 있어 오진 발생 가능성을 낮출 수 있는 효과가 있다.

본 발명은, 다양한 형식(modality)의 영상들에 적용될 수 있으며, 특히 종래에 병원에서 이용하고 있는 X-선 영상은 물론, 초음파 영상, CT 영상, MRI 영상 등의 시스템에도 그대로 활용될 수 있는바, 본 발명의 방법이 특정 형식의 영상이나 플랫폼에 종속되지 않음은 물론이다.

본 발명의 실시 예의 설명에 이용되기 위하여 첨부된 아래 도면들은 본 발명의 실시 예들 중 단지 일부일 뿐이며, 본 발명이 속한 기술분야에서 통상의 지식을 가진 사람(이하 "통상의 기술자"라 함)에게 있어서는 발명적 작업이 이루어짐 없이 이 도면들에 기초하여 다른 도면들이 얻어질 수 있다.
도 1은 본 발명에 따라 레이블 있는 데이터 및 레이블 없는 데이터를 병용하는 준지도 강화 학습 방법(이하 "준지도 강화 학습 방법"이라 함)에서 이용되는 강화 학습 방법을 개념적으로 나타낸 도면이다.
도 2는 본 발명에 따른 준지도 강화 학습 방법을 수행하는 컴퓨팅 장치의 예시적 구성을 개략적으로 도시한 개념도이다.
도 3은 본 발명에 따른 준지도 강화 학습 방법을 수행하는 컴퓨팅 장치의 하드웨어 또는 소프트웨어 구성요소를 도시한 예시적 블록도이다.
도 4는 본 발명에 따른 준지도 강화 학습 방법을 예시적으로 나타낸 흐름도이다.
도 5는 본 발명에 따른 준지도 강화 학습 방법에서 이용되는 기준 뉴럴 네트워크의 일 예시를 도시한 개념도이다.
도 6은 본 발명의 준지도 강화 학습 방법에서 정책 뉴럴 네트워크가 훈련되는 과정을 예시한 도면이다.
도 7a 및 도 7b는 본 발명에 따른 준지도 강화 학습의 성능을 예시하기 위하여 그 결과를 나타낸 도면이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명의 목적들, 기술적 해법들 및 장점들을 분명하게 하기 위하여 본 발명이 실시될 수 있는 특정 실시 예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시 예는 통상의 기술자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다.

본 발명의 상세한 설명 및 청구항들에 걸쳐 이용된 "영상" 또는 "영상 데이터"라는 용어는 이산적 영상 요소들(예컨대, 2차원 영상에 있어서는 픽셀)로 구성된 다차원 데이터를 지칭하며, 달리 말하자면, (예컨대, 비디오 화면에 표시된) 눈으로 볼 수 있는 대상 또는 (예컨대, CT, MRI 검출기 등의 픽셀 출력에 대응되는 파일과 같은) 그 대상의 디지털 표현물을 지칭하는 용어이다.

예를 들어 "이미지" 또는 "영상"은 전산화 단층 촬영(CT; computed tomography), 자기 공명 영상(MRI; magnetic resonance imaging), 초음파 또는 본 발명의 기술분야에서 공지된 임의의 다른 의료 영상 시스템의 의하여 수집된 피검체(subject)의 의료 영상일 수 있다. 영상이 반드시 의료적 맥락에서 제공되어야 하는 것은 아니고 비의료적 맥락에서 제공될 수도 있는바, 예를 들어 보안 검색용 X선 촬영 등이 있을 수 있다.

설명의 편의를 위하여 제시된 도면에서는 X선 영상 데이터가 예시적 영상 형식(modality)인 것으로 도시되었다. 그러나 통상의 기술자는 본 발명의 다양한 실시 예에서 이용되는 영상 형식들이 MRI, CT, PET(positron emission tomography), PET-CT, SPECT, SPECT-CT, MR-PET, 3D 초음파 영상 등등을 포함하나 예시적으로 열거된 형식에 한정되지 않는다는 점을 이해할 수 있을 것이다.

본 발명의 상세한 설명 및 청구항들에 걸쳐 'DICOM(Digital Imaging and Communications in Medicine; 의료용 디지털 영상 및 통신)' 표준은 의료용 기기에서 디지털 영상 표현과 통신에 이용되는 여러 가지 표준을 총칭하는 용어인바, DICOM 표준은 미국 방사선 의학회(ACR)와 미국 전기 공업회(NEMA)에서 구성한 연합 위원회에서 발표한다.

또한, 본 발명의 상세한 설명 및 청구항들에 걸쳐 '의료영상 저장 전송 시스템(PACS; Picture Archiving and Communication System)'은 DICOM 표준에 맞게 저장, 가공, 전송하는 시스템을 지칭하는 용어이며, X선, CT, MRI와 같은 디지털 의료영상 장비를 이용하여 획득된 의료영상 이미지는 DICOM 형식으로 저장되고 네트워크를 통하여 병원 내외의 단말로 전송이 가능하며, 이에는 판독 결과 및 진료 기록이 추가될 수 있다.

그리고 본 발명의 상세한 설명 및 청구항들에 걸쳐 '학습' 혹은 '러닝'은 절차에 따른 컴퓨팅(computing)을 통하여 기계 학습(machine learning)을 수행함을 일컫는 용어인바, 인간의 교육 활동과 같은 정신적 작용을 지칭하도록 의도된 것이 아니며, 훈련(training)은 기계 학습에 관하여 일반적으로 받아들여지는 의미로 쓰인 것이다.

본 명세서에서 언급되는 '준지도학습'은 레이블이 있는 데이터를 이용하여 레이블이 없는 데이터를 학습하는 것을 지칭한다. 반면, '능동학습(active learning)'은 레이블 없는 데이터에 관하여 교사(teacher, 예컨대 사용자)에게 질의함으로써 학습하는 것을 의미한다. 본 발명에서 이용되는 '강화 학습(reinforcement learning)'은 에이전트(agent)로 하여금 예상되는 보상(expected reward)'를 최대화하는 액션을 선택하도록 학습시키는 것을 의미한다.

그리고 본 발명의 상세한 설명 및 청구항들에 걸쳐, '포함하다'라는 단어 및 그 변형은 다른 기술적 특징들, 부가물들, 구성요소들 또는 단계들을 제외하는 것으로 의도된 것이 아니다. 또한, '하나' 또는 '한'은 하나 이상의 의미로 쓰인 것이며, '또 다른'은 적어도 두 번째 이상으로 한정된다.

통상의 기술자에게 본 발명의 다른 목적들, 장점들 및 특성들이 일부는 본 설명서로부터, 그리고 일부는 본 발명의 실시로부터 드러날 것이다. 아래의 예시 및 도면은 실례로서 제공되며, 본 발명을 한정하는 것으로 의도된 것이 아니다. 따라서, 특정 구조나 기능에 관하여 본 명세서에 개시된 상세 사항들은 한정하는 의미로 해석되어서는 아니되고, 단지 통상의 기술자가 실질적으로 적합한 임의의 상세 구조들로써 본 발명을 다양하게 실시하도록 지침을 제공하는 대표적인 기초 자료로 해석되어야 할 것이다.

더욱이 본 발명은 본 명세서에 표시된 실시 예들의 모든 가능한 조합들을 망라한다. 본 발명의 다양한 실시 예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시 예에 관련하여 본 발명의 사상 및 범위를 벗어나지 않으면서 다른 실시 예로 구현될 수 있다. 또한, 각각의 개시된 실시 예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 사상 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

본 명세서에서 달리 표시되거나 분명히 문맥에 모순되지 않는 한, 단수로 지칭된 항목은, 그 문맥에서 달리 요구되지 않는 한, 복수의 것을 아우른다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

이하, 통상의 기술자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시 예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

도 1은 본 발명에 따라 레이블 있는 데이터 및 레이블 없는 데이터를 병용하는 준지도 강화 학습 방법(이하 "준지도 강화 학습 방법"이라 함)에서 이용되는 강화 학습 방법의 개념을 개략적으로 나타낸 도면이다.

도면을 참조하여 강화 학습 방법을 개괄하면, 도 1에 환경(혹은 환경 상태; S), 액션(A)(및 이를 도출하기 위한 정책), 관측(O)과 보상(R)의 관계가 개념적으로 나타나 있다. 먼저, 강화 학습(reinforcement learning)에서 마르코프 결정 프로세스는 튜플 <S, A, P, R, γ>로 기술된다. S는 유한 개의 상태들을 포함하는 유한 집합이고, A는 유한 개의 액션들을 포함하는 유한 집합이다. P는 수학식 1의 상태 전이 확률 행렬로 표현될 수 있으며, R은 수학식 2에 나타난 보상 함수이다.

정책(policy) π는 상태가 주어졌을 때 액션들에 대한 분배(distribution over actions)를 의미하는바, 수학식 3과 같다.

이제 디스카운트된 총 보상(total discounted reward)을 산출할 수 있는데, 이는 예컨대 당장 배를 채우는 것이 내일 배고픈 것을 채우는 것보다 중요하다고 생각할 수 있는 것처럼, 먼 미래에 예정된 보상의 가치를 낮추어 총 보상을 수렴하게 하기 위한 개념이다. 디스카운트된 인수(discount factor)는 수학식 4와 같다.

그리고 결과값 G_t으로서 시간 스텝(time-step) t에서의 디스카운트된 총 보상은 수학식 5와 같다.

상태 값 함수 v(s)는 상태 s에서 시작하여 예상되는 결과값을 나타내는바, 수학식 6과 같다.

한편, 액션 값 함수 q_π(s, a)는 상태 s에서 시작하여 액션 a를 취한 후 정책 π를 따를 때에 예상되는 결과값을 나타내는바, 수학식 7과 같다.

이제 S_t, S_t+1, A_t, V 및 Q의 관계를 기술하는 벨만(Bellman) 방정식을 다음과 같이 나타낼 수 있다.

v_π(s)에서 π는 정책,

는 즉시 보상(immediate reward)이고,

는 전이 확률(transition probability), v_π(s')는 값 함수를 의미한다.

여기에서 정책을 최적화하기 위한 식이 벨만 최적화 방정식(Bellman Optimal Equation)인바, 수학식 9와 같다.

이제 강화 학습의 목표는 예상되는 보상을 최대화하는 정책을 찾는 것인바, 결국 아래 수학식 10을 푸는 것으로 귀결될 수 있다.

이제 도 2 내지 도 6을 참조하여 본 발명에 따른 준지도 강화 학습 방법을 설명한다.

도 2는 본 발명에 따른 준지도 강화 학습 방법을 수행하는 컴퓨팅 장치의 예시적 구성을 개략적으로 도시한 개념도이다.

도 2를 참조하면, 본 발명의 일 실시 예에 따른 컴퓨팅 장치(200)는, 통신부(210) 및 프로세서(220)를 포함하며, 상기 통신부(210)를 통하여 외부 컴퓨팅 장치(미도시)와 직간접적으로 통신할 수 있다.

구체적으로, 상기 컴퓨팅 장치(200)는, 전형적인 컴퓨터 하드웨어(예컨대, 컴퓨터 프로세서, 메모리, 스토리지, 입력 장치 및 출력 장치, 기타 기존의 컴퓨팅 장치의 구성요소들을 포함할 수 있는 장치; 라우터, 스위치 등과 같은 전자 통신 장치; 네트워크 부착 스토리지(NAS; network-attached storage) 및 스토리지 영역 네트워크(SAN; storage area network)와 같은 전자 정보 스토리지 시스템)와 컴퓨터 소프트웨어(즉, 컴퓨팅 장치로 하여금 특정의 방식으로 기능하게 하는 명령어들)의 조합을 이용하여 원하는 시스템 성능을 달성하는 것일 수 있다.

이와 같은 컴퓨팅 장치의 통신부(210)는 연동되는 타 컴퓨팅 장치와 요청과 응답을 송수신할 수 있는바, 일 예시로서 그러한 요청과 응답은 동일한 TCP(transmission control protocol) 세션(session)에 의하여 이루어질 수 있지만, 이에 한정되지는 않는바, 예컨대 UDP(user datagram protocol) 데이터그램(datagram)으로서 송수신될 수도 있을 것이다. 덧붙여, 넓은 의미에서 상기 통신부(210)는 명령어 또는 지시 등을 전달받기 위한 키보드, 마우스, 기타 외부 입력장치, 프린터, 디스플레이, 기타 외부 출력장치를 포함할 수 있다.

또한, 컴퓨팅 장치의 프로세서(220)는 MPU(micro processing unit), CPU(central processing unit), GPU(graphics processing unit), NPU(neural processing unit) 또는 TPU(tensor processing unit), 캐시 메모리(cache memory), 데이터 버스(data bus) 등의 하드웨어 구성을 포함할 수 있다. 또한, 운영체제, 특정 목적을 수행하는 애플리케이션의 소프트웨어 구성을 더 포함할 수도 있다.

도 3은 본 발명에 따른 준지도 강화 학습 방법을 수행하는 컴퓨팅 장치의 하드웨어 또는 소프트웨어 구성요소를 도시한 예시적 블록도이다.

도 3을 참조하여 본 발명에 따른 방법 및 장치의 구성을 간략히 개관하면, 컴퓨팅 장치(200)는 그 구성요소로서 데이터 획득 모듈(310)을 포함할 수 있다. 이 데이터 획득 모듈(310)은 본 발명에 따른 방법이 적용되는 레이블이 있거나 없는 영상 데이터를 획득하도록 구성되는바, 도 3에 도시된 개별 모듈들은, 예컨대, 컴퓨팅 장치(200)에 포함된 통신부(210)나 프로세서(220), 또는 상기 통신부(210) 및 프로세서(220)의 연동에 의하여 구현될 수 있음은 통상의 기술자가 이해할 수 있을 것이다.

영상 데이터는, 예를 들어, 통신부(210)를 통하여 연동되는 촬영 기기 또는 의료영상 저장 전송 시스템(PACS)과 같은 외부 영상 저장 시스템으로부터 획득되는 것일 수 있으나 이에 한정되지는 않는다. 예를 들어, 영상 데이터는 (의료) 영상 촬영 기기에 의하여 촬영된 영상이 DICOM 표준에 따라 PACS에 전송된 후 컴퓨팅 장치(200)의 데이터 획득 모듈(310)에 의하여 획득된 것일 수 있다.

다음으로, 그 획득된 레이블 있는 데이터는 즉시 보상 표시자 훈련 모듈(immediate reward indicator training module; 320)에 전달될 수 있는데, 즉시 보상 표시자 훈련 모듈(220)은 레이블 있는 데이터를 이용하여 기준 뉴럴 네트워크를 즉시 보상 표시자로서 훈련시키도록 구성된다. 이를 위하여 즉시 보상 표시자 훈련 모듈은 심층 신경망 모델을 포함하는 영상 판독 모델을 이용할 수 있는데, 이에 관하여는 후술하기로 한다.

기준 뉴럴 네트워크가 훈련되면, 정책 뉴럴 네트워크 훈련 모듈(330)은 즉시 보상자의 검증 정확도가 높아지도록 레이블 없는 데이터들의 부분집합을 탐색하는 정책 뉴럴 네트워크를 훈련시키도록 구성된다.

그러면, 그 부분집합 및 정책 뉴럴 네트워크에 의하여 그 부분집합에 부여된 레이블을 수신한 즉시 보상 표시자 훈련 모듈(220)은 수신된 부분집합 및 부여된 레이블을 이용하여 즉시 보상 표시자를 추가로 훈련한다.

한편, 추가로 훈련하는 방식에는 크게 두 가지 방법이 있을 수 있는데, 그 중 한 가지는, 레이블 있는 데이터와 레이블 없는 데이터의 부분집합을 함께 이용하여 훈련하는 방식이며, 다른 한 가지 방식은, 증분적 학습(incremental learning)과 같은 방식으로, 레이블 있는 데이터로 훈련된 뉴럴 네트워크와 레이블 없는 데이터의 부분집합으로 훈련된 뉴럴 네트워크를 분리해 놓고, 그 결과를 병합하여 훈련시키는 방법이다.

정책 뉴럴 네트워크의 훈련과 즉시 보상 표시자의 훈련은 여러 번 반복될 수 있으며, 정책 뉴럴 네트워크가 충분히, 즉, 아래에서 설명되는 소정의 조건을 만족할 때까지 훈련되면, 데이터 출력 모듈(340)은 그 훈련된 정책 뉴럴 네트워크에 의하여 탐색된 부분집합 및 이에 부여된 레이블을 결과 데이터로서 데이터 출력 모듈(340)에 전달될 수 있고, 데이터 출력 모듈(340)은 소정의 출력 장치, 예컨대 디스플레이에 표시된 사용자 인터페이스를 통하여 상기 결과 데이터를 외부 엔티티(entity)에 제공하도록 구성된다.

여기에서 외부 엔티티라고 함은, 상기 컴퓨팅 장치(200)의 사용자, 관리자, 상기 피검체를 담당하는 담당 의료 전문가 등을 포함하나, 이 이외에도 상기 뼈 스캔 영상, 이로부터 도출된 암 전이 의심 영역 각각에 관한 영상 정보, 및 기타 속성의 정보(등급, 신체 내 위치 등등)를 필요로 하는 주체라면 어느 주체라도 포함되는 것으로 이해되어야 할 것이다.

도 3를 참조하여 개략적으로 설명된 각각의 구성요소들의 구체적인 기능 및 효과에 관하여는 도 4 내지 도 6을 참조하여 상세히 후술하기로 한다. 도 3에 나타난 구성요소들은 설명의 편의상 하나의 컴퓨팅 장치에서 실현되는 것으로 예시되었으나, 본 발명의 방법을 수행하는 컴퓨팅 장치(200)는 복수개의 장치들이 서로 연동되도록 구성될 수도 있다는 점이 이해될 것이다.

도 4는 본 발명에 따른 준지도 강화 학습 방법을 예시적으로 나타낸 흐름도이다.

도 4를 참조하면, 본 발명에 따른 준지도 강화 학습 방법은, 우선, 컴퓨팅 장치(200)에 의하여 구현되는 데이터 획득 모듈(310)이, 상기 레이블 있는 데이터 및 상기 레이블 없는 데이터를 획득하는 단계(S100)를 포함한다. 이와 같은 데이터는 도 5에 예시적으로 도시된 바와 같은 X선 영상의 데이터일 수 있다. 다만, 본 발명이 예시(illustration)적으로 첨부된 영상의 형식(modality)에 한정되지 않고 일반적으로 다양한 영상 형식에 대하여 적용될 수 있다는 점이 이해될 것이다.

다음으로, 본 발명에 따른 준지도 강화 학습 방법은, 컴퓨팅 장치(200)에 의하여 구현되는 즉시 보상 표시자 훈련 모듈(320)이, 획득된 레이블 있는 데이터를 이용하여 기준 뉴럴 네트워크를 즉시 보상 표시자로서 훈련시키는 단계(S200)를 더 포함한다.

이와 같은 즉시 보상 표시자 훈련 모듈(320)에 이용되는 기준 뉴럴 네트워크는 딥 뉴럴 네트워크(deep neural network)로서, 인공 신경망을 다층으로 쌓은 형태로 간략하게 설명할 수 있다.

도 5는 본 발명에 따른 준지도 강화 학습 방법에서 이용되는 기준 뉴럴 네트워크의 일 예시를 도시한 개념도이다.

도 5를 참조하면, 딥 뉴럴 네트워크는 다층의 네트워크로 이루어진 구조에서 다량의 데이터를 학습시킴으로써 각각의 영상의 특징을 자동으로 학습하고, 이를 통해 목적 함수, 즉 분류 정확도의 에러(error)를 최소화시키는 방법으로 네트워크를 학습시켜 나아가는 형태이다. 이 같은 딥 러닝 모델 중 특히 CNN(convolutional neural network; 합성곱 신경망)은 이미지의 분류에 적합한 모델로서, 이미지의 각 영역을 복수의 필터를 이용하여 특징 지도(feature map)를 만들어내는 합성층(convolution layer)과 특징 지도의 크기를 줄여 위치나 회전의 변화에 불변하는 특징을 추출할 수 있도록 하는 풀링 층 혹은 서브 샘플링 층(pooling layer or sub-sampling layer)을 반복함으로써 점, 선, 면 등의 저수준의 특징에서부터 복잡하고 의미 있는 고수준의 특징까지 다양한 수준의 특징을 추출할 수 있게 된다.

본 발명의 일 실시예에서, 상기 기준 뉴럴 네트워크는 U-Net 또는 U-Net 유사 분할 네트워크를 포함할 수 있다. 여기에서 U-Net 유사 분할 네트워크라고 함은 소정의 특징에 해당되는 영역을 영상에서 분할(segmentation)하는 기능을 하는 뉴럴 네트워크를 지칭하는 용어인바, 기준 뉴럴 네트워크가 U-Net 또는 그 유사 분할 네트워크에 한정되지 않는다는 점이 통상의 기술자에게 이해될 것이다.

구체적으로, 영상의 분할에는 도 5에 예시된 바와 같은 U-Net이 이용될 수 있을 뿐만 아니라 FCN(Fully Convolutional Network) 등 다양한 형태의 분할용 신경망이 이용될 수 있다. 이로써 영상 데이터의 분류(classification)를 위한 특징을 포함하는 영역이 식별될 수 있다.

다음으로, 본 발명에 따른 준지도 강화 학습 방법은, 컴퓨팅 장치(200)에 의하여 구현되는 정책 뉴럴 네트워크 훈련 모듈(330)이, 상기 레이블 없는 데이터들의 부분집합을 탐색하기 위한 정책 뉴럴 네트워크(policy neural network)를 훈련시키는 단계(S300)를 더 포함한다. 여기에서 부분집합은 상기 즉시 보상 표시자의 추가 훈련을 위한 것인데, 이는 즉시 보상 표시자의 검증 정확도(validation accuracy)가 높아지도록 탐색될 수 있다.

정책 뉴럴 네트워크는 상기 레이블 없는 데이터를 2개 이상의 계급(class)으로 분류하는 분류기(classifier)이다. 이 정책 뉴럴 네트워크는 소정의 가중치 초기화 방식으로 초기화되며, 미리 정해진 에너지 함수를 이용하여 최적화될 수 있다. 예를 들어 소정의 가중치 초기화 방식은 He 초기화기(He Initializer)일 수 있다. 한편, 미리 정해진 에너지 함수는 아래 수학식 11과 같을 수 있다.

수학식 11에서

항은 stationary distribution을 의미하며, 수학식 12와 같이 정의된다.

개념적으로는 각 상태에 머무르는 비율 혹은 상태들의 디스카운트된 가중치라고 볼 수 있다. 샘플링된 x₃을 f_w에 재학습하여 얻어진 검증 정확도는 즉시 보상(immediate reward)으로 이용되고, 이것으로 현재 훈련 회차(episode)에서 수행된 액션 집합(정책 네트워크가 수행한 분류)이 가지는 이익(advantage)을 계산하는 과정이다. 수학식 12의

은 s_t에서 정책을 따르는 액션을 수행하였을 때의 확률 밀도 함수로서 훈련 회차 내의 모든 액션들에 대한 예상 보상(expected reward)는 이것의 기대값인 것으로 계산할 수 있다. 부연 설명하면, 수학식 12에서 디스카운트된 인수(discounted factor) 곱하기 즉시 보상을 모두 더한 값이 현재 상태에서의 stationary value가 된다는 의미인바, 예컨대, 이를 파이썬(Python) 언어로 코딩한 결과는 아래 표 1에 나타난 바와 같다. 한편, 표 2에 나타난 코드는 보상을 정규 분포로 스케일링(scaling)하기 위하여 이용되는 코드인바 응용적인 부분에 해당한다.

def discount_rewards(r, gamma=0.99):
discounted_r = np.zeros_like(r, dtype=np.float32)
running_add = 0
for t in reversed(range(len(r))):
running_add = running_add * gamma + r[t]
discounted_r[t] = running_add

return discounted_r

# get discounted rewards = advantage
discounted_rewards = discount_rewards(rewards, gamma)
# Normalization
Discounted_rewards = (discounted_rewards - discounted_rewards.mean()) / (discounted_rewards.std() + 1e-7)

요컨대, 정책 네트워크 π_θ는 미래 예상 보상(future expected reward), 즉, 검증 정확도(validation accuracy)를 최대화하는 방향으로 학습이 이루어져, 정상적으로 학습이 된다면, π_θ가 x₃에 대하여 수행하는 액션(분류, 예컨대 binary classification)은 항상 검증 정확도를 최대로 만들 수 있게 된다. 벨만 방정식에 의하여 π_θ를 갱신(update)하기 위한 이익 함수(advantage function)와 즉시 보상은 π_θ에 의해 분류된 x₃ 중 음성(비정상) 샘플들만 이용하여 지속 학습(continual learning)하여 얻은 검증 정확도로 구할 수 있다. 이와 같이 단계(S300)에서 예시적으로 이용된 뉴럴 네트워크의 아키텍처와 그 워크플로는 도 6에 도시된 바와 같다.다시 도 4를 참조하면, 본 발명에 따른 준지도 강화 학습 방법은, 컴퓨팅 장치(200)에 의하여 구현되는 정책 뉴럴 네트워크 훈련 모듈(330)이, 상기 부분집합 및 상기 정책 뉴럴 네트워크에 의하여 상기 부분집합에 부여된 레이블을 이용하여 상기 즉시 보상 표시자를 추가로 훈련시키는 단계(S400)를 더 포함한다. 단계(S400)의 1회 수행 이후에 컴퓨팅 장치(200)는 단계(S300) 및 단계(S400)를 적어도 1회 반복할 수 있는바, 이와 같은 반복은 소정의 훈련 종료 조건이 충족될 때까지 계속 이루어질 수 있다. 예컨대, 소정의 훈련 종료 조건은 상기 즉시 보상 표시자의 검증 정확도의 수준이 미리 정해진 문턱값보다 높아지는 조건일 수 있으나, 통상의 기술자는 알려진 훈련 종료 조건 등 다양한 훈련 종료 조건을 이용할 수 있을 것이다.

그런데, 즉시 보상도 훈련용 데이터를 이용하여 훈련함으로써 얻는 것이 더 안정적이라는 Actor-critic 모델에 따라 즉시 보상을 결과값으로 주는 비판 뉴럴 네트워크(critic neural network)를 학습하는 방안도 통상의 기술자는 상정할 수 있을 것이다.

훈련이 종료되면, 궁극적으로(ultimately), 본 발명에 따른 준지도 강화 학습 방법은, 컴퓨팅 장치(200)에 의하여 구현되는 데이터 출력 모듈(340)이, 상기 정책 뉴럴 네트워크에 의하여 상기 레이블 없는 데이터에 부여된 레이블을 포함하는 결과 데이터를 외부 엔티티에 제공하거나 제공하도록 지원하는 단계(S500; 미도시)를 더 포함할 수 있다.

지금까지 설명된 본 발명의 준지도 강화 학습 방법은 다음과 같이 그 효과를 검증하였다. 우선 A 병원에서 2013년에서 2015년에 수집된 흉부 X선 (PA) 데이터를 이용하였다. 본 명세서에서 제안된 학습 방법은 크게 2 국면으로 이루어졌으며, 검증 국면(evaluation phase)은 제안된 본 발명에 따른 방법이 올바른지 영상 단위로 분류된 데이터를 추가로 사용하여 검증하는 국면이다. 실험에 사용된 데이터의 종류와 수량은 아래 표 3에 표시하였다.

표기법	국면	레이블	설명	수량
x₁, y_p1	국면 1	픽셀 레이블 (pixel label)	훈련	745
x₂, y_p2	국면 1	픽셀 레이블 (pixel label)	검증	186
x₃	국면 2	레이블 없음	준지도 강화 학습	2986
x₄, y₄	검증	영상 레이블	검증	3000

국면 1은 기준 뉴럴 네트워크만을 이용하는 것인 반면, 국면 2는 본 발명의 방법을 적용하는 것이다. 구체적으로, 국면 1에서는 기준 뉴럴 네트워크를 이용하여 폐결절(lung nodule) 검출을 수행한 결과를 FROC(sensitivity/FP per scan)으로 측정하였고, 국면 2에서는 제안된 학습 방법을 이용하여 레이블 없는 데이터를 양성(정상)/음성(비정상)으로 분류하고, 이 가운데 음성만을 이용하여 다시 학습한 후에 그 성능의 향상(검증 정확도의 증가)을 FROC으로 측정하였다. 반복 재현 가능성을 검증하기 위하여 5배수 교차 검증(5 fold cross validation)을 수행하였으며, 각 배수 당 20번의 반복 강화 학습을 시행하여 기준 뉴럴 네트워크와 본 발명에 따른 방법에 의한 정확도 향상이 오차범위 내에서 유의미한지를 t-test로 검증하였다.여기에서 기준 네트워크 모델은 의미론적 분할 네트워크(semantic segmentation network)이며, A 병원에서 수집된 931개의 결절과 결절 병변 레이블을 이용하였으며, 5배수 교차검증용 데이터를 훈련용 데이터와 검증용 데이터로 나누었다. x₁, y₁으로 훈련하고, x₂, y₂로 검증된 성능을 5배수 교차 검증하고, FROC을 측정하여 평균 0.859, 0.769의 성능을 얻었다(국면 1). 국면 2에서 본 발명의 방법에 따라 개선한 FROC은 아래 표 4와 같다. FP는 위양성률을 표시한 것이다.

배수	국면 1		국면 2
	민감도	FP img	민감도	FP img	p-value(FP img)
1	0.825	0.665	0.813	0.342	<0.01
2	0.838	0.616	0.822	0.458	<0.01
3	0.875	1.375	0.851	0.834	<0.01
4	0.872	0.654	0.869	0.301	<0.01
5	0.889	0.534	0.873	0.241	<0.01
평균(mean)	0.859	0.769	0.842	0.435

표 4에서는 본 발명의 방법에 따른 국면 2에서 위양성률의 확연한 감소를 볼 수 있다.덧붙여, 비교 실험으로 레이블링되어 있는 추가적인 데이터 x₄, y₄를 이용하여 본 발명에 따른 방법이 y₄를 찾아내는 성능을 검증하였다.

도 7a 및 도 7b는 본 발명에 따른 준지도 강화 학습의 성능을 예시하기 위하여 그 결과를 나타낸 도면이다.

도 7a 및 도 7b 각각에는 왼쪽에서부터 순서대로 정답(gold standard), 기준 뉴럴 네트워크에 의한 결과, 본 발명에 따른 방법에 의한 결과를 나타내고 있는바, 본 발명에 따른 방법이 기준 뉴럴 네트워크만을 이용했을 때보다 확연한 성능의 향상을 보이고 있는 점을 알 수 있다.

또한 제안된 본 발명의 방법이 다른 병변의 검출에 관한 문제에 대해서도 적용 가능하다는 점과, 상대적으로 레이블 있는 데이터가 적어서 기준 뉴럴 네트워크의 위양성률이 지나치게 높아 레이블 없는 데이터에서 음성으로 판정되는 샘플의 수가 거의 없거나 현저히 적은 경우에도 적용될 수 있다는 점을 보이기 위하여 흉막삼출(pleural effusion)에 대해서도 동일한 시험을 수행하였다. 그 데이터의 수량은 표 5와 같다.

표기법	국면	레이블	설명	수량
x₁, y_p1	국면 1	픽셀 레이블 (pixel label)	훈련	280
x₂, y_p2	국면 1	픽셀 레이블 (pixel label)	검증	70
x₃	국면 2	레이블 없음	준지도 강화 학습	2986

이 흉막삼출에 대하여 국면 1과 국면 2에서의 FROC 성능을 비교한 데이터는 표 6과 같다.

국면 1		국면 2
민감도	FP img	민감도	FP img	p-value(FP img)
0.841	0.673	0.830	0.341	<0.01

표 6에서도 본 발명의 방법에 따른 국면 2에서 위양성률의 확연한 감소를 볼 수 있다.지금까지 설명된 바와 같이 본 발명은 그 모든 실시 예 및 변형례에 걸쳐, 레이블이 부착되지 않은 의료 이미지 데이터에 대하여도 정확하고 다양한 레이블을 부착할 수 있는 효과가 있었는바, 이로써 기계 학습을 위한 대량의 레이블이 있는 데이터를 생성할 수 있게 하여 기계 학습에 의한 진단 보조의 정확도 및 효율을 증진할 수 있을 것이다.

위 실시 예의 설명에 기초하여 해당 기술분야의 통상의 기술자는, 본 발명의 방법 및/또는 프로세스들, 그리고 그 단계들이 하드웨어, 소프트웨어 또는 특정 용례에 적합한 하드웨어 및 소프트웨어의 임의의 조합으로 실현될 수 있다는 점을 명확하게 이해할 수 있다. 상기 하드웨어는 범용 컴퓨터 및/또는 전용 컴퓨팅 장치 또는 특정 컴퓨팅 장치 또는 특정 컴퓨팅 장치의 특별한 모습 또는 구성요소를 포함할 수 있다. 상기 프로세스들은 내부 및/또는 외부 메모리를 가지는, 하나 이상의 마이크로프로세서, 마이크로컨트롤러, 임베디드 마이크로컨트롤러, 프로그래머블 디지털 신호 프로세서 또는 기타 프로그래머블 장치에 의하여 실현될 수 있다. 게다가, 혹은 대안으로서, 상기 프로세스들은 주문형 집적회로(application specific integrated circuit; ASIC), 프로그래머블 게이트 어레이(programmable gate array), 프로그래머블 어레이 로직(Programmable Array Logic; PAL) 또는 전자 신호들을 처리하기 위해 구성될 수 있는 임의의 다른 장치 또는 장치들의 조합으로 실시될 수 있다. 더욱이 본 발명의 기술적 해법의 대상물 또는 선행 기술들에 기여하는 부분들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 기계 판독 가능한 기록 매체에 기록될 수 있다. 상기 기계 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 기계 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다. 기계 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD, Blu-ray와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 전술한 장치들 중 어느 하나뿐만 아니라 프로세서, 프로세서 아키텍처 또는 상이한 하드웨어 및 소프트웨어의 조합들의 이종 조합, 또는 다른 어떤 프로그램 명령어들을 실행할 수 있는 기계 상에서 실행되기 위하여 저장 및 컴파일 또는 인터프리트될 수 있는, C와 같은 구조적 프로그래밍 언어, C++ 같은 객체지향적 프로그래밍 언어 또는 고급 또는 저급 프로그래밍 언어(어셈블리어, 하드웨어 기술 언어들 및 데이터베이스 프로그래밍 언어 및 기술들)를 사용하여 만들어질 수 있는바, 기계어 코드, 바이트코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 이에 포함된다.

따라서 본 발명에 따른 일 태양에서는, 앞서 설명된 방법 및 그 조합들이 하나 이상의 컴퓨팅 장치들에 의하여 수행될 때, 그 방법 및 방법의 조합들이 각 단계들을 수행하는 실행 가능한 코드로서 실시될 수 있다. 다른 일 태양에서는, 상기 방법은 상기 단계들을 수행하는 시스템들로서 실시될 수 있고, 방법들은 장치들에 걸쳐 여러 가지 방법으로 분산되거나 모든 기능들이 하나의 전용, 독립형 장치 또는 다른 하드웨어에 통합될 수 있다. 또 다른 일 태양에서는, 위에서 설명한 프로세스들과 연관된 단계들을 수행하는 수단들은 앞서 설명한 임의의 하드웨어 및/또는 소프트웨어를 포함할 수 있다. 그러한 모든 순차 결합 및 조합들은 본 개시서의 범위 내에 속하도록 의도된 것이다.

예를 들어, 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다. 상기 하드웨어 장치는, 프로그램 명령어를 저장하기 위한 ROM/RAM 등과 같은 메모리와 결합되고 상기 메모리에 저장된 명령어들을 실행하도록 구성되는 MPU, CPU, GPU, TPU와 같은 프로세서를 포함할 수 있으며, 외부 장치와 신호를 주고 받을 수 있는 통신부를 포함할 수 있다. 덧붙여, 상기 하드웨어 장치는 개발자들에 의하여 작성된 명령어들을 전달받기 위한 키보드, 마우스, 기타 외부 입력장치를 포함할 수 있다.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시 예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시 예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 사람이라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시 예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.

그와 같이 균등하게 또는 등가적으로 변형된 것에는, 예컨대 본 발명에 따른 방법을 실시한 것과 동일한 결과를 낼 수 있는, 논리적으로 동치(logically equivalent)인 방법이 포함될 것인바, 본 발명의 진의 및 범위는 전술한 예시들에 의하여 제한되어서는 아니되며, 법률에 의하여 허용 가능한 가장 넓은 의미로 이해되어야 한다.

Claims

레이블 있는 데이터 및 레이블 없는 데이터를 병용하는 준지도 강화 학습 방법에 있어서,컴퓨팅 장치가, 상기 레이블 있는 데이터 및 상기 레이블 없는 데이터를 획득하는 단계;
컴퓨팅 장치가, 상기 레이블 있는 데이터를 이용하여 기준 뉴럴 네트워크(baseline neural network)를 즉시 보상 표시자로서 훈련시키는 단계;
상기 컴퓨팅 장치가, 상기 레이블 없는 데이터들의 부분집합을 탐색하기 위한 정책 뉴럴 네트워크(policy neural network)를 훈련시키는 단계로서, 상기 부분집합은 상기 즉시 보상 표시자의 추가 훈련에 있어서 상기 즉시 보상 표시자의 검증 정확도(validation accuracy)가 높아지도록 탐색되는, 단계;
상기 컴퓨팅 장치가, 상기 부분집합 및 상기 정책 뉴럴 네트워크에 의하여 상기 부분집합에 부여된 레이블을 이용하여 상기 즉시 보상 표시자를 추가로 훈련시키는 단계
를 포함하되,
상기 즉시 보상 표시자를 추가로 훈련시키는 단계 후에, 상기 컴퓨팅 장치가, 상기 정책 뉴럴 네트워크를 훈련시키는 단계 및 상기 즉시 보상 표시자를 추가로 훈련시키는 단계를 적어도 1회 반복하는 것을 특징으로 하고,
상기 컴퓨팅 장치가, 상기 정책 뉴럴 네트워크에 의하여 상기 레이블 없는 데이터에 부여된 레이블을 포함하는 결과 데이터를 외부 엔티티에 제공하는 단계
를 더 포함하는 준지도 강화 학습 방법
제1항에 있어서,
상기 기준 뉴럴 네트워크는 U-Net 또는 U-Net 유사 분할 네트워크인 것을 특징으로 하는 준지도 강화 학습 방법.
제1항에 있어서,
상기 정책 뉴럴 네트워크는 상기 레이블 없는 데이터를 2개 이상의 계급(class)으로 분류하는 분류기인 것을 특징으로 하는 준지도 강화 학습 방법.
제1항에 있어서,
상기 정책 뉴럴 네트워크는 소정의 가중치 초기화 방식으로 초기화되며, 미리 정해진 에너지 함수를 이용하여 최적화되는 것을 특징으로 하는 준지도 강화 학습 방법.
제1항에 있어서,
상기 반복은 소정의 훈련 종료 조건이 충족될 때까지 계속 이루어지는 것을 특징으로 하는 준지도 강화 학습 방법.
제5항에 있어서,
상기 소정의 훈련 종료 조건은,
상기 즉시 보상 표시자의 검증 정확도의 수준이 미리 정해진 문턱값보다 높아지는 조건인 것을 특징으로 하는 준지도 강화 학습 방법.
삭제
컴퓨팅 장치로 하여금, 제1항 내지 제6항 중 어느 한 항의 방법을 수행하도록 구현된 명령어(instructions)를 포함하는, 기계 판독 가능한 비일시적 기록 매체에 저장된, 컴퓨터 프로그램.
레이블 있는 데이터 및 레이블 없는 데이터를 병용하는 준지도 강화 학습을 수행하는 장치에 있어서,
레이블 있는 데이터 및 레이블 없는 데이터를 획득하는 통신부;
(i) 상기 레이블 있는 데이터를 이용하여 기준 뉴럴 네트워크(baseline neural network)를 즉시 보상 표시자로서 훈련시키는 프로세스; (ii) 상기 레이블 없는 데이터들의 부분집합을 탐색하기 위한 정책 뉴럴 네트워크(policy neural network)를 훈련시키는 프로세스로서, 상기 부분집합은 상기 즉시 보상 표시자의 추가 훈련에 있어서 상기 즉시 보상 표시자의 검증 정확도(validation accuracy)가 높아지도록 탐색되는, 프로세스; 및 (iii) 상기 부분집합 및 상기 정책 뉴럴 네트워크에 의하여 상기 부분집합에 부여된 레이블을 이용하여 상기 즉시 보상 표시자를 추가로 훈련시키는 프로세스를 수행하는 프로세서
를 포함하되,
상기 프로세서는,
상기 (iii) 프로세스의 수행 후에, 상기 (ii) 프로세스 및 상기 (iii) 프로세스를 적어도 1회 반복하고,
상기 프로세서는,
상기 정책 뉴럴 네트워크에 의하여 상기 레이블 없는 데이터에 부여된 레이블을 포함하는 결과 데이터를 외부 엔티티에 제공하는 것을 특징으로 하는 준지도 강화 학습 장치.
삭제