KR20230030810A - 데이터 생성 방법 및 이를 이용한 학습방법 및 장치 - Google Patents

데이터 생성 방법 및 이를 이용한 학습방법 및 장치 Download PDF

Info

Publication number
KR20230030810A
KR20230030810A KR1020210112921A KR20210112921A KR20230030810A KR 20230030810 A KR20230030810 A KR 20230030810A KR 1020210112921 A KR1020210112921 A KR 1020210112921A KR 20210112921 A KR20210112921 A KR 20210112921A KR 20230030810 A KR20230030810 A KR 20230030810A
Authority
KR
South Korea
Prior art keywords
medical data
data
noise
gan
event
Prior art date
Application number
KR1020210112921A
Other languages
English (en)
Other versions
KR102591355B1 (ko
Inventor
조경재
최재우
신윤섭
태윤원
Original Assignee
주식회사 뷰노
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 뷰노 filed Critical 주식회사 뷰노
Priority to KR1020210112921A priority Critical patent/KR102591355B1/ko
Priority to PCT/KR2021/016322 priority patent/WO2023027248A1/ko
Publication of KR20230030810A publication Critical patent/KR20230030810A/ko
Application granted granted Critical
Publication of KR102591355B1 publication Critical patent/KR102591355B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Computing Systems (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

본 발명은 컴퓨팅 장치에 의해 수행되는, 인공 신경망에 대한 학습 데이터 생성 방법에 관한 것이다.
일 실시예에 따른 데이터 생성 방법은 (1) 정상 데이터와 (2) 노이즈가 부가된 정상 데이터를 구분하도록 GAN을 훈련하는 것을 포함하며, 상기 GAN의 손실 함수는 상기 노이즈에 대한 손실 값을 포함할 수 있다.

Description

데이터 생성 방법 및 이를 이용한 학습방법 및 장치 {DATA GENERATION METHOD AND TRAINING METHOD AND APPARATUS USING SAME}
본 발명은 데이터 생성 방법 및 이를 이용한 장치에 관한 것이다.
일반적으로 분류학습은 주어진 입력 데이터에 대한 해당 클래스를 예측하는 것을 의미한다. 하지만, 분류학습에 사용되는 데이터가 심한 불균형을 가진다면, 분류 성능이 좋지 않은 현상이 발생한다.
예를 들어, 100명의 환자 데이터가 95명의 암 음성반응 환자와 5명의 암 양성반응 환자로 구성되어 있다고 가정한다. 이와 같이, 클래스의 수가 불균형하게 구성된 데이터를 불균형 데이터라 한다. 이런 불균형 데이터를 사용해 분류학습을 하면 일반적인 분류모델 대부분은 100명이 모두 암에 걸리지 않을 것으로 예측한다. 즉, 모두 양성반응이라고 예측할 수 있다. 이렇게 되면 분류의 전체적인 정확도는 95%로 높으나, 정작 중요한 암환자를 찾아내지 못하는 문제점이 발생한다.
이와 같이, 데이터 불균형은 머신 러닝 분류 모델의 성능을 저하하는 요인으로 알려져 있다. 따라서, 소량의 학습 데이터만으로도 우수한 결과를 내려면 학습 데이터에 실제 다양한 환경이나 특성을 반영할 수 있도록 데이터를 변형시켜 늘리는 데이터 증강(data augmentation)기술이 중요하다. 특히, 데이터 자체를 구하기가 어렵거나 데이터에 정답지를 달아주는 라벨링 작업이 매우 힘든 의료 데이터 같은 경우 증강기술은 반드시 필요하다. 예를 들어, 심정지와 같은 이벤트는 발생 빈도가 적어, 딥러닝 학습에 충분한 이벤트 데이터를 모으기 힘들다. 이로 인해, 이벤트 데이터와 정상(normal) 데이터간의 불균형과 성능 하락이 야기될 수 있다.
본 발명은 인공 신경망 학습 시의 데이터 불균형 해소를 위한 효과적인 데이터 증강 방법의 제공을 목적으로 한다.
보다 구체적으로, 본 발명은 의료용 인공 신경망을 학습 시에 효과적인 이벤트 데이터 증강 방법을 제공하고자 한다.
보다 구체적으로, 본 발명은 GAN(generative adversarial network)을 이용하여 효과적인 이벤트 데이터 제공 방법을 제공하고자 한다.
상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 효과를 실현하기 위한 본 발명의 특징적인 구성은 하기와 같다.
본 발명의 일 양상에 따르면, 컴퓨팅 장치가 인공 신경망을 위한 데이터를 제공하는 방법에 있어서, GAN(generative adversarial network)의 생성기(generator)를 통해 제1 노이즈를 생성하는 단계; 실제 의료 데이터에 상기 제1 노이즈를 부가하여, 상기 실제 의료 데이터에 대응하는 유사 의료 데이터를 생성하는 단계; 상기 실제 의료 데이터와 상기 유사 의료 데이터를 구분하도록 상기 GAN의 판별기(discriminator)를 훈련하되, 상기 GAN의 손실 함수는 상기 제1 노이즈에 대한 항을 포함하도록 정의된 단계; 상기 GAN의 훈련 결과를 이용하여 생성된 제2 노이즈를 정상 의료 데이터에 부가하여 제2 유사 의료 데이터를 생성하는 단계를 포함하는 방법이 제공된다.
본 발명의 다른 일 양상에 따르면, 컴퓨팅 장치로 하여금, 다음 방법을 수행하도록 구현된 명령들(instructions)을 포함하는, 매체에 저장된 컴퓨터 프로그램이 제공된다. 여기서, 다음 방법은: GAN(generative adversarial network)의 생성기(generator)를 통해 제1 노이즈를 생성하는 단계; 실제 의료 데이터에 상기 제1 노이즈를 부가하여, 상기 실제 의료 데이터에 대응하는 유사 의료 데이터를 생성하는 단계; 상기 실제 의료 데이터와 상기 유사 의료 데이터를 구분하도록 상기 GAN의 판별기(discriminator)를 훈련하되, 상기 GAN의 손실 함수는 상기 제1 노이즈에 대한 항을 포함하도록 정의된 단계; 상기 GAN의 훈련 결과를 이용하여 생성된 제2 노이즈를 정상 의료 데이터에 부가하여 제2 유사 의료 데이터를 생성하는 단계를 포함한다.
본 발명의 또 다른 일 양상에 따르면, 인공 신경망용 데이터를 제공하는 컴퓨팅 장치에 있어서, 의료 데이터 획득을 위한 통신부; 및 상기 통신부와 연결되는 프로세서를 포함하고, 상기 프로세서는, GAN(generative adversarial network)의 생성기(generator)를 통해 제1 노이즈를 생성하고, 실제 의료 데이터에 상기 제1 노이즈를 부가하여, 상기 실제 의료 데이터에 대응하는 유사 의료 데이터를 생성하며, 상기 실제 의료 데이터와 상기 유사 의료 데이터를 구분하도록 상기 GAN의 판별기(discriminator)를 훈련하되, 상기 GAN의 손실 함수는 상기 제1 노이즈에 대한 항을 포함하도록 정의되고, 상기 GAN의 훈련 결과를 이용하여 생성된 제2 노이즈를 정상 의료 데이터에 부가하여 제2 유사 의료 데이터를 생성하도록 구성된 컴퓨팅 장치가 제공된다.
바람직하게, 상기 제1 노이즈에 대한 항은, 상기 GAN의 생성기에서 생성되는 노이즈가 유의한 값을 갖도록 정의된 항을 포함할 수 있다.
바람직하게, 상기 유의한 값은 0이 아닐 수 있다.
바람직하게, 상기 제1 노이즈는 랜덤 값으로부터 생성될 수 있다.
바람직하게, 상기 생성된 상기 유사 이벤트 의료 데이터는, 상기 인공 신경망을 학습하기 위한 이벤트 의료 데이터 세트로 제공될 수 있다.
바람직하게, 상기 인공 신경망은 정상 의료 데이터 세트와 이벤트 의료 데이터 세트를 이용하여 학습되며, 상기 이벤트 의료 데이터 세트는 (1) 상기 정상 의료 데이터로부터 생성된 상기 유사 이벤트 의료 데이터와 (2) 실제 이벤트 의료 데이터를 모두 포함할 수 있다.
바람직하게, 상기 정상 의료 데이터로부터 생성된 상기 유사 이벤트 의료 데이터는, 상기 상기 인공 신경망에 대해, 정상 의료 데이터 세트가 아닌, 상기 이벤트 의료 데이터 세트로만 제공될 수 있다.
바람직하게, 상기 GAN의 학습에 사용되는 실제 의료 데이터는 (1) 실제 정상 의료 데이터와 (2) 실제 이벤트 의료 데이터를 모두 포함할 수 있다.
바람직하게, 상기 유사 이벤트 의료 데이터를, 이벤트 의료 데이터 세트로 사용하여 상기 인공 신경망을 훈련하는 단계를 더 포함할 수 있다.
본 발명은 인공 신경망 학습 시의 데이터 불균형 해소를 위한 효과적인 데이터 증강 방법을 제공한다.
보다 구체적으로, 본 발명은 의료용 인공 신경망을 학습 시에 효과적인 이벤트 데이터 증강 방법을 제공한다.
보다 구체적으로, 본 발명은 GAN(generative adversarial network)을 이용하여 효과적인 이벤트 데이터 제공 방법을 제공한다.
본 발명의 실시예의 설명에 이용되기 위하여 첨부된 아래 도면들은 본 발명의 실시예들 중 단지 일부일 뿐이며, 본 발명이 속한 기술분야의 통상의 기술자에게 있어서는 별개의 발명에 이르는 노력 없이 이 도면들에 기초하여 다른 도면들이 얻어질 수 있다.
도 1은 GAN의 구조를 예시한다.
도 2는 GAN을 이용한 데이터 증강 방법을 예시한다.
도 3은 데이터 증강 방법을 이용한 인공 신경망 훈련 과정을 예시한다.
도 4는 본 발명의 일 예에 따른 GAN의 구조를 예시한다.
도 5는 본 발명의 일 예에 따른 인공 신경망 훈련 과정을 예시한다.
도 6~7은 본 발명의 일 예에 따른 노이즈 생성기를 예시한다.
도 8은 본 발명에 적용될 수 있는 컴퓨팅 장치를 예시한다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명의 목적들, 기술적 해법들 및 장점들을 분명하게 하기 위하여 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 통상의 기술자가 본 발명을 실시할후술하는 본 발명에 대한 상세한 설명은, 본 발명의 목적들, 기술적 해법들 및 장점들을 분명하게 하기 위하여 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 통상의 기술자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다.
본 명세서의 상세한 설명 및 청구항들에 걸쳐 이용된 "영상" 또는 "영상 데이터"라는 용어는 이산적 영상 요소들(예컨대, 2차원 영상에 있어서는 픽셀, 3차원 영상에 있어서는 복셀)로 구성된 다차원 데이터를 지칭한다.
예를 들어 "영상"은 현미경을 이용하여 관찰되는 소정 조직에 대한 슬라이드에 대응하는 2차원 영상을 의미할 수 있으나, "영상"은 이에 한정되는 것이 아니고, (콘-빔형; cone-beam) 전산화 단층 촬영(computed tomography), MRI(magnetic resonance imaging), 초음파 또는 본 발명의 기술분야에서 공지된 임의의 다른 의료 영상 시스템의 의하여 수집된 피검체(subject)의 의료 영상일 수 있다. 또한 영상은 비의료적 맥락에서 제공될 수도 있는바, 예를 들어 원격 감지 시스템(remote sensing system), 전자현미경(electron microscopy) 등등이 있을 수 있다.
본 명세서의 상세한 설명 및 청구항들에 걸쳐, '영상'은 (예컨대, 화면에 표시된) 눈으로 볼 수 있는 영상 또는 영상의 디지털 표현물을 지칭하는 용어이다.
설명의 편의를 위하여 제시된 도면에서는 슬라이드 영상 데이터가 예시적 영상 형식(modality)인 것으로 도시되었다. 그러나 통상의 기술자는 본 발명의 다양한 실시예에서 이용되는 영상 형식들이 X선 영상, MRI, CT, PET(positron emission tomography), PET-CT, SPECT, SPECT-CT, MR-PET, 3D 초음파 영상 등등을 포함하나 예시적으로 열거된 형식에 한정되지 않는다는 점을 이해할 수 있을 것이다.
본 명세서의 상세한 설명 및 청구항들에 걸쳐 설명되는 의료 영상은 'DICOM(Digital Imaging and Communications in Medicine; 의료용 디지털 영상 및 통신)' 표준에 따를 수 있다. DICOM 표준은 의료용 기기에서 디지털 영상 표현과 통신에 이용되는 여러 가지 표준을 총칭하는 용어인바, DICOM 표준은 미국 방사선 의학회(ACR)와 미국 전기 공업회(NEMA)에서 구성한 연합 위원회에서 발표한다.
또한, 본 명세서의 상세한 설명 및 청구항들에 걸쳐 설명되는 의료 영상은 '의료영상 저장 전송 시스템(PACS; Picture Archiving and Communication System)'을 통해 저장되거나 전송될 수 있으며, 의료영상 저장 전송 시스템은 DICOM 표준에 맞게 의료 영상을 저장, 가공, 전송하는 시스템일 수 있다. X선, CT, MRI와 같은 디지털 의료영상 장비를 이용하여 획득된 의료영상은 DICOM 형식으로 저장되고 네트워크를 통하여 병원 내외의 단말로 전송이 가능하며, 이에는 관찰 결과 및 진료 기록이 추가될 수 있다.
그리고 본 명세서의 상세한 설명 및 청구항들에 걸쳐 '학습' 혹은 '러닝'은 절차에 따른 컴퓨팅을 통하여 기계 학습(machine learning)을 수행함을 일컫는 용어인바, 인간의 교육 활동과 같은 정신적 작용을 지칭하도록 의도된 것이 아니며, 훈련(training)은 기계 학습에 관하여 일반적으로 받아들여지는 의미로 쓰인 것이다. 예를 들어, '딥 러닝'은 심층 인공 신경망을 이용한 기계 학습을 의미한다. 심층 신경망은 다층의 인공 신경망으로 이루어진 구조에서 다량의 데이터를 학습시킴으로써 각각의 데이터의 특징을 자동으로 학습하고, 이를 통해 목적/손실 함수, 즉 분류 정확도의 에러를 최소화시키는 방식으로 학습을 진행하는 기계 학습 모델이며, 점, 선, 면 등의 저수준의 특징에서부터 복잡하고 의미 있는 고수준의 특징까지 다양한 수준의 특징을 추출하고 분류할 수 있다.
그리고 본 명세서의 상세한 설명 및 청구항들에 걸쳐, '포함하다'라는 단어 및 그 변형은 다른 기술적 특징들, 부가물들, 구성요소들 또는 단계들을 제외하는 것으로 의도된 것이 아니다. 또한, '하나' 또는 '한'은 하나 이상의 의미로 쓰인 것이며, '또 다른'은 적어도 두 번째 이상으로 한정된다.
통상의 기술자에게 본 발명의 다른 목적들, 장점들 및 특성들이 일부는 본 명세서로부터, 그리고 일부는 본 발명의 실시로부터 드러날 것이다. 아래의 예시 및 도면은 실례로서 제공되며, 본 발명을 한정하는 것으로 의도된 것이 아니다. 따라서, 특정 구조나 기능에 관하여 본 명세서에 개시된 상세 사항들은 한정하는 의미로 해석되어서는 아니되고, 단지 통상의 기술자가 실질적으로 적합한 임의의 상세 구조들로써 본 발명을 다양하게 실시하도록 지침을 제공하는 대표적인 기초 자료로 해석되어야 할 것이다.
더욱이 본 발명은 본 명세서에 나타난 실시예들의 모든 가능한 조합들을 망라한다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 사상 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 사상 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
본 명세서에서 달리 표시되거나 분명히 문맥에 모순되지 않는 한, 단수로 지칭된 항목은, 그 문맥에서 달리 요구되지 않는 한, 복수의 것을 아우른다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
이하, 통상의 기술자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 1은 GAN의 구조를 예시한다. GAN은 실제 데이터 분포와 비슷한 분포를 가진 데이터를 생성할 수 있게 하다. 도 1을 참조하면, GAN은 생성기(Generator, G) 및 판별기(Discriminator, D)를 포함한다. D의 역할은 입력이 진짜 데이터(real data)인지 구별하는 것이다. 데이터 x가 입력으로 주어질 때, D의 출력 D(x)는 x가 진짜 데이터일 확률을 리턴한다. G의 역할은 D가 진짜인지 구별할 수 없을 만큼 유사 데이터(fake data)를 만드는 것이다. 예를 들면, G는 노이즈/난수 벡터 z를 표준정규분포로부터 샘플링 한 후, z를 입력으로 사용해 유사 데이터 G(z)를 생성한다. G(z)는 D의 입력으로 사용되며, D(G(z))는 G(z)가 진짜 데이터일 확률을 리턴한다.
GAN은 D와 G의 가중치를 각각 갱신함으로써 학습된다. D의 경우, G를 고정한 채 실제 데이터(x~Pdata(x))에 대해 높은 확률을 리턴하고, 유사 데이터(z~Pz(z)))에 대해 낮은 확률을 리턴하는 방향으로 가중치가 갱신된다. G의 경우, 앞서 학습된 D에 G(z)를 입력할 때 높은 확률을 리턴하는 방향으로 가중치가 갱신된다. GAN은 이러한 방식으로 G와 D를 번갈아가며 학습함으로써, G는 D가 구별할 수 없을 만큼 유사 데이터를 잘 만들 수 있도록, D는 G가 어떠한 유사 데이터를 만들어내더라도 잘 구별해낼 수 있도록 학습될 수 있다.
수학식 1은 GAN의 목적 함수를 나타낸다. GAN의 경우 학습해야 하는 네트워크가 2개이며 서로 충돌되는 학습이 이루어지기 때문에 최적화도 따로 이루어진다.
Figure pat00001
수학식 2와 3은 각각 D의 목적 함수와 G의 목적 함수를 나타낸다. D의 경우, V(D,G)를 D에 대하여 최대화 하는 방향으로 가중치가 갱신된다. G의 경우 V(D,G)를 G에 대하여 최소화 하는 방향으로 가중치가 갱신된다.
Figure pat00002
Figure pat00003
수학식 1~3에서 각각의 기호는 다음을 참조할 수 있다.
- E: 기대값/평균값(expectation)을 나타내고,
- D(xi): 입력 xi가 실제 데이터일 확률을 나타내며(i=1~m),
- G(zi)는 입력 zi로부터 유사 데이터를 나타낸다(i=1~m).
도 2는 종래의 GAN을 이용한 데이터 증강 방법을 예시한다. 도 1을 참조하여 설명한 바와 같이, 생성기는 노이즈 벡터(z)를 입력 받아 유사 데이터를 생성하고, 판별기를 속여 상기 유사 데이터를 실제 데이터로 판별하게 하는 것을 목표로 가진다. 반면, 판별기는 실제 데이터와 유사 데이터를 서로 구분해내는 것을 목표로 가진다. 따라서, 훈련된 GAN을 이용하여 생성된 유사 데이터는 인공 신경망 학습을 위한 데이터 증강에 사용될 수 있다. 이때, 정상(normal) 데이터를 이용하여 훈련된 GAN으로부터는 유사 정상 데이터가 생성되고, 이벤트 데이터를 이용하여 훈련된 GAN으로부터는 유사 이벤트 데이터가 생성될 수 있다. 여기서, 인공 신경망은 의료용 인공 신경망을 포함하며, 상기 의료용 인공 신경망은 관심 질병에 대한 분석/진단 (보조) 정보를 제공할 수 있다. 여기서, 정상 데이터는 관심 질병에 대해 정상 (의료) 데이터를 의미하며, 이벤트 데이터는 관심 질병에 대해 소정 증상 (의료) 데이터를 의미한다. GAN을 이용하여 유사 이벤트 데이터를 정상 데이터에 상당할 정도로 충분히 생성함으로써, 데이터 불균형을 해결하고 정상 데이터와 이벤트 데이터를 동시에 학습하기 위한 원하는 샘플 비율을 얻을 수 있다. 여기서, 데이터는 의료 목적으로 사용되는 다양한 형식의 데이터를 포함한다. 예를 들어, 데이터는 영상 데이터, 생체신호 데이터(예, 심전도)를 포함한다.
도 3은 의료용 인공 신경망을 훈련하는 예를 나타낸다. 도 3을 참조하면, 의료용 인공 신경망은 정상 데이터 및 이벤트 데이터를 이용하여 훈련될 수 있다. 이때, 정상 데이터의 양이 이벤트 데이터의 양에 비해 상당히 많으므로 실제 데이터만을 사용할 경우, 데이터 불균형으로 인해 훈련된 인공 신경망의 성능 하락이 야기될 수 있다. 특히, 심정지(cardiac arrest)와 같은 이벤트는 발생 빈도가 적어, 딥러닝 학습에 충분한 이벤트 데이터를 모으기 힘들다. 따라서, 도 2에서 생성된 유사 이벤트 데이터를 함께 이용하여 인공 신경망을 훈련할 수 있다.
한편, 도 3의 방법에 따르며, 전체 데이터의 양은 많지만 이벤트 데이터의 수는 적은 상황에서, 딥러닝 학습에 사용되는 이벤트 데이터 수를 늘려 모델의 성능(Accuracy, AUROC(area under the receiver operating characteristic curve) 등)을 향상시킬 수 있다. 이때, 도 2에 예시한 종래의 방법에 따르면, 데이터의 표준편차를 통해 노이즈를 생성할 수 있으나, 순수한 정상 데이터만 따로 분리해야만 표준편차를 계산할 수 있다는 한계가 있다.
상술한 문제를 해결하기 위해, 이벤트 데이터에서 나타나는 측정 오차 분포를 알아내기 위해 상대적으로 수가 많은 정상 데이터를 사용할 것을 제안한다. 정상 데이터에서 나타나는 측정 오차와 이벤트 데이터에서 나타나는 측정 오차는 동일 기계를 사용하므로 동일한 분포를 가질 것이라고 가정할 수 있기 때문이다.
도 4는 본 발명의 일 예에 다른 GAN의 구조를 예시한다. 도 4를 참조하면, GAN은 생성기(G, 402), 판별기(D, 410) 및 다중화기(408)를 포함한다. G는 실제 데이터로부터 유사 데이터를 생성하는데 필요한 노이즈를 생성한다. 노이즈/난수 벡터 z는 실제 데이터의 표준편차로부터 생성될 수 있다. 예를 들어, 노이즈/난수 벡터 z는 실제 데이터의 표준정규분포로부터 샘플링 될 수 있다. 생성기(G, 402) z를 입력으로 사용해 노이즈(404a)를 생성한다. 다중화기(408)는 실제 데이터(406)와 노이즈(404a)를 결합하여 유사 데이터(404b)를 생성할 수 있다. 여기서, 결합은 덧셈 연산을 포함한다. 예를 들어, 실제 데이터(406)와 노이즈(404a)는 동일한 벡터 사이즈를 가지며, 각각의 대응되는 원소를 서로 더하여 실제 데이터(406)에 대응하는 유사 데이터(404b)를 생성할 수 있다. 다중화기(408)는 덧셈 연산을 지원하는 어떤 장치로도 구현될 수 있으며, 덧셋기/덧셈부, 중첩기/중첩부 등으로 지칭될 수 있다. 또한, 다중화기(408)는 별도로 구성되지 않고, 기존 구성(예, 도 4/6/7의 G, 도 6/7의 노이즈 생성기)의 일부로 구현될 수 있다. D(410)는 입력이 진짜 데이터인지 구별한다. 데이터 x가 입력으로 주어질 때, D(410)의 출력 D(x)는 x가 진짜 데이터일 확률을 리턴한다.
즉, GAN의 G(402)는 노이즈를 생성하고, GAN의 D(410)는 (1) 실제 데이터(406)와 (2) 실제 데이터에 노이즈를 더함으로써 생성된 유사 데이터(404b)를 구분할 수 있도록 학습된다. 이때, GAN 학습을 위해 실제 정상 데이터와 실제 이벤트 데이터가 모두 사용될 수 있다. 한편, GAN은 G(402)와 D(410)를 번갈아 학습하면서, G(402)는 D(410)가 구별할 수 없을 만큼 유사 데이터를 잘 만들 수 있도록, D(410)는 G(402)가 어떠한 유사 데이터를 만들어내더라도 잘 구별해낼 수 있도록 학습될 수 있다. 따라서, 종래 기술에 따르면, G(402)가 생성하는 노이즈(404a)가 0으로 수렴될 수 있다. 이 경우, 정상 데이터를 이용하여 학습된 GAN은 유사 정상 데이터만을 생성할 수 있다. 따라서, 노이즈(404a)가 0으로 수렴되는 것을 방지하기 위해, 노이즈(404a)의 손실(예, L1 손실)을 GAN의 학습 손실에 추가할 수 있다.
수학식 4는 본 발명의 일 예에 따른 손실 함수를 나타낸다. GAN의 학습은 수학식 1의 손실을 최소화 하는 방향으로 진행된다.
Figure pat00004
- x는 실제 데이터(406)를 나타내고,
- D(x)는 입력 x가 실제 데이터일 확률을 나타내며,
- G(z)는 입력 z로부터 생성된 노이즈(404a)를 나타내고,
- G(z)+x는 유사 데이터(404b)를 나타내고,
-
Figure pat00005
는 노이즈(404a)의 손실(예, L1 손실)을 나타내며,
-
Figure pat00006
는 학습 안정화를 위해 튜닝 가능한 하이퍼(hyper) 파라미터를 나타낸다.
Figure pat00007
는 L1 노름(norm)을 나타내며 수학식 5로 정의된다.
Figure pat00008
여기서, i는 G(z)를 구성하는 벡터의 원소 번호를 나타내고, n은 G(z)를 구성하는 벡터의 원소 개수를 나타낸다.
GAN의 손실 함수에 노이즈(404a) 손실(예, L1 손실) 항을 포함시킴으로써, G(z)가 0으로 수렴하는 것을 방지할 수 있다. 이에 따라, 데이터의 표준 편차를 통해 노이즈를 생성 시에 정상 데이터만 따로 분리할 필요가 없으며, 피쳐(feature)별 최적의 노이즈 강도가 학습을 통해 자동으로 결정될 수 있다. 즉, 종래와 달리(도 2 참조), 정상 데이터와 이벤트 데이터를 모두 사용하여 GAN을 훈련시키는 것이 가능하다. GAN의 훈련 결과를 이용하여 정상 데이터 (세트)로부터 유사 데이터 (세트)를 생성할 수 있으며, 생성된 유사 데이터 (세트)는 딥러닝 학습 등에서 이벤트 데이터 (세트)로 사용될 수 있다. 예를 들어, GAN의 훈련 결과를 이용하여 정상 의료 데이터 (세트)로부터 유사 의료 데이터 (세트)를 생성할 수 있으며, 생성된 유사 의료 데이터 (세트)는 딥러닝 학습(예, 의료용 인공 신경망) 등에서 이벤트 의료 데이터 (세트)로 사용될 수 있다. 이를 위해, 유사 데이터 (세트)를 이벤트 데이터 (세트)로 라벨링 하는 과정이 포함될 수 있다. 여기서, 학습용 데이터 (세트) 생성에 사용되는 정상 데이터 (세트)는 실제/유사 정상 데이터 (세트)를 포함하며, 바람직하게는 실제 정상 데이터 (세트)를 포함할 수 있다. 결국, 본 발명에 따르면, 딥러닝 학습에 사용되는 이벤트 데이터의 수를 늘려 모델의 성능(Accuracy, AUROC 등)을 향상시킬 수 있다.
여기서, 라벨링은 각각의 데이터에 대응하여 라벨링 데이터를 생성하는 것을 포함한다. 라벨링 데이터는 각각의 데이터에 대응하여 생성되는 데이터로서, 의료 데이터의 특성 정보 중 적어도 하나를 포함하는 데이터를 의미할 수 있다. 의료 데이터(예, 영상)의 특성 정보는 조직 영역 또는 병변 영역의 존재 여부 및 그 위치 정보, 조직 영역 또는 병변 영역이 관찰된 경과 시간에 대응되는 시간 정보(예, 30초), 심전도 정보를 포함할 수 있으나, 이에 한정되는 것은 아니고, 의료 데이터의 특성을 반영할 수 있는 임의의 정보를 포함할 수 있다.
도 5는 본 발명의 일 예로서 의료용 인공 신경망을 훈련하는 예를 나타낸다. 도 5를 참조하면, 의료용 인공 신경망은 정상 의료 데이터 (세트) 및 이벤트 의료 데이터 (세트)를 이용하여 훈련될 수 있다. 훈련된 인공 신경망은 입력된 의료 데이터 (세트)를 기반으로 질병/생체상태에 대한 정보를 제공할 수 있다. 도 5에 관한 기본적인 내용은 도 3을 참조하여 설명한 바와 같다. 도 3과 다른 점은, 유사 데이터 제공 방법에 있다. 도 3은 이벤트 데이터를 이용하여 학습된 GAN을 이용하여 유사 이벤트 데이터가 제공되는 반면(도 2 참조), 본 발명에서는 도 4의 GAN을 이용하여 유사 이벤트 데이터가 제공될 수 있다. 도 4의 GAN은 노이즈에 대한 L1 손실을 고려함으로써, 정상 데이터와 이벤트 데이터를 모두 사용하여 학습될 수 있다. 결과적으로, 도 4의 GAN을 이용하여, 이벤트 데이터보다 훨씬 수가 많은 정상 데이터 (세트)를 이용하여 유사 이벤트 데이터 (세트)를 의료용 인공 신경망 학습을 위해 제공할 수 있다. 이때, 정상 데이터 (세트)로부터 생성된 유사 데이터 (세트)를 이벤트 데이터 (세트)로 이용하기 위해, 유사 데이터를 이벤트 데이터로 라벨링 하는 과정이 포함될 수 있다.
도 6은 본 발명의 일 예에 따른 노이즈 생성기를 예시한다. 도 6은 노이즈 생성기(600)가 도 4의 GAN의 일부로 구성되는 경우를 예시한다. 도 6의 602, 604a, 604b, 606 및 608은 도 4의 402, 404a, 404b, 406 및 408에 대응한다. 각각에 대한 설명은 도 4를 참조할 수 있다. 도 4의 GAN에 대한 학습이 완료되면, GAN의 G를 구성하는 신경망의 각 계층/노드는 학습 결과(예, 가중치 세트)를 이용하여 갱신된다. 이후, 도 4의 GAN은 유사 (이벤트) 데이터 생성을 위한 노이즈 생성기(600)로 재활용될 수 있다. 예를 들어, 도 6의 노이즈 생성기(600)는 도 4의 GAN에서 노이즈 생성을 위한 요소(예, G)들의 집합, 혹은 유사 (이벤트) 데이터 생성을 위한 요소(예, G, 다중화기)들의 집합으로 이해/정의될 수 있다. 도 6의 노이즈 생성기(600)는 도 4의 학습 결과에 기반하여 노이즈(604a)를 생성할 수 있다. 구체적으로, 도 6의 노이즈 생성기(600)는 본 발명의 제안에 따라 학습된 생성기(G, 602)를 포함하며(도 4 참조; 수학식 1 참조), 생성기(G, 602)를 통해 랜덤 값(z)으로부터 노이즈(604a)가 생성될 수 있다. 생성된 노이즈(604a)는 실제 데이터를 유사 (이벤트) 데이터로 변환하는데 사용될 수 있다. 예를 들어, 생성된 노이즈(604a)는 실제 데이터(606)에 더해지며, 이를 통해 유사 (이벤트) 데이터(604b)가 제공될 수 있다. 여기서, 본 발명의 예에 따른 노이즈(604a)가 부가될 수 있는 실제 데이터(606)는 정상/이벤트 데이터를 모두 포함하며, 바람직하게는 정상 데이터로 국한될 수 있다. 본 발명의 예에 따른 노이즈(604a)를 이용하여 실제 데이터(606)로부터 변환된 유사 (이벤트) 데이터(604b)는, 도 4와 달리 판별기(D)로 입력되지 않는다. 대신, 본 발명의 예에 따른 노이즈(604a)를 이용하여 실제 데이터 (세트)(606)로부터 변환된 유사 (이벤트) 데이터 (세트)(604b)는, 실제 데이터가 정상 데이터인지 이벤트 데이터인지 관계 없이, 의료용 인공 신경망(506)을 학습/훈련 시 이벤트 데이터 (세트)로 사용될 수 있다. 여기서, 의료용 인공 신경망(506)을 학습/훈련하는 것은, 유사 (이벤트) 데이터(604b)를 이벤트 데이터로 라벨링 하는 과정을 포함할 수 있다. 여기서, 학습/훈련용 데이터 (세트) 생성에 사용되는 실제 데이터 (세트)(606)는 유사 데이터 (세트)로 대체될 수 있다. 본 발명에 따르면, 종래와 달리(도 2 참조), 실제 정상 데이터 (세트)를 이용하여 유사 이벤트 데이터 (세트)를 제공할 수 있게 함으로써 의료용 신경망을 학습/훈련 시에 데이터 불균형을 해소할 수 있다.
도 7은 본 발명의 다른 예에 따른 노이즈 생성기를 예시한다. 도 7은 노이즈 생성기(700)가 도 4의 GAN과 달리 별도로 구성되는 경우를 예시한다. 예를 들어, 노이즈 생성기(700)는 노이즈 생성을 위한 신경망을 포함할 수 있다. 이로 제한되는 것은 아니지만, 노이즈 생성을 위한 신경망은 도 4의 GAN에서 G를 포함할 수 있다. 이 경우, 노이즈 생성기(700)는 도 4의 GAN에서 D를 제외하고 구성되거나, 도 4의 GAN에서 G만을 포함하도록 구성될 수 있다. 이 경우, 노이즈 생성기(700)의 노이즈 생성을 위한 신경망(예, G)(702)은 도 4의 GAN의 학습 결과(예, 가중치 세트)를 이용하여, z로부터 노이즈(704a)를 생성할 수 있다. 즉, 노이즈 생성을 위한 신경망(예, G)(702)의 각 계층/노드는 도 4의 학습 결과(예, 가중치 세트)를 이용하여 갱신된다. 이후, 노이즈 생성을 위한 신경망(예, G)(702)은 랜덤 값(z)으로부터 노이즈(704a)를 생성할 수 있으며, 생성된 노이즈(704a)는 실제 데이터를 유사 (이벤트) 데이터로 변환하는데 사용될 수 있다. 예를 들어, 노이즈 생성기(700)로부터 생성된 노이즈(704a)는 다중화기(708)를 통해 실제 데이터(706)에 더해지며, 이를 통해 유사 (이벤트) 데이터(704b)가 제공될 수 있다. 여기서, 본 발명의 예에 따른 노이즈(704a)가 부가될 수 있는 실제 데이터(706)는, 정상/이벤트 데이터를 모두 포함하며, 바람직하게는 정상 데이터로 국한될 수 있다. 본 발명에 따른 노이즈(704a)를 부가함으로써 생성된 유사 (이벤트) 데이터 (세트)(704b)는, 실제 데이터가 정상 데이터인지 이벤트 데이터인지 관계 없이, 의료용 인공 신경망(506)을 학습/훈련 시 이벤트 데이터 (세트)로 사용될 수 있다. 여기서, 의료용 인공 신경망(506)을 학습/훈련하는 것은, 유사 (이벤트) 데이터(704b)를 이벤트 데이터로 라벨링 하는 과정을 포함할 수 있다. 여기서, 학습/훈련용 데이터 (세트) 생성에 사용되는 실제 데이터 (세트)(706)는 유사 데이터 (세트)로 대체될 수 있다.본 발명에 따르면, 종래와 달리(도 2 참조), 실제 정상 데이터를 이용하여 유사 이벤트 데이터를 제공할 수 있게 함으로써 의료용 신경망을 학습/훈련 시에 데이터 불균형을 해소할 수 있다.
도 8은 본 발명의 일 예에 따른 컴퓨팅 장치를 예시한다. 본 발명의 일 예에 따른 컴퓨팅 장치(200)는, 통신부(210) 및 프로세서(220)를 포함하며, 상기 통신부(210)를 통하여 외부 컴퓨팅 장치(미도시)와 직간접적으로 통신할 수 있다.
구체적으로, 컴퓨팅 장치(200)는, 전형적인 컴퓨터 하드웨어(예컨대, 컴퓨터 프로세서, 메모리, 스토리지, 입력 장치 및 출력 장치, 기타 기존의 컴퓨팅 장치의 구성요소들을 포함할 수 있는 장치; 라우터, 스위치 등과 같은 전자 통신 장치; 네트워크 부착 스토리지(network-attached storage; NAS) 및 스토리지 영역 네트워크(storage area network; SAN)와 같은 전자 정보 스토리지 시스템)와 컴퓨터 소프트웨어(즉, 컴퓨팅 장치로 하여금 특정의 방식으로 기능하게 하는 명령어들)의 조합을 이용하여 원하는 시스템 성능을 달성하는 것일 수 있다.
컴퓨팅 장치의 통신부(210)는 연동되는 타 컴퓨팅 장치와 요청과 응답을 송수신할 수 있는바, 일 예시로서 그러한 요청과 응답은 동일한 TCP(transmission control protocol) 세션(session)에 의하여 이루어질 수 있지만, 이에 한정되지는 않는바, 예컨대 UDP(user datagram protocol) 데이터그램(datagram)으로서 송수신될 수도 있을 것이다. 덧붙여, 넓은 의미에서 상기 통신부(210)는 명령어 또는 지시 등을 전달받기 위한 키보드, 마우스와 같은 포인팅 장치(pointing device), 기타 외부 입력장치, 프린터, 디스플레이, 기타 외부 출력장치를 포함할 수 있다.
또한, 컴퓨팅 장치의 프로세서(220)는 MPU(micro processing unit), CPU(central processing unit), GPU(graphics processing unit) 또는 TPU(tensor processing unit), 캐시 메모리(cache memory), 데이터 버스(data bus) 등의 하드웨어 구성을 포함할 수 있다. 또한, 운영체제, 특정 목적을 수행하는 애플리케이션의 소프트웨어 구성을 더 포함할 수도 있다.
도 4~6을 참조하여 예시한 본 발명은 하드웨어/소프트웨어에 기반하여 구성될 수 있으며, 컴퓨팅 장치의 프로세서(220)는 도 4~6에 따른 본 발명의 동작을 수행/제어하도록 구성될 수 있다.
위 실시예의 설명에 기초하여 해당 기술분야의 통상의 기술자는, 본 발명의 방법 및/또는 프로세스들, 그리고 그 단계들이 하드웨어, 소프트웨어 또는 특정 용례에 적합한 하드웨어 및 소프트웨어의 임의의 조합으로 실현될 수 있다는 점을 명확하게 이해할 수 있다. 상기 하드웨어는 범용 컴퓨터 및/또는 전용 컴퓨팅 장치 또는 특정 컴퓨팅 장치 또는 특정 컴퓨팅 장치의 특별한 모습 또는 구성요소를 포함할 수 있다. 상기 프로세스들은 내부 및/또는 외부 메모리를 가지는, 하나 이상의 마이크로프로세서, 마이크로컨트롤러, 임베디드 마이크로컨트롤러, 프로그래머블 디지털 신호 프로세서 또는 기타 프로그래머블 장치에 의하여 실현될 수 있다. 게다가, 혹은 대안으로서, 상기 프로세스들은 주문형 집적회로(application specific integrated circuit; ASIC), 프로그래머블 게이트 어레이(programmable gate array), 프로그래머블 어레이 로직(Programmable Array Logic; PAL) 또는 전자 신호들을 처리하기 위해 구성될 수 있는 임의의 다른 장치 또는 장치들의 조합으로 실시될 수 있다. 더욱이 본 발명의 기술적 해법의 대상물 또는 선행 기술들에 기여하는 부분들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 기계 관찰 가능한 기록 매체에 기록될 수 있다. 상기 기계 관찰 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 기계 관찰 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다. 기계 관찰 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD, Blu-ray와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 전술한 장치들 중 어느 하나뿐만 아니라 프로세서, 프로세서 아키텍처 또는 상이한 하드웨어 및 소프트웨어의 조합들의 이종 조합, 또는 다른 어떤 프로그램 명령어들을 실행할 수 있는 기계 상에서 실행되기 위하여 저장 및 컴파일 또는 인터프리트될 수 있는, C와 같은 구조적 프로그래밍 언어, C++ 같은 객체지향적 프로그래밍 언어 또는 고급 또는 저급 프로그래밍 언어(어셈블리어, 하드웨어 기술 언어들 및 데이터베이스 프로그래밍 언어 및 기술들)를 사용하여 만들어질 수 있는바, 기계어 코드, 바이트코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 이에 포함된다.
따라서 본 명세서에 따른 일 태양에서는, 앞서 설명된 방법 및 그 조합들이 하나 이상의 컴퓨팅 장치들에 의하여 수행될 때, 그 방법 및 방법의 조합들이 각 단계들을 수행하는 실행 가능한 코드로서 실시될 수 있다. 다른 일 태양에서는, 상기 방법은 상기 단계들을 수행하는 시스템들로서 실시될 수 있고, 방법들은 장치들에 걸쳐 여러 가지 방법으로 분산되거나 모든 기능들이 하나의 전용, 독립형 장치 또는 다른 하드웨어에 통합될 수 있다. 또 다른 일 태양에서는, 위에서 설명한 프로세스들과 연관된 단계들을 수행하는 수단들은 앞서 설명한 임의의 하드웨어 및/또는 소프트웨어를 포함할 수 있다. 그러한 모든 순차 결합 및 조합들은 본 명세서의 범위 내에 속하도록 의도된 것이다.
예를 들어, 상기 하드웨어 장치는 본 명세서에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다. 상기 하드웨어 장치는, 프로그램 명령어를 저장하기 위한 ROM/RAM 등과 같은 메모리와 결합되고 상기 메모리에 저장된 명령어들을 실행하도록 구성되는 MPU, CPU, GPU, TPU와 같은 프로세서를 포함할 수 있으며, 외부 장치와 신호를 주고받을 수 있는 통신부를 포함할 수 있다. 덧붙여, 상기 하드웨어 장치는 개발자들에 의하여 작성된 명령어들을 전달받기 위한 키보드, 마우스, 기타 외부 입력장치를 포함할 수 있다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 사람이라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.
그와 같이 균등하게 또는 등가적으로 변형된 것에는, 예컨대 본 명세서에 따른 방법을 실시한 것과 동일한 결과를 낼 수 있는, 논리적으로 동치(logically equivalent)인 방법이 포함될 것인바, 본 발명의 진의 및 범위는 전술한 예시들에 의하여 제한되어서는 아니되며, 법률에 의하여 허용 가능한 가장 넓은 의미로 이해되어야 한다.

Claims (12)

  1. 컴퓨팅 장치가 인공 신경망을 위한 데이터를 제공하는 방법에 있어서,
    GAN(generative adversarial network)의 생성기(generator)를 통해 제1 노이즈를 생성하는 단계;
    실제 의료 데이터에 상기 제1 노이즈를 부가하여, 상기 실제 의료 데이터에 대응하는 유사 의료 데이터를 생성하는 단계;
    상기 실제 의료 데이터와 상기 유사 의료 데이터를 구분하도록 상기 GAN의 판별기(discriminator)를 훈련하되, 상기 GAN의 손실 함수는 상기 제1 노이즈에 대한 항을 포함하도록 정의된 단계; 및
    상기 GAN의 훈련 결과를 이용하여 생성된 제2 노이즈를 정상 의료 데이터에 부가하여 유사 이벤트 의료 데이터를 생성하는 단계를 포함하는 방법.
  2. 제1항에 있어서,
    상기 제1 노이즈에 대한 항은, 상기 GAN의 생성기에서 생성되는 노이즈가 유의한 값을 갖도록 정의된 항을 포함하는 방법.
  3. 제2항에 있어서,
    상기 유의한 값은 0이 아닌 방법.
  4. 제1항에 있어서,
    상기 제1 노이즈는 랜덤 값으로부터 생성되는 방법.
  5. 제1항에 있어서,
    상기 생성된 상기 유사 이벤트 의료 데이터를, 상기 인공 신경망을 학습하기 위한 이벤트 의료 데이터 세트로 제공하는 단계를 더 포함하는 방법.
  6. 제5항에 있어서,
    상기 인공 신경망은 정상 의료 데이터 세트와 이벤트 의료 데이터 세트를 이용하여 학습되며, 상기 이벤트 의료 데이터 세트는 (1) 상기 정상 의료 데이터로부터 생성된 유사 이벤트 의료 데이터와 (2) 실제 이벤트 의료 데이터를 모두 포함하는 방법.
  7. 제1항에 있어서,
    상기 정상 의료 데이터로부터 생성된 상기 유사 이벤트 의료 데이터는, 상기 인공 신경망에 대해, 정상 의료 데이터 세트가 아닌, 상기 이벤트 의료 데이터 세트로만 제공되는 방법.
  8. 제1항에 있어서,
    상기 GAN의 학습에 사용되는 실제 의료 데이터는 (1) 실제 정상 의료 데이터와 (2) 실제 이벤트 의료 데이터를 모두 포함하는 방법.
  9. 제1항에 있어서,
    상기 유사 이벤트 의료 데이터를, 이벤트 의료 데이터 세트로 사용하여 상기 인공 신경망을 훈련하는 단계를 더 포함하는 방법.
  10. 컴퓨팅 장치로 하여금, 제1항 내지 제9항 중 어느 한 항의 방법을 수행하도록 구현된 명령들(instructions)을 포함하는, 매체에 저장된 컴퓨터 프로그램.
  11. 인공 신경망용 데이터를 제공하는 컴퓨팅 장치에 있어서,
    의료 데이터 획득을 위한 통신부; 및
    상기 통신부와 연결되는 프로세서를 포함하고, 상기 프로세서는
    GAN(generative adversarial network)의 생성기(generator)를 통해 제1 노이즈를 생성하고,
    실제 의료 데이터에 상기 제1 노이즈를 부가하여, 상기 실제 의료 데이터에 대응하는 유사 의료 데이터를 생성하며,
    상기 실제 의료 데이터와 상기 유사 의료 데이터를 구분하도록 상기 GAN의 판별기(discriminator)를 훈련하되, 상기 GAN의 손실 함수는 상기 제1 노이즈에 대한 항을 포함하도록 정의되고, 및
    상기 GAN의 훈련 결과를 이용하여 생성된 제2 노이즈를 정상 의료 데이터에 부가하여 유사 이벤트 의료 데이터를 생성하도록 구성된 컴퓨팅 장치.
  12. 제11항에 있어서,
    상기 정상 의료 데이터로부터 생성된 상기 유사 이벤트 의료 데이터를, 상기 인공 신경망을 학습하기 위한 이벤트 의료 데이터 세트로 제공하도록 구성된 컴퓨팅 장치.
KR1020210112921A 2021-08-26 2021-08-26 데이터 생성 방법 및 이를 이용한 학습방법 및 장치 KR102591355B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210112921A KR102591355B1 (ko) 2021-08-26 2021-08-26 데이터 생성 방법 및 이를 이용한 학습방법 및 장치
PCT/KR2021/016322 WO2023027248A1 (ko) 2021-08-26 2021-11-10 데이터 생성 방법 및 이를 이용한 학습방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210112921A KR102591355B1 (ko) 2021-08-26 2021-08-26 데이터 생성 방법 및 이를 이용한 학습방법 및 장치

Publications (2)

Publication Number Publication Date
KR20230030810A true KR20230030810A (ko) 2023-03-07
KR102591355B1 KR102591355B1 (ko) 2023-10-20

Family

ID=85321736

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210112921A KR102591355B1 (ko) 2021-08-26 2021-08-26 데이터 생성 방법 및 이를 이용한 학습방법 및 장치

Country Status (2)

Country Link
KR (1) KR102591355B1 (ko)
WO (1) WO2023027248A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102653755B1 (ko) * 2023-07-18 2024-04-03 메타빌드 주식회사 인공지능 영상 딥러닝 모델 학습을 위한 현장 영상 데이터 셋의 수집 시스템 및 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190198156A1 (en) * 2017-12-21 2019-06-27 International Business Machines Corporation Medical Image Classification Based on a Generative Adversarial Network Trained Discriminator

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101975186B1 (ko) * 2018-07-04 2019-05-07 광운대학교 산학협력단 객체 검출을 위한 생성적 적대 신경망 기반의 데이터 생성 장치 및 방법
KR102283416B1 (ko) * 2019-04-03 2021-07-28 조선대학교산학협력단 Gan 기반 딥러닝 모델을 이용한 이미지 생성 방법 및 장치
KR20210035381A (ko) * 2019-09-23 2021-04-01 삼성에스디에스 주식회사 의료 진단 방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190198156A1 (en) * 2017-12-21 2019-06-27 International Business Machines Corporation Medical Image Classification Based on a Generative Adversarial Network Trained Discriminator

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102653755B1 (ko) * 2023-07-18 2024-04-03 메타빌드 주식회사 인공지능 영상 딥러닝 모델 학습을 위한 현장 영상 데이터 셋의 수집 시스템 및 방법

Also Published As

Publication number Publication date
KR102591355B1 (ko) 2023-10-20
WO2023027248A1 (ko) 2023-03-02

Similar Documents

Publication Publication Date Title
JP7399102B2 (ja) 医用イメージングにおける自動スライス選択
US11816833B2 (en) Method for reconstructing series of slice images and apparatus using same
KR101898575B1 (ko) 진행성 병변에 대한 미래 상태를 예측하는 방법 및 이를 이용한 장치
Tadeusiewicz Modern computational intelligence methods for the interpretation of medical images
US10867375B2 (en) Forecasting images for image processing
US11449210B2 (en) Method for providing an image base on a reconstructed image group and an apparatus using the same
KR101919908B1 (ko) 의료 영상의 레이블링을 지원하는 방법 및 이를 이용한 장치
US20210082567A1 (en) Method for supporting viewing of images and apparatus using same
KR20210120489A (ko) 레이블 데이터 생성 방법 및 이를 이용한 학습방법 및 장치
Finck et al. Uncertainty-aware and lesion-specific image synthesis in multiple sclerosis magnetic resonance imaging: a multicentric validation study
KR20230030810A (ko) 데이터 생성 방법 및 이를 이용한 학습방법 및 장치
KR102186709B1 (ko) 치아 병변 정보 제공 방법 및 이를 이용한 장치
KR20210033440A (ko) 치아 병변 정보 제공 방법 및 이를 이용한 장치
KR102222816B1 (ko) 진행성 병변의 미래 영상을 생성하는 방법 및 이를 이용한 장치
KR101948701B1 (ko) 피검체의 뇌 구조를 기술하는 잠재 변수에 기반하여 상기 피검체의 뇌질환을 판정하는 방법 및 이를 이용한 장치
KR102556646B1 (ko) 의료 영상 생성 방법 및 장치
WO2023121005A1 (ko) 인공 신경망에 기반하여 분류 정보를 출력하는 방법 및 이를 위한 장치
KR102177567B1 (ko) 골 영상 생성 방법 및 이를 이용한 장치
WO2023121003A1 (ko) 인공 신경망을 이용한 이미지 데이터에 대한 분류 방법 및 이를 위한 장치
KR102595045B1 (ko) Icv 세그먼테이션 정보를 출력하는 방법 및 이를 위한 장치
CN115546174B (zh) 图像处理方法、装置、计算设备及存储介质
WO2023033392A1 (ko) 기계학습 방법 및 장치
KR20230106359A (ko) 컴퓨팅 장치가 이미지 데이터에 대한 분류 정보를 출력하는 방법 및 이를 위한 장치
KR20240037867A (ko) 심층 생성적 적대 신경망을 이용한 교차 중심 스타일 전달 자기 공명 영상 조화 및 생성 기법을 통한 의료 영상 표준화 네트워크 모델의 학습 방법 및 의료 영상의 표준화 방법
JP2022059493A (ja) モデル生成方法、モデル生成装置、画像処理方法及び画像処理装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant