KR102379855B1

KR102379855B1 - 객체 검출 모델 생성 방법 및 장치

Info

Publication number: KR102379855B1
Application number: KR1020210069647A
Authority: KR
Inventors: 김인기; 곽정환
Original assignee: 한국교통대학교산학협력단
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2022-03-28

Abstract

객체 검출 모델 생성 방법 및 장치가 개시된다. 본 개시의 일 실시 예에 따른 객체 검출 모델 생성 방법은, 식별 대상 객체를 촬영한 이미지에 대해 실제 값(Ground-Truth)으로 레이블링된 로우 데이터 세트(Raw Dataset)를 획득하는 단계와, 로우 데이터 세트 중 적어도 일부를 이용하여 초기 학습 모델을 훈련시키는 단계와, 훈련된 학습 모델을 이용하여 로우 데이터 세트에 대한 양성 또는 음성 예측을 수행하여 예측된 데이터 세트를 획득하는 단계와, 로우 데이터 세트의 실제 값 레이블에 기반하여 예측 정확성에 따라 예측된 데이터 세트를 분류하는 단계와, 분류 결과를 기반으로 클러스터링 알고리즘을 적용하여 데이터 샘플링을 수행하는 단계와, 데이터 샘플링 결과 추출된 표본 데이터 세트를 이용하여, 훈련된 학습 모델에 대한 파인 튜닝(Fine Tuning)을 수행하는 단계를 포함할 수 있다.

Description

객체 검출 모델 생성 방법 및 장치{METHOD AND APPARATUS FOR GENERATING OBJECT DETECTION MODEL}

본 개시는 하드 네거티브 마이닝(Hard Negative Mining) 기법과 클러스터링(clustering) 기법을 통한 데이터 샘플링을 수행하여 데이터 간의 균형을 맞춰 학습 정확도를 향상시킬 수 있도록 하는 객체 검출 모델 생성 방법 및 장치에 관한 것이다.

일반적으로 객체 검출(Object Detection)을 수행하는 경우, 객체가 있는 전경(Foreground)보다 객체가 없는 배경(Background) 영역이 더 많다. 이 문제는 객체의 클래스 불균형 문제를 일으키기 때문에 불균형한 학습으로 이루어질 수 있다. 이는 분류(Classification)의 경우에도 마찬가지이다.

한가지 클래스에 치우친 데이터 세트나, 불균형한 분포를 이루는 데이터 세트를 불균형한 데이터 세트(Imbalanced Dataset)라고 하는데, 불균형한 데이터 세트는 성능과 학습 과정에 치명적인 영향을 미치기 때문에 균형 잡힌 데이터 세트를 만드는 것은 상당히 중요한 문제이다.

한편, 의료 시스템에서는 X-Ray 영상이나 CT 영상 등을 통해 병변을 검출하여 감염 여부 등의 진단을 수행하는 과정이 중요한데, 특히 최근에는 COVID-19의 기하급수적인 감염자의 증가에 따라, 의료 시스템에서 보다 정확하고 빠르게 환자의 COVID-19 감염 유무를 판별하는 것이 중요해졌다.

COVID-19에 대한 양성(Positive), 음성(Negative)을 결정하는 분류 네트워크(Classification Network)인 COVID-Net은 환자의 CXR(Chest X-Ray) 사진을 Input Image로 입력하면, 환자의 COVID-19 감염 유무를 양성, 음성으로 판별해주는 네트워크로서 개발되었다. 하지만 COVID-Net은 예를 들어, COVID-19 양성에 대한 데이터 세트는 전체 데이터의 25.2%의 분포를 가지고 있고, COVID-19 음성에 대한 데이터 세트는 전체 데이터의 74.8%의 분포를 가지고 있을 수 있으며, 즉 불균형한 데이터 세트의 특징을 가지고 있을 수 있다.

현실세계의 데이터들은 정규하게 분포되어 있을 확률이 낮은 것은 당연한 문제이다. 병 진단의 경우에도 해당 환자에 대한 데이터보다는 정상인의 데이터가 많은 것이 일반적이기 때문이다.

데이터들이 불균형하게 분포 되어 있을 경우, 과적합은 물론 분포도가 높은 클래스에 가중치가 치우쳐져 있기 때문에, 분포가 높은 클래스에 대한 예측을 실시하면 정답 예측 성능이 높을 것이다. 그러나 이때 성능 문제와 더불어 정확도(Accuracy)는 높아질 수 있어도, 분포가 작은 클래스의 정밀도(Precision)와 재현율(Recall)은 낮아질 수 있다. 더불어 학습한 데이터 외에 새로운 데이터가 입력 된다면 일반화의 정도가 낮아지는 모습 또한 확인 할 수 있다.

전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.

선행기술 1: 한국등록특허 제10-2228168호(2021.03.10.등록)

본 개시의 실시 예의 일 과제는, 하드 네거티브 마이닝(Hard Negative Mining) 기법과 클러스터링(clustering) 기법을 통한 데이터 샘플링을 수행하여 학습 데이터의 균일한 분포를 위한 전처리를 수행하는데 있다.

본 개시의 실시 예의 일 과제는, 예측하기 어려운 하드 네거티브 데이터들을 기반으로 클러스터링(K-평균 클러스터링 및/또는 Random Resampling)을 수행해 표본을 추출하여 전이 학습을 통해 인공지능 모델의 성능을 향상시키고자 하는데 있다.

본 개시의 실시 예의 일 과제는, 특정 객체를 포함하는 이미지를 입력으로 하여 해당 객체의 양성(Positive) 또는 음성(Negative) 여부를 식별하는 딥러닝 알고리즘을 이용하는데 있다.

본 개시의 실시 예의 목적은 이상에서 언급한 과제에 한정되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시 예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 알 수 있을 것이다.

본 개시의 일 실시 예에 따른 객체 검출 모델 생성 방법은, 식별 대상 객체를 촬영한 이미지에 대해 실제 값(Ground-Truth)으로 레이블링된 로우 데이터 세트(Raw Dataset)를 획득하는 단계와, 로우 데이터 세트 중 적어도 일부를 이용하여 초기 학습 모델을 훈련시키는 단계와, 훈련된 학습 모델을 이용하여 로우 데이터 세트에 대한 양성 또는 음성 예측을 수행하여 예측된 데이터 세트를 획득하는 단계와, 로우 데이터 세트의 실제 값 레이블에 기반하여 예측 정확성에 따라 예측된 데이터 세트를 분류하는 단계와, 분류 결과를 기반으로 클러스터링 알고리즘을 적용하여 데이터 샘플링을 수행하는 단계와, 데이터 샘플링 결과 추출된 표본 데이터 세트를 이용하여, 훈련된 학습 모델에 대한 파인 튜닝(Fine Tuning)을 수행하는 단계를 포함할 수 있다.

본 개시의 일 실시 예에 따른 객체 검출 모델 생성 장치는, 메모리와 연결되고, 메모리에 포함된 컴퓨터 판독 가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 적어도 하나의 프로세서는, 식별 대상 객체를 촬영한 이미지에 대해 실제 값(Ground-Truth)으로 레이블링된 로우 데이터 세트(Raw Dataset)를 획득하는 동작과, 로우 데이터 세트 중 적어도 일부를 이용하여 초기 학습 모델을 훈련시키는 동작과, 훈련된 학습 모델을 이용하여 로우 데이터 세트에 대한 양성 또는 음성 예측을 수행하여 예측된 데이터 세트를 획득하는 동작과, 로우 데이터 세트의 실제 값 레이블에 기반하여 예측 정확성에 따라 예측된 데이터 세트를 분류하는 동작과, 분류 결과를 기반으로 클러스터링 알고리즘을 적용하여 데이터 샘플링을 수행하는 동작과, 데이터 샘플링 결과 추출된 표본 데이터 세트를 이용하여, 훈련된 학습 모델에 대한 파인 튜닝(Fine Tuning)을 수행하는 동작을 수행하도록 구성될 수 있다.

이 외에도, 본 발명의 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램이 저장된 컴퓨터로 판독 가능한 기록매체가 더 제공될 수 있다.

전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다.

본 개시의 실시 예에 의하면, 하드 네거티브 마이닝 기법과 클러스터링 기법을 통해 예측하기 어려운 하드 네거티브 데이터들을 기반으로 클러스터링 알고리즘(K-평균 클러스터링 및/또는 Random Resampling)을 수행하여 데이터 표본을 추출하고, 학습 데이터의 균일한 분포를 위한 전처리를 수행함으로써, 에러가 감소되도록 하여 인공지능 모델의 성능을 향상시킬 수 있다.

본 발명의 효과는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 개시의 일 실시 예에 따른 객체 검출 시스템의 개략적인 예시도이다.
도 2는 본 개시의 일 실시 예에 따른 객체 검출 장치를 개략적으로 나타낸 블록도이다.
도 3은 본 개시의 일 실시 예에 따른 객체 검출 모델 생성 과정을 설명하기 위한 도면이다.
도 4는 본 개시의 일 실시 예에 따른 데이터 샘플링 후 양성(Positive) 케이스의 정확도를 나타낸 도면이다.
도 5는 본 개시의 일 실시 예에 따른 데이터 샘플링 후 음성(Negative) 케이스의 정확도를 나타낸 도면이다.
도 6은 본 개시의 일 실시 예에 따른 학습 모델의 6 내지 10 에포크(epoch) 시 오차행렬(Confusion Matrix)을 나타낸 도면이다.
도 7은 본 개시의 일 실시 예에 따른 객체 검출 모델 생성 방법을 설명하기 위한 흐름도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 설명되는 실시 예들을 참조하면 명확해질 것이다.

그러나 본 발명은 아래에서 제시되는 실시 예들로 한정되는 것이 아니라, 서로 다른 다양한 형태로 구현될 수 있고, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 아래에 제시되는 실시 예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

이하, 본 발명에 따른 실시 예들을 첨부된 도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

도 1은 본 개시의 일 실시 예에 따른 객체 검출 시스템의 개략적인 예시도이다.

도 1에 도시된 바와 같이, 객체 검출 시스템(1)은 객체 검출 장치(100), 사용자 단말(200), 서버(300) 및 네트워크(400)를 포함할 수 있다.

본 실시 예에서, 객체 검출 시스템(1)은 특정 객체를 양성(Positive) 또는 음성(Negative)으로 식별하도록 훈련된 객체 검출 모델을 이용하여 객체 검출을 수행함에 있어, 데이터가 불균형한 문제를 해결하기 위해 표본 선택(Sample Selection)을 위한 샘플링 기법의 하나인, 하드 네거티브 마이닝(Hard Negative Mining) 방법과, 데이터를 비율에 맞게 추출하기 위해 K-평균 클러스터링(k-means Clustering) 기법을 적용하여 전처리를 수행함으로써 성능이 향상된 객체 검출 모델을 생성 할 수 있다. 다만 본 실시 예에서는, 클러스터링 알고리즘 기법으로 K-평균 클러스터링을 적용하는 것을 실시 예로 하여 설명하고 있으나, 이에 한정되지 않고, K-평균 클러스터링 단독으로 적용되거나 혹은 K-평균 클러스터링과 다른 Resampling 기법이 동시에 같이 적용될 수도 있다.

한편, 본 실시 예는, 의료 현장에서 질병 진단 등을 수행할 수 있는 딥러닝 기반 학습 모델의 학습 방법에 관한 것으로, 특히 COVID-19(코로나)에 대한 양성 및 음성을 결정하는 분류 네트워크(Classification Network)가 적용될 수 있다. 이때, COVID-19의 데이터 세트, 즉 양성에 대한 데이터 세트는 전체 데이터의 약 25.2%만 차지하는 불균형한 데이터 세트로 이루어져 있을 수 있다. 그 비율이 한정되지 않더라도, 질병 진단에 대한 데이터 세트에서 양성에 해당하는 데이터의 비율이 적어 불균형한 데이터 세트로 구성되는 것이 일반적일 수 있다.

불균형한 데이터 세트로 딥러닝 기반 연산을 수행하는 경우, 상대적으로 높은 거짓 양성(False Positive, FP) 에러가 발생할 수 있다. 다시 말해, 불균형한 데이터 세트로 인해 실제 음성인 데이터에 대해 양성이라고 판단할 수 있는 확률이 높아지는 것이다.

딥러닝 기반 이미지 처리를 수행하는데 있어, 분류하고자 하는 클래스 간의 데이터가 균형을 이룰 때 각 클래스의 특징을 잘 학습하므로, 분류하고자 하는 클래스 간의 데이터의 균형을 맞추는 것이 매우 중요하다.

따라서, 본 실시 예에서는, 데이터 세트 이미지 클래스의 적절한 분포를 통해, 질병 진단을 위한 딥러닝 기반 학습 모델의 성능을 향상시키고자 하는 것이다. 즉 본 실시 예에서는, 하드 네거티브 마이닝을 사용하여 균형 데이터 세트를 생성하고, 이를 이용해 파인 튜닝(Fine tuning)을 실시함으로써, 양성 클래스의 더 높은 정확도를 보장하여 범유행 상황에서 임상의에게 더욱 빠른 대처를 할 수 있게 해줄 수 있다.

하드 네거티브 마이닝은 하드 네거티브 샘플(Hard Negative example)을 추출하고 재학습하여 거짓 양성(FP) 에러를 낮추기 위한 기법이다. 하드 네거티브 샘플은 학습 모델의 관점에서 실제 데이터는 음성이지만, Predicted와 IoU Score가 높아서 양성으로 예측한 데이터 들이다. 예를 들어 사람을 분류하는 모델에서, 사람 모양의 동상이 입력으로 들어오면 동상은 사람이 아니기 때문에 Negative이지만, Predicted와 IoU 스코어는 높을 것이다. 이러한 데이터들을 따로 추출하여 학습을 한다면 위의 예시와 같은 False Positive 에러도 낮추고, 양성에 대한 정확도도 같이 증가할 것이다.

여기서, IoU(Intersection over Union)는 객체의 위치 추정의 정확도를 평가하는 지표이다. 실제 객체의 위치인 bounding box를 ground truth라고 하고, 예측한 bounding box를 predicted라고 할 때 두 box가 겹치는 영역의 크기를 통해 평가하는 방식이다. 두 box가 겹쳐지는 영역이 넓다는 것은 모델이 객체의 위치를 잘 추정했다는 것을 의미한다. IoU는 0과 1 사이의 값을 가지며, 모델이 예측한 이미지 내 Bounding box 별로 IoU를 구해 위치 추정의 정확도를 구할 수 있다.

한편 본 실시 예에서는, 사용자들이 사용자 단말(200)에서 구현되는 어플리케이션 또는 웹사이트에 접속하여, 질병 진단을 위한 대상 객체 이미지(예컨대, 환자의 CXR(Chest X-Ray)사진)를 입력하거나, 질병 진단 결과를 확인하는 것뿐만 아니라, 학습 모델의 하이퍼 파라미터를 설정(입력)하는 등의 과정을 수행할 수 있다. 이러한 사용자 단말(200)은 객체 검출 어플리케이션 또는 객체 검출 웹사이트에 접속한 후 인증 과정을 통하여 서비스를 제공받을 수 있다. 인증 과정은 회원가입 등 사용자 정보를 입력하는 인증, 사용자 단말에 대한 인증 등을 포함할 수 있으나, 이에 한정되지 않고 객체 검출 장치(100) 및/또는 서버(300)에서 전송되는 링크에 접속하는 것만으로 인증 과정이 수행될 수도 있다.

본 실시 예에서, 사용자 단말(200)은 사용자가 조작하는 데스크 탑 컴퓨터, 스마트폰, 노트북, 태블릿 PC, 스마트 TV, 휴대폰, PDA(personal digital assistant), 랩톱, 미디어 플레이어, 마이크로 서버, GPS(global positioning system) 장치, 전자책 단말기, 디지털방송용 단말기, 네비게이션, 키오스크, MP3 플레이어, 디지털 카메라, 가전기기 및 기타 모바일 또는 비모바일 컴퓨팅 장치일 수 있으나, 이에 제한되지 않는다. 또한, 사용자 단말(200)은 통신 기능 및 데이터 프로세싱 기능을 구비한 시계, 안경, 헤어 밴드 및 반지 등의 웨어러블 단말기 일 수 있다. 사용자 단말(200)은 상술한 내용에 제한되지 아니하며, 웹 브라우징이 가능한 단말기는 제한 없이 차용될 수 있다.

한편, 본 실시 예에서 객체 검출 시스템(1)은 객체 검출 장치(100) 및/또는 서버(300)에 의해 구현될 수 있다.

도 2는 본 개시의 일 실시 예에 따른 객체 검출 장치를 개략적으로 나타낸 블록도이다.

도 2에 도시된 바와 같이, 객체 검출 장치(100)는 메모리(110), 통신부(120), 프로세서(130) 및 사용자 인터페이스(140)를 포함할 수 있다.

메모리(110)는 객체 검출 장치(100)의 동작에 필요한 각종 정보들을 저장하고, 객체 검출 장치(100)를 동작시킬 수 있는 제어 소프트웨어를 저장할 수 있는 것으로, 휘발성 또는 비휘발성 기록 매체를 포함할 수 있다.

메모리(110)는 하나 이상의 프로세서(130)와 연결되는 것으로, 프로세서(130)에 의해 실행될 때, 프로세서(130)로 하여금 객체 검출 장치(100)를 제어하도록 야기하는(cause) 코드들을 저장할 수 있다.

여기서, 메모리(110)는 자기 저장 매체(magnetic storage media) 또는 플래시 저장 매체(flash storage media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다. 이러한 메모리(110)는 내장 메모리 및/또는 외장 메모리를 포함할 수 있으며, DRAM, SRAM, 또는 SDRAM 등과 같은 휘발성 메모리, OTPROM(one time programmable ROM), PROM, EPROM, EEPROM, mask ROM, flash ROM, NAND 플래시 메모리, 또는 NOR 플래시 메모리 등과 같은 비휘발성 메모리, SSD. CF(compact flash) 카드, SD 카드, Micro-SD 카드, Mini-SD 카드, Xd 카드, 또는 메모리 스틱(memory stick) 등과 같은 플래시 드라이브, 또는 HDD와 같은 저장 장치를 포함할 수 있다.

특히, 본 실시 예에서, 메모리(110)에는 본 개시에 따른 신경망 모델, 신경망 모델을 이용하여 본 개시의 다양할 실시 예를 구현할 수 있도록 구현된 모듈이 저장될 수 있다. 그리고, 메모리(110)에는 본 개시에 따른 학습을 수행하기 위한 알고리즘에 관련된 정보가 저장될 수 있다. 그 밖에도 본 개시의 목적을 달성하기 위한 범위 내에서 필요한 다양한 정보가 메모리(110)에 저장될 수 있으며, 메모리(110)에 저장된 정보는 서버 또는 외부 장치로부터 수신되거나 사용자에 의해 입력됨에 따라 갱신될 수도 있다.

이때, 서버(300)는 객체 검출 장치(100)가 포함되는 객체 검출 시스템(1)을 운용하기 위한 서버일 수 있다. 또한 서버(300)는 각종 인공 지능 알고리즘을 적용하는데 필요한 빅데이터와, 객체 검출 장치(100)를 동작시키는 데이터를 제공하는 데이터베이스 서버일 수 있다. 그 밖에 서버(300)는 객체 검출 시스템(1)이 구현될 수 있도록 하는 웹 서버 또는 어플리케이션 서버, 그리고 딥러닝 등의 인공지능 프로세스를 수행하는 학습 서버 등을 포함할 수 있다. 본 실시 예에서, 서버(300)는 상술하는 서버들을 포함하거나 이러한 서버들과 네트워킹 할 수 있다.

특히, 본 실시 예에서, 서버(300)는 객체 검출 장치(100)로부터 질병 진단을 하기 위한 엑스레이(X-ray) 등의 신체 촬영 이미지 등을 수신하고, 이미지에 학습 모델을 적용하여, 질병에 대한 양성 또는 음성 여부를 판단하고 분석할 수 있다.

통신부(120)는 네트워크(400)와 연동하여 외부 장치(서버를 포함) 간의 송수신 신호를 패킷 데이터 형태로 제공하는 데 필요한 통신 인터페이스를 제공할 수 있다. 또한 통신부(120)는 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치일 수 있다. 이러한 통신부(120)는 각종 사물 지능 통신(IoT(internet of things), IoE(internet of everything), IoST(internet of small things) 등)을 지원할 수 있으며, M2M(machine to machine) 통신, V2X(vehicle to everything communication) 통신, D2D(device to device) 통신 등을 지원할 수 있다.

이때, 네트워크(400)는 객체 검출 시스템(1)에서 객체 검출 장치(100), 서버(300) 및 사용자 단말(200)을 연결하는 역할을 수행할 수 있다. 이러한 네트워크(400)는 예컨대 LANs(local area networks), WANs(Wide area networks), MANs(metropolitan area networks), ISDNs(integrated service digital networks) 등의 유선 네트워크나, 무선 LANs, CDMA, 블루투스, 위성 통신 등의 무선 네트워크를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다. 또한 네트워크(400)는 근거리 통신 및/또는 원거리 통신을 이용하여 정보를 송수신할 수 있다. 여기서 근거리 통신은 블루투스(bluetooth), RFID(radio frequency identification), 적외선 통신(IrDA, infrared data association), UWB(ultra-wideband), ZigBee, Wi-Fi(Wireless fidelity) 기술을 포함할 수 있고, 원거리 통신은 CDMA(code division multiple access), FDMA(frequency division multiple access), TDMA(time division multiple access), OFDMA(orthogonal frequency division multiple access), SC-FDMA(single carrier frequency division multiple access) 기술을 포함할 수 있다.

네트워크(400)는 허브, 브리지, 라우터, 스위치 및 게이트웨이와 같은 네트워크 요소들의 연결을 포함할 수 있다. 네트워크(400)는 인터넷과 같은 공용 네트워크 및 안전한 기업 사설 네트워크와 같은 사설 네트워크를 비롯한 하나 이상의 연결된 네트워크들, 예컨대 다중 네트워크 환경을 포함할 수 있다. 네트워크(400)에의 액세스는 하나 이상의 유선 또는 무선 액세스 네트워크들을 통해 제공될 수 있다. 더 나아가 네트워크(400)는 사물 등 분산된 구성 요소들 간에 정보를 주고받아 처리하는 IoT(Internet of Things, 사물인터넷) 망 및/또는 5G 통신을 지원할 수 있다.

즉, 프로세서(130)는 통신부(120)를 통해 연결된 외부 장치로부터 각종 데이터 또는 정보를 수신할 수 있으며, 외부 장치로 각종 데이터 또는 정보를 전송할 수도 있다. 그리고, 통신부(120)는 WiFi 모듈, Bluetooth 모듈, 무선 통신 모듈, 및 NFC 모듈 중 적어도 하나를 포함할 수 있다.

사용자 인터페이스(140)는 질병 진단을 위해 객체 검출 장치(100)에 적용되는 정상인의 엑스레이 이미지, 환자의 엑스레이 이미지 등이 획득 및 수집되고, 질병 진단을 위한 사용자 요청 및 명령들이 입력되는 입력 인터페이스를 포함할 수 있다. 이때 정상인의 엑스레이 이미지, 환자의 엑스레이 이미지 등은 사용자에 의해 입력되거나 서버로부터 획득될 수 있다.

그리고 사용자 인터페이스(140)는 객체 검출 장치(100)에서 수행된 결과가 출력되는 출력 인터페이스를 포함할 수 있다. 예를 들어, 질병 진단 결과에 따른 감염 여부가 출력될 수 있다. 즉 사용자 인터페이스(140)는 질병 진단을 위한 사용자 요청 및 명령에 따른 결과를 출력할 수 있다.

이러한 사용자 인터페이스(140)의 입력 인터페이스와 출력 인터페이스는 동일한 인터페이스에서 구현될 수 있다.

프로세서(130)는 객체 검출 장치(100)의 전반적인 동작을 제어할 수 있다. 구체적으로, 프로세서(130)는 상술한 바와 같은 메모리(110)를 포함하는 객체 검출 장치(100)의 구성과 연결되며, 상술한 바와 같은 메모리(110)에 저장된 적어도 하나의 명령을 실행하여 객체 검출 장치(100)의 동작을 전반적으로 제어할 수 있다.

프로세서(130)는 다양한 방식으로 구현될 수 있다. 예를 들어, 프로세서(130)는 주문형 집적 회로(Application Specific Integrated Circuit, ASIC), 임베디드 프로세서, 마이크로 프로세서, 하드웨어 컨트롤 로직, 하드웨어 유한 상태 기계(Hardware Finite State Machine, FSM), 디지털 신호 프로세서(Digital Signal Processor, DSP) 중 적어도 하나로 구현될 수 있다.

프로세서(130)는 일종의 중앙처리장치로서 메모리(110)에 탑재된 제어 소프트웨어를 구동하여 객체 검출 장치(100) 전체의 동작을 제어할 수 있다. 프로세서(130)는 데이터를 처리할 수 있는 모든 종류의 장치를 포함할 수 있다. 여기서, '프로세서(processor)'는, 예를 들어 프로그램 내에 포함된 코드 또는 명령어로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로써, 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 처리 장치를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.

본 실시 예에서 프로세서(130)는 객체 검출 장치(100)가 최적의 질병 진단 결과를 출력하도록, 획득된 대상 객체 이미지에 대하여 딥러닝(Deep Learning) 등 머신 러닝(machine learning)을 수행할 수 있고, 메모리(110)는, 머신 러닝에 사용되는 데이터, 결과 데이터 등을 저장할 수 있다.

즉 본 실시 예에서, 프로세서(130)는 딥러닝 기반 이미지 처리 기술을 활용한 질병 진단을 수행하는 것으로, 질병을 진단하고자 하는 대상 객체를 촬영한 이미지(예컨대, CXR(Chest X-Ray) 이미지)를 획득하고, 특정 객체를 양성 또는 음성으로 분류하도록 훈련된 딥러닝 기반 학습 모델을 로딩할 수 있다. 그리고 프로세서(130)는 획득한 대상 객체 이미지에 상기 로딩한 학습 모델을 적용하여 대상 객체에 대해 양성 또는 음성 여부를 출력할 수 있다.

즉 본 실시 예는, 의료 현장에서 질병을 진단하는 인공신경망의 효과적인 학습 방법을 제안하는 것으로, 인공신경망은 분류하고자 하는 클래스의 특징을 제공 받은 데이터를 통해 스스로 찾고 이를 학습할 수 있다. 잘 학습된 인공신경망은 처음 보는 데이터도 실제 클래스로 잘 분류할 수 있다.

특히 인공신경망은 분류하고자 하는 클래스의 데이터가 균형을 이룰 때 클래스별 특징을 잘 학습하기 때문에, 본 실시 예에서는, 양성 클래스와 음성 클래스의 데이터가 균형을 이룰 수 있도록 학습 모델을 학습할 수 있다. 즉 본 실시 예에서, 프로세서(130)는 질병 진단을 위한 학습 모델인 객체 검출 모델을 생성(학습)하는 모델 생성부(131)를 포함할 수 있다. 모델 생성부(131)에서 객체 검출 모델을 생성하는 구체적인 방법에 대해서는 도 3을 참조하여 후술하도록 한다.

도 3은 본 개시의 일 실시 예에 따른 객체 검출 모델 생성 과정을 설명하기 위한 도면이다.

본 실시 예에서, 모델 생성부(131)는 원본의 불균형한 데이터 세트에서 K-평균 클러스터링 기법과 하드 네거티브 마이닝 기법을 적용하여 클래스의 분포가 균일한 데이터 세트를 생성할 수 있다.

보다 구체적으로 설명하면, 모델 생성부(131)는 객체 검출을 위해(예컨대, 감염 여부 확인을 위해), 클래스 간의 불균형한 분포를 이루는 로우 데이터 세트에 대한 전처리를 수행할 수 있다. 여기서, 로우 데이터 세트에는, 예를 들어, 환자들의 X-RAY, CT이 외에도 촬영 기법(PA, AP)등 다양한 증상이 나타나 있는 데이터들이 포함될 수 있다.

이때 모델 생성부(131)는 식별 대상 객체를 촬영한 이미지에 대해 실제 값(Ground-Truth)으로 레이블링된 로우 데이터 세트(Raw Dataset)를 획득하고, 로우 데이터 세트 중 일부를 이용하여 초기 학습 모델을 훈련시킬 수 있다. 여기서, 초기 학습 모델은 개발자가 초기에 랜덤한 파라미터 값들을 가지고 생성한 훈련 전의 학습 모델을 의미할 수 있다.

그리고 모델 생성부(131)는 훈련된 학습 모델을 이용하여 로우 데이터 세트에 대한 양성 또는 음성 예측을 수행하여 예측된 데이터 세트를 획득할 수 있다. 즉, 모델 생성부(131)는 로우 데이터 세트의 이미지마다 양성 또는 음성에 대한 예측 값이 할당된 데이터 세트를 획득할 수 있다.

또한 모델 생성부(131)는 로우 데이터 세트의 실제 값 레이블에 기반하여 예측 정확성에 따라 상기 예측된 데이터 세트를 분류하고, 분류 결과를 기반으로 클러스터링 알고리즘을 적용하여 데이터 샘플링을 수행할 수 있다. 그리고 모델 생성부(131)는 데이터 샘플링 결과 추출된 표본 데이터 세트를 이용하여, 훈련된 학습 모델에 대한 파인 튜닝(Fine Tuning)을 수행할 수 있다. 이때, 학습 모델은 입력 데이터 세트에 대한 예측 확률이 출력 값으로 출력되는 소프트맥스(softmax) 함수가 적용될 수 있다.

본 실시 예에서, 모델 생성부(131)는 예측된 데이터 세트를 TP(True Positive) 그룹, TN(True Negative) 그룹, FP(False Positive) 그룹 및 FN(False Negative) 그룹 중 하나로 분류할 수 있다.

여기서, TP 그룹은 실제 레이블이 양성(Positive)이고 예측 값이 양성인 데이터 세트를 포함하고, TN 그룹은 실제 레이블이 음성(Negative)이고 예측 값이 음성인 데이터 세트를 포함하며, FP 그룹은 실제 레이블이 음성이고 예측 값이 양성인 데이터 세트를 포함하고, FN 그룹은 실제 레이블이 양성이고 예측 값이 음성인 데이터 세트를 포함할 수 있다.

그리고 모델 생성부(131)는 각각 TP 그룹, TN 그룹, FP 그룹 및 FN 그룹 중 하나로 분류된 예측된 데이터 세트를 기반으로 데이터 샘플링을 수행할 수 있다.

즉 모델 생성부(131)는 실제 레이블이 양성인 TP 그룹과 FN 그룹에 포함되는 데이터 세트들에 대한 데이터 샘플링을 수행할 수 있으며, 즉 TP 그룹에 대해 데이터 샘플링을 수행하여 파인 튜닝에 사용될 제1 이미지들을 추출할 수 있다. 그리고 모델 생성부(131)는 실제 레이블이 음성인 TN 그룹과 FP 그룹에 포함되는 데이터 세트들에 대한 데이터 샘플링을 수행할 수 있으며, 즉 TN 그룹에 대해 데이터 샘플링을 수행하여 파인 튜닝에 사용된 제2 이미지들을 추출할 수 있다.

보다 구체적으로, 모델 생성부(131)는 TP 그룹의 데이터 각각에 대해 훈련된 학습 모델을 적용하여 출력된 확률 값의 순서대로 TP 그룹의 데이터를 정렬할 수 있다. 그리고 모델 생성부(131)는 정렬된 TP 그룹의 데이터에 대해 클러스터링을 수행하고, TP 그룹에 대해 생성된 클러스터링 그룹들의 센트로이드(centroid)에 가장 가까운 확률 값들을 가지는 제1 이미지들을 제1 개수만큼 추출할 수 있다.

또한, 모델 생성부(131)는 TN 그룹의 데이터 각각에 대해 훈련된 학습 모델을 적용하여 출력된 확률 값의 순서대로 TN 그룹의 데이터를 정렬할 수 있다. 그리고 모델 생성부(131)는 정렬된 TN 그룹의 데이터에 대해 클러스터링을 수행하고, TN 그룹에 대해 생성된 클러스터링 그룹들의 센트로이드에 가장 가까운 확률 값들을 가지는 제2 이미지들을 제2 개수만큼 추출할 수 있다.

즉 본 실시 예에서는, 정렬된 TP 그룹의 데이터에 대해 클러스터링을 수행할 때, K-평균 클러스터링 알고리즘(K-means clustering algorithm)을 이용하여 수행할 수 있다. 여기서 K 값은 FN 그룹의 데이터 개수로 정해질 수 있으며, 즉 제1 개수는 FN 그룹의 데이터 개수일 수 있다. 마찬가지로, 모델 생성부(131)는 정렬된 TN 그룹의 데이터에 대해 클러스터링을 수행할 때, K-평균 클러스터링 알고리즘을 이용하여 수행할 수 있다. 여기서 K 값은 FP 그룹의 데이터 개수로 정해질 수 있으며, 즉 제2 개수는 FP 그룹의 데이터 개수일 수 있다.

그리고 모델 생성부(131)는 실제 값으로 레이블링된 제1 이미지들 및 제2 이미지들을 표본 데이터 세트로 생성할 수 있다.

본 실시 예에서, 정렬된 TP 그룹의 데이터에 대해 클러스터링을 수행하는 것은, 양성(Positive) 예측에 대한 표본 선택(Sample Selection)을 의미할 수 있다. 예를 들어, 전체 데이터 세트(로우 데이터 세트)에서 Positive Case(TP 그룹과 FN 그룹)는 18,443개 중 4,649개이며, 25.2% 정도의 비율을 차지하고 있을 수 있으며, Positive Case에 대한 예측에 대해서는 전체 4,649개 중 양성(Positive)에 대한 데이터는 3,563개, 음성(Negative)에 대한 데이터는 1,086개일 수 있다.

이때 본 실시 예에서, 모델 생성부(131)는, FN 그룹에 포함되는 데이터의 수와 TP 그룹에 포함되는 데이터의 수를 동일하게 추출하기 위해 TP 그룹의 3,563개의 대상 객체 이미지(예컨대, CXR 이미지)의 확률 값을 리스트로 만들어 증가하는 순서대로 정렬할 수 있다.

그리고 모델 생성부(131)는 정렬된 확률 값 기반 리스트들에 K-평균 클러스터링 알고리즘을 적용할 수 있으며, 이때 K의 개수는 예를 들어, FN 그룹에 포함된 데이터의 개수인 1,086개로 설정될 수 있다. 즉 모델 생성부(131)는 생성된 클러스터링 그룹들의 센트로이드에 가장 가까운 확률 값들의 이미지를 추출하여 FN 그룹에 포함되는 데이터의 수와 동일한 TP 그룹에 포함되는 데이터(즉, TP 그룹에 포함되는 CXR 이미지)들을 선택하여 추출할 수 있다.

한편, 본 실시 예에서, 정렬된 TN 그룹의 데이터에 대해 클러스터링을 수행하는 것은, 음성(Negative) 예측에 대한 표본 선택(Sample Selection)을 의미할 수 있다. 예를 들어, 전체 데이터 세트(로우 데이터 세트)에서 Negative Case(TN그룹과 FP 그룹)는 18,443개 중 13,794개이며, 74.8% 정도의 비율을 차지하고 있을 수 있다. 그리고 Negative Case에 대한 예측에 대해서는 전체 13,794개 중 예측에 성공한 경우(예측 결과, Negative인 경우)는 13,368개(96.9%), 예측에 실패한 경우(예측 결과, Positive인 경우)에는 426개(3.1%)일 수 있다.

이때 본 실시 예에서, 모델 생성부(131)는 FP 그룹에 포함되는 데이터의 수와 동일하게 TN 그룹에 포함되는 데이터를 추출해야 하므로, TN 그룹의 13,368개의 대상 객체 이미지(예컨대, CXR 이미지)의 확률 값을 리스트로 만들어 증가하는 순서대로 정렬할 수 있다.

그리고 모델 생성부(131)는 정렬된 확률 값 기반 리스트들에 K-평균 클러스터링 알고리즘을 적용할 수 있으며, 이때 K의 개수는 예를 들어, FP 그룹에 포함된 데이터의 개수인 426개로 설정될 수 있다. 즉 모델 생성부(131)는 생성된 클러스터링 그룹들의 센트로이드에 가장 가까운 확률 값들의 이미지를 추출하여 FP 그룹에 포함되는 데이터의 수와 동일한 TN 그룹에 포함되는 데이터(즉, TN 그룹에 포함되는 CXR 이미지)들을 선택하여 추출할 수 있다.

한편, K-평균 클러스터링은 주어진 데이터를 K 개의 클러스터로 묶는 알고리즘으로, 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작할 수 있다. 본 실시 예에서는, 이를 이용하여 데이터 샘플링을 하는 것으로, K 개의 클러스터 개수를 지정하고(예를 들어, FN 그룹에 포함된 데이터의 개수인 1,086개), K 개의 센트로이드를 설정한 후, 각 센트로이드에 대해, 데이터의 확률 값을 기반으로 모든 데이터를 가장 가까운 센트로이드에 할당할 수 있다. 그리고 센트로이드를 할당된 데이터들의 중심으로 이동시키는 과정을 수행하는데, 이는 클러스터링 그룹의 변화가 없을 때까지 반복되거나, 지정한 최대 횟수 동안 반복될 수 있다. 그리고 각 클러스터링 그룹의 센트로이드에 대해, 모든 데이터들의 확률 값을 기반으로 가장 가까운 이미지들을 각각 추출할 수 있는 것이다. 즉, 1,086개의 클러스터에서 한 개씩 데이터를 추출하므로, TP 그룹에 포함된 데이터가 1,086개 추출될 수 있다. 이때 K-평균 클러스터링 기법은 공지 기술이므로, 그 구체적인 방법에 대한 설명은 생략한다.

즉, 본 실시 예에서, 모델 생성부(131)는 TP 그룹, TN 그룹, FP 그룹 및 FN 그룹의 데이터 수를 기반으로, TP 그룹과 FN 그룹의 데이터 수가 1:1 비율을 이루고, TN 그룹과 FP 그룹의 데이터 수가 1:1 비율을 이룰 수 있도록 K-평균 클러스터링 기법을 적용할 수 있는 것이다.

결과적으로, 상기의 과정을 통해 추출된 데이터는, Positive 예측에 대한 1,086개의 데이터(예컨대, CXR Image) 2개, Negative 예측에 대한 426개의 데이터(예컨대, CXR Image) 2개, 총 3,024개일 수 있다.

그리고 모델 생성부(131)는 데이터 샘플링 결과 추출된 표본 데이터 세트에 대해 설정 비율로 테스트 데이터 세트와 훈련 데이터 세트로 분류하여 파인 튜닝을 수행할 수 있다. 모델 생성부(131)는 예컨대, 3,024개의 데이터 세트를 가지고 파인 튜닝을 수행할 수 있는데, 이때 테스트 데이터 세트와 훈련 데이터 세트를 2대8 비율로 분류할 수 있다.

도 3을 참조하여 정리하면, 본 실시 예에서는, 예를 들어, 환자의 CXR(Chest X-Ray)을 입력하면 COVID-19의 감염 유무를 양성, 음성으로 결과를 나타내는 인공지능 학습 모델을 기반으로 하며, 로우 데이터 세트의 경우, 클래스 간의 데이터 분포가 불균형하다(예를 들어, 양성은 25.2%, 음성은 74.8%로 1:3의 비율).

이에 모델 생성부(131)는 균형 잡힌 데이터 세트로 생성하여 보다 효율적인 학습을 위해, 소프트맥스 함수가 적용되는 레이어를 포함하는 학습 모델을 이용하여 출력된, 클래스간 분포가 불균형한 로우 데이터 세트에 대한 확률 값들을 기반으로 리스트로 만들어 오름차순으로 정렬하여, TP 그룹, FN 그룹, TN 그룹 및 FP 그룹 중 하나로 분류를 할 수 있고, TP 그룹과 FN 그룹, 그리고 TN 그룹과 FP 그룹을 묶어서 FN 그룹과 FP 그룹의 데이터 수에 맞게 K-평균 클러스터링의 K를 설정하여, TP 그룹과 TN 그룹의 데이터 수를 각각 FN 그룹과 FP 그룹의 데이터의 수에 맞게 1:1 비율로 추출할 수 있다.

그리고 본 실시 예에서는 균형 데이터 세트(Balanced Dataset)를 가지고 파인 튜닝(또는 전이 학습(transfer learning)이라고 할 수도 있음)을 수행할 수 있는데, 이때, 학습 모델의 에포크(epoch)마다 정확도를 측정하여, 정확도가 기준 범위 이내에 도달할 때까지 반복할 수 있다.

도 4는 본 개시의 일 실시 예에 따른 데이터 샘플링 후 양성(Positive) 케이스의 정확도를 나타낸 도면이고, 도 5는 본 개시의 일 실시 예에 따른 데이터 샘플링 후 음성(Negative) 케이스의 정확도를 나타낸 도면이며, 도 6은 본 개시의 일 실시 예에 따른 학습 모델의 6 내지 10 에포크(epoch) 시 오차행렬(Confusion Matrix)을 나타낸 도면이다.

도 4 내지 도 6을 참조하여, 균형 데이터 세트로 인해 학습 모델의 성능이 향상되었는지 확인할 수 있다.

본 실시 예의 학습 모델의 로우 데이터 세트, 즉 초기 불균형한 데이터 세트에서, 하드 네거티브 마이닝 기법 및 K-평균 클러스터링 기법을 이용한 샘플링을 수행한 결과, 도 4에 도시된 Positive Case의 정확도를 살펴보면, 에포크가 증가할수록 Positive Case의 검출 능력이 증가하는 것을 확인할 수 있다. 이때, 가로 축은 에포크의 수, 세로축은 정확도를 의미한다.

반대로 도 5에 도시된 Negative Case의 정확도를 살펴보면, 에포크가 증가할수록 감소하는 것을 확인할 수 있다. 상기와 마찬가지로, 가로 축은 에포크의 수, 세로축은 정확도를 의미한다.

이때 Positive Case의 정확도가 가장 높고 Negative Case의 정확도가 가장 낮은 10 에포크가 가장 이상적이라고 할 수도 있으나, Positive case를 감지하는 것뿐만 아니라, Negative case를 놓치지 않는 것도 중요할 수 있다. 즉, 10 에포크에서 Positive case가 86%의 정확도를 보이지만, Negative case에서는 오히려 감소한 76%의 정확도를 보이기 때문에, 보다 균형 잡힌 8 에포크 정도가 가장 이상적인 성능을 보인다고 할 수 있다.

도 6을 참조하면, 오차행렬(Confusion Matrix)를 통해 학습 모델의 정확도를 확인할 수 있는데, 오차행렬은 학습 모델의 정확도를 2X2 행렬로 표시하는 방법이다. 즉, 분류 알고리즘이 실제(actual) 값과 비교했을 때 얼마나 정확하게 값을 예측(predict)했는지를 보기 쉽게 행렬로 표현하는 방법이다. 도 6의 (a) 내지 (e)는 6 에포크부터 10 에포크까지의 오차행렬을 나타낸 것으로, 표시된 부분은 올바르게 예측한 값의 확률을 나타낸다. 다시 말해, 표시된 부분은 실제 양성인 데이터를 양성으로 예측한 TP와 실제 음성인 데이터를 음성으로 예측한 TN을 나타내며, 둘의 합이 가장 큰 8 에포크가 가장 정확도가 높다고 할 수 있다(도 6의 (c) 참조). 즉 오차행렬을 통해서도 8 에포크 정도가 가장 이상적인 성능을 보인다고 할 수 있다.

따라서 불균형한 데이터 세트에서 본 실시 예의 방법을 적용하여 균형 잡힌 데이터 세트를 생성하는 경우, 데이터 세트에 대한 정확도가 상승하며, 학습 모델의 성능이 향상됨을 확인할 수 있다. 즉, 본 실시 예에서는, 불균형한 데이터 세트들에 하드 네거티브 마이닝 기법과 K-평균 클러스터링 기법을 적용하여 데이터 클래스의 분포가 균일한 데이터 세트를 생성함으로써, 보다 용이한 학습과 과적합 방지, 일반화의 증가, 정밀도(Precision) 및 재현율(Recall) 상승, 가중치의 치우침 방지의 문제를 해결하여 False Positive를 감소시킬 수 있다.

도 7은 본 개시의 일 실시 예에 따른 객체 검출 모델 생성 방법을 설명하기 위한 흐름도이다.

도 7을 참조하면, S100단계에서, 모델 생성부(131)는 식별 대상 객체를 촬영한 이미지에 대해 실제값(Ground-Truth)으로 레이블링된 로우 데이터 세트(Raw Dataset)를 획득한다.

한편, 본 실시 예는, 딥러닝 기반 이미지 처리 기술을 활용한 질병 진단을 수행하는 것으로, 로우 데이터 세트는 질병을 진단하고자 하는 대상 객체를 촬영한 이미지(예컨대, CXR(Chest X-Ray) 이미지)를 포함할 수 있다. 특히 질병 진단 관련 획득 데이터 세트에서는 양성 클래스가 음성 클래스 대비 매우 비율이 적은 경우가 많으며, 본 실시 예에서도 로우 데이터 세트는 불균형한 데이터 분포를 이루고 있을 수 있다.

S200단계에서, 모델 생성부(131)는 로우 데이터 세트 중 적어도 일부를 이용하여 초기 학습 모델을 훈련시킨다.

여기서, 초기 학습 모델은 개발자가 초기에 랜덤한 파라미터 값들을 가지고 생성한 훈련 전의 학습 모델을 의미할 수 있다.

그리고 S300단계에서, 모델 생성부(131)는 훈련된 학습 모델을 이용하여 로우 데이터 세트에 대한 양성 또는 음성 예측을 수행하여 예측된 데이터 세트를 획득한다.

여기서, 예측된 데이터 세트는 로우 데이터 세트의 이미지마다 예측 값이 할당된 데이터 세트를 의미할 수 있다.

S400단계에서, 모델 생성부(131)는 로우 데이터 세트의 실제값 레이블에 기반하여 예측 정확성에 따라 예측된 데이터 세트를 분류한다.

그리고 S500단계에서, 모델 생성부(131)는 분류 결과를 기반으로 클러스터링 알고리즘을 적용하여 데이터 샘플링을 수행한다.

다만, 본 실시 예에서는, 이에 한정되지 않고, 클러스터링 알고리즘 기법으로 K-평균 클러스터링 기법이 단독으로 적용되거나 혹은 K-평균 클러스터링 기법과 Random Resampling 기법이 동시에 같이 적용될 수도 있다. 또한 Random Resampling 방법에 대해서는 구체적으로 한정되지 않으며, 실시 예에 따라서 다양한 Resampling 방법이 적용될 수 있다.

S600단계에서, 모델 생성부(131)는 데이터 샘플링 결과 추출된 표본 데이터 세트를 이용하여, 훈련된 학습 모델에 대한 파인 튜닝(Fine Tuning)을 수행한다.

모델 생성부(131)는 데이터 샘플링 결과 추출된 표본 데이터 세트에 대해 설정 비율로 테스트 데이터 세트와 훈련 데이터 세트로 분류하여 파인 튜닝을 수행할 수 있다.

이때, 모델 생성부(131)는 학습 모델의 에포크(epoch)마다 정확도를 측정하여, 정확도가 기준 범위 이내에 도달할 때까지 반복할 수 있다.

즉, 본 실시 예에서는 정확도가 기준 범위 이내에 도달할 때까지 반복한 후, 식별 대상 객체를 촬영한 이미지에 학습 모델을 적용하여 대상 객체에 대해 양성 또는 음성 여부를 출력한다.

즉, 딥러닝 기반 이미지 처리를 수행하는데 있어, 분류하고자 하는 클래스 간의 데이터가 균형을 이룰 때 각 클래스의 특징을 잘 학습하므로, 분류하고자 하는 클래스 간의 데이터의 균형을 맞추는 전처리를 수행한 후, 양상 또는 음성을 출력하는 연산을 수행함으로써, 질병 진단을 위한 딥러닝 기반 학습 모델의 성능을 향상시킬 수 있다. 따라서 본 실시 예에서는, 하드 네거티브 마이닝을 사용하여 균형 데이터 세트를 생성하고, 이를 이용해 파인 튜닝(Fine tuning)을 실시함으로써, 양성 클래스의 더 높은 정확도를 보장하여 범유행 상황에서 임상의에게 더욱 빠른 대처를 할 수 있게 해줄 수 있다.

이상 설명된 본 발명에 따른 실시 예는 컴퓨터 상에서 다양한 구성요소를 통하여 실행될 수 있는 컴퓨터 프로그램의 형태로 구현될 수 있으며, 이와 같은 컴퓨터 프로그램은 컴퓨터로 판독 가능한 매체에 기록될 수 있다. 이때, 매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다.

한편, 상기 컴퓨터 프로그램은 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 프로그램의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함될 수 있다.

본 발명의 명세서(특히 특허청구범위에서)에서 "상기"의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 본 발명에서 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 적용한 발명을 포함하는 것으로서(이에 반하는 기재가 없다면), 발명의 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다.

본 발명에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 발명이 한정되는 것은 아니다. 본 발명에서 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시 예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

1 : 객체 검출 시스템
100 : 객체 검출 장치
110 : 메모리
120 : 통신부
130 : 프로세서
131 : 모델 생성부
140 : 사용자 인터페이스
200 : 사용자 단말
300 : 서버
400 : 네트워크

Claims

객체 검출 모델 생성 장치에 의해 각 단계가 수행되는, 특정 객체를 양성(Positive) 또는 음성(Negative)으로 식별하도록 훈련된 객체 검출 모델을 생성하기 위한 방법으로서,
식별 대상 객체를 촬영한 이미지에 대해 실제 값(Ground-Truth)으로 레이블링된 로우 데이터 세트(Raw Dataset)를 획득하는 단계;
상기 로우 데이터 세트 중 적어도 일부를 이용하여 초기 학습 모델을 훈련시키는 단계;
상기 훈련된 학습 모델을 이용하여 상기 로우 데이터 세트에 대한 양성 또는 음성 예측을 수행하여 예측된 데이터 세트를 획득하는 단계;
상기 로우 데이터 세트의 실제 값 레이블에 기반하여 예측 정확성에 따라 상기 예측된 데이터 세트를 분류하는 단계;
상기 분류 결과를 기반으로 클러스터링 알고리즘을 적용하여 데이터 샘플링을 수행하는 단계; 및
상기 데이터 샘플링 결과 추출된 표본 데이터 세트를 이용하여, 상기 훈련된 학습 모델에 대한 파인 튜닝(Fine Tuning)을 수행하는 단계를 포함하되,
상기 예측된 데이터 세트를 분류하는 단계는,
상기 예측된 데이터 세트를 TP(True Positive) 그룹, TN(True Negative) 그룹, FP(False Positive) 그룹 및 FN(False Negative) 그룹 중 하나로 분류하는 단계를 포함하고,
상기 데이터 샘플링을 수행하는 단계는,
상기 TP 그룹에 대해 데이터 샘플링을 수행하여 파인 튜닝에 사용된 제1 이미지들을 추출하는 단계를 포함하며,
상기 제1 이미지들을 추출하는 단계는,
상기 TP 그룹의 데이터 각각에 대해 상기 훈련된 학습 모델을 적용하여 출력된 확률 값의 순서대로 상기 TP 그룹의 데이터를 정렬하는 단계;
정렬된 상기 TP 그룹의 데이터에 대해 클러스터링을 수행하는 단계; 및
상기 TP 그룹으로부터, 상기 TP 그룹에 대해 생성된 클러스터링 그룹들의 센트로이드(centroid)에 가장 가까운 확률 값들을 가지는 제1 이미지들을 제1 개수만큼 추출하는 단계를 포함하는,
객체 검출 모델 생성 방법.
제 1 항에 있어서,
상기 데이터 샘플링을 수행하는 단계는,
상기 TN 그룹에 대해 데이터 샘플링을 수행하여 파인 튜닝에 사용될 제2 이미지들을 추출하는 단계; 및
실제 값으로 레이블링된 상기 제1 이미지들 및 상기 제2 이미지들을 상기 표본 데이터 세트로 생성하는 단계를 더 포함하는,
객체 검출 모델 생성 방법.
삭제
제 2 항에 있어서,
상기 제2 이미지들을 추출하는 단계는,
상기 TN 그룹의 데이터 각각에 대해 상기 훈련된 학습 모델을 적용하여 출력된 확률 값의 순서대로 상기 TN 그룹의 데이터를 정렬하는 단계;
정렬된 상기 TN 그룹의 데이터에 대해 클러스터링을 수행하는 단계; 및
상기 TN 그룹에 대해 생성된 클러스터링 그룹들의 센트로이드에 가장 가까운 확률 값들을 가지는 제2 이미지들을 제2 개수만큼 추출하는 단계를 포함하는,
객체 검출 모델 생성 방법.
제 2 항에 있어서,
상기 정렬된 상기 TP 그룹의 데이터에 대해 클러스터링을 수행하는 단계는, K-평균 클러스터링 알고리즘(K-means clustering algorithm) 및 random Resampling 중 적어도 하나 이상을 이용하여 수행되고, 여기서 K-평균 클러스터링에 대한 K 값은 상기 FN 그룹의 데이터 개수에 따라 정해지며,
상기 제1 개수는 상기 FN 그룹의 데이터 개수에 따라 정해지는,
객체 검출 모델 생성 방법.
제 4 항에 있어서,
상기 정렬된 상기 TN 그룹의 데이터에 대해 클러스터링을 수행하는 단계는 K-평균 클러스터링 알고리즘(K-means clustering algorithm) 및 random Resampling 중 적어도 하나 이상을 이용하여 수행되고, 여기서 K-평균 클러스터링에 대한 K 값은 상기 FP 그룹의 데이터 개수에 따라 정해지며,
상기 제2 개수는 상기 FP 그룹의 데이터 개수에 따라 정해지는,
객체 검출 모델 생성 방법.
제 1 항에 있어서,
상기 파인 튜닝을 수행하는 단계는,
상기 데이터 샘플링 결과 추출된 표본 데이터 세트에 대해 설정 비율로 테스트 데이터 세트와 훈련 데이터 세트로 분류하여 파인 튜닝을 수행하는 단계를 포함하는,
객체 검출 모델 생성 방법.
제 1 항에 있어서,
상기 파인 튜닝을 수행하는 단계는,
상기 학습 모델의 에포크(epoch)마다 정확도를 측정하여, 정확도가 기준 범위 이내에 도달할 때까지 반복하는 단계를 포함하는,
객체 검출 모델 생성 방법.
제 1 항에 있어서,
상기 학습 모델은,
입력 데이터 세트에 대한 예측 확률이 출력 값으로 출력되는 소프트맥스(softmax) 함수가 적용되는,
객체 검출 모델 생성 방법.
특정 객체를 양성(Positive) 또는 음성(Negative)으로 식별하도록 훈련된 객체 검출 모델을 생성하기 위한 장치로서,
메모리; 및
상기 메모리와 연결되고, 상기 메모리에 포함된 컴퓨터 판독 가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고,
상기 적어도 하나의 프로세서는,
식별 대상 객체를 촬영한 이미지에 대해 실제 값(Ground-Truth)으로 레이블링된 로우 데이터 세트(Raw Dataset)를 획득하는 동작,
상기 로우 데이터 세트 중 적어도 일부를 이용하여 초기 학습 모델을 훈련시키는 동작,
상기 훈련된 학습 모델을 이용하여 상기 로우 데이터 세트에 대한 양성 또는 음성 예측을 수행하여 예측된 데이터 세트를 획득하는 동작,
상기 로우 데이터 세트의 실제 값 레이블에 기반하여 예측 정확성에 따라 상기 예측된 데이터 세트를 분류하는 동작,
상기 분류 결과를 기반으로 클러스터링 알고리즘을 적용하여 데이터 샘플링을 수행하는 동작, 및
상기 데이터 샘플링 결과 추출된 표본 데이터 세트를 이용하여, 상기 훈련된 학습 모델에 대한 파인 튜닝(Fine Tuning)을 수행하는 동작을 수행하도록 구성되며,
상기 예측된 데이터 세트를 분류하는 동작은,
상기 예측된 데이터 세트를 TP(True Positive) 그룹, TN(True Negative) 그룹, FP(False Positive) 그룹 및 FN(False Negative) 그룹 중 하나로 분류하는 동작을 포함하고,
상기 데이터 샘플링을 수행하는 동작은,
상기 TP 그룹에 대해 데이터 샘플링을 수행하여 파인 튜닝에 사용된 제1 이미지들을 추출하는 동작을 포함하며,
상기 제1 이미지들을 추출하는 동작은,
상기 TP 그룹의 데이터 각각에 대해 상기 훈련된 학습 모델을 적용하여 출력된 확률 값의 순서대로 상기 TP 그룹의 데이터를 정렬하는 동작,
정렬된 상기 TP 그룹의 데이터에 대해 클러스터링을 수행하는 동작, 및
상기 TP 그룹으로부터, 상기 TP 그룹에 대해 생성된 클러스터링 그룹들의 센트로이드에 가장 가까운 확률 값들을 가지는 제1 이미지들을 제1 개수만큼 추출하는 동작을 포함하는,
객체 검출 모델 생성 장치.
제 10 항에 있어서,
상기 데이터 샘플링을 수행하는 동작은,
상기 TN 그룹에 대해 데이터 샘플링을 수행하여 파인 튜닝에 사용된 제2 이미지들을 추출하는 동작, 및
실제 값으로 레이블링된 상기 제1 이미지들 및 상기 제2 이미지들을 상기 표본 데이터 세트로 생성하는 동작을 더 포함하는,
객체 검출 모델 생성 장치.
제 11 항에 있어서,
상기 제2 이미지들을 추출하는 동작은,
상기 TN 그룹의 데이터 각각에 대해 상기 훈련된 학습 모델을 적용하여 출력된 확률 값의 순서대로 상기 TN 그룹의 데이터를 정렬하는 동작,
정렬된 상기 TN 그룹의 데이터에 대해 클러스터링을 수행하는 동작, 및
상기 TN 그룹에 대해 생성된 클러스터링 그룹들의 센트로이드에 가장 가까운 확률 값들을 가지는 제2 이미지들을 제2 개수만큼 추출하는 동작을 포함하는,
객체 검출 모델 생성 장치.
제 12 항에 있어서,
상기 정렬된 상기 TP 그룹의 데이터에 대해 클러스터링을 수행하는 동작은, K-평균 클러스터링 알고리즘(K-means clustering algorithm) 및 random Resampling 중 적어도 하나 이상을 이용하여 수행되고, 여기서 K-평균 클러스터링에 대한 K 값은 상기 FN 그룹의 데이터 개수에 따라 정해지며, 상기 제1 개수는 상기 FN 그룹의 데이터 개수에 따라 정해지고,
상기 정렬된 상기 TN 그룹의 데이터에 대해 클러스터링을 수행하는 동작은, K-평균 클러스터링 알고리즘 및 random Resampling 중 적어도 하나 이상을 이용하여 수행되고, 여기서 K-평균 클러스터링에 대한 K 값은 상기 FP 그룹의 데이터 개수에 따라 정해지며, 상기 제2 개수는 상기 FP 그룹의 데이터 개수에 따라 정해지는,
객체 검출 모델 생성 장치.
제 10 항에 있어서,
상기 파인 튜닝을 수행하는 동작은,
상기 데이터 샘플링 결과 추출된 표본 데이터 세트에 대해 설정 비율로 테스트 데이터 세트와 훈련 데이터 세트로 분류하여 파인 튜닝을 수행하는 동작, 및
상기 학습 모델의 에포크(epoch)마다 정확도를 측정하여, 정확도가 기준 범위 이내에 도달할 때까지 반복하는 동작을 포함하는,
객체 검출 모델 생성 장치.
제 10 항에 있어서,
상기 학습 모델은,
입력 데이터 세트에 대한 예측 확률이 출력 값으로 출력되는 소프트맥스(softmax) 함수가 적용되는,
객체 검출 모델 생성 장치.