KR102359984B1

KR102359984B1 - 캡슐 내시경 영상 판독 시스템 및 방법

Info

Publication number: KR102359984B1
Application number: KR1020200077757A
Authority: KR
Inventors: 이한희; 이승철; 황윤섭
Original assignee: 가톨릭대학교 산학협력단; 포항공과대학교 산학협력단
Priority date: 2020-06-25
Filing date: 2020-06-25
Publication date: 2022-02-08
Also published as: WO2021261727A1; KR20220000437A

Abstract

본 명세서는 캡슐 내시경에 의해 촬영된 캡슐 내시경 영상을 전처리하는 전처리부, 전처리된 캡슐 내시경 영상을 입력으로 하여 캡슐 내시경 영상의 병변 존재 여부를 판단하는 컨볼루션 뉴럴 네트워크(CNN, Convolution Neural Network); 및 캡슐 내시경 영상에 대한 grad-CAM(Gradient Class Activation Map)을 획득하는 grad-CAM 획득부를 포함하는 캡슐 내시경 영상 판독 시스템 및 방법을 개시한다.

Description

캡슐 내시경 영상 판독 시스템 및 방법{System and Method for reading capsule endoscopy image}

본 발명은 캡슐 내시경 영상 판독 시스템 및 방법에 관한 것이다.

캡슐 내시경은 알약 모양의 캡슐을 입으로 삼켜 식도, 위장, 소장 등의 건강상태를 촬영하고 이 영상을 분석 및 판독하여 소화기 질환 진단에 이용되는 기기이다. 소장은 위와 대장의 중간에 위치하며, 길이는 6미터 가량 된다. 캡슐 내시경으로 소장을 촬영할 때 10시간 이상 촬영하며 5만장 이상의 영상이 기록되는데, 이를 의사가 직접 판독하기에는 시간과 정확도에 한계가 있다.

실시예들은, 캡슐내시경으로 촬영된 대량의 내시경 영상에 대해 의사의 판독 시간을 줄이고 정확도를 높일 수 있는 캡슐 내시경 영상 판독 시스템 및 방법을 제공한다.

또한, 실시예들은 캡슐 내시경 영상에 위치한 병변의 위치를 별도의 라벨링 없이 시각화하여, 의사가 병변의 위치를 직관적으로 확인할 수 있는 캡슐 내시경 영상 판독 시스템 및 방법을 제공한다.

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

일 실시예는, 캡슐 내시경에 의해 촬영된 캡슐 내시경 영상을 전처리하는 전처리부; 전처리된 캡슐 내시경 영상을 입력으로 하여 캡슐 내시경 영상의 병변 존재 여부를 판단하는 컨볼루션 뉴럴 네트워크(CNN, Convolution Neural Network); 및 캡슐 내시경 영상에 대한 grad-CAM(Gradient Class Activation Map)을 획득하는 grad-CAM 획득부를 포함하고, 컨볼루션 뉴럴 네트워크는 전처리된 캡슐 내시경 영상을 입력받는 입력층; 입력층을 통해 입력된 전처리된 캡슐 내시경 영상에 대한 특징을 추출하는 하나 이상의 합성곱층; 캡슐 내시경 영상에 대한 특징을 서브 샘플링하는 하나 이상의 최대 풀링층; 및 캡슐 내시경 영상에 대하여 병변 존재 여부를 지시하는 확률값을 출력하는 출력층을 포함하고, grad-CAM 획득부는 합성곱층 및 최대 풀링층 중에서 병변 위치 탐지 능력이 가장 높다고 판단된 층에서 grad-CAM을 획득하는 캡슐 내시경 영상 판독 시스템을 제공한다.

다른 실시예는 캡슐 내시경 영상 판독 시스템을 이용한 캡슐 내시경 영상 판독 방법으로, 캡슐 내시경에 의해 촬영된 캡슐 내시경 영상을 전처리하는 전처리 단계; 전처리된 캡슐 내시경 영상을 입력받는 입력 단계; 입력 단계에서 입력된 전처리된 캡슐 내시경 영상에 대한 특징을 추출하고 추출된 특징을 서브 샘플링하는 처리 동작을 반복적으로 실행하는 처리 단계; 처리 단계의 결과를 기초로 grad-CAM(gradient Class Activation Map)을 획득하는 grad-CAM 획득 단계; 및 캡슐 내시경 영상의 병변 존재 여부를 지시하는 확률값을 출력하는 출력 단계를 포함하는 캡슐 내시경 영상 판독 방법을 제공한다.

실시예들에 따른 캡슐 내시경 영상 판독 시스템 및 방법에 의하면 캡슐 내시경으로 촬영된 대량의 내시경 영상에 대해 의사의 판독 시간을 줄이고 정확도를 높일 수 있다.

또한, 실시예들에 따른 캡슐 내시경 영상 판독 시스템 및 방법에 의하면 캡슐 내시경 영상에 위치한 병변의 위치를 별도의 라벨링 없이 시각화하여, 의사가 병변의 위치를 직관적으로 확인할 수 있다.

도 1은 본 발명에 따른 캡슐 내시경 영상 판독 시스템의 일 예를 블록도로 나타낸 도면이다.
도 2는 본 발명에 따른 캡슐 내시경 영상 판독 시스템의 전처리부의 일 예를 블록도로 나타낸 도면이다.
도 3은 도 2의 전처리부를 통해 영상의 노이즈를 제거하는 일 예를 나타낸 도면이다.
도 4는 도 2의 전처리부를 통해 영상을 증강하는 일 예를 나타낸 도면이다.
도 5는 본 발명에 따른 캡슐 내시경 영상 판독 시스템의 컨볼루션 뉴럴 네트워크를 나타낸 도면이다.
도 6은 본 발명에 따른 캡슐 내시경 영상 판독 시스템이 생성한 grad-CAM의 일 예를 나타낸 도면이다.
도 7은 본 발명에 따른 캡슐 내시경 영상 판독 시스템이 grad-CAM을 획득하는 층을 결정하는 일 예를 나타낸 도면이다.
도 8은 본 발명에 따른 캡슐 내시경 영상 판독 시스템이 생성한 비디오 클립의 구조의 일 예를 나타낸 도면이다.
도 9는 본 발명에 따른 캡슐 내시경 영상 판독 시스템이 생성한 비디오 클립에 포함되는 프레임의 일 예를 나타낸 도면이다.
도 10은 본 발명에 따른 캡슐 내시경 영상 판독 시스템이 생성한 2개의 비디오 클립에 포함되는 프레임의 일 예를 나타낸 도면이다.
도 11은 도 10의 2개의 비디오 클립이 병합된 새로운 비디오 클립을 나타낸 도면이다.
도 12는 본 발명에 따른 캡슐 내시경 영상 판독 시스템에 적용되는 캡슐 내시경 영상 세트를 나타낸 도면이다.
도 13은 본 발명에 따른 캡슐 내시경 영상 판독 방법에 대한 흐름도이다.
도 14는 본 발명에 따른 캡슐 내시경 영상 판독 방법의 전처리 단계의 세부 내용에 대한 흐름도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는"직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

명세서 전체에서 사용되는 정도의 용어 "약", "실질적으로" 등은 언급된 의미에 고유한 제조 및 물질 허용오차가 제시될 때 그 수치에서 또는 그 수치에 근접한 의미로 사용되고, 본 발명의 이해를 돕기 위해 정확하거나 절대적인 수치가 언급된 개시 내용을 비양심적인 침해자가 부당하게 이용하는 것을 방지하기 위해 사용된다. 본 발명의 명세서 전체에서 사용되는 정도의 용어 "~(하는) 단계" 또는 "~의 단계"는 "~ 를 위한 단계"를 의미하지 않는다.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1개의 유닛이 2개 이상의 하드웨어를 이용하여 실현되어도 되고, 2개 이상의 유닛이 1개의 하드웨어에 의해 실현되어도 된다.

본 명세서에 있어서 단말, 장치 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말, 장치 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말, 장치 또는 디바이스에서 수행될 수도 있다.

본 명세서에서 있어서, 단말과 매핑(Mapping) 또는 매칭(Matching)으로 기술된 동작이나 기능 중 일부는, 단말의 식별 정보(Identifying Data)인 단말기의 고유번호나 개인의 식별정보를 매핑 또는 매칭한다는 의미로 해석될 수 있다.

이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.

도 1은 본 발명에 따른 캡슐 내시경 영상 판독 시스템의 일 예를 블록도로 나타낸 도면이다.

도 1을 참조하면, 캡슐 내시경 영상 판독 시스템(100)은 전처리부(110), 컨볼루션 뉴럴 네트워크(Convolution Neural Network)(120), grad-CAM(Gradient Class Activation Map) 획득부(130)를 포함할 수 있다.

전처리부(110)는 캡슐 내시경에 의해 촬영된 캡슐 내시경 영상을 전처리할 수 있다.

컨볼루션 뉴럴 네트워크(120)는 전처리부(110)에서 전처리된 캡슐 내시경 영상을 입력으로 하여 캡슐 내시경 영상의 병변 존재 여부, 즉 캡슐 내시경 영상에 병변이 존재하는지 여부를 판단할 수 있다. 캡슐 내시경 영상 판독 시스템은 컨볼루션 뉴럴 네트워크(120)를 통해 대량의 캡슐 내시경 영상을 처리함으로써, 의사가 캡슐 내시경 영상을 육안으로 하나씩 판독하여 병변 존재 여부를 판단하는 것보다 더 빠르게 병변 존재 여부를 판독할 수 있도록 한다.

이때, 컨볼루션 뉴럴 네트워크(120)는 전처리부(110)로부터 전처리된 캡슐 내시경 영상을 입력받는 입력층(121), 입력층(121)을 통해 입력된 전처리된 캡슐 내시경 영상에 대한 특징을 추출하는 하나 이상의 합성곱층(Convolution Layer)(122), 캡슐 내시경 영상에 대한 특징을 서브 샘플링하는 하나 이상의 최대 풀링층(Max Pooling Layer)(123) 및 캡슐 내시경 영상에 대하여 병변 존재 여부를 지시하는 확률값을 출력하는 출력층(124)을 포함할 수 있다.

grad-CAM 획득부(130)는 캡슐 내시경 영상에 대한 grad-CAM을 획득할 수 있다.

이때, grad-CAM 획득부(130)는 전술한 합성곱층(122) 및 최대 풀링층(123) 중에서 병변 위치 탐지 능력이 가장 높다고 판단된 층에서 grad-CAM을 획득할 수 있다.

또한 캡슐 내시경 영상 판독 시스템(100)은 전술한 전처리부(110), 컨볼루션 뉴럴 네트워크(120), grad-CAM 획득부(130) 외에 비디오 클립 생성부(140)를 추가로 포함할 수 있다. 비디오 클립 생성부(140)는 캡슐 내시경 영상을 기초로 캡슐 내시경 영상에 대응하는 비디오 클립을 생성할 수 있다.

도 2는 본 발명에 따른 캡슐 내시경 영상 판독 시스템의 전처리부의 일 예를 블록도로 나타낸 도면이다.

도 2를 참조하면, 전처리부(110)는 노이즈 제거부(111) 및 영상 증강부(112)를 포함할 수 있다.

노이즈 제거부(111)는 전처리부(110)에 입력된 캡슐 내시경 영상에서 노이즈를 제거할 수 있다.

영상 증강부(112)는 노이즈가 제거된 캡슐 내시경 영상에 대하여 회전 및 상하반전 중 적어도 하나를 수행하여 복수의 증강 영상을 생성할 수 있다.

이하, 도 3 및 도 4에서 노이즈 제거부(111) 및 영상 증강부(112)의 동작에 대해 자세히 설명한다.

도 3은 도 2의 전처리부를 통해 영상의 노이즈를 제거하는 일 예를 나타낸 도면이다.

노이즈 제거부(111)는 캡슐 내시경 영상에 기록된 문자, 숫자, 기호를 포함하는 노이즈를 캡슐 내시경 영상에서 제거할 수 있다. 문자, 숫자, 기호 등은 병변 존재 여부 판단과 무관한 부분으로서, 컨볼루션 뉴럴 네트워크(120)가 캡슐 내시경 영상에 병변이 존재하는지 여부를 판단하는데 방해를 줄 수 있기 때문이다.

도 3을 참조하면, 노이즈 제거부(111)는 576 * 576 * 3의 캡슐 내시경 영상의 테두리에 있는 시간, 날짜, 촬영 장비 등을 지시하는 문자, 숫자, 기호 등을 삭제하여 512 * 512 * 3의 캡슐 내시경 영상을 생성할 수 있다.

도 4는 도 2의 전처리부를 통해 영상을 증강하는 일 예를 나타낸 도면이다.

도 4를 참조하면, 영상 증강부(112)는 노이즈가 제거된 캡슐 내시경 영상에 대하여 회전(90도/180도/270도) 및 상하반전 중 적어도 하나를 수행하여 8개의 증강 영상을 생성할 수 있다. 한편, 도 4에서는 회전(90도/180도/270도) 및 상하반전을 모두 수행하는 경우에 대해서 설명하고 있다. 하지만 본 발명에서 영상 증강부(112)는 회전 및 상하반전 전부를 수행할 수도 있고, 회전 및 상하반전 중 일부만 수행하여 8개 미만의 증강 영상을 생성할 수도 있다.

이처럼 영상 증강부(112)가 회전 및 상하반전 중 적어도 하나를 수행하여 증강 영상을 생성하는 이유는 증강된 영상에 대한 원본 캡슐 내시경 영상에 존재하는 병변의 특징이 영상 처리 과정에서 손상되는 것을 막기 위함이다.

캡슐 내시경 영상은 일반적으로 검은색 배경 안에 소장의 영상을 원형으로 보여주는 형태를 가진다.

원본 캡슐 내시경 영상에서 병변을 나타내는 부분의 픽셀이 왜곡 또는 훼손되면 이러한 왜곡된 픽셀이 컨볼루션 뉴럴 네트워크가 병변 존재 여부를 판단하는데 영향을 미칠 수 있기 때문이다.

도 5는 본 발명에 따른 캡슐 내시경 영상 판독 시스템의 컨볼루션 뉴럴 네트워크를 나타낸 도면이다.

도 5를 참조하면, 컨볼루션 뉴럴 네트워크(120)는 입력층(121)을 통해 전처리된 캡슐 내시경 영상에 대한 특징(feature)을 합성곱층(122)을 통해 추출할 수 있다. 그리고 컨볼루션 뉴럴 네트워크(120)는 합성곱층(122)을 통해 추출한 특징을 최대 풀링층(123)을 통해 서브 샘플링할 수 있다. 한편, 컨볼루션 뉴럴 네트워크(120)는 어느 하나의 합성곱층을 통해 추출한 특징을 어느 하나의 최대 풀링층을 통해 서브 샘플링한 후 그 결과를 다시 다른 합성곱층에 입력하는 과정을 반복할 수 있다.

그리고 컨볼루션 뉴럴 네트워크(120)는 합성곱층(122) 및 최대 풀링층(123)을 이용하여 생성된 결과를 이용하여, 캡슐 내시경 영상에 대한 병변 존재 여부를 지시하는 확률값을 출력층(124)을 통해 출력할 수 있다.

출력층(124)는 하나 이상의 완전 연결 층(fully connected layer)를 이용하여 합성곱층(122) 및 최대 풀링층(123)을 이용하여 생성된 결과값을 분석하고, 이를 다양한 변환 함수(e.g. softmax)를 이용하여 병변 존재 여부를 지시하는 확률값으로 변환할 수 있다.

이때, grad-CAM 획득부(130)는 합성곱층(122) 및 최대 풀링층(123) 중에서 병변 위치 탐지 능력이 가장 높다고 판단된 층에서 grad-CAM을 획득할 수 있다. 의사는 grad-CAM을 통해 병변이 존재한다고 판단된 캡슐 내시경 영상의 어느 부분이 병변 존재 여부를 판단하는데 영향을 미쳤는지를 높은 정확도로 확인할 수 있다.

일반적으로, 캡슐 내시경 영상의 어느 부분이 컨볼루션 뉴럴 네트워크가 병변 여부를 판단하는데 큰 영향을 미치는지를 분석하기 위해 CAM(Class Activation Map)이 사용된다. CAM은 확률값을 예측하는 층 직전의 가중치(weight)를 사용하여 특징 맵의 가중치의 합을 계산한 결과를 시각화한 맵으로서, CAM을 통해 각 클래스를 어떻게 판단했는지 확인하고, 해당 클래스의 대략적인 위치를 찾을 수 있다. CAM을 캡슐 내시경 영상 위에 겹쳐서 나타내면 캡슐 내시경 영상에서 병변이 발생한 부위를 쉽게 판단할 수 있다.

그러나 CAM을 얻기 위해서는 전역 평균 풀링(Global Average Pooling, GAP) 층을 사용하여 튜닝을 수행하는 과정이 필수적이다. 따라서, 전역 평균 풀링 층을 컨볼루션 뉴럴 네트워크에 포함시킬 수 있도록 하기 위해 컨볼루션 뉴럴 네트워크의 구조에 수정이 가해지며 이로 인해 컨볼루션 뉴럴 네트워크가 병변을 탐지하는 능력이 감소할 수 있다.

따라서, 본 발명에서는 전역 평균 풀링(GAP) 층에 의존하지 않고 컨볼루션 뉴럴 네트워크의 구조 수정 없이 CAM 결과를 얻기 위해서 grad-CAM 획득부(130)를 이용하여 grad-CAM을 획득한다. 따라서, grad-CAM을 사용하면 컨볼루션 뉴럴 네트워크의 구조에 대한 제약이 발생하지 않으므로 병변의 존재를 탐지하는 능력 및 병변의 위치를 추적하는 능력이 향상될 수 있다.

일 예로, grad-CAM은 전술한 합성곱층 또는 최대 풀링층의 그래디언트(gradient)와 그 층을 통과한 결과 정보를 이용하여 중요성 가중치(importance weight)를 다음과 같은 수학식으로 획득할 수 있다.

이때,

는 class,

는 층을 통과한 결과 정보,

는 관찰하려는 결과 정보 (i,j)에 대응하는 값,

는 y가 A에 미치는 영향, 즉 그래디언트를 나타낸다.

전술한

와

를 이용하여 grad-CAM은 다음과 같은 수학식으로 계산될 수 있다.

한편, 수학식 2에서 ReLU를 이용하는 이유는 class에 대한 양(plus)의 영향만을 반영하기 위함이다.

도 6은 본 발명에 따른 캡슐 내시경 영상 판독 시스템이 생성한 grad-CAM의 일 예를 나타낸 도면이다.

도 6을 참조하면, 좌측의 캡슐 내시경 영상에 대한 grad-CAM이 우측에 표시되어 있다. grad-CAM을 살펴보면, 바깥쪽 부분과 다른 색으로 표시된 가운데 부분이 병변 존재 여부 판단에 큰 영향을 미친 것을 확인할 수 있으며 캡슐 내시경 영상의 병변 존재 확률은 약 71.64%임을 알 수 있다. 이처럼, 캡슐 내시경 영상에 대한 grad-CAM에 병변의 위치가 직관적으로 표시되므로, 캡슐 내시경 영상을 판독하는 시청자(e.g. 의사)는 캡슐 내시경 영상에서 병변의 위치를 별도의 라벨링 없이 확인 가능하다.

도 7은 본 발명에 따른 캡슐 내시경 영상 판독 시스템이 grad-CAM을 획득하는 층을 결정하는 일 예를 나타낸 도면이다.

전술한 바와 같이, grad-CAM 획득부(130)는 하나 이상의 합성곱층(122) 및 하나 이상의 최대 풀링층(123) 중에서 병변 위치 탐지 능력이 가장 높다고 판단된 층에서 grad-CAM을 획득할 수 있다. 이때, 병변 위치 탐지 능력이 가장 높다는 것은 grad-CAM 상에서 병변 존재 확률을 판단하는데 중요한 영향을 미친 영역과 실제 캡슐 내시경 영상에서 병변이 존재하는 영역이 가장 많이 일치한다는 것을 의미한다.

도 7을 참조하면, 일 예로 grad-CAM 획득부(130)는 캡슐 내시경 영상에 대해 합성곱층(122)에 포함된 제1 합성곱층(CONV_1), 제2 합성곱층(CONV_2), 제3 합성곱층(CONV_3), 제4 합성곱층(CONV_4), 최대 풀링층(123)에 포함된 제1 최대 풀링층(MAXP_1), 제2 최대 풀링층(MAXP_2), 제3 최대 풀링층(MAXP_3)으로부터 획득한 grad-CAM을 기초로 병변 위치 탐지 능력이 가장 높은 층을 판단할 수 있다.

이때, grad-CAM 획득부(130)는 병변 위치 탐지 능력이 가장 높은 층을 판단하기 위해서 하나 이상의 테스트용 캡슐 내시경 영상에 대한 grad-CAM을 획득할 수 있다. 만약 테스트용 캡슐 내시경 영상이 복수인 경우, grad-CAM 획득부(130)는 일 예로 각 테스트용 캡슐 내시경 영상에 대한 grad-CAM의 병변 위치 탐지 능력의 평균을 각 층 별로 계산하여 각 층의 병변 위치 탐지 능력을 판단할 수 있다.

도 7에서, grad-CAM 획득부(130)는 테스트용 캡슐 내시경 영상에 대해 제1 최대 풀링층(MAXP_1)으로부터 획득한 grad-CAM이 가장 병변 위치 탐지 능력이 높다고 판단할 수 있다. 이 때, grad-CAM 획득부(130)는 이후 캡슐 내시경 영상에 대한 grad-CAM을 합성곱층(122) 및 최대 풀링층(123) 중 제1 최대 풀링층(MAXP_1)에서 획득할 수 있다.

도 8은 본 발명에 따른 캡슐 내시경 영상 판독 시스템이 생성한 비디오 클립의 구조의 일 예를 나타낸 도면이다.

도 8을 참조하면, 비디오 클립 생성부(140)는 캡슐 내시경 영상에 대응하는 비디오 클립을 생성할 때, 병변이 존재하는 영상 이미지를 기초로 비디오 클립을 생성할 수 있다.

본 발명에서 병변 존재 여부는 확률값을 통해 표현되므로, 비디오 클립 생성부(140)는 캡슐 내시경 영상에 대해 전술한 컨볼루션 뉴럴 네트워크(120)를 이용하여 병변 존재 여부를 지시하는 확률값을 계산한 결과, 캡슐 내시경 영상 중 병변 존재 여부를 지시하는 확률값이 임계값(e.g. 0.8) 이상인 캡슐 내시경 영상을 기초로 하여, 캡슐 내시경 영상에 대응하는 비디오 클립을 생성할 수 있다.

도 9는 본 발명에 따른 캡슐 내시경 영상 판독 시스템이 생성한 비디오 클립에 포함되는 프레임의 일 예를 나타낸 도면이다.

도 9를 참조하면, 비디오 클립 생성부(140)는 병변이 존재한다고 판단된(즉, 확률값이 임계값 이상인) 캡슐 내시경 영상의 전후로 최대 기준값(e.g. 5)만큼의 프레임을 추가하여 캡슐 내시경 영상에 대응하는 비디오 클립을 생성할 수 있다. 예를 들어 기준값이 5인 경우, 비디오 클립 생성부(140)는 병변의 존재한다고 판단된 캡슐 내시경 영상의 전후로 최대 5개까지 프레임을 비디오 클립에 추가할 수 있는데, 만약 캡슐 내시경 영상의 전후에 존재하는 프레임의 개수가 5개 미만이면(e.g. 시작 이후 4번째 프레임) 추가 가능한 모든 프레임을 비디오 클립에 추가할 수 있다.

도 9에서, N번 프레임의 캡슐 내시경 영상에 병변이 존재한다고 판단된 경우를 예를 들어 설명한다. 이때, 기준값이 A라고 가정하면, 비디오 클립 생성부(140)는 N번 프레임뿐 아니라 N번 프레임 이전의 A개의 프레임 및 N번 프레임 이후의 A개의 프레임을 합쳐서 비디오 클립을 생성할 수 있다.

이처럼 병변이 존재한다고 판단된 캡슐 내시경 영상뿐 아니라 그 전후의 캡슐 내시경 영상까지 비디오 클립에 포함시키는 이유는, 비디오 클립을 시청하는 시청자(e.g. 의사)가 병변이 미발생한 캡슐 내시경 영상에서 병변이 발생한 캡슐 내시경 영상으로의 변화 또는 그 반대로의 연속적인 변화를 비디오 클립을 통해 확인할 수 있도록 하기 위함이다. 병변이 존재한다고 예측된 영상만으로 구성된 비디오 클립은 시청자가 보기에 앞뒤의 프레임이 끊기는 것처럼 보여서 판독에 부적합하다. 이때, 전술한 기준값은 시청자가 보기에 불편함이 없는 수준에서 임의로 결정될 수 있다.

도 10은 본 발명에 따른 캡슐 내시경 영상 판독 시스템이 생성한 2개의 비디오 클립에 포함되는 프레임의 일 예를 나타낸 도면이다.

도 10에서, M번 프레임과 N번 프레임의 캡슐 내시경 영상에 병변이 발생하였다고 가정한다. 이때, 도 9에서 설명한 방법에 따라 비디오 클립 생성부(140)는 M번 프레임의 캡슐 내시경 영상을 기초로 한 비디오 클립인 비디오 클립 1과, N번 프레임의 캡슐 내시경 영상을 기초로 한 비디오 클립인 비디오 클립 2를 생성할 수 있다.

이때, 도 10에서 비디오 클립 1의 마지막 프레임인 (M+A)번 프레임은 비디오 클립 2의 시작 프레임인 (N-A)번 프레임보다 이전 프레임이다. 즉, 비디오 클립 1과 비디오 클립 2는 서로 중첩되는 프레임이 존재한다.

비디오 클립 1과 비디오 클립 2에 중첩되는 프레임이 존재하는 경우, 비디오 클립 생성부(140)는 비디오 클립 1, 비디오 클립 2를 별도로 생성하는 대신에 비디오 클립 1과 비디오 클립 2를 병합하여 하나의 비디오 클립을 생성할 수 있다.

도 11은 도 10의 2개의 비디오 클립이 병합된 새로운 비디오 클립을 나타낸 도면이다.

도 11을 참조하면, 비디오 클립 생성부(140)는 전술한 비디오 클립 1과 비디오 클립 2를 병합하여 비디오 클립 3을 생성할 수 있다. 비디오 클립 3은 비디오 클립 1 또는 비디오 클립 2에 포함된 프레임 중 가장 이전에 생성된 프레임인 (M-A)번 프레임부터 가장 나중에 생성된 프레임인 (N+A)번 프레임을 포함할 수 있다. 이를 통해 비디오 클립 생성부(140)는 병변이 존재하는 캡슐 내시경 영상인 M번 프레임과 N번 프레임 사이의 변화를 하나의 비디오 클립을 통해 표현할 수 있다.

도 12는 본 발명에 따른 캡슐 내시경 영상 판독 시스템에 적용되는 캡슐 내시경 영상 세트를 나타낸 도면이다.

도 12를 참조하면, 캡슐 내시경 영상 판독 시스템의 컨볼루션 뉴럴 네트워크(120)의 학습에 사용되는 캡슐 내시경 영상의 세트(set)인 학습 영상 세트에 포함되는 영상의 개수와, 컨볼루션 뉴럴 네트워크(120)의 테스트에 사용되는 캡슐 내시경 영상의 세트인 테스트 영상 세트에 포함되는 영상의 개수의 비율은 미리 설정된 비율값으로 결정될 수 있다. 일 예로 (학습 영상 세트의 영상 개수):(테스트 영상 세트의 영상 개수)는 7:3 또는 8:2일 수 있다.

전술한 비율값은 병변 존재 확률의 정확도를 가장 높일 수 있는 값으로 선택될 수 있다. 이 비율값은 캡슐 내시경 영상 판독 시스템 내에 고정된 값으로 설정될 수 있다.

이때, 전체 캡슐 내시경 영상의 수가 많아질수록 학습 영상 세트의 영상 개수 대비 테스트 영상 세트의 영상 개수의 비율은 감소될 수 있다. 예를 들어 전체 캡슐 내시경 영상의 수가 10000개일 때 (학습 영상 세트의 영상 개수):(테스트 영상 세트의 영상 개수) = 7:3이라고 가정하면, 전체 캡슐 내시경 영상의 수가 20000개일 때 (학습 영상 세트의 영상 개수):(테스트 영상 세트의 영상 개수) = 8:2가 될 수 있다.

이는 전체 캡슐 내시경 영상의 수가 많아질수록 테스트 영상 세트의 영상 개수의 비율이 줄더라도 테스트 영상 세트의 영상 개수의 비율은 일정한 수준 이상을 만족하는 반면, 학습 영상 세트의 영상 개수가 증가할수록 컨볼루션 뉴럴 네트워크(120)의 정확도가 증가하므로 학습 영상 세트의 영상 개수는 최대한 증가하는 것이 바람직하기 때문이다.

한편, 전술한 비율값은 병변이 존재하는 캡슐 내시경 영상 및 병변이 존재하지 않는 캡슐 내시경 영상 각각에 대하여 동일하게 적용될 수 있다. 예를 들어, 병변이 존재하는 캡슐 내시경 영상에 대해 (학습 영상 세트의 개수):(테스트 영상 세트의 개수) = 8:2이라면, 병변이 존재하지 않는 캡슐 내시경 영상에 대해서도 (학습 영상 세트의 개수):(테스트 영상 세트의 개수) = 8:2이다.

한편, 컨볼루션 뉴럴 네트워크(120)의 입력층(121)은 학습 영상 세트를 입력받을 때, 병변이 존재하는 영상과 병변이 없는 영상을 동일한 개수로 입력받을 수 있다. 이는 컨볼루션 뉴럴 네트워크(120)의 학습 과정에서 병변이 존재하는 영상 또는 병변이 없는 영상 중 한쪽에 해당하는 영상이 과도하게 입력될 경우에, 과도하게 입력된 쪽에 대해 바이어스(bias)가 걸릴 가능성이 높기 때문이다.

도 13은 본 발명에 따른 캡슐 내시경 영상 판독 방법에 대한 흐름도이다.

도 13을 참조하면 캡슐 내시경 영상 판독 방법(1300)은 캡슐 내시경에 의해 촬영된 캡슐 내시경 영상을 전처리하는 전처리 단계(S1310)를 포함할 수 있다.

그리고 캡슐 내시경 영상 판독 방법은 S1310 단계에서 전처리된 캡슐 내시경 영상을 입력받는 입력 단계(S1320)를 포함할 수 있다.

그리고 캡슐 내시경 영상 판독 방법은 S1320 단계에서 입력된 전처리된 캡슐 내시경 영상에 대한 특징을 추출하고 추출된 특징을 서브 샘플링하는 처리 동작을 반복적으로 실행하는 처리 단계(S1330)를 포함할 수 있다.

그리고 캡슐 내시경 영상 판독 방법은 S1330 단계의 결과를 기초로 grad-CAM(gradient Class Activation Map)을 획득하는 grad-CAM 획득 단계(S1340)를 포함할 수 있다.

그리고 캡슐 내시경 영상 판독 방법은 캡슐 내시경 영상의 병변 존재 여부를 지시하는 확률값을 출력하는 출력 단계(S1350)를 포함할 수 있다.

한편, 캡슐 내시경 영상 판독 방법(1300)은 전술한 캡슐 내시경 영상 판독 시스템(100)을 통해 수행될 수 있다.

도 14는 본 발명에 따른 캡슐 내시경 영상 판독 방법의 전처리 단계의 세부 내용에 대한 흐름도이다.

도 14를 참조하면, 전처리 단계(S1310)는 캡슐 내시경 영상에서 노이즈를 제거하는 노이즈 제거 단계(S1410)을 포함할 수 있다.

그리고 전처리 단계(S1310)는 S1410 단계에서 노이즈가 제거된 캡슐 내시경 영상에 대하여 회전 및 상하반전 중 적어도 하나를 수행하여, 복수의 증강 영상을 생성하는 영상 증강 단계(S1420)를 포함할 수 있다.

한편, 전처리 단계(S1310)는 전술한 캡슐 내시경 영상 판독 시스템의 전처리부(110)를 통해 수행될 수 있다.

본 발명의 실시예들에서 설명하는 캡슐 내시경 영상 판독 시스템 및 방법은 캡슐내시경으로 촬영된 대량의 내시경 영상에 대해 의사의 판독 시간을 줄이고 정확도를 높일 수 있다.

본 발명의 실시예들에서 설명한 딥러닝 모델은 인공 신경망을 다층 레이어로 쌓은 형태의 모델일 수 있다. 즉, 딥 러닝 모델은 다층의 네트워크로 이루어진 심층 신경망에서 다량의 데이터를 학습시킴으로써 입력값에 대한 특징을 자동으로 학습하고, 이를 통해 목적 함수, 즉 예측 정확도의 에러를 최소화하도록 네트워크를 학습시켜 나아가는 형태의 모델이다.

본 발명에서는 딥 러닝 모델이 컨볼루션 뉴럴 네트워크(CNN)인 경우를 예를 들어 설명하였으나, 본 발명은 이에 제한되지 않고 현재 또는 장래에 사용될 수 있는 다양한 딥 러닝 모델을 이용할 수 있다.

딥 러닝 모델은 딥 러닝 프레임워크를 통해 구현될 수 있다. 딥 러닝 프레임워크는 딥 러닝 모델을 개발할 때 공통적으로 사용되는 기능들을 라이브러리 형태로 제공하고, 시스템 소프트웨어나 하드웨어 플랫폼을 잘 사용할 수 있도록 지원하는 역할을 한다. 본 실시예에서 딥 러닝 모델은 현재 공개되었거나 장래 공개될 어떠한 딥 러닝 프레임워크를 이용하여 구현될 수 있다.

전술한 캡슐 내시경 영상 판독 시스템은, 프로세서, 메모리, 사용자 입력장치, 프레젠테이션 장치 중 적어도 일부를 포함하는 컴퓨팅 장치에 의해 구현될 수 있다. 메모리는, 프로세서에 의해 실행되면 특정 태스크를 수행할 있도록 코딩되어 있는 컴퓨터-판독가능 소프트웨어, 애플리케이션, 프로그램 모듈, 루틴, 인스트럭션(instructions), 및/또는 데이터 등을 저장하는 매체이다. 프로세서는 메모리에 저장되어 있는 컴퓨터-판독가능 소프트웨어, 애플리케이션, 프로그램 모듈, 루틴, 인스트럭션, 및/또는 데이터 등을 판독하여 실행할 수 있다. 사용자 입력장치는 사용자로 하여금 프로세서에게 특정 태스크를 실행하도록 하는 명령을 입력하거나 특정 태스크의 실행에 필요한 데이터를 입력하도록 하는 수단일 수 있다. 사용자 입력장치는 물리적인 또는 가상적인 키보드나 키패드, 키버튼, 마우스, 조이스틱, 트랙볼, 터치-민감형 입력수단, 또는 마이크로폰 등을 포함할 수 있다. 프레젠테이션 장치는 디스플레이, 프린터, 스피커, 또는 진동장치 등을 포함할 수 있다.

컴퓨팅 장치는 스마트폰, 태블릿, 랩탑, 데스크탑, 서버, 클라이언트 등의 다양한 장치를 포함할 수 있다. 컴퓨팅 장치는 하나의 단일한 스탠드-얼론 장치일 수도 있고, 통신망을 통해 서로 협력하는 다수의 컴퓨팅 장치들로 이루어진 분산형 환경에서 동작하는 다수의 컴퓨팅 장치를 포함할 수 있다.

또한 전술한 캡슐 내시경 영상 판독 방법은, 프로세서를 구비하고, 또한 프로세서에 의해 실행되면 딥 러닝 모델을 활용한 영상 진단 방법을 수행할 수 있도록 코딩된 컴퓨터 판독가능 소프트웨어, 애플리케이션, 프로그램 모듈, 루틴, 인스트럭션, 및/또는 데이터 구조 등을 저장한 메모리를 구비하는 컴퓨팅 장치에 의해 실행될 수 있다.

상술한 본 실시예들은 다양한 수단을 통해 구현될 수 있다. 예를 들어, 본 실시예들은 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다.

하드웨어에 의한 구현의 경우, 본 실시예들에 따른 딥 러닝 모델을 활용한 영상 진단 방법은 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 프로세서, 컨트롤러, 마이크로 컨트롤러 또는 마이크로 프로세서 등에 의해 구현될 수 있다.

예를 들어 실시예들에 따른 캡슐 내시경 영상 판독 방법은 심층 신경망의 뉴런(neuron)과 시냅스(synapse)가 반도체 소자들로 구현된 인공지능 반도체 장치를 이용하여 구현될 수 있다. 이때 반도체 소자는 현재 사용하는 반도체 소자들, 예를 들어 SRAM이나 DRAM, NAND 등일 수도 있고, 차세대 반도체 소자들, RRAM이나 STT MRAM, PRAM 등일 수도 있고, 이들의 조합일 수도 있다.

실시예들에 따른 캡슐 내시경 영상 판독 방법을 인공지능 반도체 장치를 이용하여 구현할 때, 딥 러닝 모델을 소프트웨어로 학습한 결과(가중치)를 어레이로 배치된 시냅스 모방소자에 전사하거나 인공지능 반도체 장치에서 학습을 진행할 수도 있다.

펌웨어나 소프트웨어에 의한 구현의 경우, 본 실시예들에 따른 캡슐 내시경 영상 판독 방법은 이상에서 설명된 기능 또는 동작들을 수행하는 장치, 절차 또는 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드는 메모리 유닛에 저장되어 프로세서에 의해 구동될 수 있다. 메모리 유닛은 상기 프로세서 내부 또는 외부에 위치하여, 이미 공지된 다양한 수단에 의해 프로세서와 데이터를 주고 받을 수 있다.

또한, 위에서 설명한 "시스템", "프로세서", "컨트롤러", "컴포넌트", "모듈", "인터페이스", "모델", 또는 "유닛" 등의 용어는 일반적으로 컴퓨터 관련 엔티티 하드웨어, 하드웨어와 소프트웨어의 조합, 소프트웨어 또는 실행 중인 소프트웨어를 의미할 수 있다. 예를 들어, 전술한 구성요소는 프로세서에 의해서 구동되는 프로세스, 프로세서, 컨트롤러, 제어 프로세서, 개체, 실행 스레드, 프로그램 및/또는 컴퓨터일 수 있지만 이에 국한되지 않는다. 예를 들어, 컨트롤러 또는 프로세서에서 실행 중인 애플리케이션과 컨트롤러 또는 프로세서가 모두 구성 요소가 될 수 있다. 하나 이상의 구성 요소가 프로세스 및/또는 실행 스레드 내에 있을 수 있으며, 구성 요소들은 하나의 장치(예: 시스템, 컴퓨팅 디바이스 등)에 위치하거나 둘 이상의 장치에 분산되어 위치할 수 있다.

한편, 또 다른 실시예는 전술한 캡슐 내시경 영상 판독 방법을 수행하는, 컴퓨터 기록매체에 저장되는 컴퓨터 프로그램을 제공한다. 또한 또 다른 실시예는 전술한 캡슐 내시경 영상 판독 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

기록매체에 기록된 프로그램은 컴퓨터에서 읽히어 설치되고 실행됨으로써 전술한 단계들을 실행할 수 있다.

이와 같이, 컴퓨터가 기록매체에 기록된 프로그램을 읽어 들여 프로그램으로 구현된 기능들을 실행시키기 위하여, 전술한 프로그램은 컴퓨터의 프로세서(CPU)가 컴퓨터의 장치 인터페이스(Interface)를 통해 읽힐 수 있는 C, C++, JAVA, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다.

이러한 코드는 전술한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Function Code)를 포함할 수 있고, 전술한 기능들을 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수도 있다.

또한, 이러한 코드는 전술한 기능들을 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조 되어야 하는지에 대한 메모리 참조 관련 코드를 더 포함할 수 있다.

또한, 컴퓨터의 프로세서가 전술한 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 컴퓨터의 프로세서가 컴퓨터의 통신 모듈을 이용하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야만 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수도 있다.

이상에서 전술한 바와 같은 프로그램을 기록한 컴퓨터로 읽힐 수 있는 기록매체는, 일 예로, ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 미디어 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함할 수 있다.

또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

그리고, 본 발명을 구현하기 위한 기능적인(Functional) 프로그램과 이와 관련된 코드 및 코드 세그먼트 등은, 기록매체를 읽어서 프로그램을 실행시키는 컴퓨터의 시스템 환경 등을 고려하여, 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론되거나 변경될 수도 있다.

도 10를 통해 설명된 캡슐 내시경 영상 판독 방법은, 컴퓨터에 의해 실행되는 애플리케이션이나 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.

전술한 캡슐 내시경 영상 판독 방법은, 단말기에 기본적으로 설치된 애플리케이션(이는 단말기에 기본적으로 탑재된 플랫폼이나 운영체제 등에 포함된 프로그램을 포함할 수 있다)에 의해 실행될 수 있고, 사용자가 애플리케이션 스토어 서버, 애플리케이션 또는 해당 서비스와 관련된 웹 서버 등의 애플리케이션 제공 서버를 통해 마스터 단말기에 직접 설치한 애플리케이션(즉, 프로그램)에 의해 실행될 수도 있다. 이러한 의미에서, 전술한 캡슐 내시경 영상 판독 방법은 단말기에 기본적으로 설치되거나 사용자에 의해 직접 설치된 애플리케이션(즉, 프로그램)으로 구현되고 단말기에 등의 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

110: 전처리부
120: 컨볼루션 뉴럴 네트워크
130: grad-CAM 획득부
140: 비디오 클립 생성부
121: 입력층
122: 합성곱층
123: 최대 풀링층
124: 출력층

Claims

캡슐 내시경에 의해 촬영된 캡슐 내시경 영상을 전처리하는 전처리부;
상기 전처리된 캡슐 내시경 영상을 입력으로 하여 상기 캡슐 내시경 영상의 병변 존재 여부를 판단하는 컨볼루션 뉴럴 네트워크(CNN, Convolution Neural Network); 및
상기 캡슐 내시경 영상에 대한 grad-CAM(Gradient Class Activation Map)을 획득하는 grad-CAM 획득부를 포함하고,
상기 컨볼루션 뉴럴 네트워크는,
상기 전처리된 캡슐 내시경 영상을 입력받는 입력층;
상기 입력층을 통해 입력된 전처리된 캡슐 내시경 영상에 대한 특징을 추출하는 하나 이상의 합성곱층;
상기 캡슐 내시경 영상에 대한 특징을 서브 샘플링하는 하나 이상의 최대 풀링층; 및
상기 캡슐 내시경 영상에 대하여 병변 존재 여부를 지시하는 확률값을 출력하는 출력층을 포함하고,
상기 grad-CAM 획득부는,
상기 캡슐 내시경 영상에 대한 grad-CAM의 병변 위치 탐지 능력의 평균을 상기 합성곱층 및 최대 풀링층 별로 계산하여 상기 합성곱층 및 최대 풀링층의 병변 위치 탐지 능력을 판단하고,
상기 합성곱층 및 최대 풀링층의 병변 위치 탐지 능력을 바탕으로 상기 합성곱층 및 최대 풀링층 중에서 병변 위치 탐지 능력이 가장 높은 층을 판단하고,
상기 캡슐 내시경 영상에 대하여, 상기 합성곱층 및 최대 풀링층 중에서 병변 위치 탐지 능력이 가장 높다고 판단된 층에서 grad-CAM을 획득하는 캡슐 내시경 영상 판독 시스템.
제1항에 있어서,
상기 전처리부는,
상기 캡슐 내시경 영상에서 노이즈를 제거하는 노이즈 제거부; 및
상기 노이즈가 제거된 캡슐 내시경 영상에 대하여 회전 및 상하반전 중 적어도 하나를 수행하여 복수의 증강 영상을 생성하는 영상 증강부를 포함하는 캡슐 내시경 영상 판독 시스템.
제2항에 있어서,
상기 노이즈 제거부는,
상기 캡슐 내시경 영상에 기록된 문자, 숫자, 기호를 포함하는 노이즈를 제거하는 캡슐 내시경 영상 판독 시스템.
제1항에 있어서,
상기 캡슐 내시경 영상 중 병변 존재 여부를 지시하는 확률값이 임계값 이상인 캡슐 내시경 영상을 기초로 상기 캡슐 내시경 영상에 대응하는 비디오 클립을 생성하는 비디오 클립 생성부를 추가로 포함하는 캡슐 내시경 영상 판독 시스템.
제4항에 있어서,
상기 비디오 클립 생성부는,
상기 캡슐 내시경 영상의 전후로 최대 기준값만큼의 프레임을 추가하여, 상기 캡슐 내시경 영상에 대응하는 비디오 클립을 생성하는 캡슐 내시경 영상 판독 시스템.
제5항에 있어서,
상기 비디오 클립 생성부는,
중첩되는 프레임이 존재하는 서로 다른 2개의 비디오 클립이 존재할 때, 상기 2개의 비디오 클립을 병합하는 캡슐 내시경 영상 판독 시스템.
제1항에 있어서,
상기 캡슐 내시경 영상 중 병변이 존재하는 영상 및 병변이 없는 영상 각각에 대해서, 상기 컨볼루션 뉴럴 네트워크의 학습에 사용되는 학습 영상 세트의 영상 개수와 상기 컨볼루션 뉴럴 네트워크의 테스트에 사용되는 테스트 영상 세트의 영상 개수의 비율은 미리 설정된 비율값으로 결정되는 캡슐 내시경 영상 판독 시스템.
제7항에 있어서,
상기 입력층은,
상기 학습 영상 세트에 대해 병변이 존재하는 영상과 병변이 없는 영상을 동일한 개수로 입력받는 캡슐 내시경 영상 판독 시스템.
컨볼루션 뉴럴 네트워크를 포함하는 캡슐 내시경 영상 판독 시스템을 이용한 캡슐 내시경 영상 판독 방법으로,
캡슐 내시경에 의해 촬영된 캡슐 내시경 영상을 전처리하는 전처리 단계;
상기 전처리된 캡슐 내시경 영상을 입력받는 입력 단계;
상기 입력 단계에서 입력된 전처리된 캡슐 내시경 영상에 대한 특징을 추출하고 상기 추출된 특징을 서브 샘플링하는 처리 동작을 반복적으로 실행하는 처리 단계;
상기 처리 단계의 결과를 기초로 grad-CAM(gradient Class Activation Map)을 획득하는 grad-CAM 획득 단계; 및
상기 캡슐 내시경 영상의 병변 존재 여부를 지시하는 확률값을 출력하는 출력 단계를 포함하고,
상기 grad-CAM 획득 단계는,
상기 캡슐 내시경 영상에 대한 grad-CAM의 병변 위치 탐지 능력의 평균을, 상기 컨볼루션 뉴럴 네트워크에 포함된 합성곱층 및 최대 풀링층 별로 계산하여 상기 합성곱층 및 최대 풀링층의 병변 위치 탐지 능력을 판단하고,
상기 합성곱층 및 최대 풀링층의 병변 위치 탐지 능력을 바탕으로 상기 합성곱층 및 최대 풀링층 중에서 병변 위치 탐지 능력이 가장 높은 층을 판단하고,
상기 캡슐 내시경 영상에 대하여 상기 합성곱층 및 최대 풀링층 중에서 병변 위치 탐지 능력이 가장 높다고 판단된 층에서 grad-CAM을 획득하는 캡슐 내시경 영상 판독 방법.
제9항에 있어서,
상기 전처리 단계는,
상기 캡슐 내시경 영상에서 노이즈를 제거하는 노이즈 제거 단계; 및
상기 노이즈가 제거된 캡슐 내시경 영상에 대하여 회전 및 상하반전 중 적어도 하나를 수행하여, 복수의 증강 영상을 생성하는 영상 증강 단계를 포함하는 캡슐 내시경 영상 판독 방법.
제10항에 있어서,
상기 노이즈 제거 단계는,
상기 캡슐 내시경 영상에 기록된 문자, 숫자, 기호를 포함하는 노이즈를 제거하는 캡슐 내시경 영상 판독 방법.
제9항에 있어서,
상기 캡슐 내시경 영상 중 병변 존재 여부를 지시하는 확률값이 임계값 이상인 캡슐 내시경 영상을 기초로, 상기 캡슐 내시경 영상에 대응하는 비디오 클립을 생성하는 비디오 클립 생성 단계를 추가로 포함하는 캡슐 내시경 영상 판독 방법.
제12항에 있어서,
상기 비디오 클립 생성 단계는,
상기 캡슐 내시경 영상의 전후로 최대 기준값만큼의 프레임을 추가하여, 상기 캡슐 내시경 영상에 대응하는 비디오 클립을 생성하는 캡슐 내시경 영상 판독 방법.
제13항에 있어서,
상기 비디오 클립 생성 단계는,
중첩되는 프레임이 존재하는 서로 다른 2개의 비디오 클립이 존재할 때, 상기 2개의 비디오 클립을 병합하는 캡슐 내시경 영상 판독 방법.
제9항에 있어서,
상기 캡슐 내시경 영상 중 병변이 존재하는 영상 및 병변이 없는 영상 각각에 대해서, 상기 컨볼루션 뉴럴 네트워크의 학습에 사용되는 학습 영상 세트의 영상 개수와 상기 컨볼루션 뉴럴 네트워크의 테스트에 사용되는 테스트 영상 세트의 영상 개수의 비율은 미리 설정된 비율값으로 결정되는 캡슐 내시경 영상 판독 방법.
제15항에 있어서,
상기 입력 단계는,
상기 학습 영상 세트에 대해 병변이 존재하는 영상과 병변이 없는 영상을 동일한 개수로 입력받는 캡슐 내시경 영상 판독 방법.