KR20230113386A - 딥러닝 기반의 캡슐 내시경 영상 식별 방법, 기기 및매체 - Google Patents

딥러닝 기반의 캡슐 내시경 영상 식별 방법, 기기 및매체 Download PDF

Info

Publication number
KR20230113386A
KR20230113386A KR1020237022485A KR20237022485A KR20230113386A KR 20230113386 A KR20230113386 A KR 20230113386A KR 1020237022485 A KR1020237022485 A KR 1020237022485A KR 20237022485 A KR20237022485 A KR 20237022485A KR 20230113386 A KR20230113386 A KR 20230113386A
Authority
KR
South Korea
Prior art keywords
rgb
optical flow
image
neural network
network model
Prior art date
Application number
KR1020237022485A
Other languages
English (en)
Inventor
항 장
하오 장
웬진 유안
추캉 장
후이 리우
지웨이 황
Original Assignee
안콘 테크놀로지스 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 안콘 테크놀로지스 컴퍼니 리미티드 filed Critical 안콘 테크놀로지스 컴퍼니 리미티드
Publication of KR20230113386A publication Critical patent/KR20230113386A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10068Endoscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • G06V2201/031Recognition of patterns in medical or anatomical images of internal organs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • G06V2201/032Recognition of patterns in medical or anatomical images of protuberances, polyps nodules, etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Endoscopes (AREA)
  • Image Processing (AREA)

Abstract

본 발명은 연속적으로 촬영된 다중 프레임 이미지로 특정 포맷의 이미지 시퀀스를 형성한 후, 3D 컨볼루션 신경망 모델을 통해 다중 프레임 이미지에 대해 다중 채널 식별을 수행하고, 나아가 각 채널의 식별 확율을 결합하여 식별 결과를 출력함으로써 이미지 식별 정확도를 향상시키는 딥러닝 기반의 캡슐 내시경 영상 식별 방법, 기기 및 매체를 제공한다.

Description

딥러닝 기반의 캡슐 내시경 영상 식별 방법, 기기 및 매체
본 출원은 2021년 01월 06일 제출된 출원번호가 202110010379.4이고 발명의 명칭이 “딥러닝 기반의 캡슐 내시경 영상 식별 방법, 기기 및 매체”인 중국 특허출원의 우선권을 주장하는 바, 그 모든 내용은 참조로서 본 출원에 인용된다.
본 발명은 의료기기 영상 분야에 관한 것으로, 특히는 딥러닝 기반의 캡슐 내시경 영상 식별 방법, 전자 기기 및 판독 가능 저장 매체에 관한 것이다.
캡슐 내시경은 의료기기의 일종으로 카메라 및 무선 전송 안테나와 같은 핵심 부재를 통합하고; 체내의 소화관에서 이미지를 수집하고 동기로 체외에 전송하여, 획득한 이미지 데이터를 바탕으로 의료 검사를 수행할 수 있도록 한다. 캡슐 내시경은 검사 과정에서 수만 장의 이미지를 수집하며, 대량의 이미지 데이터로 인해 이미지 판독 작업이 어렵고 시간이 많이 걸리게 된다. 기술의 발전과 더불어, 이미지 프로세싱 및 컴퓨터 비전 기술을 이용한 병소 식별은 많은 관심을 받고 있다.
기존 기술에서, 공개 번호가 CN103984957A인 중국 특허출원에서는 캡슐 내시경 이미지의 의심 병변 영역 자동 조기 경보 시스템을 개시하였고, 상기 시스템은 이미지 증강 모듈을 사용하여 이미지를 적응적으로 증강시킨 다음 텍스처 특징 추출 모듈을 통해 평탄성 병변의 텍스처 특징을 검출한 후, 마지막으로 분류 및 조기 경고 모듈을 사용하여 분류함으로써 소장 평탄성 병변에 대한 검출 및 조기 경보 기능을 구현하였다.
공개 번호가 CN111462082A인 중국 특허출원에서는 트레이닝된 2D 타겟 딥러닝 모델을 이용하여 단일 이미지에 대해 병소 식별을 수행하는 병소 이미지 식별 장치, 방법, 기기 및 판독 가능 저장 매체를 개시하였다.
기존 기술에서 언급된 해결수단은 모두 단일 이미지에 대해 식별을 수행하므로, 식별 과정에서 단일 이미지의 촬영 정보만 이용할 수 있고 전후에 촬영된 이미지의 정보는 종합적으로 사용할 수가 없다. 이와 같이, 단일 각도에서 촬영된 이미지는 병소의 전체적인 상황을 직관적으로 반영하지 못하며, 특히 일부 특정 각도에서 촬영된 소화관의 주름, 위벽 등 이미지는 용종, 융기와 같은 병변과 혼동되기 쉬우며; 또한, 기존 기술에서는 촬영 내용의 공간 및 시간 정보를 동시에 획득할 수 없어 병소 식별의 정확도도 비교적 낮다.
상기 기술적 과제를 해결하기 위해, 본 발명은 딥러닝 기반의 캡슐 내시경 영상 식별 방법, 기기 및 매체를 제공하는 것을 목적으로 한다.
상기 발명의 목적 중 하나를 실현하기 위해, 본 발명의 일 실시형태는 딥러닝 기반의 캡슐 내시경 영상 식별 방법을 제공한다.
본 발명의 일 실시형태의 추가적인 개선으로서, 캡슐 내시경을 통해 시간 생성 순서에 따라 N개의 원본 이미지를 수집하는 단계;
슬라이딩 윈도우 분할법을 사용하여 N개의 원본 이미지를 크기가 동일한 M세트의 원본 이미지 시퀀스로 분할하고;
N개의 원본 이미지를 분석하거나 또는 M세트의 RGB 이미지 시퀀스를 분석하여 M세트의 광학 흐름 이미지 시퀀스를 형성하되;
각각의 상기 RGB 이미지 시퀀스는 RGB 포맷의 이미지 데이터로 구성되고, 각각의 상기 광학 흐름 이미지 시퀀스는 인접한 RGB 이미지의 광학 흐름 필드를 계산하여 형성된 이미지 데이터로 구성되는 단계; 및
상기 RGB 이미지 시퀀스 및 상기 광학 흐름 이미지 시퀀스를 3D 컨볼루션 신경망 모델에 각각 입력하여 식별 결과를 출력하되; 상기 식별 결과는 기설정된 파라미터가 나타날 확율 값이고; 상기 3D 컨볼루션 신경망 모델은 RGB 분기 및 광학 흐름 분기를 포함하는 단계를 포함하고,
여기서, 상기 RGB 이미지 시퀀스 및 상기 광학 흐름 이미지 시퀀스를 3D 컨볼루션 신경망 모델에 각각 입력하여 식별 결과를 출력하는 단계는,
RGB 이미지 시퀀스를 RGB 분기에 입력하고 계산을 수행하여 제1 분류 확율 을 출력하는 단계;
광학 흐름 이미지 시퀀스를 광학 흐름 분기에 입력하고 계산을 수행하여 제2 분류 확율 을 출력하는 단계; 및
상기 제1 분류 확율 및 상기 제2 분류 확율을 융합하여 상기 식별 결과 를 형성하되,
;
,
이고;
여기서, , 는 각각 3D 컨볼루션 신경망 모델을 구축하는 과정에서 RGB 분기 및 광학 흐름 분기에서 검증 세트의 식별 정확도를 나타내는 단계를 포함하는 것을 특징으로 하는, 딥러닝 기반의 캡슐 내시경 영상 식별 방법.
본 발명의 일 실시형태의 추가적인 개선으로서, 슬라이딩 윈도우 분할법을 사용하여 N개의 원본 이미지를 크기가 동일한 M세트의 원본 이미지 시퀀스로 분할하는 단계는,
시간 생성 순서에 따라 N개의 원본 이미지에 순차적으로 1, 2, ……N으로 번호를 매기는 단계; 및
기설정된 윈도우 크기 K 및 기설정된 슬라이딩 스텝 길이 S로 N개의 이미지를 순차적으로 분할하고, 이를 M세트의 원본 이미지 시퀀스로 나누되, 여기서, 인 단계를 포함하는 것을 특징으로 하는, 딥러닝 기반의 캡슐 내시경 영상 식별 방법.
본 발명의 일 실시형태의 추가적인 개선으로서, 상기 기설정된 윈도우 크기 K의 값 범위는 2≤K≤1000이고, 상기 기설정된 슬라이딩 스텝 길이 S의 값 범위는 1≤S<K인 것을 특징으로 하는, 딥러닝 기반의 캡슐 내시경 영상 식별 방법.
본 발명의 일 실시형태의 추가적인 개선으로서, 3D 컨볼루션 신경망 모델의 트레이닝 방식은,
사전 트레이닝된 2D 식별 모델에서 크기가 인 2D 컨볼루션 커널 파라미터를 N번 복사하되; 상기 2D 식별 모델은 병소 레이블이 있는 이미지를 트레이닝하여 획득한 것이고, 그 입력은 단일 프레임 이미지이며, 오직 단일 프레임 이미지만 식별 가능한 단계;
복사된 각 커널 파라미터를 각각 N으로 나누어 각각의 위치의 커널 파라미터가 원래의 1/3이 되도록 하는 단계;
새로운 커널 파라미터를 재조합하여 크기가 인 컨볼루션 커널 파라미터를 형성하여, 3D 컨볼루션 신경망 모델의 3D 컨볼루션 커널의 초기화 파라미터를 구성하는 단계; 및
확률적 경사 하강법을 이용하여 파라미터가 초기화된 3D 컨볼루션 신경망 모델을 트레이닝하고, 반복 정지 조건을 만족할 때까지 모델의 파라미터를 반복적으로 업데이트하여 식별 결과의 출력에 사용되는 상기 3D 컨볼루션 신경망 모델을 형성하는 단계를 포함하는 것을 특징으로 하는, 딥러닝 기반의 캡슐 내시경 영상 식별 방법.
본 발명의 일 실시형태의 추가적인 개선으로서, 처리 프로세스의 선후 순서에 따라 배열하면, 상기 3D 컨볼루션 신경망 모델은,
7*7*7의 3D 컨볼루션 레이어, 3*3*3의 3D 풀링 레이어, 하나 이상의 협업 시공간 특징 구조, 3D 풀링 레이어 및 완전 연결 레이어를 포함하는 것을 특징으로 하는, 딥러닝 기반의 캡슐 내시경 영상 식별 방법.
본 발명의 일 실시형태의 추가적인 개선으로서, 상기 협업 시공간 특징 구조의 수는 P개이고, P∈(4, 16)이며;
입력으로부터 출력으로의 처리 프로세스의 선후 순서에 따라 배열하면, 상기 협업 시공간 특징 구조는,
제1 협업 시공간 컨볼루션 레이어, 제1 정규화 레이어, 활성화 레이어; 및 제1 협업 시공간 컨볼루션 레이어, 제1 정규화 레이어, 활성화 레이어와 병렬로 실행되고 상기 협업 시공간 특징 구조의 입력에서부터 출력이 되는 퀵 연결을 포함하는 것을 특징으로 하는, 딥러닝 기반의 캡슐 내시경 영상 식별 방법.
본 발명의 일 실시형태의 추가적인 개선으로서, 입력으로부터 출력으로의 처리 프로세스의 선후 순서에 따라 배열하면, 상기 협업 시공간 특징 구조는,
활성화 레이어 다음에 위치한 제2 협업 시공간 컨볼루션 레이어 및 제2 정규화 레이어를 더 포함하는 것을 특징으로 하는, 딥러닝 기반의 캡슐 내시경 영상 식별 방법.
본 발명의 일 실시형태의 추가적인 개선으로서, 상기 제1 협업 시공간 컨볼루션 레이어의 데이터 처리 프로세스는,
그의 입구로 입력되는 특징도를 3개의 뷰로 나누어 각각 , 로 표시하고,
3개의 뷰의 출력 특징을 각각 , 로 표시하면,
,
,
이되,
여기서, 의 입력 데이터이고, 는 입력 특징도의 크기이며, 는 입력 특징도의 채널 수이고, 는 3차원 컨볼루션을 표시하고, 는 컨볼루션 필터 커널을 표시하는 단계; 및
3세트의 입력 데이터에 가중치를 부여하고 합산하여 제1 협업 시공간 컨볼루션 레이어의 출력 를 얻되,
이고,
여기서, 는 크기 의 계수이고, 는 softmax를 사용하여 정규화하며, 는 출력의 채널 수이고, 숫자 3은 3개의 뷰를 나타내는 단계를 포함하는 것을 특징으로 하는, 딥러닝 기반의 캡슐 내시경 영상 식별 방법.
상기 발명의 목적 중 하나를 실현하기 위해, 본 발명의 일 실시형태는 메모리 및 프로세서를 포함하고 상기 메모리에는 상기 프로세서에 의해 실행 가능한 컴퓨터 프로그램이 저장된 전자 기기를 제공하고, 상기 프로그램은 상기 프로세서에 의해 실행될 경우 상술한 딥러닝 기반의 캡슐 내시경 영상 식별 방법의 단계를 구현한다.
상기 발명의 목적 중 하나를 실현하기 위해, 본 발명의 일 실시형태는 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 저장 매체를 제공하고, 상기 컴퓨터 프로그램은 프로세서에 의해 실행될 경우 상술한 딥러닝 기반의 캡슐 내시경 영상 식별 방법의 단계를 구현한다.
기존 기술과 비교하여, 본 발명은 다음과 같은 유익한 효과를 가진다: 본 발명의 딥러닝 기반의 캡슐 내시경 영상 식별 방법, 기기 및 매체는 연속적으로 촬영된 다중 프레임 이미지로 특정 포맷의 이미지 시퀀스를 형성한 후, 3D 컨볼루션 신경망 모델을 통해 다중 프레임 이미지에 대해 다중 채널 식별을 수행하고, 나아가 각 채널의 식별 확율을 결합하여 식별 결과를 출력함으로써 이미지 식별 정확도를 향상시킨다.
도 1은 본 발명의 제1 실시형태에 따른 딥러닝 기반의 캡슐 내시경 영상 식별 방법의 흐름 모식도이다;
도 2는 본 발명의 하나의 구체적인 예시에서 제공하는 슬라이딩 윈도우 분할 모식도이다;
도 3은 본 발명의 하나의 구체적인 예시에서 제공하는 트레이닝된 2D 식별 모델의 컨볼루션 커널 파라미터를 이용하여 3D 컨볼루션 신경망 모델의 컨볼루션 커널 초기화 파라미터를 생성하는 모식도이다;
도 4는 본 발명에서 제공하는 3D 컨볼루션 신경망 모델의 구조 모식도이다;
도 5는 본 발명에서 제공하는 협업 시공간 특징 구조의 구조 모식도이다;
도 6은 본 발명의 구체적인 예시에서 협업 시공간 컨볼루션 레이어가 데이터를 처리하는 흐름 모식도이다.
아래 첨부된 도면에 도시된 구체적인 실시형태를 결부하여 본 발명을 자세히 설명한다. 그러나 본 발명은 이러한 실시형태에 의해 한정되지 않으며, 본 기술분야의 통상의 기술자가 이러한 실시형태를 기반으로 얻은 구조, 방법 또는 기능의 변환도 모두 본 발명의 보호 범위 내에 속한다.
도 1에서와 같이, 본 발명의 제1 실시형태에서는 딥러닝 기반의 캡슐 내시경 영상 식별 방법을 제공하고, 상기 방법은,
S1, 캡슐 내시경을 통해 시간 생성 순서에 따라 N개의 원본 이미지를 수집하는 단계;
S2, 슬라이딩 윈도우 분할법을 사용하여 N개의 원본 이미지를 크기가 동일한 M세트의 원본 이미지 시퀀스로 분할하고;
N개의 원본 이미지를 분석하거나 또는 M세트의 원본 이미지 시퀀스를 분석하여 M세트의 RGB 이미지 시퀀스를 형성하고, N개의 원본 이미지를 분석하거나 또는 M세트의 RGB 이미지 시퀀스를 분석하여 M세트의 광학 흐름 이미지 시퀀스를 형성하되;
각각의 상기 RGB 이미지 시퀀스는 RGB 포맷의 이미지 데이터로 구성되고, 각각의 상기 광학 흐름 이미지 시퀀스는 인접한 RGB 이미지의 광학 흐름 필드를 계산하여 형성된 이미지 데이터로 구성되는 단계; 및
S3, 상기 RGB 이미지 시퀀스 및 상기 광학 흐름 이미지 시퀀스를 3D 컨볼루션 신경망 모델에 각각 입력하여 식별 결과를 출력하되; 상기 식별 결과는 기설정된 파라미터가 나타날 확률 값인 단계를 포함한다.
단계 S1에 있어서, 캡슐 내시경의 작동 과정에서 그에 설치된 카메라를 통해 이미지를 연속적으로 촬영하고 동기식 또는 비동기식으로 수집 및 저장하여 원본 이미지를 형성하고;
단계 S2에 있어서, 슬라이딩 윈도우 분할법을 사용하여 N개의 원본 이미지를 크기가 동일한 M세트의 원본 이미지 시퀀스로 분할하는 단계는, 시간 생성 순서에 따라 N개의 원본 이미지에 순차적으로 1, 2, ……N으로 번호를 매기는 단계; 및 기설정된 윈도우 크기 K 및 기설정된 슬라이딩 스텝 길이 S로 N개의 이미지를 순차적으로 분할하고, 이를 M세트의 원본 이미지 시퀀스로 나누되, 여기서, 인 단계를 포함한다.
구체적으로, 분할을 거친 제1 세트의 원본 이미지 시퀀스는 번호가 1, 2, ..., K인 원본 이미지로 구성되고, 제2 세트의 원본 이미지 시퀀스는 번호가 S+1, S+2, ..., S+K인 원본 이미지로 구성되며, 순차적으로 분할을 거친 후 마지막 세트의 원본 이미지 시퀀스는 번호가 N-K, N-K+1, ..., N인 원본 이미지로 구성되고, 총 세트의 원본 이미지 시퀀스로 분할되며, 공식에서 기호 는 위로 올림을 나타낸다. 바람직하게는, K의 값 범위는 2≤K≤1000이고, S의 값 범위는 1≤S<K이다.
유의해야 할 점은, N이 K로 나누어 떨어지지 않을 경우, 개수가 K가 아닌 원본 이미지 시퀀스가 1세트 존재하며, 바람직하게는, 상기 개수가 K가 아닌 원본 이미지 시퀀스를 제1 세트 또는 마지막 세트로 설정한다. 통상적으로, 계산의 편의를 위해, 계산에 사용되는 원본 이미지의 개수 N은 K로 나누어 떨어질 수 있도록 선택되며, 여기서는 더 자세히 설명하지 않는다.
도 2를 결부하면, 본 발명의 하나의 구체적인 예시에서, 원본 이미지의 총 개수는 N=10000개이고, 슬라이딩 윈도우의 크기를 K=10로 설정하고 슬라이딩 스텝 길이를 S=5로 설정하면, 분할된 제1 세트의 원본 이미지 시퀀스는 원본 이미지 1, 2, ..., 10으로 구성되고, 제2 세트의 원본 이미지 시퀀스는 원본 이미지 6, 7, ..., 15로 구성되며, 이렇게 하여 마지막 세트의 원본 이미지 시퀀스는 원본 이미지 9991, 9992, ..., 10000으로 구성되고, 총 1999개의 원본 이미지 시퀀스로 분할된다.
상응하게, N개의 원본 이미지를 분석하거나 또는 M세트의 원본 이미지 시퀀스를 분석하여 M세트의 RGB 이미지 시퀀스를 형성하되, 각각의 상기 RGB 이미지 시퀀스는 RGB 포맷의 이미지 데이터로 구성된다. 구체적으로, 원본 이미지 시퀀스의 각각의 원본 이미지를 각각 RGB 포맷의 이미지로 변환하여, 각각의 원본 이미지 시퀀스에 대해 하나의 대응되는 RGB 이미지 시퀀스가 형성되도록 한다. 여기서 유의해야 할 점은, 먼저 N개의 원본 이미지를 RGB 포맷으로 변환한 다음 원본 이미지 시퀀스를 형성하는 것과 동일한 슬라이딩 윈도우 분할법으로 M세트의 RGB 이미지 시퀀스를 형성할 수도 있으며, 상기 두 가지 방식으로 형성된 RGB 이미지 시퀀스는 동일하다.
또한, 원본 이미지가 RGB 포맷의 이미지인 경우 재차 변환할 필요가 없고, 원본 이미지 시퀀스가 바로 RGB 이미지 시퀀스이며, 여기서는 더 자세히 설명하지 않는다.
상응하게, N개의 원본 이미지를 분석하거나 또는 M세트의 RGB 이미지 시퀀스를 분석하여 M세트의 광학 흐름 이미지를 형성하는 과정은 RGB 이미지 시퀀스의 형성 과정과 유사하며, 직접 원본 이미지를 분석하여 광학 흐름 이미지를 획득한 다음 광학 흐름 이미지로부터 원본 이미지 시퀀스를 형성하는 것과 동일한 슬라이딩 윈도우 분할법으로 M세트의 광학 흐름 이미지 시퀀스를 형성할 수 있으며; 원본 이미지 시퀀스를 분석하여 직접 광학 흐름 이미지 시퀀스를 형성할 수도 있다. 구체적으로, 원본 이미지 시퀀스를 예로 들면, 먼저 원본 이미지 시퀀스를 RGB 이미지 시퀀스로 변환한 후, 인접한 RGB 이미지의 광학 흐름 필드를 계산하여 광학 흐름 필드 이미지 데이터를 얻으며; 원본 이미지를 알고 원본 이미지에 대응되는 RGB 이미지, 광학 흐름 이미지를 획득하는 것은 모두 기존 기술이므로, 본 특허에서는 더 이상 설명하지 않는다.
단계 S3에 있어서, 3D 컨볼루션 신경망 모델은 RGB 분기 및 광학 흐름 분기를 포함하고;
RGB 이미지 시퀀스를 RGB 분기에 입력하고 계산을 수행하여 제1 분류 확율 을 출력하는 단계;
광학 흐름 이미지 시퀀스를 광학 흐름 분기에 입력하고 계산을 수행하여 제2 분류 확율 을 출력하는 단계; 및
상기 제1 분류 확율 및 상기 제2 분류 확율을 융합하여 상기 식별 결과 를 형성하되,
;
,
이고;
여기서, , 는 각각 3D 컨볼루션 신경망 모델을 구축하는 과정에서 RGB 분기 및 광학 흐름 분기에서 검증 세트의 식별 정확도를 나타내는 단계를 포함한다.
구체적으로, 상기 식별 정확도는 식별 성공 확율이다.
본 발명의 하나의 구체적인 예시에서, 이고, 이면, 이고, 이며;
구체적인 응용에서, 표시되는 식별 결과는 현재 이미지 시퀀스에 병소가 포함될 확율이고, 상기 병소는 예를 들어 출혈, 궤양, 용종, 미란 등이며, 상기 식별 결과 의 값이 클수록 병소가 나타날 확율이 크다는 것을 표시한다.
상응하게, RGB 분기는 국부적 시공간 정보를 모델링하여 촬영 내용의 외형 윤곽을 잘 묘사할 수 있고; 광학 흐름 분기는 인접한 프레임 이미지의 변화를 모델링하여 캡슐 내시경의 움직임으로 인한 촬영 내용의 동적 변화 과정을 잘 포착할 수 있어 전역 공간 정보를 복구하는 데 유리하다. 따라서, 동일한 이미지 시퀀스를 변환하여 두 종류의 데이터를 형성하고, 구축된 두 분기를 통해 각각 식별 및 출력을 수행하며, 나아가 두 분기의 결과를 융합하여 식별 효과를 향상시킬 수 있다.
본 발명의 구체적인 실시형태에서, RGB 분기 및 광학 흐름 분기의 구축 방식은 동일하며, 이하 본 발명의 설명에서는 3D 컨볼루션 신경망 모델로 두 분기를 개괄한다. 3D 컨볼루션 신경망 모델은 컨볼루션 커널을 2차원에서 3차원으로 확장하여 공간 및 시간 정보를 동시에 인코딩할 수 있어; 다중 프레임 이미지에서 병소를 식별하고 연속적으로 촬영된 인접한 이미지로부터 얻은 상이한 각도의 촬영 정보를 종합적으로 이용하여, 2D 컨볼루션 신경망 모델에서 단일 프레임 이미지를 식별하는 것에 비해 이용할 수 있는 정보가 더 많으므로 식별의 정확도를 향상시킨다.
구체적으로, 3D 컨볼루션 신경망 모델의 트레이닝 방식은 다음과 같은 단계를 포함한다.
M1, 사전 트레이닝된 2D 식별 모델에서 크기가 인 2D 컨볼루션 커널 파라미터를 N번 복사하되; 상기 2D 식별 모델은 병소 레이블이 있는 이미지를 트레이닝하여 획득한 것이고, 그 입력은 단일 프레임 이미지이고, 오직 단일 프레임 이미지만 식별이 가능하다. 2D 식별 모델의 구축 및 응용은 모두 기존 기술이며, 예를 들어 배경기술 CN111462082A 중국 특허출원에서 공개한 내용이며, 여기서는 반복하여 설명하지 않는다.
M2, 복사된 각 커널 파라미터를 각각 N으로 나누어 각각의 위치의 커널 파라미터가 원래의 1/3이 되도록 한다;
M3, 새로운 커널 파라미터를 재조합하여 크기가 인 컨볼루션 커널 파라미터를 형성하여, 3D 컨볼루션 신경망 모델의 3D 컨볼루션 커널의 초기화 파라미터를 구성한다;
구체적으로, 도 3을 참조하면, 2D 식별 모델의 3*3의 컨볼루션 커널을 3번 복사하여 차원을 확장하고; 더 나아가, 각 차원의 데이터를 개별적으로 3으로 나누어 3*3*3의 3D 컨볼루션 커널의 초기화 파라미터를 형성한다.
더 나아가, 3D컨볼루션 신경망 모델의 트레이닝 방식은, M4, 확률적 경사 하강법(stochastic parallel gradient descent algorithm)을 이용하여 파라미터가 초기화된 3D 컨볼루션 신경망 모델을 트레이닝하고, 반복 정지 조건을 만족할 때까지 모델의 파라미터를 반복적으로 업데이트하여 식별 결과의 출력에 사용되는 상기 3D 컨볼루션 신경망 모델을 형성하는 단계를 더 포함한다.
바람직하게는, 도 4를 결부하면, 처리 프로세스의 선후 순서에 따라 배열하면, 상기 3D컨볼루션 신경망 모델은, 7*7*7의 3D 컨볼루션 레이어, 3*3*3의 3D 풀링 레이어, 하나 이상의 협업 시공간 특징 구조, 3D 풀링 레이어 및 완전 연결 레이어를 포함한다.
상기 협업 시공간 특징 구조의 개수는 P개이고, P∈(4, 16)이며, 본 발명의 구체적인 실시형태에서는 P=8로 구성된다.
바람직하게는, 도 5를 결부하면, 입력으로부터 출력으로의 처리 프로세스의 선후 순서에 따라 배열하면, 상기 협업 시공간 특징 구조는, 제1 협업 시공간 컨볼루션 레이어, 제1 정규화 레이어, 활성화 레이어; 및 제1 협업 시공간 컨볼루션 레이어, 제1 정규화 레이어, 활성화 레이어와 병렬로 실행되고 상기 협업 시공간 특징 구조의 입력에서부터 출력이 되는 퀵 연결을 포함한다.
더 나아가, 입력으로부터 출력으로의 처리 프로세스의 선후 순서에 따라 배열하면, 상기 협업 시공간 특징 구조는, 활성화 레이어 다음에 위치한 제2 협업 시공간 컨볼루션 레이어 및 제2 정규화 레이어를 더 포함한다.
바람직하게는, 도 6을 결부하면, 제1 협업 시공간 컨볼루션 레이어 및 제2 협업 시공간 컨볼루션 레이어의 처리 프로세스는 동일하고, 여기서는 모두 협업 시공간 컨볼루션 레이어로 설명하며; 구체적으로, 협업 시공간 컨볼루션 레이어의 데이터 처리 프로세스는,
그의 입구로 입력되는 특징도를 3개의 뷰로 나누어 각각 , 로 표시하고,
3개의 뷰의 출력 특징을 각각 , 로 표시하면,
,
,
이되,
여기서, 의 입력 데이터이고, 는 입력 특징도의 크기이며, 는 입력 특징도의 채널 수이고, 는 3차원 컨볼루션을 표시하고, 는 컨볼루션 필터 커널을 표시하는 단계; 및
3세트의 입력 데이터에 가중치를 부여하고 합산하여 제1 협업 시공간 컨볼루션 레이어의 출력 를 얻되,
이고,
여기서, 는 크기 의 계수이고, 는 softmax를 사용하여 정규화하며, 는 출력의 채널 수이고, 숫자 3은 3개의 뷰를 나타내는 단계를 포함한다.
상기 협업 시공간 컨볼루션 레이어는 입력 데이터의 3개의 직교 뷰를 컨볼루션하여 각각 공간적 외관 및 시간 움직임 정보를 학습하고, 상이한 뷰의 컨볼루션 커널을 공유하여 공간 및 시간 특징을 협업 학습한다.
softmax를 사용하여 를 정규화하면 응답이 폭발적으로 증가하는 것을 방지할 수 있다.
더 나아가, 본 발명의 일 실시형태는 메모리 및 프로세서를 포함하고 상기 메모리에는 상기 프로세서에 의해 실행 가능한 컴퓨터 프로그램이 저장되는 전자 기기를 제공하고, 상기 프로그램은 상기 프로세서에 의해 실행될 경우 상술한 딥러닝 기반의 캡슐 내시경 영상 식별 방법의 단계를 구현한다.
더 나아가, 본 발명의 일 실시형태는 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 저장 매체를 제공하고, 상기 컴퓨터 프로그램은 프로세서에 의해 실행될 경우 상술한 딥러닝 기반의 캡슐 내시경 영상 식별 방법의 단계를 구현한다.
상기 내용을 종합하면, 본 발명의 딥러닝 기반의 캡슐 내시경 영상 식별 방법, 기기 및 매체는 연속적으로 촬영된 다중 프레임 이미지로 특정 포맷의 이미지 시퀀스를 형성한 후, 3D 컨볼루션 신경망 모델을 통해 다중 프레임 이미지에 대해 다중 채널 식별을 수행하고, 나아가 각 채널의 식별 확율을 결합하여 식별 결과를 출력함으로써 이미지 식별 정확도를 향상시킨다.
설명의 편의를 위해, 상기 장치의 설명에서는 기능별로 다양한 모듈로 구분하여 각각 기술하였다. 물론, 본 발명의 구현에서 각 모듈의 기능은 하나 또는 복수의 소프트웨어 및/또는 하드웨어에서 구현될 수 있다.
위에서 설명한 장치 실시형태는 단지 모식적인 것으로서, 이중에서 분리된 부재로 설명된 모듈은 물리적으로 분리되거나 분리되지 않을 수도 있고, 모듈로 표시된 부재는 물리적 모듈일 수도 있고 아닐 수도 있으며, 즉 한 장소에 위치하거나 또는 복수의 네트워크 모듈에 분산될 수도 있다. 실제 수요에 따라 이중의 일부 또는 전부 모듈을 선택하여 본 실시형태의 해결수단을 달성할 수 있다. 본 기술분야의 통상의 기술자는 진보성 창출에 힘쓸 필요 없이 본 발명을 이해하고 실시할 수 있다.
이해해야 할 것은, 본 명세서는 실시형태에 따라 기술되었으나, 각각의 실시형태가 단지 하나의 독립적인 기술적 해결수단만 포함하는 것은 아니며, 명세서의 이러한 서술방식은 단지 명확성을 위한 것일 뿐, 본 기술분야의 기술자는 명세서를 하나의 전체로 다루어야 하며, 각 실시형태의 기술적 해결수단은 적절히 조합되어 본 기술분야의 기술자가 이해할 수 있는 기타 실시형태를 구성할 수도 있다.
상기 열거된 일련의 상세한 설명은 단지 본 발명의 실현 가능한 실시형태의 구체적인 설명으로, 본 발명의 보호 범위를 제한하기 위한 것이 아니며, 본 발명의 기술적 사상을 벗어나지 않는 모든 등가적인 실시형태 또는 변경 또한 본 발명의 보호 범위 내에 포함되어야 한다.

Claims (10)

  1. 딥러닝 기반의 캡슐 내시경 영상 식별 방법으로서,
    캡슐 내시경을 통해 시간 생성 순서에 따라 N개의 원본 이미지를 수집하는 단계;
    슬라이딩 윈도우 분할법을 사용하여 N개의 원본 이미지를 크기가 동일한 M세트의 원본 이미지 시퀀스로 분할하고;
    N개의 원본 이미지를 분석하거나 또는 M세트의 RGB 이미지 시퀀스를 분석하여 M세트의 광학 흐름 이미지 시퀀스를 형성하되;
    각각의 상기 RGB 이미지 시퀀스는 RGB 포맷의 이미지 데이터로 구성되고, 각각의 상기 광학 흐름 이미지 시퀀스는 인접한 RGB 이미지의 광학 흐름 필드를 계산하여 형성된 이미지 데이터로 구성되는 단계; 및
    상기 RGB 이미지 시퀀스 및 상기 광학 흐름 이미지 시퀀스를 3D 컨볼루션 신경망 모델에 각각 입력하여 식별 결과를 출력하되; 상기 식별 결과는 기설정된 파라미터가 나타날 확율 값이고; 상기 3D 컨볼루션 신경망 모델은 RGB 분기 및 광학 흐름 분기를 포함하는 단계를 포함하고,
    여기서, 상기 RGB 이미지 시퀀스 및 상기 광학 흐름 이미지 시퀀스를 3D 컨볼루션 신경망 모델에 각각 입력하여 식별 결과를 출력하는 단계는,
    RGB 이미지 시퀀스를 RGB 분기에 입력하고 계산을 수행하여 제1 분류 확율 을 출력하는 단계;
    광학 흐름 이미지 시퀀스를 광학 흐름 분기에 입력하고 계산을 수행하여 제2 분류 확율 을 출력하는 단계; 및
    상기 제1 분류 확율 및 상기 제2 분류 확율을 융합하여 상기 식별 결과 를 형성하되,
    ;
    ,
    이고;
    여기서, , 는 각각 3D 컨볼루션 신경망 모델을 구축하는 과정에서 RGB 분기 및 광학 흐름 분기에서 검증 세트의 식별 정확도를 나타내는 단계를 포함하는 것을 특징으로 하는, 딥러닝 기반의 캡슐 내시경 영상 식별 방법.
  2. 제1항에 있어서,
    슬라이딩 윈도우 분할법을 사용하여 N개의 원본 이미지를 크기가 동일한 M세트의 원본 이미지 시퀀스로 분할하는 단계는,
    시간 생성 순서에 따라 N개의 원본 이미지에 순차적으로 1, 2, ……N으로 번호를 매기는 단계; 및
    기설정된 윈도우 크기 K 및 기설정된 슬라이딩 스텝 길이 S로 N개의 이미지를 순차적으로 분할하고, 이를 M세트의 원본 이미지 시퀀스로 나누되, 여기서, 인 단계를 포함하는 것을 특징으로 하는, 딥러닝 기반의 캡슐 내시경 영상 식별 방법.
  3. 제2항에 있어서,
    상기 기설정된 윈도우 크기 K의 값 범위는 2≤K≤1000이고, 상기 기설정된 슬라이딩 스텝 길이 S의 값 범위는 1≤S<K인 것을 특징으로 하는, 딥러닝 기반의 캡슐 내시경 영상 식별 방법.
  4. 제1항에 있어서,
    3D 컨볼루션 신경망 모델의 트레이닝 방식은,
    사전 트레이닝된 2D 식별 모델에서 크기가 인 2D 컨볼루션 커널 파라미터를 N번 복사하되; 상기 2D 식별 모델은 병소 레이블이 있는 이미지를 트레이닝하여 획득한 것이고, 그 입력은 단일 프레임 이미지이며, 오직 단일 프레임 이미지만 식별 가능한 단계;
    복사된 각 커널 파라미터를 각각 N으로 나누어 각각의 위치의 커널 파라미터가 원래의 1/3이 되도록 하는 단계;
    새로운 커널 파라미터를 재조합하여 크기가 인 컨볼루션 커널 파라미터를 형성하여, 3D 컨볼루션 신경망 모델의 3D 컨볼루션 커널의 초기화 파라미터를 구성하는 단계; 및
    확률적 경사 하강법을 이용하여 파라미터가 초기화된 3D 컨볼루션 신경망 모델을 트레이닝하고, 반복 정지 조건을 만족할 때까지 모델의 파라미터를 반복적으로 업데이트하여 식별 결과의 출력에 사용되는 상기 3D 컨볼루션 신경망 모델을 형성하는 단계를 포함하는 것을 특징으로 하는, 딥러닝 기반의 캡슐 내시경 영상 식별 방법.
  5. 제1항에 있어서,
    처리 프로세스의 선후 순서에 따라 배열하면, 상기 3D 컨볼루션 신경망 모델은,
    7*7*7의 3D 컨볼루션 레이어, 3*3*3의 3D 풀링 레이어, 하나 이상의 협업 시공간 특징 구조, 3D 풀링 레이어 및 완전 연결 레이어를 포함하는 것을 특징으로 하는, 딥러닝 기반의 캡슐 내시경 영상 식별 방법.
  6. 제5항에 있어서,
    상기 협업 시공간 특징 구조의 수는 P개이고, P∈(4, 16)이며;
    입력으로부터 출력으로의 처리 프로세스의 선후 순서에 따라 배열하면, 상기 협업 시공간 특징 구조는,
    제1 협업 시공간 컨볼루션 레이어, 제1 정규화 레이어, 활성화 레이어; 및 제1 협업 시공간 컨볼루션 레이어, 제1 정규화 레이어, 활성화 레이어와 병렬로 실행되고 상기 협업 시공간 특징 구조의 입력에서부터 출력이 되는 퀵 연결을 포함하는 것을 특징으로 하는, 딥러닝 기반의 캡슐 내시경 영상 식별 방법.
  7. 제6항에 있어서,
    입력으로부터 출력으로의 처리 프로세스의 선후 순서에 따라 배열하면, 상기 협업 시공간 특징 구조는,
    활성화 레이어 다음에 위치한 제2 협업 시공간 컨볼루션 레이어 및 제2 정규화 레이어를 더 포함하는 것을 특징으로 하는, 딥러닝 기반의 캡슐 내시경 영상 식별 방법.
  8. 제6항에 있어서,
    상기 제1 협업 시공간 컨볼루션 레이어의 데이터 처리 프로세스는,
    그의 입구로 입력되는 특징도를 3개의 뷰로 나누어 각각 , 로 표시하고,
    3개의 뷰의 출력 특징을 각각 , 로 표시하면,
    ,
    ,
    이되,
    여기서, 의 입력 데이터이고, 는 입력 특징도의 크기이며, 는 입력 특징도의 채널 수이고, 는 3차원 컨볼루션을 표시하고, 는 컨볼루션 필터 커널을 표시하는 단계; 및
    3세트의 입력 데이터에 가중치를 부여하고 합산하여 제1 협업 시공간 컨볼루션 레이어의 출력 를 얻되,
    이고,
    여기서, 는 크기 의 계수이고, 는 softmax를 사용하여 정규화하며, 는 출력의 채널 수이고, 숫자 3은 3개의 뷰를 나타내는 단계를 포함하는 것을 특징으로 하는, 딥러닝 기반의 캡슐 내시경 영상 식별 방법.
  9. 메모리 및 프로세서를 포함하고, 상기 메모리에는 상기 프로세서에 의해 실행 가능한 컴퓨터 프로그램이 저장된 전자 기기로서,
    상기 프로그램은 상기 프로세서에 의해 실행될 경우 딥러닝 기반의 캡슐 내시경 영상 식별 방법의 단계를 구현하고, 상기 방법은,
    캡슐 내시경을 통해 시간 생성 순서에 따라 N개의 원본 이미지를 수집하는 단계;
    슬라이딩 윈도우 분할법을 사용하여 N개의 원본 이미지를 크기가 동일한 M세트의 원본 이미지 시퀀스로 분할하고;
    N개의 원본 이미지를 분석하거나 또는 M세트의 RGB 이미지 시퀀스를 분석하여 M세트의 광학 흐름 이미지 시퀀스를 형성하되;
    각각의 상기 RGB 이미지 시퀀스는 RGB 포맷의 이미지 데이터로 구성되고, 각각의 상기 광학 흐름 이미지 시퀀스는 인접한 RGB 이미지의 광학 흐름 필드를 계산하여 형성된 이미지 데이터로 구성되는 단계; 및
    상기 RGB 이미지 시퀀스 및 상기 광학 흐름 이미지 시퀀스를 3D 컨볼루션 신경망 모델에 각각 입력하여 식별 결과를 출력하되; 상기 식별 결과는 기설정된 파라미터가 나타날 확율 값이고; 상기 3D 컨볼루션 신경망 모델은 RGB 분기 및 광학 흐름 분기를 포함하는 단계를 포함하고,
    여기서, 상기 RGB 이미지 시퀀스 및 상기 광학 흐름 이미지 시퀀스를 3D 컨볼루션 신경망 모델에 각각 입력하여 식별 결과를 출력하는 단계는,
    RGB 이미지 시퀀스를 RGB 분기에 입력하고 계산을 수행하여 제1 분류 확율 을 출력하는 단계;
    광학 흐름 이미지 시퀀스를 광학 흐름 분기에 입력하고 계산을 수행하여 제2 분류 확율 을 출력하는 단계; 및
    상기 제1 분류 확율 및 상기 제2 분류 확율을 융합하여 상기 식별 결과 를 형성하되,
    ;
    ,
    이고;
    여기서, , 는 각각 3D 컨볼루션 신경망 모델을 구축하는 과정에서 RGB 분기 및 광학 흐름 분기에서 검증 세트의 식별 정확도를 나타내는 단계를 포함하는 것을 특징으로 하는, 전자 기기.
  10. 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 저장 매체로서,
    상기 컴퓨터 프로그램은 프로세서에 의해 실행될 경우 딥러닝 기반의 캡슐 내시경 영상 식별 방법의 단계를 구현하고, 상기 방법은,
    캡슐 내시경을 통해 시간 생성 순서에 따라 N개의 원본 이미지를 수집하는 단계;
    슬라이딩 윈도우 분할법을 사용하여 N개의 원본 이미지를 크기가 동일한 M세트의 원본 이미지 시퀀스로 분할하고;
    N개의 원본 이미지를 분석하거나 또는 M세트의 RGB 이미지 시퀀스를 분석하여 M세트의 광학 흐름 이미지 시퀀스를 형성하되;
    각각의 상기 RGB 이미지 시퀀스는 RGB 포맷의 이미지 데이터로 구성되고, 각각의 상기 광학 흐름 이미지 시퀀스는 인접한 RGB 이미지의 광학 흐름 필드를 계산하여 형성된 이미지 데이터로 구성되는 단계; 및
    상기 RGB 이미지 시퀀스 및 상기 광학 흐름 이미지 시퀀스를 3D 컨볼루션 신경망 모델에 각각 입력하여 식별 결과를 출력하되; 상기 식별 결과는 기설정된 파라미터가 나타날 확율 값이고; 상기 3D 컨볼루션 신경망 모델은 RGB 분기 및 광학 흐름 분기를 포함하는 단계를 포함하고,
    여기서, 상기 RGB 이미지 시퀀스 및 상기 광학 흐름 이미지 시퀀스를 3D 컨볼루션 신경망 모델에 각각 입력하여 식별 결과를 출력하는 단계는,
    RGB 이미지 시퀀스를 RGB 분기에 입력하고 계산을 수행하여 제1 분류 확율 을 출력하는 단계;
    광학 흐름 이미지 시퀀스를 광학 흐름 분기에 입력하고 계산을 수행하여 제2 분류 확율 을 출력하는 단계; 및
    상기 제1 분류 확율 및 상기 제2 분류 확율을 융합하여 상기 식별 결과 를 형성하되,
    ;
    ,
    이고;
    여기서, , 는 각각 3D 컨볼루션 신경망 모델을 구축하는 과정에서 RGB 분기 및 광학 흐름 분기에서 검증 세트의 식별 정확도를 나타내는 단계를 포함하는 것을 특징으로 하는, 컴퓨터 판독 가능 저장 매체.
KR1020237022485A 2021-01-06 2021-12-14 딥러닝 기반의 캡슐 내시경 영상 식별 방법, 기기 및매체 KR20230113386A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110010379.4 2021-01-06
CN202110010379.4A CN112348125B (zh) 2021-01-06 2021-01-06 基于深度学习的胶囊内窥镜影像识别方法、设备及介质
PCT/CN2021/137938 WO2022148216A1 (zh) 2021-01-06 2021-12-14 基于深度学习的胶囊内窥镜影像识别方法、设备及介质

Publications (1)

Publication Number Publication Date
KR20230113386A true KR20230113386A (ko) 2023-07-28

Family

ID=74427399

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237022485A KR20230113386A (ko) 2021-01-06 2021-12-14 딥러닝 기반의 캡슐 내시경 영상 식별 방법, 기기 및매체

Country Status (6)

Country Link
US (1) US20240070858A1 (ko)
EP (1) EP4276684A4 (ko)
JP (1) JP2024502105A (ko)
KR (1) KR20230113386A (ko)
CN (1) CN112348125B (ko)
WO (1) WO2022148216A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348125B (zh) * 2021-01-06 2021-04-02 安翰科技(武汉)股份有限公司 基于深度学习的胶囊内窥镜影像识别方法、设备及介质
CN113159238B (zh) * 2021-06-23 2021-10-26 安翰科技(武汉)股份有限公司 内窥镜影像识别方法、电子设备及存储介质
CN113591961A (zh) * 2021-07-22 2021-11-02 深圳市永吉星光电有限公司 一种基于神经网络的微创医用摄像头图像识别方法
CN113591761B (zh) * 2021-08-09 2023-06-06 成都华栖云科技有限公司 一种视频镜头语言识别方法
CN113487605B (zh) * 2021-09-03 2021-11-19 北京字节跳动网络技术有限公司 用于内窥镜的组织腔体定位方法、装置、介质及设备
CN116309604B (zh) * 2023-05-24 2023-08-22 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 动态分析时序mr图像的方法、系统、设备和存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984957A (zh) 2014-05-04 2014-08-13 中国科学院深圳先进技术研究院 胶囊内窥镜图像可疑病变区域自动预警系统
CN108292366B (zh) * 2015-09-10 2022-03-18 美基蒂克艾尔有限公司 在内窥镜手术中检测可疑组织区域的系统和方法
US10572996B2 (en) * 2016-06-28 2020-02-25 Contextvision Ab Method and system for detecting pathological anomalies in a digital pathology image and method for annotating a tissue slide
CN109740670B (zh) * 2019-01-02 2022-01-11 京东方科技集团股份有限公司 视频分类的方法及装置
CN109886358B (zh) * 2019-03-21 2022-03-08 上海理工大学 基于多时空信息融合卷积神经网络的人体行为识别方法
CN110222574B (zh) * 2019-05-07 2021-06-29 杭州智尚云科信息技术有限公司 基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质
CN110705463A (zh) * 2019-09-29 2020-01-17 山东大学 基于多模态双流3d网络的视频人体行为识别方法及系统
CN111383214B (zh) * 2020-03-10 2021-02-19 长沙慧维智能医疗科技有限公司 实时内窥镜肠镜息肉检测系统
CN111462082A (zh) 2020-03-31 2020-07-28 重庆金山医疗技术研究院有限公司 一种病灶图片识别装置、方法、设备及可读存储介质
CN111950444A (zh) * 2020-08-10 2020-11-17 北京师范大学珠海分校 一种基于时空特征融合深度学习网络的视频行为识别方法
CN112348125B (zh) * 2021-01-06 2021-04-02 安翰科技(武汉)股份有限公司 基于深度学习的胶囊内窥镜影像识别方法、设备及介质

Also Published As

Publication number Publication date
US20240070858A1 (en) 2024-02-29
CN112348125A (zh) 2021-02-09
EP4276684A1 (en) 2023-11-15
EP4276684A4 (en) 2024-05-29
JP2024502105A (ja) 2024-01-17
CN112348125B (zh) 2021-04-02
WO2022148216A1 (zh) 2022-07-14

Similar Documents

Publication Publication Date Title
KR20230113386A (ko) 딥러닝 기반의 캡슐 내시경 영상 식별 방법, 기기 및매체
US10860930B2 (en) Learning method, image recognition device, and computer-readable storage medium
CN110378381B (zh) 物体检测方法、装置和计算机存储介质
WO2021036616A1 (zh) 一种医疗图像处理方法、医疗图像识别方法及装置
CN110188795B (zh) 图像分类方法、数据处理方法和装置
CN110276411B (zh) 图像分类方法、装置、设备、存储介质和医疗电子设备
CN112308200B (zh) 神经网络的搜索方法及装置
US20190102878A1 (en) Method and apparatus for analyzing medical image
US11157797B2 (en) Evaluating quality of a product such as a semiconductor substrate
CN111368849B (zh) 图像处理方法、装置、电子设备及存储介质
CN110752028A (zh) 一种图像处理方法、装置、设备以及存储介质
CN113256529B (zh) 图像处理方法、装置、计算机设备及存储介质
CN111091536A (zh) 医学图像处理方法、装置、设备、介质以及内窥镜
US20190117167A1 (en) Image processing apparatus, learning device, image processing method, method of creating classification criterion, learning method, and computer readable recording medium
Zhang et al. Dual encoder fusion u-net (defu-net) for cross-manufacturer chest x-ray segmentation
CN111667459A (zh) 一种基于3d可变卷积和时序特征融合的医学征象检测方法、系统、终端及存储介质
CN111583184A (zh) 图像分析方法、网络、计算机设备和存储介质
CN110705564B (zh) 图像识别的方法和装置
Alam et al. Rat-capsnet: A deep learning network utilizing attention and regional information for abnormality detection in wireless capsule endoscopy
Amirthalingam et al. Improved Water Strider Optimization with Deep Learning based Image Classification for Wireless Capsule Endoscopy
CN113724184A (zh) 脑出血预后预测方法、装置、电子设备及存储介质
Khan et al. Voting neural network (vnn) for endoscopic image segmentation
CN113706449B (zh) 基于病理图像的细胞分析方法、装置、设备及存储介质
CN113705546A (zh) 干扰类别识别模型训练方法、识别方法、装置及电子设备
CN111881729B (zh) 基于热成像的活体流向甄别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A201 Request for examination