KR20220064408A

KR20220064408A - 시공간 데이터에 기초하여 의료 이미지를 분석하기 위한 시스템 및 방법

Info

Publication number: KR20220064408A
Application number: KR1020227013324A
Authority: KR
Inventors: 존 갈레오티; 테자스 수다르샨 마타이
Original assignee: 카네기 멜론 유니버시티
Priority date: 2019-09-24
Filing date: 2020-09-24
Publication date: 2022-05-18
Also published as: CA3155631A1; CN114600171A; JP2022549669A; WO2021061947A1; IL291658A; US20220383500A1

Abstract

인공 신경망을 사용하여 시공간 의료 이미지를 분석하기 위한 시스템, 방법 및 컴퓨터 프로그램 제품이 제공된다. 본 방법은 환자의 일련의 의료 이미지를 캡처하는 단계로서, 일련의 의료 이미지는 적어도 하나의 엔티티의 시각적 움직임을 포함하는, 캡처하는 단계, 시각적 움직임에 기초하여 적어도 하나의 엔티티와 연관된 시변 공간 데이터를 추적하는 단계, 시변 공간 데이터를 일련의 의료 이미지와 상관시킴으로써 시공간 데이터를 생성하는 단계, 및 복수의 층을 포함하는 인공 신경망에 기초하여 일련의 의료 이미지를 분석하는 단계를 포함하고, 복수의 층 중 하나 이상의 층은 각각 적어도 3개의 상이한 스케일로부터의 피처를 결합하고, 인공 신경망의 복수의 층 중 적어도 하나의 층은 시공간 데이터에 기초하여 시공간 관계를 학습하도록 구성된다.

Description

시공간 데이터에 기초하여 의료 이미지를 분석하기 위한 시스템 및 방법

관련 출원에 대한 상호 참조

본 출원은 2019년 9월 24일자로 출원된 미국 가특허출원 제62/904,728호에 대한 우선권을 주장하며, 그 개시는 전체가 본원에 참조로 통합된다.

배경

1. 분야

본 개시는 일반적으로 인공 신경망에 관한 것으로, 비제한적인 실시예에서, 인공 신경망을 사용하여 시공간 데이터에 기초하여 의료 이미지를 분석하기 위한 시스템, 방법 및 컴퓨터-프로그램 제품에 관한 것이다.

2. 기술적 고려 사항

광간섭 단층 촬영(OCT: optical coherence tomography), 초음파, MRI 또는 다른 순차적 획득 방법을 사용하여 획득된 의료 이미지는 환자의 신체 일부를 통해 획득된 단층 촬영 슬라이스(또는 볼륨, 예를 들어, 전체 프레임 OCT)의 시퀀스를 포함할 수 있다. 이러한 이미지는 환자(내부 또는 외부), 사용 중인 기구(예를 들어, 초음파 프로브), 및/또는 이와 유사한 것의 모션 및/또는 배향의 다양한 상이한 유형에 기초하여 하나의 슬라이스(또는 볼륨)로부터 다음으로의 변화를 겪는다. 또한, 이러한 이미지를 분석하는 데 사용되는 기존 신경망은 시퀀스의 각각의 이미지를 다른 모든 이미지와 독립적으로 고려하므로, 이러한 신경망은 모션을 모델링하거나, 시퀀스의 이전 이미지를 고려하거나, 아니면 환자 및/또는 기구의 변화하는 모션 및/또는 배향을 고려할 수 없다.

내중막 두께(IMT: Intima-Media Thickness)는 죽상경화판(atherosclerotic plaque) 축적과 같은 임상 어플리케이션에서 위험을 정량화하는 파라미터이다. 그러나, 특히 IMT는 손 이식 수혜자(또는 다른 복합 조직 동종이식 수혜자)의 기능적 진행을 추적하는 데 사용할 수 있으며, 여기서 변화 모니터링에 대한 최고 표준은 현재 조직 병리학이다. 최근 초고주파수 초음파(UHFUS: Ultra-High Frequency Ultrasound)는 1 cm의 얕은 조직 깊이 내에서 0.03 mm에서 혈관 구조의 해상도를 통해 IMT를 정량적으로 측정하는 것으로 나타났다. 그러나, 이러한 개선된 해상도는 또한 통상의 초음파 및 고주파 초음파(HFUS: High Frequency Ultrasound) 촬상 디바이스와 달리 혈관 경계를 손상시키는 반점 노이즈의 증가를 동반한다. 또한, 얕은 깊이에서의 혈관은 경동맥과 같은 신체의 더 깊은 혈관과 달리 (변환기 압력과 모션으로 인해) 상당히 자체적으로 뒤틀린다. 따라서, 시간 경과에 따른 IMT의 변화를 비교하기 위해 UHFUS 및 HFUS 시퀀스에서 빠르게 움직이고 맥동하는 혈관 윤곽 및 다른 엔티티의 mm 이하 위치 결정을 포함하는 시스템을 갖는 것이 바람직하다.

초음파 시퀀스에 대한 이전의 혈관-기반 세그먼트화 접근법은 두 가지 범주에 속한다. HFUS 및 UHFUS에 대한 최신 레벨 설정 방법과 같은 첫번째 범주는 실행이 빠르지만 파라미터의 미세 튜닝으로 인해 임상 사용에 필요한 견고성이 부족하다. 학습-기반 접근법을 포함하는 두번째 범주는 스캔 설정의 변화와 이미지 품질의 변동에 탄력적이지만, 프레임 간 혈관 동역학을 적절히 활용하지 않는 작업에 특정적이므로 다양하고 상이한 생물 의학 촬상 양식에 적용할 수 없다.

비제한적인 실시예 또는 양태에 따르면, 인공 신경망을 사용하여 시공간 의료 이미지를 분석하기 위한 방법이 제공되며, 본 방법은, 촬상 디바이스로 환자의 일련의 의료 이미지를 캡처하는 단계로서, 일련의 의료 이미지는 환자 및 객체 중 적어도 하나의 적어도 일부를 포함하는 적어도 하나의 엔티티의 시각적 움직임을 포함하는, 캡처하는 단계; 컴퓨팅 디바이스로 시각적 움직임에 기초하여 적어도 하나의 엔티티와 연관된 시변(time-varying) 공간 데이터를 추적하는 단계; 컴퓨팅 디바이스로 시변 공간 데이터를 일련의 의료 이미지와 상관시킴으로써 시공간 데이터를 생성하는 단계; 및 컴퓨팅 디바이스로 복수의 층을 포함하는 인공 신경망에 기초하여 일련의 의료 이미지를 분석하는 단계를 포함하고, 복수의 층 중 하나 이상의 층은 각각 적어도 3개의 상이한 스케일로부터의 피처를 결합하고, 인공 신경망의 복수의 층 중 적어도 하나의 층은 시공간 데이터에 기초하여 시공간 관계를 학습하도록 구성된다.

비제한적인 실시예 또는 양태에서, 적어도 3개의 상이한 스케일로부터의 피처를 결합하는 하나 이상의 층은 상이한 스케일의 팽창된 컨볼루션(dilated convolution)을 포함한다. 비제한적인 실시예 또는 양태에서, 적어도 3개의 상이한 스케일로부터의 피처를 결합하는 하나 이상의 층은 복수의 층 중 층들의 적어도 서브세트 사이의 밀집 및/또는 잔류 연결을 포함하고, 층의 적어도 서브세트는 적어도 3개의 상이한 스케일로부터의 피처를 포함한다. 비제한적인 실시예 또는 양태에서, 적어도 3개의 상이한 스케일로부터의 피처를 결합하는 하나 이상의 층은 적어도 2개의 상이한 스케일의 컨볼루션 및 적어도 2개의 상이한 스케일로부터의 피처를 포함하는 복수의 층 중 층의 서브세트에 대한 연결을 포함하여, 적어도 3개의 상이한 스케일의 피처로 귀결된다. 비제한적인 실시예 또는 양태에서, 적어도 하나의 엔티티는 기구, 촬상 디바이스, 물리적 아티팩트(artifact), 매니페스트된(manifested) 아티팩트, 또는 이들의 임의의 조합 중 적어도 하나를 포함한다.

비제한적인 실시예 또는 양태에서, 시변 공간 데이터를 추적하는 단계는 적어도 하나의 엔티티의 병진/회전 위치, 적어도 하나의 엔티티의 속도, 적어도 하나의 엔티티의 가속도, 적어도 하나의 엔티티의 관성 측정 또는 이들의 임의의 조합 중 적어도 하나를 추적하는 단계를 포함한다. 비제한적인 실시예 또는 양태에서, 시변 공간 데이터를 추적하는 단계는 관성 측정 유닛, 추적 시스템, 위치 센서, 로봇 운동학(robotic kinematics), 역(inverse) 운동학 또는 이들의 임의의 조합 중 적어도 하나에 기초한다. 비제한적인 실시예 또는 양태에서, 시공간 데이터는 환자의 신체 내의 내부 모션을 나타내는 데이터, 환자의 신체의 외부 모션을 나타내는 데이터, 기구의 모션을 나타내는 데이터, 기구의 각도를 나타내는 데이터, 환자의 신체의 변형 모션을 나타내는 데이터 또는 이들의 임의의 조합 중 적어도 하나를 포함한다. 비제한적인 실시예 또는 양태에서, 인공 신경망은 인코더 및 디코더를 포함하고, 디코더 및 인코더 중 적어도 하나는 입력으로서 시공간 데이터를 이용하도록 구성된다. 비제한적인 실시예 또는 양태에서, 인공 신경망은 장단기 메모리(LSTM: Long-Short Term Memory) 유닛, 게이팅된 순환 유닛(GRU: Gated Recurrent Unit), 시간 컨볼루션 네트워크, 또는 이들의 임의의 조합 중 적어도 하나를 포함한다.

비제한적인 실시예 또는 양태에서, 공간 데이터는 환자 및/또는 기구의 위치 및/또는 배향을 포함한다. 비제한적인 실시예 또는 양태에서, 일련의 의료 이미지를 분석하는 단계는 일련의 이미지에서 적어도 하나의 해부학적 구조를 식별하는 단계를 포함하고, 적어도 하나의 해부학적 구조는 혈관, 동맥, 정맥, 인대, 신경, 근육의 가닥, 근막의 가닥 또는 그물망, 지방의 덩어리, 이식된 지방의 덩어리, 림프 구조, 피부의 패치, 힘줄, 뼈, 연골의 조각, 폐 늑막 라인, 심장 판막, 심실, 심장 표면, 기관(trachea), 뇌 영역, 관(duct), 섬유주대(trabecular meshwork), 각막 층, 망막 층, 안구 렌즈, 안구 표면, 연조직, 연곽의 보그트 울타리(palisade of Vogt of a limbus), 기관, 세포외 구조, 세포간 구조, 세포, 또는 이들의 임의의 조합 중 적어도 하나를 포함한다. 비제한적인 실시예 또는 양태에서, 일련의 의료 이미지는 초음파 이미지, 광간섭 단층 촬영(OCT: optical coherence tomography) 이미지, CT 이미지, MRI 이미지, PET 이미지, SPECT 이미지, 형광 투시 이미지, X-선 이미지, 유방 촬영 이미지, 단층 합성(tomosynthesis) 이미지, 광음향 이미지, 음향-광학 이미지, 내시경 이미지, 현미경 이미지, 안저(fundus) 이미지, 주사 레이저 검안경(SLO: scanning laser ophthalmoscope) 이미지, 스마트폰 이미지, 3D(깊이) 이미지, 초점-스택 이미지, 광-필드 이미지, 가시광 이미지, 적외선 이미지, 자외선 이미지, 열(thermal) 이미지, 다중 스펙트럼 이미지, 단층 촬영 이미지, 투사 이미지, 통합 이미지, 재구성된 이미지 또는 이들의 임의의 조합 중 적어도 하나를 포함한다. 비제한적인 실시예 또는 양태에서, 일련의 의료 이미지를 분석하는 단계는 일련의 의료 이미지에 나타내어진 하나 또는 복수의 혈관을 세그먼트화하는 단계를 포함한다.

비제한적인 실시예 또는 양태에서, 인공 신경망의 적어도 일부는 팽창된 컨볼루션을 포함한다. 비제한적인 실시예 또는 양태에서, 인공 신경망의 적어도 일부는 잔류 연결 및/또는 스킵된(skipped) 연결을 포함한다. 비제한적인 실시예 또는 양태에서, 인공 신경망의 적어도 일부는 팽창된 컨볼루션을 포함한다. 비제한적인 실시예 또는 양태에서, 인공 신경망의 적어도 일부는 잔류 연결 및/또는 스킵된 연결을 포함한다.

비제한적인 실시예 또는 양태에서, 인공 신경망을 사용하여 시공간 의료 이미지를 분석하기 위한 시스템이 제공되며, 시스템은 컴퓨팅 디바이스를 포함하고, 컴퓨팅 디바이스는, 촬상 디바이스로 환자의 일련의 의료 이미지를 캡처하고, 일련의 의료 이미지는 환자 및 객체 중 적어도 하나의 적어도 일부를 포함하는 적어도 하나의 엔티티의 시각적 움직임을 포함하고; 시각적 움직임에 기초하여 적어도 하나의 엔티티와 연관된 시변 공간 데이터를 추적하고; 시변 공간 데이터를 일련의 의료 이미지와 상관시킴으로써 시공간 데이터를 생성하고; 복수의 층을 포함하는 인공 신경망에 기초하여 일련의 의료 이미지를 분석하도록 프로그래밍되거나 구성되고, 복수의 층 중 하나 이상의 층은 각각 적어도 3개의 상이한 스케일로부터의 피처를 결합하고, 인공 신경망의 복수의 층 중 적어도 하나의 층은 시공간 데이터에 기초하여 시공간 관계를 학습하도록 구성된다.

비제한적인 실시예 또는 양태에서, 적어도 3개의 상이한 스케일로부터의 피처를 결합하는 하나 이상의 층은 상이한 스케일의 팽창된 컨볼루션을 포함한다. 비제한적인 실시예 또는 양태에서, 적어도 3개의 상이한 스케일로부터의 피처를 결합하는 하나 이상의 층은 복수의 층 중 층들의 적어도 서브세트 사이의 밀집 및/또는 잔류 연결을 포함하고, 층들의 적어도 서브세트는 적어도 3개의 상이한 스케일로부터의 피처를 포함한다. 비제한적인 실시예 또는 양태에서, 적어도 3개의 상이한 스케일로부터의 피처를 결합하는 하나 이상의 층은 적어도 2개의 상이한 스케일의 컨볼루션 및 적어도 2개의 상이한 스케일로부터의 피처를 포함하는 복수의 층 중 층들의 서브세트에 대한 연결을 포함하여, 적어도 3개의 상이한 스케일의 피처로 귀결된다. 비제한적인 실시예 또는 양태에서, 적어도 하나의 엔티티는 기구, 촬상 디바이스, 물리적 아티팩트, 매니페스트된 아티팩트, 또는 이들의 임의의 조합 중 적어도 하나를 포함한다.

비제한적인 실시예 또는 양태에서, 시변 공간 데이터를 추적하는 것은 적어도 하나의 엔티티의 병진/회전 위치, 적어도 하나의 엔티티의 속도, 적어도 하나의 엔티티의 가속도, 적어도 하나의 엔티티의 관성 측정 또는 이들의 임의의 조합 중 적어도 하나를 추적하는 것을 포함한다. 비제한적인 실시예 또는 양태에서, 시변 공간 데이터를 추적하는 것은 관성 측정 유닛, 추적 시스템, 위치 센서, 로봇 운동학, 역 운동학 또는 이들의 임의의 조합 중 적어도 하나에 기초한다. 비제한적인 실시예 또는 양태에서, 시공간 데이터는 환자의 신체 내의 내부 모션을 나타내는 데이터, 환자의 신체의 외부 모션을 나타내는 데이터, 기구의 모션을 나타내는 데이터, 기구의 각도를 나타내는 데이터, 환자의 신체의 변형 모션을 나타내는 데이터 또는 이들의 임의의 조합 중 적어도 하나를 포함한다. 비제한적인 실시예 또는 양태에서, 인공 신경망은 인코더 및 디코더를 포함하고, 디코더 및 인코더 중 적어도 하나는 입력으로서 시공간 데이터를 이용하도록 구성된다. 비제한적인 실시예 또는 양태에서, 인공 신경망은 장단기 메모리(LSTM) 유닛들, 게이팅된 순환 유닛(GRU), 시간 컨볼루션 네트워크, 또는 이들의 임의의 조합 중 적어도 하나를 포함한다.

비제한적인 실시예 또는 양태에서, 공간 데이터는 환자 및/또는 기구의 위치 및/또는 배향을 포함한다. 비제한적인 실시예 또는 양태에서, 일련의 의료 이미지를 분석하는 것은 일련의 이미지에서 적어도 하나의 해부학적 구조를 식별하는 것을 포함하고, 적어도 하나의 해부학적 구조는 혈관, 동맥, 정맥, 인대, 신경, 근육의 가닥, 근막의 가닥 또는 그물망, 지방의 덩어리, 이식된 지방의 덩어리, 림프 구조, 피부의 패치, 힘줄, 뼈, 연골의 조각, 폐 늑막 라인, 심장 판막, 심실, 심장 표면, 기관, 뇌 영역, 관, 섬유주대, 각막 층, 망막 층, 안구 렌즈, 안구 표면, 연조직, 연곽의 보그트 울타리, 기관, 세포외 구조, 세포간 구조, 세포, 또는 이들의 임의의 조합 중 적어도 하나를 포함한다. 비제한적인 실시예 또는 양태에서, 일련의 의료 이미지는 초음파 이미지, 광간섭 단층 촬영(OCT) 이미지, CT 이미지, MRI 이미지, PET 이미지, SPECT 이미지, 형광 투시 이미지, X-선 이미지, 유방 촬영 이미지, 단층 합성 이미지, 광음향 이미지, 음향-광학 이미지, 내시경 이미지, 현미경 이미지, 안저 이미지, 주사 레이저 검안경(SLO) 이미지, 스마트폰 이미지, 3D(깊이) 이미지, 초점-스택 이미지, 광-필드 이미지, 가시광 이미지, 적외선 이미지, 자외선 이미지, 열 이미지, 다중 스펙트럼 이미지, 단층 촬영 이미지, 투사 이미지, 통합 이미지, 재구성된 이미지 또는 이들의 임의의 조합 중 적어도 하나를 포함한다. 비제한적인 실시예 또는 양태에서, 일련의 의료 이미지를 분석하는 것은 일련의 의료 이미지에 나타내어진 하나 또는 복수의 혈관을 세그먼트화하는 것을 포함한다.

비제한적인 실시예 또는 양태에서, 신경망을 사용하여 의료 이미지를 분석하기 위한 컴퓨터 프로그램 제품이 제공되며, 이는 명령을 포함하는 적어도 하나의 비일시적 컴퓨터-판독 가능 매체를 포함하고, 명령은 컴퓨팅 디바이스에 의해 실행될 때, 컴퓨팅 디바이스로 하여금, 촬상 디바이스로 환자의 일련의 의료 이미지를 캡처하고, 일련의 의료 이미지는 환자 및 객체 중 적어도 하나의 적어도 일부를 포함하는 적어도 하나의 엔티티의 시각적 움직임을 포함하고; 시각적 움직임에 기초하여 적어도 하나의 엔티티와 연관된 시변 공간 데이터를 추적하고; 시변 공간 데이터를 일련의 의료 이미지와 상관시킴으로써 시공간 데이터를 생성하고; 복수의 층을 포함하는 인공 신경망에 기초하여 일련의 의료 이미지를 분석하게 하고, 복수의 층 중 하나 이상의 층은 각각 적어도 3개의 상이한 스케일로부터의 피처를 결합하고, 인공 신경망의 복수의 층 중 적어도 하나의 층은 시공간 데이터에 기초하여 시공간 관계를 학습하도록 구성된다.

비제한적인 실시예 또는 양태에서, 인공 신경망을 사용하여 시공간 의료 이미지를 분석하기 위한 방법이 제공되며, 본 방법은, 촬상 디바이스로 환자의 일련의 의료 이미지를 캡처하는 단계로서, 일련의 의료 이미지는 환자 및 객체 중 적어도 하나의 적어도 일부를 포함하는 적어도 하나의 엔티티의 시각적 움직임을 포함하는, 캡처하는 단계; 컴퓨팅 디바이스로 시각적 움직임에 기초하여 적어도 하나의 엔티티와 연관된 시변 공간 데이터를 추적하는 단계; 컴퓨팅 디바이스로 시변 공간 데이터를 일련의 의료 이미지와 상관시킴으로써 시공간 데이터를 생성하는 단계; 및 컴퓨팅 디바이스로 복수의 층을 포함하는 인공 신경망에 기초하여 일련의 의료 이미지를 분석하는 단계를 포함하고, 인공 신경망은 적어도 3개의 상이한 스케일로부터의 피처를 결합하는, 상이한 스케일 및 해상도의 복수의 층 사이의 팽창된 컨볼루션 및/또는 밀집 연결을 포함하고, 복수의 층 중 적어도 하나의 층은 시공간 데이터에 기초하여 시공간 관계들을 학습하도록 구성된다. 비제한적인 실시예 또는 양태에 따르면, 인공 신경망을 사용하여 시공간 의료 이미지를 분석하기 위한 시스템이 제공되며, 이는 컴퓨팅 디바이스를 포함하고, 컴퓨팅 디바이스는, 촬상 디바이스로 환자의 일련의 의료 이미지를 캡처하고, 일련의 의료 이미지는 환자 및 객체 중 적어도 하나의 적어도 일부를 포함하는 적어도 하나의 엔티티의 시각적 움직임을 포함하고; 시각적 움직임에 기초하여 적어도 하나의 엔티티와 연관된 시변 공간 데이터를 추적하고; 시변 공간 데이터를 일련의 의료 이미지와 상관시킴으로써 시공간 데이터를 생성하고; 복수의 층을 포함하는 인공 신경망에 기초하여 일련의 의료 이미지를 분석하도록 프로그래밍되거나 구성되고, 인공 신경망은 적어도 3개의 상이한 스케일로부터의 피처를 결합하는, 상이한 스케일 및 해상도의 복수의 층 사이의 팽창된 컨볼루션 및/또는 밀집 연결을 포함하고, 복수의 층 중 적어도 하나의 층은 시공간 데이터에 기초하여 시공간 관계를 학습하도록 구성된다. 비제한적인 실시예 또는 양태에서, 신경망을 사용하여 의료 이미지를 분석하기 위한 컴퓨터 프로그램 제품이 제공되며, 이는 명령을 포함하는 적어도 하나의 비일시적 컴퓨터-판독 가능 매체를 포함하고, 명령은 컴퓨팅 디바이스에 의해 실행될 때 컴퓨팅 디바이스로 하여금, 촬상 디바이스로 환자의 일련의 의료 이미지를 캡처하고, 일련의 의료 이미지는 환자 및 객체 중 적어도 하나의 적어도 일부를 포함하는 적어도 하나의 엔티티의 시각적 움직임을 포함하고; 시각적 움직임에 기초하여 적어도 하나의 엔티티와 연관된 시변 공간 데이터를 추적하고; 시변 공간 데이터를 일련의 의료 이미지와 상관시킴으로써 시공간 데이터를 생성하고; 복수의 층을 포함하는 인공 신경망에 기초하여 일련의 의료 이미지를 분석하게 하고, 인공 신경망은 적어도 3개의 상이한 스케일로부터의 피처를 결합하는, 상이한 스케일 및 해상도의 복수의 층 사이의 팽창된 컨볼루션 및/또는 밀집 연결을 포함하고, 복수의 층 중 적어도 하나의 층은 시공간 데이터에 기초하여 시공간 관계를 학습하도록 구성된다.

다른 비제한적인 실시예 또는 양태는 이하의 번호가 매겨진 항에서 제시될 것이다.

1항: 인공 신경망을 사용하여 시공간 의료 이미지를 분석하기 위한 방법에 있어서, 촬상 디바이스로 환자의 일련의 의료 이미지를 캡처하는 단계로서, 일련의 의료 이미지는 환자 및 객체 중 적어도 하나의 적어도 일부를 포함하는 적어도 하나의 엔티티의 시각적 움직임을 포함하는, 캡처하는 단계; 컴퓨팅 디바이스로 시각적 움직임에 기초하여 적어도 하나의 엔티티와 연관된 시변 공간 데이터를 추적하는 단계; 컴퓨팅 디바이스로 시변 공간 데이터를 일련의 의료 이미지와 상관시킴으로써 시공간 데이터를 생성하는 단계; 및 컴퓨팅 디바이스로 복수의 층을 포함하는 인공 신경망에 기초하여 일련의 의료 이미지를 분석하는 단계를 포함하고, 복수의 층 중 하나 이상의 층은 각각 적어도 3개의 상이한 스케일로부터의 피처를 결합하고, 인공 신경망의 복수의 층 중 적어도 하나의 층은 시공간 데이터에 기초하여 시공간 관계들을 학습하도록 구성되는, 방법.

2항: 제1항에 있어서, 적어도 3개의 상이한 스케일로부터의 피처를 결합하는 하나 이상의 층은 상이한 스케일들의 팽창된 컨볼루션을 포함하는, 방법.

3항: 제1항 또는 제2항에 있어서, 적어도 3개의 상이한 스케일로부터의 피처를 결합하는 하나 이상의 층은 복수의 층 중 층들의 적어도 서브세트 사이의 밀집 및/또는 잔류 연결을 포함하고, 층들의 적어도 서브세트는 적어도 3개의 상이한 스케일로부터의 피처를 포함하는, 방법.

4항: 제1항 내지 제3항 중 어느 한 항에 있어서, 적어도 3개의 상이한 스케일로부터의 피처를 결합하는 하나 이상의 층은 적어도 2개의 상이한 스케일의 컨볼루션 및 적어도 2개의 상이한 스케일로부터의 피처를 포함하는 복수의 층 중 층들의 서브세트에 대한 연결을 포함하여, 적어도 3개의 상이한 스케일의 피처로 귀결되는, 방법.

5항: 제1항 내지 제4항 중 어느 한 항에 있어서, 적어도 하나의 엔티티는 기구, 촬상 디바이스, 물리적 아티팩트, 매니페스트된 아티팩트, 또는 이들의 임의의 조합 중 적어도 하나를 포함하는, 방법.

6항: 제1항 내지 제5항 중 어느 한 항에 있어서, 시변 공간 데이터를 추적하는 단계는 적어도 하나의 엔티티의 병진/회전 위치, 적어도 하나의 엔티티의 속도, 적어도 하나의 엔티티의 가속도, 적어도 하나의 엔티티의 관성 측정 또는 이들의 임의의 조합 중 적어도 하나를 추적하는 단계를 포함하는, 방법.

7항: 제1항 내지 제6항 중 어느 한 항에 있어서, 시변 공간 데이터를 추적하는 단계는 관성 측정 유닛, 추적 시스템, 위치 센서, 로봇 운동학, 역 운동학 또는 이들의 임의의 조합 중 적어도 하나에 기초하는, 방법.

8항: 제1항 내지 제7항 중 어느 한 항에 있어서, 시공간 데이터는 환자의 신체 내의 내부 모션을 나타내는 데이터, 환자의 신체의 외부 모션을 나타내는 데이터, 기구의 모션을 나타내는 데이터, 기구의 각도를 나타내는 데이터, 환자의 신체의 변형 모션을 나타내는 데이터 또는 이들의 임의의 조합 중 적어도 하나를 포함하는, 방법.

9항: 제1항 내지 제8항 중 어느 한 항에 있어서, 인공 신경망은 인코더 및 디코더를 포함하고, 디코더 및 인코더 중 적어도 하나는 입력으로서 시공간 데이터를 이용하도록 구성되는, 방법.

10항: 제1항 내지 제9항 중 어느 한 항에 있어서, 인공 신경망은 장단기 메모리(LSTM) 유닛, 게이팅된 순환 유닛(GRU), 시간 컨볼루션 네트워크, 또는 이들의 임의의 조합 중 적어도 하나를 포함하는, 방법.

11항: 제1항 내지 제10항 중 어느 한 항에 있어서, 공간 데이터는 환자 및/또는 기구의 위치 및/또는 배향을 포함하는, 방법.

12항: 제1항 내지 제11항 중 어느 한 항에 있어서, 일련의 의료 이미지를 분석하는 단계는 일련의 이미지에서 적어도 하나의 해부학적 구조를 식별하는 단계를 포함하고, 적어도 하나의 해부학적 구조는 혈관, 동맥, 정맥, 인대, 신경, 근육의 가닥, 근막의 가닥 또는 그물망, 지방의 덩어리, 이식된 지방의 덩어리, 림프 구조, 피부의 패치, 힘줄, 뼈, 연골의 조각, 폐 늑막 라인, 심장 판막, 심실, 심장 표면, 기관, 뇌 영역, 관, 섬유주대, 각막 층, 망막 층, 안구 렌즈, 안구 표면, 연조직, 연곽의 보그트 울타리, 기관, 세포외 구조, 세포간 구조, 세포, 또는 이들의 임의의 조합 중 적어도 하나를 포함하는, 방법.

13항: 제1항 내지 제12항 중 어느 한 항에 있어서, 일련의 의료 이미지는 초음파 이미지, 광간섭 단층 촬영(OCT) 이미지, CT 이미지, MRI 이미지, PET 이미지, SPECT 이미지, 형광 투시 이미지, X-선 이미지, 유방 촬영 이미지, 단층 합성 이미지, 광음향 이미지, 음향-광학 이미지, 내시경 이미지, 현미경 이미지, 안저 이미지, 주사 레이저 검안경(SLO) 이미지, 스마트폰 이미지, 3D(깊이) 이미지, 초점-스택 이미지, 광-필드 이미지, 가시광 이미지, 적외선 이미지, 자외선 이미지, 열 이미지, 다중 스펙트럼 이미지, 단층 촬영 이미지, 투사 이미지, 통합 이미지, 재구성된 이미지 또는 이들의 임의의 조합 중 적어도 하나를 포함하는, 방법.

14항: 제1항 내지 제13항 중 어느 한 항에 있어서, 일련의 의료 이미지를 분석하는 단계는 일련의 의료 이미지에 나타내어진 하나 또는 복수의 혈관을 세그먼트화하는 단계를 포함하는, 방법.

15항: 인공 신경망을 사용하여 시공간 의료 이미지를 분석하기 위한 시스템에 있어서, 컴퓨팅 디바이스를 포함하고, 컴퓨팅 디바이스는, 촬상 디바이스로 환자의 일련의 의료 이미지를 캡처하고, 일련의 의료 이미지는 환자 및 객체 중 적어도 하나의 적어도 일부를 포함하는 적어도 하나의 엔티티의 시각적 움직임을 포함하고; 시각적 움직임에 기초하여 적어도 하나의 엔티티와 연관된 시변 공간 데이터를 추적하고; 시변 공간 데이터를 일련의 의료 이미지와 상관시킴으로써 시공간 데이터를 생성하고; 복수의 층을 포함하는 인공 신경망에 기초하여 일련의 의료 이미지를 분석하도록 프로그래밍되거나 구성되고, 복수의 층 중 하나 이상의 층은 각각 적어도 3개의 상이한 스케일로부터의 피처를 결합하고, 인공 신경망의 복수의 층 중 적어도 하나의 층은 시공간 데이터에 기초하여 시공간 관계를 학습하도록 구성되는, 시스템.

16항: 제15항에 있어서, 적어도 3개의 상이한 스케일로부터의 피처를 결합하는 하나 이상의 층은 상이한 스케일의 팽창된 컨볼루션을 포함하는, 시스템.

17항: 제15항 또는 제16항에 있어서, 적어도 3개의 상이한 스케일로부터의 피처를 결합하는 하나 이상의 층은 복수의 층 중 층들의 적어도 서브세트 사이의 밀집 및/또는 잔류 연결을 포함하고, 층들의 적어도 서브세트는 적어도 3개의 상이한 스케일로부터의 피처를 포함하는, 시스템.

18항: 제15항 내지 제17항 중 어느 한 항에 있어서, 적어도 3개의 상이한 스케일로부터의 피처를 결합하는 하나 이상의 층은 적어도 2개의 상이한 스케일의 컨볼루션 및 적어도 2개의 상이한 스케일로부터의 피처를 포함하는 복수의 층 중 층들의 서브세트에 대한 연결을 포함하여, 적어도 3개의 상이한 스케일의 피처로 귀결되는, 시스템.

19항: 제15항 내지 제18항 중 어느 한 항에 있어서, 적어도 하나의 엔티티는 기구, 촬상 디바이스, 물리적 아티팩트, 매니페스트된 아티팩트, 또는 이들의 임의의 조합 중 적어도 하나를 포함하는, 시스템.

20항: 제15항 내지 제19항 중 어느 한 항에 있어서, 시변 공간 데이터를 추적하는 것은 적어도 하나의 엔티티의 병진/회전 위치, 적어도 하나의 엔티티의 속도, 적어도 하나의 엔티티의 가속도, 적어도 하나의 엔티티의 관성 측정 또는 이들의 임의의 조합 중 적어도 하나를 추적하는 것을 포함하는, 시스템.

21항: 제15항 내지 제20항 중 어느 한 항에 있어서, 시변 공간 데이터를 추적하는 것은 관성 측정 유닛, 추적 시스템, 위치 센서, 로봇 운동학, 역 운동학 또는 이들의 임의의 조합 중 적어도 하나에 기초하는, 시스템.

22항: 제15항 내지 제21항 중 어느 한 항에 있어서, 시공간 데이터는 환자의 신체 내의 내부 모션을 나타내는 데이터, 환자의 신체의 외부 모션을 나타내는 데이터, 기구의 모션을 나타내는 데이터, 기구의 각도를 나타내는 데이터, 환자의 신체의 변형 모션을 나타내는 데이터 또는 이들의 임의의 조합 중 적어도 하나를 포함하는, 시스템.

23항: 제15항 내지 제22항 중 어느 한 항에 있어서, 인공 신경망은 인코더 및 디코더를 포함하고, 디코더 및 인코더 중 적어도 하나는 입력으로서 시공간 데이터를 이용하도록 구성되는, 시스템.

24항: 제15항 내지 제23항 중 어느 한 항에 있어서, 인공 신경망은 장단기 메모리(LSTM) 유닛, 게이팅된 순환 유닛(GRU), 시간 컨볼루션 네트워크, 또는 이들의 임의의 조합 중 적어도 하나를 포함하는, 시스템.

25항: 제15항 내지 제24항 중 어느 한 항에 있어서, 공간 데이터는 환자 및/또는 기구의 위치 및/또는 배향을 포함하는, 시스템.

26항: 제15항 내지 제25항 중 어느 한 항에 있어서, 일련의 의료 이미지를 분석하는 것은 일련의 이미지에서 적어도 하나의 해부학적 구조를 식별하는 것을 포함하고, 적어도 하나의 해부학적 구조는 혈관, 동맥, 정맥, 인대, 신경, 근육의 가닥, 근막의 가닥 또는 그물망, 지방의 덩어리, 이식된 지방의 덩어리, 림프 구조, 피부의 패치, 힘줄, 뼈, 연골의 조각, 폐 늑막 라인, 심장 판막, 심실, 심장 표면, 기관, 뇌 영역, 관, 섬유주대, 각막 층, 망막 층, 안구 렌즈, 안구 표면, 연조직, 연곽의 보그트 울타리, 기관, 세포외 구조, 세포간 구조, 세포, 또는 이들의 임의의 조합 중 적어도 하나를 포함하는, 시스템.

27항: 제15항 내지 제26항 중 어느 한 항에 있어서, 일련의 의료 이미지는 초음파 이미지, 광간섭 단층 촬영(OCT) 이미지, CT 이미지, MRI 이미지, PET 이미지, SPECT 이미지, 형광 투시 이미지, X-선 이미지, 유방 촬영 이미지, 단층 합성 이미지, 광음향 이미지, 음향-광학 이미지, 내시경 이미지, 현미경 이미지, 안저 이미지, 주사 레이저 검안경(SLO) 이미지, 스마트폰 이미지, 3D(깊이) 이미지, 초점-스택 이미지, 광-필드 이미지, 가시광 이미지, 적외선 이미지, 자외선 이미지, 열 이미지, 다중 스펙트럼 이미지, 단층 촬영 이미지, 투사 이미지, 통합 이미지, 재구성된 이미지 또는 이들의 임의의 조합 중 적어도 하나를 포함하는, 시스템.

28항: 제15항 내지 제27항 중 어느 한 항에 있어서, 일련의 의료 이미지를 분석하는 것은 일련의 의료 이미지에 나타내어진 하나 또는 복수의 혈관을 세그먼트화하는 것을 포함하는, 시스템.

29항: 신경망을 사용하여 의료 이미지들을 분석하기 위한 컴퓨터 프로그램 제품에 있어서, 명령을 포함하는 적어도 하나의 비일시적 컴퓨터-판독 가능 매체를 포함하고, 명령은 컴퓨팅 디바이스에 의해 실행될 때, 컴퓨팅 디바이스로 하여금, 촬상 디바이스로 환자의 일련의 의료 이미지를 캡처하고, 일련의 의료 이미지는 환자 및 객체 중 적어도 하나의 적어도 일부를 포함하는 적어도 하나의 엔티티의 시각적 움직임을 포함하고; 시각적 움직임에 기초하여 적어도 하나의 엔티티와 연관된 시변 공간 데이터를 추적하고; 시변 공간 데이터를 일련의 의료 이미지와 상관시킴으로써 시공간 데이터를 생성하고; 복수의 층을 포함하는 인공 신경망에 기초하여 일련의 의료 이미지를 분석하게 하고, 복수의 층 중 하나 이상의 층은 각각 적어도 3개의 상이한 스케일로부터의 피처를 결합하고, 인공 신경망의 복수의 층 중 적어도 하나의 층은 시공간 데이터에 기초하여 시공간 관계를 학습하도록 구성되는, 컴퓨터 프로그램 제품.

30항: 제1항 내지 제14항 중 어느 한 항에 있어서, 인공 신경망의 적어도 일부는 팽창된 컨볼루션을 포함하는, 방법.

31항: 제1항 내지 제14항 및 제30항 중 어느 한 항에 있어서, 인공 신경망의 적어도 일부는 잔류 연결 및/또는 스킵된 연결을 포함하는, 방법.

32항: 제15항 내지 제28항 중 어느 한 항에 있어서, 인공 신경망의 적어도 일부는 팽창된 컨볼루션을 포함하는, 시스템.

33항: 제15항 내지 제28항 및 제32항 중 어느 한 항에 있어서, 인공 신경망의 적어도 일부는 잔류 연결 및/또는 스킵된 연결을 포함하는, 시스템.

34항: 인공 신경망을 사용하여 시공간 의료 이미지를 분석하기 위한 방법에 있어서, 촬상 디바이스로 환자의 일련의 의료 이미지를 캡처하는 단계로서, 일련의 의료 이미지는 환자 및 객체 중 적어도 하나의 적어도 일부를 포함하는 적어도 하나의 엔티티의 시각적 움직임을 포함하는, 캡처하는 단계; 컴퓨팅 디바이스로 시각적 움직임에 기초하여 적어도 하나의 엔티티와 연관된 시변 공간 데이터를 추적하는 단계; 컴퓨팅 디바이스로 시변 공간 데이터를 일련의 의료 이미지와 상관시킴으로써 시공간 데이터를 생성하는 단계; 및 컴퓨팅 디바이스로 복수의 층을 포함하는 인공 신경망에 기초하여 일련의 의료 이미지를 분석하는 단계를 포함하고, 인공 신경망은 적어도 3개의 상이한 스케일로부터의 피처를 결합하는, 상이한 스케일 및 해상도의 복수의 층 사이의 팽창된 컨볼루션 및/또는 밀집 연결을 포함하고, 복수의 층 중 적어도 하나의 층은 시공간 데이터에 기초하여 시공간 관계를 학습하도록 구성되는, 방법.

35항: 인공 신경망을 사용하여 시공간 의료 이미지들을 분석하기 위한 시스템에 있어서, 컴퓨팅 디바이스를 포함하고, 컴퓨팅 디바이스는, 촬상 디바이스로 환자의 일련의 의료 이미지를 캡처하고, 일련의 의료 이미지는 환자 및 객체 중 적어도 하나의 적어도 일부를 포함하는 적어도 하나의 엔티티의 시각적 움직임을 포함하고; 시각적 움직임에 기초하여 적어도 하나의 엔티티와 연관된 시변 공간 데이터를 추적하고; 시변 공간 데이터를 일련의 의료 이미지와 상관시킴으로써 시공간 데이터를 생성하고; 복수의 층을 포함하는 인공 신경망에 기초하여 일련의 의료 이미지를 분석하도록 프로그래밍되거나 구성되고, 인공 신경망은 적어도 3개의 상이한 스케일로부터의 피처를 결합하는, 상이한 스케일 및 해상도의 복수의 층 사이의 팽창된 컨볼루션 및/또는 밀집 연결을 포함하고, 복수의 층 중 적어도 하나의 층은 시공간 데이터에 기초하여 시공간 관계를 학습하도록 구성되는, 시스템.

36항: 신경망을 사용하여 의료 이미지를 분석하기 위한 컴퓨터 프로그램 제품에 있어서, 명령을 포함하는 적어도 하나의 비일시적 컴퓨터-판독 가능 매체를 포함하고, 명령은 컴퓨팅 디바이스에 의해 실행될 때 컴퓨팅 디바이스로 하여금, 촬상 디바이스로 환자의 일련의 의료 이미지를 캡처하고, 일련의 의료 이미지는 환자 및 객체 중 적어도 하나의 적어도 일부를 포함하는 적어도 하나의 엔티티의 시각적 움직임을 포함하고; 시각적 움직임에 기초하여 적어도 하나의 엔티티와 연관된 시변 공간 데이터를 추적하고; 시변 공간 데이터를 일련의 의료 이미지와 상관시킴으로써 시공간 데이터를 생성하고; 복수의 층을 포함하는 인공 신경망에 기초하여 일련의 의료 이미지를 분석하게 하고, 인공 신경망은 적어도 3개의 상이한 스케일로부터의 피처를 결합하는, 상이한 스케일 및 해상도의 복수의 층 사이의 팽창된 컨볼루션 및/또는 밀집 연결을 포함하고, 복수의 층 중 적어도 하나의 층은 시공간 데이터에 기초하여 시공간 관계를 학습하도록 구성되는, 컴퓨터 프로그램 제품.

본 개시의 이러한 피처 및 특징과 다른 피처 및 특징뿐만 아니라 구조의 관련 요소의 동작 및 기능의 방법 및 부품의 조합과 제조 경제성은 모두 본 명세서의 일부를 형성하는 첨부 도면을 참조하여 이하의 설명과 첨부된 청구항을 고려할 때 보다 명확해질 것이며, 다양한 도면에서 동일한 참조 번호는 대응하는 부품을 지정한다. 그러나, 도면은 단지 예시 및 설명을 위한 것이며 본 발명의 한계를 정의하는 것으로 의도되지 않는다는 것을 분명히 이해해야 한다.

추가의 이점 및 상세 사항은 첨부 도면에 도시된 비제한적이고 예시적인 실시예를 참조하여 아래에서 더 상세히 설명되며, 여기서:
도 1은 비제한적인 실시예에 따라 인공 신경망을 사용하여 시공간 의료 이미지를 분석하기 위한 시스템에 대한 개략도를 도시한다.
도 2는 비제한적인 실시예에 따라 인공 신경망을 사용하여 시공간 의료 이미지를 분석하기 위한 시스템에서 사용하기 위한 인공 신경망 모델을 도시한다.
도 3은 비제한적인 실시예에 따라 인공 신경망을 사용하여 시공간 의료 이미지를 분석하기 위한 시스템에서 사용하기 위한 입력 구조 및 출력 구조를 도시한다.
도 4는 비제한적인 실시예에 따라 인공 신경망을 사용하여 시공간 의료 이미지를 분석하기 위한 시스템에서 사용하기 위한 인코딩 블록 구조를 도시한다.
도 5는 비제한적인 실시예에 따라 인공 신경망을 사용하여 시공간 의료 이미지를 분석하기 위한 시스템에서 사용하기 위한 디코딩 블록 구조를 도시한다.
도 6은 비제한적인 실시예에 따라 인공 신경망을 사용하여 시공간 의료 이미지를 분석하기 위한 흐름도를 도시한다.
도 7은 비제한적인 실시예와 관련하여 사용되는 컴퓨팅 디바이스의 예시적인 구성 요소를 도시한다.

실시예는 달리 명시적으로 지정된 경우를 제외하고 다양한 대안적인 변형 및 단계 시퀀스를 가정할 수 있음을 이해해야 한다. 이하의 명세서에 설명된 특정 디바이스 및 프로세스는 단순히 예시적인 실시예 또는 본 개시의 양태임을 또한 이해해야 한다. 따라서, 본원에 개시된 실시예 또는 양태와 관련된 특정 치수 및 다른 물리적 특성은 제한적인 것으로 간주되어서는 안 된다. 본원에 사용된 양태, 구성 요소, 요소, 구조, 작용, 단계, 기능, 명령 등은 명시적으로 이와 같이 설명되지 않는 한 중요하거나 필수적인 것으로 해석되어서는 안 된다. 또한, 본원에 사용되는 바와 같이, 관사 "어느(a)" 및 "어떤(an)"은 하나 이상의 항목을 포함하도록 의도되고 "하나 이상" 및 "적어도 하나"와 상호 교환적으로 사용될 수 있다. 또한, 본원에서 사용되는 바와 같이, "갖다(has)", "갖다(have)", "갖는(having)" 등의 용어는 개방형 용어로 의도된다. 또한, "~에 기초한"이라는 문구는 달리 명시적으로 언급되지 않는 한 "~에 적어도 부분적으로 기초한"을 의미하도록 의도된다.

본원에 사용되는 바와 같이, "컴퓨팅 디바이스"라는 용어는 데이터를 프로세싱하도록 구성된 하나 이상의 전자 디바이스를 지칭할 수 있다. 컴퓨팅 디바이스는 일부 예에서, 프로세서, 디스플레이, 메모리, 입력 디바이스, 네트워크 인터페이스 등과 같이 데이터를 수신, 프로세싱 및 출력하는 데 필요한 구성 요소를 포함할 수 있다. 컴퓨팅 디바이스는 모바일 디바이스일 수 있다. 컴퓨팅 디바이스는 또한 데스크탑 컴퓨터 또는 다른 형태의 비모바일 컴퓨터일 수 있다. 비제한적인 실시예에서, 컴퓨팅 디바이스는 GPU를 포함할 수 있다. 비제한적인 실시예에서, 컴퓨팅 디바이스는 복수의 회로로 구성될 수 있다.

비제한적인 실시예는 (컨볼루션 신경망(CNN: convoluted neural network)과 같은 인공 신경망 및 시공간 데이터를 사용하여 (해부학, 생리학, 기능적 및/또는 다른 생물 의학 이미지와 같은) 일련의 의료 이미지를 분석하기 위한 시스템, 방법 및 컴퓨터 프로그램 제품을 제공한다. 일부 비제한적 실시예에서, CNN-기반 컴퓨터-비전 접근법은 초음파 또는 광간섭 단층 촬영(OCT)에 한정되지 않지만 이와 같은 단면 단층 촬영 이미지 시퀀스에서 보이는 해부학적 구조를 자동으로 식별하고 라벨링하는 데 이용된다. 비제한적인 실시예는 해부학적 구조와 같은 엔티티에 대한 변화의 추적으로 모션 및 배향 데이터와 같은 공간 정보의 동시 추적을 허용한다. 이는 형상과 같은 해부학적 구조의 파라미터가 공간과 시간에 걸쳐 추적될 수 있게 허용한다. 이러한 형상에 대한 변형은 예를 들어, 혈관 압축 또는 분기점을 예로서 포함할 수 있다.

이제 도 1을 참조하면, 일련의 의료 이미지(104)를 분석하기 위한 시스템(1000)이 비제한적인 실시예에 따라 도시되어 있다. 시스템(1000)은 일정 기간에 걸쳐 환자(P)의 일련의 의료 이미지(104)를 캡처하는 초음파 스캐너, OCT 스캐너 등을 포함할 수 있는 촬상 디바이스(102)를 포함한다. 의료 이미지는 초음파 이미지, OCT 이미지, CT 이미지, MRI 이미지, PET 이미지, SPECT 이미지, 형광 투시 이미지, X-선 이미지, 유방 촬영 이미지, 단층 합성 이미지, 광음향 이미지, 음향-광학 이미지, 내시경 이미지, 현미경 이미지, 안저 이미지, 주사 레이저 검안경(SLO) 이미지, 스마트폰 이미지, 3D(깊이) 이미지, 초점-스택 이미지, 광-필드 이미지, 가시광 이미지, 적외선 이미지, 자외선 이미지, 열 이미지, 다중 스펙트럼 이미지, 단층 촬영 이미지, 투사 이미지, 통합 이미지, 재구성된 이미지 등을 포함할 수 있다. 촬상 디바이스(102)는 초음파 프로브와 같은 촬상 시스템(102)을 동작시키기 위한 기구(106)와 통신할 수 있지만, 다양한 기구가 이용될 수 있다. 촬상 디바이스(102)는 또한 데이터 저장 디바이스(108)와 통신하는 컴퓨팅 디바이스(100)와 통신한다.

계속해서 도 1을 참조하면, 일련의 의료 이미지(104)는 환자 및/또는 객체와 같은 엔티티의 시각적 모션에 기초하여 하나의 슬라이스(또는 볼륨)로부터 다음 슬라이스로 변경될 수 있는 환자의 신체 이미지를 포함할 수 있다. 예를 들어, 이러한 모션은 내부 모션(예: 혈관 박동, 움직이는 태아 등), 외부 모션(예를 들어, 환자 신체 모션, 기구(106) 또는 다른 도구의 모션, OCT 스캔 빔의 각도 변경 등) 및/또는 상호 작용 모션(예를 들어, 초음파 변환기를 환자에게 눌러 내부의 해부학적 구조를 변형시킴)을 포함할 수 있다. 움직이는 객체는 하나 이상의 해부학적 구조(예를 들어, 혈관, 동맥, 정맥, 인대, 신경, 근육의 가닥, 근막의 가닥 또는 그물망, 지방의 덩어리, 이식된 지방의 덩어리, 림프 구조, 피부의 패치, 힘줄, 뼈, 연골의 조각, 폐 늑막 라인, 심장 판막, 심실, 심장 표면, 기관(trachea), 뇌 영역, 관, 섬유주대, 각막 층, 망막 층, 안구 렌즈, 안구 표면, 연조직, 연곽의 보그트 울타리, 기관(organ), 세포외 구조, 세포간 구조, 세포 등)와 같은 물리적 아티팩트 및/또는 물리적으로 존재하지 않지만 하나 이상의 생리학적 특성을 나타내는 촬상 프로세스 및/또는 여기에 사용된 도구에 의해 생성된 시각적 효과와 같은 매니페스트된 아티팩트를 포함할 수 있다. 이러한 시각적 효과는 예를 들어, 바늘-관련 초음파 아티팩트(예를 들어, 잔향, 사이드 로브(side lobe), 바요넷(bayonet) 아티팩트 등) 및 폐-관련 아티팩트 및 구조(예를 들어, A-라인, B-라인, Z-라인, 커밋-테일(commit-tail) 등)를 포함할 수 있다. 다양한 다른 아티팩트도 추적될 수 있다.

여전히 도 1을 참조하면, 컴퓨팅 디바이스(100)는 일련의 이미지(104) 중 하나 이상의 이미지에서 해당 엔티티의 시각적 움직임에 기초하여 엔티티의 시변 공간 데이터를 추적하도록 구성된다. 연속하여 획득되는 이미지 사이에서 발생할 수 있는 다양한 가능한 변화가 주어지면, 비제한적인 실시예는 이러한 값이 일련의 이미지(104)(예를 들어, 일련의 이미지(104)의 적어도 서브세트) 중 복수의 이미지의 이미지별로 다르기 때문에 엔티티의 위치를 추적한다. 컴퓨팅 디바이스(100)는 일련의 이미지(104)의 이미지에 걸쳐 있는 추적된 시변 공간 데이터에 기초하여 일련의 이미지(104)의 이미지와 시변 공간 데이터를 상관시킴으로써 시공간 데이터를 생성할 수 있다. 예를 들어, 공간 데이터의 값 및/또는 값의 변화는 해당 이미지에 연결되어 하나 이상의 특정 이미지와 연관될 수 있다. 시공간 데이터는 시간에 따른 형상, 위치 및/또는 배향의 변화를 나타낼 수 있다. 연결된 데이터는 데이터 저장 디바이스(108)의 메모리에 나타내어질 수 있다.

비제한적인 실시예에서, 그리고 여전히 도 1을 참조하면, 생성된 시공간 데이터는 데이터 저장 디바이스(108)에 저장되고 분석될 수 있다. 예를 들어, 시공간 데이터는 컨볼루션 신경망(CNN)에 한정되지 않지만 이와 같은 컴퓨팅 디바이스(100)에 의해 실행되는 인공 신경망에 입력될 수 있다. 예를 들어, 시공간 데이터로 강화된 CNN은 내중막 두께를 측정하는 것과 같이 혈관(예를 들어, 손)의 초음파 비디오 시퀀스에서 시간에 따른 구조 조직 변화를 분석하는 데 사용될 수 있다. 또 다른 예로서, 강화된 CNN은 매일 개별 볼륨을 재구성한 다음 여러 날에 걸쳐 연곽의 보그트 울타리 줄기-세포 니치(niche)의 변화를 정량화하는 것과 같이, 눈의 전방 세그먼트의 구조적 변화를 분석하는 데 사용될 수 있다. 다양한 다른 용도 및 어플리케이션이 가능함을 이해할 것이다.

비제한적인 실시예에서, 인공 신경망은 연속적인 다운샘플링 및 업샘플링 층 사이의 밀집 및/또는 잔류 연결을 포함하는 U-Net 아키텍처로 구성될 수 있으며, 따라서 이러한 층은 다양한 스케일에서 생성된 입력을 프로세싱한다. 이러한 실시예에서 또는 다른 비제한적인 U-Net 실시예(예를 들어, 밀집 또는 잔류 연결을 포함하지 않을 수 있음)에서, U-Net은 다양한 스케일에 걸쳐 피처를 컴퓨팅하는 팽창된(뿐만 아니라 정규) 컨볼루션을 갖는 블록 또는 층을 포함할 수 있다. 이전 U-Net 아키텍처와 대조적으로, 이러한 개별 층 또는 블록은 하나 이상의 스케일을 포함하는 다른 층에 대한 연결 및 하나 이상의 스케일의 컨볼루션의 조합에 의해 적어도 3개의(3) 스케일에 걸쳐 피처를 컴퓨팅하도록 구성될 수 있다. 다운샘플링 및/또는 업샘플링 층 중 하나 이상의 층은 시공간 관계를 학습하도록 구성될 수 있다. 시공간 데이터는 다양한 방식으로 인공 신경망에 통합될 수 있다. 예를 들어, 일부 비제한적 실시예에서, 장단기 메모리(LSTM)는 CNN 아키텍처의 디코더 부분에 통합된다. LSTM-기반 다중-스케일 네트워크의 사용을 통해, 다중-스케일 피처가 지능적으로 결합되어 비디오 시간 단계에 걸쳐 관련 피처를 유지하고, 필요할 때에만 피처를 업데이트한다. 일부 비제한적 실시예에서, 인공 신경망 아키텍처는 네트워크의 인코더 및/또는 디코더 부분에 LSTM 및/또는 게이팅된 순환 유닛(GRU) 또는 "시간" 컨볼루션 네트워크와 같은 다른 아키텍처 요소와 같은 다른 형태의 메모리를 추가로 통합하도록 수정될 수 있다.

다른 비제한적인 실시예에서, 잔류 신경망(ResNet) 또는 코스-투-파인 컨텍스트 메모리(CFCM: Coarse-to-Fine Context Memory) 네트워크와 같은 다른 네트워크 아키텍처가 다중-스케일 피처 및 시공간 피처 및/또는 관계를 컴퓨팅하도록 강화될 수 있다. 다른 비제한적인 실시예에서, 고해상도 네트워크(HRNet: High Resolution Network)와 같은 다중-스케일 네트워크가 시공간 피처 및/또는 관계를 학습하도록 구성될 수 있다.

비제한적인 실시예에서, 시공간 데이터를 인공 신경망에 통합하는 것은 많은 목적을 위해 사용될 수 있는 강화된 신경망으로 귀결된다. 예를 들어, 강화된 신경망은 내중막 두께를 측정하는 것과 같이 혈관(예를 들어, 손)의 초음파 비디오 시퀀스에서 시간에 따른 구조 조직 변화를 분석하는 데 사용될 수 있다. 다른 예에서, 강화된 신경망은 매일 개별 볼륨을 재구성한 다음 여러 날에 걸쳐 연곽의 보그트 울타리 줄기-세포 니치의 변화를 정량화하는 것과 같이, 눈의 전방 세그먼트의 구조적 변화를 분석하는 데 사용될 수 있다. 다양한 다른 용도 및 어플리케이션이 가능함을 이해할 것이다.

비제한적인 실시예에서, 일련의 의료 이미지(104)는 시공간적 시퀀스로 획득되어, 기구(106)(예를 들어, 초음파 변환기 등)가 환자(P)의 신체를 가로질러 이동될 때 초음파 비디오에서 내부 해부 구조의 뷰가 움직이고 변한다. 네트워크의 LSTM이 기구(106), 환자(P) 또는 프로세스에서 사용된 임의의 도구가 어떻게 움직이고 있었는지를 추론하기 때문에, 사용자(예를 들어, 기술자, 의사 또는 다른 조작자 또는 분석가)는 기구(106)가 실제로 어떻게 움직였는지 알 필요가 없다. 일부 예에서, 예를 들어, 병진/회전 위치, 속도, 가속도 및/또는 다른 출력을 관성 측정 유닛, 추적 시스템(예를 들어, 임의의 수의 차원에 대한 공간 추적 시스템), 위치 센서, 로봇 운동학 및/또는 역 운동학으로부터 추적하는 것과 같이, 움직이고 있는 기구(106), 환자(P) 및/또는 도구가 어떻게 이용 가능할 수 있는지에 대한 추가 정보(예를 들어, 모션 정보)가 있다. 예를 들어, 기구(106), 환자(P) 및/또는 도구 상에 배열된 하나 이상의 센서는 컴퓨팅 디바이스(100)가 (움직이는 기구(106), 환자(P) 및/또는 도구와 같은) 엔티티가 다른 엔티티에 대해 어떻게 이동하고 있었는지를 더 잘 결정할 수 있도록 LSTM에 통합되는 모션 정보를 제공할 수 있다.

이제 도 2를 참조하면, 비제한적인 실시예에 따른 인공 신경망(200)이 도시되어 있다. 네트워크(200)는 다운샘플링 인코더(예를 들어, 인코딩 블록(206)을 포함하는 네트워크(200)의 부분) 및 LSTM-기반 디코더(예를 들어, 디코딩 블록(208)을 포함하는 네트워크(200)의 부분)를 포함한다. 인코딩 블록(206)은 스케일의 시퀀스에서 이미지로부터의 피처를 컴퓨팅하며, 피처 맵은 블록(203)으로부터 네트워크(200)의 인코더 부분 아래로, 입력 피처 맵의 더 큰 비율로부터 피처를 컴퓨팅하는 개별 커널과 함께 해상도에서 내려간다(따라서, 원래 입력 이미지에서 더 큰 수용 필드를 가짐). 유사하게, 디코딩 블록(208)은 스케일의 시퀀스로 피처를 컴퓨팅하며, 피처 맵은 네트워크(200)의 디코더 부분 위로 블록(212)으로부터 블록(205)으로, 입력 피처 맵의 더 작은 비율로부터 피처를 컴퓨팅하는 개별 커널과 함께 해상도에서 올라간다. 각각의 블록에 대한 반복(214)이 네트워크(200)에 포함될 수 있다(예를 들어, 일련의 블록 아래로 2, 3, 4, 6, 3의 반복). 예를 들어, 디코더는 컨볼루션 LSTM 네트워크(ConvLSTM)이거나 이를 통합할 수 있다. 네트워크(200) 모델은 시리즈의 각 프레임(예를 들어, 이미지)을 독립적으로 처리하는 U-Net 세그먼트화 모델과 다르다. 도 2에 도시된 LSTM-기반 모델 및 아키텍처는 밀집 픽셀별 예측을 위해 복수의 스케일에 걸쳐 (예를 들어, 혈관과 같은) 엔티티의 외관을 보유하기 위해 이미지(예를 들어, 비디오 프레임) 사이의 상호-관계를 고려하는 (예를 들어, 디코딩 블록(208)에서 LSTM 셀을 사용하는) 메모리 메커니즘을 구현한다. 네트워크(200)의 디코더 부분(예를 들어, 디코딩 블록(208))으로부터의 LSTM 셀을 네트워크(200)의 인코더 부분(예를 들어, 인코딩 블록(206))에 수집된 공간 컨텍스트와 결합함으로써, 이러한 정보를 통신 경로(210)로 LSTM 셀에 전달하여, 개선된 세그먼트화를 위해 시공간 엔티티 관련 피처가 추정된다.

도 2 내지 도 5를 참조하면, 심볼 및 문자는 이하를 나타낸다: C(컨볼루션 함수); D(팽창된 컨볼루션 함수); BN(배치 정규화 함수); ReLU(정류된 선형 활성화 유닛); T(출력 클래스: 바이너리(2), 다중(2,...)); N(피처 맵의 수, 예를 들어, {32, 64, 128, 56, 512}); H_t(시간 i에서의 숨겨진 상태); C_t(시간 t에서의 셀 상태); ●(요소별 곱셈 함수); σ(시그모이드(sigmoid) 활성화); x(컨볼루션); 및 +(요소별 합산 함수).

이제 도 2 및 도 3을 참조하면, 인공 신경망(200)은 입력(202)으로서 일련의 이미지를 수신하고 블록(203)에서 이미지 인코딩을 개시한다. 네트워크(200)는 블록(212) 및 결과 블록(205)으로부터 디코딩하고, 하나 이상의 세그먼트화된 엔티티를 갖는 일련의 이미지를 출력(204)으로서 출력한다. ReLU는 BN을 따르고 정류기(예를 들어, 활성화 함수)를 보유한다.

이제 도 2 및 도 4를 참조하면, 네트워크(200)의 인코더 부분은 팽창된 컨볼루션 및 잔류 연결을 사용하여 다중 스케일에 걸쳐 엔티티 외관의 의미 있는 표현을 추출하는 인코딩 블록(206)을 포함한다. 네트워크(200)의 인코더 부분의 처음 몇몇 층에서 특성화되는 피처 맵은 더 작은 수용 필드로 인해 제한되는 낮은 레벨 속성으로 간주되는 미세하게 정의된 속성(에지, 코너, 곡선 등)을 도시한다. 네트워크의 더 깊은 층에서, 거칠지만 복잡한 속성이 잘못 정의된 속성(예를 들어, 엔티티의 윤곽)으로 보여진다. 이 레벨에서, 피처 맵을 컴퓨팅하는 개별 커널의 더 큰 수용 필드로 인해 글로벌 스케일에서 더 많은 이미지가 보인다. 잔류 연결 및 팽창된 컨볼루션은 특히 희미하게 식별할 수 있는 경계와 관련된 추가 공간 정보를 수집하고 이 정보를 하나의 블록으로부터 다음 블록으로 주입(예를 들어, 전달)하여 최종 세그먼트화의 갭을 방지한다. 팽창된 컨볼루션은 더 넓은 주변 이미지 콘텐츠에 대한 컨텍스트 정보를 수집하여 엔티티의 경계(예를 들어, 객체 또는 조직 경계)를 정확하게 세그먼트화한다. 예를 들어, 팽창된 컨볼루션은 경계의 콘트라스트가 좋지 않은 영역에서 이전 방법보다 더 나은 성능을 발휘하기 위해 갭을 "채울" 수 있다. 이러한 계층적 표현은 일련의 이미지에서 엔티티 움직임(예를 들어, 혈관 움직임)의 역학을 독립적으로 모델링하지 않을 수 있지만, 엔티티 세그먼트화를 개선하는 데 사용될 수 있다. 예를 들어, 인코더 부분으로부터 디코더 부분의 LSTM 셀로 다른 스케일로 추출된 피처 맵을 전달함으로써, LSTM 셀은 메모리에 관심 있는 관련 피처를 유지하므로, 네트워크 모델에 통합되어 더 나은 품질 및 정밀도의 세그먼트화를 생성할 수 있다.

이제 도 2 및 도 5를 참조하면, 네트워크(200)의 디코더 부분은 디코딩 블록(208)을 포함한다. 모든 인코딩 블록(206)은 (예를 들어, 통신 경로(210)를 통해 대응하는 디코딩 블록(608)으로) 네트워크(200)의 디코더 부분에 있는 LSTM 메모리 유닛에 출력 피처 맵을 전달한다. 예를 들어, 각각의 디코딩 블록(208)의 LSTM 셀은 네트워크(200)에 통합될 수 있고 각 인코딩 블록(206)의 출력을 단일 시간 단계로 간주하고 메모리 메커니즘을 구현하여 다중 스케일에서 추출된 피처 맵을 코스-투-파인(coarse-to-fine) 방식으로 통합하도록 구성될 수 있다. 비제한적인 실시예에서, 이러한 통합은 셀 상태에 대한 새로운 정보의 제거 또는 추가를 규제하는 디코딩 블록(208)의 게이팅된 로직 구조로 수행될 수 있다. 이러한 방식으로, 가장 깊은 인코더 층(예를 들어, 가장 낮은 인코딩 블록(206) 및 그 모든 반복)으로부터의 글로벌 컨텍스트 정보가 LSTM 유닛에 의해 먼저 관찰되고, 수신 필드가 감소되며, 엔티티에 대한 더 미세한 상세 사항이 추가된다(예를 들어, 혈관 윤곽에 대한 추가 정보).

계속해서 도 2 및 도 5를 참조하면, 각 디코딩 블록(208)은 3개의 피처 세트(입력 상태, 숨겨진 상태 및 셀 상태)를 입력으로 이용하고 3개의 로직 게이트(포겟(forget) 게이트, 입력 게이트 및 출력 게이트)를 사용하여 정보를 출력하는 LSTM 유닛을 통합한다. 포겟 게이트는 셀 상태 피처 세트로부터 정보를 제거하도록 구성된다. 입력 게이트는 셀 상태 피처 세트에 통합될 새로운 정보를 결정하도록 구성된다. 출력 게이트는 각 LSTM 유닛의 출력을 규제하도록 구성된다. 각 디코딩 블록(208)의 LSTM 유닛은 세그먼트화 정확도를 개선하기 위해 컨볼루션 및 ReLU를 이용하지만, LSTM 유닛에 대한 다양한 구조가 가능하다. 네트워크(200)의 가장 깊은 레벨에서 초기 디코딩 블록(예를 들어, 블록(212))의 초기의 숨겨진 상태 및 초기 셀 상태는 0으로 초기화될 수 있어, 서로 LSTM 유닛(예를 들어, 212를 제외한 디코딩 블록(208)의 부분)의 숨겨진 상태 및 셀 상태는 그 아래의 LSTM 유닛으로부터 업샘플링된다. ConvLSTM 블록과 같은 구조화된 LSTM-기반 디코딩 블록(208)의 사용은 네트워크(200)가 엔티티의 형상 속성을 유지하고 각각의 이미지(들)에서 엔티티를 세그먼트화하는 것을 용이하게 한다.

이제 도 6을 참조하면, 비제한적인 실시예에 따른 일련의 의료 이미지를 분석하기 위한 방법에 대한 흐름도가 도시되어 있다. 도 6에 도시된 단계의 순서는 단지 예시를 위한 것이며, 비제한적인 실시예는 더 많은 단계, 더 적은 단계, 상이한 단계 및/또는 상이한 순서의 단계를 포함할 수 있음을 이해할 것이다. 단계 600에서, 인공 신경망이 생성된다. 비제한적인 실시예에서, 인공 신경망은 층 사이의 밀집 및/또는 잔류 연결로 생성된다. 이러한 실시예 그리고 다른 비제한적인 실시예에서, 인공망은 복수의 층을 포함할 수 있으며, 여기서 복수의 하나 이상의 층은 각각 적어도 3개의 상이한 스케일/해상도로부터의 피처를 결합한다. 일부 예에서, 적어도 3개의 상이한 스케일로부터의 피처를 결합하는 층은 부분적으로 상이한 스케일의 팽창된 컨볼루션, 3개의 상이한 스케일로부터의 피처를 포함하는 층의 적어도 서브세트 사이의 밀집 연결, 및/또는 3개의 상이한 스케일로부터의 피처를 포함하는 층의 적어도 서브세트를 포함할 수 있다.

네트워크는 예를 들어, 감독 및/또는 비감독 방법론을 통하는 것과 같이 다양한 방식으로 훈련될 수 있다. 비제한적인 예에서, 스틸(still) 이미지가 네트워크의 비시간적 부분을 훈련하는 데 사용될 수 있다. 네트워크의 비시간적 부분이 훈련되면, 비디오가 시공간 데이터로 전체 네트워크를 훈련하는 데 사용될 수 있다. 단계 602에서, 초음파 스캐너, OCT 스캐너 등과 같은 촬상 디바이스로 일련의 의료 이미지가 캡처된다. 일련의 의료 이미지는 예를 들어, 환자, 객체 및/또는 그 일부와 같은 엔티티의 모션을 보여주는 비디오로부터의 프레임을 포함할 수 있다. 일부 예에서, 하나 이상의 엔티티는 캡처된 복수의 프레임(예를 들어, 이미지)에서 움직일 수 있고, 일부 예에서, (예를 들어, 이미지를 캡처하는 초음파 변환기와 같이) 프레임의 외부에 있는 하나 이상의 엔티티가 프레임 내의 엔티티에 대해 움직일 수 있다.

여전히 도 6을 참조하면, 단계 604에서 공간 데이터는 프레임 내 또는 프레임 외부의 적어도 하나의 엔티티의 움직임과 관련하여 추적된다. 공간 데이터는 예를 들어, 2차원 또는 3차원 공간에서 절대 또는 상대 공간 좌표로 추적될 수 있다. 공간 데이터는 예를 들어, 관성 측정 유닛, 추적 시스템(예를 들어, 임의의 수의 차원에 대한 공간 추적 시스템), 위치 센서, 로봇 운동학 및/또는 역 운동학으로부터의 병진/회전 위치, 속도, 가속도 및/또는 다른 출력을 포함할 수 있다. 단계 606에서, 시공간 데이터는 단계 604에서 추적된 공간 데이터를 단계 602에서 캡처된 일련의 의료 이미지와 상관시킴으로써 생성된다. 시공간 데이터는 하나 이상의 데이터베이스에서 연관(예를 들어, 연결)을 포함할 수 있다. 단계 608에서, 일련의 의료 이미지가 단계 600에서 생성된 인공 신경망을 사용하여 분석된다. 인공 신경망은 본원에 설명된 바와 같이 LSTM 셀의 통합에 기초하여 엔티티 움직임의 시공간 관계를 식별하도록 훈련될 수 있다. 단계 608의 결과는 (예를 들어, 비디오에서) 일련의 이미지를 통한 하나 이상의 엔티티의 움직임이 관찰되고 기록될 수 있도록 하나 이상의 엔티티가 세그먼트화되는 일련의 의료 이미지일 수 있다.

시스템은 2개의 스캐너, Visualsonics Vevo 2100 UHFUS 기계(Fujifilm, Canada) 및 Diasus HFUS 스캐너(Dynamic Imaging, UK)로부터의 비디오 시퀀스를 사용하여 테스트되었다. UHFUS 스캐너는 물리적 해상도가 30 μm이고 픽셀 간격이 11.6 μm인 50 MHz 변환기를 제공했다. 58개의 UHFUS 시퀀스가 사용되었으며, 각각은 832 x 512 픽셀 크기의 100개의 2D B-스캔을 포함한다. HFUS 스캐너는 92.5 μm의 픽셀 간격을 갖는 10-22 MHz 변환기를 가졌다. 26개의 HFUS 시퀀스가 사용되었으며, 각각은 280 x 534 픽셀 크기의 가변 개수의 2D B-스캔(50-250)을 포함한다. 모든 시퀀스는 조정 가능한 이득 설정(40 내지 70 dB)의 넓은 범위로 손의 동맥(예를 들어, 표면 손바닥 아치)을 포함했다. 길이 방향 스캐닝, 혈관 박동, 면외 혈관 변형 등과 같은 광범위한 프로브 모션도 획득되었다. 전문 그레이더(grader)가 84개의 모든 UHFUS 및 HFUS 시퀀스에 주석을 달았다. 일반적인 적용성을 보여주기 위해, 시스템은 또한 58개의 비정상 경우와 80개의 정상 경우와 함께 138개의 주석이 달린 이미지를 포함하는 x-선 데이터세트에 대해 테스트되었다.

테스트에 사용된 58개의 UHFUS 시퀀스 중, 20개는 훈련에 선택되었고 나머지 38개는 테스트에 사용되었다. 유사하게, 26개의 HFUS 시퀀스 중에서 20개는 훈련에 선택되었고 나머지 6개는 테스트에 사용되었다. 혈관 세그먼트화 작업에 대한 3중 교차 검증이 수행되었다. 임상 어플리케이션을 시뮬레이팅하기 위해, (단일 폴드로부터) 최저 검증 손실을 갖는 2개의 최상의 모델의 앙상블이 테스트에 사용되었다. 폐 세그먼트화 작업에 대한 3중 교차 검증도 x-선 데이터세트에서 수행되었다. 혈관 세그먼트화 작업의 경우, 오류가 레벨 세트-기반 방법과 2개의 LSTM-기반 세그먼트화 접근법으로부터의 오류와 비교되었다. 폐 세그먼트화 작업의 경우, 결과가 최신 모델과 비교되었다. 시퀀스는 가변 이미지 크기를 포함하였고 전체 크기 이미지로 ConvLSTM을 훈련하는 것은 GPU RAM에 의해 제한되었다. 따라서, 인공 신경망은 각 B-스캔을 256 x 256 픽셀로 스케일링하여 훈련되었다. 훈련 세트를 120,000개의 이미지로 증가시키기 위해 데이터 증강(탄성 변형, 블러링(blurring) 등)이 수행되었다. 다른 방법과 비교하기 위해, 각 베이스라인 결과가 전문가 주석과 비교되었다. 오류를 정량화하기 위해 이하의 메트릭이 계산되었다: 1) 주사위 유사성 계수(DSC: Dice Similarity Coefficient)[6], 2) 밀리미터의 하우스도르프 거리(HD: Hausdorff Distance)[6], 3) 밀리미터의 평균 절대 편차(MAD: Mean Absolute Deviation), 4) 데피니트 폴스 포지티브 및 네거티브(Definite False Positive and Negative) 거리, 5) 정밀도(Prec.) 및 6) 소환(Recall)(Rec.).

표 1은 다른 방법과 비교한 UHFUS(상위 USVS-Net 값) 및 HFUS(바닥 USVS-Net 값) 이미지 시퀀스에 대한 세그먼트화 오류에 대한 비교를 나타낸다:

방법	DSC	HD (mm)	MAD (mm)	DFPD	DFND	Prec	Rec
통상* [6]	81.13 ±3.72	0.21 ±0.05	0.06 ±0.02	3.08 ±1.68	8.71 ±0.55	96.44 ±2.56	72.03 ±4.9
DecLSTM [10]	88.83 ±3.74	0.15 ±0.06	0.04 ±0.03	6.76 ±1.05	5.35 ±1.4	87.54 ±4.45	92.46 ±3.93
CFCM34 [11]	88.45 ±3.97	0.15 ±0.07	0.04 ±0.04	6.41 ±1.21	5.51 ±1.39	88.07 ±4.83	91.31 ±3.87
USVS-Net	92.15 ±2.29	0.11 ±0.03	0.03 ±0.01	6.83 ±1.13	6.33 ±1.36	91.76 ±3.78	93.2 ±3.34
통상 [6]	83.6 ±5.47	0.47 ±0.13	0.08 ±0.04	2.08 ±2.01	6.02 ±0.51	95.13 ±4.8	75.42 ±7.49
DecLSTM [10]	88.34 ±5.21	0.39 ±0.1	0.05 ±0.3	4.23 ±0.97	5.61 ±0.78	87.21 ±3.15	83.94 ±7.61
CFCM34 [11]	89.44 ±3.34	0.36 ±0.09	0.05 ±0.02	3.74 ±1.04	5.23 ±0.62	94.21 ±3.48	85.74 ±5.51
USVS-Net	89.74 ±3.05	0.36 ±0.08	0.04 ±0.02	4.98 ±0.86	4.53 ±1.03	88.63 ±0.05	91.52 ±0.05

이러한 테스트에 기초하여, 기존의 레벨 세트 접근법은 38개 시퀀스 중 33개에서 혈관을 세그먼트화하는 데에서만 성공한 반면, LSTM-기반 방법은 모든 시퀀스에서 혈관을 성공적으로 세그먼트화하였다. 본원에 설명된 시스템 및 네트워크 아키텍처는 가장 높은 정확도와 가장 낮은 오류로 전문가 주석과 매칭되는 출력을 생성했다. 시스템은 증가된 반점과 큰 혈관 모션으로 제시되는 UHFUS 시퀀스에서 mm 미만의 혈관 위치 지정을 프로세싱하고 출력했다.

이제 도 7을 참조하면, 비제한적인 실시예에 따라 본원에 설명된 시스템 및 방법을 구현하고 수행하기 위한 컴퓨팅 디바이스(900)의 예시적인 구성 요소의 도면이 도시되어 있다. 일부 비제한적 실시예에서, 디바이스(900)는 도 7에 도시된 것에 비해 추가 구성 요소, 더 적은 구성 요소, 상이한 구성 요소, 또는 상이하게 배열된 구성 요소를 포함할 수 있다. 디바이스(900)는 버스(902), 프로세서(904), 메모리(906), 저장 구성 요소(908), 입력 구성 요소(910), 출력 구성 요소(912), 및 통신 인터페이스(914)를 포함할 수 있다. 버스(902)는 디바이스(900)의 구성 요소 간의 통신을 허용하는 구성 요소를 포함할 수 있다 일부 비제한적인 실시예에서, 프로세서(904)는 하드웨어, 펌웨어 또는 하드웨어와 소프트웨어의 조합으로 구현될 수 있다. 예를 들어, 프로세서(904)는 프로세서(예를 들어, 중앙 처리 장치(CPU), 그래픽 처리 장치(GPU), 가속 프로세싱 유닛(APU) 등), 마이크로프로세서, 디지털 신호 프로세서(DSP) 및/또는 기능을 수행하도록 프로그래밍될 수 있는 임의의 프로세싱 구성 요소(예를 들어, 필드-프로그래머블 게이트 어레이(FPGA), 주문형 집적 회로(ASIC) 등)를 포함할 수 있다. 메모리(906)는 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 및/또는 프로세서(904)에 의한 사용을 위한 정보 및/또는 명령을 저장하는 다른 유형의 동적 또는 정적 저장 디바이스(예를 들어, 플래시 메모리, 자기 메모리, 광학 메모리 등)를 포함할 수 있다.

계속해서 도 7을 참조하면, 저장 구성요소(908)는 디바이스(900)의 동작 및 사용과 관련된 정보 및/또는 소프트웨어를 저장할 수 있다. 예를 들어, 저장 구성 요소(908)는 하드 디스크(예를 들어, 자기 디스크, 광 디스크, 자기-광 디스크, 솔리드-스테이트 디스크 등) 및/또는 다른 유형의 컴퓨터-판독 가능 매체를 포함할 수 있다. 입력 구성 요소(910)는 디바이스(900)가 사용자 입력(예를 들어, 터치 스크린 디스플레이, 키보드, 키패드, 마우스, 버튼, 스위치, 마이크로폰 등)을 통해서와 같이 정보를 수신할 수 있게 하는 구성 요소를 포함할 수 있다. 추가적으로 또는 대안적으로, 입력 컴포넌트(910)는 정보를 감지하기 위한 센서(예를 들어, 글로벌 포지셔닝 시스템(GPS: global positioning system) 구성 요소, 가속도계, 자이로스코프, 액추에이터 등)를 포함할 수 있다. 출력 구성 요소(912)는 디바이스(900)로부터의 출력 정보를 제공하는 구성 요소(예를 들어, 디스플레이, 스피커, 하나 이상의 발광 다이오드(LED) 등)를 포함할 수 있다. 통신 인터페이스(914)는 디바이스(900)가 유선 연결, 무선 연결, 또는 유선 및 무선 연결의 조합을 통해서와 같이 다른 디바이스와 통신할 수 있게 하는 트랜시버-유사 구성 요소(예를 들어, 트랜시버, 별도의 수신기 및 송신기 등)를 포함할 수 있다. 통신 인터페이스(914)는 디바이스(900)가 다른 디바이스로부터 정보를 수신하고/수신하거나 다른 디바이스로 정보를 제공하는 것을 허용할 수 있다. 예를 들어, 통신 인터페이스(914)는 이더넷 인터페이스, 광 인터페이스, 동축 인터페이스, 적외선 인터페이스, 무선 주파수(RF) 인터페이스, 범용 직렬 버스(USB) 인터페이스, Wi-Fi® 인터페이스, 셀룰러 네트워크 인터페이스 등을 포함할 수 있다.

디바이스(900)는 본원에 설명된 하나 이상의 프로세스를 수행할 수 있다. 디바이스(900)는 메모리(906) 및/또는 저장 구성 요소(908)와 같은 컴퓨터-판독 가능 매체에 의해 저장된 소프트웨어 명령을 실행하는 프로세서(904)에 기초하여 이러한 프로세스를 수행할 수 있다. 컴퓨터-판독 가능 매체는 임의의 비일시적 메모리 디바이스를 포함할 수 있다. 메모리 디바이스는 단일 물리적 저장 디바이스 내부에 위치된 메모리 공간 또는 복수의 물리적 저장 디바이스에 걸쳐 분산된 메모리 공간을 포함한다. 소프트웨어 명령은 다른 컴퓨터-판독 가능 매체 또는 통신 인터페이스(914)를 통해 다른 디바이스로부터 메모리(906) 및/또는 저장 구성 요소(908)로 판독될 수 있다. 실행 시, 메모리(906) 및/또는 저장 구성 요소(908)에 저장된 소프트웨어 명령은 프로세서(904)가 본원에 설명된 하나 이상의 프로세스를 수행하도록 할 수 있다. 추가적으로 또는 대안적으로, 하드와이어드(hardwired) 회로가 본원에 설명된 하나 이상의 프로세스를 수행하기 위해 소프트웨어 명령 대신에 또는 이와 함께 사용될 수 있다. 따라서, 본원에 설명된 실시예는 하드웨어 회로 및 소프트웨어의 임의의 특정 조합으로 제한되지 않는다. 본원에서 사용되는 "프로그래밍되거나 구성된"이라는 용어는 하나 이상의 디바이스에서 소프트웨어, 하드웨어 회로, 또는 이들의 임의의 조합의 배열을 지칭한다.

실시예가 예시의 목적으로 상세하게 설명되었지만, 이러한 상세 사항은 단지 해당 목적을 위한 것이고 본 개시는 개시된 실시예로 제한되지 않으며, 반대로, 첨부된 청구범위의 사상과 범위 내에 있는 수정 및 동등한 배열을 포함하는 것으로 의도된다는 것이 이해되어야 한다. 예를 들어, 본 개시는 가능한 범위에서 임의의 실시예의 하나 이상의 피처가 임의의 다른 실시예의 하나 이상의 피처와 조합될 수 있음을 고려하는 것으로 이해되어야 한다.

Claims

인공 신경망을 사용하여 시공간 의료 이미지들을 분석하기 위한 방법에 있어서,
촬상 디바이스로 환자의 일련의 의료 이미지들을 캡처하는 단계로서, 상기 일련의 의료 이미지들은 상기 환자 및 객체 중 적어도 하나의 적어도 일부를 포함하는 적어도 하나의 엔티티의 시각적 움직임을 포함하는, 캡처하는 단계;
컴퓨팅 디바이스로 상기 시각적 움직임에 기초하여 상기 적어도 하나의 엔티티와 연관된 시변(time-varying) 공간 데이터를 추적하는 단계;
컴퓨팅 디바이스로 상기 시변 공간 데이터를 상기 일련의 의료 이미지들과 상관시킴으로써 시공간 데이터를 생성하는 단계; 및
컴퓨팅 디바이스로 복수의 층을 포함하는 인공 신경망에 기초하여 상기 일련의 의료 이미지들을 분석하는 단계를 포함하고, 복수의 층 중 하나 이상의 층은 각각 적어도 3개의 상이한 스케일로부터의 피처들을 결합하고, 상기 인공 신경망의 상기 복수의 층 중 적어도 하나의 층은 상기 시공간 데이터에 기초하여 시공간 관계들을 학습하도록 구성되는, 방법.
제1항에 있어서,
상기 적어도 3개의 상이한 스케일로부터의 피처들을 결합하는 상기 하나 이상의 층은 상이한 스케일들의 팽창된 컨볼루션(dilated convolution)들을 포함하는, 방법.
제1항에 있어서,
상기 적어도 3개의 상이한 스케일로부터의 피처들을 결합하는 상기 하나 이상의 층은 상기 복수의 층 중 층들의 적어도 서브세트 사이의 밀집 및/또는 잔류 연결들을 포함하고, 층들의 상기 적어도 서브세트는 적어도 3개의 상이한 스케일로부터의 피처들을 포함하는, 방법.
제1항에 있어서,
상기 적어도 3개의 상이한 스케일로부터의 피처들을 결합하는 상기 하나 이상의 층은 적어도 2개의 상이한 스케일의 컨볼루션들 및 적어도 2개의 상이한 스케일로부터의 피처들을 포함하는 상기 복수의 층 중 층들의 서브세트에 대한 연결들을 포함하여, 적어도 3개의 상이한 스케일의 피처들로 귀결되는, 방법.
제1항에 있어서,
상기 적어도 하나의 엔티티는 기구, 상기 촬상 디바이스, 물리적 아티팩트(artifact), 매니페스트된(manifested) 아티팩트, 또는 이들의 임의의 조합 중 적어도 하나를 포함하는, 방법.
제1항에 있어서,
상기 시변 공간 데이터를 추적하는 단계는 상기 적어도 하나의 엔티티의 병진/회전 위치, 상기 적어도 하나의 엔티티의 속도, 상기 적어도 하나의 엔티티의 가속도, 상기 적어도 하나의 엔티티의 관성 측정 또는 이들의 임의의 조합 중 적어도 하나를 추적하는 단계를 포함하는, 방법.
제1항에 있어서,
상기 시변 공간 데이터를 추적하는 단계는 관성 측정 유닛, 추적 시스템, 위치 센서, 로봇 운동학(robotic kinematics), 역(inverse) 운동학 또는 이들의 임의의 조합 중 적어도 하나에 기초하는, 방법.
제1항에 있어서,
상기 시공간 데이터는 상기 환자의 신체 내의 내부 모션을 나타내는 데이터, 상기 환자의 신체의 외부 모션을 나타내는 데이터, 기구의 모션을 나타내는 데이터, 상기 기구의 각도를 나타내는 데이터, 상기 환자의 신체의 변형 모션을 나타내는 데이터 또는 이들의 임의의 조합 중 적어도 하나를 포함하는, 방법.
제1항에 있어서,
상기 인공 신경망은 인코더 및 디코더를 포함하고, 상기 디코더 및 상기 인코더 중 적어도 하나는 입력으로서 상기 시공간 데이터를 이용하도록 구성되는, 방법.
제1항에 있어서,
상기 인공 신경망은 장단기 메모리(LSTM: Long-Short Term Memory) 유닛들, 게이팅된 순환 유닛(GRU: Gated Recurrent Unit)들, 시간 컨볼루션 네트워크, 또는 이들의 임의의 조합 중 적어도 하나를 포함하는, 방법.
제1항에 있어서,
상기 공간 데이터는 상기 환자 및/또는 기구의 위치 및/또는 배향을 포함하는, 방법.
제1항에 있어서,
상기 일련의 의료 이미지들을 분석하는 단계는 상기 일련의 이미지들에서 적어도 하나의 해부학적 구조를 식별하는 단계를 포함하고, 상기 적어도 하나의 해부학적 구조는 혈관, 동맥, 정맥, 인대, 신경, 근육의 가닥, 근막의 가닥 또는 그물망, 지방의 덩어리, 이식된 지방의 덩어리, 림프 구조, 피부의 패치, 힘줄, 뼈, 연골의 조각, 폐 늑막 라인, 심장 판막, 심실, 심장 표면, 기관(trachea), 뇌 영역, 관(duct), 섬유주대(trabecular meshwork), 각막 층, 망막 층, 안구 렌즈, 안구 표면, 연조직, 연곽의 보그트 울타리(palisade of Vogt of a limbus), 기관, 세포외 구조, 세포간 구조, 세포, 또는 이들의 임의의 조합 중 적어도 하나를 포함하는, 방법.
제1항에 있어서,
상기 일련의 의료 이미지들은, 초음파 이미지들, 광간섭 단층 촬영(OCT: optical coherence tomography) 이미지들, CT 이미지들, MRI 이미지들, PET 이미지들, SPECT 이미지들, 형광 투시 이미지들, X-선 이미지들, 유방 촬영 이미지들, 단층 합성(tomosynthesis) 이미지들, 광음향 이미지들, 음향-광학 이미지들, 내시경 이미지들, 현미경 이미지들, 안저(fundus) 이미지들, 주사 레이저 검안경(SLO: scanning laser ophthalmoscope) 이미지들, 스마트폰 이미지들, 3D(깊이) 이미지들, 초점-스택 이미지들, 광-필드 이미지들, 가시광 이미지들, 적외선 이미지들, 자외선 이미지들, 열 이미지들, 다중 스펙트럼 이미지들, 단층 촬영 이미지들, 투사 이미지들, 통합 이미지들, 재구성된 이미지들 또는 이들의 임의의 조합 중 적어도 하나를 포함하는, 방법.
제1항에 있어서,
상기 일련의 의료 이미지들을 분석하는 단계는 상기 일련의 의료 이미지들에 나타내어진 하나 또는 복수의 혈관을 세그먼트화하는 단계를 포함하는, 방법.
인공 신경망을 사용하여 시공간 의료 이미지들을 분석하기 위한 시스템에 있어서,
컴퓨팅 디바이스를 포함하고, 상기 컴퓨팅 디바이스는,
촬상 디바이스로 환자의 일련의 의료 이미지들을 캡처하고, 상기 일련의 의료 이미지들은 상기 환자 및 객체 중 적어도 하나의 적어도 일부를 포함하는 적어도 하나의 엔티티의 시각적 움직임을 포함하고;
상기 시각적 움직임에 기초하여 상기 적어도 하나의 엔티티와 연관된 시변 공간 데이터를 추적하고;
상기 시변 공간 데이터를 상기 일련의 의료 이미지들과 상관시킴으로써 시공간 데이터를 생성하고;
복수의 층을 포함하는 인공 신경망에 기초하여 상기 일련의 의료 이미지들을 분석하도록 프로그래밍되거나 구성되고, 상기 복수의 층 중 하나 이상의 층은 각각 적어도 3개의 상이한 스케일로부터의 피처들을 결합하고, 상기 인공 신경망의 상기 복수의 층 중 적어도 하나의 층은 상기 시공간 데이터에 기초하여 시공간 관계들을 학습하도록 구성되는, 시스템.
제15항에 있어서,
상기 적어도 3개의 상이한 스케일로부터의 피처들을 결합하는 상기 하나 이상의 층은 상이한 스케일들의 팽창된 컨볼루션들을 포함하는, 시스템.
제15항에 있어서,
상기 적어도 3개의 상이한 스케일로부터의 피처들을 결합하는 상기 하나 이상의 층은 상기 복수의 층 중 층들의 적어도 서브세트 사이의 밀집 및/또는 잔류 연결들을 포함하고, 층들의 상기 적어도 서브세트는 적어도 3개의 상이한 스케일로부터의 피처들을 포함하는, 시스템.
제15항에 있어서,
상기 적어도 3개의 상이한 스케일로부터의 피처들을 결합하는 상기 하나 이상의 층은 적어도 2개의 상이한 스케일의 컨볼루션들 및 적어도 2개의 상이한 스케일로부터의 피처들을 포함하는 상기 복수의 층 중 층들의 서브세트에 대한 연결들을 포함하여, 적어도 3개의 상이한 스케일의 피처들로 귀결되는, 시스템.
제15항에 있어서,
상기 적어도 하나의 엔티티는 기구, 상기 촬상 디바이스, 물리적 아티팩트, 매니페스트된 아티팩트, 또는 이들의 임의의 조합 중 적어도 하나를 포함하는, 시스템.
제15항에 있어서,
상기 시변 공간 데이터를 추적하는 것은 상기 적어도 하나의 엔티티의 병진/회전 위치, 상기 적어도 하나의 엔티티의 속도, 상기 적어도 하나의 엔티티의 가속도, 상기 적어도 하나의 엔티티의 관성 측정 또는 이들의 임의의 조합 중 적어도 하나를 추적하는 것을 포함하는, 시스템.
제15항에 있어서,
상기 시변 공간 데이터를 추적하는 것은 관성 측정 유닛, 추적 시스템, 위치 센서, 로봇 운동학, 역 운동학 또는 이들의 임의의 조합 중 적어도 하나에 기초하는, 시스템.
제15항에 있어서,
상기 시공간 데이터는 상기 환자의 신체 내의 내부 모션을 나타내는 데이터, 상기 환자의 신체의 외부 모션을 나타내는 데이터, 기구의 모션을 나타내는 데이터, 상기 기구의 각도를 나타내는 데이터, 상기 환자의 신체의 변형 모션을 나타내는 데이터 또는 이들의 임의의 조합 중 적어도 하나를 포함하는, 시스템.
제15항에 있어서,
상기 인공 신경망은 인코더 및 디코더를 포함하고, 상기 디코더 및 상기 인코더 중 적어도 하나는 입력으로서 상기 시공간 데이터를 이용하도록 구성되는, 시스템.
제15항에 있어서,
상기 인공 신경망은 장단기 메모리(LSTM) 유닛들, 게이팅된 순환 유닛(GRU)들, 시간 컨볼루션 네트워크, 또는 이들의 임의의 조합 중 적어도 하나를 포함하는, 시스템.
제15항에 있어서,
상기 공간 데이터는 상기 환자 및/또는 기구의 위치 및/또는 배향을 포함하는, 시스템.
제15항에 있어서,
상기 일련의 의료 이미지들을 분석하는 것은 상기 일련의 이미지들에서 적어도 하나의 해부학적 구조를 식별하는 것을 포함하고, 상기 적어도 하나의 해부학적 구조는 혈관, 동맥, 정맥, 인대, 신경, 근육의 가닥, 근막의 가닥 또는 그물망, 지방의 덩어리, 이식된 지방의 덩어리, 림프 구조, 피부의 패치, 힘줄, 뼈, 연골의 조각, 폐 늑막 라인, 심장 판막, 심실, 심장 표면, 기관, 뇌 영역, 관, 섬유주대, 각막 층, 망막 층, 안구 렌즈, 안구 표면, 연조직, 연곽의 보그트 울타리, 기관, 세포외 구조, 세포간 구조, 세포, 또는 이들의 임의의 조합 중 적어도 하나를 포함하는, 시스템.
제15항에 있어서,
상기 일련의 의료 이미지들은, 초음파 이미지들, 광간섭 단층 촬영(OCT) 이미지들, CT 이미지들, MRI 이미지들, PET 이미지들, SPECT 이미지들, 형광 투시 이미지들, X-선 이미지들, 유방 촬영 이미지들, 단층 합성 이미지들, 광음향 이미지들, 음향-광학 이미지들, 내시경 이미지들, 현미경 이미지들, 안저 이미지들, 주사 레이저 검안경(SLO) 이미지들, 스마트폰 이미지들, 3D(깊이) 이미지들, 초점-스택 이미지들, 광-필드 이미지들, 가시광 이미지들, 적외선 이미지들, 자외선 이미지들, 열 이미지들, 다중 스펙트럼 이미지들, 단층 촬영 이미지들, 투사 이미지들, 통합 이미지들, 재구성된 이미지들 또는 이들의 임의의 조합 중 적어도 하나를 포함하는, 시스템.
제15항에 있어서,
상기 일련의 의료 이미지들을 분석하는 것은 상기 일련의 의료 이미지들에 나타내어진 하나 또는 복수의 혈관을 세그먼트화하는 것을 포함하는, 시스템.
신경망을 사용하여 의료 이미지들을 분석하기 위한 컴퓨터 프로그램 제품에 있어서,
명령들을 포함하는 적어도 하나의 비일시적 컴퓨터-판독 가능 매체를 포함하고, 상기 명령들은 컴퓨팅 디바이스에 의해 실행될 때, 상기 컴퓨팅 디바이스로 하여금,
촬상 디바이스로 환자의 일련의 의료 이미지들을 캡처하고, 상기 일련의 의료 이미지들은 상기 환자 및 객체 중 적어도 하나의 적어도 일부를 포함하는 적어도 하나의 엔티티의 시각적 움직임을 포함하고;
상기 시각적 움직임에 기초하여 상기 적어도 하나의 엔티티와 연관된 시변 공간 데이터를 추적하고;
상기 시변 공간 데이터를 상기 일련의 의료 이미지들과 상관시킴으로써 시공간 데이터를 생성하고;
복수의 층을 포함하는 인공 신경망에 기초하여 상기 일련의 의료 이미지들을 분석하게 하고, 상기 복수의 층 중 하나 이상의 층은 각각 적어도 3개의 상이한 스케일로부터의 피처들을 결합하고, 상기 인공 신경망의 상기 복수의 층 중 적어도 하나의 층은 상기 시공간 데이터에 기초하여 시공간 관계들을 학습하도록 구성되는, 컴퓨터 프로그램 제품.
제1항에 있어서,
상기 인공 신경망의 적어도 일부는 팽창된 컨볼루션들을 포함하는, 방법.
제1항에 있어서,
상기 인공 신경망의 적어도 일부는 잔류 연결들 및/또는 스킵된(skipped) 연결들을 포함하는, 방법.
제15항에 있어서,
상기 인공 신경망의 적어도 일부는 팽창된 컨볼루션들을 포함하는, 시스템.
제15항에 있어서,
상기 인공 신경망의 적어도 일부는 잔류 연결들 및/또는 스킵된 연결들을 포함하는, 시스템.
인공 신경망을 사용하여 시공간 의료 이미지들을 분석하기 위한 방법에 있어서,
촬상 디바이스로 환자의 일련의 의료 이미지들을 캡처하는 단계로서, 상기 일련의 의료 이미지들은 상기 환자 및 객체 중 적어도 하나의 적어도 일부를 포함하는 적어도 하나의 엔티티의 시각적 움직임을 포함하는, 캡처하는 단계;
컴퓨팅 디바이스로 상기 시각적 움직임에 기초하여 상기 적어도 하나의 엔티티와 연관된 시변 공간 데이터를 추적하는 단계;
컴퓨팅 디바이스로 상기 시변 공간 데이터를 상기 일련의 의료 이미지들과 상관시킴으로써 시공간 데이터를 생성하는 단계; 및
컴퓨팅 디바이스로 복수의 층을 포함하는 인공 신경망에 기초하여 상기 일련의 의료 이미지들을 분석하는 단계를 포함하고, 상기 인공 신경망은 적어도 3개의 상이한 스케일로부터의 피처들을 결합하는, 상이한 스케일 및 해상도의 복수의 층 사이의 팽창된 컨볼루션들 및/또는 밀집 연결들을 포함하고, 상기 복수의 층 중 적어도 하나의 층은 상기 시공간 데이터에 기초하여 시공간 관계들을 학습하도록 구성되는, 방법.
인공 신경망을 사용하여 시공간 의료 이미지들을 분석하기 위한 시스템에 있어서,
컴퓨팅 디바이스를 포함하고, 상기 컴퓨팅 디바이스는,
촬상 디바이스로 환자의 일련의 의료 이미지들을 캡처하고, 상기 일련의 의료 이미지들은 상기 환자 및 객체 중 적어도 하나의 적어도 일부를 포함하는 적어도 하나의 엔티티의 시각적 움직임을 포함하고;
상기 시각적 움직임에 기초하여 상기 적어도 하나의 엔티티와 연관된 시변 공간 데이터를 추적하고;
상기 시변 공간 데이터를 상기 일련의 의료 이미지들과 상관시킴으로써 시공간 데이터를 생성하고;
복수의 층을 포함하는 인공 신경망에 기초하여 상기 일련의 의료 이미지들을 분석하도록 프로그래밍되거나 구성되고, 상기 인공 신경망은 적어도 3개의 상이한 스케일로부터의 피처들을 결합하는, 상이한 스케일 및 해상도의 복수의 층 사이의 팽창된 컨볼루션들 및/또는 밀집 연결들을 포함하고, 상기 복수의 층 중 적어도 하나의 층은 상기 시공간 데이터에 기초하여 시공간 관계들을 학습하도록 구성되는, 시스템.
신경망을 사용하여 의료 이미지들을 분석하기 위한 컴퓨터 프로그램 제품에 있어서,
명령들을 포함하는 적어도 하나의 비일시적 컴퓨터-판독 가능 매체를 포함하고, 상기 명령들은 컴퓨팅 디바이스에 의해 실행될 때 상기 컴퓨팅 디바이스로 하여금,
촬상 디바이스로 환자의 일련의 의료 이미지들을 캡처하고, 상기 일련의 의료 이미지들은 상기 환자 및 객체 중 적어도 하나의 적어도 일부를 포함하는 적어도 하나의 엔티티의 시각적 움직임을 포함하고;
상기 시각적 움직임에 기초하여 상기 적어도 하나의 엔티티와 연관된 시변 공간 데이터를 추적하고;
상기 시변 공간 데이터를 상기 일련의 의료 이미지들과 상관시킴으로써 시공간 데이터를 생성하고;
복수의 층을 포함하는 인공 신경망에 기초하여 상기 일련의 의료 이미지들을 분석하게 하고, 상기 인공 신경망은 적어도 3개의 상이한 스케일로부터의 피처들을 결합하는, 상이한 스케일 및 해상도의 복수의 층 사이의 팽창된 컨볼루션들 및/또는 밀집 연결들을 포함하고, 상기 복수의 층 중 적어도 하나의 층은 상기 시공간 데이터에 기초하여 시공간 관계들을 학습하도록 구성되는, 컴퓨터 프로그램 제품.