KR20210056239A

KR20210056239A - 컴퓨터 비전에 기초한 수술 장면 평가

Info

Publication number: KR20210056239A
Application number: KR1020200145089A
Authority: KR
Inventors: 완신 쉬; 고-가이 알버트 황
Original assignee: 소니 주식회사
Priority date: 2019-11-08
Filing date: 2020-11-03
Publication date: 2021-05-18
Also published as: US20210142487A1; US11625834B2; JP2021099789A; EP3819867A1; CN112784672A

Abstract

구현들은 일반적으로 컴퓨터 비전에 기초한 수술 장면 평가에 관한 것이다. 일부 구현들에서, 방법은 수술 장면과 연관된 복수의 이미지 프레임 중 제1 이미지 프레임을 수신하는 단계를 포함한다. 방법은 제1 이미지 프레임에서 하나 이상의 객체를 검출하는 단계를 추가로 포함한다. 방법은 하나 이상의 객체에 대응하는 하나 이상의 위치를 결정하는 단계를 추가로 포함한다. 방법은 복수의 이미지 프레임 중 다른 이미지 프레임들에서 하나 이상의 객체의 각각의 위치를 추적하는 단계를 추가로 포함한다.

Description

컴퓨터 비전에 기초한 수술 장면 평가{SURGICAL SCENE ASSESSMENT BASED ON COMPUTER VISION}

[관련 출원에 대한 상호 참조]

본 출원은 2019년 11월 8일자로 출원된, 발명의 명칭이 "A Surgical Scene Understanding System with Computer Vision-based Detection and Tracking"인 미국 가특허출원 제62/932,595호의 이익을 주장하며, 이 출원은 이로써 모든 목적을 위해 본 출원에서 완전히 기재된 것처럼 참조에 의해 통합된다.

컴퓨터-보조 수술은 내시경 검사, 복강경 수술 등을 수반하는 절차들과 같은 의료 절차들을 안내하거나 수행하기 위해 컴퓨터 기술을 사용한다. 수술 동안, 외과의사는 수술을 수행하기 위해 다양한 도구를 사용할 필요가 있을 수 있다. 카메라 및 모니터는 외과의사가 수술 절차를 수행하는 것을 도울 수 있다. 그러나, 외과용 카메라 또는 비디오 시퀀스들은 충분히 활용되지 않는다.

구현들은 일반적으로 컴퓨터 비전에 기초한 수술 장면 평가에 관한 것이다. 일부 구현들에서, 시스템은 하나 이상의 프로세서를 포함하고, 하나 이상의 프로세서에 의한 실행을 위해 하나 이상의 비일시적 컴퓨터 판독가능 저장 매체에 인코딩된 로직을 포함한다. 실행될 때, 로직은 하나 이상의 프로세서로 하여금: 수술 장면과 연관된 복수의 이미지 프레임 중 제1 이미지 프레임을 수신하는 동작; 제1 이미지 프레임에서 하나 이상의 객체를 검출하는 동작; 하나 이상의 객체에 대응하는 하나 이상의 위치를 결정하는 동작; 및 복수의 이미지 프레임 중 다른 이미지 프레임들에서 하나 이상의 객체의 각각의 위치를 추적하는 동작을 포함하는 동작들을 수행하도록 야기하게 동작가능하다.

시스템과 더 관련하여, 일부 구현들에서, 하나 이상의 객체 중 적어도 하나의 객체는 수술 도구이다. 일부 구현들에서, 하나 이상의 객체 중 적어도 하나의 객체는 거즈이다. 일부 구현들에서, 하나 이상의 객체 중 적어도 하나의 객체는 출혈 영역이다. 일부 구현들에서, 하나 이상의 객체 중 적어도 하나의 객체는 연기이다. 일부 구현들에서, 제1 이미지 프레임에서의 하나 이상의 객체의 검출은 컨볼루션 신경망을 활용하여 수행된다. 일부 구현들에서, 동작들은 실시간으로 수행된다.

일부 실시예들에서, 그 상에 프로그램 명령어들을 갖는 비일시적 컴퓨터 판독가능 저장 매체가 제공된다. 하나 이상의 프로세서에 의해 실행될 때, 명령어들은 하나 이상의 프로세서로 하여금: 수술 장면과 연관된 복수의 이미지 프레임 중 제1 이미지 프레임을 수신하는 동작; 제1 이미지 프레임에서 하나 이상의 객체를 검출하는 동작; 하나 이상의 객체에 대응하는 하나 이상의 위치를 결정하는 동작; 및 복수의 이미지 프레임 중 다른 이미지 프레임들에서 하나 이상의 객체의 각각의 위치를 추적하는 동작을 포함하는 동작들을 수행하도록 야기하게 동작가능하다.

컴퓨터 판독가능 저장 매체와 더 관련하여, 일부 구현들에서, 하나 이상의 객체 중 적어도 하나의 객체는 수술 도구이다. 일부 구현들에서, 하나 이상의 객체 중 적어도 하나의 객체는 거즈이다. 일부 구현들에서, 하나 이상의 객체 중 적어도 하나의 객체는 출혈 영역이다. 일부 구현들에서, 하나 이상의 객체 중 적어도 하나의 객체는 연기이다. 일부 구현들에서, 제1 이미지 프레임에서의 하나 이상의 객체의 검출은 컨볼루션 신경망을 활용하여 수행된다. 일부 구현들에서, 동작들은 실시간으로 수행된다.

일부 구현들에서, 방법은 수술 장면과 연관된 복수의 이미지 프레임 중 제1 이미지 프레임을 수신하는 단계; 제1 이미지 프레임에서 하나 이상의 객체를 검출하는 단계; 하나 이상의 객체에 대응하는 하나 이상의 위치를 결정하는 단계; 및 복수의 이미지 프레임 중 다른 이미지 프레임들에서 하나 이상의 객체의 각각의 위치를 추적하는 단계를 포함한다.

방법과 더 관련하여, 일부 구현들에서, 하나 이상의 객체 중 적어도 하나의 객체는 수술 도구이다. 일부 구현들에서, 하나 이상의 객체 중 적어도 하나의 객체는 거즈이다. 일부 구현들에서, 하나 이상의 객체 중 적어도 하나의 객체는 출혈 영역이다. 일부 구현들에서, 하나 이상의 객체 중 적어도 하나의 객체는 연기이다. 일부 구현들에서, 제1 이미지 프레임에서의 하나 이상의 객체의 검출은 컨볼루션 신경망을 활용하여 수행된다.

본 명세서에 개시된 특정 구현들의 본질 및 장점들의 추가적인 이해는 명세서의 나머지 부분들 및 첨부 도면들의 참조에 의해 실현될 수 있다.

도 1은 본 명세서에 설명된 구현들을 위해 사용될 수 있는 예시적인 작업 환경의 블록도를 도시한다.
도 2는 일부 구현들에 따른, 수술 장면을 분석하기 위한 예시적인 흐름도를 도시한다.
도 3은 일부 구현들에 따른, 컴퓨터 비전에 기초하여 수술 장면을 평가하기 위한 예시적인 흐름도를 도시한다.
도 4는 일부 구현들에 따른, 2개의 도구 및 2개의 대응하는 경계 박스를 도시하는 예시적인 스크린 샷을 도시한다.
도 5는 일부 구현들에 따른, 거즈 및 대응하는 경계 박스를 도시하는 예시적인 스크린 샷을 도시한다.
도 6은 일부 구현들에 따른, 출혈 영역 및 대응하는 경계 박스를 도시하는 예시적인 스크린 샷을 도시한다.
도 7은 일부 구현들에 따른, 연기 및 대응하는 경계 박스를 도시하는 예시적인 스크린 샷을 도시한다.
도 8은 본 명세서에 설명된 일부 구현들에 대해 사용될 수 있는 예시적인 네트워크 환경의 블록도를 도시한다.
도 9는 본 명세서에 설명된 일부 구현들에 대해 사용될 수 있는 예시적인 컴퓨팅 시스템의 블록도를 도시한다.

본 명세서에 설명된 구현들은 컴퓨터 비전에 기초한 수술 장면의 평가를 가능하게 하고 용이하게 한다. 시스템은 객체 검출 및 추적을 위한 딥 러닝 기반 접근법을 활용한다. 본 명세서에서 더 상세히 설명되는 바와 같이, 다양한 실시예들에서, 시스템은 수술 장면을 캡처하는 비디오 스트림을 수신한다. 비디오 스트림은 수술 장면에서의 하나 이상의 객체를 포함하는 이미지 프레임들을 포함한다. 예를 들어, 객체들은 수술 도구, 거즈, 출혈 영역, 연기 등을 포함할 수 있다. 시스템은 비디오 스트림의 상이한 이미지 프레임들에 걸쳐 하나 이상의 객체를 검출한다. 그 다음, 시스템은 검출된 객체들에 대응하는 위치들을 결정한다. 시스템은 또한 비디오 스트림의 상이한 이미지 프레임들에 걸쳐 객체들의 각각의 위치를 추적한다. 검출 및 추적은 도구, 거즈, 혈액 및 연기에 대한 외관 및 궤적 정보를 제공한다. 도구 사용 패턴, 움직임 범위 또는 시간 사용에 대한 추가 분석은 수술실에서 실시간으로 또는 수술 후에 외과의사에게 유용할 수 있다.

도 1은 본 명세서에 설명된 구현들을 위해 사용될 수 있는 예시적인 작업 환경(100)의 블록도를 도시한다. 본 명세서에서 설명되는 다양한 구현들을 수행하는 수술 장면 분석 시스템(102) 또는 시스템(102)이 도시된다. 시스템(102)은 작업 영역(106)에서 수술 장면의 비디오를 캡처하는 카메라(104)를 제어한다. 시스템(102)은 카메라(104)로 하여금 네트워크(110)를 통해 카메라(104)로부터 뷰어 클라이언트(108)에게 비디오 스트림을 전송하도록 야기한다. 본 명세서에서 더 상세히 설명되는 바와 같이, 시스템(102)은 카메라(104)를 통해 캡처되는 도구들(112 및 114)의 특성들을 분석한다. 네트워크(110)는 Wi-Fi 네트워크, 블루투스 네트워크, 인터넷 등과 같은 임의의 적절한 통신 네트워크일 수 있다. 다양한 구현들에서, 네트워크 환경(100)은 도시된 컴포넌트들 모두를 갖지는 않을 수 있고 및/또는 본 명세서에 도시된 것들 대신에, 또는 이외에도 다른 유형들의 컴포넌트들을 포함하는 다른 요소들을 가질 수 있다.

본 명세서에서 더 상세히 설명되는 바와 같이, 수술실에서 어떤 다른 감지 또는 검출 디바이스들도 없이 카메라만으로, 시스템(102)은 컴퓨터 비전 기술을 사용하여 사람의 개입 없이 수술 장면을 자동으로 분석한다. 시스템(102)은 수술 장면에서의 요소들 또는 객체들을 검출하고 추적할 수 있다. 이러한 객체들은 예를 들어 수술 도구, 거즈, 출혈 영역, 연기 등을 포함할 수 있다. 다양한 예시적인 실시예들이 수술 도구, 거즈, 출혈 영역, 및 연기의 맥락에서 설명되었지만, 이러한 실시예들은 수술 장면에 등장할 수 있고 또한 카메라에 의해 캡처될 수 있는 다른 유형의 객체들에 적용될 수 있다.

다양한 실시예들에서, 시스템(102)은 객체들을 검출 및 추적하고, 시각적 특징들을 학습하고, 검출 및 추적 파이프라인에 제약들을 시행하기 위한 엔드-투-엔드(end-to-end) 관리된 딥 아키텍처를 포함한다. 다양한 실시예들에서, 시스템(102)은 또한 컨볼루션 신경망 기반 외관 기술자(convolutional neural network based appearance descriptor)를 포함한다. 일부 실시예들에서, 외관 기술자는 이미지 패치들의 특징 표현 및 데이터 연관을 위한 샴 아키텍처(Siamese architecture)와 같은 아키텍처를 이용하여 훈련될 수 있다.

도 2는 일부 구현들에 따른, 수술 장면을 분석하기 위한 예시적인 흐름도를 도시한다. 다양한 실시예들에서, 흐름도는 검출 및 추적 프레임워크를 제공한다. 도시된 바와 같이, 블록(202)에서, 도 1의 시스템(102)과 같은 시스템은 수신된 비디오 스트림에서 객체들을 검출한다. 다양한 실시예들에서, 시스템은 비디오 스트림의 일련의 이미지 프레임들 중 각각의 이미지 프레임에서의 객체들을 검출한다. 예를 들어, 시스템(102)은 카메라(104)에 의해 캡처된 이미지 프레임에서 수술 도구, 거즈, 출혈 영역, 연기 등을 검출할 수 있다. 특정 구현에 의존하여, 특정 유형의 객체들이 변할 수 있다. 다양한 실시예들에서, 시스템은 하나 이상의 객체를 하나 이상의 분류가 되도록 분류한다.

다양한 구현들에서, 시스템은 딥 러닝 네트워크를 활용하여 객체들을 다양한 객체 분류들이 되도록 분류한다. 일부 구현들에서, 시스템은 딥 러닝 네트워크에 의해 학습되는 공지된 특징들로 훈련되는 분류기를 사용한다. 시스템은 시스템이 이미지 프레임에서 인식하는 특징들에 기초하여 객체들을 결정하고 식별하기 위해 공지된 특징들을 사용한다. 시스템은 특징들을 객체들의 알려진 특징들과 비교하고, 이후 하나 이상의 특징을 공지된 특징들에 매칭시킨다. 다양한 구현들에서, 시스템은 공지된 특징에 대한 정보를 적합한 저장 위치에 저장한다. 새롭게 검출된 객체들의 특징들을 식별하고 이들 객체들을 분류하는 것을 돕기 위해 임의의 새로운 정보가 사용될 수 있다. 이후, 시스템은 매칭에 기초하여 하나 이상의 객체를 하나 이상의 도구 분류가 되도록 분류한다.

블록(204)에서, 시스템은 각각의 객체를 추적기와 연관시킨다. 다양한 실시예들에서, 시스템은 각각의 객체에 대한 추적기를 생성한다. 다양한 실시예들에서, 추적기는 비디오에서 캡처된 장면에서 객체들의 위치들을 예측하고 업데이트하기 위해 시스템이 실행하는 소프트웨어 알고리즘일 수 있다. 이후, 시스템은 각각의 추적기를 각자의 객체와 연관시킨다. 예를 들어, 시스템은 제1 객체에 대한 제1 추적기 및 제2 객체에 대한 제2 추적기를 생성할 수 있으며, 이는 객체당 하나의 추적기를 낳는다. 임의의 주어진 후속 이미지 프레임에서, 시스템이 새로운 또는 제3 객체를 검출하는 경우, 시스템은 새로운 또는 제3 추적기를 생성한다. 본 명세서에서 더 상세히 설명되는 바와 같이, 시스템은 각각의 객체에 대한 동일한 연관된 추적기를 사용하여 이미지 프레임마다 각각의 객체를 추적한다. 이와 같이, 시스템은 비디오 스트림(예를 들어, 프레임에서 프레임으로 등)에서의 객체들을 반복적으로 검출하고 추적한다.

블록(206)에서, 시스템은 검출된 객체들을 추적한다. 앞서 나타낸 바와 같이, 시스템은 시스템이 비디오 스트림의 이미지 프레임들 내에서 그에 걸쳐서 검출하는 각각의 새로운 객체에 대해 새로운 추적기를 연관시킨다. 다양한 실시예들에서, 시스템은 임의의 적절한 추적 기법(예를 들어, 거리 메트릭, 외관 기술자 등)을 이용하여 하나의 프레임으로부터 또 다른 프레임으로 주어진 객체를 추적하기 위해 추적기를 활용한다.

다양한 실시예들에서, 시스템은 (예를 들어, 칼만 필터 등을 사용하여) 비디오 스트림의 이미지 프레임들에서의 각각의 객체의 위치를 예측하고 업데이트한다. 시스템은 객체들을 검출하기 위해 특징 피라미드 네트워크(예를 들어, 다크넷(Darknet) 등)를 갖는 컨볼루션 신경망을 활용할 수 있다.

다양한 실시예들에서, 시스템은 각각의 객체가 등장하는 상이한 이미지 프레임들에 걸쳐 그리고 시간에 걸쳐 각각의 객체의 인식을 유지하는 것을 포함하여, 각각의 객체를 추적한다. 다양한 실시예들에서, 시스템은 주어진 객체의 현재 위치를 결정하고 또한 (예를 들어, 칼만 필터, 확장 칼만 필터, 파티클 필터(particle filter) 등을 사용하여) 현재 위치에 기초하여 주어진 객체의 미래 위치들을 예측한다. 다양한 실시예들에서, 시스템은, 예를 들어, 외관 매칭을 위한 컨볼루션 신경망(예를 들어, 샴 네트워크), 및 위치 매칭을 위한 중첩 메트릭(예를 들어, 합집합 또는 IoU에 걸친 교차) 및/또는 거리 메트릭(예를 들어, 유클리드 거리 또는 코사인 거리)을 포함하는 임의의 적절한 기법들을 활용하여 다양한 정보를 생성하여 각각의 객체와 연관시킬 수 있다.

블록(208)에서, 시스템은 각각의 추적기를 업데이트한다. 다양한 실시예들에서, 시스템은 비디오 스트림에서 검출된 각각의 후속 이미지 프레임에 대해 각각의 객체의 위치를 업데이트한다. 이와 같이, 시스템은 비디오 스트림에서의 임의의 주어진 객체의 움직임을 추적할 수 있다.

비록 단계들, 동작들, 또는 계산들이 구체적인 순서로 제시될 수 있더라도, 그 순서는 특정 구현들에서 변경될 수 있다. 특정 구현에 의존하여 단계들의 다른 순서들이 가능하다. 일부 특정 구현들에서는, 본 명세서에서 순차적으로 도시되는 다중의 단계가 동시에 수행될 수 있다. 또한, 일부 구현들은 도시된 단계들 모두를 갖지는 않을 수 있고 및/또는 본 명세서에 도시된 것들 대신에 또는 그 이외에 다른 단계들을 가질 수 있다.

아래에 더 상세히 설명되는 바와 같이, 다양한 실시예들에서, 시스템은 수술 카메라들 또는 비디오들로부터 자동으로 도구들, 도구 상태들, 출혈 영역들, 거즈들, 연기 레벨들 등의 유형들과 같은 유용한 정보를 비디오 스트림으로부터 추출한다. 이러한 단계들에 관한 추가의 예시적인 구현들이 본 명세서에서 더 상세히 설명된다.

도 3은 일부 구현들에 따른, 컴퓨터 비전에 기초하여 수술 장면을 평가하기 위한 예시적인 흐름도를 도시한다. 도 1 및 도 2 둘 다를 참조하여, 방법이 블록(302)에서 개시되며, 여기서 시스템(102)과 같은 시스템은 수술 장면과 연관된 제1 이미지 프레임을 수신한다. 제1 이미지 프레임은 비디오 스트림에서의 이미지 프레임들의 시리즈 또는 시퀀스 중 하나의 이미지 프레임이다.

블록(304)에서, 시스템은 제1 이미지 프레임에서 하나 이상의 객체를 검출한다. 다양한 구현들에서, 시스템은 객체 인식 기법을 이용하여 수신된 이미지 프레임에서 객체들을 검출할 수 있다. 앞서 나타낸 바와 같이, 시스템은 관심 객체들을 식별 및/또는 인식하기 위해 컨볼루션 신경망을 사용할 수 있다. 일부 실시예들에서, 시스템은 특징 피라미드 네트워크, 예를 들어, 다크넷 등을 사용할 수 있다.

블록(306)에서, 시스템은 하나 이상의 객체에 대응하는 하나 이상의 위치를 결정한다. 시스템은 각각의 객체의 위치를 결정하기 위한 임의의 적절한 기법들을 활용할 수 있다.

블록(308)에서, 시스템은 복수의 이미지 프레임 중 다른 이미지 프레임들에서 하나 이상의 객체의 각각의 위치를 추적한다.

다양한 실시예들에서, 시스템은 매우 가변적인 수술 장면의 실시간 강건한 분석을 위해 도구, 거즈, 출혈 영역, 연기 등과 같은 다양하고 상이한 유형의 객체들을 시각적으로 인식하기 위해 컴퓨터 비전 및 머신 러닝을 이용한다. 앞에서 나타낸 바와 같이, 다양한 실시예들에서, 시스템은 수술 카메라들 또는 비디오들로부터 자동으로 도구, 도구 상태, 출혈 영역, 거즈, 연기 레벨 등의 유형들과 같은 유용한 정보를 비디오 스트림으로부터 추출할 수 있다.

도 4는 일부 구현들에 따른 2개의 도구(402 및 404) 및 2개의 대응하는 경계 박스(406 및 408)을 도시하는 예시적인 스크린 샷(400)을 도시한다. 다양한 실시예들에서, 하나 이상의 객체 중 적어도 하나의 객체는 수술 도구이다. 이 예에서, 2개의 수술 도구가 존재한다. 다양한 실시예들에서, 시스템은 이미지에서 각각의 도구의 상태를 검출한다. 예를 들어, 시스템은 도구가 열려 있는지 또는 닫혀 있는지를 결정할 수 있다. 예를 들어, 시스템은 가위 도구를 검출하고, 열려 있거나 닫힌 가위 도구의 도구 상태를 결정할 수 있다. 일부 실시예들에서, 시스템은 또한 도구가 개방되거나 폐쇄되는 정도를 결정할 수 있다. 다양한 실시예들에서, 시스템은 각각의 도구 또는 객체를 분류하여 도구 또는 객체의 유형을 결정한다. 이는 수술 작업흐름, 훈련 등을 개선하는데 도움이 될 수 있다. 이하의 예시적인 실시예들에 도시된 바와 같이, 일부 객체들이 수술 도구의 맥락에서 설명되지만, 시스템은 다른 유형의 객체들을 검출할 수 있다.

다양한 구현들에서, 하나 이상의 도구 분류는 도구 기능들을 포함하는 도구들의 유형들을 나타낸다. 예시적인 도구들은 외과용 메스, 가위, 톱 등과 같은 절단용 또는 해부용 기기들을 포함할 수 있다. 도구는 바이폴라 포셉(bipolar forcep) 및 세척기를 포함할 수 있다. 도구는 매끄러운 톱니형 포셉, 타월 클램프(towel clamp), 배스큘러 클램프(vascular clamp), 장기 홀더(organ holder) 등과 같은 파지용 또는 홀딩용 기구들을 포함할 수 있다. 도구는 클램프, 헤모스타틱 포셉(hemostatic forcep), 비외상성 헤모스타틱 포셉(atraumatic hemostatic forcep) 등과 같은 지혈 기구들을 포함할 수 있다. 도구는 C-형상 후궁 갈고리(C-shaped laminar hook), 무딘 유구 갈고리(blunt-toothed hook), 날카로운 유구 갈고리(sharp-toothed hook), 홈형 프로브(grooved probe), 탬프 포셉(tamp forcep) 등과 같은 견인기 기구들을 포함할 수 있다. 도구는 조직 봉합 기구 및 재료, 예컨대 바늘 홀더, 수술 바늘, 스테이플러, 클립, 접착 테이프 등을 포함할 수 있다. 검출된 특정 도구들은 변할 수 있고, 특정 구현에 의존할 것이다. 구현들이 수술 도구들과 관련하여 본 명세서에서 설명되지만, 이러한 구현들 및 다른 것들은 다른 도구들(예를 들어, 거즈 등과 같은 비수술용 도구들)에도 적용될 수 있다.

다양한 실시예들에서, 시스템은 하나 이상의 경계 박스들(예를 들어, 경계 박스들(406 및 408))을 생성하고, 디스플레이 스크린에서의 경계 박스들을 관심 있는 임의의 하나 이상의 객체(예를 들어, 수술 도구, 거즈, 출혈 영역, 연기 등)에 대한 시각적 표시자로서 디스플레이한다. 본 명세서에 나타낸 바와 같이, 특정 유형의 객체들은 변할 수 있고, 특정 구현에 의존할 것이다.

예시적인 경계 박스들이 사각형으로 도시되어 있다. 시각 표시자들의 실제 형상은 임의의 형상일 수 있다. 예를 들어, 일부 구현들에서, 경계 박스 또는 시각적 표시자는 주어진 객체의 일반적 형상을 따를 수 있다. 다양한 구현들에서, 시스템은 사용자가 보기 위해 비디오 프레임들에 걸쳐서 실시간으로 경계 박스들 및 임의의 연관된 라벨들을 중첩시킬 수 있다. 이는 사용자가 디스플레이상에서 어느 객체들이 보여지고 있는지를 알도록 돕는다. 일부 구현들에서, 시스템은 사용자가 시각 표시자들을 턴 오프하는 것을 가능하게 할 수 있다.

도 5는 일부 구현들에 따른, 거즈(502) 및 대응하는 경계 박스(504)를 도시하는 예시적인 스크린 샷(500)을 도시한다. 다양한 실시예들에서, 하나 이상의 객체 중 적어도 하나의 객체는 거즈이다. 이는 수술 절차에서 사용되는 거즈들을 추적, 검색, 및 계수하는데 있어서 시스템의 능력을 개선하는데 도움이 될 수 있다.

도 6은 일부 구현들에 따른, 출혈 영역(602) 및 대응하는 경계 박스(604)를 도시하는 예시적인 스크린 샷(600)을 도시한다. 다양한 실시예들에서, 하나 이상의 객체 중 적어도 하나의 객체는 출혈 영역이다. 이는 외과의사가 보지 못할 수 있는 출혈을 검출하는 데 도움이 될 수 있다. 예를 들어, 시스템은 출혈 영역, 혈류 방향 등을 (예를 들어, 시각적 주석을 통해) 시각적으로 표시할 수 있다. 다양한 실시예들에서, 시스템은 또한 실시간 및/또는 후처리에서의 출혈 움직임 추정을 결정할 수 있다. 예를 들어, 시스템은 검출된 혈류의 방향을 추정하고, 출혈 상황의 경보 또는 경고를 생성할 수 있다.

도 7은 일부 구현들에 따른, 연기(702) 및 대응하는 경계 박스(704)를 도시하는 예시적인 스크린 샷(700)을 도시한다. 다양한 실시예들에서, 하나 이상의 객체 중 적어도 하나의 객체는 연기이다. 이는 환경에서 연기의 존재에 대해 외과의사에게 경고하는 데 도움이 될 수 있을 뿐만 아니라 연기 배기 절차에서 연기를 제거하기 위해 도구들을 사용할 때 도움이 될 수 있다. 다양한 실시예들에서, 시스템은 또한 수술 장면에서 연기의 양(연기의 정도)을 결정할 수 있다. 예를 들어, 시스템은 연기 배기 기구를 제어하는데 사용될 수 있는, 검출된 연기의 레벨(예를 들어, 0...1 등)을 추정할 수 있다.

앞서 나타낸 바와 같이, 다양한 실시예들에서, 제1 이미지 프레임에서의 하나 이상의 객체의 검출은 컨볼루션 신경망을 활용하여 수행된다. 다양한 실시예들에서, 시스템은 블록들(302 내지 308)의 동작들을 실시간으로 수행하여, 시스템이 매우 복잡한 수술 장면들 하에서 높은 정확도 및 강건성으로 설명된 실시예들을 수행할 수 있게 한다. 시스템은 또한 일부 후처리 동작들(예를 들어, 나중에 오프라인으로 추가 분석 객체들)을 수행할 수 있다.

이하는 원하는 대로 사용될 수 있는 일부 추가적인 후처리 동작들을 포함하는 추가적인 실시간 애플리케이션들이다. 일부 구현들에서, 시스템은 수술 동안 필요한 보조자들을 감소시키기 위해 스마트 (예를 들어, 로봇) 수술 내비게이션을 가능하게 하고 모니터링할 수 있다. 일부 구현들에서, 시스템은 병원의 수술실 효율을 위해 수술 진행 상황들을 모니터링하고 예측할 수 있다. 일부 구현들에서, 시스템은 객관적인 피드백을 수술 절차 교육 및 개선을 위해 수술 기술에 제공할 수 있다. 일부 구현들에서, 시스템은 수술 절차의 기술 및 품질을 분석할 수 있다. 일부 구현들에서, 시스템은 고속 콘텐츠 관리(예를 들어, 탐색, 검색, 검토, 및 편집 등)를 위해 이들 예시적인 애플리케이션들에서 비디오들을 주석할 수 있다.

다양한 실시예들에서, 시스템은 시스템이 상이한 이미지 프레임들에서 객체를 검출함에 따라 주어진 객체의 외관에서의 임의의 변동성을 다룰 수 있다. 예를 들어, 시스템은 이러한 도구들이 상이한 도구 제조자들 사이에서 달라질 수 있다 하더라도 동일한 유형의 수술 도구들을 검출하고 분류할 수 있다. 다양한 실시예들에서, 시스템은 추적에 대한 복잡성을 증가시키는 것 등과 같은, 움직임 블러링, 다른 도구 및 조직의 폐색, 시점에서의 변동 등을 포함하는 다양한 수술의 동적 변동을 다룰 수 있다. 다양한 실시예들에서, 시스템은 텍스처 모호성을 다룰 수 있다. 예를 들어, 시스템은 임의의 형상 변형, 동적 텍스처들, 및 가변 강도들을 검출할 수 있다.

도 8은 본 명세서에 설명된 일부 구현들에 대해 사용될 수 있는 예시적인 네트워크 환경(800)의 블록도를 도시한다. 일부 구현들에서, 네트워크 환경(800)은 서버 디바이스(804) 및 네트워크 데이터베이스(806)를 포함하는 시스템(802)을 포함한다. 예를 들어, 시스템(802)은 도 1의 시스템(102)을 구현하는 것은 물론이고, 본 명세서에 설명된 실시예들을 수행하기 위해 사용될 수 있다. 네트워크 환경(800)은 또한 직접적으로 또는 시스템(802)을 통해 서로 통신할 수 있는 클라이언트 디바이스들(810, 820, 830, 및 840)을 포함한다. 네트워크 환경(800)은 또한 네트워크(850)를 포함한다.

예시의 용이함을 위해, 도 8은 시스템(802), 서버 디바이스(804), 및 네트워크 데이터베이스(806) 각각에 대한 하나의 블록을 도시하고, 클라이언트 디바이스들(810, 820, 930, 및 840)에 대한 4개의 블록을 도시한다. 일부 구현들이 수술 절차의 비디오를 보기 위해 사용되는 하나의 클라이언트 디바이스(예를 들어, 비디오를 보는 한 외과의사)의 맥락에서 설명되지만, 이러한 구현들 및 다른 구현들은 다중의 클라이언트 디바이스에 적용될 수 있다. 예를 들어, 다른 의사들, 및/또는 다른 임상의들, 및/또는 비디오를 보는 학생들이 있을 수 있다.

블록들(802, 804, 및 806)은 다중의 시스템, 서버 디바이스, 및 네트워크 데이터베이스를 나타낼 수 있다. 또한, 임의 수의 클라이언트 디바이스가 존재할 수 있다. 다른 구현들에서, 네트워크 환경(800)은 도시된 컴포넌트들 모두를 갖지는 않을 수 있고 및/또는 본 명세서에 도시된 것들 대신에 또는 그 이외에 다른 유형의 요소들을 포함하는 다른 요소들을 가질 수 있다. 다양한 구현들에서, 사용자들 U1, U2, U3, 및 U4는 각자의 클라이언트 디바이스들(810, 820, 830, 및 840)을 사용하여 서로 또는 시스템(802)과 상호작용할 수 있다.

본 명세서에 설명된 다양한 구현들에서, 시스템(802)의 프로세서 및/또는 임의의 클라이언트 디바이스(810, 820, 830, 및 840)의 프로세서는 본 명세서에 설명되는 요소들(예를 들어, 정보 등)이 하나 이상의 디스플레이 스크린상의 사용자 인터페이스에 디스플레이되게 야기한다.

구현들은 임의의 네트워크 시스템에 적용될 수 있고 및/또는 개별 사용자에 대해 국부적으로 적용될 수 있다. 예를 들어, 본 명세서에 설명된 구현들은 시스템(802) 및/또는 임의의 클라이언트 디바이스(810, 820, 830, 및 840)에 의해 구현될 수 있다. 시스템(802)은 독립형 컴퓨터, 태블릿 컴퓨터, 스마트폰 등에서 본 명세서에 설명된 구현들을 수행할 수 있다. 시스템(802) 및/또는 클라이언트 디바이스들(810, 820, 830, 및 840) 중 임의의 것은 본 명세서에 설명된 구현들을 개별적으로 또는 다른 디바이스들과 조합하여 수행할 수 있다.

도 9는 본 명세서에 설명된 일부 구현들에 대해 사용될 수 있는 예시적인 컴퓨팅 시스템(900)의 블록도를 도시한다. 예를 들어, 컴퓨팅 시스템(900)은 도 1의 시스템(102) 및/또는 도 8의 시스템(802)을 구현할 뿐만 아니라 본 명세서에 설명된 구현들을 수행하기 위해 사용될 수 있다. 일부 구현들에서, 컴퓨팅 시스템(900)은 프로세서(902), 운영 체제(904), 메모리(906), 및 입력/출력(I/O) 인터페이스(908)를 포함할 수 있다. 다양한 구현들에서, 프로세서(902)는 본 명세서에 설명된 다양한 기능들 및 특징들을 구현할 뿐만 아니라, 본 명세서에 설명된 방법 구현들을 수행하기 위해 사용될 수 있다. 프로세서(902)가 본 명세서에 설명된 구현들을 수행하는 것으로 설명되지만, 컴퓨팅 시스템(900)의 임의의 적절한 컴포넌트 또는 컴포넌트들의 조합 또는 컴퓨팅 시스템(900)과 연관된 임의의 적절한 프로세서 또는 프로세서들, 또는 임의의 적절한 시스템이 설명된 단계들을 수행할 수 있다. 본 명세서에서 설명되는 구현들은 사용자 디바이스상에서, 서버상에서, 또는 이 둘의 조합에서 수행될 수 있다.

컴퓨팅 시스템(900)은 또한 메모리(906)상에 또는 임의의 다른 적합한 저장 위치 또는 컴퓨터 판독가능 매체상에 저장될 수 있는 소프트웨어 애플리케이션(910)을 포함한다. 소프트웨어 애플리케이션(910)은 프로세서(902)가 본 명세서에 설명된 구현들 및 다른 기능들을 수행할 수 있게 하는 명령어들을 제공한다. 소프트웨어 애플리케이션은 또한 하나 이상의 네트워크 및 네트워크 통신과 연관된 다양한 기능들을 수행하기 위한 네트워크 엔진과 같은 엔진을 포함할 수 있다. 컴퓨팅 시스템(900)의 컴포넌트들은 하나 이상의 프로세서 또는 하드웨어 디바이스들의 임의의 조합뿐만 아니라 하드웨어, 소프트웨어, 펌웨어 등의 임의의 조합에 의해 구현될 수 있다.

예시의 용이함을 위해, 도 9는 프로세서(902), 운영 체제(904), 메모리(906), I/O 인터페이스(908), 및 소프트웨어 애플리케이션(910) 각각에 대해 하나의 블록을 도시한다. 이들 블록(902, 904, 906, 908, 및 910)은 다중 프로세서, 운영 체제, 메모리, I/O 인터페이스, 및 소프트웨어 애플리케이션을 나타낼 수 있다. 다양한 구현들에서, 컴퓨팅 시스템(800)은 도시된 컴포넌트들 모두를 갖지는 않을 수 있고 및/또는 본 명세서에 도시된 것들 대신에, 또는 이외에도 다른 유형들의 컴포넌트들을 포함하는 다른 요소들을 가질 수 있다.

설명이 그 특정 실시예들에 대하여 설명되었지만, 이러한 특정 실시예들은 제한적이 아니라 예시적일 뿐이다. 예들에서 예시되는 개념은 다른 예들 및 구현들에 적용될 수 있다.

다양한 구현에서, 소프트웨어는 하나 이상의 프로세서에 의한 실행을 위해 하나 이상의 비일시적 컴퓨터 판독가능 매체에 인코딩된다. 소프트웨어는 하나 이상의 프로세서에 의해 실행될 때 본 명세서에 설명된 구현들 및 다른 기능들을 수행하도록 동작가능하다.

C, C++, 자바, 어셈블리 언어(assembly language) 등을 비롯하여 특정한 실시예들의 루틴들을 구현하기 위한 임의의 적절한 프로그래밍 언어가 사용될 수 있다. 절차 또는 객체 지향과 같은 상이한 프로그래밍 기법들이 채택될 수 있다. 이러한 루틴들은 단일 처리 디바이스 또는 다중 프로세서상에서 실행될 수 있다. 단계들, 동작들 또는 계산들이 구체적인 순서로 제시될 수 있더라도, 이러한 순서는 상이한 특정 실시예들에서 변경될 수 있다. 일부 특정 실시예들에서는, 본 명세서에서 순차적인 것으로 도시되는 다중 단계가 동시에 수행될 수 있다.

특정 실시예들은 명령어 실행 시스템, 장치, 또는 디바이스에 의해 또는 그와 관련하여 사용하기 위한 비일시적 컴퓨터 판독가능 저장 매체(머신 판독가능 저장 매체라고도 함)에서 구현될 수 있다. 특정 실시예들은 소프트웨어 또는 하드웨어 또는 이 둘의 조합에서의 제어 로직의 형태로 구현될 수 있다. 제어 로직은 하나 이상의 프로세서에 의해 실행될 때 본 명세서에 설명된 구현들 및 다른 기능들을 수행하도록 동작가능하다. 예를 들어, 하드웨어 저장 디바이스와 같은 유형 매체가, 실행가능한 명령어들을 포함할 수 있는 제어 로직을 저장하는데 이용될 수 있다.

특정 실시예들은 프로그래머블 범용 디지털 컴퓨터를 사용하는 것에 의해, 및/또는 ASIC(application specific integrated circuit)들, 프로그래머블 로직 디바이스들, 필드 프로그래머블 게이트 어레이들, 광학, 화학, 생물학, 양자 또는 나노 엔지니어링된 시스템들, 컴포넌트들 및 메커니즘들을 사용함으로써 구현될 수 있다. 일반적으로, 특정 실시예들의 기능들은 본 기술분야에 공지된 바와 같은 임의의 수단에 의해 달성될 수 있다. 분산된, 네트워크화된 시스템들, 컴포넌트들, 및/또는 회로들이 사용될 수 있다. 데이터의 통신 또는 전송은 유선, 무선 또는 임의의 다른 수단에 의해 이루어질 수 있다.

"프로세서"는 데이터, 신호 또는 다른 정보를 처리하는 임의의 적절한 하드웨어 및/또는 소프트웨어 시스템, 메커니즘, 또는 컴포넌트를 포함할 수 있다. 프로세서는 범용 중앙 처리 유닛을 갖는 시스템, 다중 처리 유닛, 기능을 달성하기 위한 전용 회로, 또는 다른 시스템들을 포함할 수 있다. 처리는 지리적 위치에 제한되거나 시간적 제한을 가질 필요가 없다. 예를 들어, 프로세서는, "실시간"으로, "오프라인"으로, "일괄 처리 모드" 등으로 그 기능을 수행할 수 있다. 처리 부분들은 상이한 (또는 동일한) 처리 시스템들에 의해, 상이한 시간들에 그리고 상이한 위치들에서 수행될 수 있다. 컴퓨터는 메모리와 통신하는 임의의 프로세서일 수 있다. 메모리는, RAM(random-access memory), ROM(read-only memory), 자기 저장 디바이스(하드 디스크 드라이브 등), 플래시, 광학 저장 디바이스(CD, DVD 등), 자기 또는 광학 디스크, 또는 프로세서에 의한 실행을 위한 명령어(예를 들어, 프로그램 또는 소프트웨어 명령어)를 저장하기에 적합한 기타의 유형 매체를 포함하는, 임의의 적절한 데이터 저장소, 메모리 및/또는 비일시적 컴퓨터 판독가능 저장 매체일 수 있다. 예를 들어, 하드웨어 저장 디바이스와 같은 유형 매체가, 실행가능한 명령어들을 포함할 수 있는 제어 로직을 저장하는데 이용될 수 있다. 명령어들은 또한, 예를 들어, 서버(예를 들어, 분산형 시스템 및/또는 클라우드 컴퓨팅 시스템)로부터 전달되는 SaaS(software as a service) 형태의 전자 신호에 포함되거나 전자 신호로서 제공될 수 있다.

도면들/그림들에 묘사된 요소들 중 하나 이상은 또한 특정한 응용에 따라 유용한 바와 같이, 더 분리되거나 통합된 방식으로 구현될 수 있거나, 또는 특정 경우들에서 심지어 동작불가능한 것으로 제거되거나 렌더링될 수도 있다는 것이 또한 이해될 것이다. 또한, 컴퓨터가 전술한 방법들 중 임의의 것을 수행하는 것을 허용하기 위해 머신 판독가능 매체에 저장될 수 있는 프로그램 또는 코드를 구현하는 것은 사상 및 범위 내에 있다.

본 명세서의 설명에서 및 이하의 청구항 전체를 통해 사용될 때, 단수형태( "a", "an", "the")는 문맥상 명확히 달리 지시하지 않는 한 복수의 참조를 포함한다. 또한, 본 명세서의 설명에서 및 이하의 청구항 전체를 통해 사용될 때, 문맥상 명확히 달리 나타내지 않는 한 "내에서(in)"의 의미는 "내에서(in)"와 "상에서(on)"를 포함한다.

따라서, 특정 실시예들이 본 명세서에서 설명되었지만, 수정의 허용 범위, 다양한 변경들, 및 대체들이 전술한 개시내용들에서 의도되었고, 일부 경우들에서는 특정 실시예들의 일부 특징들이 제시된 바와 같은 범위 및 사상으로부터 벗어나지 않고 다른 특징들의 대응하는 사용 없이 채택될 것이라는 것이 이해될 것이다. 따라서, 특정 상황 또는 재료를 필수적인 범위 및 사상에 적응시키기 위해 많은 수정이 이루어질 수 있다.

Claims

시스템으로서:
하나 이상의 프로세서; 및
상기 하나 이상의 프로세서에 의한 실행을 위해 하나 이상의 비일시적 컴퓨터 판독가능 저장 매체에 인코딩된 로직을 포함하고, 상기 로직은 실행될 때 상기 하나 이상의 프로세서로 하여금 동작들을 수행하게 야기하도록 동작가능하고, 상기 동작들은:
수술 장면과 연관된 복수의 이미지 프레임 중 제1 이미지 프레임을 수신하는 동작;
상기 제1 이미지 프레임에서 하나 이상의 객체를 검출하는 동작;
상기 하나 이상의 객체에 대응하는 하나 이상의 위치를 결정하는 동작; 및
상기 복수의 이미지 프레임 중 다른 이미지 프레임들에서 상기 하나 이상의 객체의 각각의 위치를 추적하는 동작을 포함하는 시스템.
제1항에 있어서,
상기 하나 이상의 객체 중 적어도 하나의 객체는 수술 도구인 시스템.
제1항에 있어서,
상기 하나 이상의 객체 중 적어도 하나의 객체는 거즈인 시스템.
제1항에 있어서,
상기 하나 이상의 객체 중 적어도 하나의 객체는 출혈 영역인 시스템.
제1항에 있어서,
상기 하나 이상의 객체 중 적어도 하나의 객체는 연기인 시스템.
제1항에 있어서,
상기 제1 이미지 프레임에서의 상기 하나 이상의 객체의 검출은 컨볼루션 신경망을 활용하여 수행되는 시스템.
제1항에 있어서,
상기 동작들은 실시간으로 수행되는 시스템.
프로그램 명령어들이 저장된 비일시적 컴퓨터 판독가능 저장 매체로서, 상기 프로그램 명령어들은, 하나 이상의 프로세서에 의해 실행될 때 상기 하나 이상의 프로세서로 하여금 동작들을 수행하게 야기하도록 동작 가능하고, 상기 동작들은:
수술 장면과 연관된 복수의 이미지 프레임 중 제1 이미지 프레임을 수신하는 동작;
상기 제1 이미지 프레임에서 하나 이상의 객체를 검출하는 동작;
상기 하나 이상의 객체에 대응하는 하나 이상의 위치를 결정하는 동작; 및
상기 복수의 이미지 프레임 중 다른 이미지 프레임들에서 상기 하나 이상의 객체의 각각의 위치를 추적하는 동작을 포함하는 컴퓨터 판독가능 저장 매체.
제8항에 있어서,
상기 하나 이상의 객체 중 적어도 하나의 객체는 수술 도구인 컴퓨터 판독가능 저장 매체.
제8항에 있어서,
상기 하나 이상의 객체 중 적어도 하나의 객체는 거즈인 컴퓨터 판독가능 저장 매체.
제8항에 있어서,
상기 하나 이상의 객체 중 적어도 하나의 객체는 출혈 영역인 컴퓨터 판독가능 저장 매체.
제8항에 있어서,
상기 하나 이상의 객체 중 적어도 하나의 객체는 연기인 컴퓨터 판독가능 저장 매체.
제8항에 있어서,
상기 제1 이미지 프레임에서의 상기 하나 이상의 객체의 검출은 컨볼루션 신경망을 활용하여 수행되는 컴퓨터 판독가능 저장 매체.
제8항에 있어서,
상기 동작들은 실시간으로 수행되는 컴퓨터 판독가능 저장 매체.
컴퓨터 구현 방법으로서:
수술 장면과 연관된 복수의 이미지 프레임 중 제1 이미지 프레임을 수신하는 단계;
상기 제1 이미지 프레임에서 하나 이상의 객체를 검출하는 단계;
상기 하나 이상의 객체에 대응하는 하나 이상의 위치를 결정하는 단계; 및
상기 복수의 이미지 프레임 중 다른 이미지 프레임들에서 상기 하나 이상의 객체의 각각의 위치를 추적하는 단계를 포함하는 방법.
제15항에 있어서,
상기 하나 이상의 객체 중 적어도 하나의 객체는 수술 도구인 방법.
제15항에 있어서,
상기 하나 이상의 객체 중 적어도 하나의 객체는 거즈인 방법.
제15항에 있어서,
상기 하나 이상의 객체 중 적어도 하나의 객체는 출혈 영역인 방법.
제15항에 있어서,
상기 하나 이상의 객체 중 적어도 하나의 객체는 연기인 방법.
제15항에 있어서,
상기 제1 이미지 프레임에서의 상기 하나 이상의 객체의 검출은 컨볼루션 신경망을 활용하여 수행되는 방법.