WO2019164276A1

WO2019164276A1 - 수술동작 인식 방법 및 장치

Info

Publication number: WO2019164276A1
Application number: PCT/KR2019/002094
Authority: WO
Inventors: 이종혁; 형우진; 양훈모; 김호승
Original assignee: (주)휴톰
Priority date: 2018-02-20
Filing date: 2019-02-20
Publication date: 2019-08-29

Abstract

컴퓨터에 의해 수행되는 학습 기반 수술동작 인식 방법이 제공된다. 상기 방법은 수술영상을 획득하는 단계, 상기 수술영상 내 영상프레임을 학습하여 수술동작을 인식하는 단계, 및 상기 인식된 수술동작을 기초로 상기 수술영상 내 영상프레임 중 영상프레임 세트를 추출하여, 학습을 통해 상기 수술동작의 의미를 도출하는 단계를 을 포함한다.

Description

수술동작 인식 방법 및 장치

본 발명은 수술동작을 인식하는 방법 및 장치에 관한 것이다.

수술과정에서, 의사의 수술을 보조하기 위한 정보를 제공할 수 있는 기술들의 개발이 요구되고 있다. 수술을 보조하기 위한 정보를 제공하기 위해서는, 수술 행위를 인식할 수 있어야 한다.

따라서, 컴퓨터가 수술영상으로부터 수술행위를 인식할 수 있는 기술의 개발이 요구된다.

또한, 최근에는 의료영상의 분석에 딥 러닝이 널리 이용되고 있다. 딥 러닝은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화(abstractions, 다량의 데이터나 복잡한 자료들 속에서 핵심적인 내용 또는 기능을 요약하는 작업)를 시도하는 기계학습 알고리즘의 집합으로 정의된다. 딥 러닝은 큰 틀에서 사람의 사고방식을 컴퓨터에게 가르치는 기계학습의 한 분야로 볼 수 있다.

본 발명이 해결하고자 하는 과제는 수술영상 학습 및 학습 기반 수술동작 인식 방법 및 장치를 제공하는 것이다.

본 발명이 해결하고자 하는 과제는 학습 기반 수술동작 인식 방법 및 장치를 제공하는 것이다.

본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 실시예에 따른 컴퓨터에 의해 수행되는 학습 기반 수술동작 인식 방법은, 수술영상을 획득하는 단계, 상기 수술영상 내 영상프레임을 학습하여 수술동작을 인식하는 단계, 및 상기 인식된 수술동작을 기초로 상기 수술영상 내 영상프레임 중 영상프레임 세트를 추출하여, 학습을 통해 상기 수술동작의 의미를 도출하는 단계를 포함한다.

본 발명의 일 실시예에 따른 컴퓨터에 의해 수행되는 수술영상 학습 방법은, 수술영상 내 영상프레임으로부터 수술동작을 인식하기 위한 제1 학습데이터를 획득하는 단계, 상기 제1 학습데이터를 기반으로 동작인식 학습모델을 학습시키는 단계, 상기 수술영상 내 영상프레임 중 상기 수술동작의 의미를 도출하기 위한 영상프레임 세트를 제2 학습데이터로 획득하는 단계, 및 상기 제2 학습데이터를 기반으로 의미도출 학습모델을 학습시키는 단계를 포함한다.

본 발명의 일 실시예에 따른 컴퓨터에 의해 수행되는 학습 기반 수술동작 인식 방법은, 수술영상 시퀀스를 획득하는 단계, 상기 수술영상 시퀀스에 대해 손실(loss) 정보를 기초로 딥러닝 기반의 학습을 수행하는 단계, 및 상기 학습을 기초로 상기 수술영상 시퀀스에 대한 수술동작을 인식하는 단계를 포함한다.

본 발명에 따르면, 하나의 수술동작을 인식하는 단위로서 각 영상프레임을 사용하므로 더 정확하게 수술영상에 포함되는 동작들의 의미를 인식할 수 있다. 또한 수술동작을 인식함에 있어서 단계적인 학습을 수행하기 때문에, 보다 효과적인 학습모델 및 학습결과를 도출할 수 있다.

본 발명에 따르면, 하나의 수술동작을 인식하는 단위로서 영상 시퀀스를 사용하므로, 보다 정확하게 수술영상에서 수술동작을 인식할 수 있다.

본 발명에 따르면, 적은 영상데이터량이나 미세 움직임에도 효과적으로 학습을 수행할 수 있도록 손실 정보를 이용하므로, 보다 향상된 수술동작 인식율을 얻을 수 있다.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따라 로봇수술을 수행할 수 있는 시스템을 간략하게 도식화한 도면이다.

도 2는 본 발명의 일 실시예에 따른 학습 기반 수술동작 인식 방법을 도시한 흐름도이다.

도 3 내지 도 7은 본 발명의 일 실시예에 따른 학습 기반 수술동작 인식 방법에서 수술영상을 획득하여 수술동작을 인식하는 과정을 설명하기 위한 도면이다.

도 8은 본 발명의 일 실시예에 따른 수술영상 학습 방법을 도시한 흐름도이다.

도 9는 본 발명의 일 실시예에 따른 수술영상 학습 방법 및 학습 기반 수술동작 인식 방법을 수행하는 장치(400)의 구성을 개략적으로 나타내는 도면이다.

도 10은 본 발명의 일 실시예에 따라 로봇수술을 수행할 수 있는 시스템을 간략하게 도식화한 도면이다.

도 11은 본 발명의 일 실시예에 따른 학습 기반 수술동작 인식 방법을 도시한 흐름도이다.

도 12는 수술영상 시퀀스를 도시한 도면이다.

도 13은 본 발명의 일 실시예에 따른 CNN 기반의 학습을 통한 수술동작 인식 방법을 설명하기 도면이다.

도 14는 본 발명의 일 실시예에 따른 학습 기반 수술동작 인식 방법을 수행하는 장치(300)의 구성을 개략적으로 나타내는 도면이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

명세서에서 사용되는 "부" 또는 “모듈”이라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부" 또는 “모듈”은 어떤 역할들을 수행한다. 그렇지만 "부" 또는 “모듈”은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부" 또는 “모듈”은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부" 또는 “모듈”은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부" 또는 “모듈”들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부" 또는 “모듈”들로 결합되거나 추가적인 구성요소들과 "부" 또는 “모듈”들로 더 분리될 수 있다.

이하에서는 도 1 내지 도 9를 참조하여, 본 발명의 실시예에 따른 학습 기반 수술동작 인식 방법 및 장치, 수술영상 학습 방법 및 장치에 관해 상세히 설명한다.

본 명세서에서 "컴퓨터"는 연산처리를 수행하여 사용자에게 결과를 제공할 수 있는 다양한 장치들이 모두 포함된다. 예를 들어, 컴퓨터는 데스크 탑 PC, 노트북(Note Book) 뿐만 아니라 스마트폰(Smart phone), 태블릿 PC, 셀룰러폰(Cellular phone), 피씨에스폰(PCS phone; Personal Communication Service phone), 동기식/비동기식 IMT-2000(International Mobile Telecommunication-2000)의 이동 단말기, 팜 PC(Palm Personal Computer), 개인용 디지털 보조기(PDA; Personal Digital Assistant) 등도 해당될 수 있다. 또한, 헤드마운트 디스플레이(Head Mounted Display; HMD) 장치가 컴퓨팅 기능을 포함하는 경우, HMD장치가 컴퓨터가 될 수 있다. 또한, 컴퓨터는 클라이언트로부터 요청을 수신하여 정보처리를 수행하는 서버가 해당될 수 있다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.

도 1에 따르면, 로봇수술 시스템은 의료영상 촬영장비(10), 서버(100) 및 수술실에 구비된 제어부(30), 디스플레이(32) 및 수술로봇(34)을 포함한다. 실시 예에 따라서, 의료영상 촬영장비(10)는 개시된 실시 예에 따른 로봇수술 시스템에서 생략될 수 있다.

일 실시 예에서, 수술로봇(34)은 촬영장치(36) 및 수술도구(38)를 포함한다.

일 실시 예에서, 로봇수술은 사용자가 제어부(30)를 이용하여 수술용 로봇(34)을 제어함으로써 수행된다. 일 실시 예에서, 로봇수술은 사용자의 제어 없이 제어부(30)에 의하여 자동으로 수행될 수도 있다.

서버(100)는 적어도 하나의 프로세서와 통신부를 포함하는 컴퓨팅 장치이다.

제어부(30)는 적어도 하나의 프로세서와 통신부를 포함하는 컴퓨팅 장치를 포함한다. 일 실시 예에서, 제어부(30)는 수술용 로봇(34)을 제어하기 위한 하드웨어 및 소프트웨어 인터페이스를 포함한다.

촬영장치(36)는 적어도 하나의 이미지 센서를 포함한다. 즉, 촬영장치(36)는 적어도 하나의 카메라 장치를 포함하여, 대상체, 즉 수술부위를 촬영하는 데 이용된다. 일 실시 예에서, 촬영장치(36)는 수술로봇(34)의 수술 암(arm)과 결합된 적어도 하나의 카메라를 포함한다.

일 실시 예에서, 촬영장치(36)에서 촬영된 영상은 디스플레이(340)에 표시된다.

일 실시 예에서, 수술로봇(34)은 수술부위의 절단, 클리핑, 고정, 잡기 동작 등을 수행할 수 있는 하나 이상의 수술도구(38)를 포함한다. 수술도구(38)는 수술로봇(34)의 수술 암과 결합되어 이용된다.

제어부(30)는 서버(100)로부터 수술에 필요한 정보를 수신하거나, 수술에 필요한 정보를 생성하여 사용자에게 제공한다. 예를 들어, 제어부(30)는 생성 또는 수신된, 수술에 필요한 정보를 디스플레이(32)에 표시한다.

예를 들어, 사용자는 디스플레이(32)를 보면서 제어부(30)를 조작하여 수술로봇(34)의 움직임을 제어함으로써 로봇수술을 수행한다.

서버(100)는 의료영상 촬영장비(10)로부터 사전에 촬영된 대상체의 의료영상데이터를 이용하여 로봇수술에 필요한 정보를 생성하고, 생성된 정보를 제어부(30)에 제공한다.

제어부(30)는 서버(100)로부터 수신된 정보를 디스플레이(32)에 표시함으로써 사용자에게 제공하거나, 서버(100)로부터 수신된 정보를 이용하여 수술로봇(34)을 제어한다.

일 실시 예에서, 의료영상 촬영장비(10)에서 사용될 수 있는 수단은 제한되지 않으며, 예를 들어 CT, X-Ray, PET, MRI 등 다른 다양한 의료영상 획득수단이 사용될 수 있다.

개시된 실시 예에서, 촬영장치(36)에서 획득되는 수술영상은 제어부(30)로 전달된다.

일 실시 예에서, 제어부(30)는 수술 중에 획득되는 수술영상을 실시간으로 분할(segmentation)할 수 있다.

일 실시 예에서, 제어부(30)는 수술 중 또는 수술이 완료된 후 수술영상을 서버(100)에 전송한다.

서버(100)는 수술영상을 수신하여 분석할 수 있다.

서버(100)는 수술영상을 분석하기 위한 적어도 하나의 모델을 학습 및 저장한다.

서버(100)는 적어도 하나의 모델을 학습하기 위하여 학습 데이터를 이용하며, 학습 데이터는 수술 영상 및 수술 영상에 대한 정보를 포함하나, 이에 제한되지 않는다.

이하에서는, 서버(100)가 수술영상을 학습하고, 학습을 기반으로 수술동작을 인식하는 방법에 대하여 설명한다. 단, 이하에서 개시되는 실시 예들은 도 1에 도시된 로봇수술 시스템과 연관되어서만 적용될 수 있는 것은 아니고, 학습 데이터를 이용하여 학습을 수행하고, 학습된 모델을 통해 특정 동작을 인식하는 모든 종류의 실시 예들에도 적용될 수 있다.

또한, 이하에서는 설명의 편의를 위해 "컴퓨터"가 본 명세서에서 개시되는 실시예에 따른 수술영상 학습 방법 및 학습 기반 수술동작 인식 방법을 수행하는 것으로 설명한다. "컴퓨터"는 도 1의 서버(100)를 의미할 수 있으나, 이에 한정되는 것은 아니고 컴퓨팅 처리를 수행할 수 있는 장치를 포괄하는 의미로 사용될 수 있다.

도 2를 참조하면, 본 발명의 일 실시예에 따른 학습 기반 수술동작 인식 방법은, 컴퓨터가 수술영상을 획득하는 단계(S100), 상기 수술영상에 포함된 복수의 영상프레임을 학습하여 수술동작을 인식하는 단계(S110), 상기 인식된 수술동작을 기초로 상기 복수의 영상프레임 중 연속된 영상프레임 세트를 추출하여, 학습을 통해 상기 수술동작의 의미를 도출하는 단계(S120)를 포함할 수 있다. 이하, 각 단계에 대한 상세한 설명을 기재한다.

컴퓨터는 수술영상을 획득할 수 있다(S100).

여기서, 수술영상은 실제 수술 영상일 수도 있고, 시뮬레이션을 위한 가상 영상일 수도 있다. 일 실시예로, 실제 수술 영상은 실제 의료진이 수술을 수행함에 따라 획득되는 데이터를 의미하며, 예컨대 수술로봇(34)에 의하여 실제로 수행된 실제 수술 장면을 촬영한 영상일 수 있다. 즉, 실제 수술 영상은 실제 수술과정에서의 수술부위 및 수술동작에 대해 기록된 데이터이다. 시뮬레이션을 위한 가상 영상은 의료영상 촬영장비(10)로부터 촬영된 의료영상에 기초하여 생성된 시뮬레이션 영상을 말하며, 예컨대 실제 환자의 의료영상을 3차원으로 모델링하여 생성된 시뮬레이션 모델일 수 있다. 이때 가상공간에서 시뮬레이션 모델에 대해 리허설 또는 시뮬레이션을 수행함에 따라 가상 수술 영상이 생성될 수 있다. 따라서 가상 영상은 시뮬레이션 모델에 대해 수행된 수술과정에서의 수술부위 및 수술동작에 대해 기록된 데이터일 수 있다.

또한 수술영상은 하나 이상의 영상프레임들을 포함할 수 있다. 각 영상프레임은 대상체(예: 환자)의 신체부위 일부, 즉 수술부위를 포함할 수 있다. 또한, 각 영상프레임은 대상체의 수술부위뿐만 아니라, 수술도구, 수술시 필요한 소모품 등을 포함할 수 있다. 다시 말해, 수술영상은 수술과정에서의 시간에 따른 수술동작을 각 장면(씬; scene)별로 기록한 영상프레임들로 구성된 데이터를 말한다.

컴퓨터는 획득된 수술영상 내 영상프레임을 학습을 통해 수술동작을 인식할 수 있다(S110).

일 실시예에서, 컴퓨터는 수술영상 내 영상프레임 각각에 대해서, 기생성된 동작인식 학습모델을 이용하여 어트리뷰트(attribute)를 산출하고, 산출된 어트리뷰트를 기초로 수술영상 내 영상프레임 각각에 대한 수술동작을 인식할 수 있다. 여기서, 동작인식 학습모델은 수술영상 내에 포함된 영상프레임을 학습데이터로 사용하여 동작인식을 위해 학습된 모델로서, 다양한 학습 방법을 사용하여 학습된 모델일 수 있다. 예를 들어, 학습 방법은 지도학습, 비지도학습, 강화학습 등의 기계학습 방법을 사용할 수 있으며, 예컨대 딥러닝 기반의 CNN(Convolutional neural network)을 이용할 수 있다.

상술한 바와 같이, 각 영상프레임은 수술동작을 기록한 이미지로서, 수술동작과 관련된 정보를 포함하고 있다. 다시 말해, 영상프레임에 포함된 수술동작과 관련된 정보를 이용한다면 각 영상프레임이 수술과정에서 어떤 수술동작을 기록한 것인지를 파악할 수 있다.

이에, 컴퓨터는 수술영상의 각 영상프레임으로부터 수술동작을 인식하기 위해서 먼저 각 영상프레임으로부터 수술동작과 관련된 정보, 즉 어트리뷰트를 추출할 수 있다. 어트리뷰트는 수술동작을 식별하기 위한 객체의 정보로서, 예를 들어 수술부위, 수술동작의 유형, 수술도구, 수술시 사용되는 물품 등과 같은 객체 정보와, 객체의 위치정보, 방향정보 또는 움직임 정보, 영상에 대한 카메라의 시점, 방향, 움직임 등과 같은 카메라 정보 등을 객체 정보로 포함할 수 있다. 일례로, 아래 표 1과 같이 어트리뷰트를 정의할 수 있다.

[표 1]

일 실시예에서, 컴퓨터는 미리 정의된 어트리뷰트 정보를 저장할 수 있다. 이는 영상프레임들을 학습데이터로 사용하여 학습한 결과를 기반으로 표 1과 같은 어트리뷰트 정보가 도출될 수 있다. 따라서, 컴퓨터는 동작인식 학습모델을 이용하여 수술영상을 입력하면 수술영상 내에 포함된 영상프레임 각각에 대한 어트리뷰트 정보를 출력으로 산출할 수 있다. 예를 들어, 컴퓨터는 수술영상의 제1 영상프레임을 동작인식 학습모델에 입력하면 적어도 하나의 어트리뷰트 정보(즉, 객체 정보)를 추출하고, 추출된 각 어트리뷰트에 대응하여 정의된 이진값을 출력으로 산출할 수 있다. 컴퓨터는 제1 영상프레임에 대해 산출된 어트리뷰트 정보(예: 이진값 데이터)를 기초로 제1 영상프레임에 포함된 수술동작을 인식할 수 있다.

컴퓨터는 각 영상프레임에 대해 인식한 수술동작을 기초로 수술영상 내에 포함된 영상프레임들 중 영상프레임 세트를 추출하고, 학습을 통해 수술동작의 의미를 도출할 수 있다(S120).

일 실시예에서, 컴퓨터는 수술영상 내 영상프레임들 각각에 대해 산출된 어트리뷰트를 기초로, 기생성된 의미도출 학습모델을 이용하여 일련의 수술동작을 표현하는 영상프레임 세트를 추출하고, 일련의 수술동작에 대응하는 세부수술동작을 기반으로 수술동작의 의미를 도출할 수 있다. 여기서, 의미도출 학습모델은 일련의 수술동작을 표현하는 영상프레임 세트를 학습데이터로 사용하여 동작의 의미를 도출하기 위해 학습된 모델로서, 다양한 학습 방법을 사용하여 학습된 모델일 수 있다. 예를 들어, 학습 방법은 지도학습, 비지도학습, 강화학습 등의 기계학습 방법을 사용할 수 있으며, 예컨대 딥러닝 기반의 RNN(Recurrent neural network)을 이용할 수 있다.

상술한 바와 같이, 수술영상은 수술과정을 시간에 따라 기록한 연속된 영상프레임들을 포함하고 있다. 따라서 영상프레임 각각이 어떤 동작을 표현하고 있는 것인지를 파악할 수 있으면 하나의 동작을 표현하고 있는 연관된 영상프레임들을 찾을 수 있고, 이러한 연관된 영상프레임들을 기반으로 전체 수술 과정에서 어떤 수술동작을 행하고 있는지 그 의미를 파악할 수 있다. 즉, 본 발명에서는 연관된 영상프레임들을 영상프레임 세트로 지칭한다. 예컨대, 수술영상은 시간에 따라 연속된 영상프레임들로 구성되므로, 연관된 영상프레임들(즉, 영상프레임 세트)은 연속된 영상프레임들로 구성될 수도 있다.

일 실시예로, 컴퓨터는 미리 정의된 세부수술동작에 대한 정보를 저장할 수 있다. 이는 일련의 수술동작을 표현하는 영상프레임 세트들을 학습데이터로 사용하여 학습한 결과를 기반으로 도출된 것일 수 있다. 일례로, 세부수술동작에 대한 정보는 아래 표 2와 같이 정의될 수 있다.

[표 2]

세부수술동작은 특정 기준에 따라 정해진 수술프로세스를 구성하는 최소 동작 단위를 나타내며, 세부수술동작은 여러 기준에 의해 나누어질 수 있다. 예를 들어, 세부수술동작은 수술유형(예를 들어, 복강경 수술, 로봇 수술 등), 수술이 수행되는 해부학적 신체부위, 사용되는 수술도구, 수술도구의 개수, 화면상에 수술도구가 나타나는 방향 또는 위치, 수술도구의 움직임(예를 들어, 전진/후회) 등을 기준으로 나누어질 수 있다. 즉, 세부수술동작은 상술한 어트리뷰트 정보를 기준으로 판단될 수 있다.

따라서, 컴퓨터는 수술영상 내의 각 영상프레임으로부터 어트리뷰트 정보를 획득하고, 획득한 각 영상프레임의 어트리뷰트 정보를 의미도출 학습모델에 입력하면 어트리뷰트 정보를 기초로 서로 연관성 있는 일련의 수술동작(즉, 세부수술동작)을 출력으로 산출할 수 있다. 예를 들어, 컴퓨터는 n개의 영상프레임을 동작인식 학습모델에 입력하면 n개의 영상프레임 각각에 대한 어트리뷰트 정보를 출력하고, 이를 의미도출 학습모델에 입력하면 n개의 영상프레임 중 복수개(n개 이하)의 영상프레임을 검출하여 세부수술동작에 대한 정보를 출력할 수 있다. 컴퓨터는 세부수술동작 정보를 기초로 복수개의 영상프레임으로부터 수술동작의 의미를 도출할 수 있다.

상술한 바와 같이, 본 발명의 일 실시예에서는 수술영상으로부터 인식된 어트리뷰트 정보를 통해 특정 수술동작을 파악하고 이러한 특정 수술동작 각각의 연속성을 통해 세부수술동작을 인식할 수 있다. 또한 학습을 통해 일련의 세부동작들이 의미하는 상위 수술동작을 인식할 수도 있고, 단계적으로 더 큰 단위의 수술동작, 나아가 수술의 종류까지 인식할 수 있는 학습모델을 제공할 수 있다.

도 3 및 도 4를 참조하면, 컴퓨터는 n개의 영상프레임을 포함하는 수술영상(200)을 획득할 수 있다. n개의 영상프레임은 시간에 따라 연속적으로 획득될 수 있다.

컴퓨터는 n개의 영상프레임(200) 각각에 대해 동작인식 학습모델을 이용하여 영상프레임(200) 각각의 어트리뷰트(210)를 산출할 수 있다. 예를 들어, 동작인식 학습모델은 딥러닝의 CNN 기술을 이용하여 학습된 모델일 수 있으며, 영상프레임(200) 각각을 입력으로 하여 CNN을 적용하면 영상프레임(200) 각각에 대한 어트리뷰트(210)를 출력값으로 생성할 수 있다.

다음으로, 컴퓨터는 n개의 영상프레임(200) 각각에 대한 어트리뷰트(210)를 의미도출 학습모델에 적용하여 일련의 수술동작을 표현하는 적어도 하나의 영상프레임 세트(220)를 추출하여, 이에 대응하는 세부수술동작을 도출할 수 있다. 예를 들어, 의미도출 학습모델은 딥러닝의 RNN 기술을 이용하여 학습된 모델일 수 있으며, 영상프레임(200) 각각의 어트리뷰트(210)를 입력으로 하여 RNN을 적용하면 수술영상에 포함된 세부수술동작을 출력값으로 생성할 수 있다.

도 5 내지 도 7은 수술도구를 포함하는 수술영상을 획득한 경우, 영상프레임으로부터 수술도구에 대한 어트리뷰트를 산출하는 과정을 설명하기 위한 도면이다. 도 5 내지 도 7을 참조하면, 컴퓨터는 적어도 하나 이상의 수술도구, 예컨대 제1 수술도구(310)(예: Harmonic 도구) 및 제2 수술도구(320)(예: Bipolar 도구)를 포함하는 영상프레임(300)을 획득할 수 있다. 이때, 컴퓨터는 영상프레임(300)으로부터 제1 수술도구(310)와 제2 수술도구(320) 각각을 검출한 다음, 각각에 대해 동작인식 학습모델을 적용하여 각각의 어트리뷰트를 산출한다.

예를 들어, 도 5를 참조하면, 컴퓨터는 먼저 영상프레임(300)으로부터 제1 수술도구(310)를 인식하고, 인식한 제1 수술도구(310)의 결과(예: 제1 수술도구(310)의 ID)를 획득할 수 있다. 그리고 컴퓨터는 영상프레임에 획득한 제1 수술도구(310)를 융합(예: padding)하여 가공된 영상프레임(330)을 획득할 수 있다. 이때, 가공된 영상프레임(330)은 패딩에 의해서 제1 수술도구(310)만 포함하는 영상일 수 있다. 컴퓨터는 제1 수술도구(310)만 포함하는 가공된 영상프레임(330)에 대해 동작인식 학습모델을 이용하여 제1 수술도구(310)에 대한 어트리뷰트를 산출할 수 있다.

다음으로, 도 6을 참조하면, 컴퓨터는 영상프레임(300)으로부터 제2 수술도구(320)를 인식하고, 인식한 제2 수술도구(320)의 결과(예: 제2 수술도구(320)의 ID)를 획득할 수 있다. 그리고 컴퓨터는 영상프레임에 획득한 제2 수술도구(320)를 융합(예: padding)하여 가공된 영상프레임(340)을 획득할 수 있다. 이때, 가공된 영상프레임(340)은 패딩에 의해서 제2 수술도구(320)만 포함하는 영상일 수 있다. 컴퓨터는 제2 수술도구(320)만 포함하는 가공된 영상프레임(340)에 대해 동작인식 학습모델을 이용하여 제2 수술도구(320)에 대한 어트리뷰트를 산출할 수 있다.

즉, 도 7에 따르면, 도 5 및 도 6에 도시된 바와 같은 제1 수술도구(310) 및 제2 수술도구(320)를 포함하는 영상프레임(300)의 경우, 제1 수술도구(310)만 포함하는 가공된 영상프레임(330)과 제2 수술도구(320)만 포함하는 가공된 영상프레임(340)을 각각 획득하므로, 각각의 가공된 영상프레임(330, 340)에 대해 딥러닝의 CNN을 적용하여 각각의 어트리뷰트를 출력값으로 생성할 수 있다. 따라서, 제1 수술도구(310) 및 제2 수술도구(320)를 포함하는 영상프레임(300)의 경우에는 총 2번의 어트리뷰트 산출 과정을 수행하게 된다. 이후, 컴퓨터는 각각의 가공된 영상프레임(330, 340)으로부터 산출된 어트리뷰트 각각을 의미도출 학습모델(예: 딥러닝의 RNN 기술)에 적용하여 일련의 수술동작을 표현하는 적어도 하나의 영상프레임 세트를 추출하고, 이에 대응하는 세부수술동작을 도출할 수 있다.

도 8을 참조하면, 본 발명의 일 실시예에 따른 수술영상 학습 방법은, 수술영상에 포함된 복수의 영상프레임으로부터 수술동작을 인식하기 위한 제1 학습데이터를 획득하는 단계(S200), 상기 제1 학습데이터를 기반으로 동작인식 학습모델을 학습시키는 단계(S210), 상기 복수의 영상프레임 중 상기 수술동작의 의미를 도출하기 위한 연속된 영상프레임 세트를 제2 학습데이터로 획득하는 단계(S220), 상기 제2 학습데이터를 기반으로 의미도출 학습모델을 학습시키는 단계(S230)를 포함할 수 있다. 이하, 각 단계에 대한 상세한 설명을 기재한다.

컴퓨터는 수술영상에 포함된 복수의 영상프레임으로부터 수술동작을 인식하기 위한 제1 학습데이터를 획득할 수 있다(S200).

일 실시예에서, 제1 학습데이터는 동작인식을 위한 어트리뷰트 정보가 부여된 영상프레임을 포함한다. 따라서 컴퓨터는 수술영상에 포함된 복수의 영상프레임 각각에 대해 어트리뷰트를 인식하여 획득된 영상프레임을 제1 학습데이터로 획득할 수 있다. 예를 들어, 영상프레임에 대해 어트리뷰트를 인식하는 과정은 사람에 의하여 수행될 수도 있고, 컴퓨터에 의해 이미지 인식 알고리즘을 이용하여 자동으로 수행될 수도 있다.

컴퓨터는 제1 학습데이터를 기반으로 동작인식 학습모델을 학습시킬 수 있다(S210).

일 실시예로, 동작인식 학습모델은 제1 학습데이터를 이용하여 지도학습, 비지도학습, 강화학습 등의 학습 과정을 통해 학습되며, 학습 결과 각 영상프레임의 어트리뷰트에 대응하는 수술동작을 인식할 수 있다. 예컨대, 학습한 결과로서, 표 1과 같은 어트리뷰트 정보(객체의 종류, 객체의 위치, 방향, 움직임 정보, 카메라 정보 등)를 획득할 수 있다.

컴퓨터는 수술영상에서 수술동작의 의미를 도출하기 위한 연속된 영상프레임 세트를 제2 학습데이터로 획득할 수 있다(S220).

일 실시예에서, 제2 학습데이터는 일련의 수술동작(즉, 세부수술동작)을 표현하는 연속된 영상프레임 세트를 포함한다. 따라서 컴퓨터는 수술영상의 각 영상프레임에 대해 인식된 어트리뷰트를 기초로 일련의 수술동작을 표현하는 연속된 복수개의 영상프레임을 데이터세트로 획득하고, 이를 제2 학습데이터로 사용할 수 있다. 예를 들어, 영상프레임에 대해 인식된 어트리뷰트를 기초로 세부수술동작을 인식하는 과정은 사람에 의하여 수행될 수도 있고, 컴퓨터에 의해 딥러닝 학습을 이용하여 자동으로 수행될 수도 있다.

컴퓨터는 제2 학습데이터를 기반으로 의미도출 학습모델을 학습시킬 수 있다(S230).

일 실시예로, 의미도출 학습모델은 제2 학습데이터를 이용하여 지도학습, 비지도학습, 강화학습 등의 학습 과정을 통해 학습되며, 학습 결과 세부수술동작에 대응하는 수술동작의 의미를 도출할 수 있다. 예컨대, 학습한 결과로서, 표 2와 같은 세부수술동작에 대한 정보(세부수술동작의 명칭, 코드 정보, 상세한 설명 등)를 획득할 수 있다.

수술동작을 인식하기 위한 학습을 수행할 때, 종래에는 의사와 같은 전문가 집단이 수술영상을 보고 해당 수술이 무엇을 하는 동작인지를 라벨링하고, 라벨링된 데이터를 이용하여 컴퓨터에게 학습을 시키는 방식이었다. 이와 같은 경우 비용이나 시간적인 측면에서 라벨링된 수술영상 데이터를 많이 획득하는 것에 어려움이 있었다. 또한 수술동작을 판단함에 있어서 의사마다 서로 다른 결과를 도출할 수 있기 때문에 라벨링된 데이터의 정확성이 보장되지 않는다.

그러나, 본 발명에서는 하나의 수술동작을 인식하는 단위로서 각 영상프레임을 사용하고, 또한 영상프레임 각각에 대해 이미지 인식과 같은 기법을 적용하면 의사와 같은 전문가 집단이 아니더라도, 즉 컴퓨터에 의해서도 라벨링된 데이터를 획득할 수 있다. 따라서 비용이나 시간적인 측면에서도 종래 기술에 비해서 데이터를 획득하기가 용이하다. 또한 본 발명에서는 수술동작을 인식함에 있어서 동작인식 학습 및 의미도출 학습과 같은 단계적인 학습을 수행하기 때문에 보다 효과적인 학습모델 및 학습결과를 도출할 수 있다.

도 9를 참조하면, 프로세서(410)는 하나 이상의 코어(core, 미도시) 및 그래픽 처리부(미도시) 및/또는 다른 구성 요소와 신호를 송수신하는 연결 통로(예를 들어, 버스(bus) 등)를 포함할 수 있다.

일 실시예에 따른 프로세서(410)는 메모리(320)에 저장된 하나 이상의 인스트럭션을 실행함으로써, 도 2 내지 도 8과 관련하여 설명된 수술영상 학습 방법 및 학습 기반 수술동작 인식 방법을 수행한다.

예를 들어, 프로세서(410)는 메모리(420)에 저장된 하나 이상의 인스트럭션을 실행함으로써 수술영상에 포함된 복수의 영상프레임으로부터 수술동작을 인식하기 위한 제1 학습데이터를 획득하는 단계, 상기 제1 학습데이터를 기반으로 동작인식 학습모델을 학습시키는 단계, 상기 복수의 영상프레임 중 상기 수술동작의 의미를 도출하기 위한 연속된 영상프레임 세트를 제2 학습데이터로 획득하는 단계, 및 상기 제2 학습데이터를 기반으로 의미도출 학습모델을 학습시키는 단계를 포함하는 수술영상 학습 방법을 수행할 수 있다.

또한, 프로세서(410)는 메모리(420)에 저장된 하나 이상의 인스트럭션을 실행함으로써 수술영상을 획득하는 단계, 상기 수술영상에 포함된 복수의 영상프레임을 학습하여 수술동작을 인식하는 단계, 및 상기 인식된 수술동작을 기초로 상기 복수의 영상프레임 중 연속된 영상프레임 세트를 추출하여, 학습을 통해 상기 수술동작의 의미를 도출하는 단계를 포함하는 학습 기반 수술동작 인식 방법을 수행할 수 있다.

한편, 프로세서(410)는 프로세서(410) 내부에서 처리되는 신호(또는, 데이터)를 일시적 및/또는 영구적으로 저장하는 램(RAM: Random Access Memory, 미도시) 및 롬(ROM: Read-Only Memory, 미도시)을 더 포함할 수 있다. 또한, 프로세서(410)는 그래픽 처리부, 램 및 롬 중 적어도 하나를 포함하는 시스템온칩(SoC: system on chip) 형태로 구현될 수 있다.

메모리(320)에는 프로세서(410)의 처리 및 제어를 위한 프로그램들(하나 이상의 인스트럭션들)을 저장할 수 있다. 메모리(420)에 저장된 프로그램들은 기능에 따라 복수 개의 모듈들로 구분될 수 있다.

이상에서 전술한 본 발명의 일 실시예에 따른 수술영상 학습 방법 및 학습 기반 수술동작 인식 방법은, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.

이하에서는 도 10 내지 도 14를 참조하여, 본 발명의 실시예에 따른 학습 기반 수술동작 인식 방법 및 장치에 관해 상세히 설명한다.

도 10에 따르면, 로봇수술 시스템은 의료영상 촬영장비(10), 서버(100) 및 수술실에 구비된 제어부(30), 디스플레이(32) 및 수술로봇(34)을 포함한다. 실시 예에 따라서, 의료영상 촬영장비(10)는 개시된 실시 예에 따른 로봇수술 시스템에서 생략될 수 있다.

서버(100)는 수술영상을 수신하여 분석할 수 있다.

이하에서는, 서버(100)가 수술영상을 학습하고, 학습을 기반으로 수술동작을 인식하는 방법에 대하여 설명한다. 단, 이하에서 개시되는 실시 예들은 도 10에 도시된 로봇수술 시스템과 연관되어서만 적용될 수 있는 것은 아니고, 수술영상을 이용하여 학습을 수행하고, 학습된 결과를 통해 특정 동작을 인식하는 모든 종류의 실시 예들에도 적용될 수 있다.

또한, 이하에서는 설명의 편의를 위해 "컴퓨터"가 본 명세서에서 개시되는 실시예에 따른 학습 기반 수술동작 인식 방법을 수행하는 것으로 설명한다. "컴퓨터"는 도 10의 서버(100) 또는 제어부(30)를 의미할 수 있으나, 이에 한정되는 것은 아니고 컴퓨팅 처리를 수행할 수 있는 장치를 포괄하는 의미로 사용될 수 있다.

도 11을 참조하면, 본 발명의 일 실시예에 따른 컴퓨터에 의해 수행되는 학습 기반 수술동작 인식 방법은, 수술영상 시퀀스를 획득하는 단계(S100), 수술영상 시퀀스에 대해 손실(loss) 정보를 기초로 딥러닝 기반의 학습을 수행하는 단계(S110), 및 학습을 기초로 수술영상 시퀀스에 대한 수술동작을 인식하는 단계(S120)를 포함할 수 있다. 이하, 각 단계에 대한 상세한 설명을 기재한다.

컴퓨터는 수술영상 시퀀스를 획득할 수 있다(S100).

또한 수술영상은 하나 이상의 영상프레임들을 포함할 수 있다. 각 영상프레임은 환자의 신체부위 일부, 즉 수술부위를 포함할 수 있다. 또한, 각 영상프레임은 환자의 수술부위뿐만 아니라, 수술도구, 수술시 필요한 소모품 등을 포함할 수 있다. 다시 말해, 수술영상은 수술과정에서의 시간에 따른 수술동작을 각 장면(씬; scene)별로 기록한 영상프레임들로 구성된 데이터를 말한다. 따라서, 이러한 영상프레임들로 구성된 데이터를 수술영상 시퀀스라 지칭한다. 도 12는 수술영상 시퀀스를 도시한 도면이다. 도 12에 도시된 바와 같이, 수술영상 시퀀스는 복수개의 영상프레임들을 포함할 수 있다.

컴퓨터는 수술영상 시퀀스에 대해 손실(loss) 정보를 기초로 딥러닝 기반의 학습을 수행할 수 있다(S110).

일 실시예로, 컴퓨터는 수술영상 시퀀스 내 프레임들 사이의 차이값을 기초로 객체의 움직임 정보를 추출하고, 추출된 움직임 정보에 대한 손실 정보를 학습하여 수술동작 손실을 최소화할 수 있다. 또한, 컴퓨터는 수술영상 시퀀스로부터 수술동작에 해당하는 수술동작영상을 인식하고, 인식된 수술동작영상에 대한 손실 정보를 학습하여 수술동작 손실을 최소화할 수 있다.

컴퓨터는 학습을 기초로 수술영상 시퀀스에 대한 수술동작을 인식할 수 있다(S120).

일 실시예로, 컴퓨터는 수술동작에 해당하는 수술동작영상을 기반으로 공통적인 특징(feature)을 추출하고, 추출된 공통적인 특징을 기초로 수술동작을 인식할 수 있다.

한편, 단계 S110에서 딥러닝 기반의 학습은 CNN(Convolutional Neural Network)을 이용하여 학습을 수행할 수 있다. 일 실시예로, 수술동작을 인식하는 적어도 하나의 메인 레이어, 객체의 움직임 정보를 추출하는 제1 서브 레이어, 및 수술동작영상을 인식하는 제2 서브 레이어를 포함하여 CNN을 통해 학습을 수행하며, 학습의 결과로 영상의 특징값을 출력할 수 있다. 이때 출력 레이어는 메인 레이어에서의 SPP(Spatial Pyramid Pooling) 레이어일 수 있으며, SPP 레이어는 제1 서브 레이어 및 제2 서브 레이어와 연결되어 학습 결과를 출력할 수 있다. 본 발명의 실시예에 따른 CNN 기반의 학습을 이용한 수술동작 인식 과정은 도 13을 참조하여 보다 구체적으로 설명하도록 한다.

도 13을 참조하면, 컴퓨터는 수술영상 시퀀스(200)를 입력값으로 획득할 수 있다. 수술영상 시퀀스(200)는 복수개의 영상프레임들(예: 프레임1, 프레임2, 쪋, 프레임N)로 구성될 수 있다.

컴퓨터는 수술영상 시퀀스(200)에 대해 CNN 기반의 학습을 수행할 수 있다. 일 실시예로, CNN 기반의 학습은, 메인 네트워크(210)(예: 수술동작 인식 네트워크), 제1 서브 네트워크(220)(예: 움직임 정보 추출 네트워크), 제2 서브 네트워크(230)(예: 수술동작영상 인식 네트워크)를 포함하여 구성될 수 있다. 각 네트워크(210, 220, 230)는 적어도 하나의 레이어를 포함할 수 있고, 각 레이어를 통해 학습이 수행될 수 있다.

메인 네트워크(210)는 입력된 수술영상 시퀀스(200)로부터 학습을 통해 수술동작을 인식하는 기능을 할 수 있다. 일 실시예로, 메인 네트워크(210)는 적어도 하나의 메인 레이어를 포함할 수 있으며, 적어도 하나의 메인 레이어에는 컨벌루션 레이어(Convolutional layer), 완전 연결 레이어(Fully Connected layer), SPP 레이어를 포함할 수 있다.

메인 네트워크(210)는 제1 서브 네트워크(220) 및 제2 서브 네트워크(230)와 연동하여 수술영상 시퀀스(200)에 대해 손실 정보를 기초로 학습을 수행할 수 있다.

먼저, 메인 네트워크(210)는 입력된 수술영상 시퀀스(200)로부터 학습을 통해 수술동작 손실 정보(L_a)를 수학식 1과 같이 계산할 수 있다.

[수학식 1]

여기서,

는 f 프레임들을 포함하는 mXn 컬러 영상 시퀀스이고, t_i 는 i번째 타겟 값이고, C 는 수술동작 인식을 위한 클래스의 개수이고, G_1i(x; θc; θa)는 네트워크 파라미터 θc, θa에 대한 x의 i번째 소프트맥스 출력값을 나타낸다. θc, θa는 컨벌루션 레이어, 완전 연결 레이어에 대한 파라미터이다. 이때, θc는 세개의 네트워크(210, 220, 230)에서 공유되는 파라미터이다.

일반적으로 복강경 수술이나 로봇수술 등과 같은 최소침습수술 시에 획득되는 영상데이터는 데이터량이 적고 영상 내 객체의 움직임이 미세하여 학습을 시키기 힘든 문제가 있다. 이러한 영상데이터를 이용하여 딥러닝 기반의 학습을 수행하게 되면 학습된 영상데이터에 대해서만 효과적으로 동작하게 되므로, 일반화시키기 힘들다. 따라서, 본 발명에서는 이러한 문제점을 해결하고자 손실 정보를 학습시킴으로써 적은 영상데이터와 미세한 움직임에도 효과적으로 학습을 수행하여 수술동작의 인식력을 향상시킬 수 있도록 한다.

일 실시예로, 메인 네트워크(210)는 수술동작 손실 정보(L_a)와 함께 제1 서브 네트워크(220)로부터 객체의 움직임 정보에 대한 손실 정보(L_d)를 획득하여 학습을 수행하고, 이를 통해서 수술동작 인식에 대한 손실을 최소화할 수 있다. 또한, 메인 네트워크(210)는 제2 서브 네트워크(230)로부터 수술동작에 해당하는 수술동작영상에 대한 손실 정보(L_S)를 획득하여 학습을 수행하고, 이를 통해서 수술동작 인식에 대한 손실을 최소화할 수 있다.

제1 서브 네트워크(220)는 입력된 수술영상 시퀀스(200)로부터 객체의 움직임 정보를 추출하고, 이를 기반으로 학습을 수행하여 객체의 움직임 정보에 대한 손실 정보(L_d)를 산출하는 기능을 할 수 있다. 또한 제1 서브 네트워크(220)는 디코더로서의 역할을 수행할 수 있으며, 객체의 움직임 정보를 생성할 수 있다. 일 실시예로, 제1 서브 네트워크(220)는 적어도 하나의 제1 서브 레이어를 포함할 수 있으며, 적어도 하나의 제1 서브 레이어에는 완전 연결 레이어를 포함할 수 있다.

여기서, 객체란 최소침습수술의 대상자인 환자의 신체내부에 카메라가 진입하여 촬영한 영상데이터에 포함된 것으로서, 예를 들어 수술도구, 환자의 신체일부(예: 장기, 혈관 등), 환자의 신체로부터 생성된 객체(예: 출혈 등), 수술시 필요한 소모품(예: 거즈, 클립 등) 등을 말한다.

먼저, 제1 서브 네트워크(220)는 입력된 수술영상 시퀀스(200) 내 인접하는 프레임들 사이의 차이값을 기초로 객체의 움직임 정보를 추출할 수 있으며, 수학식 2와 같이 계산될 수 있다.

[수학식 2]

여기서, x(i)는 i번째 프레임이고, ε(x)는 수술영상 시퀀스(200) 내 인접하는 프레임들 사이의 차이값의 절대값들의 합(SAD; sum of absolute difference)로서, 움직임이 크면 큰 값을 가지고 움직임이 작으면 작은 값을 가질 수 있다. 즉, 움직임 정보는 두 프레임 간의 픽셀값의 변화량을 기초로 산출될 수 있다. 수술영상에서는 배경 이미지는 변화가 거의 없으므로, 수학식 2를 통해 수술도구나 장기 등과 같은 객체의 미세한 움직임을 효과적으로 추출할 수 있다.

다음으로, 제1 서브 네트워크(220)는 객체의 움직임 정보로부터 손실 정보(L_d)를 산출할 수 있으며, 수학식 3과 같이 계산될 수 있다. 이때, 메인 네트워크(210)의 SPP 레이어로부터 추출된 특징값(즉, 특징 맵 정보)을 획득하여 입력값으로 사용할 수 있다.

[수학식 3]

여기서, G₂(x; θc; θd)는 입력된 영상 시퀀스의 한 프레임으로부터 동일한 크기의 이미지를 생성하는 가중치 파라미터 θc, θd를 갖는 디코더이고, ε는 이미지들의 SAD이다. 예를 들어, L_d가 0인 경우, G2(x; θc; θd)의 조합은 SAD를 나타내야 하므로 움직임 정보를 추출할 수 있다. θc는 메인 네트워크와 공유되는 파라미터이므로, 객체의 움직임 정보가 수술동작 인식 시에 활용될 수 있다.

제2 서브 네트워크(230)는 입력된 수술영상 시퀀스(200)로부터 수술동작에 해당하는 수술동작영상을 인식하고, 이를 기반으로 학습을 수행하여 수술동작영상에 대한 손실 정보(L_S)를 산출하는 기능을 할 수 있다. 일 실시예로, 제2 서브 네트워크(230)는 적어도 하나의 제2 서브 레이어를 포함할 수 있으며, 적어도 하나의 제2 서브 레이어에는 완전 연결 레이어를 포함할 수 있다.

먼저, 제2 서브 네트워크(230)는 입력된 수술영상 시퀀스(200)로부터 수술동작에 해당하는 수술동작영상을 인식할 수 있으며, 수학식 4 및 5와 같이 계산될 수 있다.

[수학식 4]

여기서, S ∈ {0, 1}^M, M은 수술 횟수이고 S_i는 S의 i번째 요소이다. 예를 들어, 3개의 독립적인 수술영상이 있는 경우, M = 3일 수 있다. 이때, 제2 서브 네트워크(230)는 GRL(gradient reversal layer)를 사용할 수 있고, 이는 역전파 동안 계산된 그라디언트의 부호를 변경할 수 있다. 따라서, θc는 수학식 5에서와 같이 음의 그라디언트를 사용하여 업데이트될 수 있다.

[수학식 5]

여기서, η는 학습 속도이고, P는 학습 강도를 제어하는 파라미터이다. 이 파라미터는 0.1로 설정될 수 있다.

다음으로, 제2 서브 네트워크(230)는 수술동작에 해당하는 수술동작영상으로부터 손실 정보(L_S)를 산출할 수 있으며, 수학식 6과 같이 계산될 수 있다. 이때, 메인 네트워크(210)의 SPP 레이어로부터 추출된 특징값(즉, 특징 맵 정보)을 획득하여 입력값으로 사용할 수 있다.

[수학식 6]

여기서, θs는 제2 서브 네트워크(230) G₃의 학습 가능한 파라미터이고, G_3i는 네트워크의 i번째 소프트맥스(softmax) 값이다. 이때, S_i가 요구되며, 이는 수술영상 인덱스 번호 v를 사용하여 자동으로 생성된 첫번째 요소일 수 있다.

즉, 제2 서브 네트워크(230)는 수술동작영상에 대한 손실 정보(L_S)를 최소화하도록 학습되며, 이 손실 정보(L_S)는 수술영상 시퀀스(200)에서 수술동작영상을 식별하도록 한다.

상술한 바와 같이, 일반적으로 CNN 기반의 학습시에는 손실 정보를 최소화하는 방법으로서 입력 데이터만을 기억하는 경향이 있기 때문에, 수술영상에서와 같이 객체(예: 수술도구, 장기, 소모품 등)가 차지하는 비율보다 객체를 제외한 배경 이미지가 많은 비율을 차지하고 거의 움직임이 발생하지 않는 경우에는 제대로 동작하지 못하는 문제점이 있다. 이러한 경우, 나쁜 영향을 줌으로써 손실을 발생시켜 학습을 수행하는 것이 중요하므로, 본 발명에서는 위에서 설명한 손실 정보(L_a, L_d, L_s)를 사용하여 불필요한 정보를 제거하고 유용한 정보만 추출할 수 있도록 하였다.

최종적으로, 메인 네트워크(210)는 수학식 1 내지 6을 통해 도출된 손실 정보(L_a, L_d, L_s)를 기반으로 최종 손실 정보(L_t)를 산출할 수 있으며, 수학식 7과 같이 계산될 수 있다.

[수학식 7]

여기서, λ_d 및 λ_s는 손실 값의 비율을 조정하는 파라미터를 나타낸다.

일 실시예로, 메인 네트워크(210)는 학습을 통해 최종 손실 정보(L_t)를 산출함으로써 수술영상 시퀀스(200)로부터 공통적인 특징 정보를 추출할 수 있고, 추출된 공통적인 특징 정보를 기초로 해당 수술동작을 인식할 수 있다. 메인 네트워크(210)는 SPP 레이어에서 특징 정보를 출력할 수 있으며, 이때 카메라와 관련된 정보를 추가적으로 이용하여 특징 정보를 처리할 수도 있다. 예를 들어, 카메라의 줌인/줌아웃과 관련된 스케일 정보를 처리할 수 있으며, 로봇 수술시에 수술도구의 움직임으로 인해 카메라에서 줌인/줌아웃되는 경우도 포함할 수 있다.

여기서, 수술동작이란 수술프로세스를 구성하는 최소 동작 단위를 의미할 수 있다. 상술한 바와 같이, 수술영상은 수술과정을 시간에 따라 기록한 연속된 영상프레임들을 포함하고 있다. 따라서, 이러한 연속된 영상프레임들을 포함하는 수술영상 시퀀스(200)에 대해 학습을 수행함으로써 전체 수술과정에서 어떤 수술동작을 행하고 있는지를 최소 동작 단위로 인식할 수 있으므로, 보다 효과적으로 해당 수술동작의 의미를 파악할 수 있게 된다.

실시예에 따라, 컴퓨터는 미리 정의된 수술동작에 대한 정보를 저장할 수 있다. 이는 하나의 수술동작을 표현하는 정보로서, 표준화된 명칭에 기초하여 정해질 수 있다. 예컨대, 특정한 자릿수의 코드 데이터로 생성될 수 있다. 아래 표 1은 수술동작을 표현하는 정보의 일례를 나타낸 것이다.

[표 1]

일 실시예로, 수술동작은 특정 기준에 따라 정해진 수술프로세스를 구성하는 최소 동작 단위를 나타내며, 수술동작은 여러 기준에 의해 나누어질 수 있다. 예를 들어, 수술동작은 수술유형(예를 들어, 복강경 수술, 로봇 수술 등), 수술이 수행되는 해부학적 신체부위, 사용되는 수술도구, 수술도구의 개수, 화면상에 수술도구가 나타나는 방향 또는 위치, 수술도구의 움직임(예를 들어, 전진/후회) 등을 기준으로 나누어질 수 있다.

도 14를 참조하면, 프로세서(310)는 하나 이상의 코어(core, 미도시) 및 그래픽 처리부(미도시) 및/또는 다른 구성 요소와 신호를 송수신하는 연결 통로(예를 들어, 버스(bus) 등)를 포함할 수 있다.

일 실시예에 따른 프로세서(310)는 메모리(320)에 저장된 하나 이상의 인스트럭션을 실행함으로써, 도 11 내지 도 13과 관련하여 설명된 가상신체모델을 생성하는 방법 및 수술도구의 위치 정보를 제공하는 방법을 수행한다.

예를 들어, 프로세서(310)는 메모리(320)에 저장된 하나 이상의 인스트럭션을 실행함으로써 수술영상 시퀀스를 획득하고, 수술영상 시퀀스에 대해 손실(loss) 정보를 기초로 딥러닝 기반의 학습을 수행하고, 학습을 기초로 수술영상 시퀀스에 대한 수술동작을 인식할 수 있다.

한편, 프로세서(310)는 프로세서(310) 내부에서 처리되는 신호(또는, 데이터)를 일시적 및/또는 영구적으로 저장하는 램(RAM: Random Access Memory, 미도시) 및 롬(ROM: Read-Only Memory, 미도시)을 더 포함할 수 있다. 또한, 프로세서(310)는 그래픽 처리부, 램 및 롬 중 적어도 하나를 포함하는 시스템온칩(SoC: system on chip) 형태로 구현될 수 있다.

메모리(320)에는 프로세서(310)의 처리 및 제어를 위한 프로그램들(하나 이상의 인스트럭션들)을 저장할 수 있다. 메모리(320)에 저장된 프로그램들은 기능에 따라 복수 개의 모듈들로 구분될 수 있다.

이상에서 전술한 본 발명의 일 실시예에 따른 학습 기반 수술동작 인식 방법은, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.

한편 상기에서 설명된 본 발명의 실시예들에서, 프로그램은, 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.

상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.

본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.

이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.

Claims

컴퓨터에 의해 수행되는 학습 기반 수술동작 인식 방법에 있어서,

수술영상을 획득하는 단계;

상기 수술영상 내 영상프레임을 학습하여 수술동작을 인식하는 단계; 및

상기 인식된 수술동작을 기초로 상기 수술영상 내 영상프레임 중 영상프레임 세트를 추출하여, 학습을 통해 상기 수술동작의 의미를 도출하는 단계를 포함하는 것을 특징으로 하는 학습 기반 수술동작 인식 방법.
제1항에 있어서,

상기 수술동작을 인식하는 단계는,

상기 수술영상 내 영상프레임 각각에 대해 기생성된 동작인식 학습모델을 이용하여 어트리뷰트(attribute)를 산출하는 단계; 및

상기 어트리뷰트를 기초로 상기 수술영상 내 영상프레임 각각에 대한 수술동작을 인식하는 단계를 포함하는 것을 특징으로 하는 학습 기반 수술동작 인식 방법.
제2항에 있어서,

상기 어트리뷰트는,

상기 수술동작을 식별하기 위한 객체의 정보를 포함하는 것을 특징으로 하는 학습 기반 수술동작 인식 방법.
제2항에 있어서,

상기 수술동작의 의미를 도출하는 단계는,

상기 수술영상 내 영상프레임 각각에 대한 어트리뷰트를 기초로 기생성된 의미도출 학습모델을 이용하여 일련의 수술동작을 표현하는 상기 영상프레임 세트를 추출하는 단계; 및

상기 일련의 수술동작에 대응하는 세부수술동작을 기반으로 상기 수술동작의 의미를 도출하는 단계를 포함하는 것을 특징으로 하는 학습 기반 수술동작 인식 방법.
제4항에 있어서,

상기 세부수술동작은,

특정 기준에 따라 정해진 수술프로세스를 구성하는 최소 동작 단위를 나타내는 것을 특징으로 하는 학습 기반 수술동작 인식 방법.
제4항에 있어서,

상기 수술영상 내 영상프레임은,

상기 동작인식 학습모델을 학습시키기 위한 학습데이터로 사용되며,

상기 영상프레임 세트는,

상기 의미도출 학습모델을 학습시키기 위한 학습데이터로 사용되는 것을 특징으로 하는 학습 기반 수술동작 인식 방법.
컴퓨터에 의해 수행되는 수술영상 학습 방법에 있어서,

수술영상 내 영상프레임으로부터 수술동작을 인식하기 위한 제1 학습데이터를 획득하는 단계;

상기 제1 학습데이터를 기반으로 동작인식 학습모델을 학습시키는 단계;

상기 수술영상 내 영상프레임 중 상기 수술동작의 의미를 도출하기 위한 영상프레임 세트를 제2 학습데이터로 획득하는 단계; 및

상기 제2 학습데이터를 기반으로 의미도출 학습모델을 학습시키는 단계를 포함하는 것을 특징으로 하는 수술영상 학습 방법.
제7항에 있어서,

상기 제1 학습데이터를 획득하는 단계는,

상기 수술영상 내 영상프레임 각각에 대해 어트리뷰트를 인식하는 단계; 및

상기 인식된 어트리뷰트에 기초하여 상기 제1 학습데이터를 획득하는 단계를 포함하는 것을 특징으로 하는 수술영상 학습 방법.
제8항에 있어서,

상기 제2 학습데이터로 획득하는 단계는,

상기 수술영상 내 영상프레임 각각에 대한 어트리뷰트를 기초로 일련의 수술동작을 표현하는 상기 영상프레임 세트를 추출하는 단계; 및

상기 일련의 수술동작에 대응하는 세부수술동작에 기초하여 상기 제2 학습데이터를 획득하는 단계를 포함하는 것을 특징으로 하는 수술영상 학습 방법.
제8항에 있어서,

상기 동작인식 학습모델을 학습시키는 단계는,

상기 제1 학습데이터를 이용하여 상기 어트리뷰트에 대응하는 수술동작을 인식하는 것을 특징으로 하는 수술영상 학습 방법.
제9항에 있어서,

상기 의미도출 학습모델을 학습시키는 단계는,

상기 제2 학습데이터를 이용하여 상기 세부수술동작에 대응하는 수술동작의 의미를 도출하는 것을 특징으로 하는 수술영상 학습 방법.
하나 이상의 인스트럭션을 저장하는 메모리; 및

상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하며,

상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,

수술영상을 획득하는 단계;

상기 수술영상 내 영상프레임을 학습하여 수술동작을 인식하는 단계; 및

상기 인식된 수술동작을 기초로 상기 수술영상 내 영상프레임 중 영상프레임 세트를 추출하여, 학습을 통해 상기 수술동작의 의미를 도출하는 단계를 수행하는 것을 특징으로 하는 장치.
하나 이상의 인스트럭션을 저장하는 메모리; 및

상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하며,

상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,

수술영상 내 영상프레임으로부터 수술동작을 인식하기 위한 제1 학습데이터를 획득하는 단계;

상기 제1 학습데이터를 기반으로 동작인식 학습모델을 학습시키는 단계;

상기 수술영상 내 영상프레임 중 상기 수술동작의 의미를 도출하기 위한 영상프레임 세트를 제2 학습데이터로 획득하는 단계; 및

상기 제2 학습데이터를 기반으로 의미도출 학습모델을 학습시키는 단계를 수행하는 것을 특징으로 하는 장치.
하드웨어인 컴퓨터와 결합되어, 제1항 또는 제7항의 방법을 수행할 수 있도록 컴퓨터에서 독출가능한 기록매체에 저장된 컴퓨터프로그램.
컴퓨터에 의해 수행되는 학습 기반 수술동작 인식 방법에 있어서,

수술영상 시퀀스를 획득하는 단계;

상기 수술영상 시퀀스에 대해 손실(loss) 정보를 기초로 딥러닝 기반의 학습을 수행하는 단계; 및

상기 학습을 기초로 상기 수술영상 시퀀스에 대한 수술동작을 인식하는 단계를 포함하는 것을 특징으로 하는 학습 기반 수술동작 인식 방법.
제15항에 있어서,

상기 딥러닝 기반의 학습을 수행하는 단계는,

상기 수술영상 시퀀스 내 프레임들 사이의 차이값을 기초로 객체의 움직임 정보를 추출하는 단계; 및

상기 움직임 정보에 대한 손실 정보를 학습하여 상기 수술동작 손실을 최소화하는 단계를 포함하는 것을 특징으로 하는 학습 기반 수술동작 인식 방법.
제16항에 있어서,

상기 수술동작 손실을 최소화하는 단계는,

상기 수술영상 시퀀스로부터 상기 수술동작에 해당하는 수술동작영상을 인식하는 단계; 및

상기 수술동작영상에 대한 손실 정보를 학습하여 상기 수술동작 손실을 최소화하는 단계를 포함하는 것을 특징으로 하는 학습 기반 수술동작 인식 방법.
제17항에 있어서,

상기 수술동작을 인식하는 단계는,

상기 수술동작영상을 기반으로 공통적인 특징(feature)을 추출하는 단계; 및

상기 공통적인 특징을 기초로 상기 수술동작을 인식하는 단계를 포함하는 것을 특징으로 하는 학습 기반 수술동작 인식 방법.
제17항에 있어서,

상기 딥러닝 기반의 학습은, CNN(Convolutional Neural Network)을 이용하되,

상기 수술동작을 인식하는 적어도 하나의 메인 레이어, 상기 객체의 움직임 정보를 추출하는 제1 서브 레이어, 및 상기 수술동작영상을 인식하는 제2 서브 레이어를 포함하는 것을 특징으로 하는 학습 기반 수술동작 인식 방법.
제19항에 있어서,

상기 메인 레이어는, SPP(Spatial Pyramid Pooling) 레이어를 포함하며,

상기 SPP 레이어를 통해 상기 제1 서브 레이어 및 상기 제2 서브 레이어와 연결되어 학습 결과를 출력하는 것을 특징으로 하는 학습 기반 수술동작 인식 방법.
제15항에 있어서,

상기 수술영상 시퀀스는, 복수의 프레임으로 구성되는 것을 특징으로 하는 학습 기반 수술동작 인식 방법.
제15항에 있어서,

상기 수술동작은, 수술프로세스를 구성하는 최소 동작 단위인 것을 특징으로 하는 학습 기반 수술동작 인식 방법.
하나 이상의 인스트럭션을 저장하는 메모리; 및

상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하며,

상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,

수술영상 시퀀스를 획득하는 단계;

상기 수술영상 시퀀스에 대해 손실(loss) 정보를 기초로 딥러닝 기반의 학습을 수행하는 단계; 및

상기 학습을 기초로 상기 수술영상 시퀀스에 대한 수술동작을 인식하는 단계를 수행하는 것을 특징으로 하는 장치.
하드웨어인 컴퓨터와 결합되어, 제15항의 방법을 수행할 수 있도록 컴퓨터에서 독출가능한 기록매체에 저장된 컴퓨터프로그램.