KR20220059613A - 음성 인식 기반의 수술 영상 가공 장치 및 방법 - Google Patents

음성 인식 기반의 수술 영상 가공 장치 및 방법 Download PDF

Info

Publication number
KR20220059613A
KR20220059613A KR1020200144962A KR20200144962A KR20220059613A KR 20220059613 A KR20220059613 A KR 20220059613A KR 1020200144962 A KR1020200144962 A KR 1020200144962A KR 20200144962 A KR20200144962 A KR 20200144962A KR 20220059613 A KR20220059613 A KR 20220059613A
Authority
KR
South Korea
Prior art keywords
information
surgical
image
text
voice
Prior art date
Application number
KR1020200144962A
Other languages
English (en)
Other versions
KR102593296B1 (ko
Inventor
곽정면
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020200144962A priority Critical patent/KR102593296B1/ko
Publication of KR20220059613A publication Critical patent/KR20220059613A/ko
Application granted granted Critical
Publication of KR102593296B1 publication Critical patent/KR102593296B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/40ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mechanical, radiation or invasive therapies, e.g. surgery, laser therapy, dialysis or acupuncture
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/20ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Radiology & Medical Imaging (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Surgery (AREA)
  • Urology & Nephrology (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

음성 인식 기반의 수술 영상 가공 장치 및 방법이 개시되며, 본원의 일 실시예에 따른 음성 인식 기반의 수술 영상 가공 방법은, 화상 정보 및 음성 정보를 포함하는 수술 영상을 수신하는 단계, 상기 음성 정보를 텍스트 정보로 변환하는 단계, 상기 변환된 텍스트 정보 중 상기 수술 영상에 자막으로 삽입될 타겟 텍스트 정보를 선별하는 단계 및 상기 화상 정보에 상기 선별된 타겟 텍스트 정보를 기초로 한 자막을 삽입하는 단계를 포함할 수 있다.

Description

음성 인식 기반의 수술 영상 가공 장치 및 방법{APPARATUS AND METHOD FOR PROCESSING SURGICAL IMAGE BASED ON VOICE RECOGNITION}
본원은 음성 인식 기반의 수술 영상 가공 장치 및 방법에 관한 것이다. 예를 들면, 본원은 음성 인식 기술을 이용하여 수술 영상에 자막을 삽입하여 제공하는 수술 영상 관리 시스템에 관한 것이다.
현재 대다수 외과 영역에서 복강경 수술, 흉강경 수술, 방광경 수술, 로봇 수술 등의 수술에서 최소침습수술이 차지하는 비율이 압도적으로 높다.
최소침습수술은 수술용 카메라로 수술 부위를 촬영하여 전송한 영상을 디스플레이 장치에 표시하여 진행되며, 수술 진행 과정이 영상으로 녹화되어, 녹화된 수술 영상은 진료, 교육, 연구 등 다양한 목적으로 활용할 수 있다.
다만, 수술 영상을 다양한 목적으로 활용하기 위한 영상 관리 시스템 활용이 미비하고, 의료인이 직접 수술 영상을 기록, 관리하여야 하고, 수술이 장시간 이루어지는 경우, 영상의 길이가 길어서 원하는 수술 과정을 확인하기 위해 영상을 모두 일일이 확인해야만 하므로 수술 영상을 활용하기 위한 시간, 노력, 비용이 과다하게 투입된다.
본원의 배경이 되는 기술은 한국공개특허공보 제10-2019-0105287호에 개시되어 있다.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 음성 인식을 이용하여 수술 영상에 자동으로 자막을 삽입하고, 음성 인식을 통해 인식한 텍스트 정보를 활용하여 수술 영상을 검색, 편집, 저장, 분류할 수 있는 수술 영상 관리 시스템의 구축을 위한 음성 인식 기반의 수술 영상 가공 장치 및 방법을 제공하려는 것을 목적으로 한다.
다만, 본원의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 일 실시예에 따른 음성 인식 기반의 수술 영상 가공 방법은, 화상 정보 및 음성 정보를 포함하는 수술 영상을 수신하는 단계, 상기 음성 정보를 텍스트 정보로 변환하는 단계, 상기 변환된 텍스트 정보 중 상기 수술 영상에 자막으로 삽입될 타겟 텍스트 정보를 선별하는 단계 및 상기 화상 정보에 상기 선별된 타겟 텍스트 정보를 기초로 한 자막을 삽입하는 단계를 포함할 수 있다.
또한, 상기 텍스트 정보로 변환하는 단계는, 미리 설정된 마커 정보가 상기 화상 정보 및 상기 음성 정보 중 적어도 하나에 기초하여 상기 수술 영상으로부터 식별되면, 상기 마커 정보에 대응하는 영상 구간에서의 상기 음성 정보를 선택적으로 상기 텍스트 정보로 변환할 수 있다.
또한, 상기 타겟 텍스트 정보를 선별하는 단계는, 상기 수술 영상과 연계된 수술 유형 정보, 수술자 정보 및 수술 대상자 정보 중 적어도 하나를 포함하는 수술 정보를 고려하여 상기 타겟 텍스트 정보를 선별할 수 있다.
또한, 상기 타겟 텍스트 정보를 선별하는 단계는, 상기 화상 정보에 기초하여 식별되는 수술 부위 정보, 수술 도구 정보 및 수술 행위 정보 중 적어도 하나를 포함하는 상태 정보를 더 고려하여 상기 타겟 텍스트 정보를 선별할 수 있다.
또한, 상기 텍스트 정보로 변환하는 단계는, 상기 수술 정보 및 상기 상태 정보 중 적어도 하나를 고려하여 상기 음성 정보에 대응하여 변환되는 상기 텍스트 정보를 결정할 수 있다.
또한, 상기 음성 정보는, 주 수술자의 음성 정보인 제1음성 정보 및 수술 보조자의 음성 정보인 제2음성 정보를 포함할 수 있다.
또한, 상기 텍스트 정보로 변환하는 단계는, 상기 제1음성 정보 및 상기 제2음성 정보를 각각 텍스트 정보로 변환할 수 있다.
또한, 상기 자막을 삽입하는 단계는, 상기 제1음성 정보와 연계된 타겟 텍스트 정보와 상기 제2음성 정보와 연계된 타겟 텍스트 정보가 구분되어 표시되도록 상기 자막을 삽입할 수 있다.
또한, 상기 자막을 삽입하는 단계는, 상기 수술 정보 및 상기 상태 정보 중 적어도 하나를 고려하여 상기 화상 정보에 대한 상기 자막의 삽입 방식을 결정할 수 있다.
또한, 본원의 일 실시예에 따른 음성 인식 기반의 수술 영상 가공 방법은, 상기 자막에 기초하여 색인 정보를 생성하는 단계 및 상기 색인 정보를 반영하여 상기 수술 영상을 저장하는 단계를 포함할 수 있다.
또한, 본원의 일 실시예에 따른 음성 인식 기반의 수술 영상 가공 방법은, 수술 영상 검색 입력을 수신하는 단계 및 상기 검색 입력에 대응하는 상기 색인 정보가 반영되어 저장된 상기 수술 영상을 제공하는 단계를 포함할 수 있다.
한편, 본원의 일 실시예에 따른 음성 인식 기반의 수술 영상 가공 장치는, 화상 정보 및 음성 정보를 포함하는 수술 영상을 수신하는 영상 수신부, 상기 음성 정보를 텍스트 정보로 변환하는 텍스트 변환부, 상기 변환된 텍스트 정보 중 상기 수술 영상에 자막으로 삽입될 타겟 텍스트 정보를 선별하는 텍스트 선별부 및 상기 화상 정보에 상기 선별된 타겟 텍스트 정보를 기초로 한 자막을 삽입하는 자막 삽입부를 포함할 수 있다.
또한, 상기 텍스트 변환부는, 미리 설정된 마커 정보가 상기 화상 정보 및 상기 음성 정보 중 적어도 하나에 기초하여 상기 수술 영상으로부터 식별되면, 상기 마커 정보에 대응하는 영상 구간에서의 상기 음성 정보를 선택적으로 상기 텍스트 정보로 변환할 수 있다.
또한, 상기 텍스트 선별부는, 상기 수술 영상과 연계된 수술 유형 정보, 수술자 정보 및 수술 대상자 정보 중 적어도 하나를 포함하는 수술 정보 및 상기 화상 정보에 기초하여 식별되는 수술 부위 정보, 수술 도구 정보 및 수술 행위 정보 중 적어도 하나를 포함하는 상태 정보 중 적어도 하나를 고려하여 상기 타겟 텍스트 정보를 선별할 수 있다.
또한, 상기 텍스트 변환부는, 상기 수술 정보 및 상기 상태 정보 중 적어도 하나를 고려하여 상기 음성 정보에 대응하여 변환되는 상기 텍스트 정보를 결정할 수 있다.
또한, 본원의 일 실시예에 따른 음성 인식 기반의 수술 영상 가공 장치는, 상기 자막에 기초하여 색인 정보를 생성하고, 상기 색인 정보를 반영하여 상기 수술 영상을 저장하는 영상 저장부 및 수술 영상 검색 입력을 수신하고, 상기 검색 입력에 대응하는 상기 색인 정보가 반영되어 저장된 상기 수술 영상을 제공하는 영상 검색부를 포함할 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본원을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 음성 인식을 이용하여 수술 영상에 자동으로 자막을 삽입하고, 음성 인식을 통해 인식한 텍스트 정보를 활용하여 수술 영상을 검색, 편집, 저장, 분류할 수 있는 수술 영상 관리 시스템의 구축을 위한 음성 인식 기반의 수술 영상 가공 장치 및 방법을 제공할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 자막을 색인으로 활용하여 사용자가 원하는 영상을 검색할 수 있고, 삽입된 자막에 기초하여 영상을 분류하여 영상을 체계적으로 관리할 수 있고, 검색어가 삽입된 영상 위치에서 영상을 재생, 검색어가 삽입된 영상 위치에 기초하여 영상을 편집할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 진행된 수술과 관련한 폭넓은 정보를 내재하여 술기 교육에의 활용 등 잠재적 활용 가치가 높지만 관리가 어려운 수술 영상을 유의미한 의료 정보로 자동 가공하고 효율적으로 관리할 수 있는 수술 영상 관리 시스템을 제공할 수 있다.
다만, 본원에서 얻을 수 있는 효과는 상기된 바와 같은 효과들로 한정되지 않으며, 또 다른 효과들이 존재할 수 있다.
도 1은 본원의 일 실시예에 따른 음성 인식 기반의 수술 영상 가공 장치를 포함하는 수술 영상 관리 시스템의 개략적인 구성도이다.
도 2는 화상 정보에 기초하여 식별되는 수술 부위 정보를 예시적으로 나타낸 도면이다.
도 3은 화상 정보에 기초하여 식별되는 수술 도구 정보와 수술 행위 정보를 예시적으로 나타낸 도면이다.
도 4는 본원의 일 실시예에 따른 음성 인식 기반의 수술 영상 가공 장치의 개략적인 구성도이다.
도 5는 본원의 일 실시예에 따른 음성 인식 기반의 수술 영상 가공 방법에 대한 동작 흐름도이다.
도 6은 음성 인식에 기반하여 자막이 삽입된 대상 수술 영상을 제공하는 프로세스에 대한 세부 동작 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결" 또는 "간접적으로 연결"되어 있는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
본원은 음성 인식 기반의 수술 영상 가공 장치 및 방법에 관한 것이다. 예를 들면, 본원은 음성 인식 기술을 이용하여 수술 영상에 자막을 삽입하여 제공하는 수술 영상 관리 시스템에 관한 것이다.
도 1은 본원의 일 실시예에 따른 음성 인식 기반의 수술 영상 가공 장치를 포함하는 수술 영상 관리 시스템의 개략적인 구성도이다.
도 1을 참조하면, 본원의 일 실시예에 따른 수술 영상 관리 시스템(10)은, 본원의 일 실시예에 따른 음성 인식 기반의 수술 영상 가공 장치(100)(이하, '수술 영상 가공 장치(100)'라 한다.), 수술 영상 생성 장치(200) 및 사용자 단말(300)을 포함할 수 있다.
수술 영상 가공 장치(100), 수술 영상 생성 장치(200) 및 사용자 단말(300) 상호간은 네트워크(20)를 통해 통신할 수 있다. 네트워크(20)는 단말들 및 서버들과 같은 각각의 노드 상호간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크(20)의 일 예에는, 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5G 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), wifi 네트워크, 블루투스(Bluetooth) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.
또한, 도 1을 참조하면, 수술 영상 생성 장치(200)는 수술실 등에서 특정 수술이 진행됨에 따라 수술 환경의 화상 정보(1a)를 촬영하는 녹화 장치(210) 및 해당 수술 환경에서의 음성 정보(1b)를 기록하는 녹음 장치(220)를 포함할 수 있다.
또한, 본원의 일 실시예에 따르면, 수술 영상 생성 장치(200)는 녹화 장치(210) 및 녹음 장치(220)를 모두 포함하는 하나의 디바이스를 의미하는 것일 수 있으며, 다른 예로, 수술 영상 생성 장치(200)는 수술실 등의 수술 환경에서 화상 정보(1a) 및 음성 정보(1b)를 각각 획득하도록 별도로 동작하는 디바이스인 녹화 장치(210) 및 녹음 장치(220)를 포괄하여 지칭하는 것일 수 있다.
또한, 본원의 일 실시예에 따르면, 녹화 장치(210)는 수술실 등의 수술 환경에서 주 수술자, 수술 보조자, 수술 대상자 등이 등장하는 영역을 촬영한 화상 정보(1a)를 획득하기 위한 제1유형의 녹화 장치 또는 복강경 수술, 흉강경 수술, 방광경 수술, 로봇 수술 등에서 수술 대상자의 체내로 삽입되는 로봇 등에 마련되어 수술 진행에 따른 수술 대상자의 체내 대상 부위를 촬영한 화상 정보(1a)를 획득하기 위한 제2유형의 녹화 장치(예를 들면, 내시경 등)를 포함할 수 있다.
또한, 본원의 일 실시예에 따르면, 수술 영상 가공 장치(100)는 제1유형의 녹화 장치 및 제2유형의 녹화 장치로부터 각각 획득되는 화상 정보(1a)에 기반하여 하나의 대상 수술 영상(2)을 통합적으로 생성하도록 동작할 수 있다. 예시적으로, 수술 영상 가공 장치(100)는 제1유형의 녹화 장치 및 제2유형의 녹화 장치로부터 각각 획득된 화상 정보(1a)를 동일 프레임 내에 공간적으로 분리(예를 들면, 수평 방향 또는 수직 방향으로 나란하게 병렬 배치)하여 하나의 대상 수술 영상(2)으로 합성할 수 있다. 다른 예로, 수술 영상 가공 장치(100)는 시계열적으로 제1유형의 녹화 장치 및 제2유형의 녹화 장치로부터 각각 획득된 화상 정보(1a) 중 어느 하나가 선택적으로 재생되도록 하나의 대상 수술 영상(2)을 합성(예를 들면, 제1시간 구간에서는 제1유형의 녹화 장치로부터 획득된 화상 정보(1a)가 재생되고 상기 제1시간 구간과 다른 제2시간 구간에서는 제2유형의 녹화 장치로부터 획득된 화상 정보(1a)가 재생되는 방식 등)하는 것일 수 있다.
다만, 본원의 구현예에 따라 진행되는 수술의 유형, 수술실 등의 수술 환경의 환경적 요소 등에 기초하여 수술 영상 생성 장치(200)의 유형은 다양하게 결정될 수 있다.
이해를 돕기 위해 예시하면, 수술 영상 가공 장치(100)는 최소침습수술 과정을 영상으로 기록하기 위해서, 내시경과 같은 영상 촬영 장비가 인체 내로 삽입되어 수술 부위에 관한 화상 정보(1a)를 획득하고, 의료인, 시술자 등이 착용한 마이크를 통해 음성 정보(1b)를 획득하는 방식으로 획득된 화상 정보(1a)와 음성 정보(1b)를 결합하여 수술 영상을 획득할 수 있다.
또한, 예를 들면, 음성 정보(1b)를 기록하는 녹음 장치(220)는 주 수술자, 수술 보조자 등 수술에 관여하는 주체가 수술 도중에 소지하거나 착용하는 형태로 사용되어 수술에 관여하는 주체의 음성 정보를 녹음하도록 마련되는 것일 수 있다. 다른 예로, 녹음 장치(220)는 전술한 바와 같이 녹화 장치(210)와 일체의 디바이스로서 수술 영상 생성 장치(200)를 구성하여 화상 정보(1a)의 녹화와 음성 정보(1b)의 녹음이 동시에 진행되는 형태로 마련될 수 있음은 물론이다.
사용자 단말(300)은 예를 들면, 스마트폰(Smartphone), 스마트패드(SmartPad), 태블릿 PC등과 PCS(Personal Communication System), GSM(Global System for Mobile communication), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말기 같은 모든 종류의 무선 통신 장치일 수 있다.
도 1을 참조하면, 본원에서의 수술 영상 가공 장치(100)는 수술 영상의 음성 정보(1b)를 기초로 자막을 생성하여 수술 영상의 화상 정보(1a)에 삽입(오버레이)함으로써 자막이 삽입된 대상 수술 영상(2)을 생성하도록 동작할 수 있으며, 이하에서는 수술 영상 가공 장치(100)의 구체적인 기능 및 동작을 상세히 설명하도록 한다.
수술 영상 가공 장치(100)는 화상 정보(1a) 및 음성 정보(1b)를 포함하는 수술 영상을 수신할 수 있다. 예를 들어, 수술 영상 가공 장치(100)는 수술 영상 생성 장치(200)로부터 화상 정보(1a) 및 음성 정보(1b)를 포함하는 수술 영상을 수신할 수 있고, 수신된 수술 영상은 수술 영상 가공 장치(100)에 의해 자막이 삽입되기 전의 원본 상태의 수술 영상을 의미할 수 있다.
또한, 수술 영상 가공 장치(100)는 획득한 음성 정보(1b)를 텍스트 정보로 변환할 수 있다. 이와 관련하여, 수술 영상 가공 장치(100)는 음성 정보(1b)를 텍스트 정보로 변환하도록 미리 구축된 음성 인식(Speech-To-Text, STT) 알고리즘을 보유할 수 있다. 여기서, 음성 인식 알고리즘은 음성 정보(1b)를 수술 영상 가공 장치(100)가 해석하여 그 내용을 텍스트 정보로 인식하는 작업을 수행할 수 있도록 수술 영상 가공 장치(100)에 탑재되는 알고리즘을 의미할 수 있다.
구체적으로, 음성 인식 알고리즘은 소정의 주체가 발성한 음성의 파형이 포함된 음성 정보(1b)가 입력되면 음성의 파형을 분석하여 음성패턴 정보를 획득하고, 획득된 음성패턴 정보를 미리 확보된 음성식별 정보(예를 들면, 문자 별 발음 정보 등)와 비교해서 음성식별 정보와 일치 확률이 높은 것으로 판단되는 텍스트를 음성 정보(1b)에 대응하는 텍스트 정보로 변환할 수 있다.
한편, 음성 정보(1b)를 인식하여 텍스트 정보로 변환하기 위해서, 음성 특징에 대한 확률적 분포를 추정하고, 이를 인식 과정에 이용하는 다양한 음성 인식 알고리즘이 본원의 수술 영상 가공 장치(100)에 적용될 수 있고, 이와 관련하여 다양한 종류의 확률 기반 음향 모델링 알고리즘에 대해 공지되어 있다. 예를 들어, 확률 기반 음향 모델링 알고리즘으로 은닉 마르코프 모델(Hidden Markov Model, HMM) 등이 적용될 수 있다.
또한, 본원의 일 실시예에 따르면, 수술 영상 가공 장치(100)는 미리 설정된 마커 정보가 획득된 화상 정보(1a) 및 음성 정보(1b) 중 적어도 하나에 기초하여 수신된 수술 영상으로부터 식별되면, 식별된 마커 정보에 대응하는 영상 구간에서의 음성 정보(1b)를 선택적으로 텍스트 정보로 변환할 수 있다.
이와 관련하여, 수술 영상에 대한 음성 정보(1b)에는 수술 기법, 수술 행위, 수술 도구 등 수술의 진행과 밀접한 관련이 있는 발화가 포함될 수 있는 반면, 소음, 수술 개시 전의 준비 단계에서 수술의 진행과 무관하게 이루어지는 발화 등 수술의 진행과 관련도가 낮은 발화 역시 포함될 수 있다. 따라서, 수술 영상 가공 장치(100)는 미리 설정된 마커 정보의 식별 여부를 기초로 화상 정보(1a) 상에 오버레이 되는 형태로 삽입될 수 있는 자막을 생성하기 위하여 음성 정보(1b)를 텍스트로 변환할 영상 구간을 결정함으로써, 수술의 진행과 밀접한 관련이 있는 발화를 선별하여 텍스트 변환하고, 이를 기초로 자막을 생성할 수 있다.
본원의 일 실시예에 따르면, 화상 정보(1a)와 관련하여 마커 정보는 화상 정보(1a)로부터 식별될 수 있는 소정의 객체, 소정의 주체에 의해 수행되는 미리 설정된 제스처(행위) 등을 포함할 수 있다. 예를 들어, 화상 정보(1a)에서 마커 정보로 기능할 수 있는 소정의 객체는 수술 환경에서 사용 가능한 수술포, 수술 도구, 수술 조명 등을 포함할 수 있다. 이와 관련하여, 수술 영상 가공 장치(100)는 수술 환경에서 사용 가능한 소정의 객체의 등장 유무, 동작(온오프) 여부 등을 기초로 음성 정보(1b)를 텍스트로 변환할 영상 구간을 식별할 수 있다.
또한, 본원의 일 실시예에 따르면, 음성 정보(1b)와 관련하여 마커 정보는 음성 정보(1b)로부터 식별될 수 있는 미리 설정된 발화(문장, 음절, 어절 등), 음향 패턴 등을 포함할 수 있다. 이해를 돕기 위해 예시하면, 음성 정보(1b)와 관련한 마커 정보는 미리 설정된 개시(initiation) 발화(예를 들면, "녹음 시작"), 미리 설정된 중지(stop) 발화(예를 들면, "녹음 종료" 등)를 포함할 수 있다.
또한, 본원의 일 실시예에 따르면, 음성 정보(1b)를 텍스트 변환할 영상 구간을 선택하기 위해 식별되는 마커 정보는 수술에 관여하는 복수의 주체 중 '주 수술자'인 주체에 대하여 식별되는 것일 수 있다. 예를 들어, 수술 영상 가공 장치(100)는 주 수술자의 화상적 및 음성적 특징을 미리 보유하고 수술 영상에 등장하는 복수의 주체 중 주 수술자에 의해 수행된 제스처 또는 발화를 선택적으로 식별함으로써 마커 정보의 유무를 탐색하는 것일 수 있다.
또한, 본원의 일 실시예에 따르면, 수술 영상 가공 장치(100)는 화상 정보(1a) 및 음성 정보(1b)가 별개의 디바이스로 동작하는 녹화 장치(210) 및 녹음 장치(220)로부터 개별적으로 획득된 경우, 화상 정보(1a) 및 음성 정보(1b)를 시계열적으로 동기화(Syncronization)할 수 있다. 예시적으로, 수술 영상 가공 장치(100)는 전술한 마커 정보가 화상 정보(1a) 및 음성 정보(1b)로부터 각각 식별되는 시점을 기초로 하여 화상 정보(1a) 및 음성 정보(1b)를 동기화(Syncronization)하는 것일 수 있다.
또한, 수술 영상 가공 장치(100)는 수신된 수술 영상과 연계된 수술 유형 정보, 수술자 정보 및 수술 대상자 정보 중 적어도 하나를 포함하는 수술 정보를 고려하여 음성 정보(1b)를 텍스트 정보로 변환할 수 있다.
여기서, 수술자 정보는 수술에 참여한 주 수술자, 수술 보조자 등의 성명, 직함 등의 인적 사항을 미리 확보한 것을 의미할 수 있으며, 수술자 정보를 고려하여 음성 정보(1b)를 텍스트 정보로 변환한다는 것은 예시적으로, 수술에 참여하는 주체 각각이 서로를 지칭하는 발화 등을 미리 확보된 수술자 정보에 기초하여 파악하고, 이를 텍스트화 함으로써 음성 정보(1b)가 높은 정확도로 텍스트 변환되도록 하는 것을 의미할 수 있다.
또한, 수술 대상자 정보는 수술을 받는 수술 대상자의 성명, 연령, 질병 유무, 병력 등의 인적 사항을 미리 확보한 것을 의미할 수 있으며, 수술 대상자 정보와 수술 유형 정보를 고려하여 음성 정보(1b)를 텍스트 정보로 변환한다는 것은 예시적으로, 소정의 수술 유형 정보 및 수술 대상자 정보를 고려하여 수행될 수 있는 수술 행위의 명칭이나, 소정의 수술 유형 정보 및 수술 대상자 정보를 고려하여 사용될 수 있는 수술 도구의 명칭 등을 보다 높은 확률로 식별하여 텍스트화 할 수 있도록 미리 확보된 수술 대상자 정보 및 수술 유형 정보를 고려하여 획득된 음성 정보(1b)에 대응할 확률이 높은 텍스트를 선별하여 텍스트 정보를 생성하는 것을 의미할 수 있다.
또한, 수술 영상 가공 장치(100)는 수신된 화상 정보(1b)에 기초하여 식별되는 수술 부위 정보, 수술 도구 정보 및 수술 행위 정보 중 적어도 하나를 포함하는 상태 정보를 고려하여 음성 정보(1b)를 텍스트 정보로 변환할 수 있다.
도 2는 화상 정보에 기초하여 식별되는 수술 부위 정보를 예시적으로 나타낸 도면이고, 도 3은 화상 정보에 기초하여 식별되는 수술 도구 정보와 수술 행위 정보를 예시적으로 나타낸 도면이다.
도 2 및 도 3을 참조하면, 본원의 일 실시예에 따른 수술 영상 가공 장치(100)는 수신된 화상 정보(1b)로부터 수술 부위 정보에 대응하는 해부학적 구조물, 수술 도구 등의 객체를 식별할 수 있는 화상 분석 알고리즘을 보유할 수 있다. 예시적으로, 수술 영상 가공 장치(100)는 의미론적 영역 분할(Semantic Segmentation)을 수행하도록 학습된 인공지능 기반의 화상 분석 알고리즘을 통해 미리 설정된 클래스(Class)에 대응하도록 화상 정보(1b) 내의 등장 객체를 식별할 수 있다.
예시적으로, 도 2의 (b) 및 도 3의 (b)를 참조하면, 수술 영상 가공 장치(100)는 소정의 클래스(Class)에 대응하는 색상을 화상 정보(1b)에 기반하여 표시함으로써 식별된 객체를 나타낼 수 있다.
또한, 도 3을 참조하면, 본원의 일 실시예에 따른 수술 영상 가공 장치(100)는 수신된 시계열적으로 연속하는 복수의 프레임에서의 화상 정보(1b)를 기초로 수술 도구의 움직임(궤적), 수술 부위에 대응하는 해부학적 구조물의 형상 변화, 특정 이벤트의 발생 여부(예를 들면, 출혈 발생 유무, 연기 발생 유무, 불꽃 발생 여부 등) 등을 파악하여 수술 행위 정보를 획득할 수 있다.
또한, 수술 영상 가공 장치(100)가 수술 부위 정보, 수술 도구 정보 및 수술 행위 정보 중 적어도 하나를 포함하는 상태 정보를 고려하여 음성 정보(1b)를 텍스트 정보로 변환한다는 것은, 화상 정보(1a)에 대한 분석을 통해 식별된 수술 부위, 수술 도구, 수술 행위 등에 매칭되는 단어나 표현이 획득된 음성 정보(1a)에 대응하여 변환될 텍스트 정보와 관련성이 있을 확률이 높은 것으로 취급하여, 화상 정보(1a)로부터 파악 가능한 현재의 수술 상황과 연계하여 음성 정보(1b)를 보다 높은 정확도로 텍스트 변환하는 것을 의미할 수 있다.
종합하면, 수술 영상 가공 장치(100)는 음성 정보(1b)가 수술 영상에 담긴 수술에 대한 미리 확보된 제반 사항(수술 정보)와 해당 음성 정보(1b)가 획득된 상황에서 진행되는 중인 수술 진행 상황에 대한 사항(상태 정보)를 고려한 음성-텍스트 변환을 수행함으로써 음성 정보(1b)가 수술 상황에 부합하는 보다 정확한 내용의 텍스트로 변환되도록 수술 정보 및 상태 정보 중 적어도 하나를 고려하여 음성 정보(1b)에 대응하여 변환되는 텍스트 정보를 결정할 수 있다.
또한, 본원의 일 실시예에 따르면, 음성 정보(1b)는 주 수술자의 음성 정보인 제1음성 정보 및 수술 보조자의 음성 정보인 제2음성 정보를 포함하고, 수술 영상 가공 장치(100)는 제1음성 정보 및 제2음성 정보를 각각 구분하여 식별하고, 식별된 제1음성 정보 및 제2음성 정보를 별개의 텍스트 정보로 변환할 수 있다.
구체적으로, 제1음성 정보에 대응하여 변환된 텍스트 정보에는 주 수술자의 음성에 대응하여 변환된 텍스트임을 의미하는 식별자가 부여되고, 제2음성 정보에 대응하여 변환된 텍스트 정보에는 수술 보조자의 음성에 대응하여 변환된 텍스트임을 의미하는 식별자가 부여되어 후술하는 타겟 텍스트 정보의 선별 프로세스, 자막 삽입 방식 결정 프로세스, 색인 정보 생성 프로세스, 수술 영상 검색 프로세스, 검색된 대상 수술 영상(2)의 재생 프로세스 등이 주 수술자의 음성과 수술 보조자의 음성에 대하여 각기 구분되는 양태로 수행될 수 있으며, 이에 해당하는 구체적인 사항은 후술하도록 한다.
또한, 수술 영상 가공 장치(100)는 변환된 텍스트 정보 중 수술 영상에 자막으로 삽입될 타겟 텍스트 정보를 선별할 수 있다. 여기서, 타겟 텍스트 정보란 수술 영상 가공 장치(100)에 의해 가공이 완료된 대상 수술 영상(2)에서 화상 정보(1a)에 오버레이 되는 자막에 포함될 텍스트를 1차적으로 음성 정보(1b)로부터 단순 변환된 텍스트 정보 중에서 선별한 것을 의미할 수 있다.
구체적으로, 수술 영상 가공 장치(100)는 수술 영상과 연계된 수술 유형 정보, 수술자 정보 및 수술 대상자 정보 중 적어도 하나를 포함하는 수술 정보를 고려하여 1차로 변환된 텍스트 정보 중에서 타겟 텍스트 정보를 선별할 수 있다.
또한, 수술 영상 가공 장치(100)는 화상 정보(1b)에 기초하여 식별되는 수술 부위 정보, 수술 도구 정보 및 수술 행위 정보 중 적어도 하나를 포함하는 상태 정보를 고려하여 1차로 변환된 텍스트 정보 중에서 타겟 텍스트 정보를 선별할 수 있다.
즉, 수술 영상 가공 장치(100)는 변환된 텍스트 정보 중 수술 정보 및 상태 정보 중 적어도 하나를 고려할 때 영상 내에 자막으로 삽입될 정도로 중요도가 높은 것으로 판단되는 텍스트를 타겟 텍스트 정보로 선별할 수 있다.
예시적으로, 수술 영상 가공 장치(100)는 수술 정보 및 상태 정보를 고려하여 수술 진행 단계, 수술 행위(기법), 수술 방법론, 주요 해부학적 구조물, 수술 중 발생 가능한 합병증, 투여 약품 등과 연계된 사항과 관련도가 높은 내용에 대한 텍스트 정보를 타겟 텍스트 정보로서 선별할 수 있다.
또한, 본원의 일 실시예에 따르면, 수술 영상 가공 장치(100)는 주 수술자의 음성 정보(1b)인 제1음성 정보가 미리 설정된 시간 구간 이상 지속되는 것(발화와 발화 사이에 허용 범위 내의 간격이 존재하는 경우를 포함한다.)으로 판단된 구간이 존재하는 경우, 해당 구간에서 확보된 제1음성 정보를 변환한 텍스트 정보는 타겟 텍스트 정보에 포함되도록 할 수 있다.
이와 관련하여, 수술 영상 가공 장치(100)는 주 수술자가 대상 수술 영상(2)을 수술 술기 교육 등의 교육용 목적으로 활용할 수 있도록 음성을 통해 수술과 연계된 사항을 설명하면서 수술을 진행한 것으로 판단되면, 해당 설명 구간에 대응하여 확보된 음성 정보(제1음성 정보)에 대응하여 변환된 텍스트 정보는 전부 타겟 텍스트 정보로서 자막에 반영되도록 하여 대상 수술 영상(2)을 시청하는 사용자에게 주 수술자가 목적한 설명 사항이 빠짐없이 전달되도록 하는 자막을 생성할 수 있다.
또한, 수술 영상 가공 장치(100)는 화상 정보(1a)에 선별된 타겟 텍스트 정보를 기초로 한 자막을 삽입할 수 있다. 달리 말해, 수술 영상 가공 장치(100)는 선별된 타겟 텍스트 정보에 대응하는 음성 정보(1b)의 타이밍에 맞추어 해당 타겟 텍스트 정보에 기초하여 생성된 자막을 화상 정보(1a)에 오버레이 하여 대상 수술 영상(2)을 생성할 수 있다.
또한, 본원의 일 실시예에 따르면, 수술 영상 가공 장치(100)는 수술 정보 및 상태 정보 중 적어도 하나를 고려하여 화상 정보(1a)에 대한 자막의 삽입(오버레이) 방식을 결정할 수 있다.
예를 들어, 수술 영상 가공 장치(100)는 타겟 텍스트 정보에 기초하여 생성된 자막을 기본 위치(예를 들면, 화상 정보(1a)의 중앙 하단 등)에 오버레이 하되, 또한, 수술 부위 정보와 관련된 타겟 텍스트 정보에 기초하여 생성된 자막은 해당 수술 부위 정보와 매칭되는 화상 정보(1a) 내의 소정의 위치(예를 들면, 해당 수술 부위를 나타내는 해부학적 구조물이 등장하는 위치 주변부 등)에 배치되도록 오버레이 할 수 있다. 다른 예로, 수술 행위 정보와 관련된 타겟 텍스트 정보에 기초하여 생성된 자막은 해당 수술 행위가 이루어지는 것으로 식별된 화상 정보(1a) 내의 영역 주변부에 배치되도록 오버레이 할 수 있다.
또한, 본원의 일 실시예에 따르면, 수술 영상 가공 장치(100)는 선별된 타겟 텍스트 정보에 기초하여 생성된 수술 진행 단계 또는 수술 행위(기법)를 나타내는 자막을 해당 수술 진행 단계 또는 수술 행위(기법)가 진행되는 영상 구간 동안 화상 정보(1a)의 외곽 영역(예를 들면, 수술 영상의 시청을 방해하지 않는 좌측 상단 또는 우측 상단 등의 영역)에 지속적으로 노출되도록 자막을 삽입할 수 있다.
예시적으로, 제1단계 내지 제n단계로 구분될 수 있는 수술 진행 단계를 포함하여 진행된 수술 영상에 대하여, 수술 영상 가공 장치(100)는 각각의 수술 진행 단계를 나타내는 타겟 텍스트 정보를 자막화하여 삽입하되, 수술 영상에 대한 음성 분석 및 화상 분석 중 적어도 하나에 기초하여 각각의 수술 진행 단계에 대응하는 영상 구간을 식별하여, 수술 진행 단계를 나타내는 타겟 텍스트 정보를 대응하는 영상 구간마다 유지하도록 할 수 있다. 달리 말해, 제1단계가 진행되는 동안 대상 수술 영상(2)에서는 제1단계를 나타내는 타겟 텍스트 정보를 기초로 한 자막이 외곽 영역에 지속 노출되며, 제1단계에 대응하는 영상 구간이 지나가고, 수술 진행 상태가 제2단계로 전환된 것으로 판단된 경우, 대상 수술 영상(2)에서는 제1단계를 나타내는 타겟 텍스트 정보를 기초로 한 자막이 외곽 영역에 지속 노출되는 것일 수 있다.
또한, 수술 정보 및 상태 정보를 고려하여 파악되는 타겟 텍스트 정보 별 중요도를 고려하여 중요도가 높은 타겟 텍스트 정보에 대응하여 생성된 자막은 서체, 글자 크기, 명도, 대비 등을 조정하여 시인성이 높은 형태로 삽입되도록 가공할 수 있다.
또한, 본원의 일 실시예에 따르면, 수술 영상 가공 장치(100)는 주 수술자에 의한 제1음성 정보와 연계된 타겟 텍스트 정보와 수술 보조자에 의한 제2음성 정보와 연계된 타겟 텍스트 정보가 서체, 글자 크기, 명도, 대비, 색상 등에 기초하여 구분되어 표시되도록 자막을 삽입할 수 있다.
또한, 본원의 일 실시예에 따르면, 수술 영상 가공 장치(100)는 제1음성 정보 및 제2음성 정보 중 어느 하나와 연계된 타겟 텍스트 정보만을 대상 수술 영상(2)에 자막으로 삽입할 수 있다. 예를 들어, 수술 영상 가공 장치(100)는 미리 설정된 사용자 설정에 기초하여 주 수술자에 의한 음성 만을 자막화 하여 삽입하거나 보조 수술자에 의한 음성 만을 자막화 하여 삽입할 수 있다. 다른 예로, 수술 영상 가공 장치(100)는 후술하는 수술 영상 검색 입력에 포함된 자막 유형 선택 정보에 기초하여 주 수술자에 의한 음성으로부터 생성된 자막 및/또는 보조 수술자에 의한 음성으로부터 생성된 자막을 선택적으로 오버레이 하여 대상 수술 영상(2)을 사용자 단말(300) 등으로 제공할 수 있다.
또한, 본원의 일 실시예에 따르면, 수술 영상 가공 장치(100)는 타겟 텍스트 정보가 외국어인 의학 용어를 포함하는 경우, 의학 용어의 외국어 표기와 함께 국문 음역 및 국문 번역 중 적어도 하나를 부가하여 자막을 생성할 수 있다. 예시적으로, 외국어인 의학 용어를 포함하는 타겟 텍스트 정보에 기초하여 생성되는 자막은 "외국어 표기(국문 음역, 국문 번역)" 형태, "외국어 표기(국문 음역 또는 국문 번역)" 형태 등으로 가공되는 것일 수 있다. 보다 이해를 돕기 위해 예시하면, 외국어인 의학 용어를 포함하는 타겟 텍스트 정보인 ligation에 대응하여 삽입되는 자막은 "ligation(라이게이션, 결찰)" 또는 "ligation(결찰)" 등의 형태로 결정될 수 있다.
이와 관련하여, 수술 영상 가공 장치(100)는 미리 구축된 의학 용어 데이터베이스(미도시)를 참조하여 외국어인 의학 용어를 식별하고, 이에 대응하는 국문 음역 및 국문 번역 중 적어도 하나를 결정하여 자막화하는 것일 수 있다.
또한, 본원의 일 실시예에 따르면, 수술 영상 가공 장치(100)는 의학 용어 데이터베이스(미도시)를 참조하여, 난이도가 미리 설정된 수준 이상 높은 의학 용어를 포함하는 타겟 텍스트 정보가 생성된 경우, 해당 타겟 텍스트 정보에 대응하는 자막과 함께 해당 의학 용어와 연계된 부가 정보를 화상 정보(1a) 상에 추가로 오버레이 하여 대상 수술 영상(2)을 생성할 수 있다. 예시적으로, 화상 정보(1a) 상에 오버레이 될 수 있는 부가 정보란 해당 의학 용어에 대한 간략한 설명, 의학 용어에 대한 구체적인 정보를 획득할 수 있는 웹 페이지 링크, 영상 링크 등을 포함할 수 있다.
또한, 수술 영상 가공 장치(100)는 대상 수술 영상(2)에 삽입된 자막에 기초하여 색인(Index) 정보를 생성할 수 있다. 여기서, 색인 정보란 수술 영상 스토리지(미도시)에 수술 영상 가공 장치(100)에 의해 가공된 후 저장되는 다수의 수술 영상 중에서 대상 수술 영상(2)을 검색할 수 있도록 부여되는 식별자를 의미하며, 예시적으로, 수술 영상 가공 장치(100)는 삽입된 자막에 대응하는 타겟 텍스트 정보 중 수술 진행 단계, 수술 행위(기법), 수술 방법론, 주요 해부학적 구조물, 수술 중 발생 가능한 합병증, 투여 약품 등 진행된 수술과 연계된 주요 정보에 대응되는 타겟 텍스트 정보를 색인 정보로 부여할 수 있다.
구체적으로, 수술 영상 가공 장치(100)는 전술한 주요 정보에 대응되는 타겟 텍스트 정보를 명사형으로 변환하고, 명사형으로 변환된 주요 정보에 대응되는 타겟 텍스트 정보에 대하여 매칭되는 식별자(일련코드, 일련번호 등)를 할당하여 대상 수술 영상(2)을 수술 영상 스토리지(미도시)에 저장할 수 있다.
예시적으로, 화상 정보 (1a), 음성 정보(1b) 및 자막이 결합된 대상 수술 영상(2)은 하드디스크(HDD), SSD 등과 같은 저장 매체 혹은 스토리지 서버 등에 저장될 수 있으나, 이에만 한정되는 것은 아니다.
색인 정보에 따른 대상 수술 영상(2)의 분류와 관련하여, 예를 들면, 수술 정보에 포함된 수술 부위 정보(예를 들면, 심장, 위장, 간 등의 수술 대상 장기 등)에 따라 대상 수술 영상(2)이 부위별로 1차 분류되고, 어느 하나의 수술 부위 분류(예를 들면, 심장 등) 내에서 재차 병명에 따라 재차 분류(A, B, C)되는 것일 수 있다. 또한, 어느 하나의 병명(예를 들면, 'A' 병명) 분류 내에서 수술 방법(기법)에 따라 분류(a, b, c)되는 것일 수 있다.
구체적으로 예시하면, 대상 수술 영상(2)에 삽입된 자막이 수술방법 'a'에 대응하는 경우, 대상 수술 영상(2)을 '심장-A-a'의 분류에 대응하는 색인 정보를 포함하도록 저장할 수 있다. 다만, 영상 분류 또는 색인 정보의 할당 기준은 위에서 설명한 예시로 한정되지 않으며, 사용자는 직접 분류 기준을 설정할 수 있으며, 부위-병명-기법 외에도, 본원의 구현예에 따라 추가 분류에 대한 색인 정보가 확장된 계층 구조에 기반하여 할당될 수 있다.
또한, 수술 영상 가공 장치(100)는 수술 영상 검색 입력을 수신할 수 있다. 예시적으로, 수술 영상 가공 장치(100)는 수술 영상 검색 입력을 사용자 단말(300)로부터 수신하는 것일 수 있으나, 이에만 한정되는 것은 아니고, 수술 영상 검색 입력을 인가할 수 있는 입력 수단을 구비한 수술 영상 가공 장치(100)의 경우, 자체적으로 수술 영상 검색 입력을 수신하는 것일 수 있다.
또한, 수술 영상 가공 장치(100)는 수신된 검색 입력에 대응하는 색인 정보가 반영되어 저장된 수술 영상(자막이 삽입된 수술 영상인 대상 수술 영상(2) 등)을 사용자 단말(300)을 통해 제공하거나 자체적으로 제공(재생)할 수 있다.
도 4는 본원의 일 실시예에 따른 음성 인식 기반의 수술 영상 가공 장치의 개략적인 구성도이다.
도 4를 참조하면, 수술 영상 가공 장치(100)는, 영상 수신부(110), 텍스트 변환부(120), 텍스트 선별부(130), 자막 삽입부(140), 영상 저장부(150) 및 영상 검색부(160)를 포함할 수 있다.
영상 수신부(110)는, 화상 정보(1a) 및 음성 정보(1b)를 포함하는 수술 영상을 수신할 수 있다.
텍스트 변환부(120)는, 수신된 음성 정보(1b)를 텍스트 정보로 변환할 수 있다.
또한, 텍스트 변환부(120)는, 미리 설정된 마커 정보가 화상 정보(1a) 및 음성 정보(1b) 중 적어도 하나에 기초하여 수술 영상으로부터 식별되면, 마커 정보에 대응하는 영상 구간에서의 음성 정보(1b)를 선택적으로 텍스트 정보로 변환할 수 있다.
텍스트 선별부(130)는, 변환된 텍스트 정보 중 수술 영상에 자막으로 삽입될 타겟 텍스트 정보를 선별할 수 있다.
또한, 텍스트 선별부(130)는, 수술 영상과 연계된 수술 유형 정보, 수술자 정보 및 수술 대상자 정보 중 적어도 하나를 포함하는 수술 정보 및 화상 정보(1a)에 기초하여 식별되는 수술 부위 정보, 수술 도구 정보 및 수술 행위 정보 중 적어도 하나를 포함하는 상태 정보 중 적어도 하나를 고려하여 타겟 텍스트 정보를 선별할 수 있다.
자막 삽입부(140)는, 화상 정보(1a)에 선별된 타겟 텍스트 정보를 기초로 한 자막을 삽입할 수 있다.
영상 저장부(150)는, 삽입된 자막에 기초하여 색인 정보를 생성하고, 생성된 색인 정보를 반영하여 대상 수술 영상(2)을 저장할 수 있다.
영상 검색부(160)는 수술 영상 검색 입력을 수신하고, 수신된 검색 입력에 대응하는 색인 정보가 반영되어 저장된 수술 영상을 제공할 수 있다.
이하에서는 상기에 자세히 설명된 내용을 기반으로, 본원의 동작 흐름을 간단히 살펴보기로 한다.
도 5는 본원의 일 실시예에 따른 음성 인식 기반의 수술 영상 가공 방법에 대한 동작 흐름도이다.
도 5에 도시된 음성 인식 기반의 수술 영상 가공 방법은 앞서 설명된 수술 영상 가공 장치(100)에 의하여 수행될 수 있다. 따라서, 이하 생략된 내용이라고 하더라도 수술 영상 가공 장치(100)에 대하여 설명된 내용은 음성 인식 기반의 수술 영상 가공 방법에 대한 설명에도 동일하게 적용될 수 있다.
도 5를 참조하면, 단계 S11에서 영상 수신부(110)는, 화상 정보(1a) 및 음성 정보(1b)를 포함하는 수술 영상을 수신할 수 있다.
다음으로, 단계 S12에서 텍스트 변환부(120)는, 수신된 음성 정보(1b)를 텍스트 정보로 변환할 수 있다.
구체적으로, 단계 S12에서 텍스트 변환부(120)는, 미리 설정된 마커 정보가 화상 정보(1a) 및 음성 정보(1b) 중 적어도 하나에 기초하여 수신된 수술 영상으로부터 식별되면, 식별된 마커 정보에 대응하는 영상 구간에서의 음성 정보(1b)를 선택적으로 텍스트 정보로 변환할 수 있다.
또한, 단계 S12에서 텍스트 변환부(120)는, 수술 정보 및 상기 상태 정보 중 적어도 하나를 고려하여 음성 정보(1b)에 대응하여 변환되는 텍스트 정보를 결정할 수 있다.
다음으로, 단계 S13에서 텍스트 선별부(130)는, 변환된 텍스트 정보 중 수술 영상에 자막으로 삽입될 타겟 텍스트 정보를 선별할 수 있다.
또한, 단계 S13에서 텍스트 선별부(130)는, 수술 영상과 연계된 수술 유형 정보, 수술자 정보 및 수술 대상자 정보 중 적어도 하나를 포함하는 수술 정보를 고려하여 타겟 텍스트 정보를 선별할 수 있다.
또한, 단계 S13에서 텍스트 선별부(130)는, 화상 정보에 기초하여 식별되는 수술 부위 정보, 수술 도구 정보 및 수술 행위 정보 중 적어도 하나를 포함하는 상태 정보를 고려하여 타겟 텍스트 정보를 선별할 수 있다.
다음으로, 단계 S14에서 자막 삽입부(140)는, 화상 정보(1a)에 선별된 타겟 텍스트 정보를 기초로 한 자막을 삽입할 수 있다.
또한, 단계 S14에서 자막 삽입부(140)는, 수술 정보 및 상태 정보 중 적어도 하나를 고려하여 화상 정보(1a)에 대한 자막의 삽입 방식을 결정할 수 있다.
다음으로, 단계 S15에서 영상 저장부(150)는, 삽입된 자막에 기초하여 색인 정보를 생성할 수 있다.
다음으로, 단계 S16에서 영상 저장부(150)는, 생성된 색인 정보를 반영하여 대상 수술 영상(2)을 저장할 수 있다.
상술한 설명에서, 단계 S11 내지 S16은 본원의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
도 6은 음성 인식에 기반하여 자막이 삽입된 대상 수술 영상을 제공하는 프로세스에 대한 세부 동작 흐름도이다.
도 6에 도시된 음성 인식에 기반하여 자막이 삽입된 대상 수술 영상을 제공하는 프로세스는 앞서 설명된 수술 영상 가공 장치(100)에 의하여 수행될 수 있다. 따라서, 이하 생략된 내용이라고 하더라도 수술 영상 가공 장치(100)에 대하여 설명된 내용은 도 6에 대한 설명에도 동일하게 적용될 수 있다.
도 6을 참조하면, 단계 S21에서 영상 검색부(160)는, 수술 영상 검색 입력을 수신할 수 있다. 예를 들면, 단계 S21에서 영상 검색부(160)는 사용자 단말(300)로부터 수술 영상 검색 입력을 수신할 수 있으나, 이에만 한정되는 것은 아니다.
다음으로, 단계 S22에서 영상 검색부(160)는, 검색 입력에 대응하는 색인 정보가 반영되어 저장된 수술 영상을 제공할 수 있다.
상술한 설명에서, 단계 S21 내지 S22는 본원의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
본원의 일 실시예에 따른 음성 인식 기반의 수술 영상 가공 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
또한, 전술한 음성 인식 기반의 수술 영상 가공 방법은 기록 매체에 저장되는 컴퓨터에 의해 실행되는 컴퓨터 프로그램 또는 애플리케이션의 형태로도 구현될 수 있다.
전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.
10: 수술 영상 관리 시스템
100: 음성 인식 기반의 수술 영상 가공 장치
110: 영상 수신부
120: 텍스트 변환부
130: 텍스트 선별부
140: 자막 삽입부
150: 영상 저장부
160: 영상 검색부
200: 수술 영상 생성 장치
300: 사용자 단말
20: 네트워크
1a: 화상 정보
1b: 음성 정보

Claims (15)

  1. 음성 인식 기반의 수술 영상 가공 방법에 있어서,
    화상 정보 및 음성 정보를 포함하는 수술 영상을 수신하는 단계;
    상기 음성 정보를 텍스트 정보로 변환하는 단계;
    상기 변환된 텍스트 정보 중 상기 수술 영상에 자막으로 삽입될 타겟 텍스트 정보를 선별하는 단계; 및
    상기 화상 정보에 상기 선별된 타겟 텍스트 정보를 기초로 한 자막을 삽입하는 단계,
    를 포함하는, 수술 영상 가공 방법.
  2. 제1항에 있어서,
    상기 텍스트 정보로 변환하는 단계는,
    미리 설정된 마커 정보가 상기 화상 정보 및 상기 음성 정보 중 적어도 하나에 기초하여 상기 수술 영상으로부터 식별되면, 상기 마커 정보에 대응하는 영상 구간에서의 상기 음성 정보를 선택적으로 상기 텍스트 정보로 변환하는 것인, 수술 영상 가공 방법.
  3. 제1항에 있어서,
    상기 타겟 텍스트 정보를 선별하는 단계는,
    상기 수술 영상과 연계된 수술 유형 정보, 수술자 정보 및 수술 대상자 정보 중 적어도 하나를 포함하는 수술 정보를 고려하여 상기 타겟 텍스트 정보를 선별하는 것인, 수술 영상 가공 방법.
  4. 제3항에 있어서,
    상기 타겟 텍스트 정보를 선별하는 단계는,
    상기 화상 정보에 기초하여 식별되는 수술 부위 정보, 수술 도구 정보 및 수술 행위 정보 중 적어도 하나를 포함하는 상태 정보를 더 고려하여 상기 타겟 텍스트 정보를 선별하는 것인, 수술 영상 가공 방법.
  5. 제4항에 있어서,
    상기 텍스트 정보로 변환하는 단계는,
    상기 수술 정보 및 상기 상태 정보 중 적어도 하나를 고려하여 상기 음성 정보에 대응하여 변환되는 상기 텍스트 정보를 결정하는 것인, 수술 영상 가공 방법.
  6. 제1항에 있어서,
    상기 음성 정보는,
    주 수술자의 음성 정보인 제1음성 정보 및 수술 보조자의 음성 정보인 제2음성 정보를 포함하고,
    상기 텍스트 정보로 변환하는 단계는,
    상기 제1음성 정보 및 상기 제2음성 정보를 각각 텍스트 정보로 변환하는 것인, 수술 영상 가공 방법.
  7. 제6항에 있어서,
    상기 자막을 삽입하는 단계는,
    상기 제1음성 정보와 연계된 타겟 텍스트 정보와 상기 제2음성 정보와 연계된 타겟 텍스트 정보가 구분되어 표시되도록 상기 자막을 삽입하는 것인, 수술 영상 가공 방법.
  8. 제5항에 있어서,
    상기 자막을 삽입하는 단계는,
    상기 수술 정보 및 상기 상태 정보 중 적어도 하나를 고려하여 상기 화상 정보에 대한 상기 자막의 삽입 방식을 결정하는 것인, 수술 영상 가공 방법.
  9. 제1항에 있어서,
    상기 자막에 기초하여 색인 정보를 생성하는 단계; 및
    상기 색인 정보를 반영하여 상기 수술 영상을 저장하는 단계,
    를 더 포함하는 것인, 수술 영상 가공 방법.
  10. 제9항에 있어서,
    수술 영상 검색 입력을 수신하는 단계; 및
    상기 검색 입력에 대응하는 상기 색인 정보가 반영되어 저장된 상기 수술 영상을 제공하는 단계,
    를 더 포함하는 것인, 수술 영상 가공 방법.
  11. 음성 인식 기반의 수술 영상 가공 장치에 있어서,
    화상 정보 및 음성 정보를 포함하는 수술 영상을 수신하는 영상 수신부;
    상기 음성 정보를 텍스트 정보로 변환하는 텍스트 변환부;
    상기 변환된 텍스트 정보 중 상기 수술 영상에 자막으로 삽입될 타겟 텍스트 정보를 선별하는 텍스트 선별부; 및
    상기 화상 정보에 상기 선별된 타겟 텍스트 정보를 기초로 한 자막을 삽입하는 자막 삽입부,
    를 포함하는, 수술 영상 가공 장치.
  12. 제11항에 있어서,
    상기 텍스트 변환부는,
    미리 설정된 마커 정보가 상기 화상 정보 및 상기 음성 정보 중 적어도 하나에 기초하여 상기 수술 영상으로부터 식별되면, 상기 마커 정보에 대응하는 영상 구간에서의 상기 음성 정보를 선택적으로 상기 텍스트 정보로 변환하는 것인, 수술 영상 가공 장치.
  13. 제11항에 있어서,
    상기 텍스트 선별부는,
    상기 수술 영상과 연계된 수술 유형 정보, 수술자 정보 및 수술 대상자 정보 중 적어도 하나를 포함하는 수술 정보 및 상기 화상 정보에 기초하여 식별되는 수술 부위 정보, 수술 도구 정보 및 수술 행위 정보 중 적어도 하나를 포함하는 상태 정보 중 적어도 하나를 고려하여 상기 타겟 텍스트 정보를 선별하는 것인, 수술 영상 가공 장치.
  14. 제13항에 있어서,
    상기 텍스트 변환부는,
    상기 수술 정보 및 상기 상태 정보 중 적어도 하나를 고려하여 상기 음성 정보에 대응하여 변환되는 상기 텍스트 정보를 결정하는 것인, 수술 영상 가공 장치.
  15. 제11항에 있어서,
    상기 자막에 기초하여 색인 정보를 생성하고, 상기 색인 정보를 반영하여 상기 수술 영상을 저장하는 영상 저장부; 및
    수술 영상 검색 입력을 수신하고, 상기 검색 입력에 대응하는 상기 색인 정보가 반영되어 저장된 상기 수술 영상을 제공하는 영상 검색부,
    를 더 포함하는, 수술 영상 가공 장치.
KR1020200144962A 2020-11-03 2020-11-03 음성 인식 기반의 수술 영상 가공 장치 및 방법 KR102593296B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200144962A KR102593296B1 (ko) 2020-11-03 2020-11-03 음성 인식 기반의 수술 영상 가공 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200144962A KR102593296B1 (ko) 2020-11-03 2020-11-03 음성 인식 기반의 수술 영상 가공 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20220059613A true KR20220059613A (ko) 2022-05-10
KR102593296B1 KR102593296B1 (ko) 2023-10-23

Family

ID=81591569

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200144962A KR102593296B1 (ko) 2020-11-03 2020-11-03 음성 인식 기반의 수술 영상 가공 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102593296B1 (ko)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006218229A (ja) * 2005-02-14 2006-08-24 Olympus Corp 医療支援システム
JP2011167301A (ja) * 2010-02-17 2011-09-01 Asahikawa Medical College 手術映像蓄積装置、手術映像蓄積方法、およびプログラム
KR20170099117A (ko) * 2016-02-23 2017-08-31 김덕석 수술 영상 검색 장치 및 방법
KR20180100841A (ko) * 2017-03-02 2018-09-12 조재형 의료 상담을 보조하기 위한 장치 및 방법
KR20200050262A (ko) * 2018-11-01 2020-05-11 주식회사 엠티이지 멀티미디어 수술기록 콘텐츠 생성 장치 및 방법
KR102111775B1 (ko) * 2018-06-25 2020-05-15 서울대학교 산학협력단 진료 데이터 수집 관리 시스템 및 방법
JP2020113004A (ja) * 2019-01-10 2020-07-27 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報処理装置、電子カルテ作成方法および電子カルテ作成プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006218229A (ja) * 2005-02-14 2006-08-24 Olympus Corp 医療支援システム
JP2011167301A (ja) * 2010-02-17 2011-09-01 Asahikawa Medical College 手術映像蓄積装置、手術映像蓄積方法、およびプログラム
KR20170099117A (ko) * 2016-02-23 2017-08-31 김덕석 수술 영상 검색 장치 및 방법
KR20180100841A (ko) * 2017-03-02 2018-09-12 조재형 의료 상담을 보조하기 위한 장치 및 방법
KR102111775B1 (ko) * 2018-06-25 2020-05-15 서울대학교 산학협력단 진료 데이터 수집 관리 시스템 및 방법
KR20200050262A (ko) * 2018-11-01 2020-05-11 주식회사 엠티이지 멀티미디어 수술기록 콘텐츠 생성 장치 및 방법
JP2020113004A (ja) * 2019-01-10 2020-07-27 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報処理装置、電子カルテ作成方法および電子カルテ作成プログラム

Also Published As

Publication number Publication date
KR102593296B1 (ko) 2023-10-23

Similar Documents

Publication Publication Date Title
US9298704B2 (en) Language translation of visual and audio input
EP3994683B1 (en) Multilingual neural text-to-speech synthesis
Schiel et al. The SmartKom Multimodal Corpus at BAS.
JP6663444B2 (ja) 視覚情報と聴覚情報の同期方法および情報処理装置
US20050210105A1 (en) Conference information processing apparatus, and conference information processing method and storage medium readable by computer
KR102111775B1 (ko) 진료 데이터 수집 관리 시스템 및 방법
Thompson Building a specialised audiovisual corpus
JP2007079397A (ja) 対話方法、対話装置、対話プログラムおよび記録媒体
US20140019132A1 (en) Information processing apparatus, information processing method, display control apparatus, and display control method
US20200242107A1 (en) Apparatus, method, and system of cognitive data blocks and links for personalization, comprehension, retention, and recall of cognitive contents of a user
JP2000231427A (ja) マルチモーダル情報解析装置
JP2018028562A (ja) 医用画像表示装置及び読影レポート作成支援装置
KR102153668B1 (ko) 키보드 매크로 기능을 활용한 자동 음성 인식기 및 음성 인식 방법
JP2017064853A (ja) ロボット、コンテンツ決定装置、コンテンツ決定方法、及びプログラム
KR102593296B1 (ko) 음성 인식 기반의 수술 영상 가공 장치 및 방법
Drummond et al. The multimodal annotation of gender differences in contemporary TV series
US20210383813A1 (en) Storage medium, editing support method, and editing support device
US20210390958A1 (en) Method of generating speaker-labeled text
Klessa et al. Paralingua–a new speech corpus for the studies of paralinguistic features
KR102148021B1 (ko) 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법 및 그 장치
US10521555B2 (en) Video-analysis tagging of healthcare services video record
JP2005025571A (ja) 業務支援装置、業務支援方法およびそのプログラム
KR20200028158A (ko) 다국어 음성 명령 서비스를 제공하는 미디어 재생 장치, 방법 및 컴퓨터 프로그램
JP2019213160A (ja) 動画編集装置、動画編集方法、及び動画編集プログラム
JP7313518B1 (ja) 評価方法、評価装置、および、評価プログラム

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant