KR102153668B1 - 키보드 매크로 기능을 활용한 자동 음성 인식기 및 음성 인식 방법 - Google Patents

키보드 매크로 기능을 활용한 자동 음성 인식기 및 음성 인식 방법 Download PDF

Info

Publication number
KR102153668B1
KR102153668B1 KR1020190135488A KR20190135488A KR102153668B1 KR 102153668 B1 KR102153668 B1 KR 102153668B1 KR 1020190135488 A KR1020190135488 A KR 1020190135488A KR 20190135488 A KR20190135488 A KR 20190135488A KR 102153668 B1 KR102153668 B1 KR 102153668B1
Authority
KR
South Korea
Prior art keywords
data
voice
template
transcription
transcription data
Prior art date
Application number
KR1020190135488A
Other languages
English (en)
Inventor
전하린
Original Assignee
주식회사 퍼즐에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 퍼즐에이아이 filed Critical 주식회사 퍼즐에이아이
Priority to KR1020190135488A priority Critical patent/KR102153668B1/ko
Priority to EP20880679.4A priority patent/EP4053837A4/en
Priority to CN202080074937.7A priority patent/CN114830230A/zh
Priority to PCT/KR2020/010359 priority patent/WO2021085811A1/ko
Priority to US17/772,962 priority patent/US11977812B2/en
Priority to JP2022525632A priority patent/JP2023501283A/ja
Application granted granted Critical
Publication of KR102153668B1 publication Critical patent/KR102153668B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0238Programmable keyboards
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04886Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures by partitioning the display area of the touch-screen or the surface of the digitising tablet into independently controllable areas, e.g. virtual keyboards or menus
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/63ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for local operation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • User Interface Of Digital Computer (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

본 발명은 키보드 매크로 기능을 활용한 자동 음성 인식기 및 음성 인식 방법에 관한 것으로, 전사 데이터 생성부가 마이크로 입력되는 음성 데이터에 기초하여 전사(transcription) 데이터를 생성하는 단계 및 라벨링부가 상기 생성된 전사 데이터에 매크로 기능을 수행하기 위해 기설정된 라벨링 대상 단어가 포함되면, 상기 생성된 전사 데이터에 라벨링하고 세션화하여 저장하는 단계, 상기 생성된 전사 데이터를 가상 키보드가 입력하는 방식으로 유틸리티 프로그램 상의 데이터 입력 가능한 공간에 표시하여 디스플레이 하는 단계를 포함하는 것을 특징으로 하는 키보드 매크로 기능을 활용한 자동 음성 인식 방법에 의해 의료 현장에서 전자의무기록, 수술기록지 작성 등 실제 환자 진료시에 진료 기록을 위해 손을 사용하기 힘든 상황에서 음성을 바로 텍스트 형태로 기록하여 편리한 자동 음성 인식기 및 음성 인식 방법을 제공할 수 있는 효과가 도출된다.

Description

키보드 매크로 기능을 활용한 자동 음성 인식기 및 음성 인식 방법{Automatic Voice Recognizer for medical treatment with keyboard macro function and Voice Recognizing Method thereof}
본 발명은 키보드 매크로 기능을 활용한 자동 음성 인식기 및 음성 인식 방법에 관한 것으로 보다 상세하게는 음성 데이터를 전사하여 라벨링 작업을 수행하는 키보드 매크로 기능을 활용한 의료용 자동 음성 인식기 및 음성 인식 방법에 관한 것이다.
기존 EMR(전자의무기록, Electronic Medical Record) 시스템은 환자의 의료기록이 모두 전자로 입력되어 관리된다는 장점이 있지만, 환자의 치료보다 기록 자체에 의료진의 업무가 치중되어있다.
그러나 진료 시 의사는 환자가 아닌 의무기록을 입력하는 컴퓨터 화면을 보고 진료해야 하는 상황이 발생하게 된다.
특히 수술실이나 임상 병리과와 같이 진료와 동시에 손을 쓸 수 없는 경우에는 마우스/키보드 사용이 어렵기 때문에 진료와 동시에 의무 기록지나 환자의 진료 기록을 위해서는 별도의 조작을 수행해야 하고 이를 위한 보조자의 도움이 필요하게 된다.
한편, 국내등록특허 354,365호(발명의 명칭: 음성 커맨드 입력 인식 기능이 있는 상호작용형 컴퓨터 제어 디스플레이 시스템 및 그 시스템으로의 음성 커맨드입력 제공 방법)에는 음성 커맨드 입력 인식 기능이 있는 상호작용형 컴퓨터제어 디스플레이 시스템 및 그 시스템으로의 음성 커맨드입력 제공 방법에 관한 것으로, 음성 커맨드 입력 인식(speech command input recognition) 및 시각 피드백(visual feedback)을 위한 대화형 내지 상호작용형 컴퓨터 제어 디스플레이 시스템(interactive computer controlled display system)에 관한 것으로서, 이 시스템은 대응하는 다수의 시스템 동작을 제각기 개시(initiate)시키는 다수의 음성 커맨드를 사전 결정하는 수단과, 상기 다수의 커맨드 각각에 연관된 음성 용어 집합(an associated set of speech terms)을 제공하는 수단을 포함한다.
이때 각각의 용어는 자신과 연관된 커맨드에 관련성(relevance)을 가지며, 음성 커맨드와 음성용어를 감지하는 수단을 포함하고, 음성 커맨드의 감지에 응답하여 상기 커맨드를 디스플레이하는 수단과, 상기 커맨드 중 하나에 관련성을 갖는 감지된 음성 용어에 응답하여 그 관련 커맨드를 디스플레이하는 수단을 제공한다
이같이 일반적으로 음성을 인식하여 음성 커맨드에 따른 기능을 제공하는 기술에 관해서는 지속적으로 개발이 이루어지고 있다.
KR 2003-0025507 A KR 2014-0061047 A KR 10-0354365 B1
본 발명은 이 같은 기술적 배경에서 도출된 것으로, 의료 현장에서 전자의무기록, 수술기록지 작성 등 실제 환자 진료시에 진료 기록을 위해 손을 사용하기 힘든 상황에서 음성을 바로 텍스트 형태로 기록하여 편리한 자동 음성 인식기 및 음성 인식 방법을 제공함에 그 목적이 있다.
또한 의료 현장에서 기록 시스템의 입력란에 상시 활성화되어 있는 음성인식기를 통해 음성이 텍스트로 전사되고, 별도의 키보드나 마우스 없이 키보드 매크로 입력기를 통해 음성 입력만으로도 필요한 정보의 검색이나 명령을 수행하도록 할 수 있어 정보 처리의 효율성이 높은 자동 음성 인식기 및 음성 인식 방법을 제공하고자 한다.
상기의 과제를 달성하기 위한 본 발명은 다음과 같은 구성을 포함한다.
즉 본 발명의 일 실시예에 따른 키보드 매크로 기능을 활용한 자동 음성인식기에서 수행되는 의료용 자동 음성 인식 방법은 전사 데이터 생성부가 마이크로 입력되는 음성 데이터에 기초하여 전사(transcription) 데이터를 생성하는 단계 및 라벨링부가 상기 생성된 전사 데이터에 매크로 기능을 수행하기 위해 기설정된 라벨링 대상 단어가 포함되면, 상기 생성된 전사 데이터에 라벨링하고 세션화하여 저장하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 일 양상에 따르면, 매크로 수행부가 상기 생성된 전사 데이터에 기설정된 라벨링 대상 단어가 포함되면, 상기 세션화하여 저장하는 단계에서 세션화되어 저장된 전사 데이터를 호출하여 매크로 기능에 따른 동작을 수행하는 단계를 더 포함한다.
한편, 키보드 매크로 기능을 활용한 음성 인식기는 마이크로 입력되는 음성 데이터에 기초하여 전사(transcription) 데이터를 생성하는 전사 데이터 생성부 및 상기 전사 데이터 생성부에서 생성된 전사 데이터에 매크로 기능을 수행하기 위해 기설정된 라벨링 대상 단어가 포함되면, 상기 생성된 전사 데이터에 라벨링하고 세션화하여 저장하는 라벨링부를 포함한다.
본 발명의 일 양상에 따르면, 키보드 매크로 기능을 활용한 자동 음성 인식기는 전사 데이터 생성부에서 생성된 전사 데이터에 기 설정된 라벨링 대상 단어가 포함되면, 상기 라벨링 부에서 세션화된 전사 데이터를 호출하여 매크로 기능에 따른 동작을 수행하는 매크로 수행부를 더 포함한다.
본 발명에 따르면, 의료 현장에서 전자의무기록, 수술기록지 작성 등 실제 환자 진료시에 진료 기록을 위해 손을 사용하기 힘든 상황에서 음성을 바로 텍스트 형태로 기록하여 편리한 자동 음성 인식기 및 음성 인식 방법을 제공할 수 있는 효과가 도출된다.
또한 본 발명에 따른 키보드 매크로 기능을 활용한 자동 음성인식기 및 음성 인식방법에 의하면 특히 의료 현장에서 기록 시스템의 입력란에 상시 활성화되어있는 음성인식기를 통해 음성이 텍스트로 전사되고, 별도의 키보드나 마우스 없이 키보드 매크로 입력기를 통해 음성 입력만으로도 필요한 정보의 검색이나 명령을 수행하도록 할 수 있어 정보 처리 효율성이 높은 의료용 자동 음성 인식기 및 음성 인식 방법을 제공할 수 있다.
구체적으로 수술실에서 수술중인 경우와 같이 별도의 마우스나 키보드의 조작이 불가능한 상황에서 환경에 구애받지 않고 직접 음성으로 의료 정보를 기록할 수 있어 정보의 정확도를 높일 수 있고 환자의 치료나 수술과정에 대한 집중도를 더욱 높일 수 있다.
나아가 의료환경 특성상 의사가 환자 진료를 보면서 의무 기록을 입력하는 시간이 여의치 않기 때문에 입력 방식을 음성 입력으로 대체함으로써 편의성을 증대시킬 수 있고 의사들의 시간 효율성을 높일 수 있다.
도 1 은 본 발명의 일 실시예에 따른 키보드 매크로 기능을 활용한 의료용 자동 음성 인식기의 동작을 설명하기 위한 예시도,
도 2 는 본 발명의 일 실시예에 따른 키보드 매크로 기능을 활용한 의료용 자동 음성 인식기의 구성을 도시한 블록도,
도 3 은 본 발명의 일 실시예에 따른 키보드 매크로 기능을 활용한 의료용 자동 음성 인식방법을 도시한 흐름도이다.
본 발명에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 발명에서 사용되는 기술적 용어는 본 발명에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명한다.
도 1 은 본 발명의 일 실시예에 따른 키보드 매크로 기능을 활용한 의료용 자동 음성 인식기의 동작을 설명하기 위한 예시도이다.
도 1 에서와 같이 일 실시예에 따른 키보드 매크로 기능을 활용한 자동 음성 인식기(10)는 의료 현장에서 마이크를 통해 음성 메시지를 수신한다. 그러면, 자동 음성 인식기(10)는 음성 인식기 서버(20)와 통신을 수행하면서 음성 데이터에 기초한 전사데이터를 생성한다.
이때 음성 인식기 서버(20)는 일 실시예에 따른 의료용 자동 음성 인식 서비스를 제공하는 플랫폼을 포함한다. 그리고 음성 인식기 서버(20)는 자동 음성 인식기(10)로 음성 데이터를 전사하기 위해 필요한 기반 정보들을 제공할 수 있다.
자동 음성 인식기(10)는 전사 데이터를 기초로 자동으로 키보드 입력 기능을 수행한다. 즉, 일 실시예에 따른 자동 음성 인식기(10)는 실제 물리적인 키보드나 마우스의 조작 신호가 입력되지 않더라도 키보드 매크로 입력기 기능에 의해 전사 데이터에 따른 동작이나 기능을 수행할 수 있다.
본 발명에 따르면 자동 음성 인식기(10)가 의료 현장에서 기록 시스템의 입력란에 활용되고 있는 음성 인식기 서버(20)를 통해 입력된 음성을 텍스트로 전사한 후, 키보드 매크로 입력기를 통해 별도의 마우스나 키보드의 사용 없이 자동으로 입력되어 저장된다.
일 예로 음성 내용 중 촬영 위치 정보 등을 별도로 라벨링하여 세션에 저장하고, 촬영 위치나 특정 정보에 관해 음성으로 요청하면 촬영 위치와 관련된 정보를 하이라이트하여 보여주거나 음성으로 피드백하고, 음성 탬플릿 내 빈칸 즉 변수값에 대한 수정 및 입력 처리도 가능하다.
또한 일 실시예에 따른 자동 음성 인식기(10)는 전자 의무 기록(EMR) 프로그램 뿐 아니라 메모장, 채팅 프로그램, 한글이나 워드, 엑셀과 같은 다양한 유틸리티 프로그램 상의 데이터 입력 가능한 공간에 인식된 음성을 전사하여 텍스트 형태로 출력해줄 수 있다.
기존에는 음성 인식된 전사된 텍스트 형식의 정보를 마우스로 스크랩해서 복사하고 필요한 영역에 붙여 넣는 작업이 필요했다. 그러나 본 발명의 일 실시예에 따른 자동 음성 인식기(10)는 음성 인식된 내용을 직접 가상 키보드가 입력되는 방식으로 텍스트 변환하여 화면 출력해주기 때문에 프로그램 상에 직접 키보드로 입력하는 것과 같이 화면 출력되는 것이 가능하다.
이에 따라 자동 음성 인식기(10)에서 인식되는 음성을 텍스트 형식으로 표시함에 있어 전사된 내용을 적용 가능한 프로그램의 범위가 넓다는 장점이 있다.
따라서 일 실시예에 따른 자동 음성 인식기(10)는 의료 산업 내에서 EMR 프로그램 종류에 구애받지 않고 입력란이 존재하면 별도의 연동작업 없이 입력란 안에 음성인식을 거쳐 나온 결과물을 실제 키보드로 입력하는 것처럼 입력할 수 있다.
또한 일 실시예에 따른 자동 음성 인식기(10)는 전자 의무 기록(EMR) 프로그램 뿐 아니라 의료영상저장전송시스템(PACS) 및 각종 의료프로그램에도 적용될 수 있다.
일 실시예에 있어서 자동 음성 인식기(10)는 IP 할당된 단말기로서 인터넷 등을 통해 음성 인식기 서버(20)와 네트워크 통신을 수행한다. 일 예로 데스크탑 PC(desktop PC), 슬레이트 PC(slate PC), 노트북 컴퓨터(notebook computer) PMP(Portable Multimedia Player), 울트라북(ultrabook), 웨어러블 디바이스(wearable device, 예를 들어, 워치형 단말기 (smartwatch), 글래스형 단말기(smart glass), HMD(head mounted display))등이 해당 될 수 있다.
물론, 본 발명이 적용 가능한 단말기는 상술한 종류에 한정되지 않고, 외부 장치와 통신이 가능한 형태의 단말기를 모두 포함하도록 해석될 수 있다.
뿐만 아니라, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰 (smartphone), 스마트 패드(smartpad), 태블릿 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 모두 포함하도록 해석될 수 있다.
도 2 는 본 발명의 일 실시예에 따른 키보드 매크로 기능을 활용한 자동 음성 인식기의 구성을 도시한 블록도이다.
도 2 와 같이 일 실시예에 따른 키보드 매크로 기능을 활용한 자동 음성 인식기(10)는 마이크(170)로 입력되는 음성 데이터를 수신한다. 그리고 풋 스위치(30)로 온/오프 신호를 입력받는다.
또한 디스플레이부(40)를 통해 음성 데이터로 요청되는 동작을 수행함으로써 필요한 정보들을 화면에 표시해줄 수 있다.
이때 디스플레이부(40)를 통해 정보들을 화면에 표시함에 있어, 의료 기관의 전자 의무 기록(EMR) 프로그램 뿐 아니라 메모장, 채팅 프로그램, 한글이나 워드, 엑셀과 같은 다양한 유틸리티 프로그램 상의 데이터 입력 가능한 공간에 인식된 음성을 전사하여 텍스트 형태로 출력해줄 수 있다.
음성 인식된 내용을 직접 가상 키보드가 입력되는 방식으로 텍스트 변환하여 화면 출력해주기 때문에 프로그램 상에 직접 키보드로 입력하는 것과 같이 화면 출력되는 것이 가능하다.
이에 따라 자동 음성 인식기(10)에서 인식되는 음성을 텍스트 형식으로 표시함에 있어 전사된 내용을 적용 가능한 프로그램의 범위가 넓다는 장점이 있다.
따라서 일 실시예에 따른 자동 음성 인식기(10)는 의료 산업 내에서 EMR 프로그램 종류에 구애받지 않고 입력란이 존재하면 별도의 연동작업 없이 입력란 안에 음성인식을 거쳐 나온 결과물을 실제 키보드로 입력하는 것처럼 입력할 수 있다.
뿐만 아니라 자동 음성 인식기(10)는 다양한 영상기기나 의료 기기와 연동되는 것도 가능하다. 즉, 일 실시예에 있어서 마이크(170)로 입력되는 음성 데이터 또는 풋 스위치(30)의 온/오프 조작에 따라 연동되는 영상 기기나 의료 기기의 동작을 제어할 수도 있다.
일 양상에 있어서 풋 스위치(30)는 온오프 조작 기능을 구비한다. 일 실시예에 따른 자동 음성 인식기(10)는 하나의 풋 스위치(30)를 발로 밟고 있는 동안 음성인식기 내 마이크(170)가 활성화되고 발을 떼면 마이크(170)가 비활성화되도록 구현된다.
기존에는 자동 음성 인식기(10)를 활성화하려면 마이크에 내장된 버튼으로 녹음을 활성화하거나, 마우스 클릭을 통해 마이크를 활성화해야 했다. 본 발명의 이 같은 양상에 따르면 손을 사용하기 힘든 상황에서 풋 스위치(30)에서 발신되는 신호를 자동 음성 인식기(10)에서 구동되는 프로그램에서 받아 음성인식기(10)를 활성화시키는 트리거로 활용함으로써 편리함을 제공할 수 있다. 사용자의 선택에 따라 마이크에 내장된 버튼이나 마우스 클릭을 통해 마이크를 활성화 시킬 수 있도록 구현되는 것도 가능하다.
또한 다른 실시예에 따르면 풋 스위치(30)가 복수 개 구비된다. 그리고 풋 스위치(30)가 여러 개가 될 경우 온 상태의 풋 스위치(30)마다 입력하는 줄을 바꾸거나, 저장된 템플릿을 불러오는 등 서로 다른 기능을 수행하도록 설정할 수도 있다.
또 다른 실시예에 따르면 자동 음성 인식기(10)와 마이크(170)가 활성화된 상태에서 자동 음성 인식기(10)는 마이크(170)로 입력되는 음성을 세션 형태로 기록하면서 주시하다가, 특정 개시 키워드 예를 들어 "기록 시작"과 같은 기 설정된 키워드가 검출되면 이후부터 음성인식 된 결과물을 키보드 매크로 기반 입력기로 입력한다.
즉, "기록 시작"이라는 키워드에 의해 전사된 데이터를 키보드로 입력하는 형태로 디스플레이부(40)에 표시하도록 구현된다.
반면 특정 종료 키워드("기록 종료")가 검출되면 이후부터 음성 인식된 결과물을 다시 세션 형태로 기록하면서 특정 개시 키워드가 검출될 때까지 대기하게 된다. 즉, "기록 종료"와 같이 기록을 종료하는 의미의 기 설정된 키워드가 인식되면 이후에는 음성 인식이 되더라도 전사된 내용이 디스플레이부(40)에 표시되지 않도록 구현될 수 있다.
일 양상에 있어서 본 발명에 따르면 의료 현장에서 기록 시스템의 입력란에 상시 활성화 되어 있는 자동 음성 인식기(10)를 통해 입력되는 음성을 텍스트로 전사하고, 별도의 키보드나 마우스 없이 키보드 매크로 입력기를 통해 전사된 텍스트들이 입력되는 방식의 자동 음성 입력기를 제공할 수 있다.
일 실시예에 따른 키보드 매크로 기능을 활용한 자동 음성 인식기(10)는 통신부(100), 저장부(110), 전사 데이터 생성부(120), 라벨링부(130), 매크로 수행부(140), 템플릿 호출부(150) 및 템플릿 반영부(160)를 포함한다.
통신부(100)는 유선 통신을 지원하기 위한 통신 모듈과, 무선 통신을 지원하기 위한 이동통신 모듈을 모두 포함할 수 있다. 이동통신 모듈은, 이동통신을 위한 기술표준들 또는 통신방식(예를 들어, GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), CDMA2000(Code Division Multi Access 2000), EVDO(Enhanced Voice-Data Optimized or Enhanced Voice-Data Only), WCDMA(Wideband CDMA), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced) 등)에 따라 구축된 이동 통신망 상에서 기지국 및 외부의 단말 중 적어도 하나와 무선 신호를 송수신한다.
일 실시예에 있어서 통신부(100)는 음성 인식기 서버(20)와 데이터 통신을 수행한다. 마이크로 입력되는 음성 데이터에 기초하여 전사 데이터를 생성하는 과정에서 필요한 정보들을 음성 인식기 서버(20)로부터 수신할 수 있다.
또한 통신부(100)는 물리적으로 분리된 의료측정기기 또는 의료영상 기기와 통신을 수행할 수 있다. 통신부(100)는 의료측정기기 또는 의료영상기기로부터 유선 통신이나 근거리 무선통신 방식으로 의료 데이터나 영상 데이터를 수신할 수 있다. 또한 의료측정기기 또는 의료영상기기로 제어 신호를 송신하는 것도 가능하다.
저장부(110)는 음성데이터에 기초하여 전사데이터를 생성하기 위한 프로그램을 저장한다. 여기에서, 저장부(110)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 휘발성 저장장치를 통칭하는 것이다.
예를 들어, 저장부(110)는 콤팩트 플래시(compact flash; CF) 카드, SD(secure digital) 카드, 메모리 스틱(memory stick), 솔리드 스테이트 드라이브(solid-state drive; SSD) 및 마이크로(micro) SD 카드 등과 같은 낸드 플래시 메모리(NAND flash memory), 하드 디스크 드라이브(hard disk drive; HDD) 등과 같은 마그네틱 컴퓨터 기억 장치 및 CD-ROM, DVD-ROM 등과 같은 광학 디스크 드라이브(optical disc drive) 등을 포함할 수 있다.
일 실시예에 있어서 저장부(110)는 전사데이터를 생성하기 위한 프로그램과 전사 데이터로부터 매크로 기능 수행을 위한 라벨링 대상 단어를 저장한다. 라벨링 대상 단어는 미리 사용자에 의해 설정된 것일 수 있다.
전사 데이터 생성부(120)는 저장부(110)에 저장된 프로그램을 실행시킴에 따라, 마이크(170)로 입력되는 음성 데이터에 기초하여 전사(transcription) 데이터를 생성한다.
자동 음성 인식에 있어서, 원천 데이터가 음성일 경우 필요한 정보를 직접 추출하는 것이 불가능하기 때문에 전사 데이터 생성부(120)는 마이크(170)로 입력되는 음성 데이터의 문자열을 변환하는 전사 과정이 필수적이다.
일 실시예에 있어서 전사 데이터 생성부(120)는 텍스트 형식의 전사 데이터를 생성할 수 있다.
라벨링부(130)는 전사 데이터 생성부(120)에서 생성된 전사 데이터에 매크로 기능을 수행하기 위해 기설정된 라벨링 대상 단어가 포함되면, 생성된 전사 데이터에 라벨링하고 세션화하여 저장부(110)에 저장한다.
라벨링부(130)는 전사 데이터에 매크로 기능의 수행을 위한 라벨링 단어 대상 단어가 포함되었는지 여부를 파악한다.
라벨링 대상 단어는 사용자 또는 서비스 제공자에 의해 기설정된 것이다. 예를 들어 "촬영 부위", "촬영 위치", "용량", "보여줘", "줄바꾸고", "괄호 열고"와 같은 키워드로 구현된다. 즉 라벨링 대상 단어는 매크로 기능을 수행하기 위한 키워드가 될 수 있다.
예를 들어 마이크(170)를 통해 "이 촬영 위치는 ascending colon이야" 라는 음성 데이터가 입력되면 라벨링부(130)는 "촬영 위치"를 라벨링하여 세션에 보관할 수 있다.
이때 라벨링부(130)는 "촬영 위치"라는 라벨링에 대해 음성으로 입력되는 촬영 위치와 함께 의료촬영기기로부터 입력되는 촬영 데이터를 함께 라벨링하여 저장한다. 촬영 데이터는 예를 들어 초음파나 MRI 기법으로 촬영된 이미지이거나 동영상 파일일 수 있다.
보조적 양상에 있어서 라벨링부(130)는 사용자가 키워드를 입력하게 되면 입력한 검색어로부터 단어 관련성을 판단하여 의학용어를 고려한 온톨로지(Ontology)로직으로 의미의 범위를 파악하여 의미 범위 내로 키워드 검색범위를 제한하는 것도 가능하다. 이에 따라 음성 데이터를 전사하고 처리하는 과정에서 보다 정확도 높은 음성 인식이 가능해질 수 있다.
즉 일 실시예에 따른 키보드 매크로 기능을 활용한 자동 음성 인식기(10)는 마이크(170)로 입력되는 음성 데이터를 텍스트 형태로 변환하여 세션처럼 들고 있을 수 있다. 따라서 의료 환경 특성상 손의 사용이 어려운 경우에도 현재 상황을 기록하고 기억하는 보조 기억 장치로서의 역할을 할 수 있다.
예를 들어 마이크를 통해 미리 약정된 코드를 음성으로 입력한 후에 환자의 성명이나 진료코드와 같은 정보를 입력하면 최근 라벨링부(130)에서 세션화하여 저장된 전사 데이터에 식별 코드로 추가할 수 있다.
매크로 수행부(140)는 전사 데이터 생성부(120)에서 생성된 전사 데이터에 기설정된 라벨링 대상 단어가 포함되면, 라벨링부(130)에서 세션화된 전사 데이터를 호출하여 매크로(macro instruction) 기능에 따른 동작을 수행한다.
즉, 매크로 수행부(140)는 전사 데이터에 매크로 기능을 수행하기로 설정된 라벨링 단어가 입력되면 그에 따라 수행하도록 설정된 기능을 수행할 수 있다.
예를 들어 "촬영 위치 알려줘"라는 음성 데이터가 입력되면 지금까지 라벨링부(130)에서 세션화되어 저장된 기록 내용 중 "촬영 위치"와 관련된 정보들을 하이라이트 시켜서 가시적인 데이터로 구분되도록 제공해줄 수 있다. 뿐만 아니라 음성을 통해 촬영 위치에 관한 데이터들에 관한 정보를 피드백해 주는 것도 가능하다.
또한 "촬영 위치"라는 라벨링 정보와 함께 매칭되게 저장된 의료 영상 기기로부터의 촬영 이미지 또는 촬영 영상 정보를 더 제공할 수 있다.
예를 들어 "영상 촬영, Transverse colon을 지나왔고 이제 ascending colon 으로 들어간다."라는 음성이 인식되면, 전사 데이터 생성부(120)가 이를 전사 데이터로 변환하고, 매크로 수행부(140)는 '영상 촬영'이라는 라벨링을 인식하여 의료 영상 기기로 촬영되는 영상을 인식되는 전사 데이터와 함께 저장하도록 수행할 수 있다.
이후에 "영상 검색, Transverse colon 에서 ascending colon"라는 음성이 인식되면 전사 데이터 생성부(120)가 이를 전사 데이터로 변환하고, 매크로 수행부(140)는 '영상 검색' 이라는 라벨링을 인식하여 저장된 정보들 중 의료 영상 기기로 해당 부위 촬영 데이터로 인식 되는 데이터를 추출하여 검색 결과로 제공할 수 있다.
일 양상에 있어서 템플릿 호출부(150)는 매크로 기능에 따라 기설정된 전사 데이터의 문장 템플릿을 호출한다. 문장 템플릿 형식은 어느 하나로 한정되지 않는다. 문장 템플릿 형식은 단문장 형식뿐 아니라 복수의 문장을 포함하는 형식으로 구현되는 것도 가능하다.
템플릿 호출부(150)는 예를 들어 "1번 템플릿 호출", "1번 템플릿 불러와"와 같은 음성 데이터가 입력되면 저장된 템플릿 리스트에서 1번 템플릿으로 지정된 템플릿 문장을 불러올 수 있다.
여기서 템플릿 호출부(150)는 원격 저장 매체인 원격 템플릿 서버에 기록된 내용을 불러들이는 방법으로 템플릿을 호출할 수도 있다. 즉 다양하고, 업데이트 가능한 템플릿 형태를 이용할 수 있다.
이때 템플릿의 구분은 일련 번호로 구분하거나, 상황별 키워드로 구분하도록 구현될 수도 있다. 템플릿 구분을 위한 식별 정보 즉, 일련번호나 상황별 키워드는 사용자에 의해 미리 설정된 것일 수 있다.
이때 템플릿 호출부(150)에서 호출되는 템플릿 문장은 음성 형태로 출력되거나 화면을 통해 가시적인 형태로 출력될 수 있다.
템플릿 반영부(160)는 마이크(170)로 입력되는 음성 데이터에 기초하여 호출된 문장 템플릿의 변수값을 입력받아 반영한다.
사용자는 음성 형태로 출력되거나 화면을 통해 가시적인 형태로 출력되는 템플릿 호출부(150)에서 호출된 템플릿 문장을 확인하면서 음성으로 변수값을 입력할 수 있다.
예를 들어 템플릿 호출부(150)에서 호출된 템플릿 문장이 "cimetropium 1)___ 주사후 2)___ Lidocane 스프레이로 인두마취 시행함" 일 경우에 사용자는 마이크(170)를 통해 음성으로 "변수값 1번 5mg", "변수값 2번10%" 를 입력하여 템플릿 문장의 내용을 수정 하거나 변수값을 새롭게 입력할 수 있다.
즉 반복될 수 있는 상황에 대해서는 미리 템플릿 문장을 설정해 놓고 진료 검사 후 환자에 따라 변경될 수 있는 변수값만을 입력함으로써 진료 기록이나 수술 진행 상황을 입력함에 있어 편의성을 제공할 수 있다.
이때 템플릿 호출부(150)에서 호출된 템플릿 문장의 변수값을 입력하는 것은 다양한 형태로 변형 및 적용이 가능하다.
템플릿 반영부(160)는 입력되는 변수값을 반영하여 새로이 생성되는 템플릿 문장을 라벨링부(130) 또는 매크로 수행부(140)로 제공하여 세션화되어 저장되도록 하거나, 그에 따른 동작을 수행하도록 한다.
즉 매크로 수행부(140)는 변수값이 반영된 전사 데이터를 이용하여 그 기능에 따른 필요한 동작을 수행하거나 라벨링부(130)에서 새로운 데이터로 인식하고 세션화하여 저장할 수 있다.
본 발명의 추가적인 양상에 따라 일 실시예에 따른 자동 음성 인식기(10)는 온오프 조작 기능을 구비한 풋 스위치(30)를 더 포함한다.
그리고 전사 데이터 생성부(120)는 풋 스위치(30)가 온(ON) 상태일 때 마이크(170)로 입력되는 음성 데이터에 기초하여 전사(transcription) 데이터를 생성한다.
이 양상에 따르면 손을 사용하기 힘든 상황에서 풋 스위치(30)에서 발신되는 신호를 자동 음성 인식기(10)에서 구동되는 프로그램에서 받아 음성인식기(10)를 활성화시키는 트리거로 활용함으로써 편리함을 제공할 수 있다.
나아가 풋 스위치(30)가 복수개 구비될 수 있다. 풋 스위치(30)가 복수개일 경우에 스위치 온 되는 풋 스위치의 종류 및 개수에 따라 입력하는 줄을 바꾸거나, 저장된 템플릿을 호출해오는 등의 기능을 하도록 구현될 수 있다.
예를 들어 풋스위치 a, b, c가 있는 경우에 풋 스위치 a가 온 상태이면 마이크로 입력되는 음성 데이터로부터 전사 데이터를 생성하고, 풋 스위치 b만 온 상태이면 마이크로 입력되는 음성 데이터로부터 전사 데이터를 생성하여 그대로 저장하며, 풋 스위치 c만 온 상태이면 템플릿 호출 모드로 동작하도록 구현된다.
또한 풋 스위치 a 와 b가 동시에 스위치 온 상태이면 초기 상태로 돌아가도록 구현되는 것도 가능하다. 풋 스위치(30) 조작에 따라 수행되는 기능이 이에 한정되는 것은 아니고 다양한 변형예들을 포괄하도록 해석된다. 즉 복수의 풋 스위치(30)를 이용하여 손을 사용하여 입력하지 않더라도 보다 다양한 조작 신호의 입력이 가능해진다.
본 발명의 일 양상에 있어서 키보드 매크로 기능을 활용한 의료용 자동 음성 인식기는 인공지능 모듈을 더 포함할 수 있다.
인공지능(AI) 모듈은 마이크(170)로 입력되는 음성 데이터에 의해 요청되는 다양한 기능을 더 수행할 수 있다. 또한 인공 지능 모듈은 딥러닝(Deep learnning) 훈련 모듈을 포함하여, 음성 인식에 따른 동작을 훈련을 통해 자가 학습하도록 구현되는 것이 가능하다. 일 실시예에 있어서 인공 지능 모듈은 음성으로 인식되는 전사 데이터에 따라 필요한 정보들을 웹검색을 통해 추가로 제공할 수도 있다.
도 3 은 본 발명의 일 실시예에 따른 키보드 매크로 기능을 활용한 의료용 자동 음성 인식방법을 도시한 흐름도이다.
키보드 매크로 기능을 활용한 의료용 자동 음성인식기에서 수행되는 의료용 자동 음성 인식 방법에 있어서, 먼저 전사 데이터 생성부는 마이크로 음성 데이터가 입력되면(S300), 마이크로 입력되는 음성 데이터에 기초하여 전사(transcription) 데이터를 생성한다(S320).
이때, 전사 데이터를 생성하는 단계는 온오프 조작 기능을 구비한 풋 스위치가 온(ON) 상태일 때(S310) 마이크로 입력되는 음성 데이터에 기초하여 전사(transcription) 데이터를 생성한다.
이 양상에 따르면 손을 사용하기 힘든 상황에서 풋 스위치에서 발신되는 신호를 의료용 자동 음성 인식기에서 구동되는 프로그램에서 받아 음성인식기를 활성화시키는 트리거로 활용함으로써 편리함을 제공할 수 있다.
그리고 라벨링부는 전사 데이터 생성부에서 생성된 전사 데이터에 매크로 기능을 수행하기 위해 기설정된 라벨링 대상 단어가 포함되면(S330), 생성된 전사 데이터에 라벨링하고 세션화하여 저장한다(S340, S350).
라벨링부는 전사 데이터에 매크로 기능의 수행을 위한 라벨링 단어 대상 단어가 포함되었는지 여부를 파악한다.
라벨링 대상 단어는 사용자 또는 서비스 제공자에 의해 기설정된 것이다. 예를 들어 "촬영 부위", "촬영 위치", "용량", "보여줘"와 같은 키워드로 구현된다. 즉 라벨링 대상 단어는 매크로 기능을 수행하기 위한 키워드가 될 수 있다.
예를 들어 마이크를 통해 "이 촬영 위치는 ascending colon이야"라는 음성 데이터가 입력되면 라벨링부는 "촬영 위치"를 라벨링하여 세션에 보관할 수 있다.
즉 마이크로 입력되는 음성 데이터를 텍스트 형태로 변환하여 세션처럼 들고 있을 수 있다. 따라서 의료 환경 특성상 손의 사용이 어려운 경우에도 현재 상황을 기록하고 기억하는 보조 기억 장치로서의 역할을 할 수 있다.
반면, 매크로 수행부는 전사 데이터 생성부에서 생성된 전사 데이터에 기설정된 라벨링 대상 단어가 포함되면, 세션화하여 저장하는 단계에서 세션화되어 저장된 전사 데이터를 호출하여 매크로 기능에 따른 동작을 수행한다(S360, S365).
일 실시예에 있어서 매크로 수행부는 전사 데이터에 매크로 기능을 수행하기로 설정된 라벨링 단어가 입력되면 그에 따라 수행하도록 설정된 기능을 수행할 수 있다.
예를 들어 "촬영 위치 알려줘"라는 음성 데이터가 입력되면 지금까지 라벨링부(130)에서 세션화되어 저장된 기록 내용 중 "촬영 위치"와 관련된 정보들을 하이라이트 시켜서 가시적인 데이터로 제공해줄 수 있다. 뿐만 아니라 음성을 통해 피드백해 주는 것도 가능하다.
본 발명의 일 양상에 있어서 템플릿 호출부가 매크로 기능에 따라 기설정된 전사 데이터의 문장 템플릿을 호출하면(S370), 템플릿 반영부는 마이크로 입력되는 음성 데이터에 기초하여 호출된 문장 템플릿의 변수값을 입력받아 반영한다(S375).
템플릿 호출부는 예를 들어 "1번 템플릿 호출", "1번 템플릿 불러와"와 같은 음성 데이터가 입력되면 저장된 템플릿 리스트에서 1번 템플릿으로 지정된 템플릿 문장을 불러올 수 있다.
이때 템플릿의 구분은 일련 번호로 구분하거나, 어떤 상황에 대한 키워드로 구분 가능하게 구현될 수도 있다.
템플릿 호출부에서 호출되는 템플릿 문장은 음성 형태로 출력되거나 화면을 통해 가시적인 형태로 출력될 수 있다.
그리고 템플릿 반영부는 마이크로 입력되는 음성 데이터에 기초하여 호출된 문장 템플릿의 변수값을 입력받아 반영한다.
사용자는 음성 형태로 출력되거나 화면을 통해 가시적인 형태로 출력되는 템플릿 호출부에서 호출된 템플릿 문장을 확인하면서 변수값을 입력할 수 있다.
예를 들어 템플릿 호출부에서 호출된 템플릿 문장이 " cimetropium 1)___ 주사후 2)___ Lidocane 스프레이로 인두마취 시행함" 일 경우에 변수값으로 "1번 5mg", "2번10%" 를 입력하여 템플릿 문장의 내용을 수정 및 새롭게 입력할 수 있다. 호출된 템플릿 문장의 변수값을 입력하는 것은 다양한 형태로 변형 및 적용이 가능하다.
템플릿 반영부는 입력되는 변수값을 반영하여 새로이 생성되는 템플릿 문장을 라벨링부 또는 매크로 수행부로 제공하여 세션화되어 저장되도록 하거나, 그에 따른 동작을 수행하도록 한다.
추가적으로 일 실시예에 따른 키보드 매크로 기능을 활용한 의료용 자동 음성 인식방법에 따르면 의료용 자동음성 인식기는 라벨링 단어가 포함되지 않은 일반 음성 데이터 명령에 대해서도 그에 따른 동작을 수행할 수 있다(S380).
이후에 디스플레이부를 통해 음성 데이터로 요청되는 동작을 수행함으로써 필요한 정보들을 화면에 표시해준다.
이때 디스플레이부를 통해 정보들을 화면에 표시함에 있어, 의료 기관의 전자 의무 기록(EMR) 프로그램 뿐 아니라 메모장, 채팅 프로그램, 한글이나 워드, 엑셀과 같은 다양한 유틸리티 프로그램 상의 데이터 입력 가능한 공간에 인식된 음성을 전사하여 텍스트 형태로 출력해줄 수 있다(S390).
음성 인식된 내용을 직접 가상 키보드가 입력되는 방식으로 텍스트 변환하여 화면 출력해주기 때문에 프로그램 상에 직접 키보드로 입력하는 것과 같이 화면 출력되는 것이 가능하다.
전술한 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.
상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD 와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.
프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
10 : 의료용 자동 음성 인식기 20 : 음성 인식기 서버
30 : 풋 스위치 40 : 디스플레이부
100 : 통신부 110 : 저장부
120 : 전사 데이터 생성부 130 : 라벨링부
140 : 매크로 수행부 150 : 템플릿 호출부
160 : 템플릿 반영부 170 : 마이크

Claims (10)

  1. 키보드 매크로 기능을 활용한 자동 음성 인식기에서 수행되는 자동 음성 인식 방법에 있어서,
    전사 데이터 생성부가 마이크로 입력되는 음성 데이터에 기초하여 전사(transcription) 데이터를 생성하는 단계; 및
    라벨링부가 상기 생성된 전사 데이터에 매크로 기능을 수행하기 위해 기설정된 라벨링 대상 단어가 포함되면, 상기 생성된 전사 데이터에 라벨링하고 세션화하여 저장하는 단계;를 포함하고,
    매크로 수행부가 상기 생성된 전사 데이터에 기설정된 라벨링 대상 단어가 포함되면, 상기 세션화하여 저장하는 단계에서 세션화되어 저장된 전사 데이터를 호출하여 매크로 기능에 따른 동작을 수행하는 단계;를 더 포함하며,
    템플릿 호출부가 매크로 기능에 따라 기설정된 전사 데이터의 문장 템플릿을 호출하는 단계; 및
    템플릿 반영부가 마이크로 입력되는 음성 데이터에 기초하여 호출된 문장 템플릿의 변수값을 음성으로 입력받아 반영하는 단계;를 더 포함하고,
    상기 동작을 수행하는 단계는,
    상기 세션화하여 저장하는 단계에서 라벨링되고 세션화되어 저장된 기록 내용 중 상기 라벨링 대상 단어와 관련된 정보들을 추출하여 가시적인 데이터로 구분되도록 제공해주는 것을 특징으로 하고,
    상기 문장 템플릿을 호출하는 단계는,
    사용자에 의해 미리 설정된 상황별 키워드를 포함하는 음성 데이터가 입력되면 저장된 템플릿 리스트 또는 원격 템플릿 서버에 기록된 내용으로부터 상황별 키워드에 의해 구분되는 문장 템플릿을 불러오는 것을 더 특징으로 하는 키보드 매크로 기능을 활용한 자동 음성 인식 방법.
  2. 제 1 항에 있어서,
    상기 생성된 전사 데이터를 가상 키보드가 입력하는 방식으로 유틸리티 프로그램 상의 데이터 입력 가능한 공간에 표시하여 디스플레이 하는 단계;를 더 포함하는 것을 특징으로 하는 키보드 매크로 기능을 활용한 자동 음성 인식 방법.
  3. 삭제
  4. 삭제
  5. 제 1 항에 있어서,
    상기 전사 데이터를 생성하는 단계는 온오프 조작 기능을 구비한 풋 스위치가 온(ON) 상태일 때 상기 마이크로 입력되는 음성 데이터에 기초하여 전사(transcription) 데이터를 생성하는 것을 특징으로 하는 키보드 매크로 기능을 활용한 자동 음성 인식 방법.
  6. 마이크로 입력되는 음성 데이터에 기초하여 전사(transcription) 데이터를 생성하는 전사 데이터 생성부; 및
    상기 전사 데이터 생성부에서 생성된 전사 데이터에 매크로 기능을 수행하기 위해 기설정된 라벨링 대상 단어가 포함되면, 상기 생성된 전사 데이터에 라벨링하고 세션화하여 저장하는 라벨링부;를 포함하고,
    상기 전사 데이터 생성부에서 생성된 전사 데이터에 기 설정된 라벨링 대상 단어가 포함되면, 상기 라벨링부에서 세션화된 전사 데이터를 호출하여 매크로 기능에 따른 동작을 수행하는 매크로 수행부;를 더 포함하며,
    상기 매크로 기능에 따라 기설정된 전사 데이터의 문장 템플릿을 호출하는 템플릿 호출부; 및
    마이크로 입력되는 음성 데이터에 기초하여 호출된 문장 템플릿의 변수값을 입력받아 반영하는 템플릿 반영부;를 더 포함하고,
    상기 매크로 수행부는,
    상기 세션화하여 저장하는 단계에서 라벨링되고 세션화되어 저장된 기록 내용 중 상기 라벨링 대상 단어와 관련된 정보들을 추출하여 가시적인 데이터로 구분되도록 제공해주는 것을 특징으로 하고,
    상기 템플릿 호출부는,
    사용자에 의해 미리 설정된 상황별 키워드를 포함하는 음성 데이터가 입력되면 저장된 템플릿 리스트 또는 원격 템플릿 서버에 기록된 내용으로부터 상황별 키워드에 의해 구분되는 문장 템플릿을 불러오는 것을 더 특징으로 하는 키보드 매크로 기능을 활용한 자동 음성 인식기.
  7. 제 6 항에 있어서,
    상기 전사 데이터 생성부에서 생성된 전사 데이터를 가상 키보드가 입력하는 방식으로 유틸리티 프로그램상의 데이터 입력 가능한 공간에 표시하는 디스플레이부;를 더 포함하는 것을 특징으로 하는 키보드 매크로 기능을 활용한 자동 음성 인식기.
  8. 삭제
  9. 삭제
  10. 제 6 항에 있어서,
    온오프 조작 기능을 구비한 풋 스위치;를 더 포함하고,
    상기 전사 데이터 생성부는 상기 풋 스위치가 온(ON) 상태일 때 상기 마이크로 입력되는 음성 데이터에 기초하여 전사(transcription) 데이터를 생성하는 것을 특징으로 하는 키보드 매크로 기능을 활용한 자동 음성 인식기.
KR1020190135488A 2019-10-29 2019-10-29 키보드 매크로 기능을 활용한 자동 음성 인식기 및 음성 인식 방법 KR102153668B1 (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
KR1020190135488A KR102153668B1 (ko) 2019-10-29 2019-10-29 키보드 매크로 기능을 활용한 자동 음성 인식기 및 음성 인식 방법
EP20880679.4A EP4053837A4 (en) 2019-10-29 2020-08-05 AUTOMATIC LANGUAGE RECOGNIZER AND VOICE RECOGNITION PROCESS WITH KEYBOARD MACRO FUNCTION
CN202080074937.7A CN114830230A (zh) 2019-10-29 2020-08-05 利用键盘宏功能的自动语音识别器及语音识别方法
PCT/KR2020/010359 WO2021085811A1 (ko) 2019-10-29 2020-08-05 키보드 매크로 기능을 활용한 자동 음성 인식기 및 음성 인식 방법
US17/772,962 US11977812B2 (en) 2019-10-29 2020-08-05 Automatic speech recognizer and speech recognition method using keyboard macro function
JP2022525632A JP2023501283A (ja) 2019-10-29 2020-08-05 キーボードマクロ機能を活用した自動音声認識器および音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190135488A KR102153668B1 (ko) 2019-10-29 2019-10-29 키보드 매크로 기능을 활용한 자동 음성 인식기 및 음성 인식 방법

Publications (1)

Publication Number Publication Date
KR102153668B1 true KR102153668B1 (ko) 2020-09-09

Family

ID=72451540

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190135488A KR102153668B1 (ko) 2019-10-29 2019-10-29 키보드 매크로 기능을 활용한 자동 음성 인식기 및 음성 인식 방법

Country Status (6)

Country Link
US (1) US11977812B2 (ko)
EP (1) EP4053837A4 (ko)
JP (1) JP2023501283A (ko)
KR (1) KR102153668B1 (ko)
CN (1) CN114830230A (ko)
WO (1) WO2021085811A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836039A (zh) * 2021-01-27 2021-05-25 成都网安科技发展有限公司 基于深度学习的语音数据处理方法和装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10203855B2 (en) * 2016-12-09 2019-02-12 Snap Inc. Customized user-controlled media overlays
CN113205805B (zh) * 2021-03-18 2024-02-20 福建马恒达信息科技有限公司 一种语音插件辅助的表格便捷操作方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001101162A (ja) * 1999-09-27 2001-04-13 Just Syst Corp 文書処理装置、及び文書処理プログラムが記憶された記憶媒体
KR100354365B1 (ko) 1998-12-17 2002-09-28 인터내셔널 비지네스 머신즈 코포레이션 음성 커맨드 입력 인식 기능이 있는 상호작용형 컴퓨터제어 디스플레이 시스템 및 그 시스템으로의 음성 커맨드입력 제공 방법
KR20030025507A (ko) 2001-09-21 2003-03-29 정용석 음성인식을 이용한 의료전자차트 작성시스템
KR100778966B1 (ko) * 2000-02-29 2007-11-22 딕터폰 코포레이션 관리 서버 컴퓨터를 포함하는 글로벌 문서 생성 시스템
KR20140061047A (ko) 2012-11-13 2014-05-21 한국전자통신연구원 음성 인식에 기반한 의료 장치 제어용 단말 장치 및 이를 위한 방법
KR20170006369A (ko) * 2015-07-08 2017-01-18 박남태 가상 키보드 음성입력 장치 및 방법
KR101955225B1 (ko) * 2017-11-03 2019-03-08 주식회사 셀바스에이아이 전자의무기록 서비스의 편집 인터페이스를 제공하는 방법 및 장치

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4436899B2 (ja) 1998-02-27 2010-03-24 株式会社ニデック 眼科手術装置
US6304848B1 (en) * 1998-08-13 2001-10-16 Medical Manager Corp. Medical record forming and storing apparatus and medical record and method related to same
WO2002080143A1 (en) 2001-03-29 2002-10-10 Koninklijke Philips Electronics N.V. Synchronise an audio cursor and a text cursor during editing
JP4719408B2 (ja) 2003-07-09 2011-07-06 富士通株式会社 医療情報システム
JP2005192024A (ja) 2003-12-26 2005-07-14 Fujitsu I-Network Systems Ltd コールセンタにおける通話音声データ管理方式およびそれに用いるオペレータ端末
JP4832770B2 (ja) 2005-02-15 2011-12-07 オリンパス株式会社 医療支援システム
EP1943641B1 (en) * 2005-10-27 2017-05-03 Nuance Communications Austria GmbH Method and system for processing dictated information
JP5002283B2 (ja) 2007-02-20 2012-08-15 キヤノン株式会社 情報処理装置および情報処理方法
WO2008120146A1 (en) * 2007-03-29 2008-10-09 Nuance Communications Austria Gmbh Method and system for generating a medical report and computer program product therefor
US20090089100A1 (en) * 2007-10-01 2009-04-02 Valeriy Nenov Clinical information system
US8046226B2 (en) 2008-01-18 2011-10-25 Cyberpulse, L.L.C. System and methods for reporting
JP2012140189A (ja) 2010-12-28 2012-07-26 Mitsubishi Electric Building Techno Service Co Ltd エレベータ
US20160162642A1 (en) * 2012-11-14 2016-06-09 William Atkinson Integrated Medical Record System using Hologram Technology
US20140142939A1 (en) 2012-11-21 2014-05-22 Algotes Systems Ltd. Method and system for voice to text reporting for medical image software
US9514740B2 (en) * 2013-03-13 2016-12-06 Nuance Communications, Inc. Data shredding for speech recognition language model training under data retention restrictions
JP2016102920A (ja) 2014-11-28 2016-06-02 京セラドキュメントソリューションズ株式会社 文書記録システム及び文書記録プログラム
JP2017182075A (ja) 2017-05-01 2017-10-05 株式会社ニコン 情報処理装置
US10719222B2 (en) * 2017-10-23 2020-07-21 Google Llc Method and system for generating transcripts of patient-healthcare provider conversations
US11423325B2 (en) * 2017-10-25 2022-08-23 International Business Machines Corporation Regression for metric dataset
US10467335B2 (en) * 2018-02-20 2019-11-05 Dropbox, Inc. Automated outline generation of captured meeting audio in a collaborative document context
US11705226B2 (en) * 2019-09-19 2023-07-18 Tempus Labs, Inc. Data based cancer research and treatment systems and methods

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100354365B1 (ko) 1998-12-17 2002-09-28 인터내셔널 비지네스 머신즈 코포레이션 음성 커맨드 입력 인식 기능이 있는 상호작용형 컴퓨터제어 디스플레이 시스템 및 그 시스템으로의 음성 커맨드입력 제공 방법
JP2001101162A (ja) * 1999-09-27 2001-04-13 Just Syst Corp 文書処理装置、及び文書処理プログラムが記憶された記憶媒体
KR100778966B1 (ko) * 2000-02-29 2007-11-22 딕터폰 코포레이션 관리 서버 컴퓨터를 포함하는 글로벌 문서 생성 시스템
KR20030025507A (ko) 2001-09-21 2003-03-29 정용석 음성인식을 이용한 의료전자차트 작성시스템
KR20140061047A (ko) 2012-11-13 2014-05-21 한국전자통신연구원 음성 인식에 기반한 의료 장치 제어용 단말 장치 및 이를 위한 방법
KR20170006369A (ko) * 2015-07-08 2017-01-18 박남태 가상 키보드 음성입력 장치 및 방법
KR101955225B1 (ko) * 2017-11-03 2019-03-08 주식회사 셀바스에이아이 전자의무기록 서비스의 편집 인터페이스를 제공하는 방법 및 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836039A (zh) * 2021-01-27 2021-05-25 成都网安科技发展有限公司 基于深度学习的语音数据处理方法和装置

Also Published As

Publication number Publication date
CN114830230A (zh) 2022-07-29
US11977812B2 (en) 2024-05-07
EP4053837A1 (en) 2022-09-07
EP4053837A4 (en) 2023-11-08
WO2021085811A1 (ko) 2021-05-06
JP2023501283A (ja) 2023-01-18
US20220391162A1 (en) 2022-12-08

Similar Documents

Publication Publication Date Title
US10606942B2 (en) Device for extracting information from a dialog
KR102153668B1 (ko) 키보드 매크로 기능을 활용한 자동 음성 인식기 및 음성 인식 방법
JP5421239B2 (ja) 複数モードの入力メソッドエディタ
US20140316764A1 (en) Clarifying natural language input using targeted questions
CN109032731B (zh) 一种面向操作系统的基于语义理解的语音互动方法及系统
JP2002116796A (ja) 音声処理装置、音声処理方法及び記憶媒体
KR101626109B1 (ko) 통역 장치 및 방법
KR102075382B1 (ko) 시각장애인을 위한 콘텐츠 제공 장치 및 그 제공 방법
US20210312138A1 (en) System and method for handling out of scope or out of domain user inquiries
US20140337006A1 (en) Method, system, and mobile terminal for realizing language interpretation in a browser
KR20120107306A (ko) 컨텐츠 제공 시스템 및 그의 문자 음성 변환 기능 제공을 위한 기록 매체
TWI752437B (zh) 基於至少雙音素的語音輸入操作方法及電腦程式產品
TWM575595U (zh) 電子書語音朗讀裝置
US20230335128A1 (en) Assistance device, conversation control device, and program
Recalde et al. Creating an Accessible Future: Developing a Sign Language to Speech Translation Mobile Application with MediaPipe Hands Technology
Tripathy et al. VIMPY—A Yapper for the visually impaired
TW202009891A (zh) 電子書語音朗讀裝置及其方法
WO2022104297A1 (en) Multimodal input-based data selection and command execution
CN112926343A (zh) 一种数据处理方法、装置和电子设备
KR20220059613A (ko) 음성 인식 기반의 수술 영상 가공 장치 및 방법
CN114556353A (zh) 数据处理方法、装置、电子设备和存储介质
JP2006185306A (ja) 情報処理方法

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant