WO2021085811A1 - 키보드 매크로 기능을 활용한 자동 음성 인식기 및 음성 인식 방법 - Google Patents

키보드 매크로 기능을 활용한 자동 음성 인식기 및 음성 인식 방법 Download PDF

Info

Publication number
WO2021085811A1
WO2021085811A1 PCT/KR2020/010359 KR2020010359W WO2021085811A1 WO 2021085811 A1 WO2021085811 A1 WO 2021085811A1 KR 2020010359 W KR2020010359 W KR 2020010359W WO 2021085811 A1 WO2021085811 A1 WO 2021085811A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
macro function
transcription data
transcription
keyboard
Prior art date
Application number
PCT/KR2020/010359
Other languages
English (en)
French (fr)
Inventor
전하린
Original Assignee
주식회사 퍼즐에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 퍼즐에이아이 filed Critical 주식회사 퍼즐에이아이
Priority to JP2022525632A priority Critical patent/JP2023501283A/ja
Priority to US17/772,962 priority patent/US11977812B2/en
Priority to CN202080074937.7A priority patent/CN114830230A/zh
Priority to EP20880679.4A priority patent/EP4053837A4/en
Publication of WO2021085811A1 publication Critical patent/WO2021085811A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0238Programmable keyboards
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04886Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures by partitioning the display area of the touch-screen or the surface of the digitising tablet into independently controllable areas, e.g. virtual keyboards or menus
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/63ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for local operation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Definitions

  • the present invention relates to an automatic speech recognizer and a speech recognition method using a keyboard macro function, and more particularly, to a medical automatic speech recognizer and a speech recognition method using a keyboard macro function that performs labeling by transcribing speech data. .
  • the existing EMR (Electronic Medical Record) system has the advantage that all of the patient's medical records are entered and managed electronically, but the work of the medical staff is focused on the record itself rather than the patient's treatment.
  • Korean Patent No. 354,365 (invention title: interactive computer control display system with voice command input recognition function and method for providing voice command input to the system), interactive computer control with voice command input recognition function It relates to a display system and a method of providing voice command input to the system, comprising: an interactive or interactive computer controlled display system for speech command input recognition and visual feedback. system), wherein the system includes means for pre-determining a plurality of speech commands each initiating a corresponding plurality of system operations, and an associated set of speech terms associated with each of the plurality of commands. ).
  • each term has a relevance to a command associated with it, includes a voice command and a means for detecting a voice term, means for displaying the command in response to detection of the voice command, and a means for displaying the command in response to one of the commands.
  • a means of displaying the relevant command in response to a sensed spoken term of interest.
  • the present invention is derived from such a technical background, and in situations where it is difficult to use hands for medical records during actual patient treatment such as electronic medical records and surgical records in medical fields, voices are directly recorded in text format for convenient automatic voice.
  • An object thereof is to provide a recognizer and a voice recognition method.
  • the voice is transcribed into text through a voice recognizer that is always activated in the input field of the recording system, and it is possible to search for necessary information or perform a command with just voice input through the keyboard macro input device without a separate keyboard or mouse.
  • a voice recognizer that is always activated in the input field of the recording system, and it is possible to search for necessary information or perform a command with just voice input through the keyboard macro input device without a separate keyboard or mouse.
  • the present invention for achieving the above object includes the following configurations.
  • the transcription data generation unit generates transcription data based on the speech data input to the microphone and labeling. And if the additional words to be labeled to perform a macro function are included in the generated transcription data, labeling the generated transcription data, making it a session, and storing it.
  • the sessionized and stored transcription data is called in the sessionizing and storing step to perform an operation according to the macro function. It further includes the step of.
  • a speech recognizer using a keyboard macro function is configured to perform a macro function on the transcription data generation unit that generates transcription data based on the speech data input into the microphone and the transcription data generated by the transcription data generation unit.
  • a labeling unit for labeling the generated transcription data making it a session, and storing it.
  • an automatic speech recognizer using a keyboard macro function when a preset labeling target word is included in the transcription data generated by the transcription data generation unit, calls the transcription data sessionized by the labeling unit to obtain a macro. It further includes a macro execution unit that performs an operation according to the function.
  • a convenient automatic voice recognizer and voice recognition method are provided by directly recording voice in text form in situations where it is difficult to use a hand for medical record during actual patient treatment such as electronic medical record and surgical record writing in medical field. The possible effect is derived.
  • the voice is transcribed as text through the voice recognizer that is always activated in the input field of the recording system, especially in the medical field, without a separate keyboard or mouse. It is possible to provide a medical automatic speech recognizer and a speech recognition method with high information processing efficiency because it is possible to perform a search for necessary information or a command through only a voice input through a keyboard macro input device.
  • FIG. 1 is an exemplary view for explaining the operation of an automatic medical speech recognizer using a keyboard macro function according to an embodiment of the present invention
  • FIG. 2 is a block diagram showing the configuration of an automatic medical speech recognizer utilizing a keyboard macro function according to an embodiment of the present invention
  • FIG. 3 is a flowchart illustrating a medical automatic speech recognition method using a keyboard macro function according to an embodiment of the present invention.
  • FIG. 1 is an exemplary diagram for explaining the operation of an automatic medical speech recognizer using a keyboard macro function according to an embodiment of the present invention.
  • the automatic voice recognizer 10 utilizing a keyboard macro function according to an embodiment receives a voice message through a microphone in a medical field. Then, the automatic speech recognizer 10 generates transcription data based on the speech data while communicating with the speech recognizer server 20.
  • the voice recognizer server 20 includes a platform that provides an automatic voice recognition service for medical use according to an embodiment.
  • the voice recognizer server 20 may provide basic information necessary for transcribing voice data to the automatic voice recognizer 10.
  • the automatic speech recognizer 10 automatically performs a keyboard input function based on the transcription data. That is, the automatic speech recognizer 10 according to an exemplary embodiment may perform an operation or function according to the transcription data by the keyboard macro input device function even if an actual physical keyboard or mouse manipulation signal is not input.
  • a separate mouse or keyboard through a keyboard macro input device It is automatically entered and saved without the use of.
  • recording location information among the voice contents is separately labeled and stored in the session, and when a voice request for a filming location or specific information is requested, information related to the filming location is highlighted and displayed or feedback is provided, and blanks in the voice template, i.e., variables Value modification and input processing are also possible.
  • the automatic speech recognizer 10 transfers the recognized voice to a space where data can be input on various utility programs such as notepad, chat program, Korean, word, and Excel as well as an electronic medical record (EMR) program. It can be printed out in the form.
  • EMR electronic medical record
  • the automatic speech recognizer 10 converts the speech-recognized content to text in a way that a virtual keyboard is input and outputs the screen, it is not possible to output the screen as if it is directly input on a program. It is possible.
  • the automatic speech recognizer 10 can input the result of voice recognition in the input field as if inputting with a real keyboard without a separate interlocking operation if an input field exists regardless of the type of EMR program in the medical industry. I can.
  • the automatic speech recognizer 10 can be applied not only to an electronic medical record (EMR) program, but also to a medical image storage and transmission system (PACS) and various medical programs.
  • EMR electronic medical record
  • PACS medical image storage and transmission system
  • the automatic voice recognizer 10 is an IP-allocated terminal and performs network communication with the voice recognizer server 20 through the Internet or the like.
  • a desktop PC a slate PC, a notebook computer, a portable multimedia player (PMP), an ultrabook, a wearable device, for example, a smartwatch.
  • PMP portable multimedia player
  • ultrabook a wearable device
  • wearable device for example, a smartwatch.
  • glass type terminal smart glass
  • HMD head mounted display
  • the terminal to which the present invention is applicable is not limited to the above-described types, and may be interpreted to include all terminals capable of communicating with external devices.
  • wireless communication device for example, portability and mobility is guaranteed, navigation, PCS (Personal Communication System), GSM (Global System for Mobile communications), PDC (Personal Digital Cellular), PHS (Personal Handyphone System), PDA (Personal Digital Assistant), IMT (International Mobile Telecommunication)-2000, CDMA (Code Division Multiple Access)-2000, W-CDMA (W-Code Division Multiple Access), Wibro (Wireless Broadband Internet) terminal, smartphone ), it can be interpreted to include all kinds of handheld-based wireless communication devices such as a smart pad, a tablet PC, and the like.
  • PCS Personal Communication System
  • GSM Global System for Mobile communications
  • PDC Personal Digital Cellular
  • PHS Personal Handyphone System
  • PDA Personal Digital Assistant
  • IMT International Mobile Telecommunication
  • CDMA Code Division Multiple Access
  • W-CDMA Wide-Code Division Multiple Access
  • Wibro Wireless Broadband Internet
  • FIG. 2 is a block diagram showing the configuration of an automatic speech recognizer using a keyboard macro function according to an embodiment of the present invention.
  • the automatic speech recognizer 10 utilizing a keyboard macro function according to an embodiment receives speech data input through the microphone 170. In addition, an on/off signal is inputted through the foot switch 30.
  • necessary information may be displayed on the screen by performing an operation requested as voice data through the display unit 40.
  • the screen output is performed, so it is possible to output the screen as if it is directly input on a program.
  • the automatic speech recognizer 10 can input the result of voice recognition in the input field as if inputting with a real keyboard without a separate interlocking operation if an input field exists regardless of the type of EMR program in the medical industry. I can.
  • the automatic speech recognizer 10 may be interlocked with various imaging devices or medical devices. That is, according to an exemplary embodiment, an operation of an interlocked imaging device or a medical device may be controlled according to voice data input to the microphone 170 or an on/off operation of the foot switch 30.
  • the foot switch 30 has an on-off operation function.
  • the automatic voice recognizer 10 according to an embodiment is implemented such that the microphone 170 in the voice recognizer is activated while one foot switch 30 is being pressed with a foot, and the microphone 170 is deactivated when the foot is released.
  • a plurality of foot switches 30 are provided.
  • different functions may be performed, such as changing an input line for each foot switch 30 in an ON state, or loading a stored template.
  • the automatic speech recognizer 10 while the automatic speech recognizer 10 and the microphone 170 are activated, the automatic speech recognizer 10 records the voice input through the microphone 170 in the form of a session and keeps an eye on it. For example, when a preset keyword such as "start recording" is detected, the result of voice recognition is input through a keyboard macro-based input method.
  • the voice input through the automatic voice recognizer 10 which is always activated in the input field of the recording system in the medical field, is transcribed as text, and transferred through the keyboard macro input device without a separate keyboard or mouse.
  • An automatic voice input device in which texts are input can be provided.
  • the automatic speech recognizer 10 using a keyboard macro function includes a communication unit 100, a storage unit 110, a transcription data generation unit 120, a labeling unit 130, a macro execution unit 140, It includes a template calling unit 150 and a template reflecting unit 160.
  • the communication unit 100 may include both a communication module for supporting wired communication and a mobile communication module for supporting wireless communication.
  • the mobile communication module includes technical standards or communication methods for mobile communication (for example, GSM (Global System for Mobile communication), CDMA (Code Division Multi Access), CDMA2000 (Code Division Multi Access 2000)), EVDO (Enhanced Voice -Data Optimized or Enhanced Voice-Data Only), WCDMA (Wideband CDMA), HSDPA (High Speed Downlink Packet Access), HSUPA (High Speed Uplink Packet Access), LTE (Long Term Evolution), LTE-A (Long Term Evolution) Advanced), etc.), transmits and receives radio signals with at least one of a base station and an external terminal on a mobile communication network.
  • GSM Global System for Mobile communication
  • CDMA Code Division Multi Access
  • CDMA2000 Code Division Multi Access 2000
  • EVDO Enhanced Voice -Data Optimized or Enhanced Voice-Data Only
  • WCDMA Wideband CDMA
  • HSDPA High Speed Downlink Packet Access
  • the communication unit 100 performs data communication with the voice recognizer server 20.
  • Information required in the process of generating transcription data based on the voice data input into the microphone may be received from the voice recognizer server 20.
  • the communication unit 100 may communicate with a physically separated medical measurement device or medical imaging device.
  • the communication unit 100 may receive medical data or image data from a medical measurement device or a medical imaging device through wired communication or short-range wireless communication. It is also possible to transmit a control signal to a medical measuring device or a medical imaging device.
  • the storage unit 110 stores a program for generating transcription data based on the voice data.
  • the storage unit 110 collectively refers to a nonvolatile storage device and a volatile storage device that continuously maintains stored information even when power is not supplied.
  • the storage unit 110 includes a compact flash (CF) card, a secure digital (SD) card, a memory stick, a solid-state drive (SSD), and a micro Includes magnetic computer storage devices such as NAND flash memory such as SD cards, hard disk drives (HDDs), and optical disc drives such as CD-ROM and DVD-ROM, etc. can do.
  • CF compact flash
  • SD secure digital
  • SSD solid-state drive
  • magnetic computer storage devices such as NAND flash memory such as SD cards, hard disk drives (HDDs), and optical disc drives such as CD-ROM and DVD-ROM, etc. can do.
  • the storage unit 110 stores a program for generating transcription data and a labeling target word for performing a macro function from the transcription data.
  • the labeling target word may be previously set by the user.
  • the transcription data generation unit 120 generates transcription data based on the voice data input through the microphone 170 as the program stored in the storage unit 110 is executed.
  • the transcription data generation unit 120 In automatic speech recognition, since it is impossible to directly extract necessary information when the source data is speech, the transcription data generation unit 120 must perform a transcription process of converting a character string of speech data inputted to the microphone 170.
  • the transfer data generator 120 may generate transfer data in a text format.
  • the labeling unit 130 labels the generated transcription data and makes a session to be stored in the storage unit 110. Save it.
  • the labeling unit 130 determines whether the transcription data includes a labeling word target word for performing a macro function.
  • the labeling target word is preset by a user or a service provider. For example, it is implemented with keywords such as “shooting area”, “shooting location”, “capacity”, “show me”, “replace line”, and “open parentheses”. That is, the word to be labeled may be a keyword for performing a macro function.
  • the labeling unit 130 may label the "photographing position” and store it in the session.
  • the labeling unit 130 labels and stores the photographing data inputted from the medical imaging device together with the photographing position voice input for the labeling “photographing location”.
  • the photographing data may be, for example, an image photographed using an ultrasound or MRI technique or a moving image file.
  • the labeling unit 130 determines the word relevance from the entered search word, identifies the range of meaning with an ontology logic that considers medical terms, and limits the keyword search range within the meaning range. It is also possible to do it. Accordingly, voice recognition with higher accuracy may be possible in the process of transcribing and processing voice data.
  • the automatic speech recognizer 10 using a keyboard macro function may convert speech data inputted through the microphone 170 into a text format and hold it like a session. Therefore, even when it is difficult to use the hand due to the nature of the medical environment, it can serve as an auxiliary memory device that records and memorizes the current situation.
  • the last labeling unit 130 may create a session and add an identification code to the stored transcription data.
  • the macro execution unit 140 calls the transcription data sessionized by the labeling unit 130 to provide a macro instruction function. Perform the following operation.
  • the macro execution unit 140 may perform a function set to be performed accordingly.
  • information related to the "shooting location” among recorded contents that has been sessionized and stored in the labeling unit 130 so far may be highlighted and provided to be classified as visible data.
  • photographed image or photographed image information from the medical imaging device stored to be matched together with the labeling information of "the photographing location" may be further provided.
  • the transcription data generation unit 120 converts it to the transcription data, and the macro execution unit 140 performs'image shooting.
  • the image captured by the medical imaging device may be stored together with the recognized transcription data.
  • the transcription data generation unit 120 converts it into transcription data
  • the macro execution unit 140 recognizes the labeling of'image search' and stores the information. Among them, data recognized as photographing data of a corresponding part by a medical imaging device may be extracted and provided as a search result.
  • the template calling unit 150 calls a sentence template of preset transcription data according to a macro function.
  • the sentence template format is not limited to any one.
  • the sentence template format can be implemented not only in a short sentence format, but also in a format including a plurality of sentences.
  • the template calling unit 150 may call the template sentence designated as the first template from the stored template list when voice data such as "call template #1" and "call template #1" are input.
  • the template calling unit 150 may call the template by calling the contents recorded in the remote template server, which is a remote storage medium. That is, various and updatable template types can be used.
  • the template may be classified by a serial number or a context-specific keyword.
  • Identification information for classifying a template that is, a serial number or a keyword for each context may be preset by the user.
  • the template sentence called by the template calling unit 150 may be output in an audio form or a visible form through a screen.
  • the template reflecting unit 160 receives and reflects a variable value of a sentence template called based on the voice data input through the microphone 170.
  • the user may input a variable value by voice while checking the template sentence called from the template calling unit 150 that is output in a voice form or output in a visible form through a screen.
  • the template sentence called from the template calling unit 150 is "cimetropium 1)___ injection 2)____ pharyngeal anesthesia with Lidocane spray"
  • the user voices "variable value 1" through the microphone 170.
  • a template sentence is set in advance, and only variable values that can be changed according to the patient after a medical examination are inputted, thereby providing convenience in inputting medical records or operation progress.
  • inputting the variable value of the template sentence called by the template calling unit 150 can be modified and applied in various forms.
  • the template reflecting unit 160 provides a newly generated template sentence by reflecting the input variable value to the labeling unit 130 or the macro execution unit 140 to be sessionized and stored, or to perform an operation according to the template sentence.
  • the macro execution unit 140 may perform a necessary operation according to the function by using the transfer data reflecting the variable value, or the labeling unit 130 may recognize it as new data and store it as a session.
  • the automatic speech recognizer 10 according to an embodiment further includes a foot switch 30 having an on/off operation function.
  • the transcription data generator 120 generates transcription data based on voice data input to the microphone 170 when the foot switch 30 is turned on.
  • a plurality of foot switches 30 may be provided.
  • the input line may be changed according to the type and number of foot switches to be switched on, or a stored template may be called.
  • the foot switches a and b may be implemented to return to the initial state.
  • the function performed according to the operation of the foot switch 30 is not limited thereto, and is interpreted to cover various modifications. In other words, it is possible to input more various manipulation signals even if the input is not performed using a hand using the plurality of foot switches 30.
  • the automatic medical speech recognizer using a keyboard macro function may further include an artificial intelligence module.
  • the artificial intelligence (AI) module may further perform various functions requested by voice data input through the microphone 170.
  • the artificial intelligence module may include a deep learning training module, and may be implemented to self-learn an operation according to speech recognition through training.
  • the artificial intelligence module may additionally provide necessary information through a web search according to transcription data recognized as voice.
  • FIG. 3 is a flowchart illustrating a medical automatic speech recognition method using a keyboard macro function according to an embodiment of the present invention.
  • the transcription data generation unit In the medical automatic speech recognition method performed in the medical automatic speech recognition device using a keyboard macro function, first, when the micro speech data is input (S300), the transcription data generation unit generates transcription data based on the speech data input by the microphone. Generate (S320).
  • transcription data is generated based on the voice data input to the microphone.
  • the labeling unit includes a word to be labeled in order to perform a macro function in the transfer data generated by the transfer data generation unit (S330), the generated transfer data is labeled and sessionized and stored (S340 and S350).
  • the labeling unit determines whether the transcription data includes a labeling word target word for performing a macro function.
  • the labeling target word is preset by a user or a service provider. For example, it is implemented with keywords such as "shooting site”, “shooting location”, “capacity”, and “show me”. That is, the word to be labeled may be a keyword for performing a macro function.
  • the labeling unit may label the "photographing location” and store it in the session.
  • voice data input into a microphone can be converted into text and held like a session. Therefore, even when it is difficult to use the hand due to the nature of the medical environment, it can serve as an auxiliary memory device that records and memorizes the current situation.
  • the macro execution unit calls the transcription data that is sessionized and stored in the sessionization and storage step, and performs an operation according to the macro function (S360). , S365).
  • the macro execution unit may perform a function set to be performed accordingly.
  • the template calling unit calls the sentence template of the transcription data preset according to the macro function (S370)
  • the template reflecting unit receives and reflects the variable value of the called sentence template based on the voice data input into the microphone. Do (S375).
  • the template calling unit can call the template sentence designated as template #1 from the stored template list.
  • the template may be classified by a serial number, or may be implemented to be distinguished by a keyword for a certain situation.
  • the template sentence called from the template calling unit may be output in an audio form or may be output in a visible form through a screen.
  • the template reflecting unit receives and reflects the variable value of the sentence template called based on the voice data input into the microphone.
  • the user may input a variable value while checking the template sentence called from the template calling unit that is output in an audio format or output in a visible form through a screen.
  • the template sentence called from the template call part is "cimetropium 1)___ injection 2)____ pharyngeal anesthesia with Lidocane spray", enter "1 time 5mg” and "2 times 10%" as variable values.
  • the content of the template sentence can be modified and newly entered.
  • Inputting the variable value of the called template sentence can be transformed and applied in various forms.
  • the template reflecting unit provides a newly created template sentence by reflecting the input variable value to the labeling unit or the macro execution unit to be sessionized and stored, or to perform an operation accordingly.
  • the medical automatic speech recognizer may perform an operation according to the general voice data command that does not include a labeling word (S380).
  • the required information is displayed on the screen by performing an operation requested as voice data through the display unit.
  • the recognized voice is transferred to the space where data can be input on not only the electronic medical record (EMR) program of the medical institution, but also a notepad, a chat program, and various utility programs such as Korean, Word, and Excel As a result, it can be output in a text format (S390).
  • EMR electronic medical record
  • S390 various utility programs such as Korean, Word, and Excel
  • the screen output is performed, so that it is possible to output the screen as if it is directly input on a program.
  • the above-described method may be implemented as an application or in the form of program instructions that may be executed through various computer components and recorded in a computer-readable recording medium.
  • the computer-readable recording medium may include program instructions, data files, data structures, and the like alone or in combination.
  • the program instructions recorded in the computer-readable recording medium may be specially designed and constructed for the present invention, and may be known and usable to those skilled in the computer software field.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical recording media such as CD-ROMs and DVDs, magnetic-optical media such as floptical disks. media), and a hardware device specially configured to store and execute program instructions such as ROM, RAM, flash memory, and the like.
  • Examples of program instructions include not only machine language codes such as those produced by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.
  • the hardware device may be configured to operate as one or more software modules to perform the processing according to the present invention, and vice versa.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • User Interface Of Digital Computer (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

본 발명은 키보드 매크로 기능을 활용한 자동 음성 인식기 및 음성 인식 방법에 관한 것으로, 전사 데이터 생성부가 마이크로 입력되는 음성 데이터에 기초하여 전사(transcription) 데이터를 생성하는 단계 및 라벨링부가 상기 생성된 전사 데이터에 매크로 기능을 수행하기 위해 기설정된 라벨링 대상 단어가 포함되면, 상기 생성된 전사 데이터에 라벨링하고 세션화하여 저장하는 단계, 상기 생성된 전사 데이터를 가상 키보드가 입력하는 방식으로 유틸리티 프로그램 상의 데이터 입력 가능한 공간에 표시하여 디스플레이 하는 단계를 포함하는 것을 특징으로 하는 키보드 매크로 기능을 활용한 자동 음성 인식 방법에 의해 의료 현장에서 전자의무기록, 수술기록지 작성 등 실제 환자 진료시에 진료 기록을 위해 손을 사용하기 힘든 상황에서 음성을 바로 텍스트 형태로 기록하여 편리한 자동 음성 인식기 및 음성 인식 방법을 제공할 수 있는 효과가 도출된다.

Description

키보드 매크로 기능을 활용한 자동 음성 인식기 및 음성 인식 방법
본 발명은 키보드 매크로 기능을 활용한 자동 음성 인식기 및 음성 인식 방법에 관한 것으로 보다 상세하게는 음성 데이터를 전사하여 라벨링 작업을 수행하는 키보드 매크로 기능을 활용한 의료용 자동 음성 인식기 및 음성 인식 방법에 관한 것이다.
기존 EMR(전자의무기록, Electronic Medical Record) 시스템은 환자의 의료기록이 모두 전자로 입력되어 관리된다는 장점이 있지만, 환자의 치료보다 기록 자체에 의료진의 업무가 치중되어있다.
그러나 진료 시 의사는 환자가 아닌 의무기록을 입력하는 컴퓨터 화면을 보고 진료해야 하는 상황이 발생하게 된다.
특히 수술실이나 임상 병리과와 같이 진료와 동시에 손을 쓸 수 없는 경우에는 마우스/키보드 사용이 어렵기 때문에 진료와 동시에 의무 기록지나 환자의 진료 기록을 위해서는 별도의 조작을 수행해야 하고 이를 위한 보조자의 도움이 필요하게 된다.
한편, 국내등록특허 354,365호(발명의 명칭: 음성 커맨드 입력 인식 기능이 있는 상호작용형 컴퓨터 제어 디스플레이 시스템 및 그 시스템으로의 음성 커맨드입력 제공 방법)에는 음성 커맨드 입력 인식 기능이 있는 상호작용형 컴퓨터제어 디스플레이 시스템 및 그 시스템으로의 음성 커맨드입력 제공 방법에 관한 것으로, 음성 커맨드 입력 인식(speech command input recognition) 및 시각 피드백(visual feedback)을 위한 대화형 내지 상호작용형 컴퓨터 제어 디스플레이 시스템(interactive computer controlled display system)에 관한 것으로서, 이 시스템은 대응하는 다수의 시스템 동작을 제각기 개시(initiate)시키는 다수의 음성 커맨드를 사전 결정하는 수단과, 상기 다수의 커맨드 각각에 연관된 음성 용어 집합(an associated set of speech terms)을 제공하는 수단을 포함한다.
이때 각각의 용어는 자신과 연관된 커맨드에 관련성(relevance)을 가지며, 음성 커맨드와 음성용어를 감지하는 수단을 포함하고, 음성 커맨드의 감지에 응답하여 상기 커맨드를 디스플레이하는 수단과, 상기 커맨드 중 하나에 관련성을 갖는 감지된 음성 용어에 응답하여 그 관련 커맨드를 디스플레이하는 수단을 제공한다
이같이 일반적으로 음성을 인식하여 음성 커맨드에 따른 기능을 제공하는 기술에 관해서는 지속적으로 개발이 이루어지고 있다.
본 발명은 이 같은 기술적 배경에서 도출된 것으로, 의료 현장에서 전자의무기록, 수술기록지 작성 등 실제 환자 진료시에 진료 기록을 위해 손을 사용하기 힘든 상황에서 음성을 바로 텍스트 형태로 기록하여 편리한 자동 음성 인식기 및 음성 인식 방법을 제공함에 그 목적이 있다.
또한 의료 현장에서 기록 시스템의 입력란에 상시 활성화되어 있는 음성인식기를 통해 음성이 텍스트로 전사되고, 별도의 키보드나 마우스 없이 키보드 매크로 입력기를 통해 음성 입력만으로도 필요한 정보의 검색이나 명령을 수행하도록 할 수 있어 정보 처리의 효율성이 높은 자동 음성 인식기 및 음성 인식 방법을 제공하고자 한다.
상기의 과제를 달성하기 위한 본 발명은 다음과 같은 구성을 포함한다.
즉 본 발명의 일 실시예에 따른 키보드 매크로 기능을 활용한 자동 음성인식기에서 수행되는 의료용 자동 음성 인식 방법은 전사 데이터 생성부가 마이크로 입력되는 음성 데이터에 기초하여 전사(transcription) 데이터를 생성하는 단계 및 라벨링부가 상기 생성된 전사 데이터에 매크로 기능을 수행하기 위해 기설정된 라벨링 대상 단어가 포함되면, 상기 생성된 전사 데이터에 라벨링하고 세션화하여 저장하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 일 양상에 따르면, 매크로 수행부가 상기 생성된 전사 데이터에 기설정된 라벨링 대상 단어가 포함되면, 상기 세션화하여 저장하는 단계에서 세션화되어 저장된 전사 데이터를 호출하여 매크로 기능에 따른 동작을 수행하는 단계를 더 포함한다.
한편, 키보드 매크로 기능을 활용한 음성 인식기는 마이크로 입력되는 음성 데이터에 기초하여 전사(transcription) 데이터를 생성하는 전사 데이터 생성부 및 상기 전사 데이터 생성부에서 생성된 전사 데이터에 매크로 기능을 수행하기 위해 기설정된 라벨링 대상 단어가 포함되면, 상기 생성된 전사 데이터에 라벨링하고 세션화하여 저장하는 라벨링부를 포함한다.
본 발명의 일 양상에 따르면, 키보드 매크로 기능을 활용한 자동 음성 인식기는 전사 데이터 생성부에서 생성된 전사 데이터에 기 설정된 라벨링 대상 단어가 포함되면, 상기 라벨링 부에서 세션화된 전사 데이터를 호출하여 매크로 기능에 따른 동작을 수행하는 매크로 수행부를 더 포함한다.
본 발명에 따르면, 의료 현장에서 전자의무기록, 수술기록지 작성 등 실제 환자 진료시에 진료 기록을 위해 손을 사용하기 힘든 상황에서 음성을 바로 텍스트 형태로 기록하여 편리한 자동 음성 인식기 및 음성 인식 방법을 제공할 수 있는 효과가 도출된다.
또한 본 발명에 따른 키보드 매크로 기능을 활용한 자동 음성인식기 및 음성 인식방법에 의하면 특히 의료 현장에서 기록 시스템의 입력란에 상시 활성화되어있는 음성인식기를 통해 음성이 텍스트로 전사되고, 별도의 키보드나 마우스 없이 키보드 매크로 입력기를 통해 음성 입력만으로도 필요한 정보의 검색이나 명령을 수행하도록 할 수 있어 정보 처리 효율성이 높은 의료용 자동 음성 인식기 및 음성 인식 방법을 제공할 수 있다.
구체적으로 수술실에서 수술중인 경우와 같이 별도의 마우스나 키보드의 조작이 불가능한 상황에서 환경에 구애받지 않고 직접 음성으로 의료 정보를 기록할 수 있어 정보의 정확도를 높일 수 있고 환자의 치료나 수술과정에 대한 집중도를 더욱 높일 수 있다.
나아가 의료환경 특성상 의사가 환자 진료를 보면서 의무 기록을 입력하는 시간이 여의치 않기 때문에 입력 방식을 음성 입력으로 대체함으로써 편의성을 증대시킬 수 있고 의사들의 시간 효율성을 높일 수 있다.
도 1 은 본 발명의 일 실시예에 따른 키보드 매크로 기능을 활용한 의료용 자동 음성 인식기의 동작을 설명하기 위한 예시도,
도 2 는 본 발명의 일 실시예에 따른 키보드 매크로 기능을 활용한 의료용 자동 음성 인식기의 구성을 도시한 블록도,
도 3 은 본 발명의 일 실시예에 따른 키보드 매크로 기능을 활용한 의료용 자동 음성 인식방법을 도시한 흐름도이다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명한다.
도 1 은 본 발명의 일 실시예에 따른 키보드 매크로 기능을 활용한 의료용 자동 음성 인식기의 동작을 설명하기 위한 예시도이다.
도 1 에서와 같이 일 실시예에 따른 키보드 매크로 기능을 활용한 자동 음성 인식기(10)는 의료 현장에서 마이크를 통해 음성 메시지를 수신한다. 그러면, 자동 음성 인식기(10)는 음성 인식기 서버(20)와 통신을 수행하면서 음성 데이터에 기초한 전사데이터를 생성한다.
이때 음성 인식기 서버(20)는 일 실시예에 따른 의료용 자동 음성 인식 서비스를 제공하는 플랫폼을 포함한다. 그리고 음성 인식기 서버(20)는 자동 음성 인식기(10)로 음성 데이터를 전사하기 위해 필요한 기반 정보들을 제공할 수 있다.
자동 음성 인식기(10)는 전사 데이터를 기초로 자동으로 키보드 입력 기능을 수행한다. 즉, 일 실시예에 따른 자동 음성 인식기(10)는 실제 물리적인 키보드나 마우스의 조작 신호가 입력되지 않더라도 키보드 매크로 입력기 기능에 의해 전사 데이터에 따른 동작이나 기능을 수행할 수 있다.
본 발명에 따르면 자동 음성 인식기(10)가 의료 현장에서 기록 시스템의 입력란에 활용되고 있는 음성 인식기 서버(20)를 통해 입력된 음성을 텍스트로 전사한 후, 키보드 매크로 입력기를 통해 별도의 마우스나 키보드의 사용 없이 자동으로 입력되어 저장된다.
일 예로 음성 내용 중 촬영 위치 정보 등을 별도로 라벨링하여 세션에 저장하고, 촬영 위치나 특정 정보에 관해 음성으로 요청하면 촬영 위치와 관련된 정보를 하이라이트하여 보여주거나 음성으로 피드백하고, 음성 탬플릿 내 빈칸 즉 변수값에 대한 수정 및 입력 처리도 가능하다.
또한 일 실시예에 따른 자동 음성 인식기(10)는 전자 의무 기록(EMR) 프로그램 뿐 아니라 메모장, 채팅 프로그램, 한글이나 워드, 엑셀과 같은 다양한 유틸리티 프로그램 상의 데이터 입력 가능한 공간에 인식된 음성을 전사하여 텍스트 형태로 출력해줄 수 있다.
기존에는 음성 인식된 전사된 텍스트 형식의 정보를 마우스로 스크랩해서 복사하고 필요한 영역에 붙여 넣는 작업이 필요했다. 그러나 본 발명의 일 실시예에 따른 자동 음성 인식기(10)는 음성 인식된 내용을 직접 가상 키보드가 입력되는 방식으로 텍스트 변환하여 화면 출력해주기 때문에 프로그램 상에 직접 키보드로 입력하는 것과 같이 화면 출력되는 것이 가능하다.
이에 따라 자동 음성 인식기(10)에서 인식되는 음성을 텍스트 형식으로 표시함에 있어 전사된 내용을 적용 가능한 프로그램의 범위가 넓다는 장점이 있다.
따라서 일 실시예에 따른 자동 음성 인식기(10)는 의료 산업 내에서 EMR 프로그램 종류에 구애받지 않고 입력란이 존재하면 별도의 연동작업 없이 입력란 안에 음성인식을 거쳐 나온 결과물을 실제 키보드로 입력하는 것처럼 입력할 수 있다.
또한 일 실시예에 따른 자동 음성 인식기(10)는 전자 의무 기록(EMR) 프로그램 뿐 아니라 의료영상저장전송시스템(PACS) 및 각종 의료프로그램에도 적용될 수 있다.
일 실시예에 있어서 자동 음성 인식기(10)는 IP 할당된 단말기로서 인터넷 등을 통해 음성 인식기 서버(20)와 네트워크 통신을 수행한다. 일 예로 데스크탑 PC(desktop PC), 슬레이트 PC(slate PC), 노트북 컴퓨터(notebook computer) PMP(Portable Multimedia Player), 울트라북(ultrabook), 웨어러블 디바이스(wearable device, 예를 들어, 워치형 단말기 (smartwatch), 글래스형 단말기(smart glass), HMD(head mounted display))등이 해당 될 수 있다.
물론, 본 발명이 적용 가능한 단말기는 상술한 종류에 한정되지 않고, 외부 장치와 통신이 가능한 형태의 단말기를 모두 포함하도록 해석될 수 있다.
뿐만 아니라, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰 (smartphone), 스마트 패드(smartpad), 태블릿 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 모두 포함하도록 해석될 수 있다.
도 2 는 본 발명의 일 실시예에 따른 키보드 매크로 기능을 활용한 자동 음성 인식기의 구성을 도시한 블록도이다.
도 2 와 같이 일 실시예에 따른 키보드 매크로 기능을 활용한 자동 음성 인식기(10)는 마이크(170)로 입력되는 음성 데이터를 수신한다. 그리고 풋 스위치(30)로 온/오프 신호를 입력받는다.
또한 디스플레이부(40)를 통해 음성 데이터로 요청되는 동작을 수행함으로써 필요한 정보들을 화면에 표시해줄 수 있다.
이때 디스플레이부(40)를 통해 정보들을 화면에 표시함에 있어, 의료 기관의 전자 의무 기록(EMR) 프로그램 뿐 아니라 메모장, 채팅 프로그램, 한글이나 워드, 엑셀과 같은 다양한 유틸리티 프로그램 상의 데이터 입력 가능한 공간에 인식된 음성을 전사하여 텍스트 형태로 출력해줄 수 있다.
음성 인식된 내용을 직접 가상 키보드가 입력되는 방식으로 텍스트 변환하여 화면 출력해주기 때문에 프로그램 상에 직접 키보드로 입력하는 것과 같이 화면 출력되는 것이 가능하다.
이에 따라 자동 음성 인식기(10)에서 인식되는 음성을 텍스트 형식으로 표시함에 있어 전사된 내용을 적용 가능한 프로그램의 범위가 넓다는 장점이 있다.
따라서 일 실시예에 따른 자동 음성 인식기(10)는 의료 산업 내에서 EMR 프로그램 종류에 구애받지 않고 입력란이 존재하면 별도의 연동작업 없이 입력란 안에 음성인식을 거쳐 나온 결과물을 실제 키보드로 입력하는 것처럼 입력할 수 있다.
뿐만 아니라 자동 음성 인식기(10)는 다양한 영상기기나 의료 기기와 연동되는 것도 가능하다. 즉, 일 실시예에 있어서 마이크(170)로 입력되는 음성 데이터 또는 풋 스위치(30)의 온/오프 조작에 따라 연동되는 영상 기기나 의료 기기의 동작을 제어할 수도 있다.
일 양상에 있어서 풋 스위치(30)는 온오프 조작 기능을 구비한다. 일 실시예에 따른 자동 음성 인식기(10)는 하나의 풋 스위치(30)를 발로 밟고 있는 동안 음성인식기 내 마이크(170)가 활성화되고 발을 떼면 마이크(170)가 비활성화되도록 구현된다.
기존에는 자동 음성 인식기(10)를 활성화하려면 마이크에 내장된 버튼으로 녹음을 활성화하거나, 마우스 클릭을 통해 마이크를 활성화해야 했다. 본 발명의 이 같은 양상에 따르면 손을 사용하기 힘든 상황에서 풋 스위치(30)에서 발신되는 신호를 자동 음성 인식기(10)에서 구동되는 프로그램에서 받아 음성인식기(10)를 활성화시키는 트리거로 활용함으로써 편리함을 제공할 수 있다. 사용자의 선택에 따라 마이크에 내장된 버튼이나 마우스 클릭을 통해 마이크를 활성화 시킬 수 있도록 구현되는 것도 가능하다.
또한 다른 실시예에 따르면 풋 스위치(30)가 복수 개 구비된다. 그리고 풋 스위치(30)가 여러 개가 될 경우 온 상태의 풋 스위치(30)마다 입력하는 줄을 바꾸거나, 저장된 템플릿을 불러오는 등 서로 다른 기능을 수행하도록 설정할 수도 있다.
또 다른 실시예에 따르면 자동 음성 인식기(10)와 마이크(170)가 활성화된 상태에서 자동 음성 인식기(10)는 마이크(170)로 입력되는 음성을 세션 형태로 기록하면서 주시하다가, 특정 개시 키워드 예를 들어 "기록 시작"과 같은 기 설정된 키워드가 검출되면 이후부터 음성인식 된 결과물을 키보드 매크로 기반 입력기로 입력한다.
즉, "기록 시작"이라는 키워드에 의해 전사된 데이터를 키보드로 입력하는 형태로 디스플레이부(40)에 표시하도록 구현된다.
반면 특정 종료 키워드("기록 종료")가 검출되면 이후부터 음성 인식된 결과물을 다시 세션 형태로 기록하면서 특정 개시 키워드가 검출될 때까지 대기하게 된다. 즉, "기록 종료"와 같이 기록을 종료하는 의미의 기 설정된 키워드가 인식되면 이후에는 음성 인식이 되더라도 전사된 내용이 디스플레이부(40)에 표시되지 않도록 구현될 수 있다.
일 양상에 있어서 본 발명에 따르면 의료 현장에서 기록 시스템의 입력란에 상시 활성화 되어 있는 자동 음성 인식기(10)를 통해 입력되는 음성을 텍스트로 전사하고, 별도의 키보드나 마우스 없이 키보드 매크로 입력기를 통해 전사된 텍스트들이 입력되는 방식의 자동 음성 입력기를 제공할 수 있다.
일 실시예에 따른 키보드 매크로 기능을 활용한 자동 음성 인식기(10)는 통신부(100), 저장부(110), 전사 데이터 생성부(120), 라벨링부(130), 매크로 수행부(140), 템플릿 호출부(150) 및 템플릿 반영부(160)를 포함한다.
통신부(100)는 유선 통신을 지원하기 위한 통신 모듈과, 무선 통신을 지원하기 위한 이동통신 모듈을 모두 포함할 수 있다. 이동통신 모듈은, 이동통신을 위한 기술표준들 또는 통신방식(예를 들어, GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), CDMA2000(Code Division Multi Access 2000), EVDO(Enhanced Voice-Data Optimized or Enhanced Voice-Data Only), WCDMA(Wideband CDMA), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced) 등)에 따라 구축된 이동 통신망 상에서 기지국 및 외부의 단말 중 적어도 하나와 무선 신호를 송수신한다.
일 실시예에 있어서 통신부(100)는 음성 인식기 서버(20)와 데이터 통신을 수행한다. 마이크로 입력되는 음성 데이터에 기초하여 전사 데이터를 생성하는 과정에서 필요한 정보들을 음성 인식기 서버(20)로부터 수신할 수 있다.
또한 통신부(100)는 물리적으로 분리된 의료측정기기 또는 의료영상 기기와 통신을 수행할 수 있다. 통신부(100)는 의료측정기기 또는 의료영상기기로부터 유선 통신이나 근거리 무선통신 방식으로 의료 데이터나 영상 데이터를 수신할 수 있다. 또한 의료측정기기 또는 의료영상기기로 제어 신호를 송신하는 것도 가능하다.
저장부(110)는 음성데이터에 기초하여 전사데이터를 생성하기 위한 프로그램을 저장한다. 여기에서, 저장부(110)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 휘발성 저장장치를 통칭하는 것이다.
예를 들어, 저장부(110)는 콤팩트 플래시(compact flash; CF) 카드, SD(secure digital) 카드, 메모리 스틱(memory stick), 솔리드 스테이트 드라이브(solid-state drive; SSD) 및 마이크로(micro) SD 카드 등과 같은 낸드 플래시 메모리(NAND flash memory), 하드 디스크 드라이브(hard disk drive; HDD) 등과 같은 마그네틱 컴퓨터 기억 장치 및 CD-ROM, DVD-ROM 등과 같은 광학 디스크 드라이브(optical disc drive) 등을 포함할 수 있다.
일 실시예에 있어서 저장부(110)는 전사데이터를 생성하기 위한 프로그램과 전사 데이터로부터 매크로 기능 수행을 위한 라벨링 대상 단어를 저장한다. 라벨링 대상 단어는 미리 사용자에 의해 설정된 것일 수 있다.
전사 데이터 생성부(120)는 저장부(110)에 저장된 프로그램을 실행시킴에 따라, 마이크(170)로 입력되는 음성 데이터에 기초하여 전사(transcription) 데이터를 생성한다.
자동 음성 인식에 있어서, 원천 데이터가 음성일 경우 필요한 정보를 직접 추출하는 것이 불가능하기 때문에 전사 데이터 생성부(120)는 마이크(170)로 입력되는 음성 데이터의 문자열을 변환하는 전사 과정이 필수적이다.
일 실시예에 있어서 전사 데이터 생성부(120)는 텍스트 형식의 전사 데이터를 생성할 수 있다.
라벨링부(130)는 전사 데이터 생성부(120)에서 생성된 전사 데이터에 매크로 기능을 수행하기 위해 기설정된 라벨링 대상 단어가 포함되면, 생성된 전사 데이터에 라벨링하고 세션화하여 저장부(110)에 저장한다.
라벨링부(130)는 전사 데이터에 매크로 기능의 수행을 위한 라벨링 단어 대상 단어가 포함되었는지 여부를 파악한다.
라벨링 대상 단어는 사용자 또는 서비스 제공자에 의해 기설정된 것이다. 예를 들어 "촬영 부위", "촬영 위치", "용량", "보여줘", "줄바꾸고", "괄호 열고"와 같은 키워드로 구현된다. 즉 라벨링 대상 단어는 매크로 기능을 수행하기 위한 키워드가 될 수 있다.
예를 들어 마이크(170)를 통해 "이 촬영 위치는 ascending colon이야" 라는 음성 데이터가 입력되면 라벨링부(130)는 "촬영 위치"를 라벨링하여 세션에 보관할 수 있다.
이때 라벨링부(130)는 "촬영 위치"라는 라벨링에 대해 음성으로 입력되는 촬영 위치와 함께 의료촬영기기로부터 입력되는 촬영 데이터를 함께 라벨링하여 저장한다. 촬영 데이터는 예를 들어 초음파나 MRI 기법으로 촬영된 이미지이거나 동영상 파일일 수 있다.
보조적 양상에 있어서 라벨링부(130)는 사용자가 키워드를 입력하게 되면 입력한 검색어로부터 단어 관련성을 판단하여 의학용어를 고려한 온톨로지(Ontology)로직으로 의미의 범위를 파악하여 의미 범위 내로 키워드 검색범위를 제한하는 것도 가능하다. 이에 따라 음성 데이터를 전사하고 처리하는 과정에서 보다 정확도 높은 음성 인식이 가능해질 수 있다.
즉 일 실시예에 따른 키보드 매크로 기능을 활용한 자동 음성 인식기(10)는 마이크(170)로 입력되는 음성 데이터를 텍스트 형태로 변환하여 세션처럼 들고 있을 수 있다. 따라서 의료 환경 특성상 손의 사용이 어려운 경우에도 현재 상황을 기록하고 기억하는 보조 기억 장치로서의 역할을 할 수 있다.
예를 들어 마이크를 통해 미리 약정된 코드를 음성으로 입력한 후에 환자의 성명이나 진료코드와 같은 정보를 입력하면 최근 라벨링부(130)에서 세션화하여 저장된 전사 데이터에 식별 코드로 추가할 수 있다.
매크로 수행부(140)는 전사 데이터 생성부(120)에서 생성된 전사 데이터에 기설정된 라벨링 대상 단어가 포함되면, 라벨링부(130)에서 세션화된 전사 데이터를 호출하여 매크로(macro instruction) 기능에 따른 동작을 수행한다.
즉, 매크로 수행부(140)는 전사 데이터에 매크로 기능을 수행하기로 설정된 라벨링 단어가 입력되면 그에 따라 수행하도록 설정된 기능을 수행할 수 있다.
예를 들어 "촬영 위치 알려줘"라는 음성 데이터가 입력되면 지금까지 라벨링부(130)에서 세션화되어 저장된 기록 내용 중 "촬영 위치"와 관련된 정보들을 하이라이트 시켜서 가시적인 데이터로 구분되도록 제공해줄 수 있다. 뿐만 아니라 음성을 통해 촬영 위치에 관한 데이터들에 관한 정보를 피드백해 주는 것도 가능하다.
또한 "촬영 위치"라는 라벨링 정보와 함께 매칭되게 저장된 의료 영상 기기로부터의 촬영 이미지 또는 촬영 영상 정보를 더 제공할 수 있다.
예를 들어 "영상 촬영, Transverse colon을 지나왔고 이제 ascending colon 으로 들어간다."라는 음성이 인식되면, 전사 데이터 생성부(120)가 이를 전사 데이터로 변환하고, 매크로 수행부(140)는 '영상 촬영'이라는 라벨링을 인식하여 의료 영상 기기로 촬영되는 영상을 인식되는 전사 데이터와 함께 저장하도록 수행할 수 있다.
이후에 "영상 검색, Transverse colon 에서 ascending colon"라는 음성이 인식되면 전사 데이터 생성부(120)가 이를 전사 데이터로 변환하고, 매크로 수행부(140)는 '영상 검색' 이라는 라벨링을 인식하여 저장된 정보들 중 의료 영상 기기로 해당 부위 촬영 데이터로 인식 되는 데이터를 추출하여 검색 결과로 제공할 수 있다.
일 양상에 있어서 템플릿 호출부(150)는 매크로 기능에 따라 기설정된 전사 데이터의 문장 템플릿을 호출한다. 문장 템플릿 형식은 어느 하나로 한정되지 않는다. 문장 템플릿 형식은 단문장 형식뿐 아니라 복수의 문장을 포함하는 형식으로 구현되는 것도 가능하다.
템플릿 호출부(150)는 예를 들어 "1번 템플릿 호출", "1번 템플릿 불러와"와 같은 음성 데이터가 입력되면 저장된 템플릿 리스트에서 1번 템플릿으로 지정된 템플릿 문장을 불러올 수 있다.
여기서 템플릿 호출부(150)는 원격 저장 매체인 원격 템플릿 서버에 기록된 내용을 불러들이는 방법으로 템플릿을 호출할 수도 있다. 즉 다양하고, 업데이트 가능한 템플릿 형태를 이용할 수 있다.
이때 템플릿의 구분은 일련 번호로 구분하거나, 상황별 키워드로 구분하도록 구현될 수도 있다. 템플릿 구분을 위한 식별 정보 즉, 일련번호나 상황별 키워드는 사용자에 의해 미리 설정된 것일 수 있다.
이때 템플릿 호출부(150)에서 호출되는 템플릿 문장은 음성 형태로 출력되거나 화면을 통해 가시적인 형태로 출력될 수 있다.
템플릿 반영부(160)는 마이크(170)로 입력되는 음성 데이터에 기초하여 호출된 문장 템플릿의 변수값을 입력받아 반영한다.
사용자는 음성 형태로 출력되거나 화면을 통해 가시적인 형태로 출력되는 템플릿 호출부(150)에서 호출된 템플릿 문장을 확인하면서 음성으로 변수값을 입력할 수 있다.
예를 들어 템플릿 호출부(150)에서 호출된 템플릿 문장이 "cimetropium 1)___ 주사후 2)___ Lidocane 스프레이로 인두마취 시행함" 일 경우에 사용자는 마이크(170)를 통해 음성으로 "변수값 1번 5mg", "변수값 2번10%" 를 입력하여 템플릿 문장의 내용을 수정 하거나 변수값을 새롭게 입력할 수 있다.
즉 반복될 수 있는 상황에 대해서는 미리 템플릿 문장을 설정해 놓고 진료 검사 후 환자에 따라 변경될 수 있는 변수값만을 입력함으로써 진료 기록이나 수술 진행 상황을 입력함에 있어 편의성을 제공할 수 있다.
이때 템플릿 호출부(150)에서 호출된 템플릿 문장의 변수값을 입력하는 것은 다양한 형태로 변형 및 적용이 가능하다.
템플릿 반영부(160)는 입력되는 변수값을 반영하여 새로이 생성되는 템플릿 문장을 라벨링부(130) 또는 매크로 수행부(140)로 제공하여 세션화되어 저장되도록 하거나, 그에 따른 동작을 수행하도록 한다.
즉 매크로 수행부(140)는 변수값이 반영된 전사 데이터를 이용하여 그 기능에 따른 필요한 동작을 수행하거나 라벨링부(130)에서 새로운 데이터로 인식하고 세션화하여 저장할 수 있다.
본 발명의 추가적인 양상에 따라 일 실시예에 따른 자동 음성 인식기(10)는 온오프 조작 기능을 구비한 풋 스위치(30)를 더 포함한다.
그리고 전사 데이터 생성부(120)는 풋 스위치(30)가 온(ON) 상태일 때 마이크(170)로 입력되는 음성 데이터에 기초하여 전사(transcription) 데이터를 생성한다.
이 양상에 따르면 손을 사용하기 힘든 상황에서 풋 스위치(30)에서 발신되는 신호를 자동 음성 인식기(10)에서 구동되는 프로그램에서 받아 음성인식기(10)를 활성화시키는 트리거로 활용함으로써 편리함을 제공할 수 있다.
나아가 풋 스위치(30)가 복수개 구비될 수 있다. 풋 스위치(30)가 복수개일 경우에 스위치 온 되는 풋 스위치의 종류 및 개수에 따라 입력하는 줄을 바꾸거나, 저장된 템플릿을 호출해오는 등의 기능을 하도록 구현될 수 있다.
예를 들어 풋스위치 a, b, c가 있는 경우에 풋 스위치 a가 온 상태이면 마이크로 입력되는 음성 데이터로부터 전사 데이터를 생성하고, 풋 스위치 b만 온 상태이면 마이크로 입력되는 음성 데이터로부터 전사 데이터를 생성하여 그대로 저장하며, 풋 스위치 c만 온 상태이면 템플릿 호출 모드로 동작하도록 구현된다.
또한 풋 스위치 a 와 b가 동시에 스위치 온 상태이면 초기 상태로 돌아가도록 구현되는 것도 가능하다. 풋 스위치(30) 조작에 따라 수행되는 기능이 이에 한정되는 것은 아니고 다양한 변형예들을 포괄하도록 해석된다. 즉 복수의 풋 스위치(30)를 이용하여 손을 사용하여 입력하지 않더라도 보다 다양한 조작 신호의 입력이 가능해진다.
본 발명의 일 양상에 있어서 키보드 매크로 기능을 활용한 의료용 자동 음성 인식기는 인공지능 모듈을 더 포함할 수 있다.
인공지능(AI) 모듈은 마이크(170)로 입력되는 음성 데이터에 의해 요청되는 다양한 기능을 더 수행할 수 있다. 또한 인공 지능 모듈은 딥러닝(Deep learnning) 훈련 모듈을 포함하여, 음성 인식에 따른 동작을 훈련을 통해 자가 학습하도록 구현되는 것이 가능하다. 일 실시예에 있어서 인공 지능 모듈은 음성으로 인식되는 전사 데이터에 따라 필요한 정보들을 웹검색을 통해 추가로 제공할 수도 있다.
도 3 은 본 발명의 일 실시예에 따른 키보드 매크로 기능을 활용한 의료용 자동 음성 인식방법을 도시한 흐름도이다.
키보드 매크로 기능을 활용한 의료용 자동 음성인식기에서 수행되는 의료용 자동 음성 인식 방법에 있어서, 먼저 전사 데이터 생성부는 마이크로 음성 데이터가 입력되면(S300), 마이크로 입력되는 음성 데이터에 기초하여 전사(transcription) 데이터를 생성한다(S320).
이때, 전사 데이터를 생성하는 단계는 온오프 조작 기능을 구비한 풋 스위치가 온(ON) 상태일 때(S310) 마이크로 입력되는 음성 데이터에 기초하여 전사(transcription) 데이터를 생성한다.
이 양상에 따르면 손을 사용하기 힘든 상황에서 풋 스위치에서 발신되는 신호를 의료용 자동 음성 인식기에서 구동되는 프로그램에서 받아 음성인식기를 활성화시키는 트리거로 활용함으로써 편리함을 제공할 수 있다.
그리고 라벨링부는 전사 데이터 생성부에서 생성된 전사 데이터에 매크로 기능을 수행하기 위해 기설정된 라벨링 대상 단어가 포함되면(S330), 생성된 전사 데이터에 라벨링하고 세션화하여 저장한다(S340, S350).
라벨링부는 전사 데이터에 매크로 기능의 수행을 위한 라벨링 단어 대상 단어가 포함되었는지 여부를 파악한다.
라벨링 대상 단어는 사용자 또는 서비스 제공자에 의해 기설정된 것이다. 예를 들어 "촬영 부위", "촬영 위치", "용량", "보여줘"와 같은 키워드로 구현된다. 즉 라벨링 대상 단어는 매크로 기능을 수행하기 위한 키워드가 될 수 있다.
예를 들어 마이크를 통해 "이 촬영 위치는 ascending colon이야"라는 음성 데이터가 입력되면 라벨링부는 "촬영 위치"를 라벨링하여 세션에 보관할 수 있다.
즉 마이크로 입력되는 음성 데이터를 텍스트 형태로 변환하여 세션처럼 들고 있을 수 있다. 따라서 의료 환경 특성상 손의 사용이 어려운 경우에도 현재 상황을 기록하고 기억하는 보조 기억 장치로서의 역할을 할 수 있다.
반면, 매크로 수행부는 전사 데이터 생성부에서 생성된 전사 데이터에 기설정된 라벨링 대상 단어가 포함되면, 세션화하여 저장하는 단계에서 세션화되어 저장된 전사 데이터를 호출하여 매크로 기능에 따른 동작을 수행한다(S360, S365).
일 실시예에 있어서 매크로 수행부는 전사 데이터에 매크로 기능을 수행하기로 설정된 라벨링 단어가 입력되면 그에 따라 수행하도록 설정된 기능을 수행할 수 있다.
예를 들어 "촬영 위치 알려줘"라는 음성 데이터가 입력되면 지금까지 라벨링부(130)에서 세션화되어 저장된 기록 내용 중 "촬영 위치"와 관련된 정보들을 하이라이트 시켜서 가시적인 데이터로 제공해줄 수 있다. 뿐만 아니라 음성을 통해 피드백해 주는 것도 가능하다.
본 발명의 일 양상에 있어서 템플릿 호출부가 매크로 기능에 따라 기설정된 전사 데이터의 문장 템플릿을 호출하면(S370), 템플릿 반영부는 마이크로 입력되는 음성 데이터에 기초하여 호출된 문장 템플릿의 변수값을 입력받아 반영한다(S375).
템플릿 호출부는 예를 들어 "1번 템플릿 호출", "1번 템플릿 불러와"와 같은 음성 데이터가 입력되면 저장된 템플릿 리스트에서 1번 템플릿으로 지정된 템플릿 문장을 불러올 수 있다.
이때 템플릿의 구분은 일련 번호로 구분하거나, 어떤 상황에 대한 키워드로 구분 가능하게 구현될 수도 있다.
템플릿 호출부에서 호출되는 템플릿 문장은 음성 형태로 출력되거나 화면을 통해 가시적인 형태로 출력될 수 있다.
그리고 템플릿 반영부는 마이크로 입력되는 음성 데이터에 기초하여 호출된 문장 템플릿의 변수값을 입력받아 반영한다.
사용자는 음성 형태로 출력되거나 화면을 통해 가시적인 형태로 출력되는 템플릿 호출부에서 호출된 템플릿 문장을 확인하면서 변수값을 입력할 수 있다.
예를 들어 템플릿 호출부에서 호출된 템플릿 문장이 " cimetropium 1)___ 주사후 2)___ Lidocane 스프레이로 인두마취 시행함" 일 경우에 변수값으로 "1번 5mg", "2번10%" 를 입력하여 템플릿 문장의 내용을 수정 및 새롭게 입력할 수 있다. 호출된 템플릿 문장의 변수값을 입력하는 것은 다양한 형태로 변형 및 적용이 가능하다.
템플릿 반영부는 입력되는 변수값을 반영하여 새로이 생성되는 템플릿 문장을 라벨링부 또는 매크로 수행부로 제공하여 세션화되어 저장되도록 하거나, 그에 따른 동작을 수행하도록 한다.
추가적으로 일 실시예에 따른 키보드 매크로 기능을 활용한 의료용 자동 음성 인식방법에 따르면 의료용 자동음성 인식기는 라벨링 단어가 포함되지 않은 일반 음성 데이터 명령에 대해서도 그에 따른 동작을 수행할 수 있다(S380).
이후에 디스플레이부를 통해 음성 데이터로 요청되는 동작을 수행함으로써 필요한 정보들을 화면에 표시해준다.
이때 디스플레이부를 통해 정보들을 화면에 표시함에 있어, 의료 기관의 전자 의무 기록(EMR) 프로그램 뿐 아니라 메모장, 채팅 프로그램, 한글이나 워드, 엑셀과 같은 다양한 유틸리티 프로그램 상의 데이터 입력 가능한 공간에 인식된 음성을 전사하여 텍스트 형태로 출력해줄 수 있다(S390).
음성 인식된 내용을 직접 가상 키보드가 입력되는 방식으로 텍스트 변환하여 화면 출력해주기 때문에 프로그램 상에 직접 키보드로 입력하는 것과 같이 화면 출력되는 것이 가능하다.
전술한 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.
상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD 와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.
프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

Claims (10)

  1. 키보드 매크로 기능을 활용한 자동 음성 인식기에서 수행되는 자동 음성 인식 방법에 있어서,
    전사 데이터 생성부가 마이크로 입력되는 음성 데이터에 기초하여 전사(transcription) 데이터를 생성하는 단계; 및
    라벨링부가 상기 생성된 전사 데이터에 매크로 기능을 수행하기 위해 기설정된 라벨링 대상 단어가 포함되면, 상기 생성된 전사 데이터에 라벨링하고 세션화하여 저장하는 단계;를 포함하는 것을 특징으로 하는 키보드 매크로 기능을 활용한 자동 음성 인식 방법.
  2. 제 1 항에 있어서,
    상기 생성된 전사 데이터를 가상 키보드가 입력하는 방식으로 유틸리티 프로그램 상의 데이터 입력 가능한 공간에 표시하여 디스플레이 하는 단계;를 더 포함하는 것을 특징으로 하는 키보드 매크로 기능을 활용한 자동 음성 인식 방법.
  3. 제 1 항에 있어서,
    매크로 수행부가 상기 생성된 전사 데이터에 기설정된 라벨링 대상 단어가 포함되면, 상기 세션화하여 저장하는 단계에서 세션화되어 저장된 전사 데이터를 호출하여 매크로 기능에 따른 동작을 수행하는 단계;를 더 포함하는 것을 특징으로 하는 키보드 매크로 기능을 활용한 동 음성 인식 방법.
  4. 제 1 항에 있어서,
    템플릿 호출부가 매크로 기능에 따라 기설정된 전사 데이터의 문장 템플릿을 호출하는 단계; 및
    템플릿 반영부가 마이크로 입력되는 음성 데이터에 기초하여 호출된 문장 템플릿의 변수값을 입력받아 반영하는 단계;를 더 포함하는 것을 특징으로 하는 키보드 매크로 기능을 활용한 자동 음성 인식 방법.
  5. 제 1 항에 있어서,
    상기 전사 데이터를 생성하는 단계는 온오프 조작 기능을 구비한 풋 스위치가 온(ON) 상태일 때 상기 마이크로 입력되는 음성 데이터에 기초하여 전사(transcription) 데이터를 생성하는 것을 특징으로 하는 키보드 매크로 기능을 활용한 자동 음성 인식 방법.
  6. 마이크로 입력되는 음성 데이터에 기초하여 전사(transcription) 데이터를 생성하는 전사 데이터 생성부; 및
    상기 전사 데이터 생성부에서 생성된 전사 데이터에 매크로 기능을 수행하기 위해 기설정된 라벨링 대상 단어가 포함되면, 상기 생성된 전사 데이터에 라벨링하고 세션화하여 저장하는 라벨링부;를 포함하는 것을 특징으로 하는 키보드 매크로 기능을 활용한 자동 음성 인식기.
  7. 제 6 항에 있어서,
    상기 전사 데이터 생성부에서 생성된 전사 데이터를 가상 키보드가 입력하는 방식으로 유틸리티 프로그램상의 데이터 입력 가능한 공간에 표시하는 디스플레이부;를 더 포함하는 것을 특징으로 하는 키보드 매크로 기능을 활용한 자동 음성 인식기.
  8. 제 6 항에 있어서,
    상기 전사 데이터 생성부에서 생성된 전사 데이터에 기 설정된 라벨링 대상 단어가 포함되면, 상기 라벨링 부에서 세션화된 전사 데이터를 호출하여 매크로 기능에 따른 동작을 수행하는 매크로 수행부;를 더 포함하는 것을 특징으로 하는 키보드 매크로 기능을 활용한 자동 음성 인식기.
  9. 제 6 항에 있어서,
    상기 매크로 기능에 따라 기설정된 전사 데이터의 문장 템플릿을 호출하는 템플릿 호출부; 및
    마이크로 입력되는 음성 데이터에 기초하여 호출된 문장 템플릿의 변수값을 입력받아 반영하는 템플릿 반영부;를 더 포함하는 것을 특징으로 하는 키보드 매크로 기능을 활용한 자동 음성 인식기.
  10. 제 6 항에 있어서,
    온오프 조작 기능을 구비한 풋 스위치;를 더 포함하고,
    상기 전사 데이터 생성부는 상기 풋 스위치가 온(ON) 상태일 때 상기 마이크로 입력되는 음성 데이터에 기초하여 전사(transcription) 데이터를 생성하는 것을 특징으로 하는 키보드 매크로 기능을 활용한 자동 음성 인식기.
PCT/KR2020/010359 2019-10-29 2020-08-05 키보드 매크로 기능을 활용한 자동 음성 인식기 및 음성 인식 방법 WO2021085811A1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2022525632A JP2023501283A (ja) 2019-10-29 2020-08-05 キーボードマクロ機能を活用した自動音声認識器および音声認識方法
US17/772,962 US11977812B2 (en) 2019-10-29 2020-08-05 Automatic speech recognizer and speech recognition method using keyboard macro function
CN202080074937.7A CN114830230A (zh) 2019-10-29 2020-08-05 利用键盘宏功能的自动语音识别器及语音识别方法
EP20880679.4A EP4053837A4 (en) 2019-10-29 2020-08-05 AUTOMATIC LANGUAGE RECOGNIZER AND VOICE RECOGNITION PROCESS WITH KEYBOARD MACRO FUNCTION

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190135488A KR102153668B1 (ko) 2019-10-29 2019-10-29 키보드 매크로 기능을 활용한 자동 음성 인식기 및 음성 인식 방법
KR10-2019-0135488 2019-10-29

Publications (1)

Publication Number Publication Date
WO2021085811A1 true WO2021085811A1 (ko) 2021-05-06

Family

ID=72451540

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/010359 WO2021085811A1 (ko) 2019-10-29 2020-08-05 키보드 매크로 기능을 활용한 자동 음성 인식기 및 음성 인식 방법

Country Status (6)

Country Link
US (1) US11977812B2 (ko)
EP (1) EP4053837A4 (ko)
JP (1) JP2023501283A (ko)
KR (1) KR102153668B1 (ko)
CN (1) CN114830230A (ko)
WO (1) WO2021085811A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836039B (zh) * 2021-01-27 2023-04-21 成都网安科技发展有限公司 基于深度学习的语音数据处理方法和装置
CN113205805B (zh) * 2021-03-18 2024-02-20 福建马恒达信息科技有限公司 一种语音插件辅助的表格便捷操作方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001101162A (ja) * 1999-09-27 2001-04-13 Just Syst Corp 文書処理装置、及び文書処理プログラムが記憶された記憶媒体
KR100354365B1 (ko) 1998-12-17 2002-09-28 인터내셔널 비지네스 머신즈 코포레이션 음성 커맨드 입력 인식 기능이 있는 상호작용형 컴퓨터제어 디스플레이 시스템 및 그 시스템으로의 음성 커맨드입력 제공 방법
KR20030025507A (ko) * 2001-09-21 2003-03-29 정용석 음성인식을 이용한 의료전자차트 작성시스템
KR100778966B1 (ko) * 2000-02-29 2007-11-22 딕터폰 코포레이션 관리 서버 컴퓨터를 포함하는 글로벌 문서 생성 시스템
KR20170006369A (ko) * 2015-07-08 2017-01-18 박남태 가상 키보드 음성입력 장치 및 방법
KR101955225B1 (ko) * 2017-11-03 2019-03-08 주식회사 셀바스에이아이 전자의무기록 서비스의 편집 인터페이스를 제공하는 방법 및 장치

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4436899B2 (ja) * 1998-02-27 2010-03-24 株式会社ニデック 眼科手術装置
US6304848B1 (en) * 1998-08-13 2001-10-16 Medical Manager Corp. Medical record forming and storing apparatus and medical record and method related to same
ATE286294T1 (de) * 2001-03-29 2005-01-15 Koninkl Philips Electronics Nv Synchronisierung eines audio- und eines textcursors während der editierung
JP4719408B2 (ja) * 2003-07-09 2011-07-06 富士通株式会社 医療情報システム
JP2005192024A (ja) * 2003-12-26 2005-07-14 Fujitsu I-Network Systems Ltd コールセンタにおける通話音声データ管理方式およびそれに用いるオペレータ端末
JP4832770B2 (ja) * 2005-02-15 2011-12-07 オリンパス株式会社 医療支援システム
US8452594B2 (en) * 2005-10-27 2013-05-28 Nuance Communications Austria Gmbh Method and system for processing dictated information
JP5002283B2 (ja) * 2007-02-20 2012-08-15 キヤノン株式会社 情報処理装置および情報処理方法
WO2008120146A1 (en) * 2007-03-29 2008-10-09 Nuance Communications Austria Gmbh Method and system for generating a medical report and computer program product therefor
US20090089100A1 (en) * 2007-10-01 2009-04-02 Valeriy Nenov Clinical information system
US8046226B2 (en) * 2008-01-18 2011-10-25 Cyberpulse, L.L.C. System and methods for reporting
JP2012140189A (ja) * 2010-12-28 2012-07-26 Mitsubishi Electric Building Techno Service Co Ltd エレベータ
KR20140061047A (ko) 2012-11-13 2014-05-21 한국전자통신연구원 음성 인식에 기반한 의료 장치 제어용 단말 장치 및 이를 위한 방법
US20160162642A1 (en) * 2012-11-14 2016-06-09 William Atkinson Integrated Medical Record System using Hologram Technology
US20140142939A1 (en) 2012-11-21 2014-05-22 Algotes Systems Ltd. Method and system for voice to text reporting for medical image software
US9514740B2 (en) * 2013-03-13 2016-12-06 Nuance Communications, Inc. Data shredding for speech recognition language model training under data retention restrictions
JP2016102920A (ja) * 2014-11-28 2016-06-02 京セラドキュメントソリューションズ株式会社 文書記録システム及び文書記録プログラム
JP2017182075A (ja) * 2017-05-01 2017-10-05 株式会社ニコン 情報処理装置
US10719222B2 (en) 2017-10-23 2020-07-21 Google Llc Method and system for generating transcripts of patient-healthcare provider conversations
US11423325B2 (en) * 2017-10-25 2022-08-23 International Business Machines Corporation Regression for metric dataset
US10467335B2 (en) 2018-02-20 2019-11-05 Dropbox, Inc. Automated outline generation of captured meeting audio in a collaborative document context
US11705226B2 (en) * 2019-09-19 2023-07-18 Tempus Labs, Inc. Data based cancer research and treatment systems and methods

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100354365B1 (ko) 1998-12-17 2002-09-28 인터내셔널 비지네스 머신즈 코포레이션 음성 커맨드 입력 인식 기능이 있는 상호작용형 컴퓨터제어 디스플레이 시스템 및 그 시스템으로의 음성 커맨드입력 제공 방법
JP2001101162A (ja) * 1999-09-27 2001-04-13 Just Syst Corp 文書処理装置、及び文書処理プログラムが記憶された記憶媒体
KR100778966B1 (ko) * 2000-02-29 2007-11-22 딕터폰 코포레이션 관리 서버 컴퓨터를 포함하는 글로벌 문서 생성 시스템
KR20030025507A (ko) * 2001-09-21 2003-03-29 정용석 음성인식을 이용한 의료전자차트 작성시스템
KR20170006369A (ko) * 2015-07-08 2017-01-18 박남태 가상 키보드 음성입력 장치 및 방법
KR101955225B1 (ko) * 2017-11-03 2019-03-08 주식회사 셀바스에이아이 전자의무기록 서비스의 편집 인터페이스를 제공하는 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4053837A4

Also Published As

Publication number Publication date
EP4053837A1 (en) 2022-09-07
CN114830230A (zh) 2022-07-29
US11977812B2 (en) 2024-05-07
JP2023501283A (ja) 2023-01-18
EP4053837A4 (en) 2023-11-08
US20220391162A1 (en) 2022-12-08
KR102153668B1 (ko) 2020-09-09

Similar Documents

Publication Publication Date Title
AU2016269531B2 (en) Device for extracting information from a dialog
WO2012161359A1 (ko) 사용자 인터페이스 방법 및 장치
WO2020107765A1 (zh) 语句分析处理方法、装置、设备以及计算机可读存储介质
WO2021085811A1 (ko) 키보드 매크로 기능을 활용한 자동 음성 인식기 및 음성 인식 방법
WO2018151464A1 (ko) 음성 인식을 이용한 코딩시스템 및 코딩방법
WO2013077589A1 (ko) 음성인식 부가 서비스 제공 방법 및 이에 적용되는 장치
EP3500947A1 (en) Language translation device and language translation method
EP3915039A1 (en) System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection
CN104714942B (zh) 用于针对自然语言处理任务的内容可用性的方法和系统
CN110036357A (zh) 控制用户界面的方法、程序及装置
WO2020159140A1 (ko) 전자 장치 및 이의 제어 방법
WO2019107799A1 (ko) 입력 필드의 이동 방법 및 장치
WO2015037871A1 (ko) 텍스트 인식을 이용한 음성재생 서비스 제공 시스템, 서버 및 단말
WO2015133790A1 (ko) 번역 채팅 서비스 제공 장치 및 방법
WO2024029800A1 (ko) 인지 상태 정보 제공 방법 및 이를 위한 전자 장치
WO2020045909A1 (en) Apparatus and method for user interface framework for multi-selection and operation of non-consecutive segmented information
WO2011049313A9 (ko) 표현 및 설명 추출을 위한 문서 처리 장치 및 방법
JP5199801B2 (ja) 医療支援システム
WO2020004717A1 (ko) 입력 어플리케이션을 이용한 번역 서비스 제공 방법 및 이를 이용하는 단말장치
WO2024048881A1 (ko) 학습 시스템 및 학습 애플리케이션 동작방법
CN115243062B (zh) 场景展示方法、装置、屏显设备、电子设备和存储介质
WO2022186434A1 (ko) 전자 장치 및 이의 제어 방법
Ji et al. Translation Technology in Accessible Health Communication
WO2023120861A1 (ko) 전자 장치 및 그 제어 방법
WO2022139559A1 (ko) 발음 평가를 위한 사용자 인터페이스 제공 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20880679

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022525632

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020880679

Country of ref document: EP

Effective date: 20220530