KR101923960B1 - Method for generating transcription from sound data based on voice recognition - Google Patents

Method for generating transcription from sound data based on voice recognition Download PDF

Info

Publication number
KR101923960B1
KR101923960B1 KR1020180040173A KR20180040173A KR101923960B1 KR 101923960 B1 KR101923960 B1 KR 101923960B1 KR 1020180040173 A KR1020180040173 A KR 1020180040173A KR 20180040173 A KR20180040173 A KR 20180040173A KR 101923960 B1 KR101923960 B1 KR 101923960B1
Authority
KR
South Korea
Prior art keywords
word
function
functional
transcription
computing device
Prior art date
Application number
KR1020180040173A
Other languages
Korean (ko)
Inventor
김상기
이륜희
Original Assignee
주식회사 뷰노
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 뷰노 filed Critical 주식회사 뷰노
Priority to KR1020180040173A priority Critical patent/KR101923960B1/en
Application granted granted Critical
Publication of KR101923960B1 publication Critical patent/KR101923960B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

The present invention relates to a method for generating a transcription from sound data based on voice recognition and an apparatus using the same. In particular, according to the method of the present invention, a final transcription is generated from a primitive transcription by preforming a predetermined function corresponding to a functional word detected in the primitive transcription by a computing device. Accordingly, the present invention can promote convenience on the voice recognition.

Description

음성 인식에 기반하여 음향 데이터로부터 전사문을 생성하는 방법 및 이를 이용한 장치{METHOD FOR GENERATING TRANSCRIPTION FROM SOUND DATA BASED ON VOICE RECOGNITION}BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for generating transcription statements from acoustic data based on speech recognition,

본 발명은 음성 인식에 기반하여 음향 데이터로부터 전사문(transcription)을 생성하는 방법 및 이를 이용한 장치에 관한 것이다. 구체적으로, 본 발명에 따른 방법에 의하면, 초벌 전사문에서 검출된 기능어에 대응되도록 정해진 기능을 컴퓨팅 장치가 수행함으로써 상기 초벌 전사문으로부터 최종 전사문을 생성한다.The present invention relates to a method for generating transcription from acoustic data based on speech recognition and an apparatus using the same. Specifically, according to the method of the present invention, a computing device performs a predetermined function corresponding to a functional word detected in a coarse transcription, thereby generating a final transcription from the coarse transcription.

자동 음성 인식 시스템이 음향 데이터로부터 스크립트, 즉 전사문을 생성하는 기술이 점차 보편화되고 있다. 문서 작성에 있어서 키보드와 같은 입력 장치를 이용하는 것이 일반적인 형태이지만, 작업 환경상 손이 부자유스러운 상황이 있을 수 있어 이를 극복하기 위한 수단으로서, 혹은 입력 속도를 높이기 위한 수단으로서 음성 인식을 이용하고자 하는 것이다. BACKGROUND OF THE INVENTION [0002] Automatic speech recognition systems are becoming increasingly popular in the art of generating scripts, or transcription, from sound data. Although it is a general form to use an input device such as a keyboard in document creation, there may be a situation where the hand is inconvenient in the working environment, so that it is desired to use speech recognition as a means for overcoming this or as a means for increasing the input speed.

그런데, 그러한 기술들에는 여전히 많은 어려움이 있는바, 예컨대 자동 음성 인식 시스템이 녹취 파일에서 초벌 전사문을 생성하면 전사자는 초벌 전사문을 수정하여 최종 전사문을 만든다. 이러한 과정에서 전사자는 많은 음성을 듣는데 모든 문장에 대하여 구두점이 제대로 찍혀 있는지, 줄은 바르게 띄어져 있는지를 꼼꼼히 점검하는 것은 쉽게 피로해지는 일이다.However, there are still many difficulties with such techniques, for example, when an automatic speech recognition system generates a primitive transcription in a transcription file, the transcriber modifies the primitive transcription to produce the final transcription. In this process, the transcriptionist hears a lot of voices, and it is easy to be tired to check carefully whether the punctuation marks are correctly printed on all sentences and whether the lines are properly spaced.

따라서 본 발명에서는 전사자가 점검하여야 하는 전사문의 부분, 특히 문자화되어야 하는 음성이 아닌 문서의 형식 등을 표현하는 기능어를 구별하여 이를 처리함으로써 전사자의 일을 저감할 수 있게 하는 방법 및 이를 이용하는 장치를 제안하고자 한다.Therefore, according to the present invention, there is proposed a method of distinguishing functional words expressing a part of a transfer inquiry to be checked by a transcriber, in particular, a format of a document, which is not a voice to be characterized, thereby reducing the work of the transcriber, and a device using the method I want to.

US 2015-0142428 A1US 2015-0142428 A1

본 발명은 음성 입력을 통하여 형식화된 문서를 효과적으로 작성하는 방안을 제시하는 것을 목적으로 한다.An object of the present invention is to provide a method for efficiently creating a formatted document through voice input.

구체적으로, 본 발명은 문자화되어야 할 음성과 구분되는 기능어를 식별하여 이로써 문서의 형식 등을 제어할 수 있게 하는 것을 목적으로 한다.Specifically, the present invention aims to identify a function word that is distinguished from a voice to be text, thereby enabling to control the format and the like of a document.

결국 본 발명은 전사에 있어서 효율을 높여 전사자로 하여금 품질 높은 전사문을 신속하고 정확하게 생성할 수 있게 하는 데 조력하는 것을 목적으로 한다.As a result, the present invention aims at enhancing efficiency in transcription, thereby enabling transcriptionists to quickly and accurately produce high quality transcription doors.

상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 효과를 실현하기 위한 본 발명의 특징적인 구성은 하기와 같다.The characteristic configuration of the present invention for achieving the object of the present invention as described above and realizing the characteristic effects of the present invention described below is as follows.

본 발명의 일 태양(aspect)에 따르면, 음성 인식에 기반하여 음향 데이터로부터 전사문(transcription)을 생성하는 방법이 제공되는바, 그 방법은, (a) 컴퓨팅 장치가, 상기 음향 데이터를 획득하는 단계; (b) 상기 컴퓨팅 장치가, 획득된 상기 음향 데이터로부터 음성을 인식하여 초벌 전사문을 생성하는 단계; (c) 상기 컴퓨팅 장치가, 생성된 초벌 전사문에서 기능어 사전을 참조로 하여 미리 예약된 기능어를 검출하는 단계; 및 (d) 상기 컴퓨팅 장치가, 검출된 상기 기능어에 대응되도록 정해진 기능을 수행함으로써 상기 초벌 전사문으로부터 최종 전사문을 생성하는 단계를 포함한다.According to an aspect of the present invention there is provided a method of generating a transcription from acoustic data based on speech recognition, the method comprising the steps of: (a) step; (b) the computing device recognizing a voice from the acquired sound data to generate a primitive transcription statement; (c) detecting, by the computing device, a previously reserved function word with reference to a functional word dictionary in a generated primitive transfer statement; And (d) generating, by the computing device, a final transfer statement from the nested transfer statement by performing a predetermined function corresponding to the detected function word.

본 발명의 다른 태양에 따르면, 본 발명에 따른 방법을 수행하도록 구현된 명령어(instructions)를 포함하는, 기계 판독 가능한 비일시적 기록 매체에 저장된, 컴퓨터 프로그램도 제공된다.According to another aspect of the present invention, there is also provided a computer program stored in a machine readable non-transitory medium, comprising instructions embodied to perform the method according to the invention.

본 발명의 또 다른 태양에 따르면, 음성 인식에 기반하여 음향 데이터로부터 전사문을 생성하는 컴퓨팅 장치가 제공되는바, 그 장치는, 상기 음향 데이터를 획득하는 통신부; 및 (i) 획득된 상기 음향 데이터로부터 음성을 인식하여 초벌 전사문을 생성하는 프로세스; (ii) 생성된 초벌 전사문에서 기능어 사전을 참조로 하여 미리 예약된 기능어를 검출하는 프로세스; 및 (iii) 검출된 상기 기능어에 대응되도록 정해진 기능을 수행함으로써 상기 초벌 전사문으로부터 최종 전사문을 생성하는 프로세스를 수행하는 프로세서를 포함한다.According to still another aspect of the present invention, there is provided a computing device for generating a transcription statement from acoustic data based on speech recognition, the apparatus comprising: a communication unit for acquiring the acoustic data; And (i) recognizing speech from the acquired sound data to generate a premise statement; (ii) a process of detecting a function word reserved in advance by referring to the functional word dictionary in the generated generic transcription statement; And (iii) performing a process to generate a final transfer statement from the nested transfer statement by performing a predetermined function corresponding to the detected function word.

본 발명에 의하면, 훈련된 인공지능 모델에 의하여 전사된 전사문이 획득되면, 기능어에 해당하는 부분을 식별하여 문서의 구두점 등 그 형식을 제어할 수 있게 됨으로써 음성 인식에 있어서의 편의를 도모할 수 있는 효과가 있다.According to the present invention, when the transcription sent by the trained artificial intelligence model is acquired, the part corresponding to the functional word can be identified, and the format of the document, such as punctuation, can be controlled, There is an effect.

또한 본 발명에 의하면 전사의 효율을 높여 전사자로 하여금 품질 높은 전사 데이터를 생성하도록 보조할 수 있는 효과가 있다.In addition, according to the present invention, there is an effect that it is possible to assist transferors to produce high quality transfer data by increasing transfer efficiency.

본 발명의 실시 예의 설명에 이용되기 위하여 첨부된 아래 도면들은 본 발명의 실시 예들 중 단지 일부일 뿐이며, 본 발명이 속한 기술분야의 통상의 기술자에게 있어서는 발명적 작업이 이루어짐 없이 이 도면들에 기초하여 다른 도면들이 얻어질 수 있다.
도 1은 본 발명에 따라 음성 인식에 기반하여 음향 데이터로부터 전사문을 생성하는 방법(이하 "음성 인식 전사문 생성 방법"이라 함)을 수행하는 컴퓨팅 장치의 예시적 구성을 개략적으로 도시한 개념도이다.
도 2는 본 발명에 따른 음성 인식 전사문 생성 방법을 수행하는 컴퓨팅 장치의 하드웨어 또는 소프트웨어 구성요소를 도시한 예시적 블록도이다.
도 3은 본 발명에 따른 음성 인식 전사문 생성 방법을 예시적으로 나타낸 흐름도이다.
BRIEF DESCRIPTION OF THE DRAWINGS The accompanying drawings, which are included to provide a further understanding of the invention and are incorporated in and constitute a part of this application, illustrate embodiments of the invention and, The figures can be obtained.
1 is a conceptual diagram schematically showing an exemplary configuration of a computing device that performs a method of generating a transcription statement from acoustic data based on speech recognition (hereinafter referred to as a "speech recognition transcription generation method") according to the present invention .
2 is an exemplary block diagram illustrating the hardware or software components of a computing device performing the method of generating a speech recognition transcription according to the present invention.
3 is a flowchart illustrating a method of generating a speech recognition transfer statement according to the present invention.

후술하는 본 발명에 대한 상세한 설명은, 본 발명의 목적들, 기술적 해법들 및 장점들을 분명하게 하기 위하여 본 발명이 실시될 수 있는 특정 실시 예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시 예는 통상의 기술자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다.The following detailed description of the invention refers to the accompanying drawings, which illustrate, by way of example, specific embodiments in which the invention may be practiced in order to clarify the objects, technical solutions and advantages of the invention. These embodiments are described in sufficient detail to enable those skilled in the art to practice the invention.

본 발명의 상세한 설명 및 청구항들에 걸쳐 이용된 "음향 데이터" 또는 "음향 파일"이라는 용어는 음향의 정보를 나타낸 디지털 표현물을 지칭하는 용어이다. 예를 들어, 음향 데이터 또는 음향 파일에 관하여 통상의 기술자에게 알려진 어떠한 음향 또는 비디오 포맷이 이용될 수 있다. 몇몇 실시 예에서, 음향 파일은 하나의 오디오 코덱(audio codec)을 지원하는 포맷을 포함할 수 있고, 몇몇 실시 예에서는 음향 파일이 다수의 코덱을 지원하는 포맷을 포함할 수 있다. 몇몇 실시 예에서 음향 파일은, 압축되지 않은 오디오 포맷, 예컨대, WAV, AIFF, AU와 같은 포맷을 포함할 수 있다. 몇몇 실시 예에서 음향 파일의 포맷은 FLAC, 파일 확장자로 APE를 가지는 Monkey's Audio, 파일 확장자로 WV를 가지는 WayPack, Tom's losless Audio Kompressor(TAK), TTA, ATRAC Advanced Lossless, Apple Lossless 및 무손실 WINDOWS 미디어 오디오(WMA)와 같은 무손실 압축 방식을 포함할 수 있다. 몇몇 실시 예서는 음향 파일의 포맷은 MP3, Vorbis, Musepack, ATRAC, 손실 WINDOWS 미디어 오디오(WMA) 및 AAC와 같은 손실 압축 방식을 포함할 수 있다.The term " acoustic data " or " acoustic file " used throughout the description and claims of the present invention is a term that refers to a digital representation of acoustic information. For example, any acoustic or video format known to a person skilled in the art for acoustic data or sound files may be used. In some embodiments, the sound file may include a format that supports one audio codec, and in some embodiments, the sound file may include a format that supports multiple codecs. In some embodiments, the sound file may include an uncompressed audio format, such as WAV, AIFF, AU. In some embodiments, the audio file format is FLAC, Monkey's Audio with APE as file extension, WayPack with WV as file extension, Tom's loseless Audio Kompressor (TAK), TTA, ATRAC Advanced Lossless, Apple Lossless, and lossless WINDOWS media audio WMA). ≪ / RTI > In some embodiments, the format of the audio file may include lossy compression schemes such as MP3, Vorbis, Musepack, ATRAC, lossy WINDOWS media audio (WMA) and AAC.

몇몇 실시 예에서, 음향 포맷은 WINDOWS 컴퓨터 판독 가능 매체를 위한 ".wav", MAC OS 컴퓨터 판독 가능 매체에서의 ".aiff"와 같은 무압축 PCM 포맷이다. 몇몇 실시 예에서 브로드캐스트 웨이브 포맷(Broadcast Wave Format; BWF)이 이용될 수 있는바, 메타데이터가 파일에 함께 저장될 수 있다. 몇몇 실시 예에서, 음향 포맷은 FLAC, WayPack, Monkey's Audio, ALAC/Apple Lossless와 같은 무손실 오디오 포맷이다. 몇몇 실시 예에서 상기 무손실 오디오 포맷은 약 2:1의 압축비를 제공한다. 몇몇 실시 예에서 오디오 포맷은, 예컨대 wav, ogg, mpc, flac, aiff, raw, au 또는 mid와 같이 무료로 열려 있는(free-and-open) 포맷이다. 몇몇 실시 예에서 오디오 포맷은, gsm, dct, vox, acc, mp4/m4a, 또는 mmf와 같이 공개된 파일 포맷이다. 몇몇 실시 예에서 오디오 포맷은 mp3, wma, atrac, ra, ram, dss, msv, dvg, IVS, m4p, iklax, mxp4 등등과 같은 적당한 포맷일 수 있다.In some embodiments, the acoustic format is a uncompressed PCM format such as " .wav " for WINDOWS computer readable media, and " .aiff " In some embodiments, Broadcast Wave Format (BWF) may be used, and the metadata may be stored together in a file. In some embodiments, the audio format is a lossless audio format such as FLAC, WayPack, Monkey's Audio, ALAC / Apple Lossless. In some embodiments, the lossless audio format provides a compression ratio of about 2: 1. In some embodiments, the audio format is a free-and-open format such as wav, ogg, mpc, flac, aiff, raw, au or mid. In some embodiments, the audio format is a published file format such as gsm, dct, vox, acc, mp4 / m4a, or mmf. In some embodiments, the audio format may be any suitable format such as mp3, wma, atrac, ra, ram, dss, msv, dvg, IVS, m4p, iklax, mxp4,

그리고 본 발명의 상세한 설명 및 청구항들에 걸쳐 '학습' 혹은 '러닝'은 절차에 따른 컴퓨팅(computing)을 통하여 기계 학습(machine learning)을 수행함을 일컫는 용어인바, 인간의 교육 활동과 같은 정신적 작용을 지칭하도록 의도된 것이 아니며, 훈련(training)은 기계 학습에 관하여 일반적으로 받아들여지는 의미로 쓰인 것이다.Throughout the detailed description and claims of the present invention, 'learning' or 'learning' refers to performing machine learning through computing according to a procedure, It is not intended to refer to training, which is used in a generally accepted sense of machine learning.

그리고 본 발명의 상세한 설명 및 청구항들에 걸쳐, '포함하다'라는 단어 및 그 변형은 다른 기술적 특징들, 부가물들, 구성요소들 또는 단계들을 제외하는 것으로 의도된 것이 아니다. 또한, '하나' 또는 '한'은 하나 이상의 의미로 쓰인 것이며, '또 다른'은 적어도 두 번째 이상으로 한정된다.And throughout the description and claims of this invention, the word 'comprise' and variations thereof are not intended to exclude other technical features, additions, elements or steps. Also, 'one' or 'one' is used in more than one meaning, and 'another' is limited to at least the second.

통상의 기술자에게 본 발명의 다른 목적들, 장점들 및 특성들이 일부는 본 설명서로부터, 그리고 일부는 본 발명의 실시로부터 드러날 것이다. 아래의 예시 및 도면은 실례로서 제공되며, 본 발명을 한정하는 것으로 의도된 것이 아니다. 따라서, 특정 구조나 기능에 관하여 본 명세서에 개시된 상세 사항들은 한정하는 의미로 해석되어서는 아니되고, 단지 통상의 기술자가 실질적으로 적합한 임의의 상세 구조들로써 본 발명을 다양하게 실시하도록 지침을 제공하는 대표적인 기초 자료로 해석되어야 할 것이다.Other objects, advantages and features of the present invention will become apparent to those skilled in the art from this description, and in part from the practice of the invention. The following examples and figures are provided by way of illustration and are not intended to limit the invention. Accordingly, the details disclosed herein with respect to a particular structure or function are not to be construed in a limiting sense, but merely as being representative of the general inventive concept providing a guideline for carrying out the invention in various detail structures, It should be interpreted as basic data.

더욱이 본 발명은 본 명세서에 표시된 실시 예들의 모든 가능한 조합들을 망라한다. 본 발명의 다양한 실시 예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시 예에 관련하여 본 발명의 사상 및 범위를 벗어나지 않으면서 다른 실시 예로 구현될 수 있다. 또한, 각각의 개시된 실시 예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 사상 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다. Moreover, the present invention encompasses all possible combinations of embodiments shown herein. It should be understood that the various embodiments of the present invention are different, but need not be mutually exclusive. For example, certain features, structures, and characteristics described herein may be implemented in other embodiments without departing from the spirit and scope of the invention in connection with one embodiment. It should also be understood that the position or arrangement of individual components within each disclosed embodiment may be varied without departing from the spirit and scope of the present invention. The following detailed description is, therefore, not to be taken in a limiting sense, and the scope of the present invention is to be limited only by the appended claims, along with the full scope of equivalents to which such claims are entitled, if properly explained. In the drawings, like reference numerals refer to the same or similar functions throughout the several views.

본 명세서에서 달리 표시되거나 분명히 문맥에 모순되지 않는 한, 단수로 지칭된 항목은, 그 문맥에서 달리 요구되지 않는 한, 복수의 것을 아우른다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.Unless otherwise indicated herein or clearly contradicted by context, items referred to in the singular are intended to encompass a plurality unless otherwise specified in the context. In the following description of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may make the subject matter of the present invention rather unclear.

이하, 통상의 기술자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시 예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings, so that those skilled in the art can easily carry out the present invention.

도 1은 본 발명의 음성 인식 전사문 생성 방법을 수행하는 컴퓨팅 장치의 예시적 구성을 개략적으로 도시한 개념도이다.1 is a conceptual diagram schematically illustrating an exemplary configuration of a computing device that performs a method for generating a speech recognition transcription of the present invention.

도 1을 참조하면, 본 발명의 일 실시 예에 따른 컴퓨팅 장치(100)는, 통신부(110) 및 프로세서(120)를 포함하며, 상기 통신부(110)를 통하여 외부 컴퓨팅 장치(미도시)와 직간접적으로 통신할 수 있다.1, a computing device 100 according to an embodiment of the present invention includes a communication unit 110 and a processor 120. The communication unit 110 communicates with an external computing device (not shown) Communication is possible.

구체적으로, 상기 컴퓨팅 장치(100)는, 전형적인 컴퓨터 하드웨어(예컨대, 컴퓨터 프로세서, 메모리, 스토리지, 입력 장치 및 출력 장치, 기타 기존의 컴퓨팅 장치의 구성요소들을 포함할 수 있는 장치; 라우터, 스위치 등과 같은 전자 통신 장치; 네트워크 부착 스토리지(NAS; network-attached storage) 및 스토리지 영역 네트워크(SAN; storage area network)와 같은 전자 정보 스토리지 시스템)와 컴퓨터 소프트웨어(즉, 컴퓨팅 장치로 하여금 특정의 방식으로 기능하게 하는 명령어들)의 조합을 이용하여 원하는 시스템 성능을 달성하는 것일 수 있다.In particular, the computing device 100 may be implemented as a computer-readable medium, such as conventional computer hardware (e.g., a computer processor, memory, storage, input and output devices, Electronic communication devices, electronic information storage systems such as network-attached storage (NAS) and storage area networks (SAN), and computer software (i.e., computing devices that enable a computing device to function in a particular manner) Commands) to achieve the desired system performance.

이와 같은 컴퓨팅 장치의 통신부(110)는 연동되는 타 컴퓨팅 장치와 요청과 응답을 송수신할 수 있는바, 일 예시로서 그러한 요청과 응답은 동일한 TCP(transmission control protocol) 세션(session)에 의하여 이루어질 수 있지만, 이에 한정되지는 않는바, 예컨대 UDP(user datagram protocol) 데이터그램(datagram)으로서 송수신될 수도 있을 것이다. 덧붙여, 넓은 의미에서 상기 통신부(110)는 명령어 또는 지시 등을 전달받기 위한 키보드, 마우스, 기타 외부 입력장치, 프린터, 디스플레이, 기타 외부 출력장치를 포함할 수 있다.The communication unit 110 of the computing device can send and receive requests and responses to and from other interworking computing devices. As an example, such requests and responses can be made by the same transmission control protocol (TCP) session But not limited to, a user datagram protocol (UDP) datagram, for example. In addition, in a broad sense, the communication unit 110 may include a keyboard, a mouse, an external input device, a printer, a display, and other external output devices for receiving commands or instructions.

또한, 컴퓨팅 장치의 프로세서(120)는 MPU(micro processing unit), CPU(central processing unit), GPU(graphics processing unit), NPU(neural processing unit) 또는 TPU(tensor processing unit), 캐시 메모리(cache memory), 데이터 버스(data bus) 등의 하드웨어 구성을 포함할 수 있다. 또한, 운영체제, 특정 목적을 수행하는 애플리케이션의 소프트웨어 구성을 더 포함할 수도 있다.The processor 120 of the computing device may also be a micro processing unit (MPU), a central processing unit (CPU), a graphics processing unit (GPU), a neural processing unit (NPU) or a tensor processing unit ), A data bus, and the like. It may further include a software configuration of an operating system and an application that performs a specific purpose.

도 2는 본 발명에 따른 음성 인식 전사문 생성 방법을 수행하는 컴퓨팅 장치의 하드웨어 또는 소프트웨어 구성요소를 도시한 예시적 블록도이다.2 is an exemplary block diagram illustrating the hardware or software components of a computing device performing the method of generating a speech recognition transcription according to the present invention.

도 2를 참조하여 본 발명에 따른 방법 및 장치의 구성을 간략히 개관하면, 컴퓨팅 장치(100)는 그 구성요소로서 음향 데이터 입력부(210)를 포함할 수 있다. 이 음향 데이터 입력부(210)는 본 발명의 방법에 따라 음향 데이터를 획득한다. 그리고, 획득된 음향 데이터를 전달받은 음성 인식부(220)는 음향 데이터로부터 음성을 인식하여 초벌 전사문을 생성하도록 구성되는바, 음향 데이터 입력부(210) 및 음성 인식부(220)를 포함하는 도 2에 도시된 개별 모듈들은, 예컨대, 컴퓨팅 장치(100)에 포함된 통신부(110)나 프로세서(120), 또는 상기 통신부(110) 및 프로세서(120)의 연동에 의하여 구현될 수 있음을 통상의 기술자가 이해할 수 있을 것이다.Referring briefly to the configuration of a method and apparatus in accordance with the present invention with reference to FIG. 2, the computing device 100 may include an acoustic data input 210 as a component thereof. The sound data input unit 210 acquires sound data according to the method of the present invention. The voice recognition unit 220 receiving the acquired sound data is configured to recognize the voice from the sound data and generate the premise message. The voice recognition unit 220 includes a sound data input unit 210 and a voice recognition unit 220 2 may be implemented by interworking of the communication unit 110 or the processor 120 included in the computing device 100 or the communication unit 110 and the processor 120, The technician will understand.

상기 초벌 전사문은 음향 데이터로부터 전사된 결과이며, 이는 기능어를 검출하도록 구성되는 기능어 검출부(230)에 전달될 수 있다. 컴퓨팅 장치(100)는 기능어 검출부(230)에 검출을 위한 기능어를 제공하는 구성요소로서 기능어 사전부(250)를 포함할 수 있는바, 기능어 사전부(250)는 기능어를 자체적으로 보유하거나 통신부(110)를 통하여 연동되는 타 컴퓨팅 장치(미도시)로 하여금 기능어를 보유하도록 할 수 있다. 후자의 경우, 그 타 컴퓨팅 장치는 기능어 사전부(250)의 요청과 응답에 따라 상기 기능어를 관리할 수 있다.The primitive transcription is the result of transcription from the audio data, which can be passed to the functional word detector 230 configured to detect the functional word. The computing device 100 may include a functional word dictionary unit 250 as a component for providing a functional word for detection to the functional word detection unit 230. The functional word dictionary unit 250 may store the functional word itself, (Not shown) interlocked with each other via the network 110 may have a functional word. In the latter case, the other computing device can manage the functional word according to a request and a response of the functional word dictionary unit 250.

다음으로, 기능어 처리부(240)는 기능어 검출부(230)에 의하여 검출된 기능어에 대응되도록 정해진 기능을 수행하여 초벌 전사문으로부터 최종 전사문을 생성하도록 구성된다. 기능어는 외부 엔티티에 의한 전사문의 편집, 수정을 용이하게 하기 위한 것인데, 여기에서 외부 엔티티라고 함은, 상기 컴퓨팅 장치(100)의 사용자, 예컨대, 의사, 간호사 등을 포함하는 의료진, 기타 관리자, 상기 전사문을 담당하는 전사자 등을 포함하나, 이 이외에도 전사 결과에서 오류의 검출을 필요로 하는 주체라면 어느 주체라도 포함되는 것으로 이해되어야 할 것이다.Next, the functional word processing unit 240 is configured to perform a predetermined function corresponding to the functional word detected by the functional word detection unit 230 to generate a final transfer statement from the rough transfer statement. The external entity may be a medical staff member including a user of the computing device 100, for example, a doctor, a nurse, or the like, a manager other than the manager, But it should be understood that any subject that includes the detection of errors in the result of the transcription should be understood as being included.

이제 도 2에 나타난 구성요소들에 의하여 달성되는 구체적인 기능 및 효과에 관하여 도 3을 참조하여 상세히 후술하기로 한다. 도 2에 나타난 구성요소들은 설명의 편의상 하나의 컴퓨팅 장치에서 실현되는 것으로 예시되었으나, 본 발명의 방법을 수행하는 컴퓨팅 장치(100)는 복수개의 장치들이 서로 연동되도록 구성될 수도 있다는 점이 이해될 것이다. 예를 들어, The specific functions and effects achieved by the components shown in FIG. 2 will now be described in detail with reference to FIG. Although the components shown in FIG. 2 are illustrated as being realized in one computing device for convenience of explanation, it will be understood that the computing device 100 performing the method of the present invention may be configured such that a plurality of devices are interlocked with each other. E.g,

음향 데이터 입력부(210), 음성 인식부(220), 기능어 검출부(230), 기능어 처리부(240) 및 기능어 편집부(260)는 제1 컴퓨팅 장치에서 수행되고, 기능어 검출 및 처리에 필요한 기능어를 보유 및 관리하는 기능어 사전부(250)는 상기 서버에 연동되는 클라이언트에서 수행되도록 구성할 수도 있을 것인바, 통상의 기술자는 다양한 방식으로 복수개의 장치들이 서로 연동하여 본 발명의 방법을 수행하도록 구성할 수 있을 것이다. The sound data input unit 210, the speech recognition unit 220, the functional word detection unit 230, the functional word processing unit 240 and the functional word editing unit 260 are implemented in the first computing device and have functional words necessary for detecting and processing the functional word, The functional word dictionary unit 250 to be managed may be configured to be executed in a client connected to the server. It is possible for a typical technician to configure the plurality of devices to interwork with each other in various ways to perform the method of the present invention will be.

이제 본 발명에 따른 음성 인식 전사문 생성 방법의 일 실시 예를 도 3를 참조하여 더 구체적으로 설명하기로 한다. 도 3은 본 발명에 따른 음성 인식 전사문 생성 방법을 예시적으로 나타낸 흐름도이다.An embodiment of a method for generating a speech recognition transfer statement according to the present invention will now be described in more detail with reference to FIG. 3 is a flowchart illustrating a method of generating a speech recognition transfer statement according to the present invention.

도 3을 참조하면, 본 발명에 따른 음성 인식 전사문 생성 방법은, 우선, 컴퓨팅 장치(100)에 의하여 구현되는 음향 데이터 입력부(210)가, 음향 데이터를 획득하는 단계(S100)를 포함한다. Referring to FIG. 3, the method for generating a speech recognition transfer statement according to the present invention includes a step S 100 of acquiring sound data by an acoustic data input unit 210 implemented by the computing device 100.

다음으로, 본 발명에 따른 음성 인식 전사문 생성 방법은, 컴퓨팅 장치(100)에 의하여 구현되는 음성 인식부(220)가, 획득된 상기 음향 데이터로부터 음성을 인식하여 초벌 전사문을 생성하는 단계(S200)를 더 포함한다. 전사문의 생성은 기계 학습 모델에 의하여 이루어질 수 있는바, 예컨대 심층 신경망이 이용될 수 있다. 심층 신경망은 음향 모델(acoustic model)과 언어 모델(language model)로 이루어질 수도 있음은 통상의 기술자에게 알려진 바와 같다. 음향 모델 및/또는 언어 모델의 구성에 관하여는 본 발명의 세부 사항을 흐리지 않기 위하여 그 상세한 설명을 생략하기로 한다. Next, a method for generating a speech recognition transfer statement according to the present invention comprises the steps of: a voice recognition unit 220 implemented by the computing device 100 recognizes a voice from the obtained sound data to generate a primitive transfer statement S200). Generation of transcripts can be done by a machine learning model, for example, in-depth neural networks can be used. It is known to those of ordinary skill in the art that the in-depth neural network may consist of an acoustic model and a language model. The detailed description of the acoustic model and / or the construction of the language model will be omitted in order not to obscure the details of the present invention.

단계(S200)에서 초벌 전사문이 생성되면, 다음으로, 컴퓨팅 장치(100)에 의하여 구현되는 기능어 검출부(230)가, 생성된 초벌 전사문에서 기능어 사전(250)을 참조로 하여 미리 예약된 기능어를 검출하는 단계(S300)를 더 포함한다. When the generic transcription is generated in step S200, the functional word detection unit 230 implemented by the computing device 100 generates a generic transcription statement by referring to the functional word dictionary 250 in the generated generic transcription statement, (S300). ≪ / RTI >

여기에서 기능어라고 함은 문자화되어야 할 문자열과 구분되는 명령어로서, 주로 문서의 형식을 기술, 정의하는 기능을 함으로써 형식화된 문서를 효과적으로 작성할 수 있게 하는 어휘이다. 바람직하게는, 이 기능어는 일반적으로 통용되는 자연어(natural language)로 구성할 수 있다.Here, the term "functional word" is a command distinguished from a character string to be characterized, and is a vocabulary that enables to efficiently formulate a formatted document by mainly describing and defining the format of the document. Preferably, the functional word may be constructed of a commonly used natural language.

오늘 날씨는 맑다.
내일 날씨는 어떨까?
Today's weather is clear.
What about the weather tomorrow?

예를 들어, 위 표 1의 내용을 입력하기 위하여 "오늘 날씨는 맑다 마침표하고 줄 바꾸고 내일 날씨는 어떨까 물음표"라고 음성 입력을 하면, "오늘 날씨는 맑다"와 "내일 날씨는 어떨까"는 순수한 문자열 입력이고 "마침표하고", "줄 바꾸고", "물음표"는 각각 "마침표를 찍는 기능", "줄을 바꿔 다음줄에서 작성을 이어서 하는 기능", "물음표를 찍는 기능"을 수행하라는 의미의 기능어이다.기능어의 예시로서, 단순 치환에 해당하는 기능어, 술어부 확장에 해당하는 기능어, 대표어 활용에 해당하는 기능어가 있을 수 있는데, 기능어가 속한 기능군이 단순 치환, 술어부 확장, 대표어 활용으로 한정되는 것은 아니다.For example, in order to input the contents of Table 1 above, if you input the voice saying, "Today's weather is clear, change the line and change the line and tomorrow's weather will be a question mark," you can say "Today's weather is clear" and " The function is a function that means to perform "function to take a period", "function to continue writing on the next line", "function to take a question mark", and "function to take a period", " There are functional words corresponding to simple substitution, function words corresponding to syllabus expansion, and functional words corresponding to the use of representative words. Examples of functional words include simple substitution, slang extension, .

이 가운데 단순 치환은, 대응되는 기능어를 특정 문자열로 치환하는 기능을 지칭한다. 예를 들어, "마침표", "period", "피리어드"는 마침표(.)를 나타내기 위한 기능어이며, 이는 마침표(.)로 치환될 수 있다. Among these, simple substitution refers to a function of replacing a corresponding function word with a specific string. For example, "period", "period", "period" is a function word for representing a period (.), Which can be replaced by a period (.).

예를 들어, 마침표의 기능어 및 그 마침표 뒤에 이어지는 줄바꾸기(line-feed)의 기능어가 오는 경우에 단순 치환을 처리하기 위한 예시적 objc 코드는 다음과 같을 수 있다. 이는 '피리어드 줄 바꾸고'라는 2개의 연속적인 단순 치환의 기능어를 처리하기 위한 것이다.For example, an example objc code for handling a simple substitution when a function word of a period and a line-feed function following the period is provided may be as follows. This is to handle two consecutive simple substitution functional words, 'Replace Period'.

if ([self.words[i] containsPeriodCommand] && [self.words[i+1] containsLineFeedCommand]) {
[outputString appendString:@".\n"];
i += 2;
}
if ([self.words [i] containsPeriodCommand] && [self.words [i + 1] containsLineFeedCommand]) {
[outputString appendString: @ ". \ n"];
i + = 2;
}

또한, 술어부 확장은, 위치상 종속하는 다른 기능어에 대한 관계에서 그 대응되는 기능어를 삭제하는 기능을 지칭한다. 이는 별다른 뜻이 없으면서 언어 습관상 추가되는 술어부를 포함하는 확장 형태인데, 앞서 예를 든 마침표와 같이, "마침표", "period", "피리어드"중 어느 하나가 있으면서, "찍고", "해주시고", "하고", "넣어주시고"가 존재하는 때에 "찍고", "해주시고", "하고", "넣어주시고"는 술어부 확장의 기능어로 분류되어 실제 문자열에서 제외되면서 추가적인 기능은 없는 것을 예로 들 수 있다. 이 예시는 표 3과 같이 나타낼 수 있다.In addition, the slave language extension refers to the function of deleting the corresponding functional word in relation to other functional words depending on the position. This is an extension type that includes a predicate added in a language habit without any meaning. It is a form of extension that includes "punctuation", "let", "period", "period" , "Do", "insert", "take", "do", "do" and "insert" when they are present are excluded from the actual string, . This example can be shown in Table 3.

[마침표, period, 피리어드]{찍고, 해주시고, 넣어주시고}
* 여기에서 [] 안의 마침표, period, 피리어드는 중 하나는 필수이며, {} 안의 술어부는 존재할 경우에만 기능어로 분류됨
[Period, period, period] {take, do, put}
Here, one of the periods, periods, or periods in [] is required, and predicates in {} are classified as functional words only if they exist.

표 3과 같이 술어부 확장은 예상되는 각각의 항목을 포함할 수도 있으며, 아래 표 4와 같이 별도 관리하여 이를 대표어로 치환하는 것도 가능하다.As shown in Table 3, the syllabary expansion may include each expected item, and it is also possible to separately manage it as shown in Table 4 below and replace it with the representative language.

[마침표, period, 피리어드]{$술어부}
술어부: 찍고, 해주시고, 하고, 넣어주시고
[Period, period, period] {$ swordsman}
Sailor: Take, do, do, put, put

다음으로, 대표어 활용은 소정 포맷의 문자열을 다른 포맷의 문자열로 치환하는 기능을 지칭한다. 예를 들어 숫자 등과 같이 특정 유형의 문자열을 나타내는 대표어의 사용이 가능한데, "작은 1번", "괄호 2번" 등과 같이 숫자가 들어가는 경우에 숫자를 $int로 표시할 수 있는데, 이 $int를 대표어라고 한다. 이 경우, "[작은, 괄호] $int 번"과 같이 나타낼 수 있으며, "작은 1번"은 "1)"로, "괄호 2번"은 "2)"로 치환될 수 있다.Next, the use of a representative word refers to a function of replacing a character string of a predetermined format with a character string of another format. For example, you can use a delegate to represent a particular type of string, such as a number. If you enter a number such as "small 1", "parentheses 2", and so on, . In this case, it can be expressed as "[small, parentheses] $ int times", "small one" can be replaced with "1)", and "parentheses 2" can be replaced with "2)".

다른 예시로서, "$int1년 $int2월 $int3일"을 "$int1-$int2-$int3"으로 치환하는 것도 가능하다. 예컨대, "2018년 12월 25일"은 대표어 활용에 의하여 "2018-12-25"로 치환될 수 있다.As another example, it is also possible to replace "$ int1 - $ int2 - month $ int3 - day" with "$ int1 - $ int2 - $ int3". For example, "December 25, 2018" may be replaced with "2018-12-25" by the use of representative words.

또 다른 예시로서, 기능어의 기능군은 템플릿 치환을 더 포함할 수 있다. 이 템플릿 치환은 소정의 템플릿을 적재하고 상기 템플릿의 정해진 적어도 하나의 위치에 개별 문자열을 삽입하는 기능을 지칭한다. 템플릿의 적재는, 예컨대, "형식은 진단서"와 같은 기능어를 통하여 소정의 양식으로 된 진단서의 템플릿을 불러들이는 기능을 의미하며, 개별 문자열을 삽입하는 기능은 "환자명은 홍길동"과 같은 기능어를 통하여 진단서에 필수적 또는 임의선택적으로 포함되는 항목에 대응되는 정보를 입력하는 기능을 의미한다. 템플릿의 완성을 위하여 "진단서 작성 완료"와 같은 기능어를 추가로 요청할 수도 있을 것이다.As another example, the functional group of functional words may further include template substitution. This template substitution refers to the function of loading a predetermined template and inserting an individual string into at least one specified position of the template. The loading of the template means a function of loading a template of a medical certificate in a predetermined form through a functional word such as " format is a certificate of diagnosis ", and a function of inserting an individual character string is a function word such as & Means a function of inputting information corresponding to an item which is essential or optional in a medical certificate. In order to complete the template, a functional word such as " Completion of medical certificate creation " may be additionally requested.

기능어는 전술한 예에 한정되지 않는바, 예를 들어, 기능어 제외가 포함될 수 있다. 이 기능어 제외는, 적용되는 동안 입력되는 기능어에 대응하는 기능이 수행되지 않게 하여 그 입력되는 기능어가 상기 최종 전사문에 포함되도록 하는 기능을 지칭한다. The functional word is not limited to the example described above, and may include, for example, excluding the functional word. This function word exclusion refers to a function for preventing a function corresponding to a function word inputted during the application from being performed so that the inputted function word is included in the final transfer statement.

예를 들어, 기능어 제외의 기능을 가진 기능어가 "기능어 제외"로 설정된 경우, "하나 줄 바꾸고 둘"이라는 문장을 입력하기 위하여 "하나 기능어 제외 줄 바꾸고 둘"이라는 음성을 발할 수 있다. 또한, "하나 기능어 제외"라고 입력하고 싶다면, "하나 기능어 제외 기능어 제외"라는 음성을 발할 수 있다.For example, if a functional word with the function word exclusion function is set to " Exclude function word", a voice "One function words exclude one word" can be issued to input a sentence of "Change one word". Also, if you want to enter "Exclude one function word", you can say "Exclude function word exclusion function".

이와 같은 기능어 제외를 연속적으로 계속할 필요가 있을 때에는 "기능어 제외 시작"과 "기능어 제외 끝"으로 기능어 제외의 적용을 온/오프 전환(on/off toggle)하는 방식으로 구성할 수도 있을 것이다.If it is necessary to continue to exclude such function words continuously, it may be configured to turn on / off the application of the function word exclusion to the "start of excluding function words" and "end of function words" (on / off toggle).

다시 도 3을 참조하면, 본 발명에 따른 음성 인식 전사문 생성 방법은, 컴퓨팅 장치(100)에 의하여 구현되는 기능어 처리부(240)가, 검출된 상기 기능어에 대응되도록 정해진 기능을 수행함으로써 상기 초벌 전사문으로부터 최종 전사문을 생성하는 단계(S400)를 더 포함하는바, 정해진 기능은 예시적으로 전술한 바와 같다.3, a method for generating a speech recognition transfer statement according to the present invention is a method for generating a speech recognition transfer statement according to an embodiment of the present invention. In the method for generating a speech recognition transfer statement according to the present invention, a function word processing unit 240 implemented by the computing device 100 performs a predetermined function corresponding to the detected function word, (S400) of generating a final transfer statement from the statement, and the predetermined function is exemplarily described above.

기능어는 기능어 사전부(250)에 보유되는데, 필요에 따라 사용자가 추가, 수정 또는 삭제할 수도 있다. 이를 위하여 본 발명에 따른 음성 인식 전사문 생성 방법은, 컴퓨팅 장치(100)에 의하여 구현되는 기능어 편집부(260)가, 기능어에 대한 편집 요청에 따라 기능어 사전의 특정 기능어 및 특정 기능어에 대응되는 기능에 대한 편집, 삭제 및 추가 중 적어도 하나를 수행하는 단계(S500)를 포함할 수 있다. 도 3에서는 본 발명에 따른 방법의 각 단계가 S100, S200, S300, S400의 순서로 수행되는 것으로 도시되어 있는바, 이는 논리적으로 필연적인 순서인 반면에, S500의 순서는 각 단계와 동시에, 또는 이시에 이루어질 수 있으며, S200 다음에 S500이 수행되어야 함을 의미하는 것이 아니라는 점을 통상의 기술자는 이해할 수 있을 것이다.The functional word is held in the functional word dictionary unit 250 and may be added, modified or deleted by the user as needed. To this end, the method for generating a speech recognition transfer statement according to the present invention is a method for generating a speech recognition transfer statement according to an embodiment of the present invention, in which a functional word editing unit 260 implemented by the computing device 100 performs a function corresponding to a specific functional word And performing at least one of editing, deleting, and adding (S500). In FIG. 3, each step of the method according to the present invention is shown to be performed in the order of S100, S200, S300, S400, which is a logically inevitable order, while the order of S500 is concurrent with each step, or It will be understood by those skilled in the art that this may be done at this time and that S500 is not meant to be performed after S200.

구체적으로, 단계(S500)는, 상기 기능어에 대한 편집 요청에 응하여, 상기 컴퓨팅 장치에 의하여 구현되는 기능어 편집부(260)가, (i) 상기 기능어 사전에 기 포함된 특정 기능어 및 상기 특정 기능어에 대한 기능의 편집, 삭제, 및 (ii) 상기 기능어 사전에 미 포함된 특정 기능어 및 상기 특정 기능어에 대한 기능의 추가 중 적어도 하나가 가능하도록 구성된 소정의 사용자 인터페이스를 제공하는 단계(S520); 및 상기 사용자 인터페이스에 대한 조작에 응하여, 컴퓨팅 장치에 의하여 구현되는 기능어 편집부(260)가, 상기 편집, 삭제 및 추가 중 적어도 하나를 수행하는 단계(S540)를 포함할 수 있다.Specifically, in operation S500, in response to an editing request for the functional word, the functional word editing unit 260 implemented by the computing device reads (i) a specific functional word included in the functional word dictionary, (S520) of providing a predetermined user interface configured to enable at least one of editing, deleting, and (ii) adding a specific function word not included in the functional word dictionary and a function to the specific function word; And a step (S540) of performing at least one of the editing, deleting, and adding the function word editing unit 260 implemented by the computing device in response to the operation on the user interface.

본 발명의 전술한 단계들의 수행에 의하여 음성 인식에 기반한 기능어를 활용하여 보다 적절한 형식을 갖춘 전사문을 작성할 수 있다. 단계들(S100 내지 S400)은 1회만 수행될 수도 있으나, 바람직하게는, 연속적으로 입력되는 음향 데이터의 순차적인 음성 인식에 대응할 수 있도록, 연속적으로 입력된 음향 데이터의 적어도 일부에 대하여 실시간(real-time)으로 그리고/또는 반복적으로(iteratively) 수행될 수 있다.By carrying out the above-described steps of the present invention, it is possible to create transcription statements having a more appropriate format by utilizing functional words based on speech recognition. Steps S100 to S400 may be performed only once, but it is preferable that real-time processing is performed on at least a part of the continuously inputted sound data so as to correspond to sequential speech recognition of sequentially inputted sound data, time and / or iteratively.

지금까지 설명된 바와 같이 본 발명은 그 모든 실시 예 및 변형례에 걸쳐, 전사된 문자열 이외의 기능어를 활용할 수 있게 함으로써 원하는 적절한 형식의 전사문을 완성할 수 있게 하는 효과가 있다.As described so far, the present invention is able to utilize functional words other than the transferred character strings throughout all the embodiments and modifications, thereby making it possible to complete a transfer style of a desired proper format.

위 실시 예의 설명에 기초하여 해당 기술분야의 통상의 기술자는, 본 발명의 방법 및/또는 프로세스들, 그리고 그 단계들이 하드웨어, 소프트웨어 또는 특정 용례에 적합한 하드웨어 및 소프트웨어의 임의의 조합으로 실현될 수 있다는 점을 명확하게 이해할 수 있다. 상기 하드웨어는 범용 컴퓨터 및/또는 전용 컴퓨팅 장치 또는 특정 컴퓨팅 장치 또는 특정 컴퓨팅 장치의 특별한 모습 또는 구성요소를 포함할 수 있다. 상기 프로세스들은 내부 및/또는 외부 메모리를 가지는, 하나 이상의 마이크로프로세서, 마이크로컨트롤러, 임베디드 마이크로컨트롤러, 프로그래머블 디지털 신호 프로세서 또는 기타 프로그래머블 장치에 의하여 실현될 수 있다. 게다가, 혹은 대안으로서, 상기 프로세스들은 주문형 집적회로(application specific integrated circuit; ASIC), 프로그래머블 게이트 어레이(programmable gate array), 프로그래머블 어레이 로직(Programmable Array Logic; PAL) 또는 전자 신호들을 처리하기 위해 구성될 수 있는 임의의 다른 장치 또는 장치들의 조합으로 실시될 수 있다. 더욱이 본 발명의 기술적 해법의 대상물 또는 선행 기술들에 기여하는 부분들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 기계 판독 가능한 기록 매체에 기록될 수 있다. 상기 기계 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 기계 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다. 기계 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD, Blu-ray와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 전술한 장치들 중 어느 하나뿐만 아니라 프로세서, 프로세서 아키텍처 또는 상이한 하드웨어 및 소프트웨어의 조합들의 이종 조합, 또는 다른 어떤 프로그램 명령어들을 실행할 수 있는 기계 상에서 실행되기 위하여 저장 및 컴파일 또는 인터프리트될 수 있는, C와 같은 구조적 프로그래밍 언어, C++ 같은 객체지향적 프로그래밍 언어 또는 고급 또는 저급 프로그래밍 언어(어셈블리어, 하드웨어 기술 언어들 및 데이터베이스 프로그래밍 언어 및 기술들)를 사용하여 만들어질 수 있는바, 기계어 코드, 바이트코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 이에 포함된다. Based on the description of the embodiments above, those skilled in the art will recognize that the methods and / or processes of the present invention and their steps may be implemented in hardware, software, or any combination of hardware and software suitable for the particular application Points can be clearly understood. The hardware may include special features or components of a general purpose computer and / or a dedicated computing device or a specific computing device or a particular computing device. The processes may be realized by one or more microprocessors, microcontrollers, embedded microcontrollers, programmable digital signal processors or other programmable devices having internal and / or external memory. Additionally or alternatively, the processes can be configured to process application specific integrated circuits (ASICs), programmable gate arrays, programmable array logic (PAL) Or any other device or combination of devices. Furthermore, the objects of the technical solution of the present invention, or portions contributing to the prior art, may be implemented in the form of program instructions that can be executed through various computer components and recorded on a machine-readable recording medium. The machine-readable recording medium may include program commands, data files, data structures, and the like, alone or in combination. The program instructions recorded on the machine-readable recording medium may be those specially designed and constructed for the present invention or may be those known to those of ordinary skill in the computer software arts. Examples of the machine-readable recording medium include magnetic media such as hard disks, floppy disks and magnetic tape, optical recording media such as CD-ROM, DVD, Blu-ray, magneto-optical media such as floptical disks magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions include, but are not limited to, any of the above devices, as well as a heterogeneous combination of processors, processor architectures or combinations of different hardware and software, Which may be constructed using a structured programming language such as C, an object-oriented programming language such as C ++ or an advanced or low-level programming language (assembly language, hardware description languages and database programming languages and techniques) This includes not only bytecode, but also high-level language code that can be executed by a computer using an interpreter or the like.

따라서 본 발명에 따른 일 태양에서는, 앞서 설명된 방법 및 그 조합들이 하나 이상의 컴퓨팅 장치들에 의하여 수행될 때, 그 방법 및 방법의 조합들이 각 단계들을 수행하는 실행 가능한 코드로서 실시될 수 있다. 다른 일 태양에서는, 상기 방법은 상기 단계들을 수행하는 시스템들로서 실시될 수 있고, 방법들은 장치들에 걸쳐 여러 가지 방법으로 분산되거나 모든 기능들이 하나의 전용, 독립형 장치 또는 다른 하드웨어에 통합될 수 있다. 또 다른 일 태양에서는, 위에서 설명한 프로세스들과 연관된 단계들을 수행하는 수단들은 앞서 설명한 임의의 하드웨어 및/또는 소프트웨어를 포함할 수 있다. 그러한 모든 순차 결합 및 조합들은 본 개시서의 범위 내에 속하도록 의도된 것이다.Thus, in one aspect of the present invention, when the methods and combinations described above are performed by one or more computing devices, combinations of the methods and methods may be implemented as executable code that performs each of the steps. In another aspect, the method may be implemented as systems for performing the steps, and the methods may be distributed in various ways throughout the devices, or all functions may be integrated into one dedicated, stand-alone device, or other hardware. In yet another aspect, the means for performing the steps associated with the processes described above may include any of the hardware and / or software described above. All such sequential combinations and combinations are intended to be within the scope of this disclosure.

예를 들어, 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다. 상기 하드웨어 장치는, 프로그램 명령어를 저장하기 위한 ROM/RAM 등과 같은 메모리와 결합되고 상기 메모리에 저장된 명령어들을 실행하도록 구성되는 MPU, CPU, GPU, TPU와 같은 프로세서를 포함할 수 있으며, 외부 장치와 신호를 주고 받을 수 있는 통신부를 포함할 수 있다. 덧붙여, 상기 하드웨어 장치는 개발자들에 의하여 작성된 명령어들을 전달받기 위한 키보드, 마우스, 기타 외부 입력장치를 포함할 수 있다.For example, the hardware device may be configured to operate as one or more software modules to perform processing in accordance with the present invention, and vice versa. The hardware device may include a processor, such as an MPU, CPU, GPU, TPU, coupled to a memory, such as ROM / RAM, for storing program instructions and configured to execute instructions stored in the memory, And a communication unit capable of receiving and sending data. In addition, the hardware device may include a keyboard, a mouse, and other external input devices for receiving commands generated by the developers.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시 예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시 예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 사람이라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed embodiments, but, on the contrary, Those skilled in the art will appreciate that various modifications and changes may be made thereto without departing from the scope of the present invention.

따라서, 본 발명의 사상은 상기 설명된 실시 예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.Therefore, the spirit of the present invention should not be construed as being limited to the above-described embodiments, and all of the equivalents or equivalents of the claims, as well as the following claims, I will say.

그와 같이 균등하게 또는 등가적으로 변형된 것에는, 예컨대 본 발명에 따른 방법을 실시한 것과 동일한 결과를 낼 수 있는, 논리적으로 동치(logically equivalent)인 방법이 포함될 것인바, 본 발명의 진의 및 범위는 전술한 예시들에 의하여 제한되어서는 아니되며, 법률에 의하여 허용 가능한 가장 넓은 의미로 이해되어야 한다.Such equally or equivalently modified means include, for example, a logically equivalent method which can produce the same result as the method according to the present invention, Should not be limited by the foregoing examples, but should be understood in the broadest sense permissible by law.

Claims (12)

음성 인식에 기반하여 음향 데이터로부터 전사문(transcription)을 생성하는 방법에 있어서,
(a) 컴퓨팅 장치가, 상기 음향 데이터를 획득하는 단계;
(b) 상기 컴퓨팅 장치가, 획득된 상기 음향 데이터로부터 음성을 인식하여 초벌 전사문을 생성하는 단계;
(c) 상기 컴퓨팅 장치가, 생성된 초벌 전사문에서 기능어 사전을 참조로 하여 미리 예약된 기능어를 검출하는 단계; 및
(d) 상기 컴퓨팅 장치가, 검출된 상기 기능어에 대응되도록 정해진 기능을 수행함으로써 상기 초벌 전사문으로부터 최종 전사문을 생성하는 단계
를 포함하고,
상기 기능어는 단순 치환 및 술어부 확장을 포함하는 기능군(function group)에 속한 적어도 하나의 기능에 대응되고,
상기 단순 치환은,
대응되는 상기 기능어를 특정 문자열로 치환하는 기능이며,
상기 술어부 확장은,
위치상 종속하는 다른 기능어에 대한 관계에서 상기 대응되는 기능어를 삭제하는 기능인 것을 특징으로 하는 음성 인식 전사문 생성 방법.
A method for generating a transcription from acoustic data based on speech recognition,
(a) the computing device acquiring the sound data;
(b) the computing device recognizing a voice from the acquired sound data to generate a primitive transcription statement;
(c) detecting, by the computing device, a previously reserved function word with reference to a functional word dictionary in a generated primitive transfer statement; And
(d) generating, by the computing device, a final transfer statement from the primitive transfer statement by performing a predetermined function corresponding to the detected function word
Lt; / RTI >
Wherein the functional word corresponds to at least one function belonging to a function group including simple substitution and syllabary expansion,
In the simple substitution,
And replacing the corresponding function word with a specific character string,
The syllabic expansion may include:
And deleting the corresponding function word in relation to other function words depending on the position.
제1항에 있어서,
(e) 상기 컴퓨팅 장치가, 상기 기능어에 대한 편집 요청에 따라 상기 기능어 사전의 특정 기능어 및 상기 특정 기능어에 대응되는 기능에 대한 편집, 삭제 및 추가 중 적어도 하나를 수행하는 단계
를 더 포함하는 음성 인식 전사문 생성 방법.
The method according to claim 1,
(e) performing at least one of editing, deletion and addition of a specific function word in the functional word dictionary and a function corresponding to the specific functional word according to an editing request for the functional word
Further comprising the steps of:
제2항에 있어서,
상기 (e) 단계는,
(e1) 상기 기능어에 대한 편집 요청에 응하여, 상기 컴퓨팅 장치가, (i) 상기 기능어 사전에 기 포함된 특정 기능어 및 상기 특정 기능어에 대한 기능의 편집, 삭제, 및 (ii) 상기 기능어 사전에 미 포함된 특정 기능어 및 상기 특정 기능어에 대한 기능의 추가 중 적어도 하나가 가능하도록 구성된 소정의 사용자 인터페이스를 제공하는 단계; 및
(e2) 상기 사용자 인터페이스에 대한 조작에 응하여, 상기 컴퓨팅 장치가, 상기 편집, 삭제 및 추가 중 적어도 하나를 수행하는 단계
를 포함하는 음성 인식 전사문 생성 방법.
3. The method of claim 2,
The step (e)
(e1) in response to an editing request for the functional word, the computing device performs: (i) editing and deleting a specific functional word included in the functional word dictionary and a function for the specific functional word; and (ii) Providing a predetermined user interface configured to enable at least one of a specific function word included and an addition of a function to the specific function word; And
(e2) in response to an operation on the user interface, the computing device performing at least one of the editing, deleting, and adding
And generating a speech recognition transcription statement.
삭제delete 제1항에 있어서,
상기 기능군은 대표어 활용을 더 포함하고,
상기 대표어 활용은,
소정 포맷의 문자열을 다른 포맷의 문자열로 치환하는 기능인 것을 특징으로 하는 음성 인식 전사문 생성 방법.
The method according to claim 1,
The functional group further includes a representative word utilization,
The above-
And replacing the character string of the predetermined format with a character string of another format.
제1항에 있어서,
상기 기능군은 템플릿 치환을 더 포함하고,
상기 템플릿 치환은,
소정의 템플릿을 적재하고 상기 템플릿의 정해진 적어도 하나의 위치에 개별 문자열을 삽입하는 기능인 것을 특징으로 하는 음성 인식 전사문 생성 방법.
The method according to claim 1,
Wherein the functional group further comprises template substitution,
The template substitution may include:
And a function of loading a predetermined template and inserting an individual character string into at least one predetermined position of the template.
제1항에 있어서,
상기 기능군은 기능어 제외를 더 포함하고,
상기 기능어 제외는,
상기 기능어 제외가 적용되는 동안 입력되는 기능어가 상기 최종 전사문에 포함되도록, 상기 입력되는 기능어에 대응하는 기능이 수행되지 않게 하는 기능인 것을 특징으로 하는 음성 인식 전사문 생성 방법.
The method according to claim 1,
Wherein the functional group further includes functional word exclusion,
In the case of excluding the functional word,
Wherein a function corresponding to the input functional word is not performed so that the functional word input during the exclusion of the functional word is included in the final transcriptional statement.
제1항에 있어서,
상기 음향 데이터는 연속적으로 입력되며, 상기 단계 (a) 내지 단계 (d)는 연속적으로 입력된 상기 음향 데이터의 적어도 일부에 대하여 실시간으로(real-time) 그리고 반복적으로(iteratively) 수행되는 것을 특징으로 하는 음성 인식 전사문 생성 방법.
The method according to claim 1,
Wherein the sound data is inputted continuously and the steps (a) to (d) are performed real-time and iteratively for at least a part of the sequentially inputted sound data A method for generating a speech recognition transcription.
컴퓨팅 장치로 하여금, 제1항 내지 제3항, 제5항 내지 제8항 중 어느 한 항의 방법을 수행하도록 구현된 명령어(instructions)를 포함하는, 기계 판독 가능한 비일시적 기록 매체에 저장된, 컴퓨터 프로그램.A computer program product, stored in a machine readable non-volatile storage medium, comprising instructions embodied in a computer-readable medium for causing a computing device to perform the method of any one of claims 1 to 3, . 음성 인식에 기반하여 음향 데이터로부터 전사문(transcription)을 생성하는 장치에 있어서,
상기 음향 데이터를 획득하는 통신부; 및
(i) 획득된 상기 음향 데이터로부터 음성을 인식하여 초벌 전사문을 생성하는 프로세스; (ii) 생성된 초벌 전사문에서 기능어 사전을 참조로 하여 미리 예약된 기능어를 검출하는 프로세스; 및 (iii) 검출된 상기 기능어에 대응되도록 정해진 기능을 수행함으로써 상기 초벌 전사문으로부터 최종 전사문을 생성하는 프로세스를 수행하는 프로세서
를 포함하고,
상기 기능어는 단순 치환 및 술어부 확장을 포함하는 기능군(function group)에 속한 적어도 하나의 기능에 대응되고,
상기 단순 치환은,
대응되는 상기 기능어를 특정 문자열로 치환하는 기능이며,
상기 술어부 확장은,
위치상 종속하는 다른 기능어에 대한 관계에서 상기 대응되는 기능어를 삭제하는 기능인 것을 특징으로 하는 음성 인식 전사문 생성 장치.
An apparatus for generating transcription from acoustic data based on speech recognition, the apparatus comprising:
A communication unit for acquiring the sound data; And
(i) recognizing speech from the acquired sound data and generating a premise word; (ii) a process of detecting a function word reserved in advance by referring to the functional word dictionary in the generated generic transcription statement; And (iii) a processor for performing a process of generating a final transfer statement from the nested transfer statement by performing a predetermined function corresponding to the detected function word
Lt; / RTI >
Wherein the functional word corresponds to at least one function belonging to a function group including simple substitution and syllabary expansion,
In the simple substitution,
And replacing the corresponding function word with a specific character string,
The syllabic expansion may include:
And deleting the corresponding function word in relation to other function words depending on the position.
제10항에 있어서,
상기 프로세서는,
상기 기능어에 대한 편집 요청에 따라 상기 기능어 사전의 특정 기능어 및 상기 특정 기능어에 대응되는 기능에 대한 편집, 삭제 및 추가 중 적어도 하나를 수행하는 것을 특징으로 하는 음성 인식 전사문 생성 장치.
11. The method of claim 10,
The processor comprising:
Deletes and adds a function corresponding to the specific function word and the specific function word in the function word dictionary according to an edit request for the function word.
제11항에 있어서,
상기 프로세서는,
(iv) 상기 기능어에 대한 편집 요청에 응하여, 상기 기능어 사전에 기 포함된 특정 기능어 및 상기 특정 기능어에 대한 기능의 편집, 삭제, 및 상기 기능어 사전에 미 포함된 특정 기능어 및 상기 특정 기능어에 대한 기능의 추가 중 적어도 하나가 가능하도록 구성된 소정의 사용자 인터페이스를 제공하는 프로세스; 및 (v) 상기 사용자 인터페이스에 대한 조작에 응하여, 상기 편집, 삭제 및 추가 중 적어도 하나를 수행하는 프로세스를 더 수행하는 음성 인식 전사문 생성 장치.
12. The method of claim 11,
The processor comprising:
(iv) editing a specific function word included in the functional word dictionary and a function for the specific functional word, and deleting the specific functional word included in the functional word dictionary and the function for the specific functional word in response to an editing request for the functional word The method comprising the steps of: And (v) performing at least one of the editing, deleting, and adding in response to an operation on the user interface.
KR1020180040173A 2018-04-06 2018-04-06 Method for generating transcription from sound data based on voice recognition KR101923960B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180040173A KR101923960B1 (en) 2018-04-06 2018-04-06 Method for generating transcription from sound data based on voice recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180040173A KR101923960B1 (en) 2018-04-06 2018-04-06 Method for generating transcription from sound data based on voice recognition

Publications (1)

Publication Number Publication Date
KR101923960B1 true KR101923960B1 (en) 2018-11-30

Family

ID=64561014

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180040173A KR101923960B1 (en) 2018-04-06 2018-04-06 Method for generating transcription from sound data based on voice recognition

Country Status (1)

Country Link
KR (1) KR101923960B1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003288098A (en) * 2002-03-28 2003-10-10 Toshiba Corp Device, method and program of dictation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003288098A (en) * 2002-03-28 2003-10-10 Toshiba Corp Device, method and program of dictation

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Siri 한국어 모드에서 음성으로 문장 부호 입력하기 v1.6, CaN(Computer & Network) Tips, 2013.05.12.

Similar Documents

Publication Publication Date Title
US11205444B2 (en) Utilizing bi-directional recurrent encoders with multi-hop attention for speech emotion recognition
US11080466B2 (en) Updating existing content suggestion to include suggestions from recorded media using artificial intelligence
US11270060B2 (en) Generating suggested document edits from recorded media using artificial intelligence
US10672391B2 (en) Improving automatic speech recognition of multilingual named entities
US11263384B2 (en) Generating document edit requests for electronic documents managed by a third-party document management service using artificial intelligence
WO2017067206A1 (en) Training method for multiple personalized acoustic models, and voice synthesis method and device
US20200293616A1 (en) Generating a meeting review document that includes links to the one or more documents reviewed
US20200090661A1 (en) Systems and Methods for Improved Digital Transcript Creation Using Automated Speech Recognition
US11720741B2 (en) Artificial intelligence assisted review of electronic documents
WO2019227582A1 (en) Information query method and apparatus, computer device, and storage medium
US11392754B2 (en) Artificial intelligence assisted review of physical documents
US10896222B1 (en) Subject-specific data set for named entity resolution
WO2017127296A1 (en) Analyzing textual data
WO2020062680A1 (en) Waveform splicing method and apparatus based on double syllable mixing, and device, and storage medium
WO2020133039A1 (en) Entity identification method and apparatus in dialogue corpus, and computer device
KR102298330B1 (en) System for generating medical consultation summary and electronic medical record based on speech recognition and natural language processing algorithm
WO2020238045A1 (en) Intelligent speech recognition method and apparatus, and computer-readable storage medium
US20080162559A1 (en) Asynchronous communications regarding the subject matter of a media file stored on a handheld recording device
US11322133B2 (en) Expressive text-to-speech utilizing contextual word-level style tokens
JP2009140466A (en) Method and system for providing conversation dictionary services based on user created dialog data
KR101923960B1 (en) Method for generating transcription from sound data based on voice recognition
KR102361831B1 (en) Method for performing document editing based on speech recognition and apparatus using the same
US11875797B2 (en) Systems and methods for scripted audio production
KR102492008B1 (en) Apparatus for managing minutes and method thereof
TW202011384A (en) Speech correction system and speech correction method

Legal Events

Date Code Title Description
GRNT Written decision to grant