KR101705228B1 - Electronic document producing apparatus, and control method thereof - Google Patents

Electronic document producing apparatus, and control method thereof Download PDF

Info

Publication number
KR101705228B1
KR101705228B1 KR1020160106392A KR20160106392A KR101705228B1 KR 101705228 B1 KR101705228 B1 KR 101705228B1 KR 1020160106392 A KR1020160106392 A KR 1020160106392A KR 20160106392 A KR20160106392 A KR 20160106392A KR 101705228 B1 KR101705228 B1 KR 101705228B1
Authority
KR
South Korea
Prior art keywords
character string
voice
keyword
section
file
Prior art date
Application number
KR1020160106392A
Other languages
Korean (ko)
Inventor
백승빈
Original Assignee
백승빈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 백승빈 filed Critical 백승빈
Priority to KR1020160106392A priority Critical patent/KR101705228B1/en
Application granted granted Critical
Publication of KR101705228B1 publication Critical patent/KR101705228B1/en

Links

Images

Classifications

    • G06F17/30746
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K19/00Record carriers for use with machines and with at least a part designed to carry digital markings
    • G06K19/06Record carriers for use with machines and with at least a part designed to carry digital markings characterised by the kind of the digital marking, e.g. shape, nature, code
    • G06K19/06009Record carriers for use with machines and with at least a part designed to carry digital markings characterised by the kind of the digital marking, e.g. shape, nature, code with optically detectable marking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

The present invention proposes an electronic document producing apparatus and an operation method thereof. The electronic document producing apparatus automatically extracts a specified voice section from the entire voice section recorded as a voice file and generates an electronic document in which information related to the extracted voice section is inserted, thereby improving efficiency and convenience in producing the electronic document.

Description

전자문서생성장치 및 그 동작 방법{ELECTRONIC DOCUMENT PRODUCING APPARATUS, AND CONTROL METHOD THEREOF}[0001] ELECTRONIC DOCUMENT PRODUCING APPARATUS, AND CONTROL METHOD THEREOF [0002]

본 발명은 음성파일로 녹음된 전체 음성구간 중 지정된 일부 음성구간을 자동으로 발췌하여 발췌된 음성구간과 관련된 정보를 삽입한 전자문서를 생성하기 위한 방안에 관한 것이다.The present invention relates to a method for generating an electronic document in which information related to an extracted voice section is inserted by automatically extracting a designated partial voice section among the entire voice sections recorded as a voice file.

휴대용 전자기기의 판매량 및 사용량이 크게 증가되면서, 다양한 분야에 걸쳐서 전자문서 및 전자서명 서비스가 도입되어 활용되고 있다.As sales volume and usage of portable electronic devices have greatly increased, electronic documents and electronic signature services have been introduced and utilized in various fields.

더욱이, 이러한 전자문서 및 전자서명 서비스의 경우 정부의 페이퍼리스(Paperless) 정책과 맞물려 급속한 증가 추세를 이루고 있다.Moreover, these electronic documents and digital signature services are rapidly increasing in line with the government's paperless policy.

최근에는 전자서명의 법제화와 관련하여, 전자서명을 법적 효력을 보완하기 위한 수단으로서 녹취 기능을 도입함으로써, 계약 또는 동의 내용 고객의 부인을 원천 방지하고자 하는 요구 또한 증가하고 있다.In recent years, with the legalization of digital signatures, there has been an increasing demand to prevent the discontent of contract or agreement contents customers by introducing a recording function as a means to supplement the legal effect of digital signatures.

이러한, 녹취 기능은 비단 전자서명의 법적 효력을 보완하기 위한 수단으로서뿐만 아니라, 사회 전반에 걸쳐 다양한 분야에서 활용할 수 있는데, 이러한 녹취 기능을 적극 활용하기 위한 방안이 요구된다 할 것이다.Such a recording function can be used not only as a means for supplementing the legal effect of digital signatures but also in various fields throughout society, and a method for actively utilizing such a recording function is required.

본 발명은 상기한 사정을 감안하여 창출된 것으로서, 본 발명에서 도달하고자 하는 목적은, 녹음된 전체 음성구간 중 지정된 일부 음성구간을 자동으로 발췌하여 발췌된 음성구간과 관련된 정보를 삽입한 전자문서를 생성하는 데 있다.The present invention has been made in view of the above circumstances, and an object of the present invention is to provide a method and apparatus for automatically extracting a specified voice section from among a recorded voice section, To create.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 전자문서생성장치는, 음성파일로부터 재생되는 음성을 인식하여, 인식된 문자를 기록한 문자파일을 생성하는 생성부; 상기 문자파일에 기록된 문자열 중 기 정의된 문자열과 대응하는 문자열인 대응문자열을 확인하는 확인부; 및 상기 대응문자열의 재생시점을 기초로 상기 음성파일로부터 상기 대응문자열과 관련된 음성구간인 발췌음성구간을 추출하는 추출부를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided an apparatus for generating an electronic document, the apparatus comprising: a generating unit for recognizing a voice to be reproduced from a voice file and generating a character file in which recognized characters are recorded; A confirmation unit for confirming a corresponding character string which is a character string corresponding to a predefined character string among the character strings recorded in the character file; And an extracting unit for extracting an extracting voice section that is a voice section related to the corresponding character string from the voice file based on the reproduction time of the corresponding character string.

보다 구체적으로, 상기 기 정의된 문자열은, 상기 발췌음성구간의 시작시점과 관련된 개시문자열, 및 상기 발췌음성구간의 종료시점과 관련된 종료문자열을 포함하는 것을 특징으로 한다.More specifically, the predefined character string includes a start character string related to a start time of the extracted voice segment, and an end character string related to an end time of the extracted voice segment.

보다 구체적으로, 상기 추출부는, 상기 개시문자열에 대응하는 대응문자열의 재생종료시점으로부터 상기 종료문자열에 대응하는 대응문자열의 재생시작시점까지의 음성구간을 상기 발췌음성구간으로 추출하거나, 또는 상기 개시문자열에 대응하는 대응문자열의 재생시작시점으로부터 상기 종료문자열에 대응하는 대응문자열의 재생종료시점까지의 음성구간을 상기 발췌음성구간으로 추출하는 것을 특징으로 한다.More specifically, the extracting unit extracts a voice section from the reproduction end point of the corresponding character string corresponding to the start character string to the reproduction start point of the corresponding character string corresponding to the end character string, to the extracted voice section, Extracting the speech section from the reproduction start point of the corresponding character string corresponding to the end character string to the reproduction end point of the corresponding character string corresponding to the end character string in the extracted voice section.

보다 구체적으로, 상기 대응문자열은, 상기 기 정의된 문자열과의 유사도 우선순위, 및 상기 기 정의된 문자열과 관련하여 지정된 키워드를 포함하는 개수 중 적어도 하나를 기초로 확인되는 것을 특징으로 한다.More specifically, the corresponding character string is identified based on at least one of a priority order of similarity with the predefined character string, and a number including a keyword designated in association with the predefined character string.

보다 구체적으로, 상기 대응문자열은, 상기 문자파일로부터 상기 기 정의된 문자열과의 유사도가 높은 우선순위에 따라 선별되는 후보문자열 중 상기 지정된 키워드를 포함하는 개수가 임계치 이상인 특정 후보문자열을 포함하는 것을 특징으로 한다.More specifically, the corresponding character string may include a specific candidate character string having a number greater than or equal to a threshold value, the number including the designated keyword among the candidate characters selected from the character file according to a priority order having a high degree of similarity to the pre- .

보다 구체적으로, 상기 확인부는, 상기 지정된 키워드를 포함하는 개수가 임계치 이상인 후보문자열이 존재하지 않는 경우, 상기 음성파일로부터 상기 기 정의된 문자열과 관련된 음성구간인 음성재인식구간을 지정하여, 상기 음성재인식구간에 대한 인식 결과를 기초로 상기 문자파일이 재 생성되도록 하는 것을 특징으로 한다.More specifically, the verification unit may designate, from the voice file, a voice re-recognition section that is a voice section related to the pre-defined character string, if the candidate string whose number including the designated keyword is equal to or larger than the threshold value is not present, And the character file is regenerated on the basis of the recognition result of the section.

보다 구체적으로, 상기 음성재인식구간은, 상기 지정된 키워드 중 상기 후보문자열에 포함된 것이 확인되는 키워드인 확인키워드의 재생시점, 및 상기 기 정의된 문자열 내에 상기 확인키워드와 함께 배열되며 상기 후보문자열로부터 확인되지 않은 키워드인 미확인키워드의 재생시점을 포함하는 음성구간으로 지정되는 것을 특징으로 한다.More specifically, the speech re-recognition period includes a reproduction time point of a confirmation keyword, which is a keyword that is confirmed to be included in the candidate character string of the specified keyword, and a reproduction time point of the verification keyword, And a reproduction time point of an unconfirmed keyword which is a keyword that is not a keyword.

보다 구체적으로, 상기 미확인키워드의 재생시점은, 상기 음성파일의 재생 시 확인된 음성 발화자의 발화속도 및 상기 확인키워드와 상기 미확인키워드 간의 거리를 기초로 상기 확인키워드와 상기 미확인키워드 간의 재생시점의 차이를 계산하여, 상기 확인키워드의 재생시점에 대해 상기 계산된 재생시점 차이만큼의 시간을 가산 또는 감산한 재생시점으로 결정되는 것을 특징으로 한다.More specifically, the reproduction time point of the unconfirmed keyword may be determined based on a difference between the reproduction time point of the verification keyword and the unconfirmed keyword, based on the speech speed of the voice utterer confirmed at the time of reproduction of the audio file and the distance between the verification keyword and the unconfirmed keyword And the reproduction time point is determined by adding or subtracting the time corresponding to the calculated reproduction time point difference to the reproduction time point of the confirmation keyword.

보다 구체적으로, 상기 전자문서생성장치는, 상기 발췌음성구간과 관련된 음성 및 문자 중 적어도 하나를 바코드이미지로 변환하여 상기 바코드이미지가 삽입된 전자문서가 생성되도록 하는 변환부를 더 포함하는 것을 특징으로 한다.More specifically, the electronic document generation apparatus may further include a conversion unit for converting at least one of a voice and a character associated with the extracted voice section into a barcode image to generate an electronic document in which the barcode image is inserted .

보다 구체적으로, 상기 변환부는, 상기 발췌음성구간 내 보안 처리가 요구되는 특정 구간이 존재하는 경우, 상기 특정 구간의 음성을 대체 음으로 변경한 후 상기 바코드이미지로 변환하는 것을 특징으로 한다.More specifically, if there is a specific section requiring security processing in the excerpted speech section, the converting unit converts the voice of the specific section into a substitute voice, and converts the voice into the barcode image.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 전자문서생성장치의 동작 방법은, 음성파일로부터 재생되는 음성을 인식하여, 인식된 문자를 기록한 문자파일을 생성하는 생성단계; 상기 문자파일에 기록된 문자열 중 기 정의된 문자열과 대응하는 문자열인 대응문자열을 확인하는 확인단계; 및 상기 대응문자열의 재생시점을 기초로 상기 음성파일로부터 상기 대응문자열과 관련된 음성구간인 발췌음성구간을 추출하는 추출단계를 포함하는 것을 특징으로 한다.According to another aspect of the present invention, there is provided an apparatus for generating an electronic document, the apparatus comprising: a generating step of recognizing a voice to be reproduced from a voice file and generating a character file in which recognized characters are recorded; A confirming step of confirming a corresponding character string which is a character string corresponding to a predefined character string among the character strings recorded in the character file; And an extracting step of extracting an extracting speech section which is a speech section related to the corresponding character string from the voice file based on the reproduction time of the corresponding character string.

보다 구체적으로, 상기 기 정의된 문자열은, 상기 발췌음성구간의 시작시점과 관련된 개시문자열, 및 상기 발췌음성구간의 종료시점과 관련된 종료문자열을 포함하는 것을 특징으로 한다.More specifically, the predefined character string includes a start character string related to a start time of the extracted voice segment, and an end character string related to an end time of the extracted voice segment.

보다 구체적으로, 상기 추출단계는, 상기 개시문자열에 대응하는 대응문자열의 재생종료시점으로부터 상기 종료문자열에 대응하는 대응문자열의 재생시작시점까지의 음성구간을 상기 발췌음성구간으로 추출하거나, 또는 상기 개시문자열에 대응하는 대응문자열의 재생시작시점으로부터 상기 종료문자열에 대응하는 대응문자열의 재생종료시점까지의 음성구간을 상기 발췌음성구간으로 추출하는 것을 특징으로 한다.More specifically, the extracting step extracts a speech section from the reproduction end point of the corresponding character string corresponding to the start character string to the reproduction start point of the corresponding character string corresponding to the end character string to the excerpt voice section, Extracting a speech section from the reproduction start point of the corresponding character string corresponding to the character string to the reproduction end point of the corresponding character string corresponding to the end character string in the extracted voice section.

보다 구체적으로, 상기 대응문자열은, 상기 기 정의된 문자열과의 유사도 우선순위, 및 상기 기 정의된 문자열과 관련하여 지정된 키워드를 포함하는 개수 중 적어도 하나를 기초로 확인되는 것을 특징으로 한다.More specifically, the corresponding character string is identified based on at least one of a priority order of similarity with the predefined character string, and a number including a keyword designated in association with the predefined character string.

보다 구체적으로, 상기 대응문자열은, 상기 문자파일로부터 상기 기 정의된 문자열과의 유사도가 높은 우선순위에 따라 선별되는 후보문자열 중 상기 지정된 키워드를 포함하는 개수가 임계치 이상인 특정 후보문자열을 포함하는 것을 특징으로 한다.More specifically, the corresponding character string may include a specific candidate character string having a number greater than or equal to a threshold value, the number including the designated keyword among the candidate characters selected from the character file according to a priority order having a high degree of similarity to the pre- .

보다 구체적으로, 상기 확인단계는, 상기 지정된 키워드를 포함하는 개수가 임계치 이상인 후보문자열이 존재하지 않는 경우, 상기 음성파일로부터 상기 기 정의된 문자열과 관련된 음성구간인 음성재인식구간을 지정하여, 상기 음성재인식구간에 대한 인식 결과를 기초로 상기 문자파일이 재 생성되도록 하는 것을 특징으로 한다.More specifically, in the checking step, if there is no candidate character string having a number greater than or equal to the threshold value including the designated keyword, a voice re-recognition section that is a voice section related to the pre-defined character string is designated from the voice file, And the character file is regenerated on the basis of the recognition result of the re-recognition period.

보다 구체적으로, 상기 음성재인식구간은, 상기 지정된 키워드 중 상기 후보문자열에 포함된 것이 확인되는 키워드인 확인키워드의 재생시점, 및 상기 기 정의된 문자열 내에 상기 확인키워드와 함께 배열되며 상기 후보문자열로부터 확인되지 않은 키워드인 미확인키워드의 재생시점을 포함하는 음성구간으로 지정되는 것을 특징으로 한다.More specifically, the speech re-recognition period includes a reproduction time point of a confirmation keyword, which is a keyword that is confirmed to be included in the candidate character string of the specified keyword, and a reproduction time point of the verification keyword, And a reproduction time point of an unconfirmed keyword which is a keyword that is not a keyword.

보다 구체적으로, 상기 미확인키워드의 재생시점은, 상기 음성파일의 재생 시 확인된 음성 발화자의 발화속도 및 상기 확인키워드와 상기 미확인키워드 간의 거리를 기초로 상기 확인키워드와 상기 미확인키워드 간의 재생시점의 차이를 계산하여, 상기 확인키워드의 재생시점에 대해 상기 계산된 재생시점 차이만큼의 시간을 가산 또는 감산한 재생시점으로 결정되는 것을 특징으로 한다.More specifically, the reproduction time point of the unconfirmed keyword may be determined based on a difference between the reproduction time point of the verification keyword and the unconfirmed keyword, based on the speech speed of the voice utterer confirmed at the time of reproduction of the audio file and the distance between the verification keyword and the unconfirmed keyword And the reproduction time point is determined by adding or subtracting the time corresponding to the calculated reproduction time point difference to the reproduction time point of the confirmation keyword.

보다 구체적으로, 상기 방법은, 상기 발췌음성구간과 관련된 음성 및 문자 중 적어도 하나를 바코드이미지로 변환하여 상기 바코드이미지가 삽입된 전자문서가 생성되도록 하는 변환단계를 더 포함하는 것을 특징으로 한다.More specifically, the method may further include a conversion step of converting at least one of a voice and a character associated with the extracted voice section into a barcode image to generate an electronic document in which the barcode image is inserted.

보다 구체적으로, 상기 변환단계는,상기 발췌음성구간 내 보안 처리가 요구되는 특정 구간이 존재하는 경우, 상기 특정 구간의 음성을 대체 음으로 변경한 후 상기 바코드이미지로 변환하는 것을 특징으로 한다.More specifically, in the conversion step, if there is a specific section requiring security processing in the extracted voice section, the voice of the specific section is converted into a substitute voice and then converted into the barcode image.

이에, 본 발명에 따른 전자문서생성장치 및 그 동작 방법에 의하면, 음성파일로 녹음된 전체 음성구간 중 지정된 일부 음성구간을 자동으로 발췌하여 발췌된 음성구간과 관련된 정보를 삽입한 전자문서를 생성함으로써, 전자문서의 생성에 있어서 효율성 및 편의성이 제고되는 효과가 성취된다.According to the electronic document generating apparatus and the operation method thereof according to the present invention, an electronic document is automatically generated by extracting a specified part of a voice section of the entire voice section recorded as a voice file and inserting information related to the extracted voice section , An effect of improving efficiency and convenience in the generation of an electronic document is achieved.

도 1은 본 발명의 일 실시예에 따른 전자문서 처리 환경을 도시한 도면.
도 2는 본 발명의 일 실시예에 따른 전자문서생성장치의 개략적인 구성도.
도 3은 본 발명의 일 실시예에 따른 전자문서의 일례를 도시한 도면.
도 4는 본 발명의 일 실시예에 따른 전자문서생성장치에서의 동작 흐름을 설명하기 위한 개략적인 순서도.
1 illustrates an electronic document processing environment according to an embodiment of the present invention;
2 is a schematic configuration diagram of an electronic document generating apparatus according to an embodiment of the present invention;
3 is a view showing an example of an electronic document according to an embodiment of the present invention;
FIG. 4 is a schematic flowchart for explaining an operational flow in an electronic document generation apparatus according to an embodiment of the present invention; FIG.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시예에 대하여 설명한다.Hereinafter, an embodiment of the present invention will be described with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 전자문서 처리 환경을 도시한 도면이다.1 is a diagram illustrating an electronic document processing environment according to an embodiment of the present invention.

도 1 에 도시된 바와 같이, 본 발명의 일 실시예에 따른 전자문서 처리 환경은, 음성파일에 녹음된 음성을 기반으로 전자문서를 생성하는 전자문서생성장치(100)를 포함하는 구성을 가질 수 있다.1, an electronic document processing environment according to an embodiment of the present invention may have a configuration including an electronic document generation apparatus 100 that generates an electronic document based on a voice recorded in a voice file have.

여기서, 음성파일은 예컨대, 고객의 동의, 고객 결제 정보의 확인 등이 요구되는 특정 서비스와 관련하여 고객과 상담원 간에 이루어진 상담 내용을 재생 시 청취 가능한 형태로 저장한 파일을 일컫는다.Here, the voice file refers to a file that stores consultation contents made between the customer and the counselor in a form that can be listened to during a reproduction in connection with a specific service requiring consent of a customer, confirmation of customer payment information, and the like.

전자문서생성장치(100)는 위 특정 서비스를 제공하는 예컨대, ARS 서버, TM(Tele Marketing) 사업자가 운용한 서버의 형태로 구현될 수 있으며, 이에 제한되는 것이 아닌 위 특정 서비스를 제공하는 주체와는 별개의 서버로 구현되어 음성파일에 녹음된 음성을 기반으로 전자문서를 생성할 수 있음은 물론일 것이다.The digital document generation apparatus 100 may be implemented in the form of a server operated by an ARS server or a TM (Tele Marketing) provider that provides the above specific services, for example, but is not limited to, May be implemented as a separate server to generate an electronic document based on the voice recorded in the voice file.

한편, 본 발명의 일 실시예에 따른 전자문서생성장치(100)에서는 음성파일로 녹음된 전체 음성구간이 아닌 예컨대, 고객의 동의, 고객 결제 정보 등을 확인할 수 있는 지정된 일부 음성구간만을 발췌하여 해당 음성구간과 관련된 정보를 포함하도록 전자문서를 생성하게 된다.Meanwhile, in the apparatus 100 for generating an electronic document according to an exemplary embodiment of the present invention, only a designated part of a voice section, which can confirm the consent of a customer, customer payment information, etc., The electronic document is generated to include information related to the voice section.

기존에는 음성파일로부터 일부 음성구간을 발췌하기 위해 음성파일로 녹음된 전체 음성구간을 청취하고, 청취 중 고객의 동의, 고객 결제 정보, 및 고객 개인 정보 등이 확인되는 지정된 일부 음성구간을 상담원 혹은 별도의 담당자가 직접 발췌하는 식의 수작업에 의존하는 실정이었다.In the past, in order to extract some voice sections from a voice file, the entire voice section recorded in the voice file is listened to, and a designated voice section in which the customer's consent, customer payment information, And it depends on the handwork of the type that the person in charge extracts directly.

그러나, 이처럼 음성구간의 발췌를 수작업에 의존하는 기존 방식의 경우, 음성구간을 발췌하기까지 인원 및 시간 등 많은 리소스의 투입이 요구되므로 효율적인 방식이라 할 수 없다.However, in the case of the conventional method in which the extracting of the voice section is manually performed, it is not an efficient method because it requires input of a lot of resources such as the number of persons and time until the voice section is extracted.

이에, 본 발명의 일 실시예에서는, 음성파일 내 일부 음성구간을 자동으로 발췌하여 해당 음성구간에 녹음된 음성을 기반으로 전자문서를 생성함에 있어서, 인력(예: 상담원, 담당자)의 개입 없이 음성구간 발췌할 수 있는 방안을 제안하고자 하며, 이하에서는 이를 위한 전자문서생성장치(100)의 구성에 대해 구체적으로 설명하기로 한다.Accordingly, in an embodiment of the present invention, in generating an electronic document based on a voice recorded in a voice section by automatically extracting a partial voice section in the voice file, voice (voice) Hereinafter, the configuration of the electronic document generating apparatus 100 will be described in detail.

도 2에는 본 발명의 일 실시예에 따른 전자문서생성장치(100)의 개략적인 구성을 보여주고 있다.FIG. 2 shows a schematic configuration of an electronic document generation apparatus 100 according to an embodiment of the present invention.

도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 전자문서생성장치(100)는 음성파일로부터 문자파일을 생성하는 생성부(110), 문자파일로부터 기 정의된 문자열에 대응하는 문자열(이하, '대응문자열'이라 칭함)을 확인하는 확인부(120), 음성파일로부터 대응문자열과 관련된 음성구간(이하, '발췌음성구간'이라 칭함)을 추출하는 추출부(130), 및 발췌음성구간과 관련된 문자 및 음성 중 적어도 하나를 바코드이미지로 변환하는 변환하는 변환부(140)를 포함하는 구성을 가질 수 있다.2, the apparatus 100 for generating an electronic document according to an exemplary embodiment of the present invention includes a generating unit 110 for generating a character file from a voice file, a character string An extracting unit 130 for extracting a speech segment (hereinafter, referred to as an 'extracting speech segment') associated with the corresponding character string from the speech file, and an extracting unit 130 for extracting an extracting speech And a conversion unit (140) for converting at least one of a character and a voice associated with the section into a barcode image.

이상의 생성부(110), 확인부(120), 추출부(130), 및 변환부(140)를 포함하는 전자문서생성장치(100)의 구성 전체 내지는 적어도 일부는, 하드웨어 모듈 형태로 구현되거나, 소프트웨어 모듈 형태로 구현될 수 있다.All or at least some of the configuration of the electronic document generation apparatus 100 including the generation unit 110, the verification unit 120, the extraction unit 130, and the conversion unit 140 may be implemented in the form of a hardware module, May be implemented in the form of software modules.

여기서, 소프트웨어 모듈이란, 예컨대, 전자문서생성장치(100) 내에서 연산을 수행하는 프로세서에 의해 실행되는 명령어로 이해될 수 있으며, 이러한 명령어는 전자문서생성장치(100) 내 메모리에 탑재된 형태를 가질 수 있을 것이다.Here, the software module can be understood as, for example, a command executed by a processor that performs an operation in the electronic document generation apparatus 100, and the command is stored in a memory in the electronic document generation apparatus 100 .

결국, 본 발명의 일 실시예에 따른 전자문서생성장치(100)는 전술한 구성을 통해 전자문서의 생성에 있어서 효율성 및 편의성을 제고시킬 수 있는 데, 이하에서는 이를 위한 전자문서생성장치(100) 내 각 구성에 대해 보다 구체적으로 설명하기로 한다.As a result, the electronic document generating apparatus 100 according to an embodiment of the present invention can improve efficiency and convenience in the generation of an electronic document through the above-described configuration. The respective constituent elements will be described more concretely.

생성부(110)는 문자파일을 생성하는 기능을 처리한다.The generation unit 110 processes a function of generating a character file.

보다 구체적으로, 생성부(110)는 고객과 상담원 간에 이루어진 상담 내용을 청취 가능한 형태로 저장한 파일인 음성파일로부터 재생되는 음성을 인식하여 문자파일을 생성하게 된다.More specifically, the generation unit 110 recognizes the voice reproduced from the voice file, which is a file storing the consultation contents made between the customer and the consultant in an audible form, and generates the character file.

이때, 생성부(110)는 음성파일로부터 재생되는 음성으로부터 인식되는 문자, 및 인식된 문자 각각에 대한 음성파일에서의 재생시점이 포함되도록 문자파일을 생성한다.At this time, the generation unit 110 generates a character file including the character recognized from the voice reproduced from the voice file and the reproduction point in the voice file for each recognized character.

여기서, 재생시점이란, 음성파일에서의 재생시작시점 및 재생종료시점을 포함하는 것으로 이해될 수 있다.Here, the playback time may be understood to include a playback start time and a playback end time in the audio file.

확인부(120)는 대응문자열을 확인하는 기능을 처리한다.The confirmation unit 120 processes the function of confirming the corresponding character string.

보다 구체적으로, 확인부(120)는 음성파일에 대한 인식 결과로서 문자파일의 생성이 완료되는 경우, 생성된 문자파일로부터 기 정의된 문자열과 대응하는 문자열인 대응문자열을 확인하게 된다.More specifically, when the generation of the character file is completed as the recognition result of the voice file, the verification unit 120 checks the corresponding character string, which is a character string corresponding to the predefined character string, from the generated character file.

여기서, 기 정의된 문자열이란 음성파일에 대응하여 문자파일로 기록된 전체 문자 구간 중, 예컨대 고객의 동의, 고객 결제 정보, 및 고객 개인 정보 등의 내용이 기록된 일부의 문자구간을 말한다.Here, the predefined character string is a part of a character segment in which contents of the entire character segment recorded in the character file in correspondence with the voice file, for example, contents of the customer's consent, customer payment information, and customer personal information are recorded.

이러한 기 정의된 문자열에는 발췌음성구간의 시작시점과 관련된 개시문자열과, 발췌음성구간의 종료시점과 관련된 종료문자열로 구분될 수 있다.These predefined strings may be distinguished by a start string associated with the beginning of the excerpted voice section and an ending string associated with the end of the excerpted voice section.

예를 들어, 기 정의된 문자열이 고객의 개인 정보와 관련된 문자열인 경우, 개시문자열은, "지금부터 개인 정보 녹취를 시작하겠습니다"로 정의될 수 있으며, 종료문자열은 "지금까지의 개인 정보 녹취를 종료하겠습니다"로 정의될 수 있다.For example, if the predefined string is a string related to the customer's personal information, the start string can be defined as "I will start recording personal information from now on" and the end string will be " I'll be done. "

한편, 본 발명의 일 실시예에서 대응문자열을 확인하는 방식은 기 정의된 문자열과의 유사도 우선순위를 기초로 한 제1방식과, 기 정의된 문자열과 관련하여 지정된 키워드를 포함하는 개수에 기초한 제2방식으로 구분될 수 있다.Meanwhile, in the embodiment of the present invention, the method of confirming the corresponding character string may include a first method based on the similarity priority order with the predefined character string and a second method based on the number including the designated keyword in relation to the predefined character string Two methods can be distinguished.

이러한, 제1방식과 제2방식은 혼용(순서와 무관) 또는 독립적으로 처리될 수 있는 데, 이하에서는 설명의 편의를 위해 제1방식 처리 이후 제2방식을 후속 처리하는 것을 전제로 설명을 이어가기로 한다.The first method and the second method may be mixed (independently of the order) or independently. Hereinafter, for convenience of explanation, it is assumed that the second method is processed after the first method, Let's go.

우선 확인부(120)는 문자파일이 생성되는 경우, 해당 문자파일로부터 기 정의된 문자열과의 유사도가 높은 우선순위에 따라 설정 개수의 후보문자열을 선별하게 된다.First, when a character file is generated, the confirmation unit 120 selects a set number of candidate characters according to a priority order having a degree of similarity with a predefined character string from the character file.

여기서, 기 정의된 문자열과 후보문자열 간의 유사도는 두 문자열과의 차이를 미리 학습된 말뭉치로부터 통계학적으로 나타내 주는 척도인 퍼플렉시티(Perplexity)를 통해 판별될 수 있다.Here, the degree of similarity between the predefined character string and the candidate character string can be determined by Perplexity, which is a measure for statistically representing the difference between the two strings from the previously learned corpus.

참고로, 퍼플렉시티(Perplexity)는 두 문자열(문장)의 차이를 미리 학습된 말뭉치로부터 통계학적으로 나타내는 척도로서 아래 [수식 1] 및 [수식 2]와 같이 표현될 수 있다.For reference, Perplexity is a metric that represents the difference between two strings (sentences) statistically from a previously learned corpus, and can be expressed as [Equation 1] and [Equation 2] below.

[수식 1][Equation 1]

Figure 112016081581150-pat00001
Figure 112016081581150-pat00001

[수식 2][Equation 2]

Figure 112016081581150-pat00002
Figure 112016081581150-pat00002

여기서, 'p'는 noisy channel model에서 어떤 입력이 들어왔을 때 어떠한 출력이 나오는가에 대한 확률 함수를 나타내는 것으로 학습을 통해 얻어지게 된다.Here, 'p' denotes a probability function of what output is obtained when a certain input is input in the noisy channel model.

예컨대, p(X|x=3)=0.1이면, x=3일 경우의 확률 0.1로 해석될 수 있다.For example, if p (X | x = 3) = 0.1, the probability of x = 3 can be interpreted as 0.1.

이러한 확률 함수 'p'는 자연어 처리 분야에서 예컨대, 다음과 같이 사용될 수 있다.This probability function 'p' can be used, for example, in the field of natural language processing as follows.

"나는 학교에 간다" 가 학습되었을 경우 또한 "나는 학교에" 뒤에 어떤 단어가 나올 확률이 가장 높은지는 다음과 같이 계산될 수 있다.If "I go to school" is learned, then the word "I am most likely to come to school" is calculated as follows:

argmax {p(나는)* p(학교|나는) * p(x | 나는 학교)}argmax {p (I) * p (school | I) * p (x | school)}

여기서, 'argma'는 해당 내용을 최대화 하는 x를 찾는 함수를 말한다. Here, 'argma' refers to a function that finds x that maximizes its contents.

또한, 'H(p)'는 확률 함수 p가 얼마나 복잡하냐를 나타내는 척도 즉 '정의'를 일컫는다.Also, 'H (p)' refers to the scale, or 'definition', indicating how complex the probability function p is.

이러한, 'H(p)'는 퍼플렉시티(Perplexity)에서 지수로 사용되며, 양자화를 통해 문자열(문장) 간의 작은 차이를 크게 나타낼 수 있다(예, 10.1 : 10.2 => 2^10.1 : 2^10.2 = 1098 : 1176).This 'H (p)' is used as an exponent in Perplexity and can quantitatively represent a small difference between strings (eg, 10.1: 10.2 => 2 ^ 10.1: 2 ^ 10.2 = 1098: 1176).

그리고,'n'은 문자열(문장)을 구성하고 있는 단어의 개수를 말한다.And 'n' is the number of words constituting a string (sentence).

한편, 퍼플렉시티(Perplexity)는 그 결과 값이 낮을수록 두 문자열(문장) 간의 유사도가 높은 것으로 해석할 수 있다.Perplexity, on the other hand, can be interpreted that the lower the result, the higher the similarity between two strings (sentences).

이에, 확인부(120)는 문자파일 내 기록된 문자열 중 기 정의된 문자열(개시문자열, 종료문자열) 간의 퍼플렉시티(Perplexity)가 낮은 우선순위로 기 설정된 개수의 후보문자열을 선별하게 된다.Accordingly, the confirmation unit 120 selects a predetermined number of candidate strings having a low priority of Perplexity between predefined strings (start and end strings) of the recorded strings in the character file.

다만, 퍼플렉시티(Perplexity)는 통계학적으로 문장의 유사도를 계산할 수 있는 척도이나 학습된 말뭉치에 따라 그 결과 값에 변화가 심하다는 단점이 존재하게 된다.However, there is a disadvantage that Perplexity is statistically a measure to calculate the similarity of sentences, and the result varies greatly depending on the learned corpus.

이에, 확인부(120)는 문자열(문장) 간의 유사도 판단을 통해 후보문자열이 선별되는 경우, 선별된 후보문자열 각각이 포함하고 있는 지정된 키워드의 개수를 확인하고, 포함된 키워드의 개수가 임계치 이상으로 가장 많은 개수인 특정 문자열을 포함한 문자구간을 대응문자열로서 확인하게 된다.If the candidate string is selected through the determination of similarity between strings (sentences), the confirmation unit 120 checks the number of designated keywords included in each of the selected candidate strings, and if the number of included keywords is equal to or greater than the threshold value The character string containing the largest number of specific strings is identified as the corresponding string.

여기서, 키워드는 개시문자열과 종료문자열 각각에 포함된 단어로 지정될 수 있는 데, 개시문자열("지금부터 개인 정보 녹취를 시작하겠습니다") 의 경우, 예컨대, '지금', '부터', '개인', '정보', '녹취', '시작'에 해당하는 6개의 키워드로 지정될 수 있으며, 종료문자열("지금까지의 개인 정보 녹취를 종료하겠습니다")의 경우 '지금', '까지', '개인', '정보', '녹취', '종료'에 해당하는 6 개의 키워드로 지정될 수 있다.Here, the keyword can be designated as a word included in each of the start character string and the end character string. In the case of the start character string ("start recording personal information from now on"), for example, , 'To', 'to', 'to', 'to', 'to', 'to', 'to record', 'to record' May be designated as six keywords corresponding to 'individual', 'information', 'recording', and 'end'.

한편, 문자열(문장) 간의 유사도 판단을 통해 후보문자열이 선별된 경우라 할지라도 음성을 인식한 결과의 신뢰성을 보장할 수 없다면, 대응문자열에 대한 확인 결과 또한 그 신뢰성이 보장된다고 장담할 수 없다.On the other hand, even if the candidate string is selected through the determination of the similarity between the strings (sentences), if the reliability of the result of recognizing the speech can not be guaranteed, it can not be assured that the reliability of the corresponding string is also guaranteed.

이에, 확인부(120)는 선별된 후보문자열 각각이 포함하고 있는 지정된 키워드의 개수를 확인한 결과, 지정된 키워드를 포함하는 개수가 임계치 이상인 후보문자열이 존재하지 않는 경우, 음성파일로부터 기 정의된 문자열(시작문자열, 종료문자열)과 관련된 음성구간(이하, '음성재인식구간'이라 칭함)을 지정함으로써, 지정된 음성재인식구간에 대한 음성 인식을 통해 문자파일이 재 생성될 수 있도록 한다.If the number of the designated keywords included in each of the selected candidate strings is not more than the threshold value, the verification unit 120 determines that the predetermined character string (" (Hereinafter, referred to as a 'voice re-recognition period') associated with the character string (e.g., start character string, start character string, end character string).

여기서, 음성재인식구간은, 지정된 키워드 중 후보문자열에 포함된 것이 확인되는 키워드인 확인키워드의 재생시점, 및 기 정의된 문자열(시작문자열, 종료문자열) 내에 확인키워드와 함께 배열된 키워드인 미확인키워드의 재생시점을 포함하는 음성구간으로 지정될 수 있다.Here, the speech re-recognizing section includes an unrecognized keyword, which is a keyword arranged together with a confirmation keyword in the reproduction time point of the confirmation keyword, which is a keyword confirmed to be contained in the candidate character string among the specified keywords, And may be designated as a voice section including a reproduction time point.

그리고, 미확인키워드는 후보문자열로부터 확인되지 않은 키워드에 해당하는 것으로서, 이러한 미확인키워드의 재생시점은 기 정의된 문자열(시작문자열, 종료문자열) 내에서 확인키워드와 미확인키워드 간의 거리와 음성파일의 재생 시 확인된 음성 발화자(상담원)의 발화속도(평균발화속도)를 기초로 결정될 수 있다.The unrecognized keyword corresponds to a keyword that has not been confirmed from the candidate string. The playback timing of the unconfirmed keyword is determined by the distance between the confirmed keyword and the unconfirmed keyword in the predefined string (start string, end string) (Average speaking speed) of the identified voice utterer (agent).

여기서, 확인키워드와 미확인키워드 간의 거리는 확인키워드와 미확인키워드 사이에 배열된 문자의 개수로 이해될 수 있다.Here, the distance between the confirmation keyword and the unconfirmed keyword can be understood as the number of characters arranged between the confirmation keyword and the unconfirmed keyword.

예를 들어, 시작문자열("지금부터 개인 정보 녹취를 시작하겠습니다")과 관련된 후보문자열에서 '지금', '부터', '개인'3개의 키워드가 포함되고, '정보', '녹취', '시작'3 개의 키워드가 포함되어 있지 않은 것으로 확인되는 경우를 가정할 수 있다.For example, the candidate string associated with the start string ("Let's start recording personal information from now on") contains three keywords: 'now', 'from', 'personal', 'information', ' Start 'three keywords are not included.

이 경우, '지금'과 '정보'사이의 배치된 문자의 개수(4개, "부터 개인"), '지금'과 '녹취'사이에 배치된 문자의 개수(6개,"부터 개인 정보"), '지금'과 '시작' 사이에 배치된 문자의 개수(10개, "부터 개인 정보의 녹취를")를 각각 확인하고, 확인된 문자의 개수만큼을 발화자(상담원)의 발화속도(평균발화속도)로 발화하는데 걸리는 시간을 계산할 수 있게 되는 데, 이후'지금'의 재생시점을 기준으로 각각의 계산된 시간을 가산한(더한) 결과를 '정보', '녹취', '시작'3 개 키워드 각각의 재생시점으로 결정할 수 있는 것이다.In this case, the number of characters arranged between "Now" and "Information" (4, from "Personal") to "Now" and "Recording" ), The number of characters arranged between "Now" and "Start" (10, "Recording of personal information from"), and the number of confirmed characters is set to the speaking rate The result of adding (adding) each calculated time based on the reproduction time of 'now' is referred to as 'information', 'recording', 'start' 3 It is possible to determine the playback point of each keyword.

한편, 미확인키워드의 재생시점을 결정함에 있어서 다수의 확인키워드가 존재하는 경우에는 다수의 확인키워드 중 미확인키워드로부터 보다 먼 거리에 배열된 확인키워드의 재생시점을 기준으로 설정할 수 있다.On the other hand, when a plurality of verification keywords exist in determining the reproduction time point of the unconfirmed keyword, the reproduction time point of the verification keywords arranged at a greater distance from the unconfirmed keywords among the plurality of verification keywords can be set as a reference.

이는 확인키워드와 미확인키워드 사이에 배열된 문자의 개수를 보다 많게 하여 발화자의 평균적인 발화속도를 고려하기 위함이다.This is because the number of characters arranged between the confirmation keyword and the unconfirmed keyword is increased to take into account the average speaking speed of the speaking person.

참고로, 음성 발화자의 발화속도(평균발화속도)는 예컨대, 특정 음성파일 내에서의 해당 발화자의 발화속도를 평균한 속도로 확인되거나, 다수개의 음성파일에 녹음된 동일 발화자의 발화속도를 평균한 속도로 확인될 수 있다.For reference, the speech rate (average speech rate) of the speech utterer can be determined, for example, by checking the rate at which the speech rate of the corresponding speech person in a specific speech file is averaged or by averaging the speech rate of the same speech person recorded in a plurality of speech files Speed.

결국, 확인부(120)는 선별된 후보문자열 각각이 포함하고 있는 지정된 키워드의 개수를 확인한 결과, 지정된 키워드를 포함하는 개수가 임계치 이상인 후보문자열이 존재하지 않는 경우, 음성파일로부터 기 정의된 문자열(시작문자열, 종료문자열)과 관련된 음성재인식구간을 지정하는 방식을 통해 음성 인식이 수행되는 구간이 짧아질 수 있도록 특정함으로써, 음성 인식 결과의 정확도 및 신뢰도를 보다 향상시킬 수 있는 것이다.As a result, when the number of the designated keywords included in each of the selected candidate strings is checked and there is no candidate string whose number is greater than or equal to the threshold value, The start and end strings, and the ending string), the accuracy and reliability of the speech recognition result can be further improved by specifying that the interval during which the speech recognition is performed can be shortened.

추출부(130)는 발췌음성구간을 추출하는 기능을 처리한다.The extracting unit 130 processes a function of extracting the extracted voice section.

보다 구체적으로, 추출부(130)는 문자파일로부터 대응문자열이 확인되는 경우, 대응문자열의 음성파일에서의 재생시점을 이용하여 음성파일로부터 대응문자열과 관련된 음성구간인 발췌음성구간을 추출하게 된다.More specifically, when the corresponding character string is confirmed from the character file, the extracting unit 130 extracts the extracted voice section, which is a voice section related to the corresponding character string, from the voice file using the reproduction point in the voice file of the corresponding character string.

이때, 추출부(130)는 예컨대, 개시문자열에 대응하는 대응문자열의 재생종료시점으로부터 종료문자열에 대응하는 대응문자열의 재생시작시점까지의 음성구간을 발췌음성구간으로 추출하거나, 또는 개시문자열에 대응하는 대응문자열의 재생시작시점으로부터 종료문자열에 대응하는 대응문자열의 재생종료시점까지의 음성구간을 발췌음성구간으로 추출할 수 있다.At this time, the extracting unit 130 extracts, for example, a voice section from the reproduction end point of the corresponding character string corresponding to the start character string to the reproduction start point of the corresponding character string corresponding to the end character string, It is possible to extract the voice section from the reproduction start point of the corresponding character string corresponding to the end character string to the reproduction end point of the corresponding character string corresponding to the end character string in the extracted voice section.

변환부(140)는 바코드이미지로 변환하는 기능을 처리한다.The conversion unit 140 processes a function of converting the image into a barcode image.

보다 구체적으로, 변환부(140)는 음성파일로부터 발췌음성구간의 추출이 완료되면, 발췌음성구간과 관련된 문자 및 음성 중 적어도 하나를 바코드이미지로 변환함으로써, 변환된 바코드이미지가 삽입된 전자문서가 생성될 수 있도록 한다.More specifically, when the extraction of the extracted voice section from the voice file is completed, the converting unit 140 converts at least one of the characters and the voice associated with the extracted voice section into a barcode image so that the electronic document in which the converted barcode image is inserted .

참고로, 도 3에는 본 발명의 일 실시예에 따라 발췌음성구간과 관련된 문자(①)가 텍스트 형식으로 별도로 표기되며, 발췌음성구간과 관련된 문자 (①)와 음성(②)이 바코드이미지로 삽입된 전자문서의 일례를 보여주고 있다.3, a character (1) associated with an excerpted voice segment is separately displayed in a text format, characters (1) and voice (2) associated with the excerpted voice segment are inserted as a barcode image An example of the electronic document is shown.

여기서, 바코드이미지는, 문자 혹은 음성이 가지고 있는 고유의 데이터 값을 예컨대, 다수의 색상 또는 도형으로 표현함으로써 생성될 수 있다.Here, the barcode image can be generated by expressing a unique data value of a character or a voice, for example, in a plurality of colors or graphics.

예를 들어, 바코드이미지를 다수의 색상으로 표현하는 경우, 예컨대, 농도, 채도, 및 명도와 같은 색 요소를 배치하는 방식으로 고유의 데이터 값이 표현되며, 반면 바코드이미지를 도형으로 표현하는 경우에는, 예컨대, 다양한 도형의 모양 및 크기의 조합 등을 통해서 고유의 데이터 값이 표현될 수 있다.For example, when a barcode image is represented by a plurality of colors, a unique data value is expressed by arranging color elements such as density, saturation, and brightness, for example. On the other hand, when a barcode image is represented by a graphic , A unique data value can be represented, for example, by a combination of shapes and sizes of various graphics.

이처럼 생성된 바코드이미지를 별도의 인식장치(도시안됨)에서 인식하는 경우, 바코드이미지로 변환된 음성의 재생 및 문자의 표시가 가능해짐은 물론이다.When a barcode image generated in this way is recognized by a separate recognition device (not shown), reproduction of a voice converted into a barcode image and display of characters can be performed.

한편, 추출된 발췌금성구간에는 예컨대, 주민번호, 결제정보, 이름, 주소 등 타인에 대한 노출 방지를 위해 보안 처리가 요구되는 정보가 포함될 수 있다.Meanwhile, the extracted excerpt information may include information requiring security processing to prevent exposure to other persons such as resident number, settlement information, name, and address.

이에, 변환부(140)는 발췌음성구간을 바코드이미지로 변환하기에 앞서 이처럼 보안 처리가 요구되는 구간이 존재하는 경우, 해당 구간의 음성을 지정된 대체 음(예: '삐' 처리)으로 변경한 이후, 변경된 대체 음으로 변경된 발췌음성구간을 바코드이미지로 변환하게 된다.In this case, if there is a section requiring security processing, the converting unit 140 changes the voice of the corresponding section to a designated alternative sound (e.g., 'beep' processing) before converting the extracted voice section into the barcode image Thereafter, the changed excerpt speech interval is converted into a barcode image.

여기서, 발췌음성구간과 관련된 문자의 경우도 마찬가지로, 보안 처리가 요구되는 구간의 문자를 예컨대, 무의미한 스트링(예: ******)으로 대체함으로써, 타인에 대한 노출을 방지할 수 있음은 물론일 것이다.Here, in the case of the character associated with the excerpted voice section, it is also possible to prevent the exposure to the other person by replacing the character of the section requiring security processing with, for example, an insignificant string (for example, ******) Of course it will.

이상에서 살펴본 바와 같이, 본 발명의 일 실시예에 따른 전자문서생성장치(100)의 구성에 따르면, 음성파일로 녹음된 전체 음성구간 중 지정된 일부 음성구간을 자동으로 발췌하여 해당 음성구간과 관련된 정보를 삽입한 전자문서를 생성함으로써, 전자문서의 생성함에 있어서 효율성 및 편의성을 제고시킬 수 있다.As described above, according to the configuration of the apparatus 100 for generating an electronic document according to an embodiment of the present invention, it is possible to automatically extract a specified voice section from among the entire voice section recorded as a voice file, So that efficiency and convenience in generating an electronic document can be improved.

이하에서는, 도 4를 참조하여 본 발명의 일 실시예에 따른 전자문서생성장치(100)에서의 동작 흐름을 설명하기로 한다.Hereinafter, an operation flow in the electronic document generation apparatus 100 according to an embodiment of the present invention will be described with reference to FIG.

먼저, 생성부(110)는 단계 'S110'및 'S120'에 따라 음성파일로부터 재생되는 음성을 인식하여 문자파일을 생성한다.First, the generating unit 110 recognizes a voice to be reproduced from the voice file according to steps S110 and S120, and generates a character file.

이때, 생성부(110)는 음성파일로부터 재생되는 음성으로부터 인식되는 문자, 및 인식된 문자 각각에 대한 음성파일에서의 재생시점이 포함되도록 문자파일을 생성한다.At this time, the generation unit 110 generates a character file including the character recognized from the voice reproduced from the voice file and the reproduction point in the voice file for each recognized character.

여기서, 재생시점이란, 음성파일에서의 재생시작시점 및 재생종료시점을 포함하는 것으로 이해될 수 있다.Here, the playback time may be understood to include a playback start time and a playback end time in the audio file.

이어서, 확인부(120)는 음성파일에 대한 인식 결과로서 문자파일의 생성이 완료되는 경우, 생성된 문자파일로부터 기 정의된 문자열과 대응하는 문자열인 대응문자열을 확인하게 된다.Then, when the generation of the character file is completed as the recognition result of the voice file, the verification unit 120 confirms the corresponding character string, which is a character string corresponding to the predefined character string, from the generated character file.

여기서, 기 정의된 문자열이란 음성파일에 대응하여 문자파일로 기록된 전체 문자 구간 중, 예컨대 고객의 동의, 고객 결제 정보, 및 고객 개인 정보 등의 내용이 기록된 일부의 문자구간을 말하는 것으로서, 발췌음성구간의 시작시점과 관련된 개시문자열과, 발췌음성구간의 종료시점과 관련된 종료문자열로 구분될 수 있다.Here, the predefined character string refers to a part of a character segment in which the content of the entire character segment recorded in the character file in correspondence with the voice file, for example, contents of the customer's consent, customer payment information, customer personal information, A start character string related to the start time of the speech section, and an end character string related to the end time of the extracted speech section.

예를 들어, 기 정의된 문자열이 고객의 개인 정보와 관련된 문자열인 경우, 개시문자열은, "지금부터 개인 정보 녹취를 시작하겠습니다"로 정의될 수 있으며, 종료문자열은 "지금까지의 개인 정보 녹취를 종료하겠습니다"로 정의될 수 있다.For example, if the predefined string is a string related to the customer's personal information, the start string can be defined as "I will start recording personal information from now on" and the end string will be " I'll be done. "

이때, 확인부(120)는 문자파일이 생성되는 경우, 단계 'S130'에 따라 해당 문자파일로부터 기 정의된 문자열과의 유사도가 높은 우선순위에 따라 설정 개수의 후보문자열을 선별한다.At this time, when the character file is generated, the confirmation unit 120 selects a set number of candidate characters from the corresponding character file according to a priority order having a degree of similarity with a predefined character string according to step 'S130'.

여기서, 기 정의된 문자열과 후보문자열 간의 유사도는 두 문자열과의 차이를 미리 학습된 말뭉치로부터 통계학적으로 나타내 주는 척도인 퍼플렉시티(Perplexity)를 통해 판별될 수 있다.Here, the degree of similarity between the predefined character string and the candidate character string can be determined by Perplexity, which is a measure for statistically representing the difference between the two strings from the previously learned corpus.

한편, 퍼플렉시티(Perplexity)는 그 결과 값이 낮을수록 두 문자열(문장) 간의 유사도가 높은 것으로 해석할 수 있다.Perplexity, on the other hand, can be interpreted that the lower the result, the higher the similarity between two strings (sentences).

이에, 확인부(120)는 문자파일 내 기록된 문자열 중 기 정의된 문자열(개시문자열, 종료문자열) 간의 퍼플렉시티(Perplexity)가 낮은 우선순위로 기 설정된 개수의 후보문자열을 선별하게 된다.Accordingly, the confirmation unit 120 selects a predetermined number of candidate strings having a low priority of Perplexity between predefined strings (start and end strings) of the recorded strings in the character file.

다만, 퍼플렉시티(Perplexity)는 통계학적으로 문장의 유사도를 계산할 수 있는 척도이나 학습된 말뭉치에 따라 그 결과 값에 변화가 심하다는 단점이 존재하게 된다.However, there is a disadvantage that Perplexity is statistically a measure of the similarity of the sentences or a change in the result according to the learned corpus.

이에, 확인부(120)는 문자열(문장) 간의 유사도 판단을 통해 후보문자열이 선별되는 경우, 단계 'S140' 내지 'S160'에 따라 선별된 후보문자열 각각이 포함하고 있는 지정된 키워드의 개수를 확인하고, 포함된 키워드의 개수가 임계치 이상으로 가장 많은 개수인 특정 문자열을 포함한 문자구간을 대응문자열로서 확인하게 된다.If the candidate character string is selected through the determination of similarity between strings (sentences), the confirmation unit 120 checks the number of designated keywords included in each candidate character string selected in accordance with steps 'S140' to 'S160' , A character segment including a specific character string having the largest number of keywords including the number of included keywords exceeding a threshold value is confirmed as a corresponding character string.

여기서, 키워드는 개시문자열과 종료문자열 각각에 포함된 단어로 지정될 수 있는 데, 개시문자열("지금부터 개인 정보 녹취를 시작하겠습니다") 의 경우, 예컨대, '지금', '부터', '개인', '정보', '녹취', '시작'에 해당하는 6개의 키워드로 지정될 수 있으며, 종료문자열("지금까지의 개인 정보 녹취를 종료하겠습니다")의 경우 '지금', '까지', '개인', '정보', '녹취', '종료'에 해당하는 6 개의 키워드로 지정될 수 있다.Here, the keyword can be designated as a word included in each of the start character string and the end character string. In the case of the start character string ("start recording personal information from now on"), for example, , 'To', 'to', 'to', 'to', 'to', 'to', 'to record', 'to record' May be designated as six keywords corresponding to 'individual', 'information', 'recording', and 'end'.

한편, 문자열(문장) 간의 유사도 판단을 통해 후보문자열이 선별된 경우라 할지라도 음성을 인식한 결과의 신뢰성을 보장할 수 없다면, 대응문자열에 대한 확인 결과 또한 그 신뢰성이 보장된다고 장담할 수 없다.On the other hand, even if the candidate string is selected through the determination of the similarity between the strings (sentences), if the reliability of the result of recognizing the speech can not be guaranteed, it can not be assured that the reliability of the corresponding string is also guaranteed.

이에, 확인부(120)는 단계 'S140' 및 'S150'을 통해서 선별된 후보문자열 각각이 포함하고 있는 지정된 키워드의 개수를 확인한 결과, 지정된 키워드를 포함하는 개수가 임계치 이상인 후보문자열이 존재하지 않는 경우, 단계 'S190'에 따라 음성파일로부터 기 정의된 문자열(시작문자열, 종료문자열)과 관련된 음성재인식구간을 지정함으로써, 지정된 음성재인식구간에 대한 음성 인식을 통해 문자파일이 재 생성될 수 있도록 한다.The verification unit 120 checks the number of designated keywords included in each of the selected candidate strings through steps S140 and S150 and determines that there is no candidate string having the number of the specified keywords greater than or equal to the threshold value , The voice recognition section relating to the predefined character string (start character string, end character string) from the voice file is specified according to step 'S190', so that the character file can be regenerated through voice recognition for the specified voice recognition section .

여기서, 음성재인식구간은, 지정된 키워드 중 후보문자열에 포함된 것이 확인되는 키워드인 확인키워드의 재생시점, 및 기 정의된 문자열(시작문자열, 종료문자열) 내에 확인키워드와 함께 배열된 키워드인 미확인키워드의 재생시점을 포함하는 음성구간으로 지정될 수 있다.Here, the speech re-recognizing section includes an unrecognized keyword, which is a keyword arranged together with a confirmation keyword in the reproduction time point of the confirmation keyword, which is a keyword confirmed to be contained in the candidate character string among the specified keywords, And may be designated as a voice section including a reproduction time point.

그리고, 미확인키워드는 후보문자열로부터 확인되지 않은 키워드에 해당하는 것으로서, 이러한 미확인키워드의 재생시점은 기 정의된 문자열(시작문자열, 종료문자열) 내에서 확인키워드와 미확인키워드 간의 거리와 음성파일의 재생 시 확인된 음성 발화자(상담원)의 발화속도(평균발화속도)를 기초로 결정될 수 있다.The unrecognized keyword corresponds to a keyword that has not been confirmed from the candidate string. The playback timing of the unconfirmed keyword is determined by the distance between the confirmed keyword and the unconfirmed keyword in the predefined string (start string, end string) (Average speaking speed) of the identified voice utterer (agent).

여기서, 확인키워드와 미확인키워드 간의 거리는 확인키워드와 미확인키워드 사이에 배열된 문자의 개수로 이해될 수 있다.Here, the distance between the confirmation keyword and the unconfirmed keyword can be understood as the number of characters arranged between the confirmation keyword and the unconfirmed keyword.

결국, 확인부(120)는 선별된 후보문자열 각각이 포함하고 있는 지정된 키워드의 개수를 확인한 결과, 지정된 키워드를 포함하는 개수가 임계치 이상인 후보문자열이 존재하지 않는 경우, 음성파일로부터 기 정의된 문자열(시작문자열, 종료문자열)과 관련된 음성재인식구간을 지정하는 방식을 통해 음성 인식이 수행되는 구간이 짧아질 수 있도록 특정함으로써, 음성 인식 결과의 정확도 및 신뢰도를 보다 향상시킬 수 있는 것이다.As a result, when the number of the designated keywords included in each of the selected candidate strings is checked and there is no candidate string whose number is greater than or equal to the threshold value, The start and end strings, and the ending string), the accuracy and reliability of the speech recognition result can be further improved by specifying that the interval during which the speech recognition is performed can be shortened.

나아가, 추출부(130)는 문자파일로부터 대응문자열이 확인되는 경우, 단계 'S170'에 따라 대응문자열의 음성파일에서의 재생시점을 이용하여 음성파일로부터 대응문자열과 관련된 음성구간인 발췌음성구간을 추출한다.If the corresponding character string is confirmed from the character file, the extracting unit 130 extracts the extracted voice segment corresponding to the corresponding character string from the voice file using the reproduction point in the voice file corresponding to the corresponding character string in accordance with step 'S170' .

이때, 추출부(130)는 예컨대, 개시문자열에 대응하는 대응문자열의 재생종료시점으로부터 종료문자열에 대응하는 대응문자열의 재생시작시점까지의 음성구간을 발췌음성구간으로 추출하거나, 또는 개시문자열에 대응하는 대응문자열의 재생시작시점으로부터 종료문자열에 대응하는 대응문자열의 재생종료시점까지의 음성구간을 발췌음성구간으로 추출할 수 있다.At this time, the extracting unit 130 extracts, for example, a voice section from the reproduction end point of the corresponding character string corresponding to the start character string to the reproduction start point of the corresponding character string corresponding to the end character string, It is possible to extract the voice section from the reproduction start point of the corresponding character string corresponding to the end character string to the reproduction end point of the corresponding character string corresponding to the end character string in the extracted voice section.

이후, 변환부(140)는 음성파일로부터 발췌음성구간의 추출이 완료되면, 단계 'S180'에 따라 발췌음성구간과 관련된 문자 및 음성 중 적어도 하나를 바코드이미지로 변환함으로써, 변환된 바코드이미지가 삽입된 전자문서가 생성될 수 있도록 한다.Thereafter, when the extracting of the extracted voice section from the voice file is completed, the converting unit 140 converts at least one of the characters and the voice related to the extracted voice section into the barcode image according to step 'S180' So that the generated electronic document can be generated.

여기서, 바코드이미지는, 문자 혹은 음성이 가지고 있는 고유의 데이터 값을 예컨대, 다수의 색상 또는 도형으로 표현함으로써 생성될 수 있다.Here, the barcode image can be generated by expressing a unique data value of a character or a voice, for example, in a plurality of colors or graphics.

예를 들어, 바코드이미지를 다수의 색상으로 표현하는 경우, 예컨대, 농도, 채도, 및 명도와 같은 색 요소를 배치하는 방식으로 고유의 데이터 값이 표현되며, 반면 바코드이미지를 도형으로 표현하는 경우에는, 예컨대, 다양한 도형의 모양 및 크기의 조합 등을 통해서 고유의 데이터 값이 표현될 수 있다.For example, when a barcode image is represented by a plurality of colors, a unique data value is expressed by arranging color elements such as density, saturation, and brightness, for example. On the other hand, when a barcode image is represented by a graphic , A unique data value can be represented, for example, by a combination of shapes and sizes of various graphics.

한편, 추출된 발췌금성구간에는 예컨대, 주민번호, 결제정보, 이름, 주소 등 타인에 대한 노출 방지를 위해 보안 처리가 요구되는 정보가 포함될 수 있다.Meanwhile, the extracted excerpt information may include information requiring security processing to prevent exposure to other persons such as resident number, settlement information, name, and address.

이에, 변환부(140)는 발췌음성구간을 바코드이미지로 변환하기에 앞서 이처럼 보안 처리가 요구되는 구간이 존재하는 경우, 해당 구간의 음성을 지정된 대체 음(예: '삐' 처리)으로 변경한 이후, 변경된 대체 음으로 변경된 발췌음성구간을 바코드이미지로 변환하게 된다.In this case, if there is a section requiring security processing, the converting unit 140 changes the voice of the corresponding section to a designated alternative sound (e.g., 'beep' processing) before converting the extracted voice section into the barcode image Thereafter, the changed excerpt speech interval is converted into a barcode image.

여기서, 발췌음성구간과 관련된 문자의 경우도 마찬가지로, 보안 처리가 요구되는 구간의 문자를 예컨대, 무의미한 스트링(예: ******)으로 대체함으로써, 타인에 대한 노출을 방지할 수 있음은 물론일 것이다.Here, in the case of the character associated with the excerpted voice section, it is also possible to prevent the exposure to the other person by replacing the character of the section requiring security processing with, for example, an insignificant string (for example, ******) Of course it will.

이상에서 살펴본 바와 같이, 본 발명의 일 실시예에 따른 전자문서생성장치(100)에서의 동작 흐름에 따르면, 음성파일로 녹음된 전체 음성구간 중 지정된 일부 음성구간을 자동으로 발췌하여 해당 음성구간과 관련된 정보를 삽입한 전자문서를 생성함으로써, 전자문서의 생성함에 있어서 효율성 및 편의성을 제고시킬 수 있다.As described above, according to the operation flow in the apparatus 100 for generating an electronic document according to an embodiment of the present invention, a specified part of a voice section of a whole voice section recorded as a voice file is automatically extracted, By generating an electronic document in which relevant information is inserted, it is possible to enhance the efficiency and convenience in generating an electronic document.

한편, 본 명세서에서 설명하는 기능적인 동작과 주제의 구현물들은 디지털 전자 회로로 구현되거나, 본 명세서에서 개시하는 구조 및 그 구조적인 등가물들을 포함하는 컴퓨터 소프트웨어, 펌웨어 혹은 하드웨어로 구현되거나, 이들 중 하나 이상의 결합으로 구현 가능하다.  본 명세서에서 설명하는 주제의 구현물들은 하나 이상의 컴퓨터 프로그램 제품, 다시 말해 처리 시스템의 동작을 제어하기 위하여 혹은 이것에 의한 실행을 위하여 유형의 프로그램 저장매체 상에 인코딩된 컴퓨터 프로그램 명령에 관한 하나 이상의 모듈로서 구현될 수 있다.It should be understood that the functional operations and subject matter implementations described herein may be implemented as digital electronic circuitry, or may be embodied in computer software, firmware, or hardware, including the structures disclosed herein, and structural equivalents thereof, . Implementations of the subject matter described herein may be implemented as one or more computer program products, i. E. One or more modules relating to computer program instructions encoded on a type of program storage medium for execution by, or control of, the operation of the processing system Can be implemented.

컴퓨터로 판독 가능한 매체는 기계로 판독 가능한 저장 장치, 기계로 판독 가능한 저장 기판, 메모리 장치 혹은 이들 중 하나 이상의 조합일 수 있다.The computer-readable medium can be a machine-readable storage device, a machine-readable storage substrate, a memory device, or a combination of one or more of the foregoing.

본 명세서에서 "시스템"이나 "장치"라 함은 예컨대 프로그래머블 프로세서, 컴퓨터 혹은 다중 프로세서나 컴퓨터를 포함하여 데이터를 처리하기 위한 모든 기구, 장치 및 기계를 포괄한다. 처리 시스템은, 하드웨어에 부가하여, 예컨대 프로세서 펌웨어를 구성하는 코드, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 혹은 이들 중 하나 이상의 조합 등 요청 시 컴퓨터 프로그램에 대한 실행 환경을 형성하는 코드를 포함할 수 있다.As used herein, the term " system "or" device "encompasses all apparatus, apparatus, and machines for processing data, including, for example, a programmable processor, a computer or a multiprocessor or computer. The processing system may, in addition to the hardware, comprise code that forms an execution environment for a computer program upon request, such as, for example, code comprising a processor firmware, a protocol stack, a database management system, an operating system, .

컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 스크립트 혹은 코드로도 알려져 있음)은 컴파일되거나 해석된 언어나 선험적 혹은 절차적 언어를 포함하는 프로그래밍 언어의 어떠한 형태로도 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 혹은 컴퓨터 환경에서 사용하기에 적합한 다른 유닛을 포함하여 어떠한 형태로도 전개될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 반드시 대응하는 것은 아니다. 프로그램은 요청된 프로그램에 제공되는 단일 파일 내에, 혹은 다중의 상호 작용하는 파일(예컨대, 하나 이상의 모듈, 하위 프로그램 혹은 코드의 일부를 저장하는 파일) 내에, 혹은 다른 프로그램이나 데이터를 보유하는 파일의 일부(예컨대, 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트) 내에 저장될 수 있다. 컴퓨터 프로그램은 하나의 사이트에 위치하거나 복수의 사이트에 걸쳐서 분산되어 통신 네트워크에 의해 상호 접속된 다중 컴퓨터나 하나의 컴퓨터 상에서 실행되도록 전개될 수 있다.A computer program (also known as a program, software, software application, script or code) may be written in any form of programming language, including compiled or interpreted language, a priori or procedural language, Components, subroutines, or other units suitable for use in a computer environment. A computer program does not necessarily correspond to a file in the file system. The program may be stored in a single file provided to the requested program, or in multiple interactive files (e.g., a file storing one or more modules, subprograms, or portions of code) (E.g., one or more scripts stored in a markup language document). A computer program may be deployed to run on multiple computers or on one computer, located on a single site or distributed across multiple sites and interconnected by a communications network.

한편, 컴퓨터 프로그램 명령어와 데이터를 저장하기에 적합한 컴퓨터로 판독 가능한 매체는, 예컨대 EPROM, EEPROM 및 플래시메모리 장치와 같은 반도체 메모리 장치, 예컨대 내부 하드디스크나 외장형 디스크와 같은 자기 디스크, 자기광학 디스크 및 CD-ROM과 DVD-ROM 디스크를 포함하여 모든 형태의 비휘발성 메모리, 매체 및 메모리 장치를 포함할 수 있다. 프로세서와 메모리는 특수 목적의 논리 회로에 의해 보충되거나, 그것에 통합될 수 있다.On the other hand, computer readable media suitable for storing computer program instructions and data include semiconductor memory devices such as, for example, EPROM, EEPROM and flash memory devices, such as magnetic disks such as internal hard disks or external disks, Non-volatile memory, media and memory devices, including ROM and DVD-ROM disks. The processor and memory may be supplemented by, or incorporated in, special purpose logic circuits.

본 명세서에서 설명한 주제의 구현물은 예컨대 데이터 서버와 같은 백엔드 컴포넌트를 포함하거나, 예컨대 어플리케이션 서버와 같은 미들웨어 컴포넌트를 포함하거나, 예컨대 사용자가 본 명세서에서 설명한 주제의 구현물과 상호 작용할 수 있는 웹 브라우저나 그래픽 유저 인터페이스를 갖는 클라이언트 컴퓨터와 같은 프론트엔드 컴포넌트 혹은 그러한 백엔드, 미들웨어 혹은 프론트엔드 컴포넌트의 하나 이상의 모든 조합을 포함하는 연산 시스템에서 구현될 수도 있다. 시스템의 컴포넌트는 예컨대 통신 네트워크와 같은 디지털 데이터 통신의 어떠한 형태나 매체에 의해서도 상호 접속 가능하다.Implementations of the subject matter described herein may include, for example, a back-end component such as a data server, or may include a middleware component, such as an application server, or may be a web browser or a graphical user, for example a user, who may interact with an implementation of the subject- Front-end components such as client computers with interfaces, or any combination of one or more of such back-end, middleware, or front-end components. The components of the system may be interconnected by any form or medium of digital data communication, such as, for example, a communications network.

본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 마찬가지로, 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.While the specification contains a number of specific implementation details, it should be understood that they are not to be construed as limitations on the scope of any invention or claim, but rather on the description of features that may be specific to a particular embodiment of a particular invention Should be understood. Likewise, the specific features described herein in the context of separate embodiments may be implemented in combination in a single embodiment. Conversely, various features described in the context of a single embodiment may also be implemented in multiple embodiments, either individually or in any suitable subcombination. Further, although the features may operate in a particular combination and may be initially described as so claimed, one or more features from the claimed combination may in some cases be excluded from the combination, Or a variant of a subcombination.

또한, 본 명세서에서는 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 시스템 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 시스템들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징될 수 있다는 점을 이해하여야 한다It is also to be understood that although the present invention is described herein with particular sequence of operations in the drawings, it is to be understood that it is to be understood that it is to be understood that all such illustrated acts have to be performed or that such acts must be performed in their particular order or sequential order, Can not be done. In certain cases, multitasking and parallel processing may be advantageous. Also, the separation of the various system components of the above-described embodiments should not be understood as requiring such separation in all embodiments, and the described program components and systems will generally be integrated together into a single software product or packaged into multiple software products It should be understood that

이와 같이, 본 명세서는 그 제시된 구체적인 용어에 본 발명을 제한하려는 의도가 아니다. 따라서, 상술한 예를 참조하여 본 발명을 상세하게 설명하였지만, 당업자라면 본 발명의 범위를 벗어나지 않으면서도 본 예들에 대한 개조, 변경 및 변형을 가할 수 있다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.As such, the present specification is not intended to limit the invention to the specific terminology presented. Thus, while the present invention has been described in detail with reference to the above examples, those skilled in the art will be able to make adaptations, modifications, and variations on these examples without departing from the scope of the present invention. The scope of the present invention is defined by the appended claims rather than the detailed description and all changes or modifications derived from the meaning and scope of the claims and their equivalents are to be construed as being included within the scope of the present invention do.

본 발명에 일 실시예에 따른 전자문서생성장치 및 그 동작 방법에 따르면, 음성파일로 녹음된 전체 음성구간 중 지정된 일부 음성구간을 자동으로 발췌하여 해당 음성구간과 관련된 정보를 삽입한 전자문서를 생성한다는 점에서 기존 기술의 한계를 뛰어 넘음에 따라 관련 기술에 대한 이용만이 아닌 적용되는 장치의 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있는 발명이다.According to an embodiment of the present invention, an electronic document generating apparatus and an operation method thereof can automatically extract a specified voice section from among a whole voice section recorded as a voice file and generate an electronic document in which information related to the voice section is inserted It is not only the use of related technology but also the possibility of commercialization or operation of the applied device is enough, and it is possible to carry out clearly in reality, so it is an invention that is industrially applicable.

100: 전자문서생성장치
110: 생성부 120: 확인부
130: 추출부 140: 변환부
100: Electronic document generation device
110: Generator 120: Validator
130 extracting unit 140 converting unit

Claims (22)

음성파일로부터 재생되는 음성을 인식하여, 인식된 문자를 기록한 문자파일을 생성하는 생성부;
기 정의된 문자열과의 유사도, 및 상기 기 정의된 문자열과 관련하여 지정된 키워드를 기초로 상기 문자파일에 기록된 문자열 중 상기 기 정의된 문자열과 대응하는 문자열인 대응문자열을 확인하는 확인부; 및
상기 대응문자열의 재생시점을 기초로 상기 음성파일로부터 상기 대응문자열과 관련된 음성구간인 발췌음성구간을 추출하는 추출부를 포함하며,
상기 확인부는,
상기 기 정의된 문자열과의 유사도가 높은 우선순위에 따라 상기 문자파일에 기록된 문자열로부터 후보문자열이 선별되면, 각 후보문자열이 포함하고 있는 상기 지정된 키워드의 개수를 확인하여, 상기 키워드의 개수가 임계치 이상인 후보문자열을 상기 대응문자열로 확인하며,
상기 키워드의 개수가 임계치 이상인 후보문자열이 존재하지 않는 경우에는 상기 음성파일로부터 상기 기 정의된 문자열과 관련된 음성구간인 음성재인식구간을 지정하여, 상기 음성재인식구간에 대한 인식 결과를 기초로 상기 문자파일이 재 생성되도록 하는 것을 특징으로 하는 전자문서생성장치.
A generating unit for recognizing a voice reproduced from a voice file and generating a character file in which recognized characters are recorded;
A confirmation unit for verifying a similar character string that is a character string corresponding to the predefined character string recorded in the character file based on the similarity with the predefined character string and the keyword specified in association with the predefined character string; And
And an extracting unit for extracting, from the voice file, an extracted voice section that is a voice section related to the corresponding character string, based on the reproduction time of the corresponding character string,
The checking unit,
If a candidate string is selected from a character string recorded in the character file in a priority order having a high degree of similarity with the predefined character string, checking the number of the specified keyword included in each candidate character string, The candidate string is identified as the corresponding character string,
If the candidate character string of which the number of keywords is equal to or larger than the threshold value is not present, designates a speech recognition section, which is a speech section related to the predefined character string, from the speech file, So as to regenerate the electronic document.
제 1 항에 있어서,
상기 기 정의된 문자열은,
상기 발췌음성구간의 시작시점과 관련된 개시문자열, 및 상기 발췌음성구간의 종료시점과 관련된 종료문자열을 포함하는 것을 특징으로 하는 전자문서생성장치.
The method according to claim 1,
The pre-
A start character string related to a starting point of the excerpt voice segment, and an end character string related to an end point of the excerpt voice segment.
제 2 항에 있어서,
상기 추출부는,
상기 개시문자열에 대응하는 대응문자열의 재생종료시점으로부터 상기 종료문자열에 대응하는 대응문자열의 재생시작시점까지의 음성구간을 상기 발췌음성구간으로 추출하거나, 또는 상기 개시문자열에 대응하는 대응문자열의 재생시작시점으로부터 상기 종료문자열에 대응하는 대응문자열의 재생종료시점까지의 음성구간을 상기 발췌음성구간으로 추출하는 것을 특징으로 하는 전자문서생성장치.
3. The method of claim 2,
The extracting unit extracts,
Extracting a voice section from the reproduction end point of the corresponding character string corresponding to the start character string to the reproduction start point of the corresponding character string corresponding to the end character string in the extracted voice section, Extracts a voice section from the viewpoint to the reproduction end point of the corresponding character string corresponding to the end character string in the excerpt voice section.
삭제delete 삭제delete 삭제delete 제 1 항에 있어서,
상기 음성재인식구간은,
상기 지정된 키워드 중 상기 후보문자열에 포함된 것이 확인되는 키워드인 확인키워드의 재생시점, 및 상기 기 정의된 문자열 내에 상기 확인키워드와 함께 배열되며 상기 후보문자열로부터 확인되지 않은 키워드인 미확인키워드의 재생시점을 포함하는 음성구간으로 지정되는 것을 특징으로 하는 전자문서생성장치.
The method according to claim 1,
The voice re-
A reproduction time point of a confirmation keyword, which is a keyword confirmed to be included in the candidate character string, and a reproduction time point of an unconfirmed keyword, which is arranged together with the confirmation keyword in the predefined character string, And the voice section is included in the voice section.
제 7 항에 있어서,
상기 미확인키워드의 재생시점은,
상기 음성파일의 재생 시 확인된 음성 발화자의 발화속도 및 상기 확인키워드와 상기 미확인키워드 간의 거리를 기초로 상기 확인키워드와 상기 미확인키워드 간의 재생시점의 차이를 계산하여, 상기 확인키워드의 재생시점에 대해 상기 계산된 재생시점 차이만큼의 시간을 가산 또는 감산한 재생시점으로 결정되는 것을 특징으로 하는 전자문서생성장치.
8. The method of claim 7,
The reproduction time point of the unconfirmed keyword is,
Calculating a difference between a reproduction time point of the confirmed keyword and the unconfirmed keyword on the basis of an ignition speed of a voice uttered during reproduction of the voice file and a distance between the confirmed keyword and the unidentified keyword, Wherein the reproduction time point is determined as a reproduction time point obtained by adding or subtracting a time corresponding to the calculated reproduction time point difference.
제 1 항에 있어서,
상기 전자문서생성장치는,
상기 발췌음성구간과 관련된 음성 및 문자 중 적어도 하나를 바코드이미지로 변환하여 상기 바코드이미지가 삽입된 전자문서가 생성되도록 하는 변환부를 더 포함하는 것을 특징으로 하는 전자문서생성장치.
The method according to claim 1,
The electronic document generation apparatus includes:
Further comprising a converting unit for converting at least one of a voice and a character associated with the extracted voice section into a barcode image to generate an electronic document in which the barcode image is inserted.
제 9 항에 있어서,
상기 변환부는,
상기 발췌음성구간 내 보안 처리가 요구되는 특정 구간이 존재하는 경우, 상기 특정 구간의 음성을 대체 음으로 변경한 후 상기 바코드이미지로 변환하는 것을 특징으로 하는 전자문서생성장치.
10. The method of claim 9,
Wherein,
Wherein when the specific section requiring security processing in the excerpt voice section exists, the voice of the specific section is converted into a substitute voice and then converted into the barcode image.
음성파일로부터 재생되는 음성을 인식하여, 인식된 문자를 기록한 문자파일을 생성하는 생성단계;
기 정의된 문자열과의 유사도, 및 상기 기 정의된 문자열과 관련하여 지정된 키워드를 기초로 상기 문자파일에 기록된 문자열 중 상기 기 정의된 문자열과 대응하는 문자열인 대응문자열을 확인하는 확인단계; 및
상기 대응문자열의 재생시점을 기초로 상기 음성파일로부터 상기 대응문자열과 관련된 음성구간인 발췌음성구간을 추출하는 추출단계를 포함하는 것을 특징으로 하며,
상기 확인단계는,
상기 기 정의된 문자열과의 유사도가 높은 우선순위에 따라 상기 문자파일에 기록된 문자열로부터 후보문자열이 선별되면, 각 후보문자열이 포함하고 있는 상기 지정된 키워드의 개수를 확인하여, 상기 지정된 키워드의 개수가 임계치 이상인 후보문자열을 상기 대응문자열로 확인하며,
상기 지정된 키워드의 개수가 임계치 이상인 후보문자열이 존재하지 않는 경우에는 상기 음성파일로부터 상기 기 정의된 문자열과 관련된 음성구간인 음성재인식구간을 지정하여, 상기 음성재인식구간에 대한 인식 결과를 기초로 상기 문자파일이 재 생성되도록 하는 것을 특징으로 하는 전자문서생성장치의 동작 방법.
A generating step of recognizing a voice reproduced from the voice file and generating a character file in which the recognized character is recorded;
Identifying a corresponding character string that is a character string corresponding to the predefined character string recorded in the character file based on the similarity with the predefined character string and the keyword specified with respect to the predefined character string; And
And extracting an extracted voice section, which is a voice section related to the corresponding character string, from the voice file based on the reproduction time of the corresponding character string.
Wherein,
If a candidate character string is selected from a character string recorded in the character file according to a priority level having a high degree of similarity to the predefined character string, checking the number of the specified keyword included in each candidate character string, Identifying candidate strings that are equal to or greater than the threshold value with the corresponding string,
And a speech recognition section which is a speech section related to the predefined character string is designated from the speech file when the number of the designated keywords is not equal to or greater than the threshold value, So that the file is regenerated.
제 11 항에 있어서,
상기 기 정의된 문자열은,
상기 발췌음성구간의 시작시점과 관련된 개시문자열, 및 상기 발췌음성구간의 종료시점과 관련된 종료문자열을 포함하는 것을 특징으로 하는 전자문서생성장치의 동작 방법.
12. The method of claim 11,
The pre-
A start character string related to a start time of the extracted voice segment, and an end character string related to an end time of the extracted voice segment.
제 12 항에 있어서,
상기 추출단계는,
상기 개시문자열에 대응하는 대응문자열의 재생종료시점으로부터 상기 종료문자열에 대응하는 대응문자열의 재생시작시점까지의 음성구간을 상기 발췌음성구간으로 추출하거나, 또는 상기 개시문자열에 대응하는 대응문자열의 재생시작시점으로부터 상기 종료문자열에 대응하는 대응문자열의 재생종료시점까지의 음성구간을 상기 발췌음성구간으로 추출하는 것을 특징으로 하는 전자문서생성장치의 동작 방법.
13. The method of claim 12,
Wherein the extracting step comprises:
Extracting a voice section from the reproduction end point of the corresponding character string corresponding to the start character string to the reproduction start point of the corresponding character string corresponding to the end character string in the extracted voice section, Extracting a voice section from the viewpoint to the reproduction end point of the corresponding character string corresponding to the end character string in the excerpt voice section.
삭제delete 삭제delete 삭제delete 제 11 항에 있어서,
상기 음성재인식구간은,
상기 지정된 키워드 중 상기 후보문자열에 포함된 것이 확인되는 키워드인 확인키워드의 재생시점, 및 상기 기 정의된 문자열 내에 상기 확인키워드와 함께 배열되며 상기 후보문자열로부터 확인되지 않은 키워드인 미확인키워드의 재생시점을 포함하는 음성구간으로 지정되는 것을 특징으로 하는 전자문서생성장치의 동작 방법.
12. The method of claim 11,
The voice re-
A reproduction time point of a confirmation keyword, which is a keyword confirmed to be included in the candidate character string, and a reproduction time point of an unconfirmed keyword, which is arranged together with the confirmation keyword in the predefined character string, And the voice section is included in the voice section.
제 17 항에 있어서,
상기 미확인키워드의 재생시점은,
상기 음성파일의 재생 시 확인된 음성 발화자의 발화속도 및 상기 확인키워드와 상기 미확인키워드 간의 거리를 기초로 상기 확인키워드와 상기 미확인키워드 간의 재생시점의 차이를 계산하여, 상기 확인키워드의 재생시점에 대해 상기 계산된 재생시점 차이만큼의 시간을 가산 또는 감산한 재생시점으로 결정되는 것을 특징으로 하는 전자문서생성장치의 동작 방법.
18. The method of claim 17,
The reproduction time point of the unconfirmed keyword is,
Calculating a difference between a reproduction time point of the confirmed keyword and the unconfirmed keyword on the basis of an ignition speed of a voice uttered during reproduction of the voice file and a distance between the confirmed keyword and the unidentified keyword, Wherein the reproduction time point is determined as a reproduction time point obtained by adding or subtracting a time corresponding to the calculated reproduction time point difference.
제 11 항에 있어서,
상기 방법은,
상기 발췌음성구간과 관련된 음성 및 문자 중 적어도 하나를 바코드이미지로 변환하여 상기 바코드이미지가 삽입된 전자문서가 생성되도록 하는 변환단계를 더 포함하는 것을 특징으로 하는 전자문서생성장치의 동작 방법.
12. The method of claim 11,
The method comprises:
Further comprising a converting step of converting at least one of a voice and a character associated with the extracted voice section into a barcode image so that an electronic document in which the barcode image is inserted is generated.
제 19 항에 있어서,
상기 변환단계는,
상기 발췌음성구간 내 보안 처리가 요구되는 특정 구간이 존재하는 경우, 상기 특정 구간의 음성을 대체 음으로 변경한 후 상기 바코드이미지로 변환하는 것을 특징으로 하는 전자문서생성장치의 동작 방법.
20. The method of claim 19,
Wherein,
And changing the voice of the specific section to a substitute voice and converting the voice of the specific section into the barcode image when there is a specific section requiring security processing in the excerpt voice section.
제 11 항 내지 제 13 항, 및 제 17 항 내지 제 20 항 중 어느 한 항의 각 단계를 실행시키도록 구현되어 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.20. A computer program embodied on computer readable recording medium which is embodied to execute the steps of any one of claims 11 to 13, and 17 to 20. 제 11 항 내지 제 13 항, 및 제 17 항 내지 제 20 항 중 어느 한 항의 각 단계를 실행시키기 위한 명령어를 포함하는 컴퓨터 판독 가능한 기록매체.A computer-readable medium having instructions for executing the steps of any one of claims 11 to 13, and 17 to 20.
KR1020160106392A 2016-08-22 2016-08-22 Electronic document producing apparatus, and control method thereof KR101705228B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160106392A KR101705228B1 (en) 2016-08-22 2016-08-22 Electronic document producing apparatus, and control method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160106392A KR101705228B1 (en) 2016-08-22 2016-08-22 Electronic document producing apparatus, and control method thereof

Publications (1)

Publication Number Publication Date
KR101705228B1 true KR101705228B1 (en) 2017-02-09

Family

ID=58154502

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160106392A KR101705228B1 (en) 2016-08-22 2016-08-22 Electronic document producing apparatus, and control method thereof

Country Status (1)

Country Link
KR (1) KR101705228B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858005A (en) * 2019-03-07 2019-06-07 百度在线网络技术(北京)有限公司 Document updating method, device, equipment and storage medium based on speech recognition
KR20210109914A (en) * 2020-02-28 2021-09-07 주식회사 포시에스 Apparatus and method for filling electronic document using dialogue comprehension based on format of electronic document

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110037115A (en) * 2009-10-05 2011-04-13 에스케이텔레콤 주식회사 Method for creating and playing sound-recorded file with keyword and portable device thereof
KR20130124863A (en) * 2012-05-07 2013-11-15 엘지전자 주식회사 Method for displaying text associated with audio file and electronic device
KR20130129749A (en) * 2012-05-21 2013-11-29 엘지전자 주식회사 Method and electronic device for easily searching for voice record
KR20150017634A (en) * 2013-08-07 2015-02-17 (주) 엠티콤 Method for producing and recognizing barcode information based on voice, and recording medium

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110037115A (en) * 2009-10-05 2011-04-13 에스케이텔레콤 주식회사 Method for creating and playing sound-recorded file with keyword and portable device thereof
KR20130124863A (en) * 2012-05-07 2013-11-15 엘지전자 주식회사 Method for displaying text associated with audio file and electronic device
KR20130129749A (en) * 2012-05-21 2013-11-29 엘지전자 주식회사 Method and electronic device for easily searching for voice record
KR20150017634A (en) * 2013-08-07 2015-02-17 (주) 엠티콤 Method for producing and recognizing barcode information based on voice, and recording medium

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858005A (en) * 2019-03-07 2019-06-07 百度在线网络技术(北京)有限公司 Document updating method, device, equipment and storage medium based on speech recognition
CN109858005B (en) * 2019-03-07 2024-01-12 百度在线网络技术(北京)有限公司 Method, device, equipment and storage medium for updating document based on voice recognition
KR20210109914A (en) * 2020-02-28 2021-09-07 주식회사 포시에스 Apparatus and method for filling electronic document using dialogue comprehension based on format of electronic document
KR102581414B1 (en) 2020-02-28 2023-09-21 주식회사 포시에스 Apparatus and method for filling electronic document using dialogue comprehension based on format of electronic document

Similar Documents

Publication Publication Date Title
KR102222317B1 (en) Speech recognition method, electronic device, and computer storage medium
CN110069608B (en) Voice interaction method, device, equipment and computer storage medium
CN107481720B (en) Explicit voiceprint recognition method and device
US10157609B2 (en) Local and remote aggregation of feedback data for speech recognition
US11797772B2 (en) Word lattice augmentation for automatic speech recognition
JP6251958B2 (en) Utterance analysis device, voice dialogue control device, method, and program
US20120196260A1 (en) Electronic Comic (E-Comic) Metadata Processing
CN109754783B (en) Method and apparatus for determining boundaries of audio sentences
US20140172411A1 (en) Apparatus and method for verifying context
CN110750996B (en) Method and device for generating multimedia information and readable storage medium
US20190172456A1 (en) Method for sharing photograph based on voice recognition, apparatus and system for the same
CN109859298B (en) Image processing method and device, equipment and storage medium thereof
CN104509065A (en) Using the ability to speak as a human interactive proof
JP5025353B2 (en) Dialog processing apparatus, dialog processing method, and computer program
US8315874B2 (en) Voice user interface authoring tool
CN111159364A (en) Dialogue system, dialogue device, dialogue method, and storage medium
KR101705228B1 (en) Electronic document producing apparatus, and control method thereof
CN109408175B (en) Real-time interaction method and system in general high-performance deep learning calculation engine
CN109524009B (en) Policy entry method and related device based on voice recognition
CN116304014A (en) Method for training entity type recognition model, entity type recognition method and device
CN114678028A (en) Voice interaction method and system based on artificial intelligence
CN110428668B (en) Data extraction method and device, computer system and readable storage medium
CN109493868B (en) Policy entry method and related device based on voice recognition
CN113255361B (en) Automatic voice content detection method, device, equipment and storage medium
KR20130137367A (en) System and method for providing book-related service based on image

Legal Events

Date Code Title Description
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20200203

Year of fee payment: 4