KR20160108874A - Method and apparatus for generating conversation record automatically - Google Patents

Method and apparatus for generating conversation record automatically Download PDF

Info

Publication number
KR20160108874A
KR20160108874A KR1020150032210A KR20150032210A KR20160108874A KR 20160108874 A KR20160108874 A KR 20160108874A KR 1020150032210 A KR1020150032210 A KR 1020150032210A KR 20150032210 A KR20150032210 A KR 20150032210A KR 20160108874 A KR20160108874 A KR 20160108874A
Authority
KR
South Korea
Prior art keywords
voice
conversation
file
recording
terminal
Prior art date
Application number
KR1020150032210A
Other languages
Korean (ko)
Inventor
김세미
신종원
이호석
이항섭
Original Assignee
주식회사셀바스에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사셀바스에이아이 filed Critical 주식회사셀바스에이아이
Priority to KR1020150032210A priority Critical patent/KR20160108874A/en
Publication of KR20160108874A publication Critical patent/KR20160108874A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

The present invention relates to a method and apparatus for generating a conversation text file automatically. A method for generating a conversation text file automatically according to an embodiment of the present invention comprises the following steps: receiving audio files recorded respectively in a master terminal and a slave terminal which is communicatively connected to the master terminal; analyzing the audio files corresponding to the master terminal and the slave terminals respectively and sorting out a main speaker and a sub-speaker in each audio file; generating a conversation audio file by extracting a voice section corresponding to the main speakers voice from each audio file; and recognizing voice from the conversation audio file and generating a conversation text file converted from the conversation audio file. The present invention has the effect of providing a method and apparatus for generating a high-quality conversation text file automatically by recognizing voice from an audio file through each speakers personal terminal.

Description

대화록 자동 생성 방법 및 장치{METHOD AND APPARATUS FOR GENERATING CONVERSATION RECORD AUTOMATICALLY}[0001] METHOD AND APPARATUS FOR GENERATING CONVERSATION RECORD AUTOMATICALLY [

본 발명은 대화록 자동 생성 방법 및 장치에 관한 것으로서, 보다 상세하게는 녹음 파일을 음성 인식하여 자동으로 녹취하여 대화록을 생성할 수 있는 대화록 자동 생성 방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for automatic generation of a dialogue record, and more particularly, to a method and apparatus for automatically generating a dialogue record by voice recognition of a recorded file and automatically recording it.

대화는 복수의 화자가 임의의 주제를 중심으로 서로의 의견을 말하는 모임 또는 행위로서, 대화에서 나온 내용들을 효과적으로 관리하기 위해서는 대화 내용을 그때 그 때 정리하는 것이 요구된다. 대화 내용을 정리하는 사람은 대화 당시에 복수의 화자가 말하는 내용을 직접 기재하여 대화록을 작성하거나, 대화를 녹음한 녹음 파일을 들으면서 직접 녹취를 할 수 있다. 대화의 녹취에서 최근 음성인식 기술이 사용되고 있다.Dialogue is a group or act in which plural speakers talk about each other's opinions on any topic. In order to effectively manage the contents of dialogue, it is required to organize the contents of the dialogue at that time. The person organizing the conversation contents can directly record the contents of plural speakers at the time of conversation to create a conversation book, or can record the conversation while listening to the recording file. Recently, speech recognition technology has been used in the recording of dialogue.

음성인식이란, 기본적으로 사용자가 발성한 음성을 전자 디바이스가 해석해 그 내용을 텍스트로 변환하는 기술을 의미한다. 구체적으로, 사용자가 발성한 음성의 파형이 전자 디바이스에 입력되면, 음향 모델 등을 참조하여 음성파형을 분석함으로써, 음성패턴 정보가 획득될 수 있다. 그리고, 획득된 음성패턴 정보가 식별정보와 비교됨으로써, 식별정보에서 일치 확률이 가장 높은 텍스트로 변환되어 전자 디바이스가 음성을 인식할 수 있다.Speech recognition basically means a technique in which an electronic device interprets a voice uttered by a user and converts the contents into text. Specifically, when a waveform of a voice uttered by the user is input to the electronic device, voice pattern information can be obtained by analyzing the voice waveform with reference to an acoustic model or the like. Then, the obtained voice pattern information is compared with the identification information, so that the text is converted into text having the highest probability of matching in the identification information, so that the electronic device can recognize the voice.

이러한 음성인식 기술은 다양한 분야에서 사용되고 있다. 예를 들어, 음성인식을 통해 다양한 전자 디바이스의 동작이 제어될 수 있고, 음성인식을 통해 개인의 음성 특성을 분석하여 신원 확인이 가능하며, 개인의 감정 상태를 판단할 수 있는 참고자료가 될 수 있다.Such speech recognition technology is used in various fields. For example, the operation of various electronic devices can be controlled through voice recognition, the identity of the individual can be verified by analyzing the voice characteristic of the individual through voice recognition, and the reference data can be used to determine the individual's emotional state have.

나아가 음성인식 기술은 사용자인 화자가 발성한 음성을 텍스트로 변환하여 화자가 말한 내용을 녹취하는데 사용될 수도 있다. 현재, 하나의 채널 또는 하나의 디바이스를 통해 수신되고 녹음된 음성은 음성인식 기술을 통해 녹취될 수 있다. Further, the speech recognition technology may be used to convert the speech uttered by the user, which is the user, into text, and to record the contents of the speaker. Presently, voice received and recorded through one channel or one device can be recorded via voice recognition technology.

다만, 복수의 화자가 말하는 대화에서는 복수의 채널이나 복수의 화자가 존재하여 녹음된 음성을 각각 분리하는데 어려움이 있고, 특수한 장비를 통해 대화 내용을 별도로 녹음해야 하는 불편함이 존재하였다. 또한, 대화 내용을 정리하는 사람이 대화 당시에 직접 대화록을 작성하거나 녹음 파일을 들으면서 녹취하는 경우, 대화 내용을 잘못 기록하거나 정확한 대화록 작성을 위해서 시간이 오래 걸리는 문제점이 있었다. However, in a conversation that is spoken by a plurality of speakers, there are a plurality of channels or a plurality of speakers, and it is difficult to separate the recorded sounds, and there is a need to separately record the conversation contents through special equipment. In addition, when a person organizing conversation contents creates a conversation list directly at the time of conversation or records a conversation while listening to a recorded file, it takes a long time to record the conversation contents or to create a precise conversation list.

따라서, 별도의 특수 장비 없이 대화에 참여하는 화자 각자의 모바일 단말기나 휴대용 단말기만으로 간단하게 녹음하고, 대화 내용을 정리하는 사람이 추후 대화록을 수동으로 작성할 필요 없이 자동으로 높은 품질의 대화록이 작성될 수 있는 방법을 제공할 필요성이 증대되었다. Therefore, it is possible to easily record with only a mobile terminal or a portable terminal of each speaker participating in a conversation without special special equipment, and a person who arranges conversation contents can automatically create a high quality conversation book without having to manually create a conversation book There is a growing need to provide a method.

[관련기술문헌][Related Technical Literature]

다자간 대화시스템을 위한 대화록작성방법 (한국공개특허 제1998-031722 호)A method for creating a conversation list for a multi-party conversation system (Korean Patent Publication No. 1998-031722)

본 발명이 해결하고자 하는 과제는 화자 각각의 개인용 단말기를 통해 녹음한 파일을 음성 인식하여 높은 품질의 대화록 파일을 자동으로 생성할 수 있는 대화록 자동 생성 방법 및 장치를 제공하는 것이다.SUMMARY OF THE INVENTION It is an object of the present invention to provide a method and apparatus for automatic generation of a conversation list that can automatically generate a high quality conversation file by voice recognition of a file recorded through each personal terminal of a speaker.

본 발명이 해결하고자 하는 다른 과제는 자동으로 대화록이 작성되어 대화록 작성에 대한 시간을 절약할 수 있고, 화자 각각의 발언 내용을 분리하여 특정 화자의 발언 내용만을 청취할 수 있는 대화록 자동 생성 방법 및 장치를 제공하는 것이다.Another problem to be solved by the present invention is to provide a method and apparatus for automatic generation of a dialogue box, which can automatically save a time for creating a dialogue and automatically listen to the utterance contents of a specific speaker, .

본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The problems of the present invention are not limited to the above-mentioned problems, and other problems not mentioned can be clearly understood by those skilled in the art from the following description.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 대화록 자동 생성 방법은 마스터(master) 단말기, 및 마스터 단말기와 통신 가능하도록 연결된 슬레이브(slave) 단말기 각각에서 녹음된 녹음 음성 파일을 수신하는 단계, 마스터 단말기 및 슬레이브 단말기 각각에 대응하는 녹음 음성 파일을 분석하여 녹음 음성 파일마다 주(main)화자 및 부(sub)화자를 구분하는 단계, 녹음 음성 파일 각각에서 주화자의 음성에 대응하는 음성 구간을 추출하여 대화 녹음 파일을 생성하는 단계, 및 대화 녹음 파일을 음성 인식하여 텍스트(text)로 변환된 대화록 파일을 생성하는 단계를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided a method for automatically generating a conversation list, the method comprising: receiving a recorded voice file from a master terminal and a slave terminal communicably connected to the master terminal, Analyzing a recorded voice file corresponding to each of the master terminal and the slave terminal to classify a main speaker and a sub speaker for each recorded voice file; extracting a voice corresponding to the voice of the main speaker in each of the recorded voice files; Extracting a section to generate a conversation recording file, and generating a conversation file converted into text by voice recognition of the conversation recording file.

본 발명의 다른 특징에 따르면, 녹음 음성 파일을 수신하는 단계는, 마스터 단말기 또는 슬레이브 단말기로부터 대화 특징 정보를 수신하는 단계를 포함하고, 대화 특징 정보는 마스터 단말기 또는 슬레이브 단말기에 입력된 대화 메모 정보 및 음성 구간 마킹(marking) 정보 중 적어도 하나를 포함하는 것을 특징으로 한다.According to another aspect of the present invention, the step of receiving the recorded voice file includes receiving the conversation characteristic information from the master terminal or the slave terminal, and the conversation characteristic information includes conversation memo information input to the master terminal or the slave terminal, Voice marking information, and voice marking information.

본 발명의 또 다른 특징에 따르면, 주화자 및 부화자를 구분하는 단계는, 녹음 음성 파일을 분석하여 분리된 음성 특성을 기초로 음성 특성에 대응하는 화자를 결정하는 단계, 및 녹음 음성 파일에서 음성 특성 중 성량이 최대인 음성 구간에 대응하는 화자를 주화자로 결정하는 단계를 포함하는 것을 특징으로 한다.According to another aspect of the present invention, the step of distinguishing between a coin and a hatched person includes the steps of analyzing a recorded voice file to determine a speaker corresponding to the voice characteristic based on the separated voice characteristic, And determining a speaker corresponding to a voice interval having the maximum voice amount as a co-speaker.

본 발명의 또 다른 특징에 따르면, 대화 녹음 파일을 생성하는 단계는, 녹음 음성 파일 각각에 대응하는 주화자의 음성 각각의 성량을 동일하게 일치시키는 단계, 및 주화자의 음성 구간에 대응하는 녹음 음성 파일을 추출하여 추출된 녹음 음성 파일을 대화 진행 시간에 대응시켜 대화 녹음 파일로 통합하는 단계를 포함하는 것을 특징으로 한다.According to still another aspect of the present invention, the step of generating a conversation recording file includes the steps of equally matching the respective contents of the voice of the main character corresponding to each of the recorded voice files, and recording the recorded voice file corresponding to the voice section of the main character And extracting the extracted voice file and integrating it into a conversation recording file corresponding to the conversation progress time.

본 발명의 또 다른 특징에 따르면, 대화 녹음 파일을 생성하는 단계는, 주화자를 구분하는 것이 불가능한 음성 구간에 대응하여 알림 메시지를 생성하는 단계를 포함하는 것을 특징으로 한다.According to another aspect of the present invention, the step of generating a conversation recording file includes a step of generating a notification message corresponding to a voice section in which it is not possible to distinguish a co-operator.

본 발명의 또 다른 특징에 따르면, 대화 녹음 파일을 생성하는 단계는, 주화자의 음성 구간에 대응하는 음성을 추출하여 마스터 단말기 또는 슬레이브 단말기마다 주화자의 음성만을 포함하는 주화자 녹음 파일을 생성하는 단계를 포함하는 것을 특징으로 한다.According to another aspect of the present invention, the step of generating the conversation recording file includes a step of extracting a voice corresponding to a voice section of the caller and generating a caller recording file including only the voice of the caller for each master terminal or slave terminal .

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 대화록 자동 생성 장치는 마스터 단말기, 및 마스터 단말기와 통신 가능하도록 연결된 슬레이브 단말기 각각에서 녹음된 녹음 음성 파일을 수신하는 녹음 음성 파일 수신부, 마스터 단말기 및 슬레이브 단말기 각각에 대응하는 녹음 음성 파일을 분석하여 녹음 음성 파일마다 주화자 및 부화자를 분리하는 화자 분리부, 녹음 음성 파일 각각에서 주화자의 음성에 대응하는 음성 구간을 추출하여 대화 녹음 파일을 생성하는 대화 녹음 파일 생성부, 및 대화 녹음 파일을 음성 인식하여 텍스트로 변환된 대화록 파일을 생성하는 대화록 파일 생성부를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided an apparatus for automatically generating a conversation list, comprising: a recording voice file receiving unit for receiving a recorded voice file from a master terminal and a slave terminal connected to the master terminal, A speaker separator for separating the main voice and the voice caller for each recorded voice file by analyzing the recorded voice file corresponding to each of the master terminal and the slave terminal and extracting a voice recording section corresponding to the voice of the main voice in each of the recorded voice files, And a conversation file generation unit for generating a conversation file converted to text by voice recognition of the conversation recording file.

본 발명의 다른 특징에 따르면, 녹음 음성 파일 수신부는, 마스터 단말기 또는 슬레이브 단말기로부터 대화 특징 정보를 수신하고, 대화 특징 정보는 마스터 단말기 또는 슬레이브 단말기에 입력된 대화 메모 정보 및 음성 구간 마킹 정보 중 적어도 하나를 포함하는 것을 특징으로 한다.According to another aspect of the present invention, the recorded voice file receiving unit receives the conversation characteristic information from the master terminal or the slave terminal, and the conversation characteristic information includes at least one of conversation note information and voice interval marking information input to the master terminal or the slave terminal And a control unit.

본 발명의 또 다른 특징에 따르면, 화자 분리부는, 녹음 음성 파일을 분석하여 분리된 음성 특성을 기초로 음성 특성에 대응하는 화자를 결정하고, 녹음 음성 파일에서 음성 특성 중 성량이 최대인 음성 구간에 대응하는 화자를 주화자로 결정하는 것을 특징으로 한다.According to another aspect of the present invention, the speaker separation unit analyzes a recorded voice file, determines a speaker corresponding to the voice characteristic based on the separated voice characteristic, and determines a speaker corresponding to the voice characteristic having the highest voice characteristic in the recorded voice file And the corresponding speaker is determined as the main speaker.

본 발명의 또 다른 특징에 따르면, 대화 녹음 파일 생성부는, 녹음 음성 파일 각각에 대응하는 주화자의 음성 각각의 성량을 동일하게 일치시키고, 주화자의 음성 구간에 대응하는 녹음 음성 파일을 추출하여 추출된 녹음 음성 파일을 대화 진행 시간에 대응시켜 대화 녹음 파일로 통합하는 것을 특징으로 한다.According to still another aspect of the present invention, the conversation recording file generation unit generates the conversation recording file by equally matching the contents of each voice of a main character corresponding to each of the recorded voice files, extracting the recorded voice file corresponding to the voice section of the main character, And the voice file is integrated into the conversation recording file in correspondence with the conversation progress time.

본 발명의 또 다른 특징에 따르면, 대화 녹음 파일 생성부는, 주화자를 구분하는 것이 불가능한 음성 구간에 대응하여 알림 메시지를 생성하는 것을 특징으로 한다.According to another aspect of the present invention, the conversation recording file generation unit generates a notification message in response to a voice section in which it is not possible to distinguish a co-operator.

본 발명의 또 다른 특징에 따르면, 대화 녹음 파일 생성부는, 주화자의 음성 구간에 대응하는 음성을 추출하여 마스터 단말기 또는 슬레이브 단말기마다 주화자의 음성만을 포함하는 주화자 녹음 파일을 생성하는 것을 특징으로 한다.According to still another aspect of the present invention, the conversation recording file generating unit extracts a voice corresponding to a voice section of a co-owner and generates a co-player recording file including only the voice of the co-owner for each master terminal or slave terminal.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 대화록 자동 생성 방법을 제공하는 명령어들을 저장하는 컴퓨터 판독 가능 기록매체는 마스터 단말기, 및 마스터 단말기와 통신 가능하도록 연결된 슬레이브 단말기 각각에서 녹음된 녹음 음성 파일을 수신하고, 마스터 단말기 및 슬레이브 단말기 각각에 대응하는 녹음 음성 파일을 분석하여 녹음 음성 파일마다 주화자 및 부화자를 구분하고, 녹음 음성 파일 각각에서 주화자의 음성에 대응하는 음성 구간을 추출하여 대화 녹음 파일을 생성하고, 대화 녹음 파일을 음성 인식하여 텍스트로 변환된 대화록 파일을 생성하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided a computer readable recording medium storing instructions for providing a method for automatically generating a conversation list according to an embodiment of the present invention includes a master terminal and a slave terminal communicably connected to the master terminal, And extracts a voice section corresponding to the voice of the main voice in each of the voice recording files, analyzes the recorded voice file corresponding to each of the master terminal and the slave terminal, And a conversation recording file is generated, and the conversation recording file is voice-recognized to generate a conversation file converted into text.

기타 실시예의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.The details of other embodiments are included in the detailed description and drawings.

본 발명은 화자 각각의 개인용 단말기를 통해 녹음한 파일을 음성 인식하여 높은 품질의 대화록 파일을 자동으로 생성할 수 있는 대화록 자동 생성 방법 및 장치를 제공할 수 있는 효과가 있다.The present invention provides a method and apparatus for automatic generation of a conversation list capable of automatically generating a high quality conversation file by voice recognition of a file recorded through each personal terminal of a speaker.

본 발명은 자동으로 대화록이 작성되어 대화록 작성에 대한 시간을 절약할 수 있고, 화자 각각의 발언 내용을 분리하여 특정 화자의 발언 내용만을 청취할 수 있는 대화록 자동 생성 방법 및 장치를 제공할 수 있는 효과가 있다.The present invention can provide a method and apparatus for automatic generation of a conversation list that can automatically record a conversation and save time for creating a conversation, and can listen only to the utterance contents of a specific speaker by separating the utterance contents of each speaker .

본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.The effects according to the present invention are not limited by the contents exemplified above, and more various effects are included in the specification.

도 1a 및 도 1b는 본 발명의 일 실시예에 따른 대화록 자동 생성 서버의 개략적인 구성 및 대화록 자동 생성 서버와 마스터 단말기 및 슬레이브 단말기와의 연결관계를 도시한 것이다.
도 2는 본 발명의 일 실시예에 따른 대화록 자동 생성 방법에 따라 대화록 파일을 생성하기 위한 절차를 도시한 것이다.
도 3은 본 발명의 일 실시예에 따른 대화록 자동 생성 방법에 따라 대화 녹음 파일 및 대화록 파일을 생성하는 방법을 예시적으로 도시한 것이다.
도 4는 본 발명의 일 실시예에 따른 대화록 자동 생성 방법에 따라 녹음 음성 파일에서 주화자 및 부화자를 구분하는 방법을 설명하기 위해 예시적으로 도시한 것이다.
도 5는 본 발명의 다른 실시예에 따른 대화록 자동 생성 방법에 따라 대화 녹음 파일을 생성하는 방법을 예시적으로 도시한 것이다.
FIGS. 1A and 1B illustrate a schematic configuration of a conversation list automatic generation server according to an exemplary embodiment of the present invention, and a connection relationship between an automatic conversation list generation server, a master terminal, and a slave terminal.
FIG. 2 illustrates a procedure for generating a conversation file according to a method for automatically generating a conversation list according to an embodiment of the present invention.
FIG. 3 exemplarily shows a method of generating a conversation recording file and a conversation record file according to a method for automatically generating a conversation list according to an embodiment of the present invention.
4 illustrates an example of a method for distinguishing a coin and a hatched person in a recorded voice file according to a method for automatically generating a conversation list according to an embodiment of the present invention.
5 illustrates an exemplary method of generating a conversation recording file according to a method for automatically generating a conversation list according to another embodiment of the present invention.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. BRIEF DESCRIPTION OF THE DRAWINGS The advantages and features of the present invention, and the manner of achieving them, will be apparent from and elucidated with reference to the embodiments described hereinafter in conjunction with the accompanying drawings. The present invention may, however, be embodied in many different forms and should not be construed as being limited to the embodiments set forth herein. Rather, these embodiments are provided so that this disclosure will be thorough and complete, and will fully convey the scope of the invention to those skilled in the art. Is provided to fully convey the scope of the invention to those skilled in the art, and the invention is only defined by the scope of the claims.

본 발명의 실시예를 설명하기 위한 도면에 개시된 형상, 크기, 비율, 각도, 개수 등은 예시적인 것이므로 본 발명이 도시된 사항에 한정되는 것은 아니다. 또한, 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명은 생략한다. 본 명세서 상에서 언급된 '포함한다', '갖는다', '이루어진다' 등이 사용되는 경우 '~만'이 사용되지 않는 이상 다른 부분이 추가될 수 있다. 구성요소를 단수로 표현한 경우에 특별히 명시적인 기재 사항이 없는 한 복수를 포함하는 경우를 포함한다. The shapes, sizes, ratios, angles, numbers, and the like disclosed in the drawings for describing the embodiments of the present invention are illustrative, and thus the present invention is not limited thereto. In the following description, well-known functions or constructions are not described in detail since they would obscure the invention in unnecessary detail. Where the terms "comprises", "having", "done", and the like are used in this specification, other portions may be added unless "only" is used. Unless the context clearly dictates otherwise, including the plural unless the context clearly dictates otherwise.

구성요소를 해석함에 있어서, 별도의 명시적 기재가 없더라도 오차 범위를 포함하는 것으로 해석한다.In interpreting the constituent elements, it is construed to include the error range even if there is no separate description.

비록 제1, 제2 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않는다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있다.Although the first, second, etc. are used to describe various components, these components are not limited by these terms. These terms are used only to distinguish one component from another. Therefore, the first component mentioned below may be the second component within the technical spirit of the present invention.

별도로 명시하지 않는 한 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다. Like reference numerals refer to like elements throughout the specification unless otherwise specified.

본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하며, 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.It is to be understood that each of the features of the various embodiments of the present invention may be combined or combined with each other partially or entirely and technically various interlocking and driving is possible as will be appreciated by those skilled in the art, It may be possible to cooperate with each other in association.

이하, 본 명세서에서 사용되는 용어에 대해 정의한다.Hereinafter, terms used in this specification will be defined.

본 명세서에서 마스터 단말기란, 대화의 진행을 주관하는 단말기로서, 대화의 시작과 종료를 제어하고, 대화에 참여할 수 있는 다른 단말기를 연결시키며, 대화 자료를 공유할 수 있도록 대화 자료를 제공할 수 있는 단말기이다.In this specification, a master terminal is a terminal that manages the progress of a conversation. The terminal controls the start and end of a conversation, connects other terminals capable of participating in a conversation, and provides conversation data so that conversation data can be shared Terminal.

본 명세서에서 슬레이브 단말기란, 대화가 진행되는 동안 마스터 단말기에 종속되는 단말기로서, 마스터 단말기에 연결되어 대화 자료를 제공받고 대화에 필요한 정보를 마스터 단말기에 제공할 수 있는 단말기이다. In this specification, a slave terminal is a terminal that is dependent on a master terminal during a conversation, and is a terminal connected to a master terminal and capable of providing conversation data and providing information necessary for conversation to the master terminal.

본 명세서에서 주(main, 主)화자란, 단말기에 가까운 화자로서, 대화참석자가 자신의 단말기를 들고 대화에 참석한 경우, 대화참석자 개개인은 자신의 단말기에 대해 주화자가 될 수 있다. In this specification, a main speaker is a speaker close to a terminal, and when a conversation participant holds his / her terminal and attends a conversation, each conversation participant can be a co-ordinator for his / her terminal.

본 명세서에서 부(sub, 附)화자란, 단말기에서 주화자보다 상대적으로 멀리 떨어진 화자로서, 단말기에 대해 주화자를 제외한 나머지 화자를 의미한다. In the present specification, a sub-speaker is a speaker relatively far from the main speaker in the terminal, and means a speaker other than the main speaker for the terminal.

본 명세서에서 대화 특징 정보란, 대화의 내용에 대해 대화참석자가 단말기를 통해 부가적으로 입력한 정보로서, 대화 진행 중 녹음 음성 파일이 아닌 대화에 대한 메모 정보 및 녹음 음성 파일 중 음성 구간에 대한 마킹(marking) 정보를 포함한다. In the present specification, the conversation characteristic information is information entered by a conversation participant through the terminal in addition to the contents of the conversation, and includes memo information about the conversation not the recording voice file during conversation, (marking) information.

본 명세서에서 음성 특성이란, 화자마다 구분되는 화자 개개인의 음성의 특성으로서, 화자마다 상이한 음성의 주파수 특성, 진폭 특성 및 파형 특성을 포함한다. In the present specification, the voice characteristic includes the frequency characteristics, the amplitude characteristics, and the waveform characteristics of different voices for each speaker as the characteristics of individual speakers divided for each speaker.

본 명세서에서 대화란, 2 이상의 화자가 말을 주고 받는 행위로, 일반적인 의미의 대화를 의미한다. 본 명세서에서 대화는 다자간 의견을 주고 받는 회의를 포함할 수 있고, 다양한 형식 또는 다양한 장치로 화자가 이야기를 주고 받는 모든 행위를 포함한다. In the present specification, a conversation is an action in which two or more speakers exchange words, which means a conversation in a general sense. The conversation herein may include a meeting in which a multi-party opinion is exchanged, and includes any action in which the speaker exchanges stories in various formats or on various devices.

도 1a 및 도 1b는 본 발명의 일 실시예에 따른 대화록 자동 생성 서버의 개략적인 구성 및 대화록 자동 생성 서버와 마스터 단말기 및 슬레이브 단말기와의 연결관계를 도시한 것이다.FIGS. 1A and 1B illustrate a schematic configuration of a conversation list automatic generation server according to an exemplary embodiment of the present invention, and a connection relationship between an automatic conversation list generation server, a master terminal, and a slave terminal.

도 1a를 참조하면, 대화록 자동 생성 서버 (100) 는 대화 녹음 파일 (180) 및 대화록 파일 (190) 을 포함하고, 마스터 단말기 (210) 와 통신 가능하도록 연결된다. 마스터 단말기 (210) 및 슬레이브 단말기 (221, 222, 223, 224) 는 각각 대화참석자가 휴대할 수 있는 개인용 단말기로서, 대화참석자는 적어도 하나의 단말기를 가지고 대화에 참석하여 자신의 음성을 녹음할 수 있다. 대화의 진행을 주관하는 마스터 단말기 (210) 는 적어도 하나의 슬레이브 단말기 (221, 222, 223, 224) 와 통신 가능하도록 연결되고, 대화에 필요한 파일을 슬레이브 단말기 (221, 222, 223, 224) 와 주고 받을 수 있다. Referring to FIG. 1A, a conversation auto-generation server 100 includes a conversation recording file 180 and a conversation file 190, and is communicably connected to the master terminal 210. The master terminal 210 and the slave terminals 221, 222, 223, and 224 are personal terminals each of which a conversation attendee can carry, and the conversation attendee can attend the conversation with at least one terminal and record his voice have. The master terminal 210 which is in charge of the progress of the conversation is connected to communicate with at least one of the slave terminals 221, 222, 223 and 224 and transmits a file necessary for conversation to the slave terminals 221, 222, 223 and 224 You can send and receive.

마스터 단말기 (210) 및 슬레이브 단말기 (221, 222, 223, 224) 각각은 대화에 참여한 대화참석자의 음성을 녹음할 수 있는 장치를 포함할 수 있다. 몇몇 실시예에서, 마스터 단말기 (210) 및 슬레이브 단말기 (221, 222, 223, 224) 각각은 대화참석자의 음성을 녹음할 수 있는 마이크를 포함할 수 있다. 여기서, 마스터 단말기 (210) 및 슬레이브 단말기 (221, 222, 223, 224) 각각은 복수의 마이크를 포함할 수도 있으며, 마스터 단말기 (210) 및 슬레이브 단말기 (221, 222, 223, 224) 각각이 복수의 마이크를 포함하는 경우, 마스터 단말기 (210) 및 슬레이브 단말기 (221, 222, 223, 224) 각각은 복수의 마이크를 통해 녹음된 음성의 방향을 검출할 수도 있다. Each of the master terminal 210 and the slave terminals 221, 222, 223, and 224 may include a device capable of recording the voice of a conversation participant participating in the conversation. In some embodiments, each of the master terminal 210 and the slave terminals 221, 222, 223, and 224 may include a microphone capable of recording the voice of the conversation participant. Each of the master terminal 210 and the slave terminals 221, 222, 223 and 224 may include a plurality of microphones and each of the master terminal 210 and the slave terminals 221, 222, 223, The master terminal 210 and each of the slave terminals 221, 222, 223, and 224 may detect the direction of the recorded voice through the plurality of microphones.

마스터 단말기 (210) 는 대화 자료를 제공하고, 대화에 참석하는 슬레이브 단말기 (221, 222, 223, 224) 에 마스터 단말기 (210) 에 접속할 수 있는 권한을 제공할 수 있다. 또한, 마스터 단말기 (210) 는 대화의 진행을 주관할 수 있다. 구체적으로, 마스터 단말기 (210) 는 대화의 시작과 종료를 결정할 수 있으며, 대화의 시작과 종료 사이에 사람의 음성을 녹음하여 녹음 파일을 생성하고, 슬레이브 단말기 (221, 222, 223, 224) 의 녹음 파일을 수신할 수도 있다.The master terminal 210 may provide the conversation data and may authorize access to the master terminal 210 to the slave terminals 221, 222, 223, and 224 attending the conversation. Also, the master terminal 210 can manage the progress of the conversation. Specifically, the master terminal 210 can determine the start and end of the conversation. The master terminal 210 records a voice of a person between the start and end of the conversation to generate a recording file, and the slave terminals 221, 222, 223, and 224 You can also receive a recording file.

슬레이브 단말기 (221, 222, 223, 224) 는 마스터 단말기 (210) 에 통신 가능하도록 연결된다. 여기서, 슬레이브 단말기 (221, 222, 223, 224) 는 각각 대화참석자의 음성을 녹음할 수 있고, 녹음한 녹음 음성 파일을 마스터 단말기 (210) 에 전송할 수 있다.The slave terminals 221, 222, 223, and 224 are communicably connected to the master terminal 210. Here, each of the slave terminals 221, 222, 223, and 224 may record the voice of the conversation attendee and may transmit the recorded voice file to the master terminal 210.

도 1b를 참조하면, 대화록 자동 생성 서버 (100) 는 녹음 음성 파일 수신부 (110), 화자 분리부 (120), 대화 녹음 파일 생성부 (130) 및 대화록 파일 생성부 (140) 를 포함한다.Referring to FIG. 1B, the automatic conversation log generation server 100 includes a recording voice file receiving unit 110, a speaker separating unit 120, a conversation recording file generating unit 130, and a conversation file generating unit 140.

녹음 음성 파일 수신부 (110) 는 대화에 참여하고 있는 참여자의 단말기로부터 녹음 음성 파일을 수신할 수 있다. 구체적으로, 녹음 음성 파일 수신부 (110) 는 대화를 진행하고 있는 마스터 단말기 (210) 로부터 녹음 음성 파일을 수신할 수 있다. 나아가, 녹음 음성 파일 수신부 (110) 는 마스터 단말기 (210) 로부터 나머지 슬레이브 단말기 (221, 222, 223, 224) 에서 녹음된 녹음 음성 파일을 수신할 수 있다. 또한, 녹음 음성 파일 수신부 (110) 는 마스터 단말기 (210) 및 슬레이브 단말기 (221, 222, 223, 224) 각각으로부터 녹음 음성 파일을 각각 수신할 수도 있다. 녹음 음성 파일 수신부 (110) 는 수신한 녹음 음성 파일들을 화자 분리부 (120) 로 전송할 수 있다.The recording voice file receiving unit 110 can receive the recording voice file from the participant's terminal participating in the conversation. Specifically, the recording voice file receiving unit 110 can receive the recorded voice file from the master terminal 210 that is in conversation. Furthermore, the recording voice file receiving unit 110 can receive the recorded voice file recorded in the remaining slave terminals 221, 222, 223, and 224 from the master terminal 210. The recording voice file receiving unit 110 may also receive recorded voice files from the master terminal 210 and the slave terminals 221, 222, 223, and 224, respectively. The recording voice file receiving unit 110 may transmit the received voice recording files to the speaker separation unit 120. [

화자 분리부 (120) 는 수신한 녹음 음성 파일들을 분석하여 녹음 음성 파일마다 주화자 및 부화자를 구분할 수 있다. 녹음 음성 파일에서 화자를 구분하기 위해 화자 분리부 (120) 는 음성 특성을 구분할 수 있는 모듈을 더 포함할 수도 있다. 화자 분리부 (120) 는 녹음 음성 파일마다 주화자 및 부화자를 구분한 결과를 대화 녹음 파일 생성부 (130) 로 전송할 수 있다. 화자 분리부 (120) 가 주화자 및 부화자를 구분하는 구체적인 방법에 대해서는 도 4를 참조하여 후술한다.The speaker separation unit 120 may analyze the received voice recording files to distinguish the voice caller and the voice caller for each recorded voice file. The speaker separator 120 may further include a module that can distinguish the voice characteristics in order to distinguish the speaker from the recorded voice file. The speaker separation unit 120 may transmit the results of discriminating the main and sub-speakers to the conversation recording file generation unit 130 for each recorded voice file. A specific method by which the speaker separation unit 120 divides the coin and the hatched person will be described later with reference to FIG.

대화 녹음 파일 생성부 (130) 는 녹음 음성 파일에서 주화자에 대응하는 음성 구간을 추출하여 대화 녹음 파일 (180) 을 생성할 수 있다. 몇몇 실시예에서, 대화 녹음 파일 생성부 (130) 는 대화 녹음 파일 (180) 을 하나로 통합하여 생성할 수 있다. 다른 몇몇 실시예에서, 대화 녹음 파일 생성부 (130) 는 대화에 참여하고 있는 단말기마다 개별적으로 대화 녹음 파일 (180) 을 생성할 수도 있다. 대화 녹음 파일 생성부 (130) 는 생성한 대화 녹음 파일 (180) 을 대화록 파일 생성부 (140) 로 전송할 수 있다. 대화 녹음 파일 생성부 (130) 가 대화 녹음 파일 (180) 을 생성하는 구체적인 방법에 대해서는 도 3 및 도 5를 참조하여 후술한다.The conversation recording file generation unit 130 may extract the voice section corresponding to the main character from the recorded voice file to generate the conversation recording file 180. [ In some embodiments, the conversation recording file creation unit 130 may combine the conversation recording files 180 into one. In some other embodiments, the conversation recording file generation unit 130 may generate the conversation recording file 180 individually for each terminal participating in the conversation. The conversation recording file generation unit 130 can transmit the generated conversation recording file 180 to the conversation file generation unit 140. [ A specific method by which the conversation recording file generation unit 130 generates the conversation recording file 180 will be described later with reference to FIG. 3 and FIG.

대화록 파일 생성부 (140) 는 대화 녹음 파일 (180) 을 음성 인식하여 텍스트로 변환시킨 대화록 파일 (190) 을 생성할 수 있다. 여기서, 대화록 파일 생성부 (140) 는 대화록 파일 (190) 을 생성하기 위해 음성을 텍스트로 변환할 수 있는 음성 인식 모듈을 더 포함할 수 있다.The conversation file generation unit 140 may generate the conversation file 190 in which the conversation recording file 180 is voice-recognized and converted into text. Here, the conversation file generation unit 140 may further include a speech recognition module capable of converting the speech into text in order to generate the conversation file 190.

이에 따라, 대화록 자동 생성 서버 (100) 는 마스터 단말기 (210) 로부터 수신한 녹음 음성 파일을 수신하여 주화자의 음성만을 포함하는 대화 녹음 파일을 생성하고, 대화 녹음 파일을 음성 인식하여 하나의 대화록 파일을 생성할 수 있다. 대화록을 자동으로 생성하기 위해 대화에 사용되는 단말기는 대화참석자 개인이 소유하는 개인용 단말기로, 별도의 특수한 단말기 없이도 대화록 자동 생성 서버 (100) 는 대화록 파일을 자동으로 생성할 수 있다. Accordingly, the conversation list automatic generation server 100 receives the recording voice file received from the master terminal 210, generates a conversation recording file containing only the voice of the caller, voice recognizes the conversation recording file, Can be generated. A terminal used for conversation to automatically generate a conversation list is a personal terminal owned by a conversation attendant. The conversation list automatic generation server 100 can automatically generate a conversation list file without a special terminal.

대화록 자동 생성 서버 (100) 의 각 구성들은 설명의 편의상 개별적인 구성으로 도시한 것일 뿐, 구현 방법에 따라 하나의 모듈에 구현되거나 하나의 구성이 2 이상의 구성으로 분리될 수 있다.Each configuration of the automatic conversation log generation server 100 is shown as an individual configuration for convenience of explanation, and may be implemented in one module according to the implementation method, or one configuration may be separated into two or more configurations.

도 2는 본 발명의 일 실시예에 따른 대화록 자동 생성 방법에 따라 대화록 파일을 생성하기 위한 절차를 도시한 것이다. 설명의 편의를 위해 도 1을 참조하여 설명한다.FIG. 2 illustrates a procedure for generating a conversation file according to a method for automatically generating a conversation list according to an embodiment of the present invention. Will be described with reference to Fig. 1 for convenience of explanation.

본 발명에 따른 대화록 자동 생성 방법은 녹음 음성 파일 수신부 (110) 가 마스터 단말기 (210), 및 마스터 단말기 (210) 와 통신 가능하도록 연결된 슬레이브 단말기 (221, 222, 223, 224) 각각에서 녹음된 녹음 음성 파일을 수신함으로서 개시된다 (S21).The method for automatically generating a conversation list according to the present invention is characterized in that the recording voice file receiving unit 110 records the recorded voice data in each of the slave terminals 221, 222, 223, and 224 connected to the master terminal 210 and the master terminal 210, Is started by receiving an audio file (S21).

구체적으로, 녹음 음성 파일 수신부 (110) 는 대화참석자의 단말기에서 녹음된 녹음 음성 파일을 수신한다. 특히, 녹음 음성 파일 수신부 (110) 는 마스터 단말기 (210) 와 통신하도록 연결되어 마스터 단말기 (210) 로부터 대화참석자의 단말기에서 녹음된 모든 녹음 음성 파일을 수신할 수 있다. 몇몇 실시예에서, 녹음 음성 파일 수신부 (110) 는 대화참석자의 단말기에서 각각 녹음 음성 파일을 개별적으로 수신할 수도 있다.Specifically, the recording voice file receiving unit 110 receives the recorded voice file recorded in the terminal of the conversation participant. In particular, the recording voice file receiving unit 110 may be connected to the master terminal 210 to receive all recorded voice files recorded in the terminal of the conversation attendant from the master terminal 210. [ In some embodiments, the recorded voice file receiving unit 110 may individually receive the recorded voice files at the terminals of the conversation participants.

또한, 녹음 음성 파일 수신부 (110) 는 녹음 음성 파일 외에도 마스터 단말기 (210) 또는 슬레이브 단말기 (221, 222, 223, 224) 로부터 대화 특징 정보를 수신할 수 있다. 즉, 녹음 음성 파일 수신부 (110) 는 녹음 음성 파일과 함께 대화 진행 중 단말기들로부터 수신된 다양한 대화 특징 정보를 함께 수신할 수 있다. 녹음 음성 파일 수신부 (110) 가 수신한 녹음 음성 파일 및 대화 특징 정보에 대한 구체적인 예시는 도 3을 참조하여 후술한다. The recording voice file receiving unit 110 may receive the conversation characteristic information from the master terminal 210 or the slave terminals 221, 222, 223, and 224 in addition to the recording voice file. That is, the recording voice file receiving unit 110 can receive together with the voice recording file various conversation characteristic information received from the terminals in the course of the conversation. Specific examples of the recording voice file and the conversation characteristic information received by the recording voice file receiving unit 110 will be described later with reference to FIG.

이어서, 화자 분리부 (120) 는 마스터 단말기 (210) 및 슬레이브 단말기 (221, 222, 223, 224) 각각에 대응하는 녹음 음성 파일을 분석하여 녹음 음성 파일마다 주화자 및 부화자를 구분한다 (S22).Then, the speaker separator 120 analyzes recorded voice files corresponding to the master terminal 210 and the slave terminals 221, 222, 223, and 224, and distinguishes the main voice caller and the voice caller for each recorded voice file (S22) .

구체적으로, 화자 분리부 (120) 는 녹음 음성 파일 수신부 (110) 로부터 수신한 녹음 음성 파일을 분석하여 음성 특성을 기초로 화자를 분리할 수 있다. 즉, 화자 분리부 (120) 는 하나의 음성 특성에 대응하여 하나의 화자를 결정하여 복수의 음성 특성이 존재하는 경우, 복수의 화자를 음성 특성에 대응하여 결정할 수 있다. 이어서, 화자 분리부 (120) 는 결정된 화자의 음성 특성을 비교하여 단말기에 가까운 주화자를 결정할 수 있다. 주화자를 결정하는 구체적인 방법에 대해서는 도 4를 참조하여 후술한다.Specifically, the speaker separation unit 120 may analyze the recording voice file received from the recording voice file receiving unit 110 to separate the speaker based on the voice characteristics. That is, the speaker separator 120 determines one speaker in response to one voice characteristic, and when a plurality of voice characteristics exist, a plurality of speakers can be determined in accordance with the voice characteristic. Then, the speaker separation unit 120 can compare the determined speech characteristics of the speaker and determine a co-operator close to the terminal. A specific method for determining a coin-player will be described later with reference to Fig.

이어서, 대화 녹음 파일 생성부 (130) 는 녹음 음성 파일 각각에서 주화자의 음성에 대응하는 음성 구간을 추출하여 대화 녹음 파일을 생성한다 (S23).Then, the conversation recording file generation unit 130 extracts a speech interval corresponding to the voice of the main character in each of the recording voice files, and generates a conversation recording file (S23).

구체적으로, 대화 녹음 파일 생성부 (130) 는 화자 분리부 (120) 에서 결정한 주화자를 기초로 녹음 음성 파일에서 주화자의 음성에 대응하는 음성 구간만을 구분할 수 있다. 즉, 대화 녹음 파일 생성부 (130) 는 주화자의 음성에 대응하는 음성 구간을 녹음 음성 파일 각각으로부터 분리할 수 있다. 여기서, 대화 녹음 파일 생성부 (130) 는 녹음 음성 파일 각각에서 주화자의 음성의 성량을 동일하게 일치시킬 수 있다. 이어서, 대화 녹음 파일 생성부 (130) 는 주화자의 음성 구간에 대응하는 녹음 음성 파일을 추출하고 대화 진행 시간에 대응시켜 대화 녹음 파일로 통합할 수 있다. 이에 따라, 대화 녹음 파일 생성부 (130) 는 주화자의 음성에 대응하는 음성 구간을 녹음 음성 파일 각각으로부터 분리하고 추출하여 하나의 대화 녹음 파일을 생성할 수 있다. 대화 녹음 파일 생성부 (130) 가 생성할 수 있는 대화 녹음 파일에 대해서는 도 3을 참조하여 후술한다.Specifically, the conversation recording file generation unit 130 can distinguish only the voice interval corresponding to the voice of the caller in the recorded voice file based on the caller determined by the speaker separation unit 120. [ That is, the conversation recording file generation unit 130 can separate the voice interval corresponding to the voice of the co-operator from each of the recorded voice files. Here, the conversation recording file generation unit 130 can equally match the voice of the main voice in each recorded voice file. Then, the conversation recording file generation unit 130 extracts the recording voice file corresponding to the voice section of the co-owner and integrates the recording voice file into the conversation recording file in correspondence with the conversation progress time. Accordingly, the conversation recording file generation unit 130 can separate a voice interval corresponding to a voice of a coin from each recording voice file, and extract the voice interval to generate one conversation recording file. The conversation recording file that can be generated by the conversation recording file creating unit 130 will be described later with reference to FIG.

또는, 대화 녹음 파일 생성부 (130) 는 녹음 음성 파일 각각의 주화자의 음성에 대응하는 음성 구간을 제외한 나머지 음성 구간의 성량을 매우 작게 줄이거나 부화자의 음성을 없앨 수 있다. 이어서, 대화 녹음 파일 생성부 (130) 는 녹음 음성 파일 각각마다 주화자의 음성만을 포함하는 주화자 녹음 파일을 생성할 수 있다. 대화 녹음 파일 생성부 (130) 가 생성할 수 있는 주화자 녹음 파일에 대해서는 도 5를 참조하여 후술한다.Alternatively, the conversation recording file creation unit 130 may reduce the content of the remaining voice sections except for the voice section corresponding to the voice of each of the recorded voice files to a very small size, or may eliminate the voice of the eponym. Then, the conversation recording file generation unit 130 can generate a caller recording file including only the voice of the caller for each recorded voice file. A caller recording file that the conversation recording file generating unit 130 can generate will be described later with reference to FIG.

이어서, 대화록 파일 생성부 (140) 는 대화 녹음 파일을 음성 인식하여 텍스트로 변환된 대화록 파일을 생성한다 (S24). Next, the conversation file generation unit 140 recognizes the conversation recording file and generates a conversation file converted into text (S24).

구체적으로, 대화록 파일 생성부 (140) 는 대화 녹음 파일을 음성 인식하여 텍스트로 변환시킬 수 있다. 즉, 대화록 파일 생성부 (140) 는 음성을 텍스트로 변환시킬 수 있는 음성 인식 알고리즘을 포함하여 텍스트로 이루어진 대화록 파일을 생성할 수 있다. 여기서, 음성 인식 알고리즘은 기본적으로 사용자가 발성한 음성을 전자장치가 해석해 그 내용을 텍스트로 인식하는 작업 또는 알고리즘을 의미한다. 구체적으로, 사용자가 발성한 음성의 파형이 전자장치에 입력되면, 음향 모델 등을 참조하여 음성파형을 분석함으로써, 음성패턴 정보가 획득될 수 있다. 그리고, 획득된 음성패턴 정보가 식별정보와 비교됨으로써, 식별정보에서 일치 확률이 가장 높은 텍스트가 인식될 수 있다. 즉, 대화록 파일 생성부 (140) 는 음성 인식 알고리즘을 통해 대화 녹음 파일을 녹취하여 대화록 파일을 자동으로 생성할 수 있다. 대화록 파일 생성부 (140) 는 대화 녹음 파일의 수에 대응하여 대화록 파일을 생성할 수 있다.Specifically, the conversation file generation unit 140 can recognize the conversation recording file as speech and convert it into text. That is, the conversation file generation unit 140 may generate a conversation file including text by including a speech recognition algorithm capable of converting speech into text. Here, the speech recognition algorithm basically means a task or an algorithm in which an electronic device interprets a voice uttered by a user and recognizes the contents as text. Specifically, when a waveform of a voice uttered by a user is input to an electronic device, voice pattern information can be obtained by analyzing a voice waveform with reference to an acoustic model or the like. Then, the obtained voice pattern information is compared with the identification information, so that the text having the highest probability of matching in the identification information can be recognized. That is, the conversation file generation unit 140 can automatically generate the conversation file by recording the conversation recording file through the speech recognition algorithm. The conversation file generation unit 140 can generate the conversation file in correspondence with the number of conversation recording files.

이에 따라, 대화록 자동 생성 서버 (100) 는 대화에 참여 중인 복수의 단말기로부터 녹음 음성 파일을 수신하여 하나의 통합된 대화록 파일을 자동을 생성할 수 있고, 대화 음성 파일을 개별적으로 생성하여 단말기마다 대화록 파일을 자동으로 생성할 수도 있다.Accordingly, the conversation list automatic generation server 100 can automatically generate a single integrated conversation file by receiving a recording voice file from a plurality of terminals participating in a conversation, individually generating conversation voice files, You can also create the file automatically.

도 3은 본 발명의 일 실시예에 따른 대화록 자동 생성 방법에 따라 대화 녹음 파일 및 대화록 파일을 생성하는 방법을 예시적으로 도시한 것이다.FIG. 3 exemplarily shows a method of generating a conversation recording file and a conversation record file according to a method for automatically generating a conversation list according to an embodiment of the present invention.

도 3을 참조하면, 제1 녹음 음성 파일 (310) 은 마스터 단말기 (210) 로부터 수신한 녹음 음성 파일이고, 제2 녹음 음성 파일 (321) 은 제1 슬레이브 단말기 (221) 로부터 수신한 녹음 음성 파일이고, 제3 녹음 음성 파일 (322) 은 제2 슬레이브 단말기 (222) 로부터 수신한 녹음 음성 파일이고, 제4 녹음 음성 파일 (323) 은 제3 슬레이브 단말기 (223) 로부터 수신한 녹음 음성 파일이고, 제5 녹음 음성 파일 (324) 은 제4 슬레이브 단말기 (224) 로부터 수신한 녹음 음성 파일이다.3, the first recording audio file 310 is a recording voice file received from the master terminal 210, the second recording voice file 321 is a recording voice file received from the first slave terminal 221, The third recording audio file 322 is the recording voice file received from the second slave terminal 222 and the fourth recording voice file 323 is the recording voice file received from the third slave terminal 223, The fifth recording audio file 324 is a recording audio file received from the fourth slave terminal 224. [

또한, 대화 특징 정보는 대화참석자가 단말기를 통해 추가적으로 입력한 정보로서, 녹음 음성 파일 수신부 (110) 는 대화 특징 정보를 녹음 음성 파일과 함께 수신할 수 있다. 구체적으로, 제1 대화 특징 정보 (351) 는 제1 녹음 음성 파일 (310) 에 표시된 대화 메모 정보 및 음성 구간 마킹 정보를 포함한다. 마찬가지로, 제2 대화 특징 정보 (352) 는 제2 녹음 음성 파일 (321) 에 표시된 음성 구간 마킹 정보를 포함하고, 제3 대화 특징 정보 (353) 는 제4 녹음 음성 파일 (323) 에 표시된 대화 메모 정보 및 음성 구간 마킹 정보를 포함한다. 예를 들어, 제1 대화 특징 정보 (351) 는 제1 녹음 음성 파일 (310) 의 주화자의 음성 구간에 표시된 음성 구간 마킹 정보와 ‘요약 정리’라는 대화 메모 정보를 포함하고, 제2 대화 특징 정보 (352) 는 제2 녹음 음성 파일 (321) 의 주화자의 음성 구간에 표시된 음성 구간 마킹 정보를 포함하고, 제3 대화 특징 정보 (353) 는 제4 녹음 음성 파일 (323) 의 주화자의 음성 구간에 표시된 음성 구간 마킹 정보와 ‘핵심 문제점 설명’이라는 대화 메모 정보를 포함한다. In addition, the conversation characteristic information may be information input by the conversation participant through the terminal, and the recording voice file receiving unit 110 may receive the conversation characteristic information together with the recording voice file. Specifically, the first conversation characteristic information 351 includes conversation note information and voice interval marking information displayed in the first recording voice file 310. [ Similarly, the second conversation characteristic information 352 includes the speech interval marking information displayed in the second recording speech file 321, and the third conversation characteristic information 353 includes the speech interval marking information displayed in the conversation note 323 displayed in the fourth recording speech file 323. [ Information and voice interval marking information. For example, the first dialog feature information 351 includes the speech section marking information displayed in the voice section of the main voice of the first voice recording file 310, and the dialog memo information called the 'summary summary' The third conversation characteristic information 353 includes the voice interval marking information displayed in the voice interval of the main voice of the second voice recording file 321 and the third voice conversation characteristic information 353 includes the voice interval marking information And includes speech segment marking information that is displayed and conversation memo information that is 'core problem description'.

이어서, 화자 분리부 (120) 가 녹음 음성 파일 (310, 321, 322, 323, 324) 각각에서 주화자를 결정하고, 대화 녹음 파일 생성부 (130) 는 결정된 주화자의 음성 구간에 대응하는 녹음 음성 파일 부분을 추출하여 대화 진행 시간에 대응시켜 하나의 대화 녹음 파일 (180) 로 통합한다. 즉, 대화록 자동 생성 서버 (100) 는 대화 시작과 대화 종료 시점에 맞춰 여러 개의 녹음 음성 파일 (310, 321, 322, 323, 324) 로부터 통합된 대화 녹음 파일 (180) 을 생성할 수 있다. 또한, 대화 녹음 파일 생성부 (130) 는 대화 녹음 파일 (180) 을 생성하면서, 녹음 음성 파일 (310, 321, 322, 323, 324) 각각에 표시된 대화 특징 정보 (351, 352, 353) 를 대화 녹음 파일 (180) 에서의 통합 대화 특징 정보 (181, 182, 183) 로 변환하여 대화 녹음 파일 (180) 에 포함시킬 수 있다. Subsequently, the speaker separator 120 determines a main character in each of the recorded voice files 310, 321, 322, 323, and 324, and the voice recording file generation unit 130 generates a voice recording file And combines them into one conversation recording file 180 in correspondence with the conversation progress time. That is, the conversation list automatic generation server 100 may generate a combined conversation recording file 180 from a plurality of recording voice files 310, 321, 322, 323, and 324 in accordance with the conversation start time and the conversation end time. The conversation recording file generation unit 130 generates the conversation recording file 180 by displaying the conversation characteristic information 351, 352, and 353 displayed on each of the recorded audio files 310, 321, 322, 323, 181, 182, and 183 in the recording file 180 so as to be included in the conversation recording file 180. [

여기서, 대화 녹음 파일 생성부 (130) 는 통합된 대화 녹음 파일 (180) 에서 주화자를 구분하는 것이 불가능한 음성 구간에 대해서 알림 메시지를 생성할 수 있다. 예를 들어, 제5 녹음 음성 파일 (324) 의 주화자의 음성 구간인 ‘⑤’는 대화 녹음 파일 (180) 에서 제2 녹음 음성 파일 (321) 의 주화자의 음성 구간인 ‘②’와 제3 녹음 음성 파일 (322) 의 주화자의 음성 구간인 ‘③’과 중첩된다. 이에 따라, 대화 녹음 파일 생성부 (130) 는 대화 녹음 파일 (180) 에서 ‘⑤’에 대응하는 제5 녹음 음성 파일 (324) 의 주화자를 구분하는 것이 불가능하거나 매우 어려우므로, 대화 녹음 파일 (180) 에 해당 음성 구간에 대응하여 알림 메시지를 ‘!’로 생성하여 표시할 수 있다. 대화 녹음 파일 생성부 (130) 는 알림 메시지도 대화 녹음 파일 (180) 에서의 통합 대화 특징 정보 (184) 로 변환하여 대화 녹음 파일 (180) 에 포함시킬 수 있다. Here, the conversation recording file generation unit 130 can generate a notification message for a voice section in which it is not possible to distinguish a co-operator from the integrated conversation recording file 180. [ For example, '5', which is the voice section of the co-ordinator of the fifth voice recording file 324, is the voice recording interval of '2', which is the voice range of the main voice of the second voice recording file 321, Is overlapped with the voice section '③' of the voice caller 322. Accordingly, the conversation recording file creation unit 130 can not distinguish the co-owner of the fifth recording audio file 324 corresponding to '5' in the conversation recording file 180, ) In response to the voice interval, and display the notification message as '!'. The conversation recording file generation unit 130 may convert the notification message into the integrated conversation characteristic information 184 in the conversation recording file 180 and include it in the conversation recording file 180. [

이어서, 대화록 파일 생성부 (140) 는 음성 인식 알고리즘을 통해 텍스트로 이루어진 대화록 파일 (190) 을 생성할 수 있다. 대화록 파일 (190) 은 대화 녹음 파일 (180) 에 대응하여 생성되고, 대화 녹음 파일 (180) 이 복수인 경우에는 복수의 대화록 파일 (190) 이 생성될 수 있다. 대화 녹음 파일이 복수인 경우에 대해서는 도 5를 참조하여 후술한다.Next, the conversation file generation unit 140 may generate the conversation file 190 composed of text through a speech recognition algorithm. The conversation file 190 is generated in correspondence with the conversation recording file 180. In the case where the conversation recording file 180 is plural, a plurality of conversation file 190 may be generated. The case where a plurality of conversation recording files are present will be described later with reference to Fig.

이에 따라, 대화록 자동 생성 서버 (100) 는 복수의 단말기로부터 수신한 녹음 음성 파일에서 주화자를 결정하여 주화자에 대응하는 음성 파일로만 이루어진 대화 녹음 파일을 생성하고, 대화 녹음 파일을 기초로 자동으로 대화록 파일을 생성할 수 있다.Accordingly, the conversation list automatic generation server 100 determines a main character in the recording voice file received from a plurality of terminals, generates a conversation recording file composed only of a voice file corresponding to the main character, File can be generated.

도 4는 본 발명의 일 실시예에 따른 대화록 자동 생성 방법에 따라 녹음 음성 파일에서 주화자 및 부화자를 구분하는 방법을 설명하기 위해 예시적으로 도시한 것이다.4 illustrates an example of a method for distinguishing a coin and a hatched person in a recorded voice file according to a method for automatically generating a conversation list according to an embodiment of the present invention.

도 4를 참조하면, 화자 분리부 (120) 는 녹음 음성 파일에서 음성 특성을 기초로 화자를 분리하고, 복수의 화자 중 주화자를 결정할 수 있다. 구체적으로, 화자 분리부 (120) 는 녹음 음성 파일마다 음성 특성을 분석하여 음성 특성이 상이한 음성 구간이 존재하는지 판단할 수 있고, 음성 특성이 상이한 음성 구간에서는 상이한 음성 특성의 수에 따라 상이한 화자가 존재함을 결정할 수 있다. 이에 따라, 하나의 녹음 음성 파일에 복수의 화자의 음성이 포함된 경우, 화자 분리부 (120) 는 음성 특성을 기초로 화자를 분리할 수 있다. 예를 들어, 화자 분리부 (120) 는 제1 녹음 음성 파일 (310) 을 분석하여 제1 녹음 음성 파일 (310) 에 포함된 음성 특성이 구분 가능한지 판단할 수 있다. 이에 따라, 화자 분리부 (120) 는 제1 녹음 음성 파일 (310) 을 분석하여 구분된 음성 특성을 기초로 음성 특성에 대응하는 제1 화자 및 제2 화자를 결정하여 화자를 분리할 수 있다.Referring to FIG. 4, the speaker separation unit 120 can separate the speaker based on the voice characteristics in the recorded voice file, and determine a co-operator among the plurality of speakers. Specifically, the speaker separation unit 120 may analyze the voice characteristics of each recorded voice file to determine whether there is a voice section having a different voice characteristic. In a voice section having different voice characteristics, Can be determined. Accordingly, when a plurality of speakers are included in one recording voice file, the speaker separator 120 can separate the speakers based on the voice characteristics. For example, the speaker separator 120 may analyze the first recorded voice file 310 to determine whether voice characteristics included in the first recorded voice file 310 can be distinguished. Accordingly, the speaker separator 120 can analyze the first recorded voice file 310 and determine the first speaker and the second speaker corresponding to the voice characteristics based on the separated voice characteristics, thereby separating the speaker.

이어서, 화자 분리부 (120) 는 결정된 화자의 음성 특성 중 최대 성량을 비교하여 최대 성량 구간에 대응하는 음성 특성에 대응하는 화자를 주화자로 결정할 수 있다. 예를 들어, 화자 분리부 (120) 는 제1 녹음 음성 파일 (310) 에서 ‘최대 성량 구간’을 결정할 수 있고, ‘최대 성량 구간’에 대응하는 화자를 주화자로 결정할 수 있다. 이에 따라, 화자 분리부 (120) 는 제1 화자 및 제2 화자 중에서 최대 성량 구간에 대응하는 화자인 제1 화자를 주화자로 결정할 수 있다.Then, the speaker separator 120 compares the maximum amount of the speech characteristics of the determined speaker, and can determine a speaker corresponding to the speech characteristic corresponding to the maximum-amount interval as a co-operator. For example, the speaker separator 120 may determine a 'maximum content interval' in the first recording audio file 310 and may determine a speaker corresponding to the 'maximum content interval' as a coin player. Accordingly, the speaker separation unit 120 can determine the first speaker, which is a speaker corresponding to the maximum content interval, as the main speaker from among the first speaker and the second speaker.

또한, 화자 분리부 (120) 는 주화자를 결정하는데 대화에 참여하는 단말기들로부터 수신한 음성 방향 정보를 참조할 수 있다. 구체적으로, 음성 방향 정보는 대화에 참여하는 단말기들에서 복수의 마이크를 통해 획득될 수 있다. 이에 따라, 대화에 참여하는 단말기들은 음성 방향 정보를 생성할 수 있고, 화자 분리부 (120) 는 음성 방향 정보를 기초로 주화자를 결정하는데 참조할 수 있다. 즉, 음성 방향 정보를 통해 화자 분리부 (120) 는 주화자를 보다 정확하게 결정하여 대화 녹음 파일 생성부 (130) 는 높은 품질의 대화 녹음 파일을 생성할 수 있다. In addition, the speaker separation unit 120 may refer to the voice direction information received from the terminals participating in the conversation in determining the co-operator. Specifically, the voice direction information can be acquired through a plurality of microphones in the terminals participating in the conversation. Accordingly, the terminals participating in the conversation can generate the voice direction information, and the speaker separation unit 120 can refer to the determination of the caller based on the voice direction information. That is, the speaker separator 120 determines the co-ordinator more accurately through the voice direction information, and the conversation recording file generation unit 130 can generate a high quality conversation recording file.

도 5는 본 발명의 다른 실시예에 따른 대화록 자동 생성 방법에 따라 대화 녹음 파일을 생성하는 방법을 예시적으로 도시한 것이다. 도 5는 도 3과 다른 실시예에 따라 대화 녹음 파일을 생성하는 방법을 예시적으로 도시한 것으로서, 도 3을 참조하여 이미 설명된 구성요소에 대한 중복 설명을 생략한다.5 illustrates an exemplary method of generating a conversation recording file according to a method for automatically generating a conversation list according to another embodiment of the present invention. FIG. 5 exemplarily shows a method of generating a conversation recording file according to an embodiment different from that of FIG. 3, and redundant description of the components already described with reference to FIG. 3 is omitted.

도 5를 참조하면, 대화 녹음 파일 생성부 (130) 는 녹음 음성 파일 (310, 321, 322, 323, 324) 로부터 각각 주화자의 음성만을 포함하는 주화자 녹음 파일 (510, 521, 522, 523, 524) 을 생성할 수 있다. 구체적으로, 대화 녹음 파일 생성부 (130) 는 녹음 음성 파일 (310, 321, 322, 323, 324) 각각에서 주화자를 결정하여, 주화자의 음성 구간에 대응하는 음성만을 남겨두고, 주화자의 음성 구간을 제외한 나머지 음성 구간에 대응하는 음성을 제거하거나 음성의 성량을 주화자의 음성의 성량보다 작게 조정한다. 이에 따라, 대화 녹음 파일 생성부 (130) 는 주화자의 음성만을 포함하는 주화자 녹음 파일 (510, 521, 522, 523, 524) 을 생성할 수 있다.5, the conversation recording file generation unit 130 generates the conversation recording files 510, 521, 522, 523, and 523 including only the voice of the main voice from the voice recording files 310, 321, 322, 323, 524 < / RTI > More specifically, the conversation recording file generation unit 130 determines a co-player in each of the recorded voice files 310, 321, 322, 323, and 324, leaving only the voice corresponding to the voice range of the co- The voice corresponding to the remaining voice segments is removed or the voice quality is adjusted to be smaller than the voice quality of the main voice. Accordingly, the conversation recording file generation unit 130 can generate the caller recording files 510, 521, 522, 523, and 524 including only the voice of the caller.

이에 따라, 대화록 자동 생성 서버 (100) 는 복수의 단말기 (210, 221, 222, 223, 224) 로부터 녹음된 복수의 녹음 음성 파일 (310, 321, 322, 323, 324) 로부터 복수의 주화자 녹음 파일 (510, 521, 522, 523, 524) 을 생성할 수 있고, 복수의 주화자 녹음 파일 (510, 521, 522, 523, 524) 을 각각 음성 인식하여 주화자 녹음 파일 (510, 521, 522, 523, 524) 각각에 대응하는 복수의 대화록 파일을 생성할 수도 있다. 즉, 대화록 자동 생성 서버 (100) 는 대화에 참여하는 단말기의 수에 따라 대화록 파일을 자동으로 생성할 수도 있고, 하나의 통합된 대화록 파일을 자동으로 생성할 수도 있다. Accordingly, the conversation list automatic generation server 100 receives a plurality of recorded voice files 310, 321, 322, 323, and 324 recorded from a plurality of terminals 210, 221, 222, 223, 521, 522, 523, and 524, and recognizes the plurality of caller recording files 510, 521, 522, 523, and 524 by voice recognition to record the caller recording files 510, 521, 522 , 523, and 524, respectively. That is, the conversation list automatic generation server 100 may automatically generate a convergence file according to the number of terminals participating in the conversation, or may automatically generate a single convergence file.

대화록 자동 생성 서버 (100) 는 대화를 위해 준비된 특수 장치 없이, 대화참석자 개인이 소유하고 있는 단말기를 통해 녹음 음성 파일을 수신하여 자동으로 대화 녹음 파일을 생성하고, 음성 인식을 통해 자동으로 대화록 파일을 생성할 수 있다. 이에 따라, 별도의 장비 없이도 대화참석자의 단말기만으로 언제 어디서든지 간편하게 대화를 진행할 수 있고, 화자 분리와 음성 인식을 통해 대화록을 자동으로 생성하여 대화록 녹취 및 작성에 소비되는 시간을 절약할 수 있다. The conversation list automatic generation server 100 automatically receives the recording voice file through the terminal owned by the individual of the conversation participant and automatically creates the conversation recording file without special apparatus prepared for the conversation, Can be generated. Accordingly, it is possible to easily conduct conversation anytime and anywhere with only the terminal of the conversation attendee without any additional equipment, and the conversation record can be automatically generated through speaker separation and speech recognition, thereby saving time spent in conversation recording and creation.

본 명세서에서, 각 블록 또는 각 단계는 특정된 논리적 기능 (들) 을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또한, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.In this specification, each block or each step may represent a part of a module, segment or code that includes one or more executable instructions for executing the specified logical function (s). It should also be noted that in some alternative embodiments, the functions mentioned in the blocks or steps may occur out of order. For example, two blocks or steps shown in succession may in fact be performed substantially concurrently, or the blocks or steps may sometimes be performed in reverse order according to the corresponding function.

본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서에 의해 실행되는 하드웨어, 소프트웨어 모듈 또는 그 2 개의 결합으로 직접 구현될 수도 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM 또는 당업계에 알려진 임의의 다른 형태의 저장 매체에 상주할 수도 있다. 예시적인 저장 매체는 프로세서에 커플링되며, 그 프로세서는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로 (ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.The steps of a method or algorithm described in connection with the embodiments disclosed herein may be embodied directly in hardware, in a software module executed by a processor, or in a combination of the two. The software module may reside in a RAM memory, a flash memory, a ROM memory, an EPROM memory, an EEPROM memory, a register, a hard disk, a removable disk, a CD-ROM or any other form of storage medium known in the art. An exemplary storage medium is coupled to the processor, which is capable of reading information from, and writing information to, the storage medium. Alternatively, the storage medium may be integral with the processor. The processor and the storage medium may reside within an application specific integrated circuit (ASIC). The ASIC may reside within the user terminal. Alternatively, the processor and the storage medium may reside as discrete components in a user terminal.

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형실시될 수 있다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.Although the embodiments of the present invention have been described in detail with reference to the accompanying drawings, it is to be understood that the present invention is not limited to those embodiments and various changes and modifications may be made without departing from the scope of the present invention. . Therefore, the embodiments disclosed in the present invention are intended to illustrate rather than limit the scope of the present invention, and the scope of the technical idea of the present invention is not limited by these embodiments. Therefore, it should be understood that the above-described embodiments are illustrative in all aspects and not restrictive. The scope of protection of the present invention should be construed according to the following claims, and all technical ideas within the scope of equivalents should be construed as falling within the scope of the present invention.

100 대화록 자동 생성 서버
110 녹음 음성 파일 수신부
120 화자 분리부
130 대화 녹음 파일 생성부
140 대화록 파일 생성부
180 대화 녹음 파일
181 제1 통합 대화 특징 정보
182 제2 통합 대화 특징 정보
183 제3 통합 대화 특징 정보
184 제4 통합 대화 특징 정보
190 대화록 파일
210 마스터 단말기
221 제1 슬레이브 단말기
222 제2 슬레이브 단말기
223 제3 슬레이브 단말기
224 제4 슬레이브 단말기
310 제1 녹음 음성 파일
321 제2 녹음 음성 파일
322 제3 녹음 음성 파일
323 제4 녹음 음성 파일
324 제5 녹음 음성 파일
351 제1 대화 특징 정보
352 제2 대화 특징 정보
353 제3 대화 특징 정보
510 제1 주화자 녹음 파일
521 제2 주화자 녹음 파일
522 제3 주화자 녹음 파일
523 제4 주화자 녹음 파일
524 제5 주화자 녹음 파일
100 auto-generated conversation server
110 Recording voice file receiver
120 speaker separation unit
130 Conversation Recording File Generation Unit
140 Conversation File Creation Unit
180 conversation recording files
181 First Integrated Conversation Feature Information
182 2nd integrated conversation feature information
183 3rd integrated conversation feature information
184 Fourth Unified Talk Feature Information
190 Conversation file
210 master terminal
221 first slave terminal
222 second slave terminal
223 Third slave terminal
224 fourth slave terminal
310 1st recorded voice file
321 Second recording voice file
322 Third recording voice file
323 Fourth recording voice file
324 Fifth Record Voice File
351 First conversation feature information
352 Second Talk Feature Information
353 Third Talk Feature Information
510 First Recorder Recording File
521 Secondary Recorder Recording File
522 Third Coordinator Recording File
523 Fourth caller recording file
524 Fifth caller recording file

Claims (13)

마스터(master) 단말기, 및 상기 마스터 단말기와 통신 가능하도록 연결된 슬레이브(slave) 단말기 각각에서 녹음된 녹음 음성 파일을 수신하는 단계;
상기 마스터 단말기 및 상기 슬레이브 단말기 각각에 대응하는 상기 녹음 음성 파일을 분석하여 상기 녹음 음성 파일마다 주(main)화자 및 부(sub)화자를 구분하는 단계;
상기 녹음 음성 파일 각각에서 상기 주화자의 음성에 대응하는 음성 구간을 추출하여 대화 녹음 파일을 생성하는 단계; 및
상기 대화 녹음 파일을 음성 인식하여 텍스트(text)로 변환된 대화록 파일을 생성하는 단계를 포함하는 것을 특징으로 하는, 대화록 자동 생성 방법.
Receiving a recorded voice file from each of a master terminal and a slave terminal communicably connected to the master terminal;
Analyzing the recorded voice file corresponding to each of the master terminal and the slave terminal to divide a main speaker and a sub speaker for each recorded voice file;
Extracting a voice section corresponding to the voice of the main character in each of the voice recording files to generate a voice recording file; And
And generating a conversation file converted into a text by voice recognition of the conversation recording file.
제1항에 있어서,
상기 녹음 음성 파일을 수신하는 단계는,
상기 마스터 단말기 또는 상기 슬레이브 단말기로부터 대화 특징 정보를 수신하는 단계를 포함하고,
상기 대화 특징 정보는 상기 마스터 단말기 또는 상기 슬레이브 단말기에 입력된 대화 메모 정보 및 음성 구간 마킹(marking) 정보 중 적어도 하나를 포함하는 것을 특징으로 하는, 대화록 자동 생성 방법.
The method according to claim 1,
Wherein the step of receiving the recorded voice file comprises:
Receiving conversation feature information from the master terminal or the slave terminal,
Wherein the conversation feature information includes at least one of conversation memo information and voice interval marking information input to the master terminal or the slave terminal.
제1항에 있어서,
상기 주화자 및 부화자를 구분하는 단계는,
상기 녹음 음성 파일을 분석하여 분리된 음성 특성을 기초로 상기 음성 특성에 대응하는 화자를 결정하는 단계; 및
상기 녹음 음성 파일에서 상기 음성 특성 중 성량이 최대인 음성 구간에 대응하는 화자를 주화자로 결정하는 단계를 포함하는 것을 특징으로 하는, 대화록 자동 생성 방법.
The method according to claim 1,
The step of distinguishing the coin and the hatched person comprises:
Analyzing the recorded voice file to determine a speaker corresponding to the voice characteristic based on the separated voice characteristic; And
And determining a speaker corresponding to a voice section having a maximum voice characteristic as a main character in the recorded voice file.
제3항에 있어서,
상기 대화 녹음 파일을 생성하는 단계는,
상기 녹음 음성 파일 각각에 대응하는 상기 주화자의 음성 각각의 성량을 동일하게 일치시키는 단계; 및
상기 주화자의 음성 구간에 대응하는 녹음 음성 파일을 추출하여 추출된 상기 녹음 음성 파일을 상기 대화 진행 시간에 대응시켜 대화 녹음 파일로 통합하는 단계를 포함하는 것을 특징으로 하는, 대화록 자동 생성 방법.
The method of claim 3,
Wherein the step of generating the conversation recording file comprises:
Matching the amounts of each of the voice of the main speaker corresponding to each of the recorded voice files equally; And
Extracting a recorded voice file corresponding to the voice section of the main character and integrating the extracted voice file into a conversation recording file corresponding to the conversation progress time.
제3항에 있어서,
상기 대화 녹음 파일을 생성하는 단계는,
상기 주화자를 구분하는 것이 불가능한 음성 구간에 대응하여 알림 메시지를 생성하는 단계를 포함하는 것을 특징으로 하는, 대화록 자동 생성 방법.
The method of claim 3,
Wherein the step of generating the conversation recording file comprises:
And generating a notification message corresponding to a voice section in which it is not possible to distinguish the caller.
제1항에 있어서,
상기 대화 녹음 파일을 생성하는 단계는,
상기 주화자의 음성 구간에 대응하는 음성을 추출하여 상기 마스터 단말기 또는 상기 슬레이브 단말기마다 상기 주화자의 음성만을 포함하는 주화자 녹음 파일을 생성하는 단계를 포함하는 것을 특징으로 하는, 대화록 자동 생성 방법.
The method according to claim 1,
Wherein the step of generating the conversation recording file comprises:
Extracting a voice corresponding to a voice interval of the main caller and generating a main caller recording file including only the voice of the main caller for each of the master terminal and the slave terminals.
마스터 단말기, 및 상기 마스터 단말기와 통신 가능하도록 연결된 슬레이브 단말기 각각에서 녹음된 녹음 음성 파일을 수신하는 녹음 음성 파일 수신부;
상기 마스터 단말기 및 상기 슬레이브 단말기 각각에 대응하는 상기 녹음 음성 파일을 분석하여 상기 녹음 음성 파일마다 주화자 및 부화자를 분리하는 화자 분리부;
상기 녹음 음성 파일 각각에서 상기 주화자의 음성에 대응하는 음성 구간을 추출하여 대화 녹음 파일을 생성하는 대화 녹음 파일 생성부; 및
상기 대화 녹음 파일을 음성 인식하여 텍스트로 변환된 대화록 파일을 생성하는 대화록 파일 생성부를 포함하는 것을 특징으로 하는, 대화록 자동 생성 장치.
A recording voice file receiving unit for receiving a recorded voice file from each of a master terminal and a slave terminal connected to be able to communicate with the master terminal;
A speaker separating unit for analyzing the recorded voice file corresponding to each of the master terminal and the slave terminal and separating a coin and a hatched person for each recorded voice file;
Extracting a voice section corresponding to the voice of the main character in each of the voice recording files to generate a voice recording file; And
And a conversation file generation unit for generating a conversation file converted into text by voice recognition of the conversation recording file.
제7항에 있어서,
상기 녹음 음성 파일 수신부는,
상기 마스터 단말기 또는 상기 슬레이브 단말기로부터 대화 특징 정보를 수신하고,
상기 대화 특징 정보는 상기 마스터 단말기 또는 상기 슬레이브 단말기에 입력된 대화 메모 정보 및 음성 구간 마킹 정보 중 적어도 하나를 포함하는 것을 특징으로 하는, 대화록 자동 생성 장치.
8. The method of claim 7,
Wherein the recording voice file receiver comprises:
Receiving the conversation characteristic information from the master terminal or the slave terminal,
Wherein the conversation feature information includes at least one of conversation note information and voice interval marking information input to the master terminal or the slave terminal.
제7항에 있어서,
상기 화자 분리부는,
상기 녹음 음성 파일을 분석하여 분리된 음성 특성을 기초로 상기 음성 특성에 대응하는 화자를 결정하고,
상기 녹음 음성 파일에서 상기 음성 특성 중 성량이 최대인 음성 구간에 대응하는 화자를 주화자로 결정하는 것을 특징으로 하는, 대화록 자동 생성 장치.
8. The method of claim 7,
Wherein the speaker separator comprises:
Analyzing the recorded voice file to determine a speaker corresponding to the voice characteristic based on the separated voice characteristic,
And determines a speaker corresponding to a voice section having a maximum voice characteristic as a main character in the recorded voice file.
제9항에 있어서,
상기 대화 녹음 파일 생성부는,
상기 녹음 음성 파일 각각에 대응하는 상기 주화자의 음성 각각의 성량을 동일하게 일치시키고,
상기 주화자의 음성 구간에 대응하는 녹음 음성 파일을 추출하여 추출된 상기 녹음 음성 파일을 상기 대화 진행 시간에 대응시켜 대화 녹음 파일로 통합하는 것을 특징으로 하는, 대화록 자동 생성 장치.
10. The method of claim 9,
Wherein the conversation recording file generation unit comprises:
And the voice of each of the voice of the main character corresponding to each of the voice recording files is equally matched,
Extracts a recorded voice file corresponding to a voice section of the main character and integrates the extracted voice file into a conversation recording file corresponding to the conversation progress time.
제9항에 있어서,
상기 대화 녹음 파일 생성부는,
상기 주화자를 구분하는 것이 불가능한 음성 구간에 대응하여 알림 메시지를 생성하는 것을 특징으로 하는, 대화록 자동 생성 장치.
10. The method of claim 9,
Wherein the conversation recording file generation unit comprises:
And generates a notification message corresponding to a voice section in which it is impossible to distinguish the caller.
제7항에 있어서,
상기 대화 녹음 파일 생성부는,
상기 주화자의 음성 구간에 대응하는 음성을 추출하여 상기 마스터 단말기 또는 상기 슬레이브 단말기마다 상기 주화자의 음성만을 포함하는 주화자 녹음 파일을 생성하는 것을 특징으로 하는, 대화록 자동 생성 장치.
8. The method of claim 7,
Wherein the conversation recording file generation unit comprises:
Extracts a voice corresponding to a voice interval of the caller, and generates a caller recording file including only the voice of the caller for each of the master terminal and the slave terminals.
마스터 단말기, 및 상기 마스터 단말기와 통신 가능하도록 연결된 슬레이브 단말기 각각에서 녹음된 녹음 음성 파일을 수신하고,
상기 마스터 단말기 및 상기 슬레이브 단말기 각각에 대응하는 상기 녹음 음성 파일을 분석하여 상기 녹음 음성 파일마다 주화자 및 부화자를 구분하고,
상기 녹음 음성 파일 각각에서 상기 주화자의 음성에 대응하는 음성 구간을 추출하여 대화 녹음 파일을 생성하고,
상기 대화 녹음 파일을 음성 인식하여 텍스트로 변환된 대화록 파일을 생성하는 것을 특징으로 하는, 대화록 자동 생성 방법을 제공하는 명령어들을 저장하는 컴퓨터 판독 가능 기록매체.
A master terminal, and a slave terminal connected to be able to communicate with the master terminal,
Wherein the voice recognition unit analyzes the recorded voice file corresponding to each of the master terminal and the slave terminal,
Extracting a voice section corresponding to the voice of the main character from each of the voice recording files to generate a voice recording file,
Wherein the conversation recording file is a voice recognition of the conversation recording file to generate a conversation file converted into text.
KR1020150032210A 2015-03-09 2015-03-09 Method and apparatus for generating conversation record automatically KR20160108874A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150032210A KR20160108874A (en) 2015-03-09 2015-03-09 Method and apparatus for generating conversation record automatically

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150032210A KR20160108874A (en) 2015-03-09 2015-03-09 Method and apparatus for generating conversation record automatically

Publications (1)

Publication Number Publication Date
KR20160108874A true KR20160108874A (en) 2016-09-21

Family

ID=57080002

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150032210A KR20160108874A (en) 2015-03-09 2015-03-09 Method and apparatus for generating conversation record automatically

Country Status (1)

Country Link
KR (1) KR20160108874A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106875946A (en) * 2017-03-14 2017-06-20 巨数创新(深圳)科技有限公司 Voice command interactive system
CN108231065A (en) * 2016-12-12 2018-06-29 株式会社速录抓吧 Multi-lingual person's speech recognition correction system
WO2021026617A1 (en) * 2019-08-15 2021-02-18 Imran Bonser Method and system of generating and transmitting a transcript of verbal communication
KR102269123B1 (en) * 2020-11-30 2021-06-24 주식회사 케이에스컨버전스 Non-face-to-face transcript automatic generation system
KR102287431B1 (en) * 2020-10-07 2021-08-09 주식회사 셀바스에이아이 Apparatus for recording meeting and meeting recording system
KR102549882B1 (en) * 2022-05-23 2023-06-30 브레인소프트주식회사 System and method for automatically generating meeting minutes based on voice recognition using multiple mobile phones

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108231065A (en) * 2016-12-12 2018-06-29 株式会社速录抓吧 Multi-lingual person's speech recognition correction system
US10276164B2 (en) 2016-12-12 2019-04-30 Sorizava Co., Ltd. Multi-speaker speech recognition correction system
CN106875946A (en) * 2017-03-14 2017-06-20 巨数创新(深圳)科技有限公司 Voice command interactive system
WO2021026617A1 (en) * 2019-08-15 2021-02-18 Imran Bonser Method and system of generating and transmitting a transcript of verbal communication
KR102287431B1 (en) * 2020-10-07 2021-08-09 주식회사 셀바스에이아이 Apparatus for recording meeting and meeting recording system
KR102269123B1 (en) * 2020-11-30 2021-06-24 주식회사 케이에스컨버전스 Non-face-to-face transcript automatic generation system
KR102549882B1 (en) * 2022-05-23 2023-06-30 브레인소프트주식회사 System and method for automatically generating meeting minutes based on voice recognition using multiple mobile phones
WO2023229321A1 (en) * 2022-05-23 2023-11-30 브레인소프트 주식회사 Automatic minutes creation system based on speech recognition using multiple mobile phones

Similar Documents

Publication Publication Date Title
US11699456B2 (en) Automated transcript generation from multi-channel audio
KR20160108874A (en) Method and apparatus for generating conversation record automatically
JP4085924B2 (en) Audio processing device
US8655654B2 (en) Generating representations of group interactions
US10637898B2 (en) Automatic speaker identification in calls
CN104123115B (en) Audio information processing method and electronic device
US10297257B2 (en) Voice information control method and terminal device
CN114097027A (en) Speaker attribution record generation
EP2922051A1 (en) Method, device, and system for classifying audio conference minutes
US20070263823A1 (en) Automatic participant placement in conferencing
WO2005069171A1 (en) Document correlation device and document correlation method
JPWO2010113438A1 (en) Speech recognition processing system and speech recognition processing method
US20210232776A1 (en) Method for recording and outputting conversion between multiple parties using speech recognition technology, and device therefor
JP2006301223A (en) System and program for speech recognition
WO2016187910A1 (en) Voice-to-text conversion method and device, and storage medium
JPWO2009107211A1 (en) Voice data question utterance extraction program, method and apparatus, and customer inquiry tendency estimation processing program, method and apparatus using voice data question utterance
CN113744742A (en) Role identification method, device and system in conversation scene
JP2018013742A (en) Speech summary creation assist device, speech summary creation assist method, and speech summary creation assist program
KR101592518B1 (en) The method for online conference based on synchronization of voice signal and the voice signal synchronization process device for online conference and the recoding medium for performing the method
JP5713782B2 (en) Information processing apparatus, information processing method, and program
KR102291113B1 (en) Apparatus and method for producing conference record
KR102472921B1 (en) User interfacing method for visually displaying acoustic signal and apparatus thereof
CN116472705A (en) Conference content display method, conference system and conference equipment
KR102134990B1 (en) Voice training system by analyzing section of frequency
JP2005308950A (en) Speech processors and speech processing system