KR20160060335A - Apparatus and method for separating of dialogue - Google Patents

Apparatus and method for separating of dialogue Download PDF

Info

Publication number
KR20160060335A
KR20160060335A KR1020140162456A KR20140162456A KR20160060335A KR 20160060335 A KR20160060335 A KR 20160060335A KR 1020140162456 A KR1020140162456 A KR 1020140162456A KR 20140162456 A KR20140162456 A KR 20140162456A KR 20160060335 A KR20160060335 A KR 20160060335A
Authority
KR
South Korea
Prior art keywords
conversation
speech recognition
recognition result
unit
dialogue
Prior art date
Application number
KR1020140162456A
Other languages
Korean (ko)
Other versions
KR102097710B1 (en
Inventor
김성묵
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020140162456A priority Critical patent/KR102097710B1/en
Publication of KR20160060335A publication Critical patent/KR20160060335A/en
Application granted granted Critical
Publication of KR102097710B1 publication Critical patent/KR102097710B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building

Abstract

The present invention relates to a dialogue separation method, and more particularly to a dialogue separation apparatus and a dialogue separation method therein, which can separate a dialogue from a voice recognition result text based on division between speakers using a language dictionary database previously constructed for each dialogue type. A dialogue separation apparatus according to an embodiment of the present invention may be configured to comprise: a voice recognition result reception unit which receives a voice recognition result text; a dialogue type determination unit which determines a dialogue type based on the voice recognition result text; a dialogue sentence separation unit which separates the voice recognition result text into a plurality of dialogue sentences using a previously constructed language dictionary database corresponding to the determined dialogue type; and a dialogue unit construction unit which forms the separated dialogue sentences into a dialogue unit based on division between speakers using the previously-constructed language dictionary database.

Description

대화 분리 장치 및 이에서의 대화 분리 방법{APPARATUS AND METHOD FOR SEPARATING OF DIALOGUE}[0001] APPARATUS AND METHOD FOR SEPARATING OF DIALOGUE [0002]

본 발명은 대화 분리 방법에 관한 것으로, 더욱 상세하게는 대화 유형별로 기 구축된 언어 사전 데이터베이스를 이용하여 음성 인식 결과 텍스트에서 화자의 구분에 따라 대화를 분리할 수 있는 대화 분리 장치 및 이에서의 대화 분리 방법에 관한 것이다. The present invention relates to a dialogue separating method, and more particularly, to a dialogue separating apparatus and a dialogue separating apparatus capable of separating a conversation according to a speaker's classification from a speech recognition result text using a pre- Separation method.

이 부분에 기술된 내용은 단순히 본 실시 예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.The contents described in this section merely provide background information on the present embodiment and do not constitute the prior art.

기술의 발달에 따라 최근 많은 분야에서 음성 인식 기술이 적용되고 있다. 음성 인식 기술은 사람이 발성하는 음성을 이해하여 컴퓨터가 다룰 수 있는 문자 정보로 변환하는 일련의 과정이라 할 수 있다. 일반적으로 음성 인식 결과는 텍스트 형태로 사용자에게 제공될 수 있는데, 음성 인식 결과에 따른 텍스트는 일련의 문자의 나열로, 복수의 화자가 대화에 참여하고 있는 경우 이를 구분하기 위해, 사용자가 직접 음성 인식 결과 텍스트를 확인하여 화자별로 문장을 구분해야 한다는 문제점이 있다. In recent years, speech recognition technology has been applied in many fields. Speech recognition technology is a series of processes for understanding human speech and converting it into character information that can be handled by a computer. In general, the speech recognition result can be provided to the user in the form of a text. The text according to the speech recognition result is a series of characters. In order to distinguish a plurality of speakers participating in a conversation, There is a problem that the sentence should be separated for each speaker by checking the resultant text.

이러한 문제점을 해결하기 위해 최근에는 화자의 음성 주파수 대역과 같이 화자별로 서로 다른 음성 고유의 특성을 이용하여 대화에 참여하는 화자를 구분하는 기술이 선보이고 있다. In order to solve such a problem, a technology for distinguishing a speaker participating in a conversation using a unique characteristic of each speaker such as a speaker's voice frequency band has been introduced.

그러나, 음성 고유의 특성을 이용하여 화자를 구분하는 방법은 고 사양의 음성 인식기를 요구하며 이는 비용의 증가를 야기한다는 문제점이 있다. However, a method of distinguishing a speaker using characteristics inherent to speech requires a high-quality speech recognizer, which causes a problem of increasing cost.

한국공개특허 제2008-0037402호, 2008년 4월 30일 공개 (명칭: 이동통신 단말기의 회의록 작성 방법)Korean Patent Publication No. 2008-0037402, published on April 30, 2008 (name: method of making minutes of mobile communication terminal)

본 발명은 상기한 종래의 문제점을 해결하기 위해 제안된 것으로서, 특히 대화 유형별로 기 구축된 언어 사전 데이터베이스를 이용하여 음성 인식 결과 텍스트에서 화자의 구분에 따라 대화를 분리할 수 있는 대화 분리 장치 및 이에서의 대화 분리 방법을 제공하는 데 목적이 있다. It is an object of the present invention to provide a speech separating apparatus and a speech separating apparatus capable of separating a conversation according to a speaker's classification from a speech recognition result text using a pre- The purpose of this paper is to provide a method of separating dialogue in

그러나, 이러한 본 발명의 목적은 상기의 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.However, the object of the present invention is not limited to the above-mentioned objects, and other objects not mentioned can be clearly understood from the following description.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 대화 분리 장치는 음성 인식 결과 텍스트를 수신하는 음성 인식 결과 수신부; 상기 음성 인식 결과 텍스트를 기초로 대화 유형을 결정하는 대화 유형 결정부; 상기 결정된 대화 유형에 해당하는 기 구축된 언어 사전 데이터베이스를 이용하여 상기 음성 인식 결과 텍스트를 복수의 대화 문장으로 분리하는 대화 문장 분리부; 및 상기 분리된 복수의 대화 문장을 상기 기 구축된 언어 사전 데이터베이스를 이용하여 화자의 구분에 따라 대화 유닛으로 구성하는 대화 유닛 구성부;를 포함하여 구성될 수 있다. According to an aspect of the present invention, there is provided a dialogue separating apparatus comprising: a speech recognition result receiving unit for receiving a speech recognition result text; A conversation type determination unit for determining a conversation type based on the speech recognition result text; A conversation sentence separating unit that separates the speech recognition result text into a plurality of conversation sentences using a pre-built language dictionary database corresponding to the determined conversation type; And a conversation unit constructing unit that constructs the separated plurality of conversation sentences as conversation units according to the speaker's classification using the pre-built language dictionary database.

이때, 상기 대화 유형 결정부는 상기 음성 인식 결과 텍스트에서 주요 키워드를 추출하고, 추출된 주요 키워드에 대응하여 기 설정된 대화 유형을 상기 음성 인식 결과 텍스트에 대한 대화 유형으로 결정할 수 있다. At this time, the conversation type determination unit may extract a main keyword from the speech recognition result text, and determine a predetermined conversation type corresponding to the extracted main keyword as a conversation type for the speech recognition result text.

이때, 상기 대화 유형 결정부는 상기 음성 인식 결과 텍스트에서 지정된 횟수 이상 추출된 키워드 또는 기 설정된 키워드를 주요 키워드로 선정하여 추출하되, 지정된 불용어에 해당하는 키워드를 제외하여 주요 키워드를 추출할 수 있다. At this time, the conversation type determination unit may extract a keyword or a preset keyword extracted from the speech recognition result text by a predetermined number of times or more as a main keyword, and extract a main keyword by excluding a keyword corresponding to the designated stopword.

아울러, 상기 언어 사전 데이터베이스는 기 정의된 대화 가이드라인과 이전 대화 예제 코퍼스를 이용하여 대화 유형별로 구축된 대화 유형 정보, 대화 패턴 정보, 어휘 정보 중 적어도 하나 이상을 포함할 수 있다. In addition, the language dictionary database may include at least one of conversation type information, dialog pattern information, and lexical information constructed for each conversation type using a previously defined conversation guidelines and a previous conversation example corpus.

여기서, 상기 대화 문장 분리부는 상기 언어 사전 데이터베이스의 대화 패턴 정보에 일치하는 대화 예제 코퍼스가 존재하는 경우, 해당 대화 예제 코퍼스를 대화 문장으로 분리하며, 일치하는 대화 예제 코퍼스가 존재하지 않을 경우, 상기 어휘 정보의 문장 시작 정보 또는 문장 끝 정보를 이용하여 상기 음성 인식 결과 텍스트를 복수의 대화 문장으로 분리할 수 있다. Here, if there is a conversation example corpus matching the conversation pattern information of the language dictionary database, the conversation sentence separating unit separates the conversation example corpus into conversation sentences, and if there is no cooperative conversation example corpus, The speech recognition result text may be divided into a plurality of conversation sentences using the sentence start information or the sentence end information of the information.

또한, 상기 대화 유닛 구성부는 상기 언어 사전 데이터베이스의 대화 패턴 정보를 이용하여, 상기 복수의 대화 문장을 화자의 구분에 따라 대화 유닛으로 구성하되, 상기 대화 패턴 정보를 이용하여 화자의 구분이 어려운 대화 문장은 상기 대화 문장을 구성하는 어휘 정보를 참조하여 대화 유닛으로 구성할 수 있다. The conversation unit constructing unit may use the conversation pattern information of the language dictionary database to configure the plurality of conversation sentences as conversation units according to the speaker's classification, Can be configured as a dialog unit by referring to the lexical information constituting the conversation sentence.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 대화 분리 방법은 대화 분리 장치가 음성 인식 결과 텍스트를 수신하는 단계; 상기 대화 분리 장치가 상기 음성 인식 결과 텍스트를 기초로 대화 유형을 결정하는 단계; 상기 대화 분리 장치가 상기 결정된 대화 유형에 해당하는 기 구축된 언어 사전 데이터베이스를 이용하여 상기 음성 인식 결과 텍스트를 복수의 대화 문장으로 분리하는 단계; 및 상기 대화 분리 장치가 상기 분리된 복수의 대화 문장을 상기 기 구축된 언어 사전 데이터베이스를 이용하여 화자의 구분에 따른 대화 유닛으로 구성하는 단계;를 포함하여 이뤄질 수 있다. According to another aspect of the present invention, there is provided a dialogue separation method comprising: receiving a speech recognition result text; The dialog separating device determining a conversation type based on the speech recognition result text; Separating the speech recognition result text into a plurality of conversation sentences using the pre-built language dictionary database corresponding to the determined conversation type; And configuring the conversation separating apparatus as a conversation unit based on the speaker's classification by using the pre-built language dictionary database as the separated plurality of conversation sentences.

이때, 상기 대화 유형을 결정하는 단계는 상기 대화 분리 장치가 상기 음성 인식 결과 텍스트에서 주요 키워드를 추출하는 단계; 및 상기 대화 분리 장치가 상기 추출된 주요 키워드에 대응하여 기 저장된 대화 유형을 확인하여 결정하는 단계;를 포함하여 이뤄질 수 있다. At this time, the step of determining the conversation type may include extracting a main keyword from the speech recognition result text by the dialog separating apparatus; And the dialog separating device checking and determining the previously stored conversation type corresponding to the extracted key keyword.

추가로 본 발명은 상술한 바와 같은 대화 분리 방법을 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체를 제공할 수 있다.Furthermore, the present invention can provide a computer-readable recording medium on which a program for executing the above-described conversation separation method is recorded.

본 발명의 대화 분리 장치 및 이에서의 대화 분리 방법에 의하면, 음성 인식 단계에서 음성 고유의 특성을 이용하여 대화의 화자를 구분하는 방식이 아니라, 음성 인식된 결과 텍스트를 대화 유형별로 기 구축된 언어 사전 데이터베이스를 이용하여 대화의 화자를 분리할 수 있게 된다. 이를 통해 본 발명은 고 사양의 음성 인식기를 이용하지 않더라도 보다 용이하게 대화에 참여하는 화자를 구분할 수 있게 된다. According to the dialog separating apparatus and the dialog separating method of the present invention, not the method of distinguishing the conversation speaker by using the characteristic inherent to the speech in the speech recognizing step, but the speech recognition result text is divided into the pre- It is possible to separate the speaker of the conversation using the dictionary database. Accordingly, the present invention can distinguish speakers who participate in conversation more easily without using a high-specification speech recognizer.

또한, 본 발명은 언어 사전 데이터베이스에 사용자 설정에 따라 다양한 대화 가이드라인 등의 다양한 대화 예제 코퍼스를 추가함으로써, 성능 향상이 가능하며, 다양한 도메인에 적용이 용이하다는 장점이 있다. In addition, the present invention adds various conversation example corpus such as various conversation guide lines to the language dictionary database according to the user setting, and has an advantage that performance can be improved and it is easy to apply to various domains.

이러한 본 발명을 통해 회의록, 고객 상담 내용 등 복수의 화자 간의 대화 내용을 보다 용이하게 기록하고 관리할 수 있게 된다. According to the present invention, it becomes possible to more easily record and manage conversation contents among a plurality of speakers, such as a minutes, a customer consultation contents, and the like.

아울러, 상술한 효과 이외의 다양한 효과들이 후술될 본 발명의 실시 예에 따른 상세한 설명에서 직접적 또는 암시적으로 개시될 수 있다.In addition, various effects other than the above-described effects can be directly or implicitly disclosed in the detailed description according to the embodiment of the present invention to be described later.

도 1은 본 발명의 실시 예에 따른 대화 분리 시스템의 주요 구성을 개략적으로 도시한 블록도이다.
도 2는 본 발명의 실시 예에 따른 대화 분리 장치의 주요 구성을 도시한 구성도이다.
도 3은 본 발명의 실시 예에 따른 대화 분리 방법을 설명하기 위한 흐름도이다.
도 4는 본 발명의 실시 예에 따른 대화 분리 방법을 설명하기 위한 예시도이다.
1 is a block diagram schematically showing a main configuration of a dialogue separating system according to an embodiment of the present invention.
2 is a block diagram showing a main configuration of a dialog separating apparatus according to an embodiment of the present invention.
3 is a flowchart illustrating a method of separating a conversation according to an embodiment of the present invention.
4 is a diagram illustrating an example of a dialogue separation method according to an embodiment of the present invention.

이하 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있는 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예에 대한 동작 원리를 상세하게 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 이는 불필요한 설명을 생략함으로써 본 발명의 핵심을 흐리지 않고 더욱 명확히 전달하기 위함이다. 또한 본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 하나, 이는 본 발명을 특정한 실시 형태로 한정하려는 것은 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. However, the detailed description of known functions and configurations incorporated herein will be omitted when it may unnecessarily obscure the subject matter of the present invention. This is to omit the unnecessary description so as to convey the key of the present invention more clearly without fading. While the invention is susceptible to various modifications and alternative forms, specific embodiments thereof are shown by way of example in the drawings and will herein be described in detail. However, it should be understood that the invention is not limited to the specific embodiments thereof, It is to be understood that the invention is intended to cover all modifications, equivalents, and alternatives falling within the spirit and scope of the invention.

또한, 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하기 위해 사용하는 것으로, 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용될 뿐, 상기 구성요소들을 한정하기 위해 사용되지 않는다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제2 구성요소는 제1 구성요소로 명명될 수 있고, 유사하게 제1 구성요소도 제2 구성요소로 명명될 수 있다.Also, terms including ordinal numbers such as first, second, etc. are used to describe various elements, and are used only for the purpose of distinguishing one element from another, Not used. For example, without departing from the scope of the present invention, the second component may be referred to as a first component, and similarly, the first component may also be referred to as a second component.

더하여, 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급할 경우, 이는 논리적 또는 물리적으로 연결되거나, 접속될 수 있음을 의미한다. 다시 말해, 구성요소가 다른 구성요소에 직접적으로 연결되거나 접속되어 있을 수 있지만, 중간에 다른 구성요소가 존재할 수도 있으며, 간접적으로 연결되거나 접속될 수도 있다고 이해되어야 할 것이다. In addition, when referring to an element as being "connected" or "connected" to another element, it means that it can be connected or connected logically or physically. In other words, it is to be understood that although an element may be directly connected or connected to another element, there may be other elements in between, or indirectly connected or connected.

또한, 본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 본 명세서에서 기술되는 "포함 한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.Also, the terminology used herein is for the purpose of describing particular embodiments only and is not intended to be limiting of the invention. The singular expressions include plural expressions unless the context clearly dictates otherwise. It is also to be understood that the terms such as " comprising "or" having ", as used herein, are intended to specify the presence of stated features, integers, It should be understood that the foregoing does not preclude the presence or addition of other features, numbers, steps, operations, elements, parts, or combinations thereof.

이제 본 발명의 실시 예에 따른 대화 분리 장치 및 이에서의 대화 분리 방법에 대하여 도면을 참조하여 상세하게 설명하도록 한다. 이때, 도면 전체에 걸쳐 유사한 기능 및 작용을 하는 부분에 대해서는 동일한 도면 부호를 사용하며, 이에 대한 중복되는 설명은 생략하기로 한다.Now, a dialog separating apparatus and a dialog separating method according to an embodiment of the present invention will be described in detail with reference to the drawings. Here, the same reference numerals are used for similar functions and functions throughout the drawings, and a duplicate description thereof will be omitted.

먼저 본 발명의 대화 분리 장치를 포함하는 대화 분리 시스템에 대해 설명하도록 한다. First, a dialog separating system including the dialog separating apparatus of the present invention will be described.

도 1은 본 발명의 실시 예에 따른 대화 분리 시스템의 주요 구성을 개략적으로 도시한 블록도이다.1 is a block diagram schematically showing a main configuration of a dialogue separating system according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 실시 예에 따른 대화 분리 시스템(500)은 음성 인식 장치(100) 및 대화 분리 장치(200)를 포함하여 구성될 수 있다. Referring to FIG. 1, a dialogue separating system 500 according to an embodiment of the present invention may include a speech recognition apparatus 100 and a dialogue separating apparatus 200.

먼저, 음성 인식 장치(100)는 사용자로부터 아날로그 형태의 음성 신호가 입력되면, 입력된 음성 신호를 디지털 형태의 음성 데이터로 변환한 후, 변환된 음성 데이터를 기초로 음성 인식을 진행하여 인식 결과를 출력하게 된다. 여기서, 음성 인식 장치(100)에 입력되는 아날로그 형태의 음성 신호는 복수의 사용자에 대한 음성 신호를 포함한다. 음성 인식 장치(100)는 이러한 복수의 사용자에 대한 음성 신호가 입력되면 이에 대한 음성 인식을 진행하여 인식 결과를 출력하며, 이때의 인식 결과는 텍스트 형태로 사용자가 인지할 수 있는 일련의 문자로 표시되어 출력될 수 있다. First, when an analog voice signal is input from a user, the voice recognition device 100 converts the input voice signal into digital voice data, and then proceeds to voice recognition based on the converted voice data, . Here, the analog voice signal input to the voice recognition apparatus 100 includes voice signals for a plurality of users. When a voice signal for a plurality of users is inputted, the voice recognition apparatus 100 performs voice recognition on the voice signals and outputs a recognition result. The recognition result at this time is displayed as a series of characters And output.

본다 구체적으로, 본 발명의 음성 인식 장치(100)는 다양한 샘플링 주파수를 포함하는 음성 신호의 입력을 지원할 수 있다. 음성 인식 장치(100)는 다양한 형태의 음성 신호가 입력되면 이를 디지털 형태의 이산적인 음성 데이터 값으로 변환시키는 ADC(Analog to Digital Convert) 과정을 수행하게 된다. 그리고 디지털 형태로 변환된 음성 데이터를 기초로 다양한 방식으로 특징 파라미터를 추출한다. 여기서, 특징 파라미터는 상기 디지털 형태로 변환된 음성 데이터의 주파수 영역에서의 음성, 음향학적인 특징 정보를 의미한다. 예컨대, 음의 길이(duration), 음의 에너지(energy), 피치(pitch), 파워(power), LPC(linear predictive coding) 계수, 모음의 구성음소 즉, 포만트(formant), RFC(Rising Falling Connection)/Tilt, 스펙트럼(Spectrum), VOT(Voice Onset Time) 등이 특징 파라미터로 추출될 수 있다. 아울러, 본 발명의 음성 인식 장치(100)는 특징 파라미터 추출 시 MFCC(Mel-Frequency Cepstrum Codfficient), LPCC(Linear Prediction Coefficient Cepstrum) 또는 PLPCC(Preceptual Linear Prediction Ceptrum Coeffcient), EIH(Ensemble Interval Histogram), SMC (Short-time Modified Coherence) 등의 기법을 통해 추출할 수 있다. Specifically, the speech recognition apparatus 100 of the present invention can support input of a speech signal including various sampling frequencies. The voice recognition apparatus 100 performs an analog to digital conversion (ADC) process for converting various types of voice signals into discrete voice data values in digital form. The feature parameters are extracted in various ways based on the voice data converted into the digital form. Herein, the feature parameter means voice and acoustical feature information in the frequency domain of the voice data converted into the digital form. For example, the following parameters may be used: negative duration, negative energy, pitch, power, linear predictive coding (LPC) coefficients, compositional phonemes, formant, RFC Connection / Tilt, Spectrum, VOT (Voice Onset Time), and the like can be extracted as the feature parameters. In addition, the speech recognition apparatus 100 according to the present invention may be configured to extract characteristic parameters such as a Mel-Frequency Cepstrum Codec (MFCC), a Linear Prediction Coefficient Cepstrum (LPCC), a Preceptual Linear Prediction Ceptrum Coeffcient (PLPCC), an Ensemble Interval Histogram (EIH) (Short-time Modified Coherence).

그리고 음성 인식 장치(100)는 추출된 특징 파라미터를 기 구축된 음소들을 통계적으로 모델링한 음향 모델, 문법에 적합한 음성 인식 결과가 도출되도록 지원하는 언어 모델, 표준 발음법에 의거한 결과가 산출되도록 지원하는 발음 사전 등을 고려하여 최종 음성 인식 결과를 산출할 수 있게 된다. 본 발명의 음성 인식 장치(100)는 특징 파라미터를 음향 모델, 언어 모델, 발음 사전 등을 고려하여 음성 인식 결과 산출 시 다양한 방식을 적용하여 음성 인식 결과를 산출할 수 있다. 예컨대, HMM(hidden Markov Model), FSN(Finite State Network) 등에 따라 음성 인식 결과를 산출할 수 있다. The speech recognition apparatus 100 further includes an acoustic model modeled by statistically modeling the extracted phonemes, a language model supporting a speech recognition result suitable for the grammar, and a result based on the standard pronunciation method The final speech recognition result can be calculated in consideration of the pronunciation dictionary and the like. The speech recognition apparatus 100 of the present invention can calculate speech recognition results by applying various methods to the speech recognition result in consideration of acoustic models, language models, pronunciation dictionary, and the like. For example, the speech recognition result can be calculated according to HMM (hidden Markov Model), FSN (Finite State Network), or the like.

아울러, 본 발명의 음성 인식 장치(100)는 음성 인식 결과를 텍스트 형태로 산출하고, 이를 대화 분리 장치(200)로 전달하게 된다. 즉, 일반적인 방식의 대화 구분 방법은 음성 인식 장치(100)가 음성 신호의 특징 파라미터를 이용하여 화자간 대화를 구분하는 방식이라면, 본 발명은 대화 분리 장치(200)가 음성 인식 결과 텍스트를 이용하여 화자간 대화를 구분하게 된다. 따라서 음성 인식 장치(100)는 공지된 다양한 방식의 음성 인식 장치를 이용할 수 있다. In addition, the speech recognition apparatus 100 of the present invention calculates the speech recognition result in the form of a text and transmits it to the dialog separating apparatus 200. That is, if the speech recognition apparatus 100 distinguishes the dialog between the characters using the feature parameters of the speech signal, the present invention can be applied to a case where the dialog separating apparatus 200 uses the speech recognition result text The dialogue between the speakers is distinguished. Therefore, the speech recognition apparatus 100 can use various known speech recognition apparatuses.

본 발명의 대화 분리 장치(200)는 음성 인식 장치(100)로부터 전달되는 음성 인식 결과 텍스트를 화자의 구분에 따른 대화 유닛으로 대화를 구분하는 역할을 수행하게 된다. 본 발명에서 기술하는 대화(dialogue)란 화자의 말을 의미한다. 대화에 참여하는 화자가 2명일 경우, 대화 분리 장치(200)는 2인의 화자 간의 주고받는 대화 별로 음성 인식 결과 텍스트를 구분하여 출력할 수 있게 된다. 이를 위한 본 발명의 대화 분리 장치(200)는 먼저 음성 인식 결과 텍스트를 기초로 대화 유형을 결정한다. 대화 유형은 예컨대, 고객 불만, 서비스 가입, 서비스 해지 등 대화의 목적/의도를 의미할 수 있다. 이러한 대화 유형은 상기 예시에 한정되는 것은 아니며, 연예인, 소설, 과학 등 특정 주제가 될 수 있으며, 대화를 구분할 수 있는 기준으로 적용될 수 있는 그 어떠한 카테고리도 본 발명의 대화 유형으로 적용될 수 있다. The dialog separating apparatus 200 of the present invention performs a function of distinguishing a conversation from a speech recognition result text transmitted from the speech recognition apparatus 100 to a conversation unit according to a speaker's classification. The dialogue described in the present invention means the speaker's words. When the number of speakers participating in the conversation is two, the conversation separator 200 can classify and output the speech recognition result text per conversation between the two speakers. To this end, the dialog separator 200 of the present invention first determines the conversation type based on the speech recognition result text. The type of conversation may mean the purpose / intent of the conversation, such as customer complaints, service subscriptions, service terminations, and the like. This type of conversation is not limited to the above example, but may be a specific topic such as entertainer, novel, science, and any category that can be applied as a criterion for distinguishing conversation may be applied as the conversation type of the present invention.

그리고, 본 발명의 대화 분리 장치(200)는 대화 유형이 결정되면, 대화 유형에 해당하는 기 구축된 언어 사전 데이터베이스를 이용하여 음성 인식 결과 텍스트를 복수의 대화 문장으로 분리하게 된다. 여기서, 언어 사전 데이터베이스란 기 정의된 대화 가이드라인과 이전 대화 분리된 정보인 이전 대화 예제 코퍼스(corpus)를 이용하여 대화 유형별로 구축될 수 있는 정보로, 대화 유형 정보, 대화 패턴 정보, 어휘 정보 등의 통제된 정보를 의미한다. When the conversation type is determined, the dialog separating apparatus 200 of the present invention separates the speech recognition result text into a plurality of conversation sentences using a pre-built language dictionary database corresponding to the conversation type. Here, the language dictionary database is information that can be constructed for each conversation type by using a previously defined conversation guide line and a previous conversation example corpus, which is information separated from the previous conversation, and includes conversation type information, conversation pattern information, lexical information Quot; information "

아울러, 본 발명에서 정의하는 대화 문장이란 대화를 구분할 수 있는 최소 단위를 의미하는 것으로 적어도 하나 이상의 문장을 포함하는 개념이 될 수 있다. 이러한 대화 문장은 언어 사전 데이터베이스의 대화 패턴 정보를 이용하여 추출될 수 있다. 예를 들어, 언어 인식 결과 텍스트에 '안녕하십니까 t텔레콤 고객센터 AAA입니다'와 같은 텍스트가 포함되어 있을 경우, 상기 텍스트가 상기 언어 사전 데이터베이스의 대화 패턴 정보에 포함된 대화 예제 코퍼스일 경우, 대화 분리 장치(200)는 상기 대화 예제 코퍼스를 하나의 대화 문장으로 분리할 수 있다. 반면, 대화 예제 코퍼스를 이용하여 분리할 수 없는 문장일 경우, 대화 문장은 문장 시작 정보 또는 문장 끝 정보를 이용하여 분리될 수 있다. In addition, the conversation sentence defined in the present invention means a minimum unit capable of distinguishing a conversation, and may be a concept including at least one sentence. Such a dialogue sentence can be extracted using the dialogue pattern information of the language dictionary database. For example, if the text of the language recognition result text includes 'Hello T Telecom Customer Center AAA', if the text is a conversation example corpus included in the conversation pattern information of the language dictionary database, (200) can separate the conversation example corpus into one conversation sentence. On the other hand, in the case of a sentence which can not be separated using the conversation example corpus, the conversation sentence can be separated using the sentence start information or the sentence end information.

그리고, 대화 분리 장치(200)는 복수의 대화 문장으로 음성 인식 결과 텍스트가 구분되면, 화자의 구분에 따라 대화 유닛을 구성하여 출력하게 된다. When the speech recognition result text is divided into a plurality of conversation sentences, the conversation separating apparatus 200 constructs and outputs a conversation unit according to the speaker's classification.

여기서, 본 발명의 정의하는 대화 유닛이란 화자에 의해 구분될 수 있는 하나의 말을 의미한다. 예컨대 대화에 참여하는 화자가 1명일 경우, 대화 분리 장치(200)는 화자 1인에 대한 대화 유닛을 구성하여 출력할 수 있다. 이때, 대화 문장이 복수 개 존재하는 경우, 대화 분리 장치(200)는 상기 복수의 대화 문장을 결합하여 1개의 대화 유닛 형태로 출력할 수 있다. Here, the conversation unit defined by the present invention means one word that can be distinguished by the speaker. For example, if there is one speaker participating in the conversation, the conversation separator 200 can construct and output a conversation unit for the speaker. At this time, when there are a plurality of conversation sentences, the conversation separating apparatus 200 can combine the plurality of conversation sentences and output them in the form of one conversation unit.

그러나, 대화에 참여하는 화자가 2명일 경우, 대화 분리 장치(200)는 화자 2인이 서로 주고 받는 형태로 대화 유닛을 구성함으로써 화자 간의 대화를 구분할 수 있게 된다. 여기서, 대화 유닛은 전술한 바와 같이 적어도 하나 이상의 대화 문장을 포함할 수 있다. However, when there are two speakers participating in the conversation, the conversation separator 200 can distinguish conversations between speakers by constructing a conversation unit in such a way that two speakers exchange each other. Here, the conversation unit may include at least one conversation sentence as described above.

아울러, 대화 분리 장치(200)가 출력되는 대화 분리 결과는 텍스트 형태로 출력되거나 다양한 형태로 출력될 수도 있다. In addition, the result of the conversation separation output from the conversation separating apparatus 200 may be output in a text form or in various forms.

보다 구체적인 대화 분리 장치(200)에서의 대화 구분 방법에 대해서는 후술하도록 하며, 본 발명의 음성 인식 장치(100) 및 대화 분리 장치(200)는 설명의 편의를 위해 도면에서는 구분된 형태로 도시하였으나, 이에 한정되는 것은 아니며, 음성 인식 장치(100) 및 대화 분리 장치(200)는 하나의 통합된 장치로 구현될 수 있다. 또한, 음성 인식 장치(100) 및 대화 분리 장치(200)는 독립된 장치로 구현될 수도 있으나, 또 다른 장치 또는 시스템 내에 내장된(embedded) 일 모듈 형태로 존재할 수도 있다. The speech recognition apparatus 100 and the dialogue separating apparatus 200 of the present invention are shown in a separated form in the figure for convenience of explanation, The present invention is not limited thereto, and the speech recognition apparatus 100 and the dialog separating apparatus 200 may be implemented as a single integrated apparatus. In addition, the speech recognition apparatus 100 and the dialog separating apparatus 200 may be implemented as independent apparatuses, but may exist in a single module form embedded in another apparatus or system.

아울러, 본 발명의 음성 인식 장치(100) 및 대화 분리 장치(200)는 어플리케이션(application)과 같은 프로그램 형태로 구현될 수도 있다. 예시로, 스마트 폰(smart phone)과 같은 사용자가 이용할 수 있는 각종 전자 장치에 내장되거나, 프로그램 형태로 상기 장치에 설치되어 이용될 수 있다.In addition, the speech recognition apparatus 100 and the dialog separating apparatus 200 of the present invention may be implemented in the form of a program such as an application. For example, it can be embedded in various electronic devices available to the user such as a smart phone, or installed in the device in a program form.

또한, 본 발명의 음성 인식 장치(100) 및 대화 분리 장치(200)는 웹 서버 형태로 구현될 수 있다. 이 때, 사용자는 자신의 스마트폰과 같은 사용자 단말을 이용하여 파일 형태의 음성 데이터를 생성하고, 이를 통신망을 거쳐 음성 인식 장치(100)로 전달할 수 있다. 또한, 대화 분리 장치(200)를 통해 대화가 분리된 결과를 통신망을 거쳐 사용자 단말로 전달할 수도 있다. 또한, 음성 인식 장치(100) 및 대화 분리 장치(200)는 유선으로 연결될 수 있으나, 통신망으로 연결되는 이원적 처리 시스템으로 구현될 수도 있다. 더하여, 본 발명의 대화 분리 장치(200)는 고객 상담 시스템, 회의록 작성 시스템과 같이 특정 서비스를 지원하는 웹 서버와 연동하여 동작할 수도 있다. In addition, the speech recognition apparatus 100 and the dialog separating apparatus 200 of the present invention can be implemented in the form of a web server. At this time, the user can generate voice data in the form of a file using a user terminal such as a smart phone of her own, and transmit the voice data to the voice recognition device 100 via the communication network. In addition, the result of separating the dialogue through the dialog separating apparatus 200 may be transmitted to the user terminal via the communication network. In addition, the speech recognition apparatus 100 and the dialog separating apparatus 200 may be connected by wire, but may be implemented by a dual processing system connected to a communication network. In addition, the conversation separating apparatus 200 of the present invention may operate in conjunction with a web server supporting a specific service, such as a customer consultation system and a meeting record creation system.

이러한 본 발명의 음성 인식 장치(100) 및 대화 분리 장치(200)에 탑재되는 프로세서는 본 발명에 따른 방법을 실행하기 위한 프로그램 명령을 처리할 수 있다. 일 구현 예에서, 이 프로세서는 싱글 쓰레드(Single-threaded) 프로세서일 수 있으며, 다른 구현 예에서 본 프로세서는 멀티 쓰레드(Multithreaded) 프로세서일 수 있다. 나아가 본 프로세서는 메모리 혹은 저장 장치 상에 저장된 명령을 처리하는 것이 가능하다.The processor mounted on the speech recognition apparatus 100 and the dialog separating apparatus 200 of the present invention can process program instructions for executing the method according to the present invention. In one implementation, the processor may be a single-threaded processor, and in other embodiments, the processor may be a multithreaded processor. Further, the processor is capable of processing instructions stored on a memory or storage device.

이하, 본 발명의 실시 예에 따른 대화 분리 장치(200)의 주요 구성 및 동작 방법에 대해 설명하도록 한다. Hereinafter, the main configuration and operation method of the dialog separating apparatus 200 according to the embodiment of the present invention will be described.

도 2는 본 발명의 실시 예에 따른 대화 분리 장치의 주요 구성을 도시한 구성도이다. 2 is a block diagram showing a main configuration of a dialog separating apparatus according to an embodiment of the present invention.

도 1 및 도 2를 참조하면, 본 발명의 실시 예에 따른 대화 분리 장치(200)는 음성 인식 결과 수신부(210), 대화 유형 결정부(220), 대화 문장 분리부(230), 대화 유닛 구성부(240), 결과 출력부(250) 및 언어 사전 데이터베이스(260)를 포함하여 구성될 수 있다. 1 and 2, a dialog separating apparatus 200 according to an embodiment of the present invention includes a speech recognition result receiving unit 210, a conversation type determining unit 220, a conversation sentence separating unit 230, Unit 240, a result output unit 250, and a language dictionary database 260.

각 구성 요소에 대해 보다 구체적으로 설명하면, 먼저, 음성 인식 결과 수신부(210)는 음성 인식 장치(100)로부터 음성 인식 결과 텍스트를 수신하여 입력하는 역할을 지원한다. 여기서 음성 인식 결과 수신부(210)는 음성 인식 장치(100)로부터 유선 또는 무선의 방식으로 음성 인식 결과 텍스트를 수신할 수 있다. First of all, the speech recognition result receiving unit 210 supports the role of receiving and inputting the speech recognition result text from the speech recognition apparatus 100. Here, the speech recognition result receiving unit 210 can receive the speech recognition result text from the speech recognition apparatus 100 in a wired or wireless manner.

대화 유형 결정부(220)는 음성 인식 결과 수신부(210)를 통해 전달되는 음성 인식 결과 텍스트를 기초로 대화 유형을 결정하는 역할을 수행한다. 대화 유형이란 예컨대, 고객 불만, 서비스 가입, 서비스 해지 등 대화의 목적/의도를 의미한다. 이러한 대화 유형은 상기 예시에 한정되는 것은 아니며, 연예인, 소설, 과학 등 특정 주제가 될 수 있으며, 대화를 구분할 수 있는 기준으로 적용될 수 있는 그 어떠한 카테고리도 본 발명의 대화 유형으로 적용될 수 있다. The conversation type determination unit 220 determines a conversation type based on the speech recognition result text transmitted through the speech recognition result reception unit 210. [ The type of conversation means the purpose / intention of conversation, such as customer complaints, service subscription, service termination, and the like. This type of conversation is not limited to the above example, but may be a specific topic such as entertainer, novel, science, and any category that can be applied as a criterion for distinguishing conversation may be applied as the conversation type of the present invention.

이를 위해, 본 발명의 대화 유형 결정부(220)는 음성 인식 결과 텍스트에서 주요 키워드를 추출하고, 추출된 주요 키워드에 대응하여 기 설정된 대화 유형을 기 구축된 언어 사전 데이터베이스(260)의 대화 유형 정보(261)를 참조하여 확인한 후 음성 인식 결과 텍스트에 대한 대화 유형으로 결정하게 된다. For this, the conversation type determination unit 220 of the present invention extracts the main keywords from the speech recognition result text, and outputs the preset conversation types corresponding to the extracted main keywords to the conversation type information (261), and determines the type of conversation for the speech recognition result text.

여기서 주요 키워드는 음성 인식 결과 텍스트에서 지정된 횟수 이상 추출되는 키워드 또는 설정된 키워드로 다수 개 존재할 수 있다. 예를 들어, 음성 인식 결과 텍스트에서 추출된 주요 키워드가 '보험', '신규', '가입'일 경우, 상기 주요 키워드에 대응하여 기 설정된 대화 유형은 '보험 가입'이 될 수 있다. Here, the main keyword may exist as a plurality of keywords extracted from the speech recognition result text more than the designated number of times or set keywords. For example, when the main keywords extracted from the speech recognition result text are 'insurance', 'new', and 'subscription', the predetermined conversation type corresponding to the main keyword may be 'insured'.

이때, 대화 유형 결정부(220)는 상기 주요 키워드 추출 조건을 만족하는 키워드이더라도, 지정된 불용어에 해당하는 키워드를 제외하여 주요 키워드로 추출할 수 있다. 예를 들어 주요 키워드 추출 조건이 지정된 횟수 이상 추출되는 키워드일 경우, 특정 욕설이 지정된 횟수 이상 추출되더라도, 상기 욕설이 불용어로 지정되어 있을 경우, 불용어를 제외하여 주요 키워드를 추출할 수 있다. At this time, the conversation type determination unit 220 may extract the key word that excludes the keyword corresponding to the designated keyword, even though the key word satisfies the key keyword extraction condition. For example, in the case where the main keyword extraction condition is a keyword extracted more than the specified number of times, even if the specific vocabulary is extracted more than the designated number of times, if the vocabulary is designated as an insubstantial keyword, the main keyword can be extracted excluding the abbreviated word.

그리고 대화 유형 결정부(220)는 결정된 대화 유형에 대한 정보를 대화 문장 분리부(230)로 전달하게 된다. The conversation type determination unit 220 transmits information on the determined conversation type to the conversation sentence separation unit 230. [

대화 문장 분리부(230)는 결정된 대화 유형에 해당하는 기 구축된 언어 사전 데이터베이스(260)를 이용하여 음성 인식 결과 텍스트를 복수의 대화 유닛으로 분리하게 된다. 보다 구체적으로 결정된 대화 유형이 '서비스 해지'일 경우, 대화 문장 분리부(230)는 '서비스 해지'에 해당하는 언어 사전 데이터베이스(260)를 이용하여, 보다 정확하게는 '서비스 해지'에 해당하는 대화 패턴 정보(262) 및 어휘 정보(263)를 이용하여 음성 인식 결과 텍스트를 복수의 대화 문장으로 분리하게 된다. 보다 구체적으로 대화 문장 분리부(230)는 대화 패턴 정보(262)에 저장된 대화 예제 코퍼스를 이용하여 상기 음성 인식 결과 텍스트를 대화 문장으로 분리할 수 있다. 예를 들어, 언어 인식 결과 텍스트에 '안녕하십니까 t텔레콤 고객센터 AAA입니다'와 같이 화자에 의해 고정적으로 발화되는 부분이 존재할 경우, 대화 문장 분리부(230)는 대화 패턴 정보(262)의 대화 예제 코퍼스를 이용하여 상기 부분을 하나의 대화 문장으로 전체 언어 인식 결과 텍스트에서 추출하여 분리할 수 있다. 반면, 대화 패턴 정보(262)만을 가지고 대화 문장으로 분리할 수 없을 경우, 대화 문장 분리부(230)는 언어 사전 데이터베이스(260)의 어휘 정보(263)에 저장된 문장 시작 정보 또는 문장 끝 정보를 이용하여 대화 문장으로 분리할 수 있다. 예컨대, '니까', '니다', '까요', '데요', '고요', '세요', '나요', '이요', '네요'와 같이 문장의 끝을 알리는 정보를 이용하여 언어 인식 결과 텍스트에서 대화 문장별로 분리할 수 있게 된다. 또한, '그런데요', '알잖아', '알지', '그러니까', '그런데', '그래서'와 같이 다음 대화가 이어짐을 알리는 접속사 등에 대한 정보인 문장 시작 정보를 이용하여 대화 문장으로 분리할 수 있다. The conversation sentence separating unit 230 separates the speech recognition result text into a plurality of conversation units using the pre-built language dictionary database 260 corresponding to the determined conversation type. If the conversation type determined in more detail is 'service terminated', the conversation sentence separating unit 230 uses the language dictionary database 260 corresponding to 'service termination' to more accurately determine a conversation corresponding to 'service termination' The speech recognition result text is divided into a plurality of conversation sentences by using the pattern information 262 and the lexical information 263. [ More specifically, the conversation sentence separating unit 230 may separate the speech recognition result text into conversation sentences using the conversation example corpus stored in the conversation pattern information 262. [ For example, if there is a portion of the language recognition result text that is fixedly spoken by the speaker, such as 'Hello T Telecom Customer Center AAA', the conversation sentence separating unit 230 extracts a conversation example corpus of the conversation pattern information 262 The extracted part can be extracted from the entire language recognition result text as a single conversation sentence and separated. On the other hand, if the conversation pattern information 262 can not be separated into conversation sentences, the conversation sentence separating unit 230 uses the sentence start information or the sentence end information stored in the lexical information 263 of the language dictionary database 260 Can be separated into conversation sentences. For example, by using information that informs the end of a sentence such as' I ',' I ',' I ',' I ',' I ',' I ',' I ',' The result text can be separated by the sentence sentence. It is also possible to separate the sentences into conversation sentences using the sentence start information, which is information on conjunctions, such as "yes", "know", "know", "yes", "yes" .

대화 유닛 구성부(240)는 상기 대화 문장 분리부(230)를 통해 분리된 복수의 대화 문장을 기 구축된 언어 사전 데이터베이스(260)를 이용하여 화자에 대한 대화 유닛으로 구성하여 분리하게 된다. 여기서, 본 발명의 정의하는 대화 유닛이란 화자의 하나의 말을 의미한다. 예컨대 대화에 참여하는 화자가 1명일 경우, 대화 유닛 구성부(240)는 화자 1인에 대한 대화 유닛을 구성하여 출력할 수 있다. 그러나, 대화에 참여하는 화자가 2명일 경우, 대화 유닛 구성부(240)는 화자 2인이 서로 주고 받는 형태로 대화 유닛을 구성하여 화자 간의 대화를 구분할 수 있게 한다. 이를 위해 대화 유닛 구성부(240)는 먼저, 언어 사전 데이터베이스(260)의 대화 패턴 정보(262)를 참조하여 대화 문장이 어느 화자에 의해 발화되는 지 확인한다. 일반적으로 화자 간의 대화 패턴은 ' 인사', '발화 목적/의도', '발화 목적/의도 대응', '인사'와 같은 순서로 이뤄질 수 있다. 대화 유닛 구성부(240)는 이러한 대화 패턴을 고려하여, 화자 간 대화 유닛으로 대화 문장을 구성할 수 있게 되는데, 예를 들어, '안녕하십니까 t텔레콤 고객센터 AAA입니다'의 대화 문장은 일반적으로 상담원이 발화하는 대화 문장임을 상기 언어 사전 데이터베이스(260)을 통해 확인하고, 상기 문장 다음에 발화된 대화 문장에 대해서는 상담원이 아닌 다른 화자에 의해 발화된 대화 문장임을 확인할 수 있게 된다. 반면, 대화 패턴 정보만을 고려하여 화자 구분이 어려운 대화 문장에 대해서는 어휘 정보를 함께 고려하여 화자에 대한 대화 유닛을 구분할 수 있다.The conversation unit constructing unit 240 constructs a plurality of conversation sentences separated through the conversation sentence separating unit 230 as a conversation unit for the speaker using the pre-built language dictionary database 260 and separates them. Here, the conversation unit defined by the present invention means one word of the speaker. For example, if there is one speaker participating in the conversation, the conversation unit configuration unit 240 can construct and output a conversation unit for the speaker. However, if there are two speakers participating in the conversation, the conversation unit constructing unit 240 configures the conversation unit in such a way that the two speakers exchange the conversation so that the conversation between the speakers can be distinguished. To this end, the conversation unit constructing unit 240 first refers to the conversation pattern information 262 of the language dictionary database 260 to check which conversation sentence is uttered by the speaker. Generally, conversation patterns among speakers can be made in the order of 'greeting', 'utterance purpose / intention', 'utterance purpose / intent correspondence', 'greeting'. The conversation unit constructing unit 240 can construct a conversation sentence in a conversation unit between the speakers in consideration of the conversation pattern. For example, the conversation sentence 'Hello T Telecom Customer Center AAA' It can be confirmed through the language dictionary database 260 that the conversation sentence is a conversation sentence and that the conversation sentence following the sentence is a conversation sentence uttered by a speaker other than the agent. On the other hand, conversation sentences that are difficult to be distinguished by considering only the conversation pattern information can be divided into conversation units for the speakers by considering the lexical information together.

이와 같이, 대화 유닛 구성부(240)는 기 구축된 언어 사전 데이터베이스(260)를 참조하여, 화자의 구분에 따라 적어도 하나 이상의 대화 문장을 포함하는 대화 유닛을 구성할 수 있게 된다. As described above, the conversation unit construction unit 240 can construct a conversation unit including at least one conversation sentence according to the speaker's classification by referring to the pre-built language dictionary database 260. [

결과 출력부(250)는 화자의 구분에 따라 대화가 분리된 결과 형태로 대화 유닛을 출력하는 역할을 수행한다. 이때의 대화 분리 결과는 텍스트 형태로 출력되거나 다양한 형태로 출력될 수도 있다. 또한, 결과 출력부(250)를 통해 출력된 대화 분리 결과는 이전 대화 예제 코퍼스로 사용될 수 있으며, 이를 위해 상기 언어 사전 데이터베이스(260)에 저장되어 학습될 수 있다. The result output unit 250 outputs the conversation unit in a result form in which conversations are separated according to the speaker's classification. At this time, the result of the conversation separation may be output in text form or in various forms. Also, the result of the conversation separation output through the result output unit 250 may be used as a previous conversation example corpus, and may be stored and learned in the language dictionary database 260 for this purpose.

아울러, 본 발명의 실시 예에 따른 언어 사전 데이터베이스(260)는 기 정의된 대화 가이드라인과 이전 대화 예제 코퍼스를 이용하여 대화 유형별로 구축될 수 있는 정보를 의미한다. 여기서, 기 정의된 대화 가이드라인은 관리자에 의해 직접 입력될 수 있는 정보로, 대화에서 주로 발화되는 문장에 대한 가이드라인을 의미한다. 예컨대, 본 발명의 대화 분리 장치(200)가 통신사 고객 상담 시스템에 적용되는 경우, 통신사 고객 상담원이 주로 발화하는 대화 패턴에 대한 가이드라인이 될 수 있다. 또 다른 예를 들어 본 발명의 대화 분리 장치(200)가 보험사 고객 상담 시스템에 적용되는 경우, 보험사 고객 상담원이 주로 발화하는 대화 패턴에 대한 가이드라인이 될 수 있다. 반면, 이전 대화 예제 코퍼스는 결과 출력부(250)에 의해 출력되는 대화 분리 결과를 의미하는 것으로, 대화 분리 결과는 다음 번 대화 분리를 위한 대화 예제 코퍼스로 저장되어 활용될 수 있다. 이러한 언어 사전 데이터베이스(260)는 전술한 바와 같이 대화 유형별로 구축될 수 있으며, 검색이 용이하도록 XML 형태로 구축될 수 있다. In addition, the language dictionary database 260 according to the embodiment of the present invention means information that can be constructed for each conversation type using a predefined conversation guide line and a previous conversation example corpus. Here, the predefined conversation guidelines are information that can be directly input by the administrator, and it is a guideline for a sentence mainly uttered in a conversation. For example, when the conversation separating apparatus 200 of the present invention is applied to a communication company customer consulting system, it can be a guideline for a conversation pattern that a communication company customer consultant mainly utters. As another example, when the conversation separating apparatus 200 of the present invention is applied to an insurer's customer counseling system, the insurer's customer counselor can be a guideline for a conversation pattern that is mainly uttered. On the other hand, the previous conversation example corpus means a conversation separation result output by the result output unit 250, and the conversation separation result can be stored and utilized as a conversation example corpus for the next conversation separation. The language dictionary database 260 can be constructed for each conversation type as described above, and can be constructed in XML format for easy retrieval.

이러한 언어 사전 데이터베이스(260)는 대화 유형 정보(261), 대화 패턴 정보(262), 어휘 정보(263)을 포함하여 구성될 수 있다. 먼저, 대화 유형 정보(261)는 대화 유형을 결정하기 위한 키워드 정보를 저장하고 관리하는 역할을 수행한다. 예컨대, 음성 인식 결과 텍스트에 '통화 품질 이상', '전송 오류' 등의 키워드가 존재할 경우, 상기 키워드를 기초로 결정되는 대화 유형은 '서비스 불만'이 될 수 있다. 이러한 대화 유형은 계층적 형태로 존재할 수도 있다. 예컨대, '서비스 불만'의 상위 카테고리는 '불만 상담'이 될 수 있다. The language dictionary database 260 may include dialog type information 261, dialog pattern information 262, and lexical information 263. First, the conversation type information 261 stores and manages keyword information for determining the conversation type. For example, if there are keywords such as 'abnormal call quality' and 'transmission error' in the speech recognition result text, the type of conversation determined based on the keyword may be 'service complaint'. This type of conversation may exist in a hierarchical form. For example, an upper category of 'service dissatisfaction' may be 'complaint counseling'.

대화 패턴 정보(262) 및 어휘 정보(263)는 대화 유형별로 구축되는 정보를 의미한다. 먼저, 대화 패턴 정보(262)는 일 대화 유형에서 발화되는 대화 패턴에 대한 정보를 의미한다. 일반적으로 대화는 '인사', '발화 의도/목적(dialogue act)', '발화 의도/목적 대응', '인사'의 형태로 이뤄질 수 있다. 이러한 대화 패턴에 해당하는 대화 예제를 대화 패턴 정보(262) 형태로 구축하여 저장할 수 있다. 대화 분리 장치(200)는 이러한 대화 패턴 정보(262)를 이용하여 대화 문장이 어느 화자가 발화한 문장이며, 대화의 시작을 의미하는 지, 발화 의도/목적에 해당하는 지를 파악할 수 있게 된다. The conversation pattern information 262 and the lexical information 263 refer to information constructed for each conversation type. First, the conversation pattern information 262 indicates information on a conversation pattern that is uttered in one conversation type. Generally speaking, dialogue can be done in the form of 'greeting', 'dialogue act', 'utterance intention / purpose response', 'greeting'. The conversation examples corresponding to the conversation patterns can be constructed and stored in the form of the conversation pattern information 262. [ The dialog separating apparatus 200 can use this conversation pattern information 262 to determine which conversation sentence is a sentence in which the conversation sentence is, a start of conversation, or a purpose / purpose of utterance.

어휘 정보(263)는 대화 유형별로 구축될 수 있는 정보로, 문장 시작 정보 또는 문장 끝 정보 등을 포함할 수 있으며, 화자가 주로 발화하는 어휘에 대한 정보를 포함할 수 있다. The lexical information 263 is information that can be constructed for each conversation type. The lexical information 263 may include sentence start information, sentence end information, and the like. The lexical information 263 may include information about a vocabulary that the speaker mainly utteres.

이와 같이, 본 발명의 대화 분리 장치(200)는 기 구축된 언어 사전 데이터베이스(260)를 이용하여 음성 인식 결과 텍스트에서 화자별로 대화 문장을 분리하여 구성하여 출력할 수 있게 된다. As described above, the dialog separating apparatus 200 of the present invention can separate and construct a conversation sentence for each speaker from the speech recognition result text using the pre-built language dictionary database 260, and output it.

이상으로 본 발명의 실시 예에 따른 대화 분리 장치(200)의 주요 구성 및 동작 방법에 대해 설명하였다. The main configuration and the operation method of the dialog separating apparatus 200 according to the embodiment of the present invention have been described above.

이러한 본 발명의 대화 분리 장치(200)에 탑재되는 메모리는 그 장치 내에서 정보를 저장한다. 일 구현예의 경우, 메모리는 컴퓨터로 판독 가능한 매체이다. 일 구현 예에서, 메모리는 휘발성 메모리 유닛 일 수 있으며, 다른 구현예의 경우, 메모리는 비휘발성 메모리 유닛 일 수도 있다. 일 구현예의 경우, 저장장치는 컴퓨터로 판독 가능한 매체이다. 다양한 서로 다른 구현 예에서, 저장장치는 예컨대 하드디스크 장치, 광학디스크 장치, 혹은 어떤 다른 대용량 저장장치를 포함할 수도 있다.The memory mounted on the dialog separating apparatus 200 of the present invention stores information in the apparatus. In one implementation, the memory is a computer-readable medium. In one implementation, the memory may be a volatile memory unit, and in other embodiments, the memory may be a non-volatile memory unit. In one implementation, the storage device is a computer-readable medium. In various different implementations, the storage device may include, for example, a hard disk device, an optical disk device, or any other mass storage device.

비록 본 명세서와 도면에서는 예시적인 장치 구성을 기술하고 있지만, 본 명세서에서 설명하는 기능적인 동작과 주제의 구현물들은 다른 유형의 디지털 전자 회로로 구현되거나, 본 명세서에서 개시하는 구조 및 그 구조적인 등가물들을 포함하는 컴퓨터 소프트웨어, 펌웨어 혹은 하드웨어로 구현되거나, 이들 중 하나 이상의 결합으로 구현 가능하다. 본 명세서에서 설명하는 주제의 구현물들은 하나 이상의 컴퓨터 프로그램 제품, 다시 말해 본 발명에 따른 장치의 동작을 제어하기 위하여 혹은 이것에 의한 실행을 위하여 유형의 프로그램 저장매체 상에 인코딩된 컴퓨터 프로그램 명령에 관한 하나 이상의 모듈로서 구현될 수 있다. 컴퓨터로 판독 가능한 매체는 기계로 판독 가능한 저장 장치, 기계로 판독 가능한 저장 기판, 메모리 장치, 기계로 판독 가능한 전파형 신호에 영향을 미치는 물질의 조성물 혹은 이들 중 하나 이상의 조합일 수 있다.Although the present specification and drawings describe exemplary device configurations, the functional operations and subject matter implementations described herein may be embodied in other types of digital electronic circuitry, or alternatively, of the structures disclosed herein and their structural equivalents May be embodied in computer software, firmware, or hardware, including, or in combination with, one or more of the foregoing. Implementations of the subject matter described herein may be embodied in one or more computer program products, i. E. One for computer program instructions encoded on a program storage medium of the type for < RTI ID = 0.0 & And can be implemented as a module as described above. The computer-readable medium can be a machine-readable storage device, a machine-readable storage substrate, a memory device, a composition of matter that affects the machine readable propagation type signal, or a combination of one or more of the foregoing.

이하, 본 발명의 실시 예에 따른 대화 분리 방법에 대해 설명하도록 한다. Hereinafter, a dialog separating method according to an embodiment of the present invention will be described.

도 3은 본 발명의 실시 예에 따른 대화 분리 방법을 설명하기 위한 흐름도이며, 도 4는 본 발명의 실시 예에 따른 대화 분리 방법을 설명하기 위한 예시도이다. FIG. 3 is a flowchart illustrating a method of separating a conversation according to an embodiment of the present invention, and FIG. 4 is an exemplary diagram illustrating a method of separating a conversation according to an embodiment of the present invention.

먼저, 도 3을 참조하면, 본 발명의 대화 분리 장치(200)는 음성 인식 장치(100)로부터 음성 인식 결과 텍스트를 수신한다(S101). 여기서, 수신되는 음성 인식 결과 텍스트는 도 4a에 도시된 바와 같이, 텍스트 형태로 존재할 수 있다. 이때의 음성 인식 결과 텍스트는 대화 단위가 불균일한 상태로, 어떠한 문장을 어떠한 화자가 발화하였는지 쉽게 인지할 수가 없다. 종래의 방식에서는 음성 인식 결과 텍스트를 사용자가 직접 확인하여 화자별로 분류하거나, 또는 음성 인식 단계에서 화자별로 음성 인식을 따로 수행하고, 음성 인식 결과를 하나로 병합하는 과정을 수행하였다면, 본 발명은 음성 인식 결과 텍스트를 기 구축된 언어 사전 데이터베이스와 비교하여 화자별로 분류하는 과정을 수행할 수 있게 된다. Referring to FIG. 3, the dialog separating apparatus 200 of the present invention receives speech recognition result text from the speech recognition apparatus 100 (S101). Here, the received speech recognition result text may exist in a text form as shown in FIG. 4A. The speech recognition result text at this time is in a state in which the conversation unit is uneven, and it is not possible to easily recognize which speaker has uttered a certain sentence. In the conventional method, if the user directly confirms the speech recognition result text and classifies the speech recognition result by the speaker, or performs speech recognition separately for each speaker in the speech recognition step and merges the speech recognition results into one, The resultant text can be compared with the pre-established language dictionary database and classified according to the speaker.

이를 위해, 먼저 대화 분리 장치(200)는 도 4a에 도시된 바와 같이 음성 인식 결과 텍스트에서 하나 이상의 주요 키워드를 추출한다(S103). 여기서, 주요 키워드는 지정된 횟수 이상 추출되거나 기 설정된 키워드를 주요 키워드로 선정할 수 있다. 예컨대 도 4a에서 '서비스'(610)는 지정된 3회 이상 추출된 키워드이며, '해지'(620)는 설정된 키워드를 의미할 수 있으며, 대화 분리 장치(200)는 이러한 주요 키워드를 추출한다. 그리고 추출된 주요 키워드에 해당하는 대화 유형을 결정할 수 있게 된다(S105). To this end, the dialog separator 200 first extracts one or more keywords from the speech recognition result text as shown in FIG. 4A (S103). Here, the main keyword may be extracted more than a designated number of times, or a preset keyword may be selected as a main keyword. For example, in FIG. 4A, 'service' 610 is a keyword extracted three times or more, 'cancel' 620 may mean a set keyword, and the dialog separator 200 extracts such a main keyword. Then, the conversation type corresponding to the extracted main keyword can be determined (S105).

그리고, 대화 분리 장치(200)는 대화 유형에 해당하는 언어 사전 데이터베이스를 이용하여 음성 인식 결과 텍스트를 복수의 대화 문장으로 분리하게 된다(S107). 이때, 대화 분리 장치(200)는 먼저 대화 패턴 정보와 어휘 정보를 고려하여 대화 문장을 분리하게 된다. 예컨대, 도 4b에 점선으로 표시된 부분과 같이 언어 사전 데이터베이스에 일치하는 대화 예제 코퍼스가 존재하는 경우, 대화 분리 장치(200)는 일치하는 대화 예제 코퍼스를 하나의 대화 문장으로 추출할 수 있다. 반면, 나머지 부분은 언어 사전 데이터베이스에 일치하는 대화 예제 코퍼스가 존재하지 않은 부분으로 이 경우, 대화 분리 장치(200)는 언어 사전 데이터베이스의 어휘 정보에 저장된 문장 시작 정보 또는 도면에 도시된 '니까', '니다', '까요', '데요', '고요', '세요', '나요', '이요', '네요'와 같이 문장 끝 정보를 이용하여, 대화 문장으로 분리하게 된다. Then, the dialog separating apparatus 200 separates the speech recognition result text into a plurality of conversation sentences using the language dictionary database corresponding to the conversation type (S107). At this time, the dialog separator 200 separates the conversation sentence by considering the conversation pattern information and the lexical information. For example, when there is a conversation example corpus matching the language dictionary database as shown by a dotted line in FIG. 4B, the conversation separation device 200 can extract the cooperative conversation example corpus as one conversation sentence. On the other hand, the remaining part is the part where the conversation example corpus matching the language dictionary database does not exist. In this case, the dialog separator 200 extracts sentence start information stored in the lexical information of the language dictionary database, It is separated into conversation sentences by using end-of-sentence information such as 'I', 'I will', 'I will', 'Quiet', 'I', 'I', 'I'

이후, 대화 분리 장치(200)는 분리된 복수의 대화 문장을 언어 사전 데이터베이스를 이용하여 화자에 대한 대화 유닛을 구성하여 출력하게 된다. 예컨대, '공 일 공 하나 둘 셋 넷 다섯 여섯 일곱 여덟이요'의 대화 문장과 일치하는 대화 예제 코퍼스가 언어 사전 데이터베이스에 존재하지 않더라도, 상기 대화 문장 이전에 존재하는 대화 문장인 '고객님 전화번호가 어떻게 되시나요'는 언어 사전 데이터베이스를 통해 상담원이 발화하는 대화 패턴임을 확인할 수 있으며, 그 다음에 존재하는 '공 일 공 하나 둘 셋 넷 다섯 여섯 일곱 여덟이요'의 대화 문장은 상기 '고객님 전화번호가 어떻게 되시나요'의 대화 문장에 대한 응답으로 고객이 발화하는 문장임을 알 수 있다. 반면, 어느 화자가 발화하는 지 대화 패턴만으로 확인이 불명확한 부분에 대해서는, 어휘 정보를 고려하여 통계적으로 상담원이 주로 발화하는 지, 고객이 주로 발화하는 지를 확인할 수도 있다. Then, the dialog separating apparatus 200 constructs a dialog unit for a speaker by using a plurality of separated conversation sentences using a language dictionary database, and outputs the dialog units. For example, even if the conversation example corpus that coincides with the conversation sentence of 'ball ball 1, 2, 3, 5, 6, and 8' does not exist in the dictionary database, the conversation sentence ' , The language dictionary database can be used to confirm that the agent has a conversational pattern to be uttered. Then, the dialogue sentence of 'ball ball one, two three four five five six seven eight' Is a sentence that the customer utters in response to the conversation sentence. On the other hand, it is also possible to check whether the agent is mainly speaking, or whether the client is mainly speaking, in consideration of the lexical information, on the part where the speaker is unclear only by the dialogue pattern.

이때, 대화 분리 장치(200)는 화자를 구분할 수 있는 기호와 함께 해당 화자가 발화한 대화 유닛을 화자별로 나열될 수 있도록 대화 문장으로 구성하여 출력할 수 있게 된다.At this time, the conversation separating apparatus 200 can construct a conversation sentence so that the conversation unit uttered by the corresponding speaker can be listed for each speaker, together with a symbol capable of distinguishing the speaker.

이와 같이, 특정 화자에 대해 정형화된 대화 패턴에 따라 발화될 가능성이 높은 대화 문장에 대해서는 대화 가이드라인 및 이전 대화 예제 코퍼스를 이용하여 확인하고, 화자가 불확실한 대화 문장에 대해서는 평균적으로 사용되는 어휘 정보 등의 정보를 고려하여 화자에 대한 대화를 분리함으로써, 음성 인식 단계가 아닌 음성 인식 후의 결과 텍스트를 이용하여 화자별 대화 문장을 보다 용이하게 확인할 수 있게 된다. 이러한 본 발명은 다양한 분야에 적용될 수 있는 데, 예컨대 회의록 작성은 물론, 고객 센터 등에서 고객 관리 측면에서 활용될 수 있게 된다. As described above, a conversation sentence that is likely to be uttered according to a conversation pattern formatted for a specific speaker is confirmed by using a conversation guide line and a previous conversation example corpus, and on a conversation sentence in which the speaker is uncertain, It is possible to more easily confirm the conversation sentence by the speaker by using the resultant text after speech recognition rather than the speech recognition step by separating the conversation with the speaker in consideration of the information of the speaker. The present invention can be applied to various fields. For example, the present invention can be utilized in customer management in a customer center as well as in the preparation of minutes.

이상으로 본 발명의 실시 예에 따른 대화 분리 방법에 대해 설명하였다. Thus, the dialogue separating method according to the embodiment of the present invention has been described.

상술한 바와 같은 본 발명의 대화 분리 방법은 컴퓨터 프로그램 명령어와 데이터를 저장하기에 적합한 컴퓨터로 판독 가능한 매체의 형태로 제공될 수도 있다. 본 발명의 일 실시 예에 따른 대화 분리 방법을 구현하기 위한 기록매체에 기록되는 프로그램은 대화 분리 장치가 음성 인식 결과 텍스트를 수신하는 단계, 상기 대화 분리 장치가 상기 음성 인식 결과 텍스트를 기초로 대화 유형을 결정하는 단계, 상기 대화 분리 장치가 상기 결정된 대화 유형에 해당하는 기 구축된 언어 사전 데이터베이스를 이용하여 상기 음성 인식 결과 텍스트를 복수의 대화 문장으로 분리하는 단계 및 상기 대화 분리 장치가 상기 분리된 복수의 대화 문장을 상기 기 구축된 언어 사전 데이터베이스를 이용하여 화자의 구분에 따른 대화 유닛으로 구성하는 단계 등을 실행할 수 있다. The above-described dialog separation method of the present invention as described above may be provided in the form of a computer-readable medium suitable for storing computer program instructions and data. A program recorded on a recording medium for implementing a method for separating a conversation according to an embodiment of the present invention includes a step of receiving a speech recognition result text by a dialog separating apparatus, Separating the speech recognition result text into a plurality of conversation sentences by using the pre-built language dictionary database corresponding to the determined conversation type, and the step of separating the speech recognition result text into a plurality of conversation sentences, And constructing a conversation sentence of the speaker language using the pre-built language dictionary database as a conversation unit based on the speaker's classification.

이때, 기록매체에 기록된 프로그램은 컴퓨터에서 읽히어 설치되고 실행됨으로써 전술한 기능들을 실행할 수 있다. At this time, the program recorded on the recording medium can be read and installed in the computer and executed, thereby executing the above-described functions.

여기서, 컴퓨터가 기록매체에 기록된 프로그램을 읽어 들여 프로그램으로 구현된 기능들을 실행시키기 위하여, 전술한 프로그램은 컴퓨터의 프로세서(CPU)가 컴퓨터의 장치 인터페이스(Interface)를 통해 읽힐 수 있는 C, C++, JAVA, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. In order to allow a computer to read a program recorded on a recording medium and to execute functions implemented by the program, the above-mentioned program may be stored in a computer-readable medium such as C, C ++, JAVA, machine language, and the like.

이러한 코드는 전술한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Function Code)를 포함할 수 있고, 전술한 기능들을 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수도 있다. 또한, 이러한 코드는 전술한 기능들을 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조 되어야 하는지에 대한 메모리 참조 관련 코드를 더 포함할 수 있다. 또한, 컴퓨터의 프로세서가 전술한 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 컴퓨터의 프로세서가 컴퓨터의 통신 모듈을 이용하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야만 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수도 있다.The code may include a function code related to a function or the like that defines the functions described above and may include an execution procedure related control code necessary for the processor of the computer to execute the functions described above according to a predetermined procedure. In addition, such code may further include memory reference related code as to what additional information or media needed to cause the processor of the computer to execute the aforementioned functions should be referenced at any location (address) of the internal or external memory of the computer . In addition, when a processor of a computer needs to communicate with any other computer or server that is remote to execute the above-described functions, the code may be stored in a memory of the computer using a communication module of the computer, It may further include a communication-related code such as how to communicate with another computer or a server, and what information or media should be transmitted or received during communication.

이러한, 컴퓨터 프로그램 명령어와 데이터를 저장하기에 적합한 컴퓨터로 판독 가능한 매체는, 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM)과 같은 반도체 메모리를 포함한다. 프로세서와 메모리는 특수 목적의 논리 회로에 의해 보충되거나, 그것에 통합될 수 있다. Such computer-readable media suitable for storing computer program instructions and data include, for example, magnetic media such as hard disks, floppy disks and magnetic tape, compact disk read only memory (CD-ROM) Optical media such as a DVD (Digital Video Disk), a magneto-optical medium such as a floppy disk, and a ROM (Read Only Memory), a RAM , Random Access Memory), flash memory, EPROM (Erasable Programmable ROM), and EEPROM (Electrically Erasable Programmable ROM). The processor and memory may be supplemented by, or incorporated in, special purpose logic circuits.

또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 본 발명을 구현하기 위한 기능적인(Functional) 프로그램과 이와 관련된 코드 및 코드 세그먼트 등은, 기록매체를 읽어서 프로그램을 실행시키는 컴퓨터의 시스템 환경 등을 고려하여, 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론되거나 변경될 수도 있다.The computer readable recording medium may also be distributed over a networked computer system so that computer readable code can be stored and executed in a distributed manner. The functional program for implementing the present invention and the related code and code segment may be implemented by programmers in the technical field of the present invention in consideration of the system environment of the computer that reads the recording medium and executes the program, Or may be easily modified or modified by the user.

본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.While the specification contains a number of specific implementation details, it should be understood that they are not to be construed as limitations on the scope of any invention or claim, but rather on the description of features that may be specific to a particular embodiment of a particular invention Should be understood. Certain features described herein in the context of separate embodiments may be implemented in combination in a single embodiment. Conversely, various features described in the context of a single embodiment may also be implemented in multiple embodiments, either individually or in any suitable subcombination. Further, although the features may operate in a particular combination and may be initially described as so claimed, one or more features from the claimed combination may in some cases be excluded from the combination, Or a variant of a subcombination.

마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 시스템 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 시스템들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.Likewise, although the operations are depicted in the drawings in a particular order, it should be understood that such operations must be performed in that particular order or sequential order shown to achieve the desired result, or that all illustrated operations should be performed. In certain cases, multitasking and parallel processing may be advantageous. Also, the separation of the various system components of the above-described embodiments should not be understood as requiring such separation in all embodiments, and the described program components and systems will generally be integrated together into a single software product or packaged into multiple software products It should be understood.

본 발명은 대화 분리 방법에 관한 것으로, 더욱 상세하게는 대화 유형별로 기 구축된 언어 사전 데이터베이스를 이용하여 음성 인식 결과 텍스트에서 화자의 구분에 따라 대화를 분리할 수 있는 대화 분리 장치 및 이에서의 대화 분리 방법에 관한 것이다. The present invention relates to a dialogue separating method, and more particularly, to a dialogue separating apparatus and a dialogue separating apparatus capable of separating a conversation according to a speaker's classification from a speech recognition result text using a pre- Separation method.

본 발명에 의하면, 음성 인식 단계에서 음성 고유의 특성을 이용하여 대화의 화자를 구분하는 방식이 아니라, 음성 인식된 결과 텍스트를 대화 유형별로 기 구축된 언어 사전 데이터베이스를 이용하여 대화의 화자를 분리할 수 있으며, 이를 통해 본 발명은 고 사양의 음성 인식기를 이용하지 않더라도 보다 용이하게 대화에 참여하는 화자를 구분할 수 있으며, 이러한 본 발명은 회의록, 고객 상담 내용 등 복수의 화자 간의 대화 내용을 보다 용이하게 기록하고 관리할 수 있게 된다. According to the present invention, not the method of distinguishing the speakers of conversation by using the characteristic inherent in the speech in the speech recognition step but the speaker of the conversation is separated by using the language dictionary database constructed for each conversation type The present invention can distinguish speakers who participate in conversation more easily without using a high-specification speech recognizer. The present invention can more easily make conversation between a plurality of speakers, Recording and management.

이를 통해 본 발명은 음성 인식 기술의 발전에 이바지함은 물론 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있다.Accordingly, the present invention not only contributes to the development of speech recognition technology, but also has a possibility of commercialization or sales, and is practically usable.

100: 음성 인식 장치 200: 대화 분리 장치
210: 음성 인식 결과 수신부 220: 대화 유형 결정부
230: 대화 문장 분리부 240: 대화 유닛 구성부
250: 결과 출력부 260: 언어 사전 데이터베이스
261: 대화 유형 정보 262: 대화 패턴 정보
263: 어휘 정보 264: 문장 분리 정보
500: 대화 분리 시스템
100: Speech recognition device 200: Dialogue separating device
210: speech recognition result receiving unit 220: conversation type determination unit
230: Conversation sentence separating unit 240: Conversation unit configuring unit
250: Result output section 260: Language dictionary database
261: Conversation type information 262: Conversation pattern information
263: lexical information 264: sentence separating information
500: Dialogue separation system

Claims (9)

음성 인식 결과 텍스트를 수신하는 음성 인식 결과 수신부;
상기 음성 인식 결과 텍스트를 기초로 대화 유형을 결정하는 대화 유형 결정부;
상기 결정된 대화 유형에 해당하는 기 구축된 언어 사전 데이터베이스를 이용하여 상기 음성 인식 결과 텍스트를 복수의 대화 문장으로 분리하는 대화 문장 분리부; 및
상기 분리된 복수의 대화 문장을 상기 기 구축된 언어 사전 데이터베이스를 이용하여 화자의 구분에 따라 대화 유닛으로 구성하는 대화 유닛 구성부;
를 포함하는 것을 특징으로 하는 대화 분리 장치.
A speech recognition result reception unit for receiving speech recognition result text;
A conversation type determination unit for determining a conversation type based on the speech recognition result text;
A conversation sentence separating unit that separates the speech recognition result text into a plurality of conversation sentences using a pre-built language dictionary database corresponding to the determined conversation type; And
A conversation unit constructing unit configured to construct the separated plurality of conversation sentences as conversation units according to a speaker's classification using the pre-built language dictionary database;
And a communication unit which communicates with the conversation separation apparatus.
제1 항에 있어서,
상기 대화 유형 결정부는
상기 음성 인식 결과 텍스트에서 주요 키워드를 추출하고, 추출된 주요 키워드에 대응하여 기 설정된 대화 유형을 상기 음성 인식 결과 텍스트에 대한 대화 유형으로 결정하는 것을 특징으로 하는 대화 분리 장치.
The method according to claim 1,
The conversation type determination unit
Extracts a main keyword from the speech recognition result text, and determines a predetermined dialogue type corresponding to the extracted main keyword as a dialogue type for the speech recognition result text.
제2 항에 있어서,
상기 대화 유형 결정부는
상기 음성 인식 결과 텍스트에서 지정된 횟수 이상 추출된 키워드 또는 기 설정된 키워드를 주요 키워드로 선정하여 추출하되, 지정된 불용어에 해당하는 키워드를 제외하여 주요 키워드를 추출하는 것을 특징으로 하는 대화 분리 장치.
3. The method of claim 2,
The conversation type determination unit
Extracts a keyword or a preset keyword extracted from the speech recognition result text by a predetermined number of times or more as a main keyword, and extracts a main keyword by excluding a keyword corresponding to the specified term.
제1 항에 있어서,
상기 언어 사전 데이터베이스는
기 정의된 대화 가이드라인과 이전 대화 예제 코퍼스를 이용하여 대화 유형별로 구축된 대화 유형 정보, 대화 패턴 정보, 어휘 정보 중 적어도 하나 이상을 포함하는 것을 특징으로 하는 대화 분리 장치.
The method according to claim 1,
The language dictionary database
Wherein the speech information includes at least one of conversation type information, conversation pattern information, and lexical information constructed for each conversation type using a previously defined conversation guidelines and a previous conversation example corpus.
제4 항에 있어서,
상기 대화 문장 분리부는
상기 언어 사전 데이터베이스의 대화 패턴 정보에 일치하는 대화 예제 코퍼스가 존재하는 경우, 해당 대화 예제 코퍼스를 대화 문장으로 분리하며, 일치하는 대화 예제 코퍼스가 존재하지 않을 경우, 상기 어휘 정보의 문장 시작 정보 또는 문장 끝 정보를 이용하여 상기 음성 인식 결과 텍스트를 복수의 대화 문장으로 분리하는 것을 특징으로 하는 대화 분리 장치.
5. The method of claim 4,
The conversation sentence separating unit
If there is a conversation example corpus matching the conversation pattern information of the language dictionary database, separates the conversation example corpus into conversation sentences, and if there is no cooperative conversation example corpus, And separates the speech recognition result text into a plurality of conversation sentences using the end information.
제4 항에 있어서,
상기 대화 유닛 구성부는
상기 언어 사전 데이터베이스의 대화 패턴 정보를 이용하여, 상기 복수의 대화 문장을 화자의 구분에 따라 대화 유닛으로 구성하되, 상기 대화 패턴 정보를 이용하여 화자의 구분이 어려운 대화 문장은 상기 대화 문장을 구성하는 어휘 정보를 참조하여 대화 유닛으로 구성하는 것을 특징으로 하는 대화 분리 장치.
5. The method of claim 4,
The conversation unit constructing unit
Wherein the plurality of conversation sentences are configured as conversation units based on the speaker's classification by using the conversation pattern information of the language dictionary database, and the conversation sentences, which are difficult to distinguish the speakers using the conversation pattern information, And the conversation unit is configured as a conversation unit by referring to the lexical information.
대화 분리 장치가 음성 인식 결과 텍스트를 수신하는 단계;
상기 대화 분리 장치가 상기 음성 인식 결과 텍스트를 기초로 대화 유형을 결정하는 단계;
상기 대화 분리 장치가 상기 결정된 대화 유형에 해당하는 기 구축된 언어 사전 데이터베이스를 이용하여 상기 음성 인식 결과 텍스트를 복수의 대화 문장으로 분리하는 단계; 및
상기 대화 분리 장치가 상기 분리된 복수의 대화 문장을 상기 기 구축된 언어 사전 데이터베이스를 이용하여 화자의 구분에 따른 대화 유닛으로 구성하는 단계;
를 포함하는 것을 특징으로 하는 대화 분리 방법.
Receiving a speech recognition result text by a dialog separating device;
The dialog separating device determining a conversation type based on the speech recognition result text;
Separating the speech recognition result text into a plurality of conversation sentences using the pre-built language dictionary database corresponding to the determined conversation type; And
Wherein the dialog separating apparatus comprises: constructing the separated plurality of conversation sentences as conversation units according to a speaker's classification using the pre-built language dictionary database;
And a second step of separating the speech data from the speech data.
제7 항에 있어서,
상기 대화 유형을 결정하는 단계는
상기 대화 분리 장치가 상기 음성 인식 결과 텍스트에서 주요 키워드를 추출하는 단계; 및
상기 대화 분리 장치가 상기 추출된 주요 키워드에 대응하여 기 저장된 대화 유형을 확인하여 결정하는 단계;
를 포함하는 것을 특징으로 하는 대화 분리 방법.
8. The method of claim 7,
The step of determining the type of conversation
Extracting a main keyword from the speech recognition result text; And
The dialog separating device checking and determining the previously stored conversation type corresponding to the extracted main keyword;
And a second step of separating the speech data from the speech data.
제7항 또는 제8항 중 어느 하나의 항에 기재된 대화 분리 방법을 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.


A computer-readable recording medium on which a program for executing the dialogue separation method according to any one of claims 7 to 8 is recorded.


KR1020140162456A 2014-11-20 2014-11-20 Apparatus and method for separating of dialogue KR102097710B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140162456A KR102097710B1 (en) 2014-11-20 2014-11-20 Apparatus and method for separating of dialogue

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140162456A KR102097710B1 (en) 2014-11-20 2014-11-20 Apparatus and method for separating of dialogue

Publications (2)

Publication Number Publication Date
KR20160060335A true KR20160060335A (en) 2016-05-30
KR102097710B1 KR102097710B1 (en) 2020-05-27

Family

ID=57124530

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140162456A KR102097710B1 (en) 2014-11-20 2014-11-20 Apparatus and method for separating of dialogue

Country Status (1)

Country Link
KR (1) KR102097710B1 (en)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754793A (en) * 2017-11-07 2019-05-14 现代自动车株式会社 Device and method for recommending the function of vehicle
CN109816508A (en) * 2018-12-14 2019-05-28 深圳壹账通智能科技有限公司 Method for authenticating user identity, device based on big data, computer equipment
WO2019103569A1 (en) * 2017-11-27 2019-05-31 주식회사 머니브레인 Method for improving performance of voice recognition on basis of context, computer apparatus, and computer-readable recording medium
KR20190082900A (en) * 2017-02-15 2019-07-10 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 A speech recognition method, an electronic device, and a computer storage medium
KR20200087514A (en) * 2019-01-11 2020-07-21 주식회사 액션파워 Coputer device for providing dialogues services
CN112201275A (en) * 2020-10-09 2021-01-08 深圳前海微众银行股份有限公司 Voiceprint segmentation method, voiceprint segmentation device, voiceprint segmentation equipment and readable storage medium
WO2021026617A1 (en) * 2019-08-15 2021-02-18 Imran Bonser Method and system of generating and transmitting a transcript of verbal communication
KR102298330B1 (en) * 2021-01-27 2021-09-06 주식회사 두유비 System for generating medical consultation summary and electronic medical record based on speech recognition and natural language processing algorithm
CN113515952A (en) * 2021-08-18 2021-10-19 内蒙古工业大学 Mongolian dialogue model combined modeling method, system and equipment
CN113744742A (en) * 2020-05-29 2021-12-03 中国电信股份有限公司 Role identification method, device and system in conversation scene
KR20220007453A (en) * 2020-07-10 2022-01-18 주식회사 액션파워 Computing device for providing dialogues services
WO2022097816A1 (en) * 2020-11-05 2022-05-12 한국과학기술원 System for predicting reliability degree regarding conversation partner considering personality information of conversation partner and user, and method therefor
US11709655B2 (en) 2018-02-23 2023-07-25 Samsung Electronics Co., Ltd. Electronic device and control method thereof

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080037402A (en) 2006-10-26 2008-04-30 엘지전자 주식회사 Method for making of conference record file in mobile terminal
KR20110038474A (en) * 2009-10-08 2011-04-14 한국전자통신연구원 Apparatus and method for detecting sentence boundaries
JP2011082839A (en) * 2009-10-08 2011-04-21 Mitsubishi Electric Building Techno Service Co Ltd Call center system
JP2011087005A (en) * 2009-10-13 2011-04-28 Neikusu:Kk Telephone call voice summary generation system, method therefor, and telephone call voice summary generation program
KR20110068496A (en) * 2009-12-16 2011-06-22 한국원자력연구원 System for evaluating communication quality and its using method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080037402A (en) 2006-10-26 2008-04-30 엘지전자 주식회사 Method for making of conference record file in mobile terminal
KR20110038474A (en) * 2009-10-08 2011-04-14 한국전자통신연구원 Apparatus and method for detecting sentence boundaries
JP2011082839A (en) * 2009-10-08 2011-04-21 Mitsubishi Electric Building Techno Service Co Ltd Call center system
JP2011087005A (en) * 2009-10-13 2011-04-28 Neikusu:Kk Telephone call voice summary generation system, method therefor, and telephone call voice summary generation program
KR20110068496A (en) * 2009-12-16 2011-06-22 한국원자력연구원 System for evaluating communication quality and its using method

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190082900A (en) * 2017-02-15 2019-07-10 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 A speech recognition method, an electronic device, and a computer storage medium
CN109754793A (en) * 2017-11-07 2019-05-14 现代自动车株式会社 Device and method for recommending the function of vehicle
CN109754793B (en) * 2017-11-07 2024-03-19 现代自动车株式会社 Device and method for recommending functions of vehicle
WO2019103569A1 (en) * 2017-11-27 2019-05-31 주식회사 머니브레인 Method for improving performance of voice recognition on basis of context, computer apparatus, and computer-readable recording medium
US11709655B2 (en) 2018-02-23 2023-07-25 Samsung Electronics Co., Ltd. Electronic device and control method thereof
CN109816508A (en) * 2018-12-14 2019-05-28 深圳壹账通智能科技有限公司 Method for authenticating user identity, device based on big data, computer equipment
KR20200087514A (en) * 2019-01-11 2020-07-21 주식회사 액션파워 Coputer device for providing dialogues services
WO2021026617A1 (en) * 2019-08-15 2021-02-18 Imran Bonser Method and system of generating and transmitting a transcript of verbal communication
CN113744742A (en) * 2020-05-29 2021-12-03 中国电信股份有限公司 Role identification method, device and system in conversation scene
CN113744742B (en) * 2020-05-29 2024-01-30 中国电信股份有限公司 Role identification method, device and system under dialogue scene
KR20220007453A (en) * 2020-07-10 2022-01-18 주식회사 액션파워 Computing device for providing dialogues services
CN112201275A (en) * 2020-10-09 2021-01-08 深圳前海微众银行股份有限公司 Voiceprint segmentation method, voiceprint segmentation device, voiceprint segmentation equipment and readable storage medium
WO2022097816A1 (en) * 2020-11-05 2022-05-12 한국과학기술원 System for predicting reliability degree regarding conversation partner considering personality information of conversation partner and user, and method therefor
KR102298330B1 (en) * 2021-01-27 2021-09-06 주식회사 두유비 System for generating medical consultation summary and electronic medical record based on speech recognition and natural language processing algorithm
CN113515952A (en) * 2021-08-18 2021-10-19 内蒙古工业大学 Mongolian dialogue model combined modeling method, system and equipment
CN113515952B (en) * 2021-08-18 2023-09-12 内蒙古工业大学 Combined modeling method, system and equipment for Mongolian dialogue model

Also Published As

Publication number Publication date
KR102097710B1 (en) 2020-05-27

Similar Documents

Publication Publication Date Title
KR102097710B1 (en) Apparatus and method for separating of dialogue
JP6945695B2 (en) Utterance classifier
AU2016216737B2 (en) Voice Authentication and Speech Recognition System
O’Shaughnessy Automatic speech recognition: History, methods and challenges
US9640175B2 (en) Pronunciation learning from user correction
CN1655235B (en) Automatic identification of telephone callers based on voice characteristics
US10176809B1 (en) Customized compression and decompression of audio data
Junqua Robust speech recognition in embedded systems and PC applications
CN1783213A (en) Methods and apparatus for automatic speech recognition
JPH09500223A (en) Multilingual speech recognition system
KR20050098839A (en) Intermediary for speech processing in network environments
EP2104935A1 (en) Method and system for providing speech recognition
US20080243504A1 (en) System and method of speech recognition training based on confirmed speaker utterances
US11062711B2 (en) Voice-controlled communication requests and responses
Gallardo Human and automatic speaker recognition over telecommunication channels
JP2016186515A (en) Acoustic feature value conversion device, acoustic model application device, acoustic feature value conversion method, and program
US9218807B2 (en) Calibration of a speech recognition engine using validated text
Sharma et al. Speech recognition: A review
US20080243499A1 (en) System and method of speech recognition training based on confirmed speaker utterances
EP2541544A1 (en) Voice sample tagging
KR101598950B1 (en) Apparatus for evaluating pronunciation of language and recording medium for method using the same
US10854196B1 (en) Functional prerequisites and acknowledgments
US20080243498A1 (en) Method and system for providing interactive speech recognition using speaker data
Gallardo Human and automatic speaker recognition over telecommunication channels
Zue et al. Spoken language input

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant