KR102097710B1 - 대화 분리 장치 및 이에서의 대화 분리 방법 - Google Patents

대화 분리 장치 및 이에서의 대화 분리 방법 Download PDF

Info

Publication number
KR102097710B1
KR102097710B1 KR1020140162456A KR20140162456A KR102097710B1 KR 102097710 B1 KR102097710 B1 KR 102097710B1 KR 1020140162456 A KR1020140162456 A KR 1020140162456A KR 20140162456 A KR20140162456 A KR 20140162456A KR 102097710 B1 KR102097710 B1 KR 102097710B1
Authority
KR
South Korea
Prior art keywords
conversation
speech recognition
unit
text
recognition result
Prior art date
Application number
KR1020140162456A
Other languages
English (en)
Other versions
KR20160060335A (ko
Inventor
김성묵
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020140162456A priority Critical patent/KR102097710B1/ko
Publication of KR20160060335A publication Critical patent/KR20160060335A/ko
Application granted granted Critical
Publication of KR102097710B1 publication Critical patent/KR102097710B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building

Abstract

본 발명은 대화 분리 방법에 관한 것으로, 더욱 상세하게는 대화 유형별로 기 구축된 언어 사전 데이터베이스를 이용하여 음성 인식 결과 텍스트에서 화자의 구분에 따라 대화를 분리할 수 있는 대화 분리 장치 및 이에서의 대화 분리 방법에 관한 것이다.
이를 위한 본 발명의 일 실시 예에 따른 대화 분리 장치는 음성 인식 결과 텍스트를 수신하는 음성 인식 결과 수신부, 상기 음성 인식 결과 텍스트를 기초로 대화 유형을 결정하는 대화 유형 결정부, 상기 결정된 대화 유형에 해당하는 기 구축된 언어 사전 데이터베이스를 이용하여 상기 음성 인식 결과 텍스트를 복수의 대화 문장으로 분리하는 대화 문장 분리부 및 상기 분리된 복수의 대화 문장을 상기 기 구축된 언어 사전 데이터베이스를 이용하여 화자의 구분에 따라 대화 유닛으로 구성하는 대화 유닛 구성부를 포함하여 구성될 수 있다.

Description

대화 분리 장치 및 이에서의 대화 분리 방법{APPARATUS AND METHOD FOR SEPARATING OF DIALOGUE}
본 발명은 대화 분리 방법에 관한 것으로, 더욱 상세하게는 대화 유형별로 기 구축된 언어 사전 데이터베이스를 이용하여 음성 인식 결과 텍스트에서 화자의 구분에 따라 대화를 분리할 수 있는 대화 분리 장치 및 이에서의 대화 분리 방법에 관한 것이다.
이 부분에 기술된 내용은 단순히 본 실시 예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.
기술의 발달에 따라 최근 많은 분야에서 음성 인식 기술이 적용되고 있다. 음성 인식 기술은 사람이 발성하는 음성을 이해하여 컴퓨터가 다룰 수 있는 문자 정보로 변환하는 일련의 과정이라 할 수 있다. 일반적으로 음성 인식 결과는 텍스트 형태로 사용자에게 제공될 수 있는데, 음성 인식 결과에 따른 텍스트는 일련의 문자의 나열로, 복수의 화자가 대화에 참여하고 있는 경우 이를 구분하기 위해, 사용자가 직접 음성 인식 결과 텍스트를 확인하여 화자별로 문장을 구분해야 한다는 문제점이 있다.
이러한 문제점을 해결하기 위해 최근에는 화자의 음성 주파수 대역과 같이 화자별로 서로 다른 음성 고유의 특성을 이용하여 대화에 참여하는 화자를 구분하는 기술이 선보이고 있다.
그러나, 음성 고유의 특성을 이용하여 화자를 구분하는 방법은 고 사양의 음성 인식기를 요구하며 이는 비용의 증가를 야기한다는 문제점이 있다.
한국공개특허 제2008-0037402호, 2008년 4월 30일 공개 (명칭: 이동통신 단말기의 회의록 작성 방법)
본 발명은 상기한 종래의 문제점을 해결하기 위해 제안된 것으로서, 특히 대화 유형별로 기 구축된 언어 사전 데이터베이스를 이용하여 음성 인식 결과 텍스트에서 화자의 구분에 따라 대화를 분리할 수 있는 대화 분리 장치 및 이에서의 대화 분리 방법을 제공하는 데 목적이 있다.
그러나, 이러한 본 발명의 목적은 상기의 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.
상술한 바와 같은 목적을 달성하기 위한 본 발명의 대화 분리 장치는 음성 인식 결과 텍스트를 수신하는 음성 인식 결과 수신부; 상기 음성 인식 결과 텍스트를 기초로 대화 유형을 결정하는 대화 유형 결정부; 상기 결정된 대화 유형에 해당하는 기 구축된 언어 사전 데이터베이스를 이용하여 상기 음성 인식 결과 텍스트를 복수의 대화 문장으로 분리하는 대화 문장 분리부; 및 상기 분리된 복수의 대화 문장을 상기 기 구축된 언어 사전 데이터베이스를 이용하여 화자의 구분에 따라 대화 유닛으로 구성하는 대화 유닛 구성부;를 포함하여 구성될 수 있다.
이때, 상기 대화 유형 결정부는 상기 음성 인식 결과 텍스트에서 주요 키워드를 추출하고, 추출된 주요 키워드에 대응하여 기 설정된 대화 유형을 상기 음성 인식 결과 텍스트에 대한 대화 유형으로 결정할 수 있다.
이때, 상기 대화 유형 결정부는 상기 음성 인식 결과 텍스트에서 지정된 횟수 이상 추출된 키워드 또는 기 설정된 키워드를 주요 키워드로 선정하여 추출하되, 지정된 불용어에 해당하는 키워드를 제외하여 주요 키워드를 추출할 수 있다.
아울러, 상기 언어 사전 데이터베이스는 기 정의된 대화 가이드라인과 이전 대화 예제 코퍼스를 이용하여 대화 유형별로 구축된 대화 유형 정보, 대화 패턴 정보, 어휘 정보 중 적어도 하나 이상을 포함할 수 있다.
여기서, 상기 대화 문장 분리부는 상기 언어 사전 데이터베이스의 대화 패턴 정보에 일치하는 대화 예제 코퍼스가 존재하는 경우, 해당 대화 예제 코퍼스를 대화 문장으로 분리하며, 일치하는 대화 예제 코퍼스가 존재하지 않을 경우, 상기 어휘 정보의 문장 시작 정보 또는 문장 끝 정보를 이용하여 상기 음성 인식 결과 텍스트를 복수의 대화 문장으로 분리할 수 있다.
또한, 상기 대화 유닛 구성부는 상기 언어 사전 데이터베이스의 대화 패턴 정보를 이용하여, 상기 복수의 대화 문장을 화자의 구분에 따라 대화 유닛으로 구성하되, 상기 대화 패턴 정보를 이용하여 화자의 구분이 어려운 대화 문장은 상기 대화 문장을 구성하는 어휘 정보를 참조하여 대화 유닛으로 구성할 수 있다.
상술한 바와 같은 목적을 달성하기 위한 본 발명의 대화 분리 방법은 대화 분리 장치가 음성 인식 결과 텍스트를 수신하는 단계; 상기 대화 분리 장치가 상기 음성 인식 결과 텍스트를 기초로 대화 유형을 결정하는 단계; 상기 대화 분리 장치가 상기 결정된 대화 유형에 해당하는 기 구축된 언어 사전 데이터베이스를 이용하여 상기 음성 인식 결과 텍스트를 복수의 대화 문장으로 분리하는 단계; 및 상기 대화 분리 장치가 상기 분리된 복수의 대화 문장을 상기 기 구축된 언어 사전 데이터베이스를 이용하여 화자의 구분에 따른 대화 유닛으로 구성하는 단계;를 포함하여 이뤄질 수 있다.
이때, 상기 대화 유형을 결정하는 단계는 상기 대화 분리 장치가 상기 음성 인식 결과 텍스트에서 주요 키워드를 추출하는 단계; 및 상기 대화 분리 장치가 상기 추출된 주요 키워드에 대응하여 기 저장된 대화 유형을 확인하여 결정하는 단계;를 포함하여 이뤄질 수 있다.
추가로 본 발명은 상술한 바와 같은 대화 분리 방법을 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체를 제공할 수 있다.
본 발명의 대화 분리 장치 및 이에서의 대화 분리 방법에 의하면, 음성 인식 단계에서 음성 고유의 특성을 이용하여 대화의 화자를 구분하는 방식이 아니라, 음성 인식된 결과 텍스트를 대화 유형별로 기 구축된 언어 사전 데이터베이스를 이용하여 대화의 화자를 분리할 수 있게 된다. 이를 통해 본 발명은 고 사양의 음성 인식기를 이용하지 않더라도 보다 용이하게 대화에 참여하는 화자를 구분할 수 있게 된다.
또한, 본 발명은 언어 사전 데이터베이스에 사용자 설정에 따라 다양한 대화 가이드라인 등의 다양한 대화 예제 코퍼스를 추가함으로써, 성능 향상이 가능하며, 다양한 도메인에 적용이 용이하다는 장점이 있다.
이러한 본 발명을 통해 회의록, 고객 상담 내용 등 복수의 화자 간의 대화 내용을 보다 용이하게 기록하고 관리할 수 있게 된다.
아울러, 상술한 효과 이외의 다양한 효과들이 후술될 본 발명의 실시 예에 따른 상세한 설명에서 직접적 또는 암시적으로 개시될 수 있다.
도 1은 본 발명의 실시 예에 따른 대화 분리 시스템의 주요 구성을 개략적으로 도시한 블록도이다.
도 2는 본 발명의 실시 예에 따른 대화 분리 장치의 주요 구성을 도시한 구성도이다.
도 3은 본 발명의 실시 예에 따른 대화 분리 방법을 설명하기 위한 흐름도이다.
도 4는 본 발명의 실시 예에 따른 대화 분리 방법을 설명하기 위한 예시도이다.
이하 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있는 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예에 대한 동작 원리를 상세하게 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 이는 불필요한 설명을 생략함으로써 본 발명의 핵심을 흐리지 않고 더욱 명확히 전달하기 위함이다. 또한 본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 하나, 이는 본 발명을 특정한 실시 형태로 한정하려는 것은 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
또한, 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하기 위해 사용하는 것으로, 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용될 뿐, 상기 구성요소들을 한정하기 위해 사용되지 않는다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제2 구성요소는 제1 구성요소로 명명될 수 있고, 유사하게 제1 구성요소도 제2 구성요소로 명명될 수 있다.
더하여, 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급할 경우, 이는 논리적 또는 물리적으로 연결되거나, 접속될 수 있음을 의미한다. 다시 말해, 구성요소가 다른 구성요소에 직접적으로 연결되거나 접속되어 있을 수 있지만, 중간에 다른 구성요소가 존재할 수도 있으며, 간접적으로 연결되거나 접속될 수도 있다고 이해되어야 할 것이다.
또한, 본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 본 명세서에서 기술되는 "포함 한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이제 본 발명의 실시 예에 따른 대화 분리 장치 및 이에서의 대화 분리 방법에 대하여 도면을 참조하여 상세하게 설명하도록 한다. 이때, 도면 전체에 걸쳐 유사한 기능 및 작용을 하는 부분에 대해서는 동일한 도면 부호를 사용하며, 이에 대한 중복되는 설명은 생략하기로 한다.
먼저 본 발명의 대화 분리 장치를 포함하는 대화 분리 시스템에 대해 설명하도록 한다.
도 1은 본 발명의 실시 예에 따른 대화 분리 시스템의 주요 구성을 개략적으로 도시한 블록도이다.
도 1을 참조하면, 본 발명의 실시 예에 따른 대화 분리 시스템(500)은 음성 인식 장치(100) 및 대화 분리 장치(200)를 포함하여 구성될 수 있다.
먼저, 음성 인식 장치(100)는 사용자로부터 아날로그 형태의 음성 신호가 입력되면, 입력된 음성 신호를 디지털 형태의 음성 데이터로 변환한 후, 변환된 음성 데이터를 기초로 음성 인식을 진행하여 인식 결과를 출력하게 된다. 여기서, 음성 인식 장치(100)에 입력되는 아날로그 형태의 음성 신호는 복수의 사용자에 대한 음성 신호를 포함한다. 음성 인식 장치(100)는 이러한 복수의 사용자에 대한 음성 신호가 입력되면 이에 대한 음성 인식을 진행하여 인식 결과를 출력하며, 이때의 인식 결과는 텍스트 형태로 사용자가 인지할 수 있는 일련의 문자로 표시되어 출력될 수 있다.
본다 구체적으로, 본 발명의 음성 인식 장치(100)는 다양한 샘플링 주파수를 포함하는 음성 신호의 입력을 지원할 수 있다. 음성 인식 장치(100)는 다양한 형태의 음성 신호가 입력되면 이를 디지털 형태의 이산적인 음성 데이터 값으로 변환시키는 ADC(Analog to Digital Convert) 과정을 수행하게 된다. 그리고 디지털 형태로 변환된 음성 데이터를 기초로 다양한 방식으로 특징 파라미터를 추출한다. 여기서, 특징 파라미터는 상기 디지털 형태로 변환된 음성 데이터의 주파수 영역에서의 음성, 음향학적인 특징 정보를 의미한다. 예컨대, 음의 길이(duration), 음의 에너지(energy), 피치(pitch), 파워(power), LPC(linear predictive coding) 계수, 모음의 구성음소 즉, 포만트(formant), RFC(Rising Falling Connection)/Tilt, 스펙트럼(Spectrum), VOT(Voice Onset Time) 등이 특징 파라미터로 추출될 수 있다. 아울러, 본 발명의 음성 인식 장치(100)는 특징 파라미터 추출 시 MFCC(Mel-Frequency Cepstrum Codfficient), LPCC(Linear Prediction Coefficient Cepstrum) 또는 PLPCC(Preceptual Linear Prediction Ceptrum Coeffcient), EIH(Ensemble Interval Histogram), SMC (Short-time Modified Coherence) 등의 기법을 통해 추출할 수 있다.
그리고 음성 인식 장치(100)는 추출된 특징 파라미터를 기 구축된 음소들을 통계적으로 모델링한 음향 모델, 문법에 적합한 음성 인식 결과가 도출되도록 지원하는 언어 모델, 표준 발음법에 의거한 결과가 산출되도록 지원하는 발음 사전 등을 고려하여 최종 음성 인식 결과를 산출할 수 있게 된다. 본 발명의 음성 인식 장치(100)는 특징 파라미터를 음향 모델, 언어 모델, 발음 사전 등을 고려하여 음성 인식 결과 산출 시 다양한 방식을 적용하여 음성 인식 결과를 산출할 수 있다. 예컨대, HMM(hidden Markov Model), FSN(Finite State Network) 등에 따라 음성 인식 결과를 산출할 수 있다.
아울러, 본 발명의 음성 인식 장치(100)는 음성 인식 결과를 텍스트 형태로 산출하고, 이를 대화 분리 장치(200)로 전달하게 된다. 즉, 일반적인 방식의 대화 구분 방법은 음성 인식 장치(100)가 음성 신호의 특징 파라미터를 이용하여 화자간 대화를 구분하는 방식이라면, 본 발명은 대화 분리 장치(200)가 음성 인식 결과 텍스트를 이용하여 화자간 대화를 구분하게 된다. 따라서 음성 인식 장치(100)는 공지된 다양한 방식의 음성 인식 장치를 이용할 수 있다.
본 발명의 대화 분리 장치(200)는 음성 인식 장치(100)로부터 전달되는 음성 인식 결과 텍스트를 화자의 구분에 따른 대화 유닛으로 대화를 구분하는 역할을 수행하게 된다. 본 발명에서 기술하는 대화(dialogue)란 화자의 말을 의미한다. 대화에 참여하는 화자가 2명일 경우, 대화 분리 장치(200)는 2인의 화자 간의 주고받는 대화 별로 음성 인식 결과 텍스트를 구분하여 출력할 수 있게 된다. 이를 위한 본 발명의 대화 분리 장치(200)는 먼저 음성 인식 결과 텍스트를 기초로 대화 유형을 결정한다. 대화 유형은 예컨대, 고객 불만, 서비스 가입, 서비스 해지 등 대화의 목적/의도를 의미할 수 있다. 이러한 대화 유형은 상기 예시에 한정되는 것은 아니며, 연예인, 소설, 과학 등 특정 주제가 될 수 있으며, 대화를 구분할 수 있는 기준으로 적용될 수 있는 그 어떠한 카테고리도 본 발명의 대화 유형으로 적용될 수 있다.
그리고, 본 발명의 대화 분리 장치(200)는 대화 유형이 결정되면, 대화 유형에 해당하는 기 구축된 언어 사전 데이터베이스를 이용하여 음성 인식 결과 텍스트를 복수의 대화 문장으로 분리하게 된다. 여기서, 언어 사전 데이터베이스란 기 정의된 대화 가이드라인과 이전 대화 분리된 정보인 이전 대화 예제 코퍼스(corpus)를 이용하여 대화 유형별로 구축될 수 있는 정보로, 대화 유형 정보, 대화 패턴 정보, 어휘 정보 등의 통제된 정보를 의미한다.
아울러, 본 발명에서 정의하는 대화 문장이란 대화를 구분할 수 있는 최소 단위를 의미하는 것으로 적어도 하나 이상의 문장을 포함하는 개념이 될 수 있다. 이러한 대화 문장은 언어 사전 데이터베이스의 대화 패턴 정보를 이용하여 추출될 수 있다. 예를 들어, 언어 인식 결과 텍스트에 '안녕하십니까 t텔레콤 고객센터 AAA입니다'와 같은 텍스트가 포함되어 있을 경우, 상기 텍스트가 상기 언어 사전 데이터베이스의 대화 패턴 정보에 포함된 대화 예제 코퍼스일 경우, 대화 분리 장치(200)는 상기 대화 예제 코퍼스를 하나의 대화 문장으로 분리할 수 있다. 반면, 대화 예제 코퍼스를 이용하여 분리할 수 없는 문장일 경우, 대화 문장은 문장 시작 정보 또는 문장 끝 정보를 이용하여 분리될 수 있다.
그리고, 대화 분리 장치(200)는 복수의 대화 문장으로 음성 인식 결과 텍스트가 구분되면, 화자의 구분에 따라 대화 유닛을 구성하여 출력하게 된다.
여기서, 본 발명의 정의하는 대화 유닛이란 화자에 의해 구분될 수 있는 하나의 말을 의미한다. 예컨대 대화에 참여하는 화자가 1명일 경우, 대화 분리 장치(200)는 화자 1인에 대한 대화 유닛을 구성하여 출력할 수 있다. 이때, 대화 문장이 복수 개 존재하는 경우, 대화 분리 장치(200)는 상기 복수의 대화 문장을 결합하여 1개의 대화 유닛 형태로 출력할 수 있다.
그러나, 대화에 참여하는 화자가 2명일 경우, 대화 분리 장치(200)는 화자 2인이 서로 주고 받는 형태로 대화 유닛을 구성함으로써 화자 간의 대화를 구분할 수 있게 된다. 여기서, 대화 유닛은 전술한 바와 같이 적어도 하나 이상의 대화 문장을 포함할 수 있다.
아울러, 대화 분리 장치(200)가 출력되는 대화 분리 결과는 텍스트 형태로 출력되거나 다양한 형태로 출력될 수도 있다.
보다 구체적인 대화 분리 장치(200)에서의 대화 구분 방법에 대해서는 후술하도록 하며, 본 발명의 음성 인식 장치(100) 및 대화 분리 장치(200)는 설명의 편의를 위해 도면에서는 구분된 형태로 도시하였으나, 이에 한정되는 것은 아니며, 음성 인식 장치(100) 및 대화 분리 장치(200)는 하나의 통합된 장치로 구현될 수 있다. 또한, 음성 인식 장치(100) 및 대화 분리 장치(200)는 독립된 장치로 구현될 수도 있으나, 또 다른 장치 또는 시스템 내에 내장된(embedded) 일 모듈 형태로 존재할 수도 있다.
아울러, 본 발명의 음성 인식 장치(100) 및 대화 분리 장치(200)는 어플리케이션(application)과 같은 프로그램 형태로 구현될 수도 있다. 예시로, 스마트 폰(smart phone)과 같은 사용자가 이용할 수 있는 각종 전자 장치에 내장되거나, 프로그램 형태로 상기 장치에 설치되어 이용될 수 있다.
또한, 본 발명의 음성 인식 장치(100) 및 대화 분리 장치(200)는 웹 서버 형태로 구현될 수 있다. 이 때, 사용자는 자신의 스마트폰과 같은 사용자 단말을 이용하여 파일 형태의 음성 데이터를 생성하고, 이를 통신망을 거쳐 음성 인식 장치(100)로 전달할 수 있다. 또한, 대화 분리 장치(200)를 통해 대화가 분리된 결과를 통신망을 거쳐 사용자 단말로 전달할 수도 있다. 또한, 음성 인식 장치(100) 및 대화 분리 장치(200)는 유선으로 연결될 수 있으나, 통신망으로 연결되는 이원적 처리 시스템으로 구현될 수도 있다. 더하여, 본 발명의 대화 분리 장치(200)는 고객 상담 시스템, 회의록 작성 시스템과 같이 특정 서비스를 지원하는 웹 서버와 연동하여 동작할 수도 있다.
이러한 본 발명의 음성 인식 장치(100) 및 대화 분리 장치(200)에 탑재되는 프로세서는 본 발명에 따른 방법을 실행하기 위한 프로그램 명령을 처리할 수 있다. 일 구현 예에서, 이 프로세서는 싱글 쓰레드(Single-threaded) 프로세서일 수 있으며, 다른 구현 예에서 본 프로세서는 멀티 쓰레드(Multithreaded) 프로세서일 수 있다. 나아가 본 프로세서는 메모리 혹은 저장 장치 상에 저장된 명령을 처리하는 것이 가능하다.
이하, 본 발명의 실시 예에 따른 대화 분리 장치(200)의 주요 구성 및 동작 방법에 대해 설명하도록 한다.
도 2는 본 발명의 실시 예에 따른 대화 분리 장치의 주요 구성을 도시한 구성도이다.
도 1 및 도 2를 참조하면, 본 발명의 실시 예에 따른 대화 분리 장치(200)는 음성 인식 결과 수신부(210), 대화 유형 결정부(220), 대화 문장 분리부(230), 대화 유닛 구성부(240), 결과 출력부(250) 및 언어 사전 데이터베이스(260)를 포함하여 구성될 수 있다.
각 구성 요소에 대해 보다 구체적으로 설명하면, 먼저, 음성 인식 결과 수신부(210)는 음성 인식 장치(100)로부터 음성 인식 결과 텍스트를 수신하여 입력하는 역할을 지원한다. 여기서 음성 인식 결과 수신부(210)는 음성 인식 장치(100)로부터 유선 또는 무선의 방식으로 음성 인식 결과 텍스트를 수신할 수 있다.
대화 유형 결정부(220)는 음성 인식 결과 수신부(210)를 통해 전달되는 음성 인식 결과 텍스트를 기초로 대화 유형을 결정하는 역할을 수행한다. 대화 유형이란 예컨대, 고객 불만, 서비스 가입, 서비스 해지 등 대화의 목적/의도를 의미한다. 이러한 대화 유형은 상기 예시에 한정되는 것은 아니며, 연예인, 소설, 과학 등 특정 주제가 될 수 있으며, 대화를 구분할 수 있는 기준으로 적용될 수 있는 그 어떠한 카테고리도 본 발명의 대화 유형으로 적용될 수 있다.
이를 위해, 본 발명의 대화 유형 결정부(220)는 음성 인식 결과 텍스트에서 주요 키워드를 추출하고, 추출된 주요 키워드에 대응하여 기 설정된 대화 유형을 기 구축된 언어 사전 데이터베이스(260)의 대화 유형 정보(261)를 참조하여 확인한 후 음성 인식 결과 텍스트에 대한 대화 유형으로 결정하게 된다.
여기서 주요 키워드는 음성 인식 결과 텍스트에서 지정된 횟수 이상 추출되는 키워드 또는 설정된 키워드로 다수 개 존재할 수 있다. 예를 들어, 음성 인식 결과 텍스트에서 추출된 주요 키워드가 '보험', '신규', '가입'일 경우, 상기 주요 키워드에 대응하여 기 설정된 대화 유형은 '보험 가입'이 될 수 있다.
이때, 대화 유형 결정부(220)는 상기 주요 키워드 추출 조건을 만족하는 키워드이더라도, 지정된 불용어에 해당하는 키워드를 제외하여 주요 키워드로 추출할 수 있다. 예를 들어 주요 키워드 추출 조건이 지정된 횟수 이상 추출되는 키워드일 경우, 특정 욕설이 지정된 횟수 이상 추출되더라도, 상기 욕설이 불용어로 지정되어 있을 경우, 불용어를 제외하여 주요 키워드를 추출할 수 있다.
그리고 대화 유형 결정부(220)는 결정된 대화 유형에 대한 정보를 대화 문장 분리부(230)로 전달하게 된다.
대화 문장 분리부(230)는 결정된 대화 유형에 해당하는 기 구축된 언어 사전 데이터베이스(260)를 이용하여 음성 인식 결과 텍스트를 복수의 대화 유닛으로 분리하게 된다. 보다 구체적으로 결정된 대화 유형이 '서비스 해지'일 경우, 대화 문장 분리부(230)는 '서비스 해지'에 해당하는 언어 사전 데이터베이스(260)를 이용하여, 보다 정확하게는 '서비스 해지'에 해당하는 대화 패턴 정보(262) 및 어휘 정보(263)를 이용하여 음성 인식 결과 텍스트를 복수의 대화 문장으로 분리하게 된다. 보다 구체적으로 대화 문장 분리부(230)는 대화 패턴 정보(262)에 저장된 대화 예제 코퍼스를 이용하여 상기 음성 인식 결과 텍스트를 대화 문장으로 분리할 수 있다. 예를 들어, 언어 인식 결과 텍스트에 '안녕하십니까 t텔레콤 고객센터 AAA입니다'와 같이 화자에 의해 고정적으로 발화되는 부분이 존재할 경우, 대화 문장 분리부(230)는 대화 패턴 정보(262)의 대화 예제 코퍼스를 이용하여 상기 부분을 하나의 대화 문장으로 전체 언어 인식 결과 텍스트에서 추출하여 분리할 수 있다. 반면, 대화 패턴 정보(262)만을 가지고 대화 문장으로 분리할 수 없을 경우, 대화 문장 분리부(230)는 언어 사전 데이터베이스(260)의 어휘 정보(263)에 저장된 문장 시작 정보 또는 문장 끝 정보를 이용하여 대화 문장으로 분리할 수 있다. 예컨대, '니까', '니다', '까요', '데요', '고요', '세요', '나요', '이요', '네요'와 같이 문장의 끝을 알리는 정보를 이용하여 언어 인식 결과 텍스트에서 대화 문장별로 분리할 수 있게 된다. 또한, '그런데요', '알잖아', '알지', '그러니까', '그런데', '그래서'와 같이 다음 대화가 이어짐을 알리는 접속사 등에 대한 정보인 문장 시작 정보를 이용하여 대화 문장으로 분리할 수 있다.
대화 유닛 구성부(240)는 상기 대화 문장 분리부(230)를 통해 분리된 복수의 대화 문장을 기 구축된 언어 사전 데이터베이스(260)를 이용하여 화자에 대한 대화 유닛으로 구성하여 분리하게 된다. 여기서, 본 발명의 정의하는 대화 유닛이란 화자의 하나의 말을 의미한다. 예컨대 대화에 참여하는 화자가 1명일 경우, 대화 유닛 구성부(240)는 화자 1인에 대한 대화 유닛을 구성하여 출력할 수 있다. 그러나, 대화에 참여하는 화자가 2명일 경우, 대화 유닛 구성부(240)는 화자 2인이 서로 주고 받는 형태로 대화 유닛을 구성하여 화자 간의 대화를 구분할 수 있게 한다. 이를 위해 대화 유닛 구성부(240)는 먼저, 언어 사전 데이터베이스(260)의 대화 패턴 정보(262)를 참조하여 대화 문장이 어느 화자에 의해 발화되는 지 확인한다. 일반적으로 화자 간의 대화 패턴은 ' 인사', '발화 목적/의도', '발화 목적/의도 대응', '인사'와 같은 순서로 이뤄질 수 있다. 대화 유닛 구성부(240)는 이러한 대화 패턴을 고려하여, 화자 간 대화 유닛으로 대화 문장을 구성할 수 있게 되는데, 예를 들어, '안녕하십니까 t텔레콤 고객센터 AAA입니다'의 대화 문장은 일반적으로 상담원이 발화하는 대화 문장임을 상기 언어 사전 데이터베이스(260)을 통해 확인하고, 상기 문장 다음에 발화된 대화 문장에 대해서는 상담원이 아닌 다른 화자에 의해 발화된 대화 문장임을 확인할 수 있게 된다. 반면, 대화 패턴 정보만을 고려하여 화자 구분이 어려운 대화 문장에 대해서는 어휘 정보를 함께 고려하여 화자에 대한 대화 유닛을 구분할 수 있다.
이와 같이, 대화 유닛 구성부(240)는 기 구축된 언어 사전 데이터베이스(260)를 참조하여, 화자의 구분에 따라 적어도 하나 이상의 대화 문장을 포함하는 대화 유닛을 구성할 수 있게 된다.
결과 출력부(250)는 화자의 구분에 따라 대화가 분리된 결과 형태로 대화 유닛을 출력하는 역할을 수행한다. 이때의 대화 분리 결과는 텍스트 형태로 출력되거나 다양한 형태로 출력될 수도 있다. 또한, 결과 출력부(250)를 통해 출력된 대화 분리 결과는 이전 대화 예제 코퍼스로 사용될 수 있으며, 이를 위해 상기 언어 사전 데이터베이스(260)에 저장되어 학습될 수 있다.
아울러, 본 발명의 실시 예에 따른 언어 사전 데이터베이스(260)는 기 정의된 대화 가이드라인과 이전 대화 예제 코퍼스를 이용하여 대화 유형별로 구축될 수 있는 정보를 의미한다. 여기서, 기 정의된 대화 가이드라인은 관리자에 의해 직접 입력될 수 있는 정보로, 대화에서 주로 발화되는 문장에 대한 가이드라인을 의미한다. 예컨대, 본 발명의 대화 분리 장치(200)가 통신사 고객 상담 시스템에 적용되는 경우, 통신사 고객 상담원이 주로 발화하는 대화 패턴에 대한 가이드라인이 될 수 있다. 또 다른 예를 들어 본 발명의 대화 분리 장치(200)가 보험사 고객 상담 시스템에 적용되는 경우, 보험사 고객 상담원이 주로 발화하는 대화 패턴에 대한 가이드라인이 될 수 있다. 반면, 이전 대화 예제 코퍼스는 결과 출력부(250)에 의해 출력되는 대화 분리 결과를 의미하는 것으로, 대화 분리 결과는 다음 번 대화 분리를 위한 대화 예제 코퍼스로 저장되어 활용될 수 있다. 이러한 언어 사전 데이터베이스(260)는 전술한 바와 같이 대화 유형별로 구축될 수 있으며, 검색이 용이하도록 XML 형태로 구축될 수 있다.
이러한 언어 사전 데이터베이스(260)는 대화 유형 정보(261), 대화 패턴 정보(262), 어휘 정보(263)을 포함하여 구성될 수 있다. 먼저, 대화 유형 정보(261)는 대화 유형을 결정하기 위한 키워드 정보를 저장하고 관리하는 역할을 수행한다. 예컨대, 음성 인식 결과 텍스트에 '통화 품질 이상', '전송 오류' 등의 키워드가 존재할 경우, 상기 키워드를 기초로 결정되는 대화 유형은 '서비스 불만'이 될 수 있다. 이러한 대화 유형은 계층적 형태로 존재할 수도 있다. 예컨대, '서비스 불만'의 상위 카테고리는 '불만 상담'이 될 수 있다.
대화 패턴 정보(262) 및 어휘 정보(263)는 대화 유형별로 구축되는 정보를 의미한다. 먼저, 대화 패턴 정보(262)는 일 대화 유형에서 발화되는 대화 패턴에 대한 정보를 의미한다. 일반적으로 대화는 '인사', '발화 의도/목적(dialogue act)', '발화 의도/목적 대응', '인사'의 형태로 이뤄질 수 있다. 이러한 대화 패턴에 해당하는 대화 예제를 대화 패턴 정보(262) 형태로 구축하여 저장할 수 있다. 대화 분리 장치(200)는 이러한 대화 패턴 정보(262)를 이용하여 대화 문장이 어느 화자가 발화한 문장이며, 대화의 시작을 의미하는 지, 발화 의도/목적에 해당하는 지를 파악할 수 있게 된다.
어휘 정보(263)는 대화 유형별로 구축될 수 있는 정보로, 문장 시작 정보 또는 문장 끝 정보 등을 포함할 수 있으며, 화자가 주로 발화하는 어휘에 대한 정보를 포함할 수 있다.
이와 같이, 본 발명의 대화 분리 장치(200)는 기 구축된 언어 사전 데이터베이스(260)를 이용하여 음성 인식 결과 텍스트에서 화자별로 대화 문장을 분리하여 구성하여 출력할 수 있게 된다.
이상으로 본 발명의 실시 예에 따른 대화 분리 장치(200)의 주요 구성 및 동작 방법에 대해 설명하였다.
이러한 본 발명의 대화 분리 장치(200)에 탑재되는 메모리는 그 장치 내에서 정보를 저장한다. 일 구현예의 경우, 메모리는 컴퓨터로 판독 가능한 매체이다. 일 구현 예에서, 메모리는 휘발성 메모리 유닛 일 수 있으며, 다른 구현예의 경우, 메모리는 비휘발성 메모리 유닛 일 수도 있다. 일 구현예의 경우, 저장장치는 컴퓨터로 판독 가능한 매체이다. 다양한 서로 다른 구현 예에서, 저장장치는 예컨대 하드디스크 장치, 광학디스크 장치, 혹은 어떤 다른 대용량 저장장치를 포함할 수도 있다.
비록 본 명세서와 도면에서는 예시적인 장치 구성을 기술하고 있지만, 본 명세서에서 설명하는 기능적인 동작과 주제의 구현물들은 다른 유형의 디지털 전자 회로로 구현되거나, 본 명세서에서 개시하는 구조 및 그 구조적인 등가물들을 포함하는 컴퓨터 소프트웨어, 펌웨어 혹은 하드웨어로 구현되거나, 이들 중 하나 이상의 결합으로 구현 가능하다. 본 명세서에서 설명하는 주제의 구현물들은 하나 이상의 컴퓨터 프로그램 제품, 다시 말해 본 발명에 따른 장치의 동작을 제어하기 위하여 혹은 이것에 의한 실행을 위하여 유형의 프로그램 저장매체 상에 인코딩된 컴퓨터 프로그램 명령에 관한 하나 이상의 모듈로서 구현될 수 있다. 컴퓨터로 판독 가능한 매체는 기계로 판독 가능한 저장 장치, 기계로 판독 가능한 저장 기판, 메모리 장치, 기계로 판독 가능한 전파형 신호에 영향을 미치는 물질의 조성물 혹은 이들 중 하나 이상의 조합일 수 있다.
이하, 본 발명의 실시 예에 따른 대화 분리 방법에 대해 설명하도록 한다.
도 3은 본 발명의 실시 예에 따른 대화 분리 방법을 설명하기 위한 흐름도이며, 도 4는 본 발명의 실시 예에 따른 대화 분리 방법을 설명하기 위한 예시도이다.
먼저, 도 3을 참조하면, 본 발명의 대화 분리 장치(200)는 음성 인식 장치(100)로부터 음성 인식 결과 텍스트를 수신한다(S101). 여기서, 수신되는 음성 인식 결과 텍스트는 도 4a에 도시된 바와 같이, 텍스트 형태로 존재할 수 있다. 이때의 음성 인식 결과 텍스트는 대화 단위가 불균일한 상태로, 어떠한 문장을 어떠한 화자가 발화하였는지 쉽게 인지할 수가 없다. 종래의 방식에서는 음성 인식 결과 텍스트를 사용자가 직접 확인하여 화자별로 분류하거나, 또는 음성 인식 단계에서 화자별로 음성 인식을 따로 수행하고, 음성 인식 결과를 하나로 병합하는 과정을 수행하였다면, 본 발명은 음성 인식 결과 텍스트를 기 구축된 언어 사전 데이터베이스와 비교하여 화자별로 분류하는 과정을 수행할 수 있게 된다.
이를 위해, 먼저 대화 분리 장치(200)는 도 4a에 도시된 바와 같이 음성 인식 결과 텍스트에서 하나 이상의 주요 키워드를 추출한다(S103). 여기서, 주요 키워드는 지정된 횟수 이상 추출되거나 기 설정된 키워드를 주요 키워드로 선정할 수 있다. 예컨대 도 4a에서 '서비스'(610)는 지정된 3회 이상 추출된 키워드이며, '해지'(620)는 설정된 키워드를 의미할 수 있으며, 대화 분리 장치(200)는 이러한 주요 키워드를 추출한다. 그리고 추출된 주요 키워드에 해당하는 대화 유형을 결정할 수 있게 된다(S105).
그리고, 대화 분리 장치(200)는 대화 유형에 해당하는 언어 사전 데이터베이스를 이용하여 음성 인식 결과 텍스트를 복수의 대화 문장으로 분리하게 된다(S107). 이때, 대화 분리 장치(200)는 먼저 대화 패턴 정보와 어휘 정보를 고려하여 대화 문장을 분리하게 된다. 예컨대, 도 4b에 점선으로 표시된 부분과 같이 언어 사전 데이터베이스에 일치하는 대화 예제 코퍼스가 존재하는 경우, 대화 분리 장치(200)는 일치하는 대화 예제 코퍼스를 하나의 대화 문장으로 추출할 수 있다. 반면, 나머지 부분은 언어 사전 데이터베이스에 일치하는 대화 예제 코퍼스가 존재하지 않은 부분으로 이 경우, 대화 분리 장치(200)는 언어 사전 데이터베이스의 어휘 정보에 저장된 문장 시작 정보 또는 도면에 도시된 '니까', '니다', '까요', '데요', '고요', '세요', '나요', '이요', '네요'와 같이 문장 끝 정보를 이용하여, 대화 문장으로 분리하게 된다.
이후, 대화 분리 장치(200)는 분리된 복수의 대화 문장을 언어 사전 데이터베이스를 이용하여 화자에 대한 대화 유닛을 구성하여 출력하게 된다. 예컨대, '공 일 공 하나 둘 셋 넷 다섯 여섯 일곱 여덟이요'의 대화 문장과 일치하는 대화 예제 코퍼스가 언어 사전 데이터베이스에 존재하지 않더라도, 상기 대화 문장 이전에 존재하는 대화 문장인 '고객님 전화번호가 어떻게 되시나요'는 언어 사전 데이터베이스를 통해 상담원이 발화하는 대화 패턴임을 확인할 수 있으며, 그 다음에 존재하는 '공 일 공 하나 둘 셋 넷 다섯 여섯 일곱 여덟이요'의 대화 문장은 상기 '고객님 전화번호가 어떻게 되시나요'의 대화 문장에 대한 응답으로 고객이 발화하는 문장임을 알 수 있다. 반면, 어느 화자가 발화하는 지 대화 패턴만으로 확인이 불명확한 부분에 대해서는, 어휘 정보를 고려하여 통계적으로 상담원이 주로 발화하는 지, 고객이 주로 발화하는 지를 확인할 수도 있다.
이때, 대화 분리 장치(200)는 화자를 구분할 수 있는 기호와 함께 해당 화자가 발화한 대화 유닛을 화자별로 나열될 수 있도록 대화 문장으로 구성하여 출력할 수 있게 된다.
이와 같이, 특정 화자에 대해 정형화된 대화 패턴에 따라 발화될 가능성이 높은 대화 문장에 대해서는 대화 가이드라인 및 이전 대화 예제 코퍼스를 이용하여 확인하고, 화자가 불확실한 대화 문장에 대해서는 평균적으로 사용되는 어휘 정보 등의 정보를 고려하여 화자에 대한 대화를 분리함으로써, 음성 인식 단계가 아닌 음성 인식 후의 결과 텍스트를 이용하여 화자별 대화 문장을 보다 용이하게 확인할 수 있게 된다. 이러한 본 발명은 다양한 분야에 적용될 수 있는 데, 예컨대 회의록 작성은 물론, 고객 센터 등에서 고객 관리 측면에서 활용될 수 있게 된다.
이상으로 본 발명의 실시 예에 따른 대화 분리 방법에 대해 설명하였다.
상술한 바와 같은 본 발명의 대화 분리 방법은 컴퓨터 프로그램 명령어와 데이터를 저장하기에 적합한 컴퓨터로 판독 가능한 매체의 형태로 제공될 수도 있다. 본 발명의 일 실시 예에 따른 대화 분리 방법을 구현하기 위한 기록매체에 기록되는 프로그램은 대화 분리 장치가 음성 인식 결과 텍스트를 수신하는 단계, 상기 대화 분리 장치가 상기 음성 인식 결과 텍스트를 기초로 대화 유형을 결정하는 단계, 상기 대화 분리 장치가 상기 결정된 대화 유형에 해당하는 기 구축된 언어 사전 데이터베이스를 이용하여 상기 음성 인식 결과 텍스트를 복수의 대화 문장으로 분리하는 단계 및 상기 대화 분리 장치가 상기 분리된 복수의 대화 문장을 상기 기 구축된 언어 사전 데이터베이스를 이용하여 화자의 구분에 따른 대화 유닛으로 구성하는 단계 등을 실행할 수 있다.
이때, 기록매체에 기록된 프로그램은 컴퓨터에서 읽히어 설치되고 실행됨으로써 전술한 기능들을 실행할 수 있다.
여기서, 컴퓨터가 기록매체에 기록된 프로그램을 읽어 들여 프로그램으로 구현된 기능들을 실행시키기 위하여, 전술한 프로그램은 컴퓨터의 프로세서(CPU)가 컴퓨터의 장치 인터페이스(Interface)를 통해 읽힐 수 있는 C, C++, JAVA, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다.
이러한 코드는 전술한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Function Code)를 포함할 수 있고, 전술한 기능들을 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수도 있다. 또한, 이러한 코드는 전술한 기능들을 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조 되어야 하는지에 대한 메모리 참조 관련 코드를 더 포함할 수 있다. 또한, 컴퓨터의 프로세서가 전술한 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 컴퓨터의 프로세서가 컴퓨터의 통신 모듈을 이용하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야만 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수도 있다.
이러한, 컴퓨터 프로그램 명령어와 데이터를 저장하기에 적합한 컴퓨터로 판독 가능한 매체는, 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM)과 같은 반도체 메모리를 포함한다. 프로세서와 메모리는 특수 목적의 논리 회로에 의해 보충되거나, 그것에 통합될 수 있다.
또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 본 발명을 구현하기 위한 기능적인(Functional) 프로그램과 이와 관련된 코드 및 코드 세그먼트 등은, 기록매체를 읽어서 프로그램을 실행시키는 컴퓨터의 시스템 환경 등을 고려하여, 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론되거나 변경될 수도 있다.
본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.
마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 시스템 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 시스템들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.
본 발명은 대화 분리 방법에 관한 것으로, 더욱 상세하게는 대화 유형별로 기 구축된 언어 사전 데이터베이스를 이용하여 음성 인식 결과 텍스트에서 화자의 구분에 따라 대화를 분리할 수 있는 대화 분리 장치 및 이에서의 대화 분리 방법에 관한 것이다.
본 발명에 의하면, 음성 인식 단계에서 음성 고유의 특성을 이용하여 대화의 화자를 구분하는 방식이 아니라, 음성 인식된 결과 텍스트를 대화 유형별로 기 구축된 언어 사전 데이터베이스를 이용하여 대화의 화자를 분리할 수 있으며, 이를 통해 본 발명은 고 사양의 음성 인식기를 이용하지 않더라도 보다 용이하게 대화에 참여하는 화자를 구분할 수 있으며, 이러한 본 발명은 회의록, 고객 상담 내용 등 복수의 화자 간의 대화 내용을 보다 용이하게 기록하고 관리할 수 있게 된다.
이를 통해 본 발명은 음성 인식 기술의 발전에 이바지함은 물론 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있다.
100: 음성 인식 장치 200: 대화 분리 장치
210: 음성 인식 결과 수신부 220: 대화 유형 결정부
230: 대화 문장 분리부 240: 대화 유닛 구성부
250: 결과 출력부 260: 언어 사전 데이터베이스
261: 대화 유형 정보 262: 대화 패턴 정보
263: 어휘 정보 264: 문장 분리 정보
500: 대화 분리 시스템

Claims (9)

  1. 음성 인식 결과 텍스트를 수신하는 음성 인식 결과 수신부;
    상기 음성 인식 결과 텍스트를 기초로 대화 유형을 결정하는 대화 유형 결정부;
    상기 결정된 대화 유형에 해당하는 기 구축된 언어 사전 데이터베이스를 이용하여 상기 음성 인식 결과 텍스트를 복수의 대화 문장으로 분리하는 대화 문장 분리부; 및
    상기 분리된 복수의 대화 문장을 상기 기 구축된 언어 사전 데이터베이스를 이용하여 화자의 구분에 따라 대화 유닛으로 구성하는 대화 유닛 구성부;를 포함하되,
    상기 유닛 구성부는,
    상기 언어 사전 데이터베이스의 대화 패턴 정보를 이용하여 대화 문장이 어느 화자에 의해 발화되는지 확인한 다음 대화 유닛을 구성하고, 상기 대화 패턴 정보만을 이용하여 화자 구분이 어려운 대화 문장인 경우, 어휘 정보를 더 이용하여 화자에 대한 대화 유닛을 구성하는 것을 특징으로 하는 대화 분리 장치.
  2. ◈청구항 2은(는) 설정등록료 납부시 포기되었습니다.◈
    제1 항에 있어서,
    상기 대화 유형 결정부는
    상기 음성 인식 결과 텍스트에서 주요 키워드를 추출하고, 추출된 주요 키워드에 대응하여 기 설정된 대화 유형을 상기 음성 인식 결과 텍스트에 대한 대화 유형으로 결정하는 것을 특징으로 하는 대화 분리 장치.
  3. ◈청구항 3은(는) 설정등록료 납부시 포기되었습니다.◈
    제2 항에 있어서,
    상기 대화 유형 결정부는
    상기 음성 인식 결과 텍스트에서 지정된 횟수 이상 추출된 키워드 또는 기 설정된 키워드를 주요 키워드로 선정하여 추출하되, 지정된 불용어에 해당하는 키워드를 제외하여 주요 키워드를 추출하는 것을 특징으로 하는 대화 분리 장치.
  4. 삭제
  5. ◈청구항 5은(는) 설정등록료 납부시 포기되었습니다.◈
    제1 항에 있어서,
    상기 대화 문장 분리부는
    상기 언어 사전 데이터베이스의 대화 패턴 정보에 일치하는 대화 예제 코퍼스가 존재하는 경우, 해당 대화 예제 코퍼스를 대화 문장으로 분리하며, 일치하는 대화 예제 코퍼스가 존재하지 않을 경우, 상기 어휘 정보의 문장 시작 정보 또는 문장 끝 정보를 이용하여 상기 음성 인식 결과 텍스트를 복수의 대화 문장으로 분리하는 것을 특징으로 하는 대화 분리 장치.
  6. 삭제
  7. 대화 분리 장치가 음성 인식 결과 텍스트를 수신하는 단계;
    상기 대화 분리 장치가 상기 음성 인식 결과 텍스트를 기초로 대화 유형을 결정하는 단계;
    상기 대화 분리 장치가 상기 결정된 대화 유형에 해당하는 기 구축된 언어 사전 데이터베이스를 이용하여 상기 음성 인식 결과 텍스트를 복수의 대화 문장으로 분리하는 단계; 및
    상기 대화 분리 장치가 상기 분리된 복수의 대화 문장을 상기 기 구축된 언어 사전 데이터베이스를 이용하여 화자의 구분에 따른 대화 유닛을 구성하는 단계;를 포함하되,
    상기 대화 유닛을 구성하는 단계는,
    상기 언어 사전 데이터베이스의 대화 패턴 정보를 이용하여 대화 문장이 어느 화자에 의해 발화되는지 확인한 다음 대화 유닛을 구성하는 단계; 및
    상기 대화 패턴 정보만을 이용하여 화자 구분이 어려운 대화 문장인 경우, 어휘 정보를 더 이용하여 화자에 대한 대화 유닛을 구성하는 단계;
    를 포함하는 것을 특징으로 하는 대화 분리 방법.
  8. 제7 항에 있어서,
    상기 대화 유형을 결정하는 단계는
    상기 대화 분리 장치가 상기 음성 인식 결과 텍스트에서 주요 키워드를 추출하는 단계; 및
    상기 대화 분리 장치가 상기 추출된 주요 키워드에 대응하여 기 저장된 대화 유형을 확인하여 결정하는 단계;
    를 포함하는 것을 특징으로 하는 대화 분리 방법.
  9. 제7항 또는 제8항 중 어느 하나의 항에 기재된 대화 분리 방법을 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.


KR1020140162456A 2014-11-20 2014-11-20 대화 분리 장치 및 이에서의 대화 분리 방법 KR102097710B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140162456A KR102097710B1 (ko) 2014-11-20 2014-11-20 대화 분리 장치 및 이에서의 대화 분리 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140162456A KR102097710B1 (ko) 2014-11-20 2014-11-20 대화 분리 장치 및 이에서의 대화 분리 방법

Publications (2)

Publication Number Publication Date
KR20160060335A KR20160060335A (ko) 2016-05-30
KR102097710B1 true KR102097710B1 (ko) 2020-05-27

Family

ID=57124530

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140162456A KR102097710B1 (ko) 2014-11-20 2014-11-20 대화 분리 장치 및 이에서의 대화 분리 방법

Country Status (1)

Country Link
KR (1) KR102097710B1 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108447471B (zh) * 2017-02-15 2021-09-10 腾讯科技(深圳)有限公司 语音识别方法及语音识别装置
KR102348124B1 (ko) * 2017-11-07 2022-01-07 현대자동차주식회사 차량의 기능 추천 장치 및 방법
KR101970899B1 (ko) * 2017-11-27 2019-04-24 주식회사 머니브레인 문맥 기반으로 음성 인식의 성능을 향상하기 위한 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
KR102515023B1 (ko) 2018-02-23 2023-03-29 삼성전자주식회사 전자 장치 및 그 제어 방법
CN109816508A (zh) * 2018-12-14 2019-05-28 深圳壹账通智能科技有限公司 基于大数据的用户身份认证方法、装置、计算机设备
KR102208954B1 (ko) * 2019-01-11 2021-01-28 (주)액션파워 대화록 서비스를 제공하는 컴퓨팅 장치
US20220343914A1 (en) * 2019-08-15 2022-10-27 KWB Global Limited Method and system of generating and transmitting a transcript of verbal communication
CN113744742B (zh) * 2020-05-29 2024-01-30 中国电信股份有限公司 对话场景下的角色识别方法、装置和系统
KR102376058B1 (ko) * 2020-07-10 2022-03-18 (주)액션파워 대화록 서비스를 제공하는 컴퓨팅 장치
CN112201275A (zh) * 2020-10-09 2021-01-08 深圳前海微众银行股份有限公司 声纹分割方法、装置、设备及可读存储介质
KR102464190B1 (ko) * 2020-11-05 2022-11-09 한국과학기술원 대화 상대와 사용자의 성격 정보를 고려한 대화 상대에 대한 신뢰 정도 예측 시스템 및 그 방법
KR102298330B1 (ko) * 2021-01-27 2021-09-06 주식회사 두유비 음성인식과 자연어 처리 알고리즘을 통해 의료 상담 요약문과 전자 의무 기록을 생성하는 시스템
CN113515952B (zh) * 2021-08-18 2023-09-12 内蒙古工业大学 一种用于蒙古语对话模型联合建模方法、系统及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011082839A (ja) * 2009-10-08 2011-04-21 Mitsubishi Electric Building Techno Service Co Ltd コールセンタシステム
JP2011087005A (ja) * 2009-10-13 2011-04-28 Neikusu:Kk 通話音声要約生成システム、その方法及び通話音声要約生成プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101328928B1 (ko) 2006-10-26 2013-11-14 엘지전자 주식회사 이동통신 단말기의 회의록 작성 방법
KR101259558B1 (ko) * 2009-10-08 2013-05-07 한국전자통신연구원 문장경계 인식 장치 및 방법
KR101080840B1 (ko) * 2009-12-16 2011-11-08 한국수력원자력 주식회사 대화품질측정시스템 및 대화품질측정방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011082839A (ja) * 2009-10-08 2011-04-21 Mitsubishi Electric Building Techno Service Co Ltd コールセンタシステム
JP2011087005A (ja) * 2009-10-13 2011-04-28 Neikusu:Kk 通話音声要約生成システム、その方法及び通話音声要約生成プログラム

Also Published As

Publication number Publication date
KR20160060335A (ko) 2016-05-30

Similar Documents

Publication Publication Date Title
KR102097710B1 (ko) 대화 분리 장치 및 이에서의 대화 분리 방법
JP6740504B1 (ja) 発話分類器
AU2016216737B2 (en) Voice Authentication and Speech Recognition System
CN107195296B (zh) 一种语音识别方法、装置、终端及系统
US9640175B2 (en) Pronunciation learning from user correction
Juang et al. Automatic speech recognition–a brief history of the technology development
US10176809B1 (en) Customized compression and decompression of audio data
CN109155132A (zh) 说话者验证方法和系统
US20130110511A1 (en) System, Method and Program for Customized Voice Communication
US11302329B1 (en) Acoustic event detection
CN104299623A (zh) 语音应用中用于自动确认和消歧模块的方法和系统
Żelasko et al. AGH corpus of Polish speech
US10866948B2 (en) Address book management apparatus using speech recognition, vehicle, system and method thereof
Adeeba et al. Acoustic feature analysis and discriminative modeling for language identification of closely related South-Asian languages
Trabelsi et al. Evaluation of the efficiency of state-of-the-art Speech Recognition engines
Maskeliunas et al. Voice-based human-machine interaction modeling for automated information services
Sharma et al. Speech recognition: A review
US9218807B2 (en) Calibration of a speech recognition engine using validated text
Rabiner et al. Historical Perspective of the Field of ASR/NLU
KR101598950B1 (ko) 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체
WO2021152566A1 (en) System and method for shielding speaker voice print in audio signals
US10854196B1 (en) Functional prerequisites and acknowledgments
Biagetti et al. Distributed speech and speaker identification system for personalized domotic control
Gbadamosi Text independent biometric speaker recognition system
KR102199444B1 (ko) 음성 인식 오류에 강인한 의미 추론 방법 및 이를 위한 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant