WO2019189951A1

WO2019189951A1 - 고객의 소리 데이터로부터 주요 자질 추출 방법 및 이를 이용한 데이터 유형 분류 방법

Info

Publication number: WO2019189951A1
Application number: PCT/KR2018/003611
Authority: WO
Inventors: 김문종; 박태수; 문영주; 이찬형; 장정훈
Original assignee: (주)와이즈넛
Priority date: 2018-03-26
Filing date: 2018-03-27
Publication date: 2019-10-03
Also published as: KR20190112367A; KR102069101B1

Abstract

본 발명은 고객의 소리(Voice of Customer: 이하 "VOC"이라 함) 데이터를 처리하는 방법에 관한 것으로, 더욱 상세하게는 어휘의미패턴(Lexico Semantic Pattern: 이하 "LSP"이라 함)을 기반으로 VOC 데이터로부터 주요 자질을 추출하며 추출된 주요 자질을 이용하여 새롭게 입력되는 VOC 데이터의 유형을 분류하는 방법에 관한 것이다. 이를 위해 본 발명은 의미자질패턴을 기반으로 단어 임베딩(Word Embedding) 수행 결과와 사전에 구축된 어휘의미패턴(LSP) 정보를 활용하여 의미자질을 확장함으로써 구문 분석의 품질을 향상시키고, 종래에 하지 못했던 구문 구조 및 의미 분석, 유형 분류를 가능케 함으로써, 고객의 소리(VOC) 데이터를 쉽게 이해하여 의사결정을 돕는 고객의 소리(VOC) 데이터 유형을 분류하는 방법을 제공하는 것을 특징으로 한다.

Description

고객의 소리 데이터로부터 주요 자질 추출 방법 및 이를 이용한 데이터 유형 분류 방법

본 발명은 고객의 소리(Voice of Customer: 이하 "VOC"이라 함) 데이터를 처리하는 방법에 관한 것으로, 더욱 상세하게는 어휘의미패턴(Lexico Semantic Pattern: 이하 "LSP"이라 함)을 기반으로 VOC 데이터로부터 주요 자질을 추출하며 추출된 주요 자질을 이용하여 새롭게 입력되는 VOC 데이터의 유형을 분류하는 방법에 대한 것이다.

최근 많은 기업들은 관리 시스템 콜센터를 운영하면서 고객에게 제품이나 서비스에 대한 불만, 요구사항, 문의 등과 같은 다양한 응답 서비스를 제공하고 있다. 이때, 많은 기업들은 고객의 만족도와 서비스 품질을 높이기 위해, 응답 서비스에서 수집되는 고객의 소리(VOC) 데이터를 분석하여 더 나은 서비스를 고객에게 제공하는데 활용하고 있다.

여기서, 고객의 소리(VOC) 데이터는 관리 시스템 콜센터에 접수되는 고객불만사항의 진행 상황 및 처리 결과를 지표화한 것으로 고객의 의도(예컨대, 반품, 교환, 불만 등)가 파악될 수 있는 주요 자질을 포함하고 있다.

한편, 응답서비스에서 고객의 접수사항이 늘어날수록 고객의 소리(VOC) 데이터의 양이 많아 이로부터 고객의 의도를 모두 파악하는데 많은 시간과 노력이 요구되고 있다. 이에, 고객의 소리(VOC) 데이터로부터 고객의 의도를 쉽고 빠르게 파악하기 위한 중요 단어를 획득 및 선정하고 이를 토대로 문장을 요약하는 과정을 통해 고객의 소리(VOC) 데이터의 내용이 어떠한 유형의 내용을 담고 있는지를 파악하는 것에 대해 연구가 진행되어 왔다.

구체적으로, 고객의 소리(VOC) 데이터로부터 유의미한 중요한 정보를 획득하기 위해서 키워드를 추출하거나 온톨로지 구축에 기반하여 유형을 분류하는 연구들이 있었다. 그러나 키워드 추출 방법은 문장이 가지고 있는 의미를 분석하기 어려운 문제점이 있고, 온톨로지 구축 방법은 복잡한 관계를 정의해야 하는 과정이 요구되어 고객의 소리(VOC) 데이터의 의미 분석을 위한 지식 체계를 갖추기 위한 많은 노력이 필요로 되는 문제점이 있다.

상술한 문제점을 해결하기 위해, 한국등록특허 제1805607호에는 어휘의미패턴(LSP)을 구축하여 문장의 유형을 정의한 후 문장에서 얻어지는 의미를 분석하여 문서를 요약하는 과정을 통해 중요한 정보를 추출하는 방법이 개시되어 있다. 특히, 한국등록특허 제1805607호는 고객의 소리(VOC) 데이터 내에 중요한 주요 자질을 선정하고 이를 기반으로 문장이 갖는 의미를 패턴화하여 비슷한 의미가 있는 문장이 있을 시에 선정된 주요 자질과 패턴 정보를 활용하여 정확한 정보를 획득하는 내용이 개시되어 있다.

하지만, 한국등록특허 제1805607호에 개시된 방법은 사전에 지식 체계를 구축하고 나서 향후에 얻어지는 고객의 소리(VOC) 데이터로부터 새로운 자질과 고객의 소리(VOC) 데이터 유형에 대해 분석하는 것에는 취약하다는 문제점이 있다.

이와 같이, 종래의 어휘의미패턴(LSP) 구축 방법에서는 미리 구축된 데이터의 유형 및 LSP 지식으로만 고객의 소리(VOC) 데이터가 분석되므로 향후 새롭게 입력될 VOC 데이터를 구축하기 위해서는 많은 자원이 소모되며, 추출되지 않은 의미자질에 대해서는 분석하지 못하는 문제점이 있다.

본 발명은 상기한 문제점을 해결하기 위해 창안된 것으로서, 종래에 구축된 어휘의미패턴(LSP) 지식 체계를 바탕으로 새롭게 입력되는 고객의 소리(VOC) 데이터에 대해서 주요 자질을 추출하고 어휘의미패턴(LSP)을 확장하여 고객의 소리(VOC) 데이터 유형을 분류하는 방법을 제공하는데 그 목적이 있다.

또한, 본 발명의 다른 목적은 의미자질패턴을 기반으로 단어 임베딩(Word Embedding) 수행 결과와 사전에 구축된 어휘의미패턴(LSP) 정보를 활용하여 의미자질을 확장함으로써 구문 분석의 품질을 향상시키고, 종래에 하지 못했던 구문 구조 및 의미 분석, 유형 분류를 가능케 함으로써, 고객의 소리(VOC) 데이터를 쉽게 이해하여 의사결정을 돕는 고객의 소리(VOC) 데이터 유형을 분류하는 방법을 제공하는데 그 목적이 있다.

본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재들로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

상기 과제를 달성하기 위한 본 발명의 일 실시예에 따른 어휘의미패 턴(LSP)를 이용하여 고객의 소리(VOC) 데이터로부터 주요 자질 추출 방법및 이를 이용한 데이터 유형 분류 방법은, (a) VOC 데이터에 대하여 유형, 의미자질 및 LSP를 정의하여 LSP 지식을 사전에 구축하는 단계와, (b) 구축된 LSP 지식으로부터 의미자질 후보군을 선정하는 단계와, (c) 상기 구축된 LSP 지식 및 상기 선정된 의미자질 후보군에 기초하여, 상기 VOC 데이터에 대한 새로운 의미자질을 추출하는 단계와, (d) 추출된 새로운 의미자질 및상기 구축된 LSP 지식에 기초하여, 새롭게 입력되는 VOC 데이터에 대한 유형을 분류하는 단계를 포함할 수 있다.

상기 (a) 단계는, VOC 샘플 데이터를 수집하여 기설정된 분류 체계에 맞게 상기 유형을 정의하는 단계와, 수집된 VOC 샘플 데이터를 상기 유형에 맞게 분류하는 단계와, 상기 유형에 맞게 분류된 VOC 샘플 데이터에 대한 LSP를 구축하는 단계와, 구축된 LSP를 구성하는 의미자질을 추출하여 의미 자질 사전을 구축하는 단계와, 상기 VOC 샘플 데이터에 대하여 상기 유형, 상기 의미자질 및 상기 LSP로 정의된 상기 LSP 지식을 구축하는 단계를 포함할 수 있다.

여기서, 상기 구축된 LSP를 구성하는 의미자질을 추출하여 의미자질 사전을 구축하는 단계는, 상기 구축된 LSP로부터 상기 유형의 의미를 구성 하는 기본 단위로서 동일한 의미를 가지는 한 개 이상의 엔트리들을 하나의 집합으로 묶어놓은 의미자질 사전을 구축하는 단계인 것을 특징으로 한다.

상기 (b) 단계는, 상기 LSP 지식에 정의된 의미자질에 기초하여, 상기 VOC 데이터에 포함된 학습할 단어를 단어 임베딩(embedding) 학습을 통해 학습하여 단어 벡터를 생성하는 단계와, 상기 생성된 단어 벡터를 이용하여 상기 LSP 지식에 정의된 의미자질과의 유사도를 판단하는 단계와, 판단된 유사도에 기초하여 의미자질 후보군을 선정하는 단계를 포함할 수있다.

여기서, 상기 생성된 단어 벡터를 이용하여 상기 LSP 지식에 정의된 의미자질과의 유사도를 판단하는 단계는, 상기 LSP 지식에 정의된 의미자질과 상기 단어 임베딩(embedding) 학습을 통해 학습된 단어 간의 단어 임베 딩(embedding)의 거리를 계산하여 상기 단어 임베딩(embedding) 학습을 통해 학습된 단어와 상기 LSP 지식에 정의된 의미자질 간의 유사도를 판단하는 단계인 것을 특징으로 한다.

상기 단어 임베딩(embedding)의 거리는, [수식 1]을 이용하여 계산되는 것을 특징으로 한다.

[수식 1]

(여기서,

: 단어

와 단어

,

: 단어

와

의 원소

,

의 거리,

: 정규 분포 표현)

상기 판단된 유사도에 기초하여 의미자질 후보군을 선정하는 단계는, 상기 LSP 지식에 정의된 모든 의미자질에 대해 상기 단어 임베딩(embedding) 학습을 통해 학습된 단어들 중에서 상기 단어 임베딩(embedding)의 거리가 가장 가까운 소정 개수의 단어를 상기 VOC 데이터에 포함된 단어들로부터 추출하는 단계와, 추출된 소정 개수의 단어에 해당하는 단어 임베딩(embedding)의 거리에 대한 평균값을 계산하는 단계와, 상기 단어 임베딩(embedding)의 거리가 상기 계산된 평균값 이상에 해당되는 단어만 추출하여 의미자질 후보군으로 선정하는 단계를 포함할 수 있다.

상기 (c) 단계는, 상기 선정된 의미자질 후보군에 포함되는 단어를 포함하는 VOC 데이터에 대한 구문 구조를 분석하는 단계; 분석된 VOC 데이터에 대한 구문 구조와 상기 LSP 지식에 정의된 LSP의 구문 구조를 비교하는 단계; 및 상기 비교 결과, 상기 분석된 VOC 데이터에 대한 구문 구조와 상기 LSP 지식에 정의된 LSP의 구문 구조가 동일하면 상기 LSP 지식에 정의된 LSP의 구문 구조와 동일한 구문 구조를 갖는 VOC 데이터에 포함된 상기 단어를 상기 VOC 데이터에 대한 새로운 의미자질로 추출하는 단계를 포함할 수 있다.

상기 VOC 데이터에 대한 새로운 의미자질을 추출하는 단계는, [수식 2]를 이용하여 상기 VOC 데이터에 대한 새로운 의미자질을 추출하는 단계인 것을 특징으로 한다.

[수식 2]

(여기서,

: 문서 i에서의 어휘의미패턴,

: 문서 i에서의 의미자질,

: 문서 i에서의 후보 단어)

상기 (d) 단계는, 상기 추출된 새로운 의미자질 및 상기 구축된 LSP 지식을 포함하는 LSP 지식을 생성하는 단계와, 생성된 LSP 지식에 기초하여 상기 새롭게 입력되는 VOC 데이터에 대한 유형을 분류하는 단계를 포함할 수 있다.

여기서, 상기 생성된 LSP에 기초하여 상기 새롭게 입력되는 VOC 데이터에 대한 유형을 분류하는 단계는, 상기 새롭게 입력되는 VOC 데이터를 구성하는 문장들의 형태소를 분석하여 각 문장에 매칭하는 LSP를 상기 생성된 LSP 지식으로부터 검출하는 단계와, 상기 생성된 LSP 지식에 포함된 각 유형에 맞게 분류된 LSP에 상기 각 문장에 매칭하는 LSP가 매칭될 때마다 상기 각 유형에 대해 가중치를 부여하는 단계와, 상기 부여된 가중치의 합이 가장 큰 유형으로 상기 새롭게 입력되는 VOC 데이터에 대한 유형을 분류하는 단계를 포함할 수 있다.

상기 각 유형에 대해 가중치를 부여하는 단계는, [수식 3]을 이용하여 새롭게 입력되는 VOC 데이터에 대한 유형을 분류하는 단계인 것을 특징으로 한다.

[수식 3]

(여기서,

: 유형 n에 대해 문서 i가 갖는 분류의 가중치,

: 유형 n에 대해 매칭된 LSP의 합)

개시된 기술의 실시 예들은 다음의 장점들을 포함하는 효과를 가질 수 있다. 다만, 개시된 기술의 실시 예들이 이를 전부 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

비정형 데이터 분석 영역에서 유의미한 정보를 획득하는 것은 사용자의 의사결정에 도움을 준다. 이를 위하여, 본 발명에 따른 고객의 소리(VOC) 데이터로부터 데이터 유형을 분류하는 방법에 따르면, 기존에 구축된 어휘의미패턴(LSP)과 단어 임베딩(Word Embedding)을 통해 새로운 의미자질을 추출하므로 종래에 분류할 수 없었던 고객의 소리(VOC) 데이터의 유형을 분류하고 구문 구조와 주요 자질들의 정보를 파악할 수 있다. 이에 따라, 새롭게 입력되는 VOC 데이터에 대한 의미를 파악하고 유형을 분류할 수 있다.

또한, 기존에 구축된 어휘의미패턴(LSP)과 단어임베딩(Word Embedding)을 활용하여 의미자질을 확장함으로써 고객의 소리(VOC) 데이터에 대한 구문 분석의 품질을 향상시킬 수 있다.

또한, 응답서비스에서 고객의 접수사항이 늘어날수록 고객의 소리(VOC) 데이터의 양이 많아지는 것에 따라 고객의 의도를 파악하는데 시간과 노력이 많이 소요되던 종래의 문제를 해결하여 업무 생산성을 향상시킬 수 있다.

더 나아가, 새로운 자질과 의미가 있는 문장 및 문서에 대해서 구문 구조, 의미 분석 및 유형 분류가 가능함으로써 사용자가 데이터를 쉽게 이해하여 의사 결정함에 도움을 줄 수 있다.

도 1은 본 발명의 실시예에 따른 VOC 데이터 유형 분류 장치(100)의 블록구성도이다.

도 2는 본 발명의 일 실시예에 따른 고객의 소리(VOC) 데이터로부터 주요 자질 추출 방법 및 이를 이용한 데이터 유형 분류 방법을 설명하기 위한 순서도이다.

도 3은 도 2의 LSP 지식을 사전에 구축하는 단계(S10)를 구체적으로 설명하기 위한 흐름도이다.

도 4는 도 2의 의미자질 후보군을 선정하는 단계(S20)를 구체적으로 설명하기 위한 흐름도이다.

도 5는 도 2의 VOC 데이터에 대한 새로운 의미자질을 추출하는 단계(S30)를 구체적으로 설명하기 위한 흐름도이다.

도 6은 도 2의 새롭게 입력되는 VOC 데이터에 대한 유형을 분류하는 단계(S40)를 구체적으로 설명하기 위한 흐름도이다.

도 7은 VOC 데이터에 대한 유형 분류와 단어 임베딩(embedding) 학습의 예를 설명하기 위해 관리자 단말의 화면 구성을 예시적으로 나타낸 도면이다.

도 8은 도 3의 의미자질 사전을 구축함에 있어서 의미자질의 구성을 예시적으로 나타낸 도면이다.

도 9는 도 6의 새롭게 입력되는 VOC 데이터에 대한 유형을 분류함에 있어서 관리자 단말의 화면 구성을 예시적으로 나타낸 도면이다.

이하, 본 발명에 따른 바람직한 실시 형태를 첨부된 도면을 참조하여 상세하게 설명한다. 첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다. 이하의 상세한 설명은 본 발명의 완전한 이해를 제공하기 위해서 구체적 세부사항을 포함한다. 그러나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 이러한 구체적 세부사항 없이도 실시될 수 있음을 안다.

몇몇 경우, 본 발명의 개념이 모호해지는 것을 피하기 위하여 공지의 구조 및 장치는 생략되거나, 각 구조및 장치의 핵심기능을 중심으로 한 블록도 형식으로 도시될 수 있다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함(comprising 또는 including)" 한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, "일(a 또는 an)", "하나(one)", "그(the)" 및 유사 관련어는 본 발명을 기술하는 문맥에 있어서(특히, 이하의 청구항의 문맥에서) 본 명세서에 달리 지시되거나 문맥에 의해 분명하게 반박되지 않는 한, 단수 및 복수 모두를 포함하는 의미로 사용될 수 있다.

이하의 설명에서 사용되는 특정 용어들은 본 발명의 이해를 돕기 위해서 제공된 것이며, 이러한 특정 용어의 사용은 본 발명의 기술적 사상을 벗어나지 않는 범위에서 다른 형태로 변경될 수 있다.

고객의 소리(Voice of Customer: VOC)는 관리 시스템 콜센터에 접수되는 고객불만사항을 접수부터 처리가 완료될 때까지 처리상황을 실시간으로 관리하고 처리결과를 관서별로 지표화하여 관리 및 평가함으로써 고객의 체감 서비스를 향상시키는 고객관리시스템을 말한다. 본 발명에 있어서, VOC 데이터는 관리 시스템 콜센터에서 고객과 상담원 간의 대화내용을 저장한 데이터 파일을 의미하며, 음성데이터 또는 텍스트데이터로 이루어질 수 있다. 하나의 VOC 데이터는 한 고객과 상담원 사이에 생성된 데이터를 말한다.

이하 도 1을 참조하여, 본 발명의 실시예에 따른 VOC 데이터 유형 분류 장치(100)를 설명한다. 도 1은 본 발명의 실시예에 따른 VOC 데이터 유형 분류 장치(100)의 블록구성도이다.

도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 VOC 데이터 유형 분류 장치(100)는 VOC 음성 데이터를 인식하는 음성 인식부(10)와, VOC 음성 데이터를 텍스트 데이터로 변환하는 텍스트 변환부(20)와, VOC 관련 LSP 지식을 구축하는 LSP 지식 구축부(30)와, 구축된 LSP 지식으로부터 의미자질 후보군을 선정하는 의미자질 후보 선정부(40)와, VOC 데이터에 대한 의미자질을 추출하는 의미자질 추출부(50)와, 새롭게 입력되는 VOC 데이터에 대한 유형을 분류하는 데이터 유형 분류부(60)와, 상기 구성요소들의 기능 및 작용에 필요한 데이터를 저장하는 저장부(70)를 포함할 수 있다.

구체적으로, 음성 인식부(10)는 상담원과 고객 간의 통화로부터 음성을 인식하여 데이터화하여 저장부(70)에 저장한다. 음성 인식부(10)는 상담원과 고객 간의 통화에서 발생할 수 있는 잡음을 처리하고 정확한 텍스트 변환을 위한 필터를 포함할 수 있다. 또한, 상담원의 음성과 고객의 음성을 구별하여 인식할 수 있다.

텍스트 변환부(20)는 음성 인식부(10)를 통해 인식된 음성 데이터를 텍스트로 변환하여 저장부(70)에 저장한다. 텍스트 변환부(20)는 음성 데이터와의 동기를 위한 음성시간 태그와 상담원과 고객의 음성을 구분하는 화자 데이터 등을 변환된 데이터에 포함시킬 수 있다. 또한, 텍스트 변환부(20)는 텍스트 변환의 정확성을 높이기 위하여 변환된 문장에서 띄어쓰기를 보정하고 문장 간의 경계를 자동으로 인식하는 기능을 포함할 수 있다.

LSP 지식 구축부(30)는 음성 인식부(10) 및 텍스트 변환부(20)로부터 획득된 VOC 샘플 데이터를 수집하여 수집된 VOC 샘플 데이터에 대하여 유형, 의미자질 및 LSP를 정의하여 LSP 지식을 구축한다.

구체적으로, LSP 지식 구축부(30)는 상담원과 고객 간의 통화로부터 획득된 VOC 샘플 데이터를 수집하고 이를 정의된 유형, 의미자질 및 어휘 엔트리 개념으로 다면 분류하여 VOC 데이터 LSP를 구조화함으로써 LSP 지식을 구축한다.

LSP 지식 구축부(30)는 수집된 VOC 샘플 데이터에 주로 출현하는 유의미한 특정 어휘나 표현을 포함하는 중요 문장을 선정하여 이로부터 LSP 지식을 구축한다.

또한, LSP 지식 구축부(30)는 이하에서 설명하는 의미자질 추출부(50)를 통해 추출된 새로운 의미자질과, LSP 지식 구축부(30)를 통해 구축된 LSP 지식을 포함하는 확장된 LSP 지식을 생성한다. VOC 관련 LSP 지식을 구축하는 방법에 대해서는 도 3을 참조하여 자세히 설명한다.

의미자질 후보 선정부(40)는 LSP 지식 구축부(30)를 통해 구축된 LSP 지식에 정의된 의미자질에 기초하여 VOC 데이터에 포함된 학습할 단어를 단어 임베딩(embedding) 학습을 통해 학습된 단어와 LSP 지식에 정의된 모든 의미자질 간의 유사도를 판단하여 LSP 지식에 정의된 모든 의미자질에 대해 가장 유사한 의미를 가지는 의미자질을 의미자질 후보 단어로 추출하여 의미자질 후보군으로 선정한다.

이를 위하여, 의미자질 후보 선정부(40)는 단어 임베딩 학습 모듈(45)을 포함하며, 단어 임베딩 학습 모듈(45)은 VOC 샘플 데이터에서 선정된 중요 문장에 포함된 단어들을 가지고 단어 임베딩(embedding) 학습을 수행하여 단어 벡터를 생성한다. 이때, 단어 임베딩 학습 모듈(45)에 의해 생성된 단어 벡터는 유사 의미의 단어들이 비슷한 군집을 이룬다는 특징을 가진다. 이에 따라, 단어 간 거리를 계산하여 단어 간 유사도를 판단할 수 있다. 단어 간 유사도를 판단하여 구축된 LSP 지식으로부터 의미자질 후보군을 선정하는 방법에 대해서는 도 4를 참조하여 자세히 설명한다.

의미자질 추출부(50)는 LSP 지식 구축부(30)를 통해 구축된 LSP 지식 및 의미자질 후보 선정부(40)를 통해 선정된 의미자질 후보군에 기초하여, VOC 데이터에 대한 새로운 의미자질을 추출한다.

구체적으로, 의미자질 추출부(50)는 상기 LSP 지식 구축부(30)를 통해 구축된 LSP 지식에 정의된 LSP의 구문 구조와, 상기 의미자질 후보 선정부(40)를 통해 선정된 의미자질 후보군에 포함되는 단어를 포함하는 VOC 데이터에 대한 구문 구조를 비교하고 비교 결과에 기초하여 VOC 데이터에 대한 새로운 의미자질을 추출할 수 있다.

여기서, 의미자질 추출부(50)를 통해 추출된 새로운 의미자질은 저장부(70)에 저장되며, 향후 새로운 VOC 데이터가 입력되면 LSP 지식 구축부(30)를 통해 사전에 구축된 의미자질과 저장부(70)에 저장된 새로운 의미자질로부터 의미자질 후보군을 선정할 수 있다. VOC 데이터에 대한 새로운 의미자질을 추출하는 방법에 대해서는 도 5를 참조하여 자세히 설명한다.

데이터 유형 분류부(60)는 의미자질 추출부(50)를 통해 추출된 새로운 의미자질과, LSP 지식 구축부(30)를 통해 구축된 LSP 지식을 포함하여 생성된 LSP 지식에 기초하여 종래에 유형이 분류되지 못했던 VOC 데이터 및/또는 새롭게 입력되는 VOC 데이터에 대한 유형을 분류한다. 종래에 유형이 분류되지 못했던 VOC 데이터 및/또는 새롭게 입력되는 VOC 데이터에 대한 유형을 분류하는 방법에 대해서는 도 6을 참조하여 자세히 설명한다.

저장부(70)는 음성 인식부(10) 및 텍스트 변환부(20)를 통해 수집된 VOC 데이터와, LSP 지식 구축부(30)를 통해 구축된 상기 VOC 데이터에 대하여 정의된 유형, 의미자질 및 LSP를 포함하는 LSP 지식과, 의미자질 후보 선정부(40)를 통해 판단되는 모든 의미자질과의 유사도에 대한 판단 기준과, 의미자질 후보 선정부(40)를 통해 선정된 의미자질 후보군과, 의미자질 추출부(50)를 통해 추출된 새로운 의미자질 등을 포함할 수 있다.

이하 도 2 내지 도 6을 참조하여 본 발명의 일 실시예에 따른 고객의 소리(VOC) 데이터로부터 주요 자질 추출 방법 및 이를 이용한 데이터 유형 분류 방법을 보다 구체적으로 설명하도록 한다.

도 2는 본 발명의 일 실시예에 따른 고객의 소리(VOC) 데이터로부터 주요 자질 추출 방법 및 이를 이용한 데이터 유형 분류 방법을 설명하기 위한 순서도이고, 도 3은 도 2의 LSP 지식을 사전에 구축하는 단계(S10)를 구체적으로 설명하기 위한 흐름도이고, 도 4는 도 2의 의미자질 후보군을 선정하는 단계(S20)를 구체적으로 설명하기 위한 흐름도이고, 도 5는 도 2의 VOC 데이터에 대한 새로운 의미자질을 추출하는 단계(S30)를 구체적으로 설명하기 위한 흐름도이고, 도 6은 도 2의 새롭게 입력되는 VOC 데이터에 대한 유형을 분류하는 단계(S40)를 구체적으로 설명하기 위한 흐름도이다.

본 발명의 일 실시예에 따른 고객의 소리 데이터로부터 주요 자질 추출 방법 및 이를 이용한 데이터 유형 분류 과정의 각 단계들은 하드웨어/소프트웨어 모듈이 구축되어 있는 컴퓨팅 시스템인 관리자 단말에 의해서 수행될 수 있다.

도 2를 참조하면, 본 발명의 실시예에 따른 LSP 지식 구축부(30)는 VOC 데이터에 대한 LSP 지식을 구축한다(S10). 도 2의 단계 S10에 대한 상세한 설명은 도 3을 참조하여 설명한다. 도 3을 참조하면, 우선 LSP 지식 구축부(30)는 음성 인식부(10) 및 텍스트 변환부(20)를 통해 VOC 샘플 데이터를 수집하여 기설정된 분류 체계에 맞게 유형을 정의한다(S11).

상기 기설정된 분류 체계는 관리자 단말에 의해 설정될 수 있으며, 상기 유형은 기설정된 분류 체계와 대응되도록 정의된다. 유형은 문장의 의미 분석을 통해 해석된 문장의 의미로 정의되며, LSP들이 속하는 집합으로 표현될 수 있다. 예를 들어, 쇼핑몰과 관련된 VOC의 경우, 상품의 환불, 반품, 문의 등의 유형을 정의할 수 있으며, 상품의 환불 유형에 속한 LSP에 매칭된 문장은 그 문장이 환불에 관한 의미를 포함하고 있다. 본 발명의 실시예에 따른 유형은 적어도 하나의 LSP를 포함하는 것이 바람직하다.

또한, 본 발명의 VOC 샘플 데이터는 텍스트 데이터인 것이 바람직하며, 음성 데이터인 경우 텍스트 변환부(20)를 통해 음성-텍스트 변환을 거쳐 사용될 수 있다. 단계 S11에서 VOC 샘플 데이터를 많이 수집할수록 더욱 정교한 유형 분류와 LSP 구축이 가능하다.

단계 S11 이후, LSP 지식 구축부(30)는 음성 인식부(10) 및 텍스트 변환부(20)를 통해 수집된 VOC 샘플 데이터를 단계 S11에서 정의한 유형에 맞게 분류한다(S12). 예를 들어, 쇼핑몰과 관련된 VOC 샘플 데이터를 수집한 경우, 상품의 환불, 반품, 문의 등으로 정의된 각 유형에 맞게 VOC 샘플 데이터를 분류할 수 있다.

단계 S12 이후, LSP 지식 구축부(30)는 단계 S12에서 각 유형에 맞게 분류된 VOC 샘플 데이터로부터 주로 출현하는 유의미한 특정 어휘나 표현을 포함하는 중요 문장을 선정하여 LSP를 구축한다(S13). 여기서, LSP를 구축함에 있어 LSP는 어휘, 품사, 형태소를 포함하고, 엔트리를 구성하는 단어 또는 품사의 정보와 아래 [표 1]에 나타낸 연산자의 조합으로 구성된다. 아래의 [표 1]은 LSP를 표현하기 위해 사용된 연산자의 문법과 의미를 설명한 것이고, [표 2]는 LSP를 형식화한 양식을 나타낸 것이다.

연산자	문법	의미
\|	[stmt₁][\|stmt_n][(W₁)][\|(W₂)][W₁][\|W₂]	or
&	[stmt₁]&[stmt₂]	and
{}	{stmt₁} {stmt₂}	하나의 표현 단위로 구분하는 한정자
()	( )	우선순위 및 단위를 구분하는 한정자
=	[ value-stmt =[stmt][=stmt]+ ]	값의 범주를 지정하는 연산자
/	[ L ]?[ /pos ]	품사 표현
+	[stmt₁]+ [stmt₂]	- 좌/우변에 대한 형태소 결합을 확인- 좌측의 표현에 맨 오른쪽 형태소와 우측의 표현에 맨 왼쪽 형태소의 결합을 확인
*	[stmt₁]*	표현식을 반복
*	W₁* W₂W₁*+W₂	- 어절 사이에 단독으로 사용될 때, 형태소 결합으로 사용될 때, - 임의의 어절 n개를 의미
?	[ [?] or [{?}] or [stmt]? ]	- 모든 표현에 대해 적용 혹은 미적용을 의미- 모든 표현을 한번 대치하거나 공집합을 의미
!	[ ![stmt] or ![W \| L \| P ] or !(stmt \| W ) ]	- 표현이나 워드의 본래 의미를 부정하는 표현- 1개 어절, 1개 형태소에 대해 일치하지 않아야 매칭 성공이 됨
	[character] where Character ∈ {(, ), {, }, =, +, *, #, @, ?, &, !, \, ~}	- 문자 그대로 정확히 해석해야 할 값을 의미, 기호를 표기하고 싶을 때 사용- 리터럴 는 바로 연이어 오는 문자 한 개에 적용됨

연산자	표현방법	설명
어휘	코엑스, 요금제, 이동하다	구문표현에 쓰이는 어휘 자체
품사	NNG, MA, VV, V_	형태소에 대한 한국어 품사
/	코엑스/NNG, 이동하/VV	어휘와 품사의 구분자
( )	(코엑스/NNG)+에/J _	우선순위 및 단위를 구분하는 한정자
{ }	{코엑스/NNG+에/J _}	하나의 표현 단위(어절)로 구분하는 한정자
+	코엑스/NNG+에/J _	형태소를 순차적 표현을 위한 형태소간 연결자
\|	@장소\|@지역	OR 연산자
&	!ETM&!EM	AND 연산자
!	!ETM, !NNG	NOT 연산자앞에 형태소가 있는 경우 &!( )의 형태로 기술ex: /N_&!(/NNB)<적용되지 않는 범위>1.의미자질 자체를 !로 부정하는 경우ex: !@의미자질2.여러 형태소/어절을 !로 부정하는 경우ex: !(하+었+다) / !(삼성 병원)
?	@지급+(/J_)?	Zero or One-존재해도 매칭, 존재하지 않아도 매칭
*	NNG*	Zero or More-동일한 구성성분이 반복되도록 매칭1.표현식의 반복: /NNG* - /NNG가 반복됨2.어절 반복: /NNG * /V_ - n개의 어절이 올 수 있음(현재는 10개의 어절로 제한)3.형태소 반복: /NNG+* /V_ - n개의 형태소가 올 수있음 (현재는 10개의 형태소로 제한)
@	@지역, @장소	의미자질
	2015+ -+@년	기호를 표기. 바로 연이어 오는 문자 한 개에 적용

상술한 바와 같이 LSP는 어휘, 품사, 형태소를 포함하여 문장의 의미를 나타내는 구문 구조를 갖으며 의미자질과 패턴 기호로 이루어져 있다.단계 S13 이후, LSP 지식 구축부(30)는 단계 S13에서 구축된 LSP를 구성하는 의미자질을 추출하여 의미자질 사전을 구축한다(S14). 이를 통해, 하나의 대표 문형을 표현하는 LSP는 그 LSP를 구성하는 의미자질 및 엔트리의 조합만큼의 문장들을 인식할 수 있다. 여기서, 의미자질은 LSP를 구성하는 기본 단위 중 하나로서 동일한 의미를 가지는 한 개 이상의 엔트리들을 하나의 집합으로 묶어 정의된다. 이러한 의미자질은 사전과 같은 역할을 하며, 정의된 의미자질에 동일한 의미를 가지는 어휘 엔트리가 포함되므로 의미자질은 어휘 엔트리의 집합이 될 수 있다.

단계 S14 이후, LSP 지식 구축부(30)는 단계 S11 내지 단계 S14를 통해 정의된 유형, 의미자질 및 LSP를 활용하여 VOC 샘플 데이터에 대한 LSP 지식을 구축한다(S15). LSP 지식을 구축함에 있어서, 의미자질뿐만 아니라 다양한 문법표현에 기반한 어절, 형태소, 음절, 사전, 변수 등의 표현과, 여러 연산자들을 사용할 수 있다.

이와 같이, 단계 S11 내지 단계 S15를 통해 본 발명의 실시예에 따른 LSP 지식 구축부(30)는 VOC 데이터에 대한 LSP 지식을 구축할 수 있다. 이하에서는 VOC 데이터로부터 주요 자질을 추출하고 추출된 주요 자질을 이용하여 새롭게 입력된 VOC 데이터의 유형를 분류하는 과정을 자세히 설명한다.

도 2를 참조하면, 의미자질 후보 선정부(40)는 단계 S10에서 구축된 LSP 지식에 정의된 모든 의미자질에 대해 가장 가까운 단어 임베딩(embedding)의 거리를 갖는 단어를 VOC 데이터로부터 소정 개수 개를 추출하여 의미자질 후보군으로 선정한다(S20). 도 2의 단계 S20에 대한 상세한 설명은 도 4를 참조하여 설명한다.

도 4를 참조하면, 우선 의미자질 후보 선정부(40)에 포함된 단어 임베딩 학습 모듈(45)은 VOC 샘플 데이터에 포함된 문장 또는 문서들에 대하여 단어 임베딩(embedding) 학습을 수행하여 단어 벡터를 생성한다(S21).

여기서, 단어 임베딩(embedding) 학습은 자연어 단어를 실수 공간상의 벡터로 표현하기 위한 것으로, 분산 단어 표현(Distributed Word Representation)을 사용하는데, 이는 말뭉치를 학습하여 차원 축소 및 추상화를 통해 문서 집합에 등장하는 단어를 수십에서 수백 차원의 자질 벡터(Feature Vector)로 표현하는 것을 말한다. 이를 위한 학습 모델은 신경망 언어 모델(Neural Network Language Model:NNLM)로 구성될 수 있다. 예컨대, 초기 NNLM은 단어의 자질을 학습하기 위해서 많은 시간이 필요한 단점이 있었으나, 본 발명에 따른 NNLM은 은닉층(Hidden layer)을 제거하여 단순화하는 방법을 제안하여 단어 자질의 학습 시간을 비약적으로 단축시킬 수 있다.

단계 S21 이후, 의미자질 후보 선정부(40)는 단계 S21에서 단어 임베딩 학습 모듈(45)을 통해 생성된 단어 벡터를 이용하여 LSP 지식 구축부(30)에 의해 구축된 LSP 지식에 정의된 모든 의미자질과의 유사도를 판단한다(S22). 이때, 의미자질 후보 선정부(40)는 구축된 LSP 지식에 정의된 모든 의미자질과 단어 임베딩(embedding) 학습을 통해 학습된 단어 간의 단어 임베딩(embedding)의 거리를 계산하여, 단어 임베딩(embedding) 학습을 통해 학습된 단어와 상기 LSP 지식에 정의된 모든 의미자질 간의 유사도를 판단한다. 의미자질 후보 선정부(40)는 아래의 수식 1에 따라 단어 임베딩(embedding)의 거리를 계산한다.

[수식 1]

수식 1에서,

는 단어

와 단어

를 의미하고,

는 단어

와

의 원소

,

의 거리를 의미하고,

는 정규 분포 표현을 의미한다.

여기서, 단어 임베딩 학습 모듈(45)에 의해 생성된 단어 벡터는 유사 의미의 단어들이 비슷한 군집을 이룬다는 특징을 가진다. 이에 따라, 상기 수식 1에 따라 단어 간 거리를 계산하여 단어 간 유사도를 판단할 수 있다. 즉, 단어 임베딩된 공간에서의 단어 간 유사 의미는 단어 간의 거리를 계산하여 판단할 수 있다.

예를 들어, 수집된 VOC 데이터에 포함된 단어들의 학습 결과, '한국'과 '일본'간의 거리는 가까운 거리를 갖는 특징 벡터를 이룬다. 마찬가지로, '서울'과 '도쿄' 간의 거리를 수식 1에 따라 계산해보면 두 단어를 유사 의미로 유추할 수 있다. 이를 통해, 단어 임베딩(embedding) 학습을 통한 단어 벡터는 유사한 단어의 쓰임에 대하여 규칙적인 패턴을 잘 표현하며 문법적인 관계 정보도 잘 반영한다.

단계 S22 이후, 의미자질 후보 선정부(40)는 단계 S22에서 판단된 유사도에 기초하여 의미자질 후보군을 선정한다(S23). 구체적으로, 의미자질 후보 선정부(40)는 구축된 LSP 지식에 정의된 모든 의미자질에 대해 단어 임베딩(embedding) 학습을 통해 학습된 단어들 중에서 단어 임베딩(embedding)의 거리가 가장 가까운 소정 개수의 단어를 VOC 데이터(문장 또는 문서)에 포함된 단어들로부터 추출하고, 추출된 소정 개수의 단어에 해당하는 단어 임베딩(embedding)의 거리에 대한 평균값을 계산하고, 단어 임베딩(embedding)의 거리가 상기 계산된 평균값 이상에 해당되는 단어만 추출하여 의미자질 후보군으로 선정한다.

즉, 의미자질 후보 선정부(40)는 구축된 LSP 지식에 정의된 모든 의미자질과 단어 임베딩(embedding) 학습을 통해 학습된 단어 간의 거리가 가장 가까운 거리를 갖는 소정 개수 개를 추출하고 이들의 단어 임베딩의 거리의 평균값을 계산하며, 계산된 평균값 이상의 단어 임베딩의 거리를 가진 단어를 유사율이 높은 의미자질로 판단하여 의미자질 후보단어로 선정할 수 있다.

예컨대, 상기 의미자질 후보단어는 구축된 LSP 지식에 정의된 모든 자질에 대해 가장 가까운 상위 5개의 거리의 평균값을 계산하여 계산된 평균값 이상의 거리에 해당하는 단어만이 VOC 데이터(문장 또는 문서)에 포함된 단어로부터 선정될 수 있다. 이에 따라, 상기 계산된 평균값 이하의 거리를 가진 의미자질은 의미자질 후보 단어를 갖지 않게 되고 유사율이 높은 의미 자질에 대해서만 후보 단어가 선정될 수 있다.

이와 같이 단어 임베딩 과정을 통해 구축된 LSP 지식으로부터 의미자질 후보군을 선정하고 나면, 의미자질 추출부(50)는 도 2의 단계 S10에서 구축된 LSP 지식과 도 2의 단계 S20에서 선정된 의미자질 후보군에 기초하여, VOC 데이터에 대한 새로운 의미자질을 추출한다(도 2의 단계 S30). 여기서, 새로운 의미자질은 의미자질 추출부(50)가 도 2의 단계 S20에서 선정된 의미자질 후보군에 포함된 단어들이 도 2의 단계 S10에서 구축된 LSP 지식에 정의된 LSP와 관련성이 있는지 여부를 파악함으로써 추출될 수 있다.

도 2의 단계 S30에 대한 상세한 설명은 도 5를 참조하여 설명한다. 도 5를 참조하면, 우선 의미자질 추출부(50)는 도 2의 단계 S20에서 선정된 의미자질 후보 단어를 포함하는 VOC 데이터(문장 또는 문서)에 대한 구문 구조를 분석한다(S31). 이때, 의미자질 추출부(50)는 의미자질 후보군에 포함되는 단어를 포함하는 VOC 데이터를 구성하는 문장들의 형태소를 문법에 따라 분석할 수 있다.

단계 S31 이후, 의미자질 추출부(50)는 단계 S31에서 분석된 의미자질 후보 단어를 포함하는 VOC 데이터에 대한 구문 구조와, 도 2의 단계 S10에서 구축된 LSP 지식에 정의된 LSP의 구문 구조를 아래의 수식 2에 따라 비교한다(S32).

[수식 2]

수식 2에서,

는 문서 i에서의 어휘의미패턴을 의미하고,

는 문서 i에서의 의미자질을 의미하고,

는 문서 i에서의 후보 단어를 의미한다.

상기 비교 결과, 분석된 의미자질 후보 단어를 포함하는 VOC 데이터에 대한 구문 구조와 LSP 지식에 정의된 LSP의 구문 구조가 동일하면, 의미자질 추출부(50)는 상기 LSP 지식에 정의된 LSP의 구문 구조와 동일한 구문 구조를 갖는 VOC 데이터에 포함된 후보 단어를 새로운 의미자질로 추출한다(S33). 이때, 추출된 새로운 의미자질은 저장부(70)에 등록됨으로써 LSP 분석 범위를 확장시킬 수 있다.

상술한 바와 같이, 본 발명의 실시예에 따르면 새롭게 분석하는 VOC데이터에 대한 데이터 유형을 분류하기 위해, 종래의 VOC 데이터로부터 의미자질 후보 단어를 선정하고, 선정된 의미자질 후보 단어들이 구축된 LSP 지식에 정의된 LSP에 속하는지 여부를 파악하여 새로운 의미자질로 등록하는 과정을 거친다. 이러한 과정을 반복적으로 수행하면 구축된 LSP 지식에 정의된 LSP로부터 새로운 의미자질을 계속적으로 추출하여 종래 기술 대비 확장된 LSP를 생성할 수 있다. 예컨대, 상술한 과정은 관리자에 의해 설정된 일정 횟수 동안 또는 더 이상의 새로운 의미자질이 추출되지 않을 때까지 반복적으로 수행될 수 있다.

이와 같이, 새로운 의미자질을 등록하게 되면 향후 새로운 VOC 데이터(문장 또는 문서)가 입력될 때 종래에 LSP 지식에 정의된 의미자질과 새롭게 등록된 의미자질에 대해 모두 의미자질 후보 단어를 선정할 수 있게 된다. 이에 따라, 종래의 의미자질 후보에서 새로운 의미자질에 대한 의미자질 후보군이 더 늘어나게 되며 이러한 과정을 반복적으로 수행하면 등록된 의미자질의 수가 더욱 많아지게 되고 LSP은 더욱 많은 표현을 이해할 수 있는 구문 구조를 가지게 된다.

즉, 본 발명의 실시예에 따르면 종래 대비 확장된 의미자질과 확장된 LSP를 구축할 수 있어 새롭게 입력되는 VOC 데이터(문장 또는 문서)에서 종래에 분석되지 못했던 구문구조를 분석할 수 있으며 이에 따라 VOC 데이터의 의미를 파악하고 데이터의 유형을 용이하게 분류할 수 있게 된다.

한편, 도 2를 참조하면, 상술한 단계 S10 내지 S30을 거치고 나면 데이터 유형 분류부(60)는 의미자질 추출부(50)를 통해 추출된 새로운 의미자질과 LSP 지식 구축부(30)를 통해 사전에 구축된 LSP 지식에 기초하여, 새롭게 입력되는 VOC 데이터(문장 또는 문서)에 대한 유형을 분류한다(S40). 단계 S40에 대한 상세한 설명은 도 6을 참조하여 설명한다.

도 6을 참조하면, 우선 데이터 유형 분류부(60)는 의미자질 추출부(50)를 통해 추출된 새로운 의미자질과, LSP 지식 구축부(30)를 통해 구축된 LSP 지식을 포함하는 LSP 지식을 생성한다(S41).

이후, 데이터 유형 분류부(60)는 단계 S41에서 생성된 LSP 지식에 포함된 LSP에 기초하여 종래에 분석되지 못했던 VOC 데이터 또는 새롭게 입력되어 분석되는 VOC 데이터에 대한 유형을 분류할 수 있다(S42). 본 발명의 실시예에 따른 생성된 LSP에 기초하여 상기 새롭게 입력되는 VOC 데이터에 대한 유형을 분류하는 단계(S42)는 구체적으로 다음과 같은 과정을 포함한다.

데이터 유형 분류부(60)는 새롭게 입력되는 VOC 데이터를 구성하는 문장들의 형태소를 분석하여 각 문장에 매칭하는 LSP를 단계 S41에서 생성된 LSP 지식으로부터 검출하는 제1 단계와, 생성된 LSP 지식에 포함된 각 유형에 맞게 분류된 LSP에 상기 각 문장에 매칭하는 LSP가 매칭될 때마다 상기 각 유형에 대해 가중치를 부여하는 제2 단계와, 상기 제2 단계에서 부여된 가중치의 합이 가장 큰 유형으로 상기 새롭게 입력되는 VOC 데이터에 대한 유형을 분류하는 제3 단계를 포함한다. 여기서, 상기 제2 단계에서의 각 유형에 대해 가중치는 아래의 수식 3에 따라 부여된다.

[수식 3]

수식 3에서,

는 유형 n에 대해 문서 i가 갖는 분류의 가중치를 의미하고,

은 유형 n에 대해 매칭된 LSP의 합을 의미한다.

이와 같이, 데이터 유형 분류부(60)는 새롭게 입력되는 VOC 데이터에 대하여 각 유형에 구축된 LSP에 매칭된 결과로 유형마다 가중치를 계산하고 가장 가중치가 많이 부여된 유형으로 데이터의 유형을 분류한다.

도 7은 VOC 데이터에 대한 유형 분류와 단어 임베딩(embedding) 학습의 예를 설명하기 위해 관리자 단말의 화면(200) 구성을 예시적으로 나타낸 도면이다.

도 7을 참조하면, 본 발명의 일 실시예에 따른 VOC 데이터의 유형은 클래스(220) 명칭으로 구분된다. 또한 각 유형에 속하는 VOC 데이터 문서들에서 단어를 추출하여 단어 임베딩(embedding) 학습을 수행한다. 예컨대, 도 7에 도시된 바와 같이 각 유형(220)에 속하는 VOC 데이터 중에서 단어 임베딩 학습을 할 단어의 갯수(230)가 추출되며, 단어 임베딩 수행 여부(240)에 기초하여 학습된 단어의 총 건수(210)가 결정된다. 이렇게 학습된 단어들을 기반으로 하여 새롭게 입력된 VOC 데이터 문서에 대해 사전에 구축된 LSP 지식과 비교하여 유형(220)을 분류한다.

도 8은 도 3의 의미자질 사전을 구축함에 있어서 의미자질의 구성(300)을 예시적으로 나타낸 도면이다.

도 8을 참조하면, 본 발명의 일 실시예에 따른 의미자질은 개체 이름을 포함하고 이를 태그의 개념으로 묶을 수 있다. 예컨대, 도 8에 도시된 바와 같이 BB크림, 썬크림, 미스트와 같은 개체 이름은 화장품이라는 태그로, 티셔츠, 청바지와 같은 개체 이름은 옷이라는 태그로, 스니커즈, 런닝화와 같은 개체 이름은 신발이라는 태그로, 딱풀, 가위, 클립이러는 태그는 문구류라는 태그로 묶여서 의미자질을 구성할 수 있다. 이러한 개체명을 기준으로 유사 단어(예컨대, 귀걸이, 악세사리)를 추출하면 해당 태그 안에 들어갈 의미자질을 구축할 수 있다.

도 9는 도 6의 새롭게 입력되는 VOC 데이터에 대한 유형을 분류함에 있어서 관리자 단말의 화면(400) 구성을 예시적으로 나타낸 도면이다. 본 발명의 일 실시예에 따르면, 종래 대비 확장된 의미자질과 확장된 LSP를 구축할 수 있어 새롭게 입력되는 VOC 데이터(문장 또는 문서)에서 종래에 분석되지 못했던 구문구조를 분석할 수 있다.

예를 들어, "지난번에 구매했던 그린티 미네랄 미스트 배송 문의인데요." 라는 새로운 VOC 데이터가 입력되면, 이 문장의 경우 유형 분류의 정확도의 결과가 92.31%인 '배송>배송진행상태'의 유형으로 분류된다. 앞서 상술한 도 7 및 도 8을 참조하면 기존의 VOC 데이터에 대한 유형 중에서 '배송>배송진행상태'의 유형이 분류되지 않았으나, 사전에 구축된 LSP에서 '미스트'라는 개체명이 '화장품' 범주에 속하며 단어 임베딩 학습을 통해 '배송 문의'가 '배송>배송진행상태'라는 유형에 속한다는 것을 분석했기 때문에 이러한 의미 기반으로 '배송>배송진행상태'라는 유형으로 분류할 수 있는 것이다.

즉, 본 발명에 따른 고객의 소리(VOC) 데이터로부터 데이터 유형을 분류하는 방법에 따르면, 종래의 구축된 어휘의미패턴(LSP)과 단어 임베딩(Word Embedding)을 통해 새로운 의미자질을 추출하므로 종래에 분류할 수 없었던 새롭게 입력되는 고객의 소리(VOC) 데이터에 대한 구문 구조 분석, 의미 분석 및 유형 분류가 가능하다. 이에 따라, 새롭게 입력되는 고객의 소리(VOC) 데이터에 대하여 쉽게 이해하여 의사결정에 도움을 줄 수 있는 현저하고도 유리한 효과가 있다.

참고로, 본 발명의 바람직한 여러 가지 실시 예에 따른 고객의 소리 데이터로부터 주요 자질 추출 방법 및 이를 이용한 데이터 유형 분류 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독가능매체에 기록될 수 있다. 상기 컴퓨터 판독가능매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용가능한 것일 수도 있다. 컴퓨터 판독가능매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체, 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급언어코드를 포함한다. 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상 첨부된 도면을 참조하여 본 발명의 실시 예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 명세서의 범위는 상기 상세한 설명보다는 후술하는 특허청구의 범위에 의하여 나타내어지며, 특허청구의 범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 명세서의 범위에 포함되는 것으로 해석되어야 한다.

한편, 본 명세서와 도면에는 본 명세서의 바람직한 실시 예에 대하여 개시하였으며, 비록 특정 용어들이 사용되었으나, 이는 단지 본 명세서의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 명세서의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예 외에도 본 명세서의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.

본 발명은 기존에 구축된 어휘의미패턴(LSP)과 단어 임베딩(Embedding)을 통해 새로운 의미자질을 추출하여 종래 대비 의미자질을 확장함으로써 종래에 분류할 수 없었던 고객의 소리(VOC) 데이터의 유형을 분류하고 구문 구조와 주요 자질들의 정보를 파악할 수 있다. 또한, 새로운 자질과 의미가 있는 문장 및 문서에 대해서 구문 구조, 의미 분석 및 유형 분류가 가능함으로써 사용자가 데이터를 쉽게 이해하여 의사 결정함에 도움을 줄 수 있다. 이는 고객의 소리(VOC)에 대한 응답 서비스를 효과적으로 제공하기 위한 기업들을 상대로 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있다.

Claims

어휘의미패턴(LSP)를 이용하여 고객의 소리(VOC) 데이터로부터 주요 자질 추출 방법 및 이를 이용한 데이터 유형 분류 방법에 있어서,

(a) VOC 데이터에 대하여 유형, 의미자질 및 LSP를 정의하여 LSP 지식을 사전에 구축하는 단계;

(b) 구축된 LSP 지식으로부터 의미자질 후보군을 선정하는 단계;

(c) 상기 구축된 LSP 지식 및 상기 선정된 의미자질 후보군에 기초하여, 상기 VOC 데이터에 대한 새로운 의미자질을 추출하는 단계; 및

(d) 추출된 새로운 의미자질 및 상기 구축된 LSP 지식에 기초하여, 새롭게 입력되는 VOC 데이터에 대한 유형을 분류하는 단계를 포함하는 고객의 소리(VOC) 데이터로부터 주요 자질 추출 방법 및 이를 이용한 데이터 유형 분류 방법.
제1항에 있어서, 상기 (a) 단계는,

VOC 샘플 데이터를 수집하여 기설정된 분류 체계에 맞게 상기 유형을 정의하는 단계;

수집된 VOC 샘플 데이터를 상기 유형에 맞게 분류하는 단계;

상기 유형에 맞게 분류된 VOC 샘플 데이터에 대한 LSP를 구축하는 단계;

구축된 LSP를 구성하는 의미자질을 추출하여 의미자질 사전을 구축하는 단계; 및

상기 VOC 샘플 데이터에 대하여 상기 유형, 상기 의미자질 및 상기 LSP로 정의된 상기 LSP 지식을 구축하는 단계를 포함하는 고객의 소리(VOC) 데이터로부터 주요 자질 추출 방법 및 이를 이용한 데이터 유형 분류 방법.
제2항에 있어서, 상기 구축된 LSP를 구성하는 의미자질을 추출하여 의미자질 사전을 구축하는 단계는,

상기 구축된 LSP로부터 상기 유형의 의미를 구성하는 기본 단위로서 동일한 의미를 가지는 한 개 이상의 엔트리들을 하나의 집합으로 묶어놓은 의미자질 사전을 구축하는 단계인, 고객의 소리(VOC) 데이터로부터 주요 자질 추출 방법 및 이를 이용한 데이터 유형 분류 방법.
제1항에 있어서, 상기 (b) 단계는,

상기 LSP 지식에 정의된 의미자질에 기초하여, 상기 VOC 데이터에 포함된 학습할 단어를 단어 임베딩(embedding) 학습을 통해 학습하여 단어 벡터를 생성하는 단계;

상기 생성된 단어 벡터를 이용하여 상기 LSP 지식에 정의된 의미자질과의 유사도를 판단하는 단계; 및

판단된 유사도에 기초하여 의미자질 후보군을 선정하는 단계를 포함하는 고객의 소리(VOC) 데이터로부터 주요 자질 추출 방법 및 이를 이용한 데이터 유형 분류 방법.
제4항에 있어서, 상기 생성된 단어 벡터를 이용하여 상기 LSP 지식에 정의된 의미자질과의 유사도를 판단하는 단계는,

상기 LSP 지식에 정의된 의미자질과 상기 단어 임베딩(embedding) 학습을 통해 학습된 단어 간의 단어 임베딩(embedding)의 거리를 계산하여 상기 단어 임베딩(embedding) 학습을 통해 학습된 단어와 상기 LSP 지식에 정의된 의미자질 간의 유사도를 판단하는 단계인, 고객의 소리(VOC) 데이터로부터 주요 자질 추출 방법 및 이를 이용한 데이터 유형 분류 방법.
제5항에 있어서,

상기 단어 임베딩(embedding)의 거리는, [수식 1]을 이용하여 계산되는 것을 특징으로 하는 고객의 소리(VOC) 데이터로부터 주요 자질 추출 방법 및 이를 이용한 데이터 유형 분류 방법.

[수식 1]

(여기서,
: 단어
와 단어
,
: 단어
와
의 원소
,
의 거리,
: 정규 분포 표현)
제5항에 있어서, 상기 판단된 유사도에 기초하여 의미자질 후보군을 선정하는 단계는,

상기 LSP 지식에 정의된 모든 의미자질에 대해 상기 단어 임베딩(embedding) 학습을 통해 학습된 단어들 중에서 상기 단어 임베딩(embedding)의 거리가 가장 가까운 소정 개수의 단어를 상기 VOC 데이터에 포함된 단어들로부터 추출하는 단계;

추출된 소정 개수의 단어에 해당하는 단어 임베딩(embedding)의 거리에 대한 평균값을 계산하는 단계; 및

상기 단어 임베딩(embedding)의 거리가 상기 계산된 평균값 이상에 해당되는 단어만 추출하여 의미자질 후보군으로 선정하는 단계를 포함하는 고객의 소리(VOC) 데이터로부터 주요 자질 추출 방법 및 이를 이용한 데이터 유형 분류 방법.
제1항에 있어서, 상기 (c) 단계는,

상기 선정된 의미자질 후보군에 포함되는 단어를 포함하는 VOC 데이터에 대한 구문 구조를 분석하는 단계;

분석된 VOC 데이터에 대한 구문 구조와 상기 LSP 지식에 정의된 LSP의 구문 구조를 비교하는 단계; 및

상기 비교 결과, 상기 분석된 VOC 데이터에 대한 구문 구조와 상기 LSP 지식에 정의된 LSP의 구문 구조가 동일하면 상기 LSP 지식에 정의된 LSP의 구문 구조와 동일한 구문 구조를 갖는 VOC 데이터에 포함된 상기 단어를 상기 VOC 데이터에 대한 새로운 의미자질로 추출하는 단계를 포함하는 고객의 소리(VOC) 데이터로부터 주요 자질 추출 방법 및 이를 이용한 데이터 유형 분류 방법.
제8항에 있어서,

상기 VOC 데이터에 대한 새로운 의미자질을 추출하는 단계는, [수식 2]를 이용하여 상기 VOC 데이터에 대한 새로운 의미자질을 추출하는 단계인, 고객의 소리(VOC) 데이터로부터 주요 자질 추출 방법 및 이를 이용한 데이터 유형 분류 방법.

[수식 2]

(여기서,
: 문서 i에서의 어휘의미패턴,
: 문서 i에서의 의미자질,
: 문서 i에서의 후보 단어)
제1항에 있어서, 상기 (d) 단계는,

상기 추출된 새로운 의미자질 및 상기 구축된 LSP 지식을 포함하는 LSP 지식을 생성하는 단계; 및

생성된 LSP 지식에 기초하여 상기 새롭게 입력되는 VOC 데이터에 대한 유형을 분류하는 단계를 포함하는 고객의 소리(VOC) 데이터로부터 주요 자질 추출 방법 및 이를 이용한 데이터 유형 분류 방법.
제10항에 있어서, 상기 생성된 LSP에 기초하여 상기 새롭게 입력되는 VOC 데이터에 대한 유형을 분류하는 단계는,

상기 새롭게 입력되는 VOC 데이터를 구성하는 문장들의 형태소를 분석하여 각 문장에 매칭하는 LSP를 상기 생성된 LSP 지식으로부터 검출하는 단계;

상기 생성된 LSP 지식에 포함된 각 유형에 맞게 분류된 LSP에 상기 각 문장에 매칭하는 LSP가 매칭될 때마다 상기 각 유형에 대해 가중치를 부여하는 단계; 및

상기 부여된 가중치의 합이 가장 큰 유형으로 상기 새롭게 입력되는 VOC 데이터에 대한 유형을 분류하는 단계를 포함하는 고객의 소리(VOC) 데이터로부터 주요 자질 추출 방법 및 이를 이용한 데이터 유형 분류 방법.
제11항에 있어서, 상기 각 유형에 대해 가중치를 부여하는 단계는, [수식 3]을 이용하여 새롭게 입력되는 VOC 데이터에 대한 유형을 분류하는 단계인, 고객의 소리(VOC) 데이터로부터 주요 자질 추출 방법 및 이를 이용한 데이터 유형 분류 방법.

[수식 3]

(여기서,
: 유형 n에 대해 문서 i가 갖는 분류의 가중치,
: 유형 n에 대해 매칭된 LSP의 합)