KR102507810B1

KR102507810B1 - 인공지능을 이용한 음성 기반 세일즈 정보 추출 및 리드 추천방법과 이를 수행하는 데이터 분석장치

Info

Publication number: KR102507810B1
Application number: KR1020200148786A
Authority: KR
Inventors: 강현수; 이경수
Original assignee: 주식회사 코난테크놀로지
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2023-03-10
Also published as: KR20220063806A

Abstract

인공지능을 이용한 음성 기반 세일즈 정보 추출 및 리드 추천방법과 이를 수행하는 데이터 분석장치가 개시된다. 일 실시 예에 따른 데이터 분석장치는, 음성 세일즈 데이터를 텍스트 세일즈 데이터로 변환하는 STT 변환부와, 변환된 텍스트 세일즈 데이터로부터 학습 모델을 생성하는 학습부와, 생성된 학습 모델을 이용하여 텍스트 세일즈 데이터에서 세일즈 정보를 추출하는 정보 추출부와, 추출된 세일즈 정보를 대상으로 스코어를 계산하는 스코어 계산부와, 계산된 스코어를 기반으로 리드를 판별하여 추천하는 리드 판별부를 포함한다.

Description

인공지능을 이용한 음성 기반 세일즈 정보 추출 및 리드 추천방법과 이를 수행하는 데이터 분석장치 {Voice-based sales information extraction and lead recommendation method using artificial intelligence, and data analysis apparatus therefor}

본 발명은 데이터 분석기술에 관한 것으로, 보다 상세하게는 음성인식에 기초하여 세일즈 대화를 분석하는 기술에 관한 것이다.

음성인식 기술은 자동차 네비게이션, 스마트폰의 대화 시스템, 통번역 등 일상생활에서 자연스럽게 사용되고 있다. 또한 통신사, 보험사, 증권사, 쇼핑몰 등의 콜 센터에도 딥러닝(Deep learning)과 같은 신경 망을 사용한 음성인식 기술을 적용하여 텍스트 데이터에 한정되었던 VOC(Voice of Customer) 분석범위를 고객의 음성에까지 확장하였다.

일 실시 예에 따라, 인공지능 기술을 사용하여 고객의 음성 세일즈 데이터로부터 세일즈에 필요한 정보를 추출하고 리드를 판별 및 추천해 줄 수 있는, 인공지능을 이용한 음성 기반 세일즈 정보 추출 및 리드 추천방법과 이를 수행하는 데이터 분석장치를 제안한다.

일 실시 예에 따른 데이터 분석장치는, 음성 세일즈 데이터를 텍스트 세일즈 데이터로 변환하는 STT 변환부와, 변환된 텍스트 세일즈 데이터로부터 학습 모델을 생성하는 학습부와, 생성된 학습 모델을 이용하여 텍스트 세일즈 데이터에서 세일즈 정보를 추출하는 정보 추출부와, 추출된 세일즈 정보를 대상으로 스코어를 계산하는 스코어 계산부와, 계산된 스코어를 기반으로 리드를 판별하여 추천하는 리드 판별부를 포함한다.

학습부는, 텍스트 세일즈 데이터를 이용하여 세일즈 정보 추출을 위한 학습 데이터를 구축하고 이에 대한 학습 모델을 생성하며, 학습 데이터는 문장, BANT 및 세일즈 정보 정답 키워드를 포함하고, 문장은 STT 결과 또는 전사 파일에서 세일즈 정보가 포함되어 있는 텍스트이고, BANT는 문장에 대한 세일즈 정보의 BANT 분류 코드이며, 세일즈 정보 정답 키워드는 문장에서 추출된 세일즈 정보의 핵심 키워드일 수 있다.

학습부는, 구축된 학습 데이터를 인코딩 하고, 하이퍼 패러미터(Hyper parameter)를 조정한 후, 조정된 하이퍼 패러미터 값들을 이용하여 학습을 진행하고, 학습을 진행하면서 산출되는 손실율(loss)과 정확도(accuracy)를 모니터링 하면서 세일즈 정보 추출 결과에 대한 검증을 수행할 수 있다.

학습부는, 학습이 정상으로 수행되었는지를 검증하기 위해, 학습 데이터의 테스트 데이터셋을 이용하여 학습 데이터의 세일즈 정보 정답 키워드와, 학습 모델을 통하여 추출된 세일즈 정보 대표 키워드가 일치하는지를 확인하고, 최종적으로 실제 도메인에 적용할 수 있다.

정보 추출부는, 세일즈 정보로서, BANT 정보 및 세일즈 정보 대표 키워드를 추출할 수 있다.

스코어 계산부는, 세일즈 정보 변환 사전의 세일즈 정보 대표 키워드 별 하위 키워드를 참조하여, 정보 추출부를 통해 추출된 세일즈 정보 대표 키워드를 세일즈 정보 상세 키워드로 변환하고, 변환된 세일즈 정보 상세 키워드의 스코어를 세일즈 정보 변환 사전의 스코어를 참조하여 계산할 수 있다.

스코어 계산부는, 세일즈 정보 상세 키워드 각각에 대한 스코어가 산출되면 각각의 스코어를 BANT 가중치와 곱 연산하고 곱 연산 결과를 합산함에 따라 최종 스코어를 계산할 수 있다.

리드 판별부는, 계산된 스코어와 사전에 설정된 리드 기준 스코어를 비교하여 리드 기준 스코어보다 높은 경우 리드로 판별할 수 있다.

다른 실시 예에 따른 세일즈 정보 추출 및 리드 추천방법은, 음성 세일즈 데이터를 텍스트 세일즈 데이터로 변환하는 단계와, 변환된 텍스트 세일즈 데이터로부터 학습 모델을 생성하는 단계와, 생성된 학습 모델을 이용하여 텍스트 세일즈 데이터에서 세일즈 정보를 추출하는 단계와, 추출된 세일즈 정보를 대상으로 스코어를 계산하는 단계와, 계산된 스코어를 기반으로 리드를 판별하여 추천하는 단계를 포함한다.

일 실시 예에 따른 인공지능을 이용한 음성 기반 세일즈 정보 추출 및 리드 추천방법과 이를 수행하는 데이터 분석장치에 따르면, 음성 세일즈 데이터를 음성인식을 기반으로 텍스트 세일즈 데이터로 변환하고, 딥러닝과 같은 인공지능을 기반으로 한 BANT 분석을 통해 세일즈 정보를 추출하며, 추출된 세일즈 정보를 이용하여 영업 기회가 높은 리드를 추천할 수 있다.

인공지능 기술을 음성 세일즈 데이터 분석에 적용하여 BANT 분석에 따른 키워드 분류 작업에 대하여 높은 정확도를 얻을 수 있다. 현재는 사람이 직접 고객의 음성 세일즈 콜을 듣고 영업 기회를 포착하고 있다면, 본 발명에서는 인공지능 기술을 이용하여 음성 세일즈 데이터로부터 세일즈에 필요한 정보를 자동으로 추출 가능하다. 때문에, 본 발명의 인공지능이 적용된 고객 추천 정보 기술을 사용할 경우, 사람이 직관적으로 BANT 분석을 할 때 드는 불필요한 지출을 줄이고 효율적으로 영업 기회를 포착할 수 있다.

도 1은 본 발명의 일 실시 예에 따른 데이터 분석장치의 구성을 도시한 도면,
도 2는 본 발명의 일 실시 예에 따른 도 1의 제어부의 세부 구성을 도시한 도면,
도 3은 본 발명의 일 실시 예에 따른 세일즈 정보 추출 및 리드 추천방법의 흐름을 도시한 도면,
도 4는 본 발명의 일 실시 예에 따른 STT 인식 과정을 도시한 도면,
도 5는 본 발명의 일 실시 예에 따른 딥러닝 학습 데이터 형식을 도시한 도면,
도 6은 본 발명의 일 실시 예에 따른 세일즈 정보 정답 키워드에 대한 설명을 도시한 도면,
도 7은 손실률(loss)에 의한 세일즈 정보 추출 검증을 표로 정리한 도면,
도 8은 정확도(accuracy)에 의한 세일즈 정보 추출 검증을 표로 정리한 도면,
도 9는 본 발명의 일 실시 예에 따른 학습 데이터의 테스트 셋에서 추출한 세일즈 정보 대표 키워드의 예를 도시한 도면,
도 10은 본 발명의 일 실시 예에 따른 실제 도메인에 적용한 세일즈 정보 대표 키워드의 예를 도시한 도면,
도 11은 본 발명의 일 실시 예에 따른 '세일즈 정보 변환 사전'의 예를 도시한 도면,
도 12는 본 발명의 일 실시 예에 따른 '세일즈 정보 상세 키워드' 및 '스코어'의 예를 도시한 도면,
도 13은 본 발명의 일 실시 예에 따른 리드를 추천하는 과정을 도시한 도면이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

본 발명의 실시 예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이며, 후술되는 용어들은 본 발명의 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램인스트럭션들(실행 엔진)에 의해 수행될 수도 있으며, 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장치의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장치의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다.

이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장치를 지향할 수 있는 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다.

그리고 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장치 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장치 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장치를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명되는 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능들을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있으며, 몇 가지 대체 실시 예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하며, 또한 그 블록들 또는 단계들이 필요에 따라 해당하는 기능의 역순으로 수행되는 것도 가능하다.

이하, 첨부 도면을 참조하여 본 발명의 실시 예를 상세하게 설명한다. 그러나 다음에 예시하는 본 발명의 실시 예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 상술하는 실시 예에 한정되는 것은 아니다. 본 발명의 실시 예는 이 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공된다.

도 1은 본 발명의 일 실시 예에 따른 데이터 분석장치의 구성을 도시한 도면이다.

데이터 분석장치(1)는 세일즈 대화 분석 서비스를 제공하는 사업자 또는 사업자의 감독을 받는 주체에 의해 운영될 수 있다. 예를 들어, 데이터 분석장치(1)는 마케팅 업체 또는 비즈니스 연결 서비스 제공 업체 등에 의해 운영될 수 있으나, 실시 예가 이에 제한되는 것은 아니다. 데이터 분석장치(1)는 소정의 연산 프로세스 및 통신 프로세스를 수행할 수 있는 컴퓨팅 장치일 수 있다.

도 1을 참조하면, 데이터 분석장치(1)는 입력부(10), 제어부(12), 출력부(14) 및 저장부(16)를 포함한다.

입력부(10)는 분석이 필요한 고객의 음성 형태의 세일즈 데이터(이하, '음성 세일즈 데이터'라 칭함)를 입력 받는다. 또한, 사용자 조작에 의한 조작신호를 입력 받을 수 있다. 음성 세일즈 데이터는 통신사, 보험사, 증권사, 쇼핑몰 등의 콜 센터 등에서 일어나는 세일즈 콜(sales call)로부터 얻어질 수 있다. 이 경우, 음성 세일즈 데이터는 세일즈 콜을 통해 세일즈 담당자와 고객 사이에 발생하는 세일즈 대화일 수 있다. 입력부(10)는 세일즈 담당자 단말 및 고객 단말 중 적어도 하나와 통신하여 음성 세일즈 데이터를 획득할 수 있다.

제어부(12)는 입력된 음성 세일즈 데이터를 음성인식 기술을 이용하여 텍스트 형태의 세일즈 데이터(이하, '텍스트 세일즈 데이터'라 칭함)로 변환하고, 변환된 텍스트 세일즈 데이터를 대상으로 인공지능 기술을 이용하여 분석함에 따라 세일즈에 필요한 정보(이하, '세일즈 정보'라 칭함)를 추출하고 추출된 세일즈 정보를 이용하여 리드(LEAD)를 판별 및 추천한다. 리드는 기업이 판매하고 있는 제품에 관심이 있는 개인 혹은 조직을 의미한다. 도 2를 참조로 하여 제어부(12)의 세부 구성에 대해 설명한다.

출력부(14)는 데이터 분석장치(1)의 동작 수행에 따라 제공되는 화면을 표시한다. 이때, 제어부(12)를 통해 분석한 결과를 표시할 수 있다. 저장부(16)는 제어부(12)의 분석에 필요한 정보와 분석 결과에 따라 생성되는 정보를 저장한다.

도 2는 본 발명의 일 실시 예에 따른 도 1의 제어부의 세부 구성을 도시한 도면이다.

도 1 및 도 2를 참조하면, 제어부(12)는 STT 처리부(121), 학습부(122), 정보 추출부(123), 스코어 계산부(124) 및 리드 판별부(125)를 포함한다.

STT 처리부(121)는 고객의 음성 세일즈 데이터를 텍스트 세일즈 데이터로 변환한다.

학습부(122)는 변환된 텍스트 세일즈 데이터를 활용하여 세일즈 정보 추출을 위한 학습 데이터를 구축하며, 구축된 학습 데이터에 대한 학습 모델을 생성한다. 학습 데이터는 딥러닝 학습 데이터이며, 학습 모델은 딥러닝 학습 모델일 수 있다. 학습 모델은 세일즈 정보를 추출하는 데 사용된다는 의미에서, 세일즈 정보 추출용 학습 모델로 정의할 수 있다.

정보 추출부(123)는 텍스트 세일즈 데이터에서 학습부(122)를 통해 생성된 세일즈 정보 추출용 딥러닝 학습 모델을 이용하여 세일즈 정보를 추출한다.

스코어 계산부(124)는 추출된 세일즈 정보를 대상으로 스코어링 과정을 통해 내부적으로 정한 BANT 가중치에 따라 스코어를 계산한다. BANT 정보는 세일즈에 필요한 예산(Budget), 권한(Authority), 니즈(Needs), 시기(Time frame) 등의 정보로 이루어져 있다.

리드 판별부(125)는 스코어 계산부(124)에서 계산된 스코어를 리드 기준이 되는 스코어와 비교하여 영업 기회가 높은 리드를 판별하여 추천한다.

도 3은 본 발명의 일 실시 예에 따른 세일즈 정보 추출 및 리드 추천방법의 흐름을 도시한 도면이다.

도 1 내지 도 3을 참조하면, 데이터 분석장치(1)는 음성 세일즈 데이터를 텍스트 세일즈 데이터로 변환한다(310). 단계 310은 도 2의 STT 처리부(121)를 통해 수행될 수 있다.

이어서, 데이터 분석장치(1)는 변환된 텍스트 세일즈 데이터를 각 문장 별로 분리하고 전사 데이터의 BANT 키워드 정보를 태깅하여 학습 데이터를 구축한다. 그리고 구축된 학습 데이터를 통해 딥러닝 학습을 수행하여 세일즈 정보 추출용 학습 모델을 생성한다(320). 단계 320은 학습부(122)를 통해 수행될 수 있다.

이어서, 데이터 분석장치(1)는 생성된 세일즈 추출용 학습 모델을 이용하여 주어진 입력 문장에서 세일즈 정보를 추출한다(330). 세일즈 정보는 'BANT 정보'와 '세일즈 정보 대표 키워드'를 포함할 수 있다. 단계 330은 정보 추출부(123)를 통해 수행될 수 있다.

이어서, 데이터 분석장치(1)는 추출된 세일즈 정보를 대상으로 스코어를 계산한다(340). 이를 위해, '세일즈 정보 변환 사전'을 참조하여 '세일즈 정보 대표 키워드'를 '세일즈 정보 상세 키워드'로 변환하고, 변환된 '세일즈 정보 상세 키워드'에게 중요도에 따라 스코어를 계산한다(340). 단계 340은 스코어 계산부(124)를 통해 수행될 수 있다.

이어서, 데이터 분석장치(1)는 계산된 스코어를 기반으로 내부 기준에 의해 리드를 판별하여 추천한다(350). 해당 단계는 리드 판별부(125)를 통해 수행될 수 있다.

도 4는 본 발명의 일 실시 예에 따른 STT 인식 과정을 도시한 도면이다.

도 2 및 도 4를 참조하면, STT 처리부(121)는 고객의 음성(Speech) 세일즈 데이터를 입력 받아 STT(Speech-To-Text) 기술을 이용하여 텍스트(TXT) 세일즈 데이터로 변환한 후 출력한다.

STT 처리부(121)의 인식률을 극대화하기 위해서는 적용하고자 하는 도메인의 학습이 필수적이다. 이를 위해 고객의 음성 세일즈 데이터 파일과 이에 대한 전사 파일이 필요하다. 고객의 음성 세일즈 데이터 파일은 고객과의 통화 내용이 녹취되어 있는 파일이다. 전사 파일은 해당 녹취 파일에 대한 내용으로 음성 파일을 그대로 텍스트로 변환한 파일이다. 고객의 음성(speech) 세일즈 데이터 파일과 전사(transcription) 파일을 이용하여 STT 처리부(121)의 도메인 학습을 수행하면, 해당 도메인에 특화된 음향 모델(Acoustic Model)과 언어 모델(Language Model)이 생성된다. STT 처리부(121)는 사용된 해당 도메인에 특화된 음향 모델과 언어 모델을 이용하여 고객의 음성 세일즈 데이터에 대하여 텍스트 세일즈 정보로 변환하게 된다.

도 5는 본 발명의 일 실시 예에 따른 딥러닝 학습 데이터 형식을 도시한 도면이고, 도 6은 본 발명의 일 실시 예에 따른 세일즈 정보 정답 키워드에 대한 설명을 도시한 도면이다.

도 2, 도 5 및 도 6을 참조하면, 학습부(122)는 STT 처리부(121)를 통해 생성된 텍스트 세일즈 데이터를 이용하여 세일즈 정보 추출을 위한 딥러닝 학습 데이터를 구축하고, 이에 대한 딥러닝 학습 모델을 생성한다. 생성된 세일즈 정보 추출용 딥러닝 학습 모델은 세일즈 정보 즉, 'BANT 정보' 및 '세일즈 정보 대표 키워드'를 추출하는데 사용된다.

세일즈 정보 추출용 딥러닝 학습 모델을 생성하기 위해 구축되는 딥러닝 학습 데이터 형식은 도 5에 도시된 바와 같이 문장, BANT, 세일즈 정보 정답 키워드를 포함한다. 도 5의 예에서, '문장'은 STT 결과(또는 전사 파일)에서 세일즈 정보가 포함되어 있는 텍스트이고, 'BANT'는 '문장'에 대한 세일즈 정보의 BANT 분류 코드이며, '세일즈 정보 정답 키워드'는 '문장'에서 추출된 세일즈 정보의 핵심 키워드를 의미한다. '세일즈 정보 정답 키워드' 에 대한 용례는 도 6에 도시된 바와 같다.

구축된 학습 데이터는 딥러닝 학습 결과의 검증을 위하여 학습 데이터, 검증 데이터, 테스트 데이터로 구분한다. 가장 이상적인 학습 데이터는 구축된 예산(Budget; B), 담당자(Authority; A), 니즈(Needs; N), 시기(Time frame; T) 등의 BANT 정보량의 크기가 같아야 한다. 그러나 실제 구축된 데이터를 살펴보면 크기가 서로 다르기 때문에 정보량의 크기와 각 학습 데이터(학습, 검증, 테스트)의 비율을 달리하면서 최적의 값을 구한다.

세일즈 정보 추출용 학습 모델을 구축할 때, 세일즈 정보(BANT 정보) 추출을 위해 텍스트 분석에 보다 효율적인 장단기 메모리(Long-Short Term Memory: LSTM, 이하 'LSTM'라 칭함) 모델을 이용할 수 있다. LSTM은 데이터를 순차적으로 처리하기 때문에, 언어에서의 고유한 성격을 포착할 수 있는 능력이 있다. 예를 들어, 매우 긴 문장, 단락, 심지어 문서를 포함한 다양한 텍스트 길이에 대해 모델링이 가능하다. 순환신경망(Recurrent neural network: RNN) 모델이 관련 정보와 정보를 사용하는 지점 사이의 거리가 멀 경우 학습 능력이 크게 저하되는 기울기 소실문제(vanishing gradient problem)를 가지고 있는데, LSTM 모델은 이러한 문제점을 방지하기 위해 개선된 모델이다.

LSTM 모델 구축을 더 용이하게 하기 위하여 구축된 학습 데이터 변환 작업을 진행하는데, 이를 '인코딩'이라고 부른다. 도 5의 '문장' 필드는 word2vec로 인코딩되며, 'BANT' 필드와 '세일즈 정보 정답 키워드' 필드는 one-hot-vector로 인코딩될 수 있다.

도 7은 손실률(loss)에 의한 세일즈 정보 추출 검증을 표로 정리한 도면이고, 도 8은 정확도(accuracy)에 의한 세일즈 정보 추출 검증을 표로 정리한 도면이다.

학습 데이터에 대한 인코딩 작업이 끝나면, 기본적인 하이퍼 패러미터(Hyper parameter)에 대한 조정(Tuning) 작업이 필요하다. 하이퍼 패러미터는 딥러닝 학습 모델을 생성할 때, 사용자가 직접 설정해 주는 값들로, 임베딩 층 개수, 최적화 방법, 에포크, 배치 사이즈 값 등이 있다. 이 값들은 딥러닝 학습을 반복적으로 진행하면서 산출되는 손실율(loss), 정확도(accuracy) 값 등을 살펴보면서 점진적으로 최적의 값들로 정해진다.

도 2, 도 7 및 도 8을 참조하면, 학습부(122)는 설정된 데이터와 하이퍼 패러미터 값들을 이용하여 딥러닝 학습을 진행한다. 딥러닝 학습을 진행하면서, 세일즈 정보의 추출 결과에 대한 검증은 학습을 진행하면서 산출되는 손실율(loss)과 정확도(accuracy)를 모니터링 함으로서 이루어진다. 세일즈 정보 추출에 대한 결과는 도 7 및 도 8에 도시된 바와 같다.

도 7의 예에서, 세일즈 정보 추출을 위하여 사용된 학습셋(Training set)과 검증셋(Validation set)에 대한 손실률(loss)이 시간이 지남에 따라 감소하여 수렴하는 것을 볼 수 있다.

도 8의 예에서, 세일즈 정보 추출을 위하여 사용된 학습셋(Training set)과 검증셋(Validation set)의 정확도(accuracy)가 시간에 지남에 따라 증가하여 수렴하는 것을 볼 수 있다.

만약 검증 그래프의 변동이 심하거나 방향이 갑자기 바뀌게 된다면, 학습 데이터에 대한 조정, 딥러닝 모델의 하이퍼 패러미터 등을 다시 설정하여 이상적인 학습 곡선(손실율, 정확도)을 가질 수 있도록 해야 한다.

도 9는 본 발명의 일 실시 예에 따른 학습 데이터의 테스트 셋에서 추출한 세일즈 정보 대표 키워드의 예를 도시한 도면이다.

도 2 및 도 9를 참조하면, 학습이 정상적으로 수행되었는지 확인하기 위해 먼저 학습 데이터의 테스트 데이터셋을 이용하여 검증하는 과정을 거친 후 최종적으로 실제 도메인에 적용해야 한다. 생성된 딥러닝 학습 모델을 이용하여 학습 데이터의 테스트셋에 적용한 고객의 세일즈 정보 추출 결과는 도 9에 도시된 바와 같다.

도 9의 예에서, 구축된 학습 데이터의 '세일즈 정보 정답 키워드'와 학습 모델을 통하여 추출된 '세일즈 정보 대표 키워드'가 거의 대부분 일치함을 볼 수 있다. 또한 간혹 학습 데이터에 오류가 있을 경우에도, 도 9의 11번 문장('클라우드를 교체하실 계획인가요')에서 보는 것처럼, '세일즈 정보 정답 키워드'가 '관심'으로 잘못 작성되어 있더라도 딥러닝 학습 모델에 의하여 추출된 '세일즈 정보 대표 키워드'는 '고려'로, 정확한 키워드를 추출함을 확인할 수 있다.

도 10은 본 발명의 일 실시 예에 따른 실제 도메인에 적용한 세일즈 정보 대표 키워드의 예를 도시한 도면이다.

학습 데이터의 테스트셋에 대하여 검증이 끝난 후, 실제 도메인에 적용해 본 결과는 도 10에 도시된 바와 같으며, 딥러닝 학습 결과가 올바르게 적용된 것을 확인할 수 있다.

도 11은 본 발명의 일 실시 예에 따른 '세일즈 정보 변환 사전'의 예를 도시한 도면이고, 도 12는 본 발명의 일 실시 예에 따른 '세일즈 정보 상세 키워드' 및 '스코어'의 예를 도시한 도면이다.

도 2, 도 11 및 도 12를 참조하면, 스코어 계산부(124)는 '세일즈 정보 대표 키워드'를 '세일즈 정보 상세 키워드'로 변환하고, 변환된 '세일즈 정보 상세 키워드'의 스코어를 계산한다.

스코어 계산부(124)는 '세일즈 정보 변환 사전'을 참고하여 '세일즈 정보 대표 키워드'를 '세일즈 정보 상세 키워드'로 변환할 수 있다. '세일즈 정보 변환 사전'에는 '세일즈 정보 대표 키워드' 별로 중요하다고 판단되는 하위 키워드들이 구축 돼있다. 하위 키워드에 대한 예시로는 도 11에 도시된 바와 같다.

만약 '세일즈 정보 변환 사전'의 하위 키워드가 분석 하고자 하는 문장에 포함 돼 있을 경우 '세일즈 정보 대표 키워드' 뒤에 '_' 를 붙여 '하위 키워드'가 출현한 순서대로 나열한다. 예를 들어, 도 12의 5번 문장 '에이더블유에스를 도입할 예정이시죠' 라는 테스트 문장이 있고 '고려' 라는 '세일즈 정보 대표 키워드'가 나왔다고 가정한다. 이때, '도입'과 '예정' 이라는 하위 키워드가 '세일즈 정보 변환 사전'에 구축 돼 있고 테스트 문장에도 포함 돼 있다면, '고려' 였던 '세일즈 정보 대표 키워드'를 '고려_도입, 예정' 이라는 '세일즈 정보 상세 키워드'로 변환해준다.

세일즈 정보 변환 작업이 끝나면, '세일즈 정보 변환 사전'(도 11)의 스코어를 참조하여 '세일즈 정보 상세 키워드'의 중요도에 따라 스코어를 차등 계산한다. 각 문장에 대한 '세일즈 정보 상세 키워드'와 이에 대한 '스코어'의 예는 도 12에 도시된 바와 같다. 이때 계산된 '스코어'는 리드를 판별 및 추천하기 위해 사용된다.

도 13은 본 발명의 일 실시 예에 따른 리드를 추천하는 과정을 도시한 도면이다.

도 2 및 도 13을 참조하면, 스코어 계산부(124)는 세일즈 정보 상세 키워드 각각에 대한 스코어가 산출되면 프로젝트 별 BANT 가중치에 따라 해당되는 각각의 스코어를 곱 연산하고 곱 연산 결과를 합산함에 따라 최종 스코어를 계산한다. 이후 리드 판별부(125)는 계산된 최종 스코어를 이용하여 리드 여부를 판별한다. 예를 들어, 사전에 설정된 리드 기준 스코어보다 최종 스코어가 높을 경우 리드로 판별한다. 리드 기준 스코어는 사용자에 의해 변경 가능하다.

프로젝트 별로 미리 설정되는 정보는 BANT 가중치와 리드 판별을 위한 리드 기준 스코어이다. 도 13의 예에서, 해당 프로젝트는 'GSMBIZ'이고 설정된 BANT 가중치는 각각 0.1, 0.3, 0.5, 0.1이며, 리드 기준 스코어는 2.5이다. 고객의 세일즈 데이터에서 추출된 '세일즈 정보 상세 키워드' 마다 스코어가 계산된다. 계산된 스코어와 전문가의 휴리스틱 규칙을 사용하여 'BANT 정보'에 대한 최종 스코어를 계산한다. 이때 사용되는 휴리스틱은 예산(Budget: B), 권한(Authority: A), 시기(Time frame: T)의 경우, 맨 마지막에 출현한 스코어를 선택하고, 니즈(Needs: N)의 경우 가장 높은 스코어를 선택한다. 그 이유는 세일즈 데이터를 분석하였을 때, 예산이나 담당자, 시기에 관한 내용은 대부분 대화 후미에 핵심 정보가 나타나고, 니즈의 경우, 핵심 정보를 다루는 구간이 대화의 순서와 상관 없기 때문에 가장 높은 스코어를 산정한다. 물론 이 기준은 프로젝트에 따라 변경 가능하다.

스코어 계산부(124)는 위와 같이 계산된 스코어와 가중치를 곱 연산하여 리드 판별 스코어를 계산할 수 있다. 예를 들어, 도 13의 예에서는 리드 판별 스코어는 (0*0.1) + (3.5*0.3) + (3.8*0.5) + (2.5*0.1) = 3.2가 된다. 이 리드 판별 스코어(3.2)는 사전에 설정한 리드 기준 스코어(2.5)보다 크므로, 최종적으로 리드로 판별된다(Y).

이제까지 본 발명에 대하여 그 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

음성 세일즈 데이터를 텍스트 세일즈 데이터로 변환하는 STT 변환부;
변환된 텍스트 세일즈 데이터로부터 학습 모델을 생성하는 학습부;
생성된 학습 모델을 이용하여 텍스트 세일즈 데이터에서 세일즈 정보를 추출하는 정보 추출부;
추출된 세일즈 정보를 대상으로 스코어를 계산하는 스코어 계산부; 및
계산된 스코어를 기반으로 리드를 판별하여 추천하는 리드 판별부;를 포함하며,
스코어 계산부는
세일즈 정보 변환 사전의 세일즈 정보 대표 키워드 별 하위 키워드를 참조하여 세일즈 정보 대표 키워드를 세일즈 정보 상세 키워드로 변환하고, 변환된 세일즈 정보 상세 키워드의 스코어를 세일즈 정보 변환 사전의 스코어를 참조하여 계산하고, 세일즈 정보 상세 키워드 각각에 대한 스코어를 BANT 가중치와 곱 연산하고 곱 연산 결과를 합산함에 따라 최종 스코어를 계산하머,
리드 판별부는
계산된 최종 스코어와 사전에 설정된 리드 기준 스코어를 비교하여 리드 기준 스코어보다 높은 경우 리드로 판별하는 것을 특징으로 하는 데이터 분석장치.
제 1 항에 있어서, 학습부는
텍스트 세일즈 데이터를 이용하여 세일즈 정보 추출을 위한 학습 데이터를 구축하고 이에 대한 학습 모델을 생성하며,
학습 데이터는 문장, BANT 및 세일즈 정보 정답 키워드를 포함하고,
문장은 STT 결과 또는 전사 파일에서 세일즈 정보가 포함되어 있는 텍스트이고, BANT는 문장에 대한 세일즈 정보의 BANT 분류 코드이며, 세일즈 정보 정답 키워드는 문장에서 추출된 세일즈 정보의 핵심 키워드인 것을 특징으로 하는 데이터 분석장치.
제 2 항에 있어서, 학습부는
구축된 학습 데이터를 인코딩 하고, 하이퍼 패러미터(Hyper parameter)를 조정한 후, 조정된 하이퍼 패러미터 값들을 이용하여 학습을 진행하고, 학습을 진행하면서 산출되는 손실율(loss)과 정확도(accuracy)를 모니터링 하면서 세일즈 정보 추출 결과에 대한 검증을 수행하는 것을 특징으로 하는 데이터 분석장치.
제 2 항에 있어서, 학습부는
학습이 정상으로 수행되었는지를 검증하기 위해, 학습 데이터의 테스트 데이터셋을 이용하여 학습 데이터의 세일즈 정보 정답 키워드와, 학습 모델을 통하여 추출된 세일즈 정보 대표 키워드가 일치하는지를 확인하고, 최종적으로 실제 도메인에 적용하는 것을 특징으로 하는 데이터 분석장치.
제 1 항에 있어서, 정보 추출부는
세일즈 정보로서, BANT 정보 및 세일즈 정보 대표 키워드를 추출하는 것을 특징으로 하는 데이터 분석장치.
삭제
삭제
삭제
데이터 분석장치를 이용한 세일즈 정보 추출 및 리드 추천방법에 있어서, 데이터 분석장치가
음성 세일즈 데이터를 텍스트 세일즈 데이터로 변환하는 단계;
변환된 텍스트 세일즈 데이터로부터 학습 모델을 생성하는 단계;
생성된 학습 모델을 이용하여 텍스트 세일즈 데이터에서 세일즈 정보를 추출하는 단계;
추출된 세일즈 정보를 대상으로 세일즈 정보 변환 사전의 세일즈 정보 대표 키워드 별 하위 키워드를 참조하여 세일즈 정보 대표 키워드를 세일즈 정보 상세 키워드로 변환하는 단계;
변환된 세일즈 정보 상세 키워드의 스코어를 세일즈 정보 변환 사전의 스코어를 참조하여 계산하는 단계;
세일즈 정보 상세 키워드 각각에 대한 스코어를 BANT 가중치와 곱 연산하고 곱 연산 결과를 합산함에 따라 최종 스코어를 계산하는 단계; 및
계산된 최종 스코어와 사전에 설정된 리드 기준 스코어를 비교하여 리드 기준 스코어보다 높은 경우 리드로 판별하는 단계;
를 포함하는 것을 특징으로 하는 세일즈 정보 추출 및 리드 추천방법.