KR101901920B1

KR101901920B1 - 인공지능 음성인식 딥러닝을 위한 음성 및 텍스트 간 역전사 서비스 제공 시스템 및 방법

Info

Publication number: KR101901920B1
Application number: KR1020180026940A
Authority: KR
Inventors: 윤준호; 심민식; 김철중
Original assignee: 주식회사 아크로노드
Priority date: 2018-03-07
Filing date: 2018-03-07
Publication date: 2018-11-14

Abstract

인공지능 음성인식 딥러닝을 위한 콜센터의 음성 및 텍스트 간 역전사 서비스 제공 시스템이 제공되며, 상담원 단말에서 입력한 번호에 대하여 호(Call) 발신을 수행하는 ACS(Auto Call Service), 고객 단말로 음성 서비스 안내를 제공하고, 고객 단말을 로컬망에 연결된 상담원 단말로 선택적 연결을 위한 호 처리 제어를 수행하는 IVR(Interactive Voice Response), STT(Speak To Text) 딥러닝을 위하여 추가된 단어 또는 문장을 포함하는 스크립트를 등록하는 관리자 단말, IVR과 로컬망으로 연결되고, IVR의 호 처리 제어에 따라 고객 단말을 상담원 단말과 연결시키는 PBX(Private Branch eXchange), ACS, IVR 및 PBX를 통하여 고객 단말과 연결되고, 고객 단말과의 호 연결시 상담사가 읽어야 할 스크립트를 화면에 디스플레이하는 상담원 단말, 및 상담원 단말에서 스크립트를 발성한 음성을 녹취하고 STT 딥러닝을 위하여 기 설정된 파일포맷으로 저장하되, 스크립트와 쌍을 이루도록 매핑하여 저장하여 STT 딥러닝을 준비하는 역전사 서비스 제공 서버를 포함한다.

Description

인공지능 음성인식 딥러닝을 위한 음성 및 텍스트 간 역전사 서비스 제공 시스템 및 방법{SYSTEM AND METHOD FOR PROVIDING REVERSE SCRIPTING SERVICE BETWEEN SPEAKING AND TEXT FOR AI DEEP LEARNING}

본 발명은 인공지능 음성인식 딥러닝을 위한 콜센터의 음성 및 텍스트 간 역전사 서비스 제공 방법에 관한 것으로, 음성인식 딥러닝을 위한 음성-텍스트 쌍을 전사과정 없이 생성할 수 있는 방법을 제공한다.

자연어 처리(Natural Language Processing, NLP)란 인간이 발화하는 언어 현상을 기계적으로 분석해서 컴퓨터가 이해할 수 있는 형태로 만드는 자연 언어 이해 혹은 그러한 형태를 다시 인간이 이해할 수 있는 언어로 표현하는 제반 기술을 의미 한다. 자연어 처리 방식 중 인공신경망 방식은, 최근 들어 부상하고 있는 딥러닝(Deep Learning)을 이용하는데, 딥러닝을 이용한 방식은 입력 문장과 출력 문장을 하나의 쌍으로 두고, 가장 적합한 표현 및 번역 결과를 찾는 방식인데, 이를 위하여 목소리와 이를 전사한 스크립트가 하나의 쌍으로 학습에 이용된다.

이때, 콜센터가 인공지능과 결합하여 진화하고 있는데, 이와 관련하여 선행기술인 한국공개특허 제2014-0046891호(2014년04월21일 공개)에는, 콜을 요청하는 고객 측의 제 1 단말기와 CTI 회선을 통해 통화 연결되고, 제 1 단말기로부터 콜 요청 위치에 대한 음성 신호를 입력받는 IVR 서버와, IVR 서버로부터 음성 신호를 전송받으면 음성 신호에 대응하는 주소를 텍스트 정보로 가공하는 음성 인식 서버, 및 콜센터 회원 측의 복수의 제 2 단말기에 대한 사용자 개인정보 및 현재 위치정보를 포함하는 회원정보를 기 저장하고 있으며, 음성 인식 서버로부터 텍스트 정보를 전송받으면 텍스트 정보에 대응하는 위치 좌표를 추출하고, 위치 좌표와 인접한 거리에 해당되는 적어도 하나의 제 2 단말기로 위치 좌표를 포함하는 콜 정보를 전송하는 메인 서버의 구성을 개시하고 있다.

다만, 상술한 음성 신호를 텍스트로 가공할 때에는 속기사의 전사과정이 요구되며, STT(Speak To Text) 딥러닝을 하기 위하여 입력값은 속기사가 기존의 녹취파일을 듣고 전사를 해야 하기 때문에 전사자의 인건비가 발생하고, 하루에 1 시간 정도의 녹취파일분량을 처리하기 때문에 100시간의 학습파일생성시 수천만원 단위의 인건비가 발생하며, 전사작업의 양과 속기사의 수가 비례하지 않기 때문에 기계학습 구축작업이 지연된다. 또한, 구축이 일단 완료되고 나면 기업에서 다루는 신상품이나 추가되는 업무내용은 추가학습이 요구되는데, 구축이 이미 완료되고 난 후에 업데이트를 하지 않는 경우 음성인식률은 현저하게 낮아지고, 이를 높이기 위해서는 다시 속기사의 전사 작업과 머신러닝 과정이 반복되어야 하므로 비용 및 시간을 재투자해야 하고, 관리자들의 불편함은 기하급수적으로 늘어날 수 밖에 없는 것이 현 실정이다.

본 발명의 일 실시예는, 음성인식 딥러닝에서 입력 데이터로 요구되는 음성과 텍스트의 쌍을 생성하기 위하여, 속기사의 음성을 텍스트로 변환하는 전사과정을 제거하여 음성인식 딥러닝의 학습결과의 오류를 최소화하고, 더 나아가 음성인식의 인식률을 높일 수 있도록 하는, 인공지능 음성인식 딥러닝을 위한 콜센터의 음성 및 텍스트 간 역전사 서비스 제공 방법을 제공할 수 있다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예는, 상담원 단말에서 입력한 번호에 대하여 호(Call) 발신을 수행하는 ACS(Auto Call Service), 고객 단말로 음성 서비스 안내를 제공하고, 고객 단말을 로컬망에 연결된 상담원 단말로 선택적 연결을 위한 호 처리 제어를 수행하는 IVR(Interactive Voice Response), STT(Speak To Text) 딥러닝을 위하여 추가된 단어 또는 문장을 포함하는 스크립트를 등록하는 관리자 단말, IVR과 로컬망으로 연결되고, IVR의 호 처리 제어에 따라 고객 단말을 상담원 단말과 연결시키는 PBX(Private Branch eXchange), ACS, IVR 및 PBX를 통하여 고객 단말과 연결되고, 고객 단말과의 호 연결시 상담사가 읽어야 할 스크립트를 화면에 디스플레이하는 상담원 단말, 및 상담원 단말에서 스크립트를 발성한 음성을 녹취하고 STT 딥러닝을 위하여 기 설정된 파일포맷으로 저장하되, 스크립트와 쌍을 이루도록 매핑하여 저장하여 STT 딥러닝을 준비하는 역전사 서비스 제공 서버를 포함한다.

본 발명의 다른 실시예는, 관리자 단말로부터 STT(Speak To Text) 딥러닝을 위하여 단어 및 문장을 포함하는 스크립트를 업로드받는 단계, 업로드된 스크립트를 상담원 단말의 웹 애플리케이션 접속이 발생하는 경우 상담원 단말의 화면에 출력되도록 제어하는 단계, 상담원 단말의 번호 입력으로 ACS(Auto Call Service)에서 호(Call) 발신을 수행하고, 호 처리 제어를 수행하는 IVR(Interactive Voice Response) 및 고객 단말과 연결하는 PBX(Private Branch eXchange)에 의해 연결되는 경우, 상담원 단말의 음성 녹취를 시작하는 단계, 및 음성 녹취 중 스크립트를 발성한 구간을 추출하여 스크립트와 쌍을 이루도록 매핑하여 저장하여 STT 딥러닝을 준비하는 단계를 포함한다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 녹취를 기준으로 속기를 하는 전사 방식을 이용하는 것이 아니라, 속기된 내용을 가지고 녹취를 하도록 하는 역전사 방식을 이용함으로써, 음성인식 딥러닝의 학습결과를 높여 음성인식의 정확도를 높임과 동시에 전사 과정을 제거하여 인력소모 및 비용낭비를 획기적으로 절감해줄 수 있다.

도 1은 본 발명의 일 실시예에 따른 인공지능 음성인식 딥러닝을 위한 콜센터의 음성 및 텍스트 간 역전사 서비스 제공 시스템을 설명하기 위한 도면이다.
도 2는 도 1의 시스템에 포함된 역전사 서비스 제공 서버를 설명하기 위한 블록 구성도이다.
도 3은 본 발명의 일 실시예에 따른 인공지능 음성인식 딥러닝을 위한 콜센터의 음성 및 텍스트 간 역전사 서비스가 구현된 일 실시예를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 인공지능 음성인식 딥러닝을 위한 콜센터 서비스에 기반하여 관리자 및 상담원 단말의 화면이 구현된 일 실시예를 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 인공지능 음성인식 딥러닝 기계학습을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 인공지능 음성인식 딥러닝을 위한 콜센터의 음성 및 텍스트 간 역전사 서비스 제공 방법을 설명하기 위한 동작 흐름도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

명세서 전체에서 사용되는 정도의 용어 "약", "실질적으로" 등은 언급된 의미에 고유한 제조 및 물질 허용오차가 제시될 때 그 수치에서 또는 그 수치에 근접한 의미로 사용되고, 본 발명의 이해를 돕기 위해 정확하거나 절대적인 수치가 언급된 개시 내용을 비양심적인 침해자가 부당하게 이용하는 것을 방지하기 위해 사용된다. 본 발명의 명세서 전체에서 사용되는 정도의 용어 "~(하는) 단계" 또는 "~의 단계"는 "~ 를 위한 단계"를 의미하지 않는다.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1개의 유닛이 2개 이상의 하드웨어를 이용하여 실현되어도 되고, 2개 이상의 유닛이 1개의 하드웨어에 의해 실현되어도 된다.

본 명세서에 있어서 단말, 장치 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말, 장치 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말, 장치 또는 디바이스에서 수행될 수도 있다.

본 명세서에서 있어서, 단말과 매핑(Mapping) 또는 매칭(Matching)으로 기술된 동작이나 기능 중 일부는, 단말의 식별 정보(Identifying Data)인 단말기의 고유번호나 개인의 식별정보를 매핑 또는 매칭한다는 의미로 해석될 수 있다.

이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 인공지능 음성인식 딥러닝을 위한 콜센터의 음성 및 텍스트 간 역전사 서비스 제공 시스템을 설명하기 위한 도면이다. 도 1을 참조하면, 인공지능 음성인식 딥러닝을 위한 콜센터의 음성 및 텍스트 간 역전사 서비스 제공 시스템(1)은, 고객 단말(100), 역전사 서비스 제공 서버(300), 콜센터 시스템(400), 관리자 단말(500) 및 적어도 하나의 상담원 단말(600)을 포함할 수 있다. 다만, 이러한 도 1의 인공지능 음성인식 딥러닝을 위한 콜센터의 음성 및 텍스트 간 역전사 서비스 제공 시스템(1)은, 본 발명의 일 실시예에 불과하므로, 도 1을 통하여 본 발명이 한정 해석되는 것은 아니다.

이때, 도 1의 각 구성요소들은 일반적으로 네트워크(network, 200)를 통해 연결된다. 예를 들어, 도 1에 도시된 바와 같이, 고객 단말(100)은 네트워크(200)를 통하여 콜센터 시스템(400)과 연결될 수 있다. 그리고, 역전사 서비스 제공 서버(300)는, 네트워크(200)를 통하여 고객 단말(100), 콜센터 시스템(400), 관리자 단말(500), 및 적어도 하나의 상담원 단말(600)과 연결될 수 있다. 또한, 콜센터 시스템(400)은, 네트워크(200)를 통하여 역전사 서비스 제공 서버(300)와 연결될 수 있다. 그리고, 관리자 단말(500)은, 네트워크(200)를 통하여 역전사 서비스 제공 서버(300) 및 콜센터 시스템(400)과 연결될 수 있다. 마지막으로, 적어도 하나의 상담원 단말(600)은, 네트워크(200)를 통하여 고객 단말(100), 콜센터 시스템(400), 역전사 서비스 제공 서버(300), 관리자 단말(500)과 연결될 수 있다.

여기서, 네트워크는, 복수의 단말 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예에는 RF, 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5GPP(5rd Generation Partnership Project) 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, NFC 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.

본 발명의 명세서에 있어서, 콜센터라는 용어가 기재되었지만, 산업상 이용가능성은 특허범위에 영향을 미치지 않으므로, 본 발명의 일 실시예에 따른 구성요소 및 본 발명의 개념이 적용될 수 있는 분야라면 콜센터에 한정되지 않고 다양하게 이용될 수 있음은 자명하다 할 것이다.

하기에서, '적어도 하나의' 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다. 또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시예에 따라 변경가능하다 할 것이다.

고객 단말(100)은, 인공지능 음성인식 딥러닝을 위한 콜센터의 음성 및 텍스트 간 역전사 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하여 상담원 단말(600)과 연결을 시도하는 고객의 단말일 수 있다.

여기서, 고객 단말(100)은, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 고객 단말(100)은, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 고객 단말(100)은, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(smartphone), 스마트 패드(smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.

역전사 서비스 제공 서버(300)는, 인공지능 음성인식 딥러닝을 위한 콜센터의 음성 및 텍스트 간 역전사 서비스 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 제공하는 서버일 수 있다. 그리고, 역전사 서비스 제공 서버(300)는, 고객 단말(100)로부터 호 발신이 이루어지거나, 상담원 단말(600)로부터 호 발신이 이루어지는 경우, 고객 단말(100)과 상담원 단말(600)을 연결하고, 상담원 단말(300)에서 기 저장된 스크립트 내에 포함된 문장 또는 단어를 발성하는 경우, 이를 녹음하여 스크립트와 쌍을 이루도록 저장하고, 이후 STT(Speak To Text) 딥러닝을 위한 입력값으로 이용하는 서버일 수 있다. 이를 위하여, 역전사 서비스 제공 서버(300)는, 관리자 단말(500)로부터 추가되는 스크립트를 적어도 하나의 상담원 단말(600)로 배분하고, 상담원 단말(600)에서 호 발신 이벤트가 발생하거나, 고객 단말(100)로부터의 호 발신으로 연결이 발생한 경우, 적어도 하나의 상담원 단말(600)의 음성을 녹취하고, 스크립트를 발성한 부분을 구분하여 스크립트와 저장하는 서버일 수 있다. 그리고, 역전사 서비스 제공 서버(300)는, 추가되는 스크립트를 적어도 하나의 상담원 단말(600)의 화면에 출력되도록 하고, 녹음이 끝난 경우 해당 스크립트를 제거하는 서버일 수 있다. 또한, 역전사 서비스 제공 서버(300)는, 스크립트와 발성된 녹취 데이터를 입력쌍으로 하여 음성인식 딥러닝을 실시하는 서버일 수 있다.

여기서, 역전사 서비스 제공 서버(300)는, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다.

콜센터 시스템(400)은, 인공지능 음성인식 딥러닝을 위한 콜센터의 음성 및 텍스트 간 역전사 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하여 음성인식을 통한 딥러닝을 수행하는 시스템일 수 있다. 그리고, 콜센터 시스템(400)은, CTI(Computer Telephony Integration)에 기반하고 전화의 배분, 자동 전화 걸기, 현재 통화 상태의 표시, 수신 거부 등 전화와 컴퓨터를 통합할 수 있으며, 고객 데이터베이스나 고객 정보와 연계되어 고객 관리의 효율성을 높여주는 시스템일 수 있다. 이때, 콜센터 시스템(400)은, 컴퓨터 시스템과 전화 시스템 그리고 이들을 결합하는 CTI 기술로 구성될 수 있는데, 컴퓨터 시스템에는 하드웨어와 소프트웨어로 나눠지고 소프트웨어에는 운영체제 데이터베이스, 데이터 통신, 프로그래밍 언어 응용 소프트웨어로 나눌 수 있다. CTI는 콜센터에서 상담원이 고객 상담에 필요한 모든 정보를 통합하고 분석 및 제공을 하고,고객에게 one-stop one-call 및 서비스를 제공할 수 있으며, 콜센터 상담 관련 다양한 통계 정보를 보고 전화 통제 기능을 완벽하게 수행할 수 있도록 구성될 수 있다. 그 기능은, 자동번호확인, 상담원의 컴퓨터 화면에 고객에 대한 상세한 정보를 제공하는 스크린-팝업기능, 자동 음성 안내기능으로 고객의 단순한 업무를 처리하는 IVR(420, Interactive Voice Response), 고객 정보의 데이터베이스 구축 등일 수 있으나, 이에 한정되지는 않고, 실시예에 따라 변경될 수 있음은 자명하다 할 것이다.

관리자 단말(500)은, 인공지능 음성인식 딥러닝을 위한 콜센터의 음성 및 텍스트 간 역전사 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하여 음성인식을 위하여 추가되는 스크립트, 즉 문장 또는 단어를 웹 애플리케이션을 이용하여 추가하고, 추가된 스크립트를 발성할 상담원에게 각 스크립트를 할당하는 단말일 수 있다. 또한, 관리자 단말(500)은, 녹음된 음성을 이후에 음성인식 딥러닝에 사용될 수 있도록 데이터베이스에 저장하는 단말일 수도 있다. 물론, 해당 기능은 자동으로 구현되어 관리자의 개입을 최소화할 수도 있다.

여기서, 관리자 단말(500)은, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 관리자 단말(500)은, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 관리자 단말(500)은, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(smartphone), 스마트 패드(smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.

적어도 하나의 상담원 단말(600)은, 인공지능 음성인식 딥러닝을 위한 콜센터의 음성 및 텍스트 간 역전사 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하여 추가된 스크립트를 출력하는 단말일 수 있다. 그리고, 적어도 하나의 상담원 단말(600)은, 관리자 단말(500)이 배분한 스크립트를 화면에 출력하고, 스크립트를 발성하는 경우, 이를 스크립트가 아닌 발성과 구분하여 녹음 및 스크립트와 쌍을 이루도록 매핑하여 저장하는 단말일 수 있다. 이때, 적어도 하나의 상담원 단말(600)의 네트워킹 자원 또는 컴퓨팅 자원이 상술한 기능을 하기에 적합하지 않은 경우, 즉 기 설정된 기준값을 충족하지 않는 경우, 녹음만을 수행하고, 녹음 데이터를 역전사 서비스 제공 서버(300)로 전송하는 단말일 수 있다. 이때, 적어도 하나의 상담원 단말(600)은 자신이 어떠한 스크립트를 받았는지를 알려주도록, 상담원을 식별하는 고유식별번호 등을 함께 메타데이터로 삽입하여 출력할 수도 있다. 물론, 역전사 서비스 제공 서버(300)는 관리자 단말(500)에서 어떠한 스크립트가 어떠한 상담원에게 배분되었는지를 알고 있으므로, 적어도 하나의 상담원 단말(600)의 고유식별번호만을 추출하여 녹음본을 저장함으로써 어떠한 스크립트를 발성했는지를 판별할 수도 있고, 이는 실시예에 따라 변경가능함은 자명하다 할 것이다.

여기서, 적어도 하나의 상담원 단말(600)은, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 적어도 하나의 상담원 단말(600)은, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 적어도 하나의 상담원 단말(600)은, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(smartphone), 스마트 패드(smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.

도 2는 도 1의 시스템에 포함된 역전사 서비스 제공 서버를 설명하기 위한 블록 구성도이고, 도 3은 본 발명의 일 실시예에 따른 인공지능 음성인식 딥러닝을 위한 콜센터의 음성 및 텍스트 간 역전사 서비스가 구현된 일 실시예를 설명하기 위한 도면이고, 도 4는 본 발명의 일 실시예에 따른 인공지능 음성인식 딥러닝을 위한 콜센터 서비스에 기반하여 관리자 및 상담원 단말의 화면이 구현된 일 실시예를 도시한 도면이고, 도 5는 본 발명의 일 실시예에 따른 인공지능 음성인식 딥러닝 기계학습을 설명하기 위한 도면이다.

도 2를 참조하면, 역전사 서비스 제공 서버(300)는, 업로드부(310), 제어부(320), 녹취부(330), 및 준비부(340)를 포함할 수 있다.

본 발명의 일 실시예에 따른 역전사 서비스 제공 서버(300)나 연동되어 동작하는 다른 서버(미도시)가 관리자 단말(500) 및 적어도 하나의 상담원 단말(600)로 인공지능 음성인식 딥러닝을 위한 콜센터의 음성 및 텍스트 간 역전사 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 전송하는 경우, 관리자 단말(500) 및 적어도 하나의 상담원 단말(600)은, 인공지능 음성인식 딥러닝을 위한 콜센터의 음성 및 텍스트 간 역전사 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 설치하거나 열 수 있다. 또한, 웹 브라우저에서 실행되는 스크립트를 이용하여 서비스 프로그램이 관리자 단말(500) 및 적어도 하나의 상담원 단말(600)에서 구동될 수도 있다. 여기서, 웹 브라우저는 웹(WWW: world wide web) 서비스를 이용할 수 있게 하는 프로그램으로 HTML(hyper text mark-up language)로 서술된 하이퍼 텍스트를 받아서 보여주는 프로그램을 의미하며, 예를 들어 넷스케이프(Netscape), 익스플로러(Explorer), 크롬(chrome) 등을 포함한다. 또한, 애플리케이션은 단말 상의 응용 프로그램(application)을 의미하며, 예를 들어, 모바일 단말(스마트폰)에서 실행되는 앱(app)을 포함한다.

본 발명의 일 실시예에서는, 음성인식 딥러닝에서 입력 데이터로 요구되는 음성과 텍스트의 쌍을 생성하기 위하여, 속기사의 음성을 텍스트로 변환하는 전사과정을 제거하여 음성인식 딥러닝의 학습결과의 오류를 최소화하고, 더 나아가 음성인식의 인식률을 높일 수 있도록 하는 방법을 제공한다. 즉, 기존의 음성인식 STT 딥러닝을 위한 전사작업은, 녹취파일을 기준으로 속기사가 텍스트로 변환하는 방법을 취하고 있다. 초기 음성인식 STT 도입 후에 인식률을 올려주기 위하여 기업의 다양한 음성 데이터 확보하여 전사작업을 하는데, 이때 많은 시간과 비용이 소요되므로, 본 발명의 일 실시예는, 인력의 낭비를 막음과 동시에 기계학습의 효과를 높이도록 역전사(스크립트->음성) 방법을 이용한다.

도 2를 참조하면, 업로드부(310)는, 관리자 단말(500)로부터 STT(Speak To Text) 딥러닝을 위하여 단어 및 문장을 포함하는 스크립트를 업로드받는다. 이때, 관리자 단말(500)은 웹 애플리케이션(450)에 접속하여 스크립트를 업로드할 수도 있고, 추가되는 스크립트를 자동으로 웹 애플리케이션(450)에 업로드하도록 설정될 수도 있어 관리자의 개입이 존재하지 않을 수도 있다.

이때, 상담원 단말(600)과 스크립트는 복수이고, 업로드부(310)에서 관리자 단말(500)로부터 STT(Speak To Text) 딥러닝을 위하여 단어 및 문장을 포함하는 스크립트를 업로드받을 때, 관리자 단말(500)로부터 복수의 상담원 단말(600)로 복수의 스크립트를 할당하는 할당 이벤트를 수신할 수 있다. 그리고, 할당 이벤트에 따라 복수의 스크립트는 관리자 단말(500)에서 설정된 이벤트에 기반하여 복수의 상담원 단말(600)로 분배될 수 있다.

제어부(320)는, 업로드된 스크립트를 상담원 단말(600)의 웹 애플리케이션(450) 접속이 발생하는 경우 상담원 단말(600)의 화면에 출력되도록 제어할 수 있다. 이때, 관리자 단말(500)에서 음성인식 딥러닝에 필요한 표본만큼의 숫자나 에러가 발생하는 상담원을 중심으로 배분할 수도 있지만, 이 또한 필요한 표본만큼의 수의 상담원에게 자동으로 배분할 수도 있고, 에러가 발생하는 발성을 가진 상담원에게 배분되도록 할 수도 있으며, 이는 구현예에 따라 달라질 수도 있다.

녹취부(330)는, 상담원 단말(600)의 번호 입력으로 ACS(Auto Call Service, 430)에서 호(Call) 발신을 수행하고, 호 처리 제어를 수행하는 IVR(Interactive Voice Response, 420) 및 고객 단말(100)과 연결하는 PBX(Private Branch eXchange, 410)에 의해 연결되는 경우, 상담원 단말(600)의 음성 녹취를 시작할 수 있다. 이때, 리코딩(Recording, 440)에서 상담원 단말(600)에 접속하여 녹음을 수행할 수도 있다.

준비부(340)는, 음성 녹취 중 스크립트를 발성한 구간을 추출하여 스크립트와 쌍을 이루도록 매핑하여 저장하여 STT 딥러닝을 준비할 수 있다. 여기서, 스크립트를 발성한 부분과, 실제로 상담을 한 부분을 구분해야 하는데, 자연어 처리 프로그램에 따라 구분을 할 수도 있고, 스크립트를 발성할 시점이 설정된 경우에는, 해당 시점을 기준으로 검색을 함으로써 음성을 인식하여 추출하도록 할 수도 있으나, 상술한 예에 한정되지 않고 다양한 실시예가 적용가능함은 자명하다.

이에 따라, 준비부(340)에서 음성 녹취 중 스크립트를 발성한 구간을 추출하여 스크립트와 쌍을 이루도록 매핑하여 저장하여 STT 딥러닝을 준비할 때, 음성 녹취 중 스크립트를 발성한 구간 이외의 구간에 대한 음성 녹취를 스크립트를 발성한 구간과 분리되도록 저장할 수 있고, 스크립트를 발성한 구간 이외의 구간에 대한 음성 녹취는 음성 전사를 통하여 STT 딥러닝의 입력 데이터로 이용될 수 있다.

정리하면, 본 발명의 일 실시예에 따른 시스템(1)은, 상담원 단말(600)에서 입력한 번호에 대하여 호(Call) 발신을 수행하는 ACS(Auto Call Service, 430), 고객 단말(100)로 음성 서비스 안내를 제공하고, 고객 단말(100)을 로컬망에 연결된 상담원 단말(600)로 선택적 연결을 위한 호 처리 제어를 수행하는 IVR(Interactive Voice Response, 420), STT(Speak To Text) 딥러닝을 위하여 추가된 단어 또는 문장을 포함하는 스크립트를 등록하는 관리자 단말(500), IVR(420)과 로컬망으로 연결되고, IVR(420)의 호 처리 제어에 따라 고객 단말(100)을 상담원 단말(600)과 연결시키는 PBX(Private Branch eXchange, 410), ACS(430), IVR(420) 및 PBX(410)를 통하여 고객 단말(100)과 연결되고, 고객 단말(100)과의 호 연결시 상담사가 읽어야 할 스크립트를 화면에 디스플레이하는 상담원 단말(600), 및 상담원 단말(600)에서 스크립트를 발성한 음성을 녹취하고 STT 딥러닝을 위하여 기 설정된 파일포맷으로 저장하되, 스크립트와 쌍을 이루도록 매핑하여 저장하여 STT 딥러닝을 준비하는 역전사 서비스 제공 서버(300), 스크립트를 상담원 단말(600)의 페이지 접속으로 출력되도록 하고, 관리자 단말(500)에서 스크립트를 추가되도록 업로드하는 페이지인 웹 애플리케이션(450)을 포함할 수 있다.

이때, 상담원 단말(600)의 화면은 추가된 스크립트인 단어 및 문장을 화면의 좌측의 상하에 나누어 각각 출력할 수 있으나, 좌측 또는 우측의 화면 할당은 변경가능하다.

이하, 상술한 도 2의 역전사 서비스 제공 서버의 구성에 따른 동작 과정을 도 3을 예로 들어 상세히 설명하기로 한다. 다만, 실시예는 본 발명의 다양한 실시예 중 어느 하나일 뿐, 이에 한정되지 않음은 자명하다 할 것이다.

도 3을 참조하면, 기업 A의 관리자는 음성인식 딥러닝을 위하여 추가적으로 단어와 문장을 포함하는 스크립트를 웹 애플리케이션(450)에 접속하여 업로드 및 등록한다. 이때, 등록된 추가 단어 및 문장을 포함하는 추가 스크립트는 도메인 A에 접속권한이 있는 사람만 접속이 가능하며, 접속을 했을 때에는 자신에게 할당된 페이지가 출력될 수 있다.

여기서, 상담원 단말(600(1))이 웹 애플리케이션(450)에 접속하는 경우, 상담원 1은 접속된 페이지에서 자신이 읽어야 할 내용을 보고, 자신의 전화번호를 입력한 후, 전화받기 버튼을 클릭한다.

그리고, ACS(430)는, 상담원 단말(600(1))이 입력한 번호에 대하여 발신을 하고, ACS(430)에 의해 연결된 전화는 IVR(420)과 연결되고, 상담원 단말(600(1))과 연결된 IVR(420)은 상담원 단말(600(1))의 화면상에 출력된 추가 단어 및 문장을 포함하는 스크립트를 읽으라는 안내 멘트를 송출한다.

이때, 상담원 단말(600(1))의 상담원이 자신의 PC 상에서 출력되는 추가 단어 및 추가 문장을 읽으면, 리코딩(440) 또는 역전사 서비스 제공 서버(300)는, 통화중인 내용을 녹취하되, 상담원의 음성만 녹취를 하며 STT에 학습하기 위한 최적의 파일포맷으로 저장한다. 이때, 파일포맷은 실시예에 따라 변경될 수 있다.

통화가 완료되면, 상담원 단말(600(1))에서 읽었던 추가 단어 및 추가 문장의 파일은 웹 애플리케이션(450)에서 다운로드받을 수 있도록 변환 및 저장되고, 관리자 단말(500)은 저장된 파일을 일괄적으로 다운로드받고, 기업 A의 딥러닝을 위한 파일 형태로 누적시켜 STT 학습파일로, 음향모델 및 언어모델로 이용된다.

본 발명의 일 실시예는, 녹취를 기준으로 속기를 하는 전사 방식을 이용하는 것이 아니라, 속기된 내용을 가지고 녹취를 하도록 하는 역전사 방식을 이용함으로써, 음성인식 딥러닝의 학습결과를 높임과 동시에 전사 과정을 제거하여 인력소모 및 비용낭비를 획기적으로 절감해줄 수 있다.

도 5를 참조하면, 상술한 세트를 입력값으로 하는 기계학습은 (a) LSP(Lexico-Semantic Pattern) 기술과 유사 질의의 자동 확장을 위한 기계 학습 기술을 동시에 적용할 수 있다.

즉, 음성인식 딥러닝은, 비용 절감을 위해서 도입이 검토되고 있으나 기계 학습만을 이용하여 자동 응대나 보이스 피킹 구현을 시도하는 케이스에서 사용자 질의에 대한 예상치 못한 답변이 있을 수 있고, 온톨로지 기반의 패턴 매칭 방식만을 적용할 경우, 온톨로지 구축 전문가에 의한 텍스트 지식 구축에 필요한 투자비용이 큰 장애가 되므로, 본 발명의 일 실시예에 따른 방법에서는, 필요한 정보에 대해 자연어로써 직접 사람에게 물어보는 것처럼 질문을 시스템에게 할 수 있게 하고 일반적인 온톨로지보다 다양한 표현 형태를 작은 소그룹의 질문으로 정규화시킬 수가 있게 하는 LSP(Lexico-Semantic Pattern)기술과 유사 질의의 자동 확장을 위한 기계 학습 기술을 동시 적용할 수 있다.

우선, 입력된 사용자의 질의는 본 발명의 일 실시예에 따라 역전사 과정 및 전사 과정을 이용하여 먼저 패턴 기반 지식 구축을 LSP 과정을 거쳐 질문의 의도를 명확히 하고 분류 기준을 확정한다. 또한, 질의어 및 콘테츠 문장의 의미를 부여하기 위해 의미별로 분류 작업을 진행하는데, 이때 분석에 사용한 텍스트 데이터는 콜센터에 수집되어 있는 고객 문의 데이터를 더 포함할 수 있다.

기 설정된 정보 구분과 분류 기준에 맞추어 구문 구조 지식, 의미자질 문장구성요소, 의미자질 어휘 엔트리를 구축하며, 기계 학습은 LSP 로 구축한 분류 기준에 맞추어 각각 학습을 실행하여 학습 모델을 생성할 수 있고, 질의-응답 세트는 자동 확장 구조를 구축될 수 있다.'

본 발명의 일 실시예는, 음성인식을 할 때 감정어휘를 구분할 수도 있는데, (b)는 감정어휘를 구분하기 위한 방법으로, 평상시와 화남의 2 가지 감성의 분류에 대하여 남녀 성별에 따른 감성별 특성변화를 적용한 2단계 분류 체계를 이용할 수 있다. 이때, 감성인식에서 중요한 특징으로 알려져 있는 피치 평균(pitch mean)값의 범위가 남성 평상에 대해 가장 낮고, 남성 화남과 여성 평상의 범위가 유사한 영역에 존재하며, 여성 화남이 가장 높은 범위에 존재한다고 가정한다.

그리고, 핵심어 인식을 위하여 음성 특징벡터로 로그에너지 및 벡터를 이용할 수 있는데, HMM을 기반으로 하여 핵심어 모델과 비핵심어(garbage) 모델로 구성된 핵심어인식 시스템을 이용할 수 있다. 각 모델은 triphone을 사용하여 sub-word 단위를 기반으로 모델링 하고, 각 triphone은 3개의 state를 가지는 left-to-right HMM 방법을 이용할 수 있으며, 각 state는 가우시안 혼합(Gaussian의 mixture)로 모델링될 수 있으나, 감정어휘를 구분하고 핵심어를 추출하기 위한 방법이라면 구현예에 따라 어느 것이든 가능할 수 있다.

상술한 방법 이외에도, 기계학습이나 음성인식을 위한 다양한 방법이 이용될 수 있음은 물론이며, 상술한 방법에 한정되지 않는다.

이와 같은 도 2 내지 도 5의 인공지능 음성인식 딥러닝을 위한 콜센터의 음성 및 텍스트 간 역전사 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1을 통해 인공지능 음성인식 딥러닝을 위한 콜센터의 음성 및 텍스트 간 역전사 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.

도 6은 본 발명의 일 실시예에 따른 도 1의 인공지능 음성인식 딥러닝을 위한 콜센터의 음성 및 텍스트 간 역전사 서비스 제공 시스템에 포함된 각 구성들 상호 간에 데이터가 송수신되는 과정을 나타낸 도면이다. 이하, 도 6을 통해 각 구성들 상호간에 데이터가 송수신되는 과정의 일 예를 설명할 것이나, 이와 같은 실시예로 본원이 한정 해석되는 것은 아니며, 앞서 설명한 다양한 실시예들에 따라 도 6에 도시된 데이터가 송수신되는 과정이 변경될 수 있음은 기술분야에 속하는 당업자에게 자명하다.

도 6을 참조하면, 역전사 서비스 제공 서버는, 관리자 단말로부터 STT(Speak To Text) 딥러닝을 위하여 단어 및 문장을 포함하는 스크립트를 업로드받는다(S6100).

또한, 역전사 서비스 제공 서버는, 업로드된 스크립트를 상담원 단말의 웹 애플리케이션 접속이 발생하는 경우 상담원 단말의 화면에 출력되도록 제어한다(S6200).

그리고, 역전사 서비스 제공 서버는, 상담원 단말의 번호 입력으로 ACS(Auto Call Service)에서 호(Call) 발신을 수행하고, 호 처리 제어를 수행하는 IVR(Interactive Voice Response) 및 고객 단말과 연결하는 PBX(Private Branch eXchange)에 의해 연결되는 경우, 상담원 단말의 음성 녹취를 시작한다(S6300).

마지막으로, 역전사 서비스 제공 서버는, 음성 녹취 중 스크립트를 발성한 구간을 추출하여 스크립트와 쌍을 이루도록 매핑하여 저장하여 STT 딥러닝을 준비한다(S6400).

상술한 단계들(S6100~S6400)간의 순서는 예시일 뿐, 이에 한정되지 않는다. 즉, 상술한 단계들(S6100~S6400)간의 순서는 상호 변동될 수 있으며, 이중 일부 단계들은 동시에 실행되거나 삭제될 수도 있다.

이와 같은 도 6의 인공지능 음성인식 딥러닝을 위한 콜센터의 음성 및 텍스트 간 역전사 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1 내지 도 5를 통해 인공지능 음성인식 딥러닝을 위한 콜센터의 음성 및 텍스트 간 역전사 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.

도 6을 통해 설명된 일 실시예에 따른 인공지능 음성인식 딥러닝을 위한 콜센터의 음성 및 텍스트 간 역전사 서비스 제공 방법은, 컴퓨터에 의해 실행되는 애플리케이션이나 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.

전술한 본 발명의 일 실시예에 따른 인공지능 음성인식 딥러닝을 위한 콜센터의 음성 및 텍스트 간 역전사 서비스 제공 방법은, 단말기에 기본적으로 설치된 애플리케이션(이는 단말기에 기본적으로 탑재된 플랫폼이나 운영체제 등에 포함된 프로그램을 포함할 수 있음)에 의해 실행될 수 있고, 사용자가 애플리케이션 스토어 서버, 애플리케이션 또는 해당 서비스와 관련된 웹 서버 등의 애플리케이션 제공 서버를 통해 마스터 단말기에 직접 설치한 애플리케이션(즉, 프로그램)에 의해 실행될 수도 있다. 이러한 의미에서, 전술한 본 발명의 일 실시예에 따른 인공지능 음성인식 딥러닝을 위한 콜센터의 음성 및 텍스트 간 역전사 서비스 제공 방법은 단말기에 기본적으로 설치되거나 사용자에 의해 직접 설치된 애플리케이션(즉, 프로그램)으로 구현되고 단말기에 등의 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

상담원 단말에서 입력한 번호에 대하여 호(Call) 발신을 수행하는 ACS(Auto Call Service);
고객 단말로 음성 서비스 안내를 제공하고, 상기 고객 단말을 로컬망에 연결된 상담원 단말로 선택적 연결을 위한 호 처리 제어를 수행하는 IVR(Interactive Voice Response);
STT(Speak To Text) 딥러닝을 위하여 추가된 단어 또는 문장을 포함하는 스크립트를 등록하는 관리자 단말;
상기 IVR과 상기 로컬망으로 연결되고, 상기 IVR의 호 처리 제어에 따라 상기 고객 단말을 상기 상담원 단말과 연결시키는 PBX(Private Branch eXchange);
상기 ACS, IVR 및 PBX를 통하여 고객 단말과 연결되고, 상기 고객 단말과의 호 연결시 상담사가 읽어야 할 상기 스크립트를 화면에 디스플레이하는 상담원 단말; 및
상기 상담원 단말에서 상기 스크립트를 발성한 상담사의 음성을 녹취하고 상기 STT 딥러닝을 위하여 기 설정된 파일포맷으로 저장하되, 상기 상담사의 음성을 스크립트와 쌍을 이루도록 매핑하여 저장하여 상기 STT 딥러닝을 준비하고, 스크립트를 발성한 부분과 실제 상담한 부분을 구분하되, 스크립트를 발성할 시점이 설정된 경우, 해당 시점을 기준으로 검색해 음성을 인식하여 추출하도록 하는 역전사 서비스 제공 서버;
를 포함하고,
상기 스크립트를 상기 상담원 단말의 페이지 접속으로 출력되도록 하고, 상기 관리자 단말에서 상기 스크립트를 추가되도록 업로드하는 페이지인 웹 애플리케이션;
을 더 포함하는 것이며,
상기 상담원 단말의 화면은 추가된 스크립트인 단어 및 문장을 화면의 좌측 또는 우측의 화면에 할당되되, 화면의 좌측 또는 우측의 상하에 나누어 각각 출력하는 것인, 인공지능 음성인식 딥러닝을 위한 콜센터의 음성 및 텍스트 간 역전사 서비스 제공 시스템.
삭제
제 1 항에 있어서,
상기 상담원 단말은 복수이고,
상기 관리자 단말은, 상기 스크립트를 복수의 상담원 단말로 분배하되, 관리자 단말에서 STT 딥러닝에 필요한 표본만큼의 숫자의 상담원의 상담원 단말을 중심으로 분배되는 것이되, 필요한 표본만큼의 수의 상담원의 상담원 단말로 자동으로 분배되도록 하고,
상기 녹취된 음성과 스크립트를 상기 상담원 단말의 식별자를 기준으로 저장하는 것인, 인공지능 음성인식 딥러닝을 위한 콜센터의 음성 및 텍스트 간 역전사 서비스 제공 시스템.
삭제
역전사 서비스 제공 서버에서 실행되는 역전사 서비스 제공 방법에 있어서,
관리자 단말로부터 STT(Speak To Text) 딥러닝을 위하여 단어 및 문장을 포함하는 스크립트를 업로드받는 단계;
상기 업로드된 스크립트를 상담원 단말의 웹 애플리케이션 접속이 발생하는 경우 상기 상담원 단말의 화면에 출력되도록 제어하는 단계;
상담원 단말의 번호 입력으로 ACS(Auto Call Service)에서 호(Call) 발신을 수행하고, 호 처리 제어를 수행하는 IVR(Interactive Voice Response) 및 고객 단말과 연결하는 PBX(Private Branch eXchange)에 의해 연결되는 경우, 상담원 단말의 화면 상에 출력된 추가 단어 및 문장을 읽으라는 안내 멘트가 송출된 후 상담원 단말의 음성 녹취를 시작하는 단계;
상기 음성 녹취 중 상기 스크립트를 발성한 구간을 추출하여 상기 스크립트와 쌍을 이루도록 매핑하여 저장하여 상기 STT 딥러닝을 준비하는 단계;
를 포함하고,
상기 상담원 단말과 스크립트는 복수이고,
상기 관리자 단말로부터 STT(Speak To Text) 딥러닝을 위하여 단어 및 문장을 포함하는 스크립트를 업로드받는 단계는,
상기 관리자 단말로부터 복수의 상담원 단말로 상기 복수의 스크립트를 할당하는 할당 이벤트를 수신하는 단계;
를 포함하고,
상기 할당 이벤트에 따라 상기 복수의 스크립트는 상기 관리자 단말에서 설정된 이벤트에 기반하여 상기 복수의 상담원 단말로 분배되는 것이고,
관리자 단말에서 STT 딥러닝에 필요한 표본만큼의 숫자의 상담원의 상담원 단말을 중심으로 분배되는 것이되, 필요한 표본만큼의 수의 상담원의 상담원 단말로 자동으로 분배되도록 할 수 있는 것인, 인공지능 음성인식 딥러닝을 위한 콜센터의 음성 및 텍스트 간 역전사 서비스 제공 방법.
삭제
제 5 항에 있어서,
상기 음성 녹취 중 상기 스크립트를 발성한 구간을 추출하여 상기 스크립트와 쌍을 이루도록 매핑하여 저장하여 상기 STT 딥러닝을 준비하는 단계는,
상기 음성 녹취 중 상기 스크립트를 발성한 구간 이외의 구간에 대한 음성 녹취를 상기 스크립트를 발성한 구간과 분리되도록 저장하는 단계;
를 포함하고,
상기 스크립트를 발성한 구간 이외의 구간에 대한 음성 녹취는 음성 전사를 통하여 상기 STT 딥러닝의 입력 데이터로 이용되는 것인, 인공지능 음성인식 딥러닝을 위한 콜센터의 음성 및 텍스트 간 역전사 서비스 제공 방법.