KR101304112B1

KR101304112B1 - 음성 분리를 이용한 실시간 화자인식 시스템 및 방법

Info

Publication number: KR101304112B1
Application number: KR1020110143903A
Authority: KR
Inventors: 김형수; 변환수; 이윤석
Original assignee: 현대캐피탈 주식회사
Priority date: 2011-12-27
Filing date: 2011-12-27
Publication date: 2013-09-05
Also published as: KR20130075513A

Abstract

본 발명은 상담원과의 자유로운 통화 중에 고객의 음성을 실시간으로 분리하고, 이를 통해 고객의 본인 여부 확인을 수행할 수 있는 음성 분리를 이용한 실시간 화자인식 시스템 및 방법을 제공한다. 본 발명의 일 실시예에 따른 음성 분리를 이용한 실시간 화자인식 방법은 고객과 상담원을 통화 가능한 상태로 연결하는 단계와, IP주소를 기반으로 상기 고객의 음성 신호를 실시간으로 분리하여 녹취하는 단계와, 녹취된 상기 고객의 음성 신호를 이용하여 상기 고객의 성문 정보를 생성하는 단계와, 상기 고객의 성문 정보가 데이터베이스에 등록되어 있는지 확인하는 단계와, 상기 고객의 성문 정보가 상기 데이터베이스에 등록되어 있지 않은 경우, 생성된 상기 성문 정보를 상기 데이터베이스에 등록하는 단계와, 상기 고객의 성문 정보가 상기 데이터베이스에 등록되어 있는 경우, 생성된 상기 성문 정보를 상기 데이터베이스에 등록된 기존 성문 정보와 비교하여 본인 인증을 수행하는 단계를 포함한다.

Description

음성 분리를 이용한 실시간 화자인식 시스템 및 방법{REAL TIME SPEAKER RECOGNITION SYSTEM AND METHOD USING VOICE SEPARATION}

본 발명은 화자인식 시스템 및 방법에 관한 것으로, 더욱 상세하게는 상담원과의 통화 중에 고객의 음성을 실시간으로 분리하여 고객에 대한 본인 인증을 수행할 수 있는 음성 분리를 이용한 실시간 화자인식 시스템 및 방법에 관한 것이다.

정보통신 기술의 발달로 인해 기업에서는 고객과의 직접적인 대면을 통한 상담 업무 등의 비중이 점차 감소되고 있는 반면, 전화 연결 등을 이용한 상담 업무 등의 비중이 높아지고 있다. 이러한 비 대면적 상담 업무의 비중이 높아짐에 따라 고객정보가 유출되거나 혹은 명의도용 사건이 발생되지 않도록 고객의 신분을 확인하는 절차가 복잡해지고 있다.

종래에는 전화 통화를 이용한 상담 업무 중 고객의 본인 여부를 확인하기 위한 방법으로서, 핸드폰으로 전송된 인증번호를 상담 시스템에 입력하거나 또는 고객이 소지한 신용카드의 카드번호, 유효번호 등을 상담 시스템에 입력하는 방법이 사용되었다. 그러나, 인증번호나 비밀번호를 입력하는 방법은 불법 도용이 가능하다는 보안상의 취약점이 있어 최근에는 화자인식 등의 생체인증을 이용한 신분 확인 기술들이 다양하게 제안되고 있다. 이러한 생체인증을 이용한 기술의 일례로서, 공개특허 특2002-0080756호에는 '사용자를 자동으로 인증할 수 있는 맞춤형 전화 자동 응답 방법 및 시스템'이 개시되어 있다. 상기 특허문헌에 의하면, 사용자가 자동 응답 시스템에 접속하여 성문을 전송할 수 있으며, 전송된 사용자의 성문을 통해 본인 여부를 확인할 수 있다. 그러나, 상기 특허문헌에서는 사용자의 성문을 상담원이 아닌 자동 음성 시스템에 전송하기 때문에 사용자의 성문이 불법적으로 녹취되는 경우 불법 도용이 가능하다는 보안상의 취약점이 있다.

또한, 종래 사용자의 성문이 상담원과의 전화 통화를 통해 인식되는 경우에도 화자인식이 수행되는 상담 업무의 효율성이 낮은 문제점이 있다. 즉, 상담 통화 중 녹취되는 음성에는 사용자의 음성 이외에 상담원의 음성이 섞여 있어 고객의 음성을 따로 분리하기 위해서는 자동 응답 시스템(Automatic Response System; ARS) 등이 사용된다. ARS 등이 사용되는 경우, 상담 진행 과정에서 고객의 음성이 실시간으로 원활하게 분리되지 못하고 고객의 음성 획득을 위해 상담 진행이 일시 중단되는 문제점이 있다. 따라서, 고객과 상담원의 원활한 소통을 방해하고, 상담 업무에 소요되는 시간이 길어져 전화 통화를 이용한 상담 업무의 효율성이 저하되는 문제점이 있다.

공개특허공보 특2002-0080756호, 공개일 2002.10.26.

본 발명은 상담원과의 자유로운 통화 중에 고객의 음성을 실시간으로 분리하고, 이를 통해 고객의 본인 여부 확인을 수행할 수 있는 음성 분리를 이용한 실시간 화자인식 시스템 및 방법을 제공한다.

본 발명의 일 실시예에 따른 음성 분리를 이용한 실시간 화자인식 방법은 고객과 상담원을 통화 가능한 상태로 연결하는 단계와, IP주소를 기반으로 상기 고객의 음성 신호를 실시간으로 분리하여 녹취하는 단계와, 녹취된 상기 고객의 음성 신호를 이용하여 상기 고객의 성문 정보를 생성하는 단계와, 상기 고객의 성문 정보가 화자인식서버의 데이터베이스에 등록되어 있는지 확인하는 단계와, 상기 고객의 성문 정보가 상기 데이터베이스에 등록되어 있지 않은 경우, 생성된 상기 성문 정보를 상기 데이터베이스에 등록하는 단계와, 상기 고객의 성문 정보가 상기 데이터베이스에 등록되어 있는 경우, 생성된 상기 성문 정보를 상기 데이터베이스에 등록된 기존 성문 정보와 비교하여 본인 인증을 수행하는 단계를 포함한다.

또한, 상기 고객과 상담원을 통화 가능한 상태로 연결하는 단계는 상기 통화의 개시에 따른 접속아이디를 생성하여 상기 상담원 및 상기 화자인식서버로 제공하는 단계와, 상기 접속아이디에 상기 고객의 개인정보를 결합시키는 단계와, 상기 접속아이디에 결합된 상기 고객의 개인정보를 근거로 하여, 생성된 상기 고객의 성문 정보가 상기 데이터베이스에 새로이 등록되거나 또는 생성된 상기 고객의 성문 정보가 상기 데이터베이스에 등록되어 있는 상기 기존 성문 정보와 비교될 수 있도록 상기 상담원의 단말기와 상기 화자인식서버를 동기화시키는 단계를 포함할 수 있다.

또한, 상기 성문 정보를 상기 데이터베이스에 등록하는 단계는 상기 고객의 개인정보를 기초로 상기 상담원의 입력에 따른 고객 확인 절차 및 음성 유입경로에 따라 상기 성문 정보를 복수의 관리등급으로 차등화하여 등록하는 단계를 포함할 수 있다.

또한, 상기 성문 정보를 복수의 관리등급으로 차등화하여 등록하는 단계는 상기 성문 정보를 활용군, 후보군 및 이용불가군 중 어느 하나의 관리등급으로 등록하는 단계를 포함할 수 있다.

또한, 상기 본인 인증을 수행하는 단계는 상기 기존의 성문 정보와의 비교를 통해 동일인으로 판단되지 않는 경우, 블랙리스트 데이터베이스에 등록하는 단계를 포함할 수 있다.

또한, 상기 본인 인증을 수행하는 단계는 상기 기존의 성문 정보가 활용군으로 등록된 경우, 생성된 상기 성문 정보와의 비교를 통해 동일인으로 판단되면 마스터 데이터베이스에 등록하는 단계를 포함할 수 있다.

또한, 상기 본인 인증을 수행하는 단계는 상기 기존의 성문 정보와의 비교 후, 상기 활용군, 후보군 및 이용불가군 중 어느 하나로 재 등록하는 단계를 포함할 수 있다.

본 발명의 일 실시예에 따른 음성 분리를 이용한 실시간 화자인식 시스템은 고객 단말기와 상담원 단말기를 통화 상태로 연결시키며, IP주소를 기반으로 상기 고객 단말기로부터의 음성 신호를 실시간으로 분리하는 교환기와, 분리된 상기 고객 단말기로부터의 음성 신호를 이용하여 성문 정보를 생성하고, 상기 성문 정보를 기초로 상기 고객의 본인 인증을 수행하는 화자인식서버를 포함할 수 있다.

또한, 상기 화자인식 시스템은 상기 교환기와 연동되어 상기 통화 개시에 따른 접속아이디를 생성하고 상기 고객의 개인정보를 결합시켜 상기 상담원 단말기 및 상기 화자인식서버로 제공하는 CTI(Computer Telephony Integration)장치를 포함할 수 있다.

또한, 상기 화자인식 시스템은 분리된 상기 음성 신호를 녹취하는 녹취장치를 포함할 수 있다.

또한, 상기 화자인식서버는 상기 교환기로부터 분리된 상기 음성 신호 및 상기 CTI장치로부터 상기 고객의 개인정보가 결합된 상기 접속아이디를 전송 받고, 상기 접속아이디를 기초로 상기 상담원 단말기와 동기화시키는 송수신 모듈과, 상기 음성 신호를 성문 정보로 변환시키는 성문 모듈과, 상기 성문 정보를 통합 관리하는 데이터베이스와, 상기 데이터베이스를 기반으로 상기 성문 모듈을 통해 전송되는 다른 성문 정보를 비교하여 본인 인증을 수행하고 상기 송수신 모듈을 통해 상기 접속아이디에 해당하는 상기 본인 인증 수행 결과를 상기 상담원 단말기로 제공하는 성문 식별 모듈을 포함할 수 있다.

또한, 상기 데이터베이스는 상기 성문 정보를 차등화하여 관리하기 위한 히스토리 데이터베이스, 블랙리스트 데이터베이스 및 마스터 데이터베이스를 포함할 수 있다.

본 발명의 음성 분리를 이용한 실시간 화자인식 시스템 및 방법에 의하면, 상담원과의 자유로운 통화 중에 고객의 음성이 실시간으로 분리되어 성문 정보를 포함하는 데이터베이스로 구축되고, 향후 고객과의 전화 통화 시 실시간으로 분리되는 고객의 음성을 구축되어 있는 성문 데이터베이스와의 검색 및 비교를 통해 상담 업무의 중단 없이 고객의 본인 여부를 확인할 수 있다. 즉, 고객의 음성을 분리하여 획득하기 위한 ARS 등의 시스템이 채용되지 않아 상담 업무를 수행하기 위한 시스템의 구축이 용이하다. 또한, 상담원과의 원활한 소통을 통해서 종래 개인정보를 제공해야 했던 고객의 거부감을 줄이고, 상담 업무의 효율성을 향상시킬 수 있다. 또한, 상담원과의 자유로운 통화 중에 화자인식을 위한 음성 정보가 고객의 중요한 개인 정보가 유출되는 것을 방지할 수 있으며, 상담 통화 중 본인 여부 확인에 소요되는 시간을 단축시켜 고객 만족도를 향상시킬 수 있다.

도 1은 본 발명의 일 실시예에 따른 음성 분리를 이용한 실시간 화자인식 시스템의 구성을 보인 도면이다.
도 2는 본 발명의 일 실시예에 따른 음성 분리를 이용한 실시간 화자인식 시스템에 채용되는 화자인식서버의 구성을 보인 도면이다.
도 3은 도 2에 도시된 화자인식서버의 데이터베이스의 구성을 보인 도면이다.
도 4는 본 발명의 일 실시예에 따른 음성 분리를 이용한 실시간 화자인식 방법을 보인 순서도이다.

이하, 첨부된 도면을 참조하여 본 발명의 음성 분리를 이용한 실시간 화자인식 시스템(이하, '화자인식 시스템'이라 한다)의 실시예를 설명한다.

도 1 내지 도 3을 참조하면, 본 발명의 일 실시예에 따른 화자인식 시스템은 음성(voice)을 발성의 특징 등에 따라 데이터화시킨 성문(voice print) 정보를 이용하여 본인 여부를 실시간으로 확인할 수 있는, 즉 화자인식(speaker recognition)을 수행할 수 있는 시스템이다. 이러한 화자인식 시스템은, 입력 받은 음성 신호를 성문 정보로 변환시키며, 화자가 누구인지, 예컨대 상담원과 실제 전화 통화하는 고객이 누구인지 식별할 수 있도록 비교 성문 정보가 통합 저장되는 데이터베이스가 구축된다. 데이터베이스에 저장되는 성문 정보는 고객의 개인정보, 예컨대 고객의 전화번호, 주민등록번호, 카드번호, 신용정보 등을 기초로 하여 고객마다 구분되어 저장될 수 있다. 상기 화자인식 시스템은 성문 정보를 이용한 본인 인증 방식 이외에도 핸드폰으로 전송된 인증번호를 입력하거나 또는 고객이 소지한 신용카드의 카드번호, 유효번호 등을 입력하는 방식으로도 본인 인증을 수행할 수 있음은 물론이다.

이 실시예에 따른 화자인식 시스템은, 도 1에 도시된 바와 같이, 고객 단말기(100)와 상담원 단말기(200)를 통화 상태로 연결시키며, IP주소를 기반으로 고객 단말기(100)로부터의 음성 신호를 실시간으로 분리하는 교환기(300)와, 분리된 고객 단말기(100)로부터의 음성 신호를 이용하여 성문 정보를 생성하고, 생성된 성문 정보를 기초로 고객의 본인 여부를 확인하는, 즉 본인 인증을 수행하는 화자인식서버(600)를 포함한다. 또한, 상기 화자인식 시스템은 교환기(300)와 연동하여 통화 개시에 따른 접속아이디를 생성하고, 고객의 개인정보를 결합시켜 상담원 단말기(200)로 제공하는 CTI(Computer Telephony Integration)장치를 포함할 수 있다. 또한, 상기 화자인식 시스템은 분리된 고객의 음성 신호를 녹취하는 녹취장치(500)를 포함할 수 있다.

고객 단말기(100)로는 유선 전화기, 무선 전화기, 공중 전화기 등 상담원과 음성 통화가 가능한 단말 장치를 포함하고, 상담원과 화상 통화가 가능한 단말 장치도 포함한다.

이러한 고객 단말기(100)와 통화 상태로 연결되는 상담원 단말기(200)는 전화 회선망이나 IP망 등을 이용하여 연결되는 전화 통화 기능을 갖춘 단말 장치로서, 고객 정보 등을 화면상에 표시할 수 있는 모니터 등의 출력 장치와, 고객과의 상담 내용을 입력할 수 있는 키보드, 키패드 등의 입력 장치를 포함한다. 상담원 단말기(200)를 통해 상담 업무가 진행되는 과정에서 고객의 동의가 있는 경우 화자인증에 필요한 정보, 즉 고객에 대한 음성 정보를 획득할 수 있으며, 고객의 음성을 이용한 화자인식 방식으로 본인 인증을 수행하는 명령을 내릴 수 있다. 이러한 상담원 단말기(200)는 후술되는 CTI장치(400)와 연결되며, 근거리 또는 원거리에 떨어져 있는 적어도 하나 이상의 상담원 단말기(200)를 포함할 수 있다.

교환기(300)는 각종 전화망, 예컨대 인터넷망, 전용망, ISDN망, PSTN 망 등을 통해 고객 단말기(100)와 상담원 단말기(200)간에 음성 신호가 주고받을 수 있도록 한다. 교환기(300)로는 사설 전화 교환기의 일종인 PBX(Private Branch Exchange)를 사용할 수 있다. 이러한 교환기(300)는, 고객 단말기(100)로부터 연결 요청을 받아 적어도 하나 이상의 상담원 단말기(200) 중 어느 하나를 선택하여 통화를 요청하고 상담원 단말기(200)의 콜 신호에 따라 통화가 가능한 상태로 연결시킨다. 또한, 상담원 단말기(200)로부터 연결 요청을 받아 고객 단말기(100)에 통화를 요청하고, 고객 단말기(100)의 콜 신호에 따라 통화가 가능한 상태로 연결시킨다. 이와 같이 고객 단말기(100)와 상담원 단말기(200)를 통화 상태로 연결시키는 교환기(300)는 상담원 단말기(200)의 명령에 따라 CTI장치(400)와 연동하여 IP주소를 기반으로 고객 단말기(100)로부터 전송되는 음성 신호를 분리시킬 수 있다.

상기 교환기(300)에 의해 고객 단말기(100)와 상담원 단말기(200)의 통화가 개시되면 교환기(300)와 연동되어 있는 CTI(Computer Telephony Integration)장치(400)는 해당 통화의 개시에 따른 접속아이디를 생성한다. CTI장치(400)에서 생성된 접속아이디는 고객의 음성을 성문화한 정보, 즉 성문 정보를 데이터베이스화하기 위한 기준 주소로 사용된다. 이와 같이, 고객과 상담원간의 전화 통화마다 고유한 접속아이디를 생성하여 부여함으로써 복수의 고객 단말기(100)와 복수의 상담원 단말기(200)가 동시에 통화 상태로 연결되더라도 고객의 성문 정보를 혼동하지 않고 관리할 수 있다. 이 실시예에서, 접속아이디는 영문과 숫자 등이 조합된 16자리의 코드로 구성되지만, 접속아이디를 구성하기 위한 조합 문자나 자릿수 등이 이에 한정되는 것은 아니다.

녹취장치(500)는 교환기(300)와 연동하여 고객 단말기(100)와 상담원 단말기(200)의 통화 내용을 녹취(녹음 또는 녹화)할 수 있다. 녹취장치(500)에는 저장 수단이 구비되어 교환기(300)로부터 분리된 고객의 음성 신호만을 저장할 수 있으며, 고객의 음성 신호 외에 상담원의 음성 신호가 혼합된 음성 정보를 저장할 수도 있다. 녹취장치(500)는 통화 개시 시점으로부터 작동할 수 있으며 통화가 종료되는 시점에서 녹취를 종료할 수 있다. 이러한 녹취장치(500)는 고객 단말기(200)에 의해 강제적으로 녹취가 개시, 중지, 종료될 수 있다.

화자인식서버(600)는 실시간으로 분리된 고객의 음성 신호를 전송받아 성문 정보(voice print)를 생성하고, 성문 정보를 고객정보와 결합된 형태로 통합 관리되도록 데이터베이스를 구축한다. 이러한 화자인식서버(600)는, 도 2에 도시된 바와 같이, CTI장치(400)로부터 생성되어서 상담원 단말기(200)를 통해 고객의 개인정보가 결합되는 접속아이디를 전송 받고, 또한 교환기(300)로부터 분리된 음성 신호를 전송 받는 송수신 모듈(640)과, 송수신 모듈(640)로 전송된 음성 신호를 성문 정보로 변환시키는 성문 모듈(610)과, 성문 정보를 통합 관리하는 데이터베이스(620)와, 데이터베이스(620)를 기반으로 성문 모듈(610)을 통해 전송되는 다른 성문 정보를 비교하여 본인 인증을 수행하고 송수신 모듈(640)을 통해 본인 인증 수행 결과를 상담원 단말기(200)로 제공하는 성문 식별 모듈(630)을 포함한다.

송수신 모듈(640)은 CTI장치(400)와 연결되고, CTI장치(400)는 상담원 단말기(200)와 연결되어 송수신 모듈(640)로부터 제공되는 각종 정보, 예컨대 본인 인증 수행 결과 등이 CTI장치(400)를 경유하여 상담원 단말기(200)에 제공된다. 이러한 송수신 모듈(640)은 CTI장치(400)로부터 고객의 개인정보가 결합된 접속아이디를 전송 받고, 상담원 단말기(200)와 동기화된다. 여기서, '동기화'된다는 것은 상담원 단말기(200)와 화자인식서버(600)를 연동시키는 것을 의미하며, 이로써 생성된 고객의 성문 정보를 접속아이디에 결합된 고객의 개인정보를 근거로 하여 데이터베이스(620)에 새로이 등록하거나 또는 생성된 고객의 성문 정보가 데이터베이스(620)에 등록되어 있는 기존의 성문 정보와 비교될 수 있게 된다. 즉, 상담원 단말기(200)와 화자인식서버(600)를 동기화시킴으로써 고객 단말기(100)로부터 획득된 정보를 상담원 단말기(200)와 화자인식서버(600)에서 실시간으로 공유할 수 있으며, 이러한 공유를 통해 고객의 성문 정보를 고객의 개인정보에 따라 구분지어 효율적으로 관리할 수 있다.

데이터베이스(620)에는 고객 확인 절차와 음성의 유입경로 등에 따라 성문 정보가 차등화되며, 이러한 차등화된 성문 정보는 복수의 관리등급, 예컨대 이용불가군, 후보군 및 활용군 등에 따라 구분되어 등록된다. 이 실시예에서는 복수의 관리등급으로서 이용불가군, 후보군 및 활용군을 예로 들었지만, 이에 한정되는 것은 아니다. 고객 확인 절차는 고객의 신분을 확인하는 과정에서 어떠한 인증 방식이 사용되었는지에 따라 달라질 수 있다. 예컨대, 고객이 소지한 핸드폰을 통해 고객이 설정한 주민등록번호, 카드번호 등이 입력되었는지, 화자인식 시스템에서 고객의 핸드폰으로 전송한 인증번호가 화자인식 시스템에 입력되었는지 혹은 음성 분리를 통한 화자인식이 이루어졌는지에 따라 고객 확인 절차에 차등화된 등급이 매겨질 수 있다. 또한, 음성의 유입경로는 개인정보를 확인할 수 없는 고객이 전화를 걸어 상담원과 연결되었는지, 제휴사 등에 가입된 고객 등으로 일부 개인정보를 확인할 수 있는 고객이 전화를 걸어 상담원과 연결되었는지 혹은 고객의 개인정보에 대해 알고 있는 상담원이 고객에게 전화를 걸어 연결되었는지 등에 따라 음성의 유입경로도 차등화된 등급이 매겨질 수 있다. 이와 같이 차등화된 복수의 성문 정보가 용이하게 관리될 수 있도록 데이터베이스(620)는, 도 3에 도시된 바와 같이, 고객의 성문 정보와 고객의 개인정보 등에 따라 이용불가군, 후보군 및 활용군 중 어느 하나의 관리등급으로 성문 정보를 분류하는 히스토리 데이터베이스(621)와, 성문 정보의 비교를 통해 본인 인증이 확인되지 않은 경우, 예컨대 명의도용이 의심되는 고객의 성문 정보를 저장하는 블랙리스트 데이터베이스(622)와, 본인 인증이 확인된 고객의 성문 정보를 저장하는 마스터 데이터베이스(623)를 포함할 수 있다.

화자인식서버(600)의 성문 모듈(610)은 템플릿 매칭 기술(template matching techniques) 등을 기초로 고객의 음성 신호를 특징화시킬 수 있다. 여기서, 템플릿 매칭 기술이란 입력된 음성 정보의 시간축 샘플과 등록된 화자의 성문 정보, 참조 템플릿(reference template) 또는 참조 모델(reference model)의 결합과 발성된 발음의 축적된 내용과의 유사성을 비교하는 패턴인식 기술을 의미한다. 성문 모듈(610)에서는 분리된 고객의 음성 신호를 성문화된 자료로 사용하기 때문에 고객이 특정 문맥에 따라 발성해야 하는 문맥의 종속(text dependent) 방식 및 고객의 특정 문맥에 따라 발성할 필요가 없는 문맥의 독립(text independent) 방식을 성문을 비교하기 위한 방법으로 모두 사용할 수 있다.

화자인식서버(600)에서 분석되는 성문 정보를 통해 특정 단어가 언급되었는지 또는 특정 단어가 몇 번이나 언급되었는지 확인할 수 있으며, 이를 통해 고객의 불만이나 요청 사항 등을 성문 정보의 검색을 통해서도 확인할 수 있다. 또한, 성문 정보에는 통화 시간에 대한 정보도 함께 포함되어 있어 고객과 상담원의 통화 내용 중 특정 시간대, 예컨대 통화 중반 내용이나 후반 내용을 특정하여 통화 내용을 확인할 수 있다. 따라서, 상담원의 상담 능력을 평가하거나 또는 고객의 심리 상태를 판단하는 등의 추가적인 통화 내용 분석을 수행할 수 있다.

고객과 상담원과의 통화가 개시되면, CTI장치(400)는 통화 개시에 따른 접속아이디를 생성하여 상담원 단말기(200)와 화자인식서버(600)에 전송한다. 또한, 상담원 단말기(200)는 접속아이디에 고객의 개인정보를 결합시키고, CTI장치(400)는 상담원 단말기(200)와 화자인식서버(600)를 동기화시킨다. 이후, 고객과 상담원간의 통화 중에 본인 인증을 위한 업무가 필요한 경우, 상담원 단말기(200)의 요청에 의해 해당 접속아이디를 기준으로 성문 정보의 등록 여부를 확인하는 절차가 수행된다. 즉, 상담원 단말기(200)의 요청에 의해 화자인식서버(600)에 저장되어 있는 데이터베이스를 검색하여 해당 고객에 대한 성문 정보의 존재 여부가 확인된다. 해당 고객, 즉 상담원과 통화 중인 상담 대상에 대한 성문 정보가 화자인식서버(600)에 존재하고 있지 않은 경우에는 성문 정보를 성문 데이터베이스에 등록하게 되고, 성문 정보가 존재하는 경우에는 통화 중인 고객, 즉 상담 대상에 대한 본인 인증에 활용된다. 이와 같은 화자인식 시스템을 통해 고객과의 통화 중에 고객의 음성을 분리하고, 이를 고객에 대한 성문 정보로 등록할 수 있으며, 향후 상담 통화를 진행하는 경우 본인 인증을 위한 정보로 활용할 수 있다.

이하, 전술한 본 발명의 일 실시예에 따른 화자인식 시스템을 이용한 화자인식 방법에 관하여 첨부된 도면을 참조하여 설명한다.

후술되는 내용에서 화자인식 시스템의 설명 중 동일한 내용이 있는 경우에는 간단히 언급하거나 생략하기로 한다.

도 4를 참조하면, 본 발명의 일 실시예에 따른 음성 분리를 이용한 화자인식 방법은, 도 4에 도시된 바와 같이, 고객과 상담원을 통화 가능한 상태로 연결하는 단계(S110)와, IP주소를 기반으로 고객의 음성 신호를 실시간으로 분리하여 녹취하는 단계(S120)와, 녹취된 고객의 음성 신호를 이용하여 고객의 성문 정보를 생성하는 단계(S130)와, 고객의 성문 정보가 데이터베이스에 등록되어 있는지 확인하는 단계(S140)와, 고객의 성문 정보가 상기 데이터베이스에 등록되어 있지 않은 경우, 생성된 성문 정보를 데이터베이스에 등록하는 단계(S150) 및 고객의 성문 정보가 데이터베이스에 등록되어 있는 경우, 생성된 성문 정보를 데이터베이스에 등록된 기존 성문 정보와 비교하여 본인 인증을 수행하는 단계(S160)를 포함한다.

고객과 상담원을 통화 가능한 상태로 연결하는 단계(S110)는 고객의 요청에 의해 통화가 이루어지거나 또는 상담원의 요청에 의해 통화가 이루어질 수 있다. 또한, 고객과 상담원의 통화 연결 시 고객의 핸드폰 등을 이용한 본인 인증이 선행될 수 있다.

고객과 상담원이 통화 가능한 상태로 연결되면, 통화의 개시에 따른 접속아이디가 생성되고, 생성된 접속아이디에 고객의 개인정보가 결합되어 상담원 및 화자인식서버에 제공되고, 상담원의 단말기와 화자인식서버가 동기화된다. 이와 같이, 고객의 개인정보가 결합된 동일한 접속아이디가 상담원 및 화자인식서버에 제공되고, 양자가 동기화됨에 따라 향후 화자인식을 위해 생성된 고객의 성문 정보가 고객의 개인정보에 근거하여 데이터베이스에 등록되거나 또는 데이터베이스에 등록된 기존 성문 정보와 비교될 수 있다. 즉, 고객으로부터 획득된 성문 정보를 고객의 개인정보와 연계하여 등록하거나 또는 본인 인증을 위한 비교 정보로 사용함으로써 성문 정보를 해당 고객의 성문 정보로 정확하게 등록시킬 수 있으며, 동일한 개인정보를 가진 고객의 기존 성문 정보와 용이하게 비교할 수 있다.

고객과 상담원의 통화가 이루어지는 과정에서, 고객의 동의가 있는 경우, 고객의 단말기에 대한 IP주소를 기반으로 하여 고객의 음성 신호가 분리된다(S120). 이후, 분리된 고객의 음성 신호를 이용하여 성문 정보가 생성되며(S130), 생성된 성문 정보는 데이터베이스에 등록되거나 또는 본인 인증을 위한 비교 정보로 사용된다.

상담 대상에 대한 성문 정보가 데이터베이스에 구축되어 있지 않은 경우, 신규 고객에 대해 생성된 성문 정보는 향후 상담 업무 중 본인 인증을 위한 정보로 활용될 수 있도록 데이터베이스에 등록된다. 이때, 성문 정보는 고객의 개인정보, 예컨대 고객의 신용정보 등을 기초로 상담원의 입력에 따라 이루어지는 고객 확인절차 및 음성 유입경로 등에 따라 차등화된 관리등급, 예컨대 이용불가군, 후보군 및 활용군 중 어느 하나로 등록된다.

이와 같이 기존의 성문 정보가 이용불가군, 후보군, 활용군 중 어느 하나로 등록된 상태에서, 이후 생성된 성문 정보와의 비교를 통해 동일인으로 판단되지 않은 경우에는 성문 정보가 명의도용이 의심되는 고객을 관리하기 위한 블랙리스트 데이터베이스에 등록된다. 또한, 본인 인증을 수행하는 단계에서 기존의 성문 정보가 활용군으로 등록된 경우, 생성된 성문 정보와의 비교를 통해 동일인으로 판단되면 해당 성문 정보가 마스터 데이터베이스에 등록된다. 또한, 기존의 성문 정보와의 비교 후, 상기 활용군, 후보군 및 이용불가군 중 어느 하나의 관리등급으로 등록된 기존의 성문 정보를 변경된 고객의 개인정보 등에 따라 활용군, 후보군 및 이용불가군 중 어느 하나의 관리등급으로 재 등록시킬 수 있다.

이와 같이, 고객과의 통화 중에 고객의 음성을 실시간으로 분리하고 성문 정보를 획득하여 데이터베이스를 구축함으로써 고객의 성문 정보에 대한 정확성을 높여 화자인식을 필요로 하는 상담 업무의 인증 효율을 향상시킬 수 있다.

이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 명백하다 할 것이다.

100: 고객 단말기 200: 상담원 단말기
300: 교환기 400: CTI장치
500: 녹취장치 600: 화자인식서버

Claims

삭제
삭제
고객과 상담원을 통화 가능한 상태로 연결하는 단계와,
IP주소를 기반으로 상기 고객의 음성 신호를 실시간으로 분리하여 녹취하는 단계와,
녹취된 상기 고객의 음성 신호를 이용하여 상기 고객의 성문 정보를 생성하는 단계와,
상기 고객의 성문 정보가 화자인식서버의 데이터베이스에 등록되어 있는지 확인하는 단계와,
상기 고객의 성문 정보가 상기 데이터베이스에 등록되어 있지 않은 경우, 생성된 상기 성문 정보를 상기 데이터베이스에 등록하는 단계와,
상기 고객의 성문 정보가 상기 데이터베이스에 등록되어 있는 경우, 생성된 상기 성문 정보를 상기 데이터베이스에 등록된 기존 성문 정보와 비교하여 본인 인증을 수행하는 단계를 포함하고,
상기 고객과 상담원을 통화 가능한 상태로 연결하는 단계는,
상기 통화의 개시에 따른 접속아이디를 생성하여 상기 상담원 및 상기 화자인식서버로 제공하는 단계와,
상기 접속아이디에 상기 고객의 개인정보를 결합시키는 단계와,
상기 접속아이디에 결합된 상기 고객의 개인정보를 근거로 하여, 생성된 상기 고객의 성문 정보가 상기 데이터베이스에 새로이 등록되거나 또는 생성된 상기 고객의 성문 정보가 상기 데이터베이스에 등록되어 있는 상기 기존 성문 정보와 비교될 수 있도록 상기 상담원의 단말기와 상기 화자인식서버를 동기화시키는 단계를 포함하고,
상기 성문 정보를 상기 데이터베이스에 등록하는 단계는,
상기 고객의 개인정보를 기초로 상기 상담원의 입력에 따른 고객 확인 절차 및 음성 유입경로에 따라 상기 성문 정보를 복수의 관리등급으로 차등화하여 등록하는 단계를 포함하는 음성 분리를 이용한 실시간 화자인식 방법.
제3항에 있어서,
상기 성문 정보를 복수의 관리등급으로 차등화하여 등록하는 단계는,
상기 성문 정보를 활용군, 후보군 및 이용불가군 중 어느 하나의 관리등급으로 등록하는 단계를 포함하는 음성 분리를 이용한 실시간 화자인식 방법.
제4항에 있어서,
상기 본인 인증을 수행하는 단계는,
상기 기존의 성문 정보와의 비교를 통해 동일인으로 판단되지 않는 경우, 블랙리스트 데이터베이스에 등록하는 단계를 포함하는 음성 분리를 이용한 실시간 화자인식 방법.
제5항에 있어서,
상기 본인 인증을 수행하는 단계는,
상기 기존의 성문 정보가 활용군으로 등록된 경우, 생성된 상기 성문 정보와의 비교를 통해 동일인으로 판단되면 마스터 데이터베이스에 등록하는 단계를 포함하는 음성 분리를 이용한 실시간 화자인식 방법.
제4항에 있어서,
상기 본인 인증을 수행하는 단계는,
상기 기존의 성문 정보와의 비교 후, 상기 활용군, 후보군 및 이용불가군 중 어느 하나로 재등록하는 단계를 포함하는 음성 분리를 이용한 실시간 화자인식 방법.
고객 단말기와 상담원 단말기를 통화 상태로 연결시키며, IP주소를 기반으로 상기 고객 단말기로부터의 음성 신호를 실시간으로 분리하는 교환기와,
분리된 상기 고객 단말기로부터의 음성 신호를 이용하여 성문 정보를 생성하고, 상기 성문 정보를 기초로 상기 고객의 본인 인증을 수행하는 화자인식서버 및
상기 교환기와 연동되어 상기 통화 개시에 따른 접속아이디를 생성하고 상기 고객의 개인정보를 결합시켜 상기 상담원 단말기 및 상기 화자인식서버로 제공하는 CTI(Computer Telephony Integration)장치를 포함하고,
상기 화자인식서버는,
상기 교환기로부터 분리된 상기 음성 신호 및 상기 CTI장치로부터 상기 고객의 개인정보가 결합된 상기 접속아이디를 전송 받고, 상기 접속아이디를 기초로 상기 상담원 단말기와 동기화시키는 송수신 모듈과,
상기 음성 신호를 성문 정보로 변환시키는 성문 모듈과,
상기 성문 정보를 통합 관리하는 데이터베이스와,
상기 데이터베이스를 기반으로 상기 성문 모듈을 통해 전송되는 다른 성문 정보를 비교하여 본인 인증을 수행하고 상기 송수신 모듈을 통해 상기 접속아이디에 해당하는 상기 본인 인증 수행 결과를 상기 상담원 단말기로 제공하는 성문 식별 모듈을 포함하고,
상기 데이터베이스는,
상기 성문 정보를 차등화하여 관리하기 위한 히스토리 데이터베이스, 블랙리스트 데이터베이스 및 마스터 데이터베이스
를 포함하는 음성 분리를 이용한 실시간 화자인식 시스템.
삭제
제8항에 있어서,
분리된 상기 음성 신호를 녹취하는 녹취장치를 포함하는 음성 분리를 이용한 실시간 화자인식 시스템.
삭제
삭제