KR101304112B1 - 음성 분리를 이용한 실시간 화자인식 시스템 및 방법 - Google Patents

음성 분리를 이용한 실시간 화자인식 시스템 및 방법 Download PDF

Info

Publication number
KR101304112B1
KR101304112B1 KR1020110143903A KR20110143903A KR101304112B1 KR 101304112 B1 KR101304112 B1 KR 101304112B1 KR 1020110143903 A KR1020110143903 A KR 1020110143903A KR 20110143903 A KR20110143903 A KR 20110143903A KR 101304112 B1 KR101304112 B1 KR 101304112B1
Authority
KR
South Korea
Prior art keywords
customer
database
information
voiceprint information
speaker recognition
Prior art date
Application number
KR1020110143903A
Other languages
English (en)
Other versions
KR20130075513A (ko
Inventor
김형수
변환수
이윤석
Original Assignee
현대캐피탈 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 현대캐피탈 주식회사 filed Critical 현대캐피탈 주식회사
Priority to KR1020110143903A priority Critical patent/KR101304112B1/ko
Publication of KR20130075513A publication Critical patent/KR20130075513A/ko
Application granted granted Critical
Publication of KR101304112B1 publication Critical patent/KR101304112B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/5166Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing in combination with interactive voice response systems or voice portals, e.g. as front-ends

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 상담원과의 자유로운 통화 중에 고객의 음성을 실시간으로 분리하고, 이를 통해 고객의 본인 여부 확인을 수행할 수 있는 음성 분리를 이용한 실시간 화자인식 시스템 및 방법을 제공한다. 본 발명의 일 실시예에 따른 음성 분리를 이용한 실시간 화자인식 방법은 고객과 상담원을 통화 가능한 상태로 연결하는 단계와, IP주소를 기반으로 상기 고객의 음성 신호를 실시간으로 분리하여 녹취하는 단계와, 녹취된 상기 고객의 음성 신호를 이용하여 상기 고객의 성문 정보를 생성하는 단계와, 상기 고객의 성문 정보가 데이터베이스에 등록되어 있는지 확인하는 단계와, 상기 고객의 성문 정보가 상기 데이터베이스에 등록되어 있지 않은 경우, 생성된 상기 성문 정보를 상기 데이터베이스에 등록하는 단계와, 상기 고객의 성문 정보가 상기 데이터베이스에 등록되어 있는 경우, 생성된 상기 성문 정보를 상기 데이터베이스에 등록된 기존 성문 정보와 비교하여 본인 인증을 수행하는 단계를 포함한다.

Description

음성 분리를 이용한 실시간 화자인식 시스템 및 방법{REAL TIME SPEAKER RECOGNITION SYSTEM AND METHOD USING VOICE SEPARATION}
본 발명은 화자인식 시스템 및 방법에 관한 것으로, 더욱 상세하게는 상담원과의 통화 중에 고객의 음성을 실시간으로 분리하여 고객에 대한 본인 인증을 수행할 수 있는 음성 분리를 이용한 실시간 화자인식 시스템 및 방법에 관한 것이다.
정보통신 기술의 발달로 인해 기업에서는 고객과의 직접적인 대면을 통한 상담 업무 등의 비중이 점차 감소되고 있는 반면, 전화 연결 등을 이용한 상담 업무 등의 비중이 높아지고 있다. 이러한 비 대면적 상담 업무의 비중이 높아짐에 따라 고객정보가 유출되거나 혹은 명의도용 사건이 발생되지 않도록 고객의 신분을 확인하는 절차가 복잡해지고 있다.
종래에는 전화 통화를 이용한 상담 업무 중 고객의 본인 여부를 확인하기 위한 방법으로서, 핸드폰으로 전송된 인증번호를 상담 시스템에 입력하거나 또는 고객이 소지한 신용카드의 카드번호, 유효번호 등을 상담 시스템에 입력하는 방법이 사용되었다. 그러나, 인증번호나 비밀번호를 입력하는 방법은 불법 도용이 가능하다는 보안상의 취약점이 있어 최근에는 화자인식 등의 생체인증을 이용한 신분 확인 기술들이 다양하게 제안되고 있다. 이러한 생체인증을 이용한 기술의 일례로서, 공개특허 특2002-0080756호에는 '사용자를 자동으로 인증할 수 있는 맞춤형 전화 자동 응답 방법 및 시스템'이 개시되어 있다. 상기 특허문헌에 의하면, 사용자가 자동 응답 시스템에 접속하여 성문을 전송할 수 있으며, 전송된 사용자의 성문을 통해 본인 여부를 확인할 수 있다. 그러나, 상기 특허문헌에서는 사용자의 성문을 상담원이 아닌 자동 음성 시스템에 전송하기 때문에 사용자의 성문이 불법적으로 녹취되는 경우 불법 도용이 가능하다는 보안상의 취약점이 있다.
또한, 종래 사용자의 성문이 상담원과의 전화 통화를 통해 인식되는 경우에도 화자인식이 수행되는 상담 업무의 효율성이 낮은 문제점이 있다. 즉, 상담 통화 중 녹취되는 음성에는 사용자의 음성 이외에 상담원의 음성이 섞여 있어 고객의 음성을 따로 분리하기 위해서는 자동 응답 시스템(Automatic Response System; ARS) 등이 사용된다. ARS 등이 사용되는 경우, 상담 진행 과정에서 고객의 음성이 실시간으로 원활하게 분리되지 못하고 고객의 음성 획득을 위해 상담 진행이 일시 중단되는 문제점이 있다. 따라서, 고객과 상담원의 원활한 소통을 방해하고, 상담 업무에 소요되는 시간이 길어져 전화 통화를 이용한 상담 업무의 효율성이 저하되는 문제점이 있다.
공개특허공보 특2002-0080756호, 공개일 2002.10.26.
본 발명은 상담원과의 자유로운 통화 중에 고객의 음성을 실시간으로 분리하고, 이를 통해 고객의 본인 여부 확인을 수행할 수 있는 음성 분리를 이용한 실시간 화자인식 시스템 및 방법을 제공한다.
본 발명의 일 실시예에 따른 음성 분리를 이용한 실시간 화자인식 방법은 고객과 상담원을 통화 가능한 상태로 연결하는 단계와, IP주소를 기반으로 상기 고객의 음성 신호를 실시간으로 분리하여 녹취하는 단계와, 녹취된 상기 고객의 음성 신호를 이용하여 상기 고객의 성문 정보를 생성하는 단계와, 상기 고객의 성문 정보가 화자인식서버의 데이터베이스에 등록되어 있는지 확인하는 단계와, 상기 고객의 성문 정보가 상기 데이터베이스에 등록되어 있지 않은 경우, 생성된 상기 성문 정보를 상기 데이터베이스에 등록하는 단계와, 상기 고객의 성문 정보가 상기 데이터베이스에 등록되어 있는 경우, 생성된 상기 성문 정보를 상기 데이터베이스에 등록된 기존 성문 정보와 비교하여 본인 인증을 수행하는 단계를 포함한다.
또한, 상기 고객과 상담원을 통화 가능한 상태로 연결하는 단계는 상기 통화의 개시에 따른 접속아이디를 생성하여 상기 상담원 및 상기 화자인식서버로 제공하는 단계와, 상기 접속아이디에 상기 고객의 개인정보를 결합시키는 단계와, 상기 접속아이디에 결합된 상기 고객의 개인정보를 근거로 하여, 생성된 상기 고객의 성문 정보가 상기 데이터베이스에 새로이 등록되거나 또는 생성된 상기 고객의 성문 정보가 상기 데이터베이스에 등록되어 있는 상기 기존 성문 정보와 비교될 수 있도록 상기 상담원의 단말기와 상기 화자인식서버를 동기화시키는 단계를 포함할 수 있다.
또한, 상기 성문 정보를 상기 데이터베이스에 등록하는 단계는 상기 고객의 개인정보를 기초로 상기 상담원의 입력에 따른 고객 확인 절차 및 음성 유입경로에 따라 상기 성문 정보를 복수의 관리등급으로 차등화하여 등록하는 단계를 포함할 수 있다.
또한, 상기 성문 정보를 복수의 관리등급으로 차등화하여 등록하는 단계는 상기 성문 정보를 활용군, 후보군 및 이용불가군 중 어느 하나의 관리등급으로 등록하는 단계를 포함할 수 있다.
또한, 상기 본인 인증을 수행하는 단계는 상기 기존의 성문 정보와의 비교를 통해 동일인으로 판단되지 않는 경우, 블랙리스트 데이터베이스에 등록하는 단계를 포함할 수 있다.
또한, 상기 본인 인증을 수행하는 단계는 상기 기존의 성문 정보가 활용군으로 등록된 경우, 생성된 상기 성문 정보와의 비교를 통해 동일인으로 판단되면 마스터 데이터베이스에 등록하는 단계를 포함할 수 있다.
또한, 상기 본인 인증을 수행하는 단계는 상기 기존의 성문 정보와의 비교 후, 상기 활용군, 후보군 및 이용불가군 중 어느 하나로 재 등록하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따른 음성 분리를 이용한 실시간 화자인식 시스템은 고객 단말기와 상담원 단말기를 통화 상태로 연결시키며, IP주소를 기반으로 상기 고객 단말기로부터의 음성 신호를 실시간으로 분리하는 교환기와, 분리된 상기 고객 단말기로부터의 음성 신호를 이용하여 성문 정보를 생성하고, 상기 성문 정보를 기초로 상기 고객의 본인 인증을 수행하는 화자인식서버를 포함할 수 있다.
또한, 상기 화자인식 시스템은 상기 교환기와 연동되어 상기 통화 개시에 따른 접속아이디를 생성하고 상기 고객의 개인정보를 결합시켜 상기 상담원 단말기 및 상기 화자인식서버로 제공하는 CTI(Computer Telephony Integration)장치를 포함할 수 있다.
또한, 상기 화자인식 시스템은 분리된 상기 음성 신호를 녹취하는 녹취장치를 포함할 수 있다.
또한, 상기 화자인식서버는 상기 교환기로부터 분리된 상기 음성 신호 및 상기 CTI장치로부터 상기 고객의 개인정보가 결합된 상기 접속아이디를 전송 받고, 상기 접속아이디를 기초로 상기 상담원 단말기와 동기화시키는 송수신 모듈과, 상기 음성 신호를 성문 정보로 변환시키는 성문 모듈과, 상기 성문 정보를 통합 관리하는 데이터베이스와, 상기 데이터베이스를 기반으로 상기 성문 모듈을 통해 전송되는 다른 성문 정보를 비교하여 본인 인증을 수행하고 상기 송수신 모듈을 통해 상기 접속아이디에 해당하는 상기 본인 인증 수행 결과를 상기 상담원 단말기로 제공하는 성문 식별 모듈을 포함할 수 있다.
또한, 상기 데이터베이스는 상기 성문 정보를 차등화하여 관리하기 위한 히스토리 데이터베이스, 블랙리스트 데이터베이스 및 마스터 데이터베이스를 포함할 수 있다.
본 발명의 음성 분리를 이용한 실시간 화자인식 시스템 및 방법에 의하면, 상담원과의 자유로운 통화 중에 고객의 음성이 실시간으로 분리되어 성문 정보를 포함하는 데이터베이스로 구축되고, 향후 고객과의 전화 통화 시 실시간으로 분리되는 고객의 음성을 구축되어 있는 성문 데이터베이스와의 검색 및 비교를 통해 상담 업무의 중단 없이 고객의 본인 여부를 확인할 수 있다. 즉, 고객의 음성을 분리하여 획득하기 위한 ARS 등의 시스템이 채용되지 않아 상담 업무를 수행하기 위한 시스템의 구축이 용이하다. 또한, 상담원과의 원활한 소통을 통해서 종래 개인정보를 제공해야 했던 고객의 거부감을 줄이고, 상담 업무의 효율성을 향상시킬 수 있다. 또한, 상담원과의 자유로운 통화 중에 화자인식을 위한 음성 정보가 고객의 중요한 개인 정보가 유출되는 것을 방지할 수 있으며, 상담 통화 중 본인 여부 확인에 소요되는 시간을 단축시켜 고객 만족도를 향상시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 음성 분리를 이용한 실시간 화자인식 시스템의 구성을 보인 도면이다.
도 2는 본 발명의 일 실시예에 따른 음성 분리를 이용한 실시간 화자인식 시스템에 채용되는 화자인식서버의 구성을 보인 도면이다.
도 3은 도 2에 도시된 화자인식서버의 데이터베이스의 구성을 보인 도면이다.
도 4는 본 발명의 일 실시예에 따른 음성 분리를 이용한 실시간 화자인식 방법을 보인 순서도이다.
이하, 첨부된 도면을 참조하여 본 발명의 음성 분리를 이용한 실시간 화자인식 시스템(이하, '화자인식 시스템'이라 한다)의 실시예를 설명한다.
도 1 내지 도 3을 참조하면, 본 발명의 일 실시예에 따른 화자인식 시스템은 음성(voice)을 발성의 특징 등에 따라 데이터화시킨 성문(voice print) 정보를 이용하여 본인 여부를 실시간으로 확인할 수 있는, 즉 화자인식(speaker recognition)을 수행할 수 있는 시스템이다. 이러한 화자인식 시스템은, 입력 받은 음성 신호를 성문 정보로 변환시키며, 화자가 누구인지, 예컨대 상담원과 실제 전화 통화하는 고객이 누구인지 식별할 수 있도록 비교 성문 정보가 통합 저장되는 데이터베이스가 구축된다. 데이터베이스에 저장되는 성문 정보는 고객의 개인정보, 예컨대 고객의 전화번호, 주민등록번호, 카드번호, 신용정보 등을 기초로 하여 고객마다 구분되어 저장될 수 있다. 상기 화자인식 시스템은 성문 정보를 이용한 본인 인증 방식 이외에도 핸드폰으로 전송된 인증번호를 입력하거나 또는 고객이 소지한 신용카드의 카드번호, 유효번호 등을 입력하는 방식으로도 본인 인증을 수행할 수 있음은 물론이다.
이 실시예에 따른 화자인식 시스템은, 도 1에 도시된 바와 같이, 고객 단말기(100)와 상담원 단말기(200)를 통화 상태로 연결시키며, IP주소를 기반으로 고객 단말기(100)로부터의 음성 신호를 실시간으로 분리하는 교환기(300)와, 분리된 고객 단말기(100)로부터의 음성 신호를 이용하여 성문 정보를 생성하고, 생성된 성문 정보를 기초로 고객의 본인 여부를 확인하는, 즉 본인 인증을 수행하는 화자인식서버(600)를 포함한다. 또한, 상기 화자인식 시스템은 교환기(300)와 연동하여 통화 개시에 따른 접속아이디를 생성하고, 고객의 개인정보를 결합시켜 상담원 단말기(200)로 제공하는 CTI(Computer Telephony Integration)장치를 포함할 수 있다. 또한, 상기 화자인식 시스템은 분리된 고객의 음성 신호를 녹취하는 녹취장치(500)를 포함할 수 있다.
고객 단말기(100)로는 유선 전화기, 무선 전화기, 공중 전화기 등 상담원과 음성 통화가 가능한 단말 장치를 포함하고, 상담원과 화상 통화가 가능한 단말 장치도 포함한다.
이러한 고객 단말기(100)와 통화 상태로 연결되는 상담원 단말기(200)는 전화 회선망이나 IP망 등을 이용하여 연결되는 전화 통화 기능을 갖춘 단말 장치로서, 고객 정보 등을 화면상에 표시할 수 있는 모니터 등의 출력 장치와, 고객과의 상담 내용을 입력할 수 있는 키보드, 키패드 등의 입력 장치를 포함한다. 상담원 단말기(200)를 통해 상담 업무가 진행되는 과정에서 고객의 동의가 있는 경우 화자인증에 필요한 정보, 즉 고객에 대한 음성 정보를 획득할 수 있으며, 고객의 음성을 이용한 화자인식 방식으로 본인 인증을 수행하는 명령을 내릴 수 있다. 이러한 상담원 단말기(200)는 후술되는 CTI장치(400)와 연결되며, 근거리 또는 원거리에 떨어져 있는 적어도 하나 이상의 상담원 단말기(200)를 포함할 수 있다.
교환기(300)는 각종 전화망, 예컨대 인터넷망, 전용망, ISDN망, PSTN 망 등을 통해 고객 단말기(100)와 상담원 단말기(200)간에 음성 신호가 주고받을 수 있도록 한다. 교환기(300)로는 사설 전화 교환기의 일종인 PBX(Private Branch Exchange)를 사용할 수 있다. 이러한 교환기(300)는, 고객 단말기(100)로부터 연결 요청을 받아 적어도 하나 이상의 상담원 단말기(200) 중 어느 하나를 선택하여 통화를 요청하고 상담원 단말기(200)의 콜 신호에 따라 통화가 가능한 상태로 연결시킨다. 또한, 상담원 단말기(200)로부터 연결 요청을 받아 고객 단말기(100)에 통화를 요청하고, 고객 단말기(100)의 콜 신호에 따라 통화가 가능한 상태로 연결시킨다. 이와 같이 고객 단말기(100)와 상담원 단말기(200)를 통화 상태로 연결시키는 교환기(300)는 상담원 단말기(200)의 명령에 따라 CTI장치(400)와 연동하여 IP주소를 기반으로 고객 단말기(100)로부터 전송되는 음성 신호를 분리시킬 수 있다.
상기 교환기(300)에 의해 고객 단말기(100)와 상담원 단말기(200)의 통화가 개시되면 교환기(300)와 연동되어 있는 CTI(Computer Telephony Integration)장치(400)는 해당 통화의 개시에 따른 접속아이디를 생성한다. CTI장치(400)에서 생성된 접속아이디는 고객의 음성을 성문화한 정보, 즉 성문 정보를 데이터베이스화하기 위한 기준 주소로 사용된다. 이와 같이, 고객과 상담원간의 전화 통화마다 고유한 접속아이디를 생성하여 부여함으로써 복수의 고객 단말기(100)와 복수의 상담원 단말기(200)가 동시에 통화 상태로 연결되더라도 고객의 성문 정보를 혼동하지 않고 관리할 수 있다. 이 실시예에서, 접속아이디는 영문과 숫자 등이 조합된 16자리의 코드로 구성되지만, 접속아이디를 구성하기 위한 조합 문자나 자릿수 등이 이에 한정되는 것은 아니다.
녹취장치(500)는 교환기(300)와 연동하여 고객 단말기(100)와 상담원 단말기(200)의 통화 내용을 녹취(녹음 또는 녹화)할 수 있다. 녹취장치(500)에는 저장 수단이 구비되어 교환기(300)로부터 분리된 고객의 음성 신호만을 저장할 수 있으며, 고객의 음성 신호 외에 상담원의 음성 신호가 혼합된 음성 정보를 저장할 수도 있다. 녹취장치(500)는 통화 개시 시점으로부터 작동할 수 있으며 통화가 종료되는 시점에서 녹취를 종료할 수 있다. 이러한 녹취장치(500)는 고객 단말기(200)에 의해 강제적으로 녹취가 개시, 중지, 종료될 수 있다.
화자인식서버(600)는 실시간으로 분리된 고객의 음성 신호를 전송받아 성문 정보(voice print)를 생성하고, 성문 정보를 고객정보와 결합된 형태로 통합 관리되도록 데이터베이스를 구축한다. 이러한 화자인식서버(600)는, 도 2에 도시된 바와 같이, CTI장치(400)로부터 생성되어서 상담원 단말기(200)를 통해 고객의 개인정보가 결합되는 접속아이디를 전송 받고, 또한 교환기(300)로부터 분리된 음성 신호를 전송 받는 송수신 모듈(640)과, 송수신 모듈(640)로 전송된 음성 신호를 성문 정보로 변환시키는 성문 모듈(610)과, 성문 정보를 통합 관리하는 데이터베이스(620)와, 데이터베이스(620)를 기반으로 성문 모듈(610)을 통해 전송되는 다른 성문 정보를 비교하여 본인 인증을 수행하고 송수신 모듈(640)을 통해 본인 인증 수행 결과를 상담원 단말기(200)로 제공하는 성문 식별 모듈(630)을 포함한다.
송수신 모듈(640)은 CTI장치(400)와 연결되고, CTI장치(400)는 상담원 단말기(200)와 연결되어 송수신 모듈(640)로부터 제공되는 각종 정보, 예컨대 본인 인증 수행 결과 등이 CTI장치(400)를 경유하여 상담원 단말기(200)에 제공된다. 이러한 송수신 모듈(640)은 CTI장치(400)로부터 고객의 개인정보가 결합된 접속아이디를 전송 받고, 상담원 단말기(200)와 동기화된다. 여기서, '동기화'된다는 것은 상담원 단말기(200)와 화자인식서버(600)를 연동시키는 것을 의미하며, 이로써 생성된 고객의 성문 정보를 접속아이디에 결합된 고객의 개인정보를 근거로 하여 데이터베이스(620)에 새로이 등록하거나 또는 생성된 고객의 성문 정보가 데이터베이스(620)에 등록되어 있는 기존의 성문 정보와 비교될 수 있게 된다. 즉, 상담원 단말기(200)와 화자인식서버(600)를 동기화시킴으로써 고객 단말기(100)로부터 획득된 정보를 상담원 단말기(200)와 화자인식서버(600)에서 실시간으로 공유할 수 있으며, 이러한 공유를 통해 고객의 성문 정보를 고객의 개인정보에 따라 구분지어 효율적으로 관리할 수 있다.
데이터베이스(620)에는 고객 확인 절차와 음성의 유입경로 등에 따라 성문 정보가 차등화되며, 이러한 차등화된 성문 정보는 복수의 관리등급, 예컨대 이용불가군, 후보군 및 활용군 등에 따라 구분되어 등록된다. 이 실시예에서는 복수의 관리등급으로서 이용불가군, 후보군 및 활용군을 예로 들었지만, 이에 한정되는 것은 아니다. 고객 확인 절차는 고객의 신분을 확인하는 과정에서 어떠한 인증 방식이 사용되었는지에 따라 달라질 수 있다. 예컨대, 고객이 소지한 핸드폰을 통해 고객이 설정한 주민등록번호, 카드번호 등이 입력되었는지, 화자인식 시스템에서 고객의 핸드폰으로 전송한 인증번호가 화자인식 시스템에 입력되었는지 혹은 음성 분리를 통한 화자인식이 이루어졌는지에 따라 고객 확인 절차에 차등화된 등급이 매겨질 수 있다. 또한, 음성의 유입경로는 개인정보를 확인할 수 없는 고객이 전화를 걸어 상담원과 연결되었는지, 제휴사 등에 가입된 고객 등으로 일부 개인정보를 확인할 수 있는 고객이 전화를 걸어 상담원과 연결되었는지 혹은 고객의 개인정보에 대해 알고 있는 상담원이 고객에게 전화를 걸어 연결되었는지 등에 따라 음성의 유입경로도 차등화된 등급이 매겨질 수 있다. 이와 같이 차등화된 복수의 성문 정보가 용이하게 관리될 수 있도록 데이터베이스(620)는, 도 3에 도시된 바와 같이, 고객의 성문 정보와 고객의 개인정보 등에 따라 이용불가군, 후보군 및 활용군 중 어느 하나의 관리등급으로 성문 정보를 분류하는 히스토리 데이터베이스(621)와, 성문 정보의 비교를 통해 본인 인증이 확인되지 않은 경우, 예컨대 명의도용이 의심되는 고객의 성문 정보를 저장하는 블랙리스트 데이터베이스(622)와, 본인 인증이 확인된 고객의 성문 정보를 저장하는 마스터 데이터베이스(623)를 포함할 수 있다.
화자인식서버(600)의 성문 모듈(610)은 템플릿 매칭 기술(template matching techniques) 등을 기초로 고객의 음성 신호를 특징화시킬 수 있다. 여기서, 템플릿 매칭 기술이란 입력된 음성 정보의 시간축 샘플과 등록된 화자의 성문 정보, 참조 템플릿(reference template) 또는 참조 모델(reference model)의 결합과 발성된 발음의 축적된 내용과의 유사성을 비교하는 패턴인식 기술을 의미한다. 성문 모듈(610)에서는 분리된 고객의 음성 신호를 성문화된 자료로 사용하기 때문에 고객이 특정 문맥에 따라 발성해야 하는 문맥의 종속(text dependent) 방식 및 고객의 특정 문맥에 따라 발성할 필요가 없는 문맥의 독립(text independent) 방식을 성문을 비교하기 위한 방법으로 모두 사용할 수 있다.
화자인식서버(600)에서 분석되는 성문 정보를 통해 특정 단어가 언급되었는지 또는 특정 단어가 몇 번이나 언급되었는지 확인할 수 있으며, 이를 통해 고객의 불만이나 요청 사항 등을 성문 정보의 검색을 통해서도 확인할 수 있다. 또한, 성문 정보에는 통화 시간에 대한 정보도 함께 포함되어 있어 고객과 상담원의 통화 내용 중 특정 시간대, 예컨대 통화 중반 내용이나 후반 내용을 특정하여 통화 내용을 확인할 수 있다. 따라서, 상담원의 상담 능력을 평가하거나 또는 고객의 심리 상태를 판단하는 등의 추가적인 통화 내용 분석을 수행할 수 있다.
고객과 상담원과의 통화가 개시되면, CTI장치(400)는 통화 개시에 따른 접속아이디를 생성하여 상담원 단말기(200)와 화자인식서버(600)에 전송한다. 또한, 상담원 단말기(200)는 접속아이디에 고객의 개인정보를 결합시키고, CTI장치(400)는 상담원 단말기(200)와 화자인식서버(600)를 동기화시킨다. 이후, 고객과 상담원간의 통화 중에 본인 인증을 위한 업무가 필요한 경우, 상담원 단말기(200)의 요청에 의해 해당 접속아이디를 기준으로 성문 정보의 등록 여부를 확인하는 절차가 수행된다. 즉, 상담원 단말기(200)의 요청에 의해 화자인식서버(600)에 저장되어 있는 데이터베이스를 검색하여 해당 고객에 대한 성문 정보의 존재 여부가 확인된다. 해당 고객, 즉 상담원과 통화 중인 상담 대상에 대한 성문 정보가 화자인식서버(600)에 존재하고 있지 않은 경우에는 성문 정보를 성문 데이터베이스에 등록하게 되고, 성문 정보가 존재하는 경우에는 통화 중인 고객, 즉 상담 대상에 대한 본인 인증에 활용된다. 이와 같은 화자인식 시스템을 통해 고객과의 통화 중에 고객의 음성을 분리하고, 이를 고객에 대한 성문 정보로 등록할 수 있으며, 향후 상담 통화를 진행하는 경우 본인 인증을 위한 정보로 활용할 수 있다.
이하, 전술한 본 발명의 일 실시예에 따른 화자인식 시스템을 이용한 화자인식 방법에 관하여 첨부된 도면을 참조하여 설명한다.
후술되는 내용에서 화자인식 시스템의 설명 중 동일한 내용이 있는 경우에는 간단히 언급하거나 생략하기로 한다.
도 4를 참조하면, 본 발명의 일 실시예에 따른 음성 분리를 이용한 화자인식 방법은, 도 4에 도시된 바와 같이, 고객과 상담원을 통화 가능한 상태로 연결하는 단계(S110)와, IP주소를 기반으로 고객의 음성 신호를 실시간으로 분리하여 녹취하는 단계(S120)와, 녹취된 고객의 음성 신호를 이용하여 고객의 성문 정보를 생성하는 단계(S130)와, 고객의 성문 정보가 데이터베이스에 등록되어 있는지 확인하는 단계(S140)와, 고객의 성문 정보가 상기 데이터베이스에 등록되어 있지 않은 경우, 생성된 성문 정보를 데이터베이스에 등록하는 단계(S150) 및 고객의 성문 정보가 데이터베이스에 등록되어 있는 경우, 생성된 성문 정보를 데이터베이스에 등록된 기존 성문 정보와 비교하여 본인 인증을 수행하는 단계(S160)를 포함한다.
고객과 상담원을 통화 가능한 상태로 연결하는 단계(S110)는 고객의 요청에 의해 통화가 이루어지거나 또는 상담원의 요청에 의해 통화가 이루어질 수 있다. 또한, 고객과 상담원의 통화 연결 시 고객의 핸드폰 등을 이용한 본인 인증이 선행될 수 있다.
고객과 상담원이 통화 가능한 상태로 연결되면, 통화의 개시에 따른 접속아이디가 생성되고, 생성된 접속아이디에 고객의 개인정보가 결합되어 상담원 및 화자인식서버에 제공되고, 상담원의 단말기와 화자인식서버가 동기화된다. 이와 같이, 고객의 개인정보가 결합된 동일한 접속아이디가 상담원 및 화자인식서버에 제공되고, 양자가 동기화됨에 따라 향후 화자인식을 위해 생성된 고객의 성문 정보가 고객의 개인정보에 근거하여 데이터베이스에 등록되거나 또는 데이터베이스에 등록된 기존 성문 정보와 비교될 수 있다. 즉, 고객으로부터 획득된 성문 정보를 고객의 개인정보와 연계하여 등록하거나 또는 본인 인증을 위한 비교 정보로 사용함으로써 성문 정보를 해당 고객의 성문 정보로 정확하게 등록시킬 수 있으며, 동일한 개인정보를 가진 고객의 기존 성문 정보와 용이하게 비교할 수 있다.
고객과 상담원의 통화가 이루어지는 과정에서, 고객의 동의가 있는 경우, 고객의 단말기에 대한 IP주소를 기반으로 하여 고객의 음성 신호가 분리된다(S120). 이후, 분리된 고객의 음성 신호를 이용하여 성문 정보가 생성되며(S130), 생성된 성문 정보는 데이터베이스에 등록되거나 또는 본인 인증을 위한 비교 정보로 사용된다.
상담 대상에 대한 성문 정보가 데이터베이스에 구축되어 있지 않은 경우, 신규 고객에 대해 생성된 성문 정보는 향후 상담 업무 중 본인 인증을 위한 정보로 활용될 수 있도록 데이터베이스에 등록된다. 이때, 성문 정보는 고객의 개인정보, 예컨대 고객의 신용정보 등을 기초로 상담원의 입력에 따라 이루어지는 고객 확인절차 및 음성 유입경로 등에 따라 차등화된 관리등급, 예컨대 이용불가군, 후보군 및 활용군 중 어느 하나로 등록된다.
이와 같이 기존의 성문 정보가 이용불가군, 후보군, 활용군 중 어느 하나로 등록된 상태에서, 이후 생성된 성문 정보와의 비교를 통해 동일인으로 판단되지 않은 경우에는 성문 정보가 명의도용이 의심되는 고객을 관리하기 위한 블랙리스트 데이터베이스에 등록된다. 또한, 본인 인증을 수행하는 단계에서 기존의 성문 정보가 활용군으로 등록된 경우, 생성된 성문 정보와의 비교를 통해 동일인으로 판단되면 해당 성문 정보가 마스터 데이터베이스에 등록된다. 또한, 기존의 성문 정보와의 비교 후, 상기 활용군, 후보군 및 이용불가군 중 어느 하나의 관리등급으로 등록된 기존의 성문 정보를 변경된 고객의 개인정보 등에 따라 활용군, 후보군 및 이용불가군 중 어느 하나의 관리등급으로 재 등록시킬 수 있다.
이와 같이, 고객과의 통화 중에 고객의 음성을 실시간으로 분리하고 성문 정보를 획득하여 데이터베이스를 구축함으로써 고객의 성문 정보에 대한 정확성을 높여 화자인식을 필요로 하는 상담 업무의 인증 효율을 향상시킬 수 있다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 명백하다 할 것이다.
100: 고객 단말기 200: 상담원 단말기
300: 교환기 400: CTI장치
500: 녹취장치 600: 화자인식서버

Claims (12)

  1. 삭제
  2. 삭제
  3. 고객과 상담원을 통화 가능한 상태로 연결하는 단계와,
    IP주소를 기반으로 상기 고객의 음성 신호를 실시간으로 분리하여 녹취하는 단계와,
    녹취된 상기 고객의 음성 신호를 이용하여 상기 고객의 성문 정보를 생성하는 단계와,
    상기 고객의 성문 정보가 화자인식서버의 데이터베이스에 등록되어 있는지 확인하는 단계와,
    상기 고객의 성문 정보가 상기 데이터베이스에 등록되어 있지 않은 경우, 생성된 상기 성문 정보를 상기 데이터베이스에 등록하는 단계와,
    상기 고객의 성문 정보가 상기 데이터베이스에 등록되어 있는 경우, 생성된 상기 성문 정보를 상기 데이터베이스에 등록된 기존 성문 정보와 비교하여 본인 인증을 수행하는 단계를 포함하고,
    상기 고객과 상담원을 통화 가능한 상태로 연결하는 단계는,
    상기 통화의 개시에 따른 접속아이디를 생성하여 상기 상담원 및 상기 화자인식서버로 제공하는 단계와,
    상기 접속아이디에 상기 고객의 개인정보를 결합시키는 단계와,
    상기 접속아이디에 결합된 상기 고객의 개인정보를 근거로 하여, 생성된 상기 고객의 성문 정보가 상기 데이터베이스에 새로이 등록되거나 또는 생성된 상기 고객의 성문 정보가 상기 데이터베이스에 등록되어 있는 상기 기존 성문 정보와 비교될 수 있도록 상기 상담원의 단말기와 상기 화자인식서버를 동기화시키는 단계를 포함하고,
    상기 성문 정보를 상기 데이터베이스에 등록하는 단계는,
    상기 고객의 개인정보를 기초로 상기 상담원의 입력에 따른 고객 확인 절차 및 음성 유입경로에 따라 상기 성문 정보를 복수의 관리등급으로 차등화하여 등록하는 단계를 포함하는 음성 분리를 이용한 실시간 화자인식 방법.
  4. 제3항에 있어서,
    상기 성문 정보를 복수의 관리등급으로 차등화하여 등록하는 단계는,
    상기 성문 정보를 활용군, 후보군 및 이용불가군 중 어느 하나의 관리등급으로 등록하는 단계를 포함하는 음성 분리를 이용한 실시간 화자인식 방법.
  5. 제4항에 있어서,
    상기 본인 인증을 수행하는 단계는,
    상기 기존의 성문 정보와의 비교를 통해 동일인으로 판단되지 않는 경우, 블랙리스트 데이터베이스에 등록하는 단계를 포함하는 음성 분리를 이용한 실시간 화자인식 방법.
  6. 제5항에 있어서,
    상기 본인 인증을 수행하는 단계는,
    상기 기존의 성문 정보가 활용군으로 등록된 경우, 생성된 상기 성문 정보와의 비교를 통해 동일인으로 판단되면 마스터 데이터베이스에 등록하는 단계를 포함하는 음성 분리를 이용한 실시간 화자인식 방법.
  7. 제4항에 있어서,
    상기 본인 인증을 수행하는 단계는,
    상기 기존의 성문 정보와의 비교 후, 상기 활용군, 후보군 및 이용불가군 중 어느 하나로 재등록하는 단계를 포함하는 음성 분리를 이용한 실시간 화자인식 방법.
  8. 고객 단말기와 상담원 단말기를 통화 상태로 연결시키며, IP주소를 기반으로 상기 고객 단말기로부터의 음성 신호를 실시간으로 분리하는 교환기와,
    분리된 상기 고객 단말기로부터의 음성 신호를 이용하여 성문 정보를 생성하고, 상기 성문 정보를 기초로 상기 고객의 본인 인증을 수행하는 화자인식서버 및
    상기 교환기와 연동되어 상기 통화 개시에 따른 접속아이디를 생성하고 상기 고객의 개인정보를 결합시켜 상기 상담원 단말기 및 상기 화자인식서버로 제공하는 CTI(Computer Telephony Integration)장치를 포함하고,
    상기 화자인식서버는,
    상기 교환기로부터 분리된 상기 음성 신호 및 상기 CTI장치로부터 상기 고객의 개인정보가 결합된 상기 접속아이디를 전송 받고, 상기 접속아이디를 기초로 상기 상담원 단말기와 동기화시키는 송수신 모듈과,
    상기 음성 신호를 성문 정보로 변환시키는 성문 모듈과,
    상기 성문 정보를 통합 관리하는 데이터베이스와,
    상기 데이터베이스를 기반으로 상기 성문 모듈을 통해 전송되는 다른 성문 정보를 비교하여 본인 인증을 수행하고 상기 송수신 모듈을 통해 상기 접속아이디에 해당하는 상기 본인 인증 수행 결과를 상기 상담원 단말기로 제공하는 성문 식별 모듈을 포함하고,
    상기 데이터베이스는,
    상기 성문 정보를 차등화하여 관리하기 위한 히스토리 데이터베이스, 블랙리스트 데이터베이스 및 마스터 데이터베이스
    를 포함하는 음성 분리를 이용한 실시간 화자인식 시스템.
  9. 삭제
  10. 제8항에 있어서,
    분리된 상기 음성 신호를 녹취하는 녹취장치를 포함하는 음성 분리를 이용한 실시간 화자인식 시스템.
  11. 삭제
  12. 삭제
KR1020110143903A 2011-12-27 2011-12-27 음성 분리를 이용한 실시간 화자인식 시스템 및 방법 KR101304112B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110143903A KR101304112B1 (ko) 2011-12-27 2011-12-27 음성 분리를 이용한 실시간 화자인식 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110143903A KR101304112B1 (ko) 2011-12-27 2011-12-27 음성 분리를 이용한 실시간 화자인식 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20130075513A KR20130075513A (ko) 2013-07-05
KR101304112B1 true KR101304112B1 (ko) 2013-09-05

Family

ID=48989389

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110143903A KR101304112B1 (ko) 2011-12-27 2011-12-27 음성 분리를 이용한 실시간 화자인식 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR101304112B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230145816A (ko) 2022-04-11 2023-10-18 광주과학기술원 화자 기반 음성 분리 장치 및 방법

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105575391B (zh) * 2014-10-10 2020-04-03 阿里巴巴集团控股有限公司 声纹信息管理方法、装置以及身份认证方法、系统
KR102621881B1 (ko) * 2018-09-05 2024-01-05 주식회사 케이티 상담사와 상담하는 화자를 인증하는 서버 및 방법
KR102306640B1 (ko) * 2019-07-17 2021-09-28 주식회사 케이티 고객센터 목소리 인증 시스템 및 목소리 인증 방법
KR102313387B1 (ko) * 2019-11-07 2021-10-14 연세대학교 산학협력단 기계학습 기반의 화자 분리 방법 및 그를 위한 장치
CN111627448A (zh) * 2020-05-15 2020-09-04 公安部第三研究所 实现基于语音大数据的审讯与谈话控制系统及其方法
US11893976B2 (en) 2020-07-06 2024-02-06 Samsung Electronics Co., Ltd. Electronic device and operation method thereof
KR20220005228A (ko) * 2020-07-06 2022-01-13 삼성전자주식회사 전자 장치 및 전자 장치의 동작 방법
CN111933151A (zh) * 2020-08-16 2020-11-13 云知声智能科技股份有限公司 通话数据处理的方法、装置、设备及存储介质
CN113051426A (zh) * 2021-03-18 2021-06-29 深圳市声扬科技有限公司 音频信息分类方法、装置、电子设备及存储介质
CN113314125A (zh) * 2021-05-28 2021-08-27 深圳市展拓电子技术有限公司 监室对讲机声纹识别方法、系统及存储器
CN113643700B (zh) * 2021-07-27 2024-02-27 广州市威士丹利智能科技有限公司 一种智能语音开关的控制方法及系统
CN113674755B (zh) * 2021-08-19 2024-04-02 北京百度网讯科技有限公司 语音处理方法、装置、电子设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020080756A (ko) * 2001-04-17 2002-10-26 주식회사 엠보이스텔레소프트 사용자를 자동으로 인증할 수 있는 맞춤형 전화 자동 응답방법 및 시스템
JP2005510771A (ja) * 2001-11-29 2005-04-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ バージイン対話システムの操作方法
KR101021217B1 (ko) * 2010-06-14 2011-03-11 주식회사 예스피치 고객 진행 정보 제공 기능을 가지는 자동응답 시스템 및 고객 진행 정보 제공 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020080756A (ko) * 2001-04-17 2002-10-26 주식회사 엠보이스텔레소프트 사용자를 자동으로 인증할 수 있는 맞춤형 전화 자동 응답방법 및 시스템
JP2005510771A (ja) * 2001-11-29 2005-04-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ バージイン対話システムの操作方法
KR101021217B1 (ko) * 2010-06-14 2011-03-11 주식회사 예스피치 고객 진행 정보 제공 기능을 가지는 자동응답 시스템 및 고객 진행 정보 제공 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230145816A (ko) 2022-04-11 2023-10-18 광주과학기술원 화자 기반 음성 분리 장치 및 방법

Also Published As

Publication number Publication date
KR20130075513A (ko) 2013-07-05

Similar Documents

Publication Publication Date Title
KR101304112B1 (ko) 음성 분리를 이용한 실시간 화자인식 시스템 및 방법
CN106373575B (zh) 一种用户声纹模型构建方法、装置及系统
US10122712B2 (en) Voice over IP based biometric authentication
US6327347B1 (en) Calling party identification authentication and routing in response thereto
US8290951B1 (en) Unstructured data integration with a data warehouse
US20070055517A1 (en) Multi-factor biometric authentication
US20030074201A1 (en) Continuous authentication of the identity of a speaker
US20020007462A1 (en) User authentication system
US7627472B2 (en) Method and system for person/speaker verification via communications systems
US8406383B2 (en) Voice authentication for call control
CA2565983A1 (en) Centralized biometric authentication
US9462134B2 (en) Method enabling verification of the user ID by means of an interactive voice response system
US7248678B2 (en) Methods and apparatus for routing and accounting of revenue generating calls using natural language voice recognition
US20070033041A1 (en) Method of identifying a person based upon voice analysis
KR20130133828A (ko) 화자 인식을 위한 자연적 등록 방법
US20120330663A1 (en) Identity authentication system and method
US10936706B2 (en) Biometric authentication
JP2008234398A (ja) 音声認証システム及び認証局サーバ
KR102621881B1 (ko) 상담사와 상담하는 화자를 인증하는 서버 및 방법
KR102193307B1 (ko) 화자인증을 이용한 고객인증 기능을 가지는 인공지능 자동응답시스템 및 방법
JP3953368B2 (ja) 認証システム及び認証装置
JP2017157037A (ja) 認証装置、認証システム、認証方法、及びプログラム
JP2003502918A (ja) 電話呼出し処理方法および該方法の実施用電話インターフェイス
KR20100092074A (ko) 보이스 피싱 예방을 위한 등록 발신자 식별음 제공 시스템,방법 및 기록매체
KR20100092076A (ko) 보이스 피싱 예방을 위한 발신자 식별음 검출 및 주의정보 제공 시스템, 방법 및 기록매체

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160621

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170621

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180725

Year of fee payment: 6